新四季網

一種基於增強學習的動態保護路徑規劃方法與流程

2023-06-09 23:37:31

本發明涉及一種基於增強學習的動態保護路徑規劃方法,屬於信息安全
技術領域:
:。
背景技術:
::在研究用於系統安全性檢查的網絡攻擊系統時,目前主要有兩類方法:一類是基於數值計算法(risk-based),另外一類是基於圖形表達法(graph-based)。基於圖形表達法是指使用圖形來表達可能攻擊路徑、系統狀態轉移關係,而網絡攻擊圖是基於圖形表達法中最為典型的一種,該方法目的在於查找網絡中的攻擊路徑,描述引起系統狀態變遷的行為序列,通過綜合攻擊、漏洞、目標、主機和網絡連接關係等因素來描述網絡安全的狀態。網絡安全分析人員在對網絡攻擊圖進行分析之後,可以有針對性地採取提高網絡安全性的有效措施。目前,比較常用的網絡攻擊圖有:基於脆弱性的網絡攻擊圖以及基於網絡狀態的攻擊圖。基於上述兩種攻擊圖的攻擊路徑或保護路徑的生成方法存在的問題是:①生成速度慢;②為了解決狀態爆炸的問題,採用限定攻擊路徑的方式,導致攻擊路徑包含不全等問題。2016年10月,KeremKaynarandFikretSivrikaya等人提出的基於分布式的網絡攻擊圖,其具有生成速度快,對攻擊路徑包含全,並且解決了狀態爆炸的問題。但是,目前還沒有人提出基於分布式的網絡攻擊圖的攻擊路徑或保護路徑的生成方法。網絡攻擊圖的相關術語定義:定義1:特權(Privilege)節點。特權節點代表了一個攻擊者在一個網絡主機上的一個軟體應用的權限。它由六個元組組成。其中,IPAddress定義了正在運行的軟體應用在哪個主機的,用IPAddress記錄所述主機的IP位址。CPEId是所述正在運行的軟體應用的CPEidentifier。ApplicationName是所述正在運行的軟體應用的名稱。Category代表了攻擊者在軟體應用上控制的categoryofcondition。InEdges和OutEdges是存放在攻擊圖中與privilege節點連接的出邊和入邊的隊列。定義2:特權關聯性(Privilegeconjunction)節點代表了在攻擊圖中一系列特權節點的連接器。它由二個元組組成。InEdges和OutEdges分別是存放在攻擊圖中與特權關聯性節點連接的出邊和入邊的隊列。定義3:漏洞利用(VulnerabilityExploit)節點代表了在一個網絡主機中的一個軟體應用中被攻擊者利用的漏洞。它由六個元組組成。定義4:信息資源使用(Informationsourceusage)節點代表了在網絡主機中的一個軟體應用中被攻擊者接近或使用的信息資源。所述信息資源包括:cookiefile,DNStable,databasetable,etc.它由六個元組組成。其中,ISName是在軟體應用中被使用的信息資源的名字。定義5:攻擊圖G=(N,E),N是一組節點,E是一組邊。n為節點,n∈N,n可以是一個privilege節點,privilegeconjunction節點,vulnerabilityexploit節點或者informationsourceusage節點。E為邊,e∈E,e是一個二元素元組。SourceNode和TargetNode代表了邊e的源節點(source)和目標節點(target)。e∈{<Pr,Ve>,<Pr,Pc>,<Pr,Isu>,<Pc,Ve>,<Ve,Pr>,<Isu,Pr>}。<Pr,Ve>,<Pr,Isu>說明了攻擊者利用漏洞Ve或信息源Isu的充分必要條件為存在唯一的privilege節點Pr。<Pr,Pc>表示一個攻擊者想針對Pc利用漏洞Ve或信息源Isu,privilege節點Pr是獲取與Pc的出邊連接的漏洞Ve或信息源Isu的必要前提條件之一。,表明了一個攻擊者通過已經獲得的特權節點Pr連接到Pc導致了漏洞Ve的利用或信息源Isu的使用。,:對漏洞Ve的利用或信息源Isu的使用會導致攻擊者獲得privilege節點Pr。技術實現要素:本發明的目的是提出一種基於增強學習的動態保護路徑規劃方法,解決已有的動態保護路徑規劃方法中存在的生成速度慢以及狀態爆炸或者攻擊路徑包含不全等問題。本發明的目的是通過以下技術方案實現的。本發明的一種基於增強學習的動態保護路徑規劃方法,具體操作為:步驟一、生成分布式的網絡攻擊圖。具體為:步驟1.1:使用2個以上搜索代理同時搜索網絡中未被使用的特權節點,並將它們壓入各搜索代理的搜索棧中。步驟1.2:將特權節點進行擴展。步驟1.3:搜索棧中沒有特權節點的搜索代理,依次向其他搜索代理請求一個或多個特權節點。具體為:搜索棧中沒有特權節點的搜索代理向一個搜索代理請求一個或多個特權節點,如果當前被請求搜索代理中沒有特權節點返回給請求搜索代理,則請求搜索代理向下一個其它搜索代理髮送請求。如果被請求代理有特權節點返回給請求代理,即搜索代理獲得特權節點,則返回到步驟1.2,並重複步驟1.2至1.3的操作。如果全部其他搜索代理都沒有特權節點返回給請求代理,那麼將當前沒有特權節點的搜索代理設置為掛起(passive)模式。步驟1.4:當所有搜索代理都進入掛起模式時,搜索結束,執行步驟1.5的操作。步驟1.5:將每個搜索代理的子攻擊圖更新,然後匯總到總(leader)代理,生成分布式的網絡攻擊圖。步驟二、尋找最差攻擊路徑。在步驟一操作的基礎上,使用通用安全漏洞評估系統(CommonVulnerabilityScoringSystem,CVSS)對步驟一生成的網絡攻擊圖中的所有原子攻擊添加攻擊成功率,並通過公式(1)計算攻擊路徑成功率。所述原子攻擊為單次對漏洞的利用或對信息源的使用的攻擊。Pr=pr0×pr1×......×prn-1(1)其中,Pr表示攻擊路徑成功率;pr0、pr1、.....、prn-1分別表示第1條邊到第n條邊的攻擊成功率。然後,選取攻擊路徑成功率最低的一條路徑作為最差攻擊路徑,得到特權節點集合。步驟三、生成網絡模型。步驟三與步驟一同步操作,具體為:步驟3.1:獲取主機中的軟體應用和網絡接口。步驟3.2:獲取各個網絡接口所聯繫的IP位址和會話連結。步驟3.3:獲取各個軟體應用所使用的埠號、IP位址、信息源以及所述軟體應用的後端應用。步驟3.4:根據步驟3.1至3.3得到的各參數之間的邏輯關係建立網絡模型。步驟四、通過增強學習,獲取最佳保護路徑。具體為:步驟4.1:用符號V*(S)表示在狀態S下的收益最優值,則收益最優值函數如公式(1)所示。V*(S)=max(π)Vπ(S)(1)其中,S為前置狀態;π表示政策;max(π)Vπ(S)表示在狀態S下,選取政策π使得總收益函數Vπ(S)最大化。步驟4.2:將公式(1)轉換為貝爾曼方程,如公式(2)所示。其中,V(S)為在狀態S下的收益值;R(S)為獎勵函數;γ為貼現因子,γ∈(0,1);S'為後置狀態;a表示動作;Psa(S')表示在狀態S下,通過動作a轉換到S'狀態的概率;V*(S')表示在狀態S′下的收益最優值。步驟4.3:初始化V(S)=0,同時設置V*(S)的閾值,用符號σ表示,σ≥10000。對公式(2)進行迭代,直到V(S)收斂於V*(S),獲取此時的政策π,得到網絡節點集合。步驟4.4:如果步驟二得到的最差攻擊路徑對應的攻擊路徑成功率Pr>d,d為人為設定的閾值,d∈[0.1,0.3],則步驟4.3得到網絡節點集合對應的傳輸路徑為最優保護路徑,結束操作。否則,執行步驟4.5的操作。步驟4.5:用步驟4.3得到的網絡節點集合與步驟二得到的權限節點集合取交集,得到信息傳輸節點集合。如果信息傳輸節點集合不為空,則信息傳輸節點集合對應的傳輸路徑即為最優保護路徑。如果信息傳輸節點集合為空,則在步驟二中向上查找次差攻擊路徑以及對應的權限節點集合,然後重複步驟4.3至步驟4.5的操作,得到信息傳輸節點集合。如果信息傳輸節點集合依然為空,則在步驟二中繼續向上查找,重複步驟4.3至步驟4.5的操作。有益效果本發明提出的基於增強學習的動態保護路徑規劃方法與已有技術相比較,具有以下優點:①不需要收集訓練數據,對網絡模型進行訓練。②可以在線學習,不斷確定不同時刻不同網絡狀態對應的最佳保護路徑。④對傳輸數據的保護程度高。④最優保護路徑生成速度快。附圖說明圖1為本發明具體實施方式中的攻擊圖;圖2為本發明具體實施方式中的網絡拓撲圖;圖3為本發明具體實施方式中的世界圖。具體實施方式根據上述技術方案,下面結合附圖和實施實例對本發明進行詳細說明。使用本發明提出的基於增強學習的動態保護路徑規劃方法,得到信息傳輸節點集合的具體操作步驟為:步驟一、生成分布式的網絡攻擊圖。具體為:步驟1.1:使用6個搜索代理同時搜索網絡中未被使用的特權節點,並將它們壓入各搜索代理的搜索棧中。步驟1.2:將特權節點進行擴展。步驟1.3:搜索棧中沒有特權節點的搜索代理,依次向其他搜索代理請求一個或多個特權節點。如果當前被請求代理中沒有特權節點返回給請求代理,則請求代理向下一個其他代理髮送請求。如果被請求代理有特權節點返回給請求代理,即搜索代理獲得特權節點,則返回到步驟1.2,並重複步驟1.2至1.3的操作。如果全部其他搜索代理都沒有特權節點返回給請求代理,那麼將當前沒有特權節點的搜索代理設置為掛起(passive)模式。步驟1.4:當所有搜索代理都進入掛起模式時,搜索結束,執行步驟1.5的操作。步驟1.5:將每個搜索代理的子攻擊圖更新,然後匯總到總(leader)代理,生成分布式的網絡攻擊圖。步驟二、尋找最差攻擊路徑。在步驟一操作的基礎上,使用通用安全漏洞評估系統(CommonVulnerabilityScoringSystem,CVSS)對步驟一生成的網絡攻擊圖中的所有原子攻擊添加攻擊成功率,並通過公式(1)計算攻擊路徑成功率。Pr=pr0×pr1×......×prn-1(1)其中,Pr表示攻擊路徑成功率,Pr;pr0、pr1、.....、prn-1分別表示第1條邊到第n條邊的攻擊成功率。攻擊成功率的取值根據表1確定。表1攻擊成功率賦值標準等級pr描述10.9不需要攻擊工具,有詳細的攻擊方法20.7有可用的攻擊工具和詳細的攻擊方法30.5無攻擊工具但有詳細的攻擊方法40.3弱點信息發布,粗略說明攻擊方法50.1弱點信息發布,未給出攻擊方法然後,利用漏洞掃描器和分布式攻擊圖算法,生成並簡化攻擊圖,得到如圖1所示的攻擊圖。圖1中,攻擊邊上的數字為脆弱利用成功率,U為USERT權限,R為ROOT權限。攻擊路徑匯總情況如表2所示。最後,選取攻擊路徑成功率最低的一條路徑作為最差攻擊路徑,得到特權節點集合。此時,攻擊路徑為(H0,H3)(H3,H5),攻擊路徑成功率為0.1。表2攻擊路徑匯總表最終權限攻擊路徑攻擊成功率H5,R(H0,H3)(H3,H5)0.1H5,R(H0,H2)(H2,H5)(H5,H5)0.36H5,R(H0,H2)(H2,H4)(H4,H5)(H5,H5)0.3024H5,R(H0,H3)(H3,H5)(H5,H5)0.18獲取最差攻擊路徑為(H0,H3)(H3,H5)H0,H3,H5對應的默認網關地址為192.168.1.1,10.96.21.2和10.96.68.8。網絡中交換機IP手動設置為192.168.0.5。步驟三、生成網絡模型。步驟三與步驟一同步操作,具體為:步驟3.1:獲取主機中的軟體應用和網絡接口。步驟3.2:獲取各個網絡接口所聯繫的IP位址和會話連結。步驟3.3:獲取各個軟體應用所使用的埠號、IP位址、信息源以及所述軟體應用的後端應用。步驟3.4:根據步驟3.1至3.3得到的各參數之間的邏輯關係建立網絡模型,如圖2所示。其中,外網人員可以訪問DMZ區中Host2和Host3的瀏覽器和DNS域名。Host2可以訪問Host3中的mail服務,和訪問Host4上的SQL服務。Host2和Host3都禁止訪問管理伺服器Host5。Host5可以訪問Host2,3,4上的各種終端。步驟四、通過增強學習,獲取最佳保護路徑。具體為:步驟4.1:用符號V*(S)表示在狀態S下的收益最優值,則收益最優值函數如公式(1)所示。V*(S)=max(π)Vπ(S)(1)其中,S為前置狀態;π表示政策;max(π)Vπ(S)表示在狀態S下,選取政策π使得總收益函數Vπ(S)最大化。政策π:行動狀態的函數映射(S→A)。即對於每個狀態,系統建議我們在此狀態採取什麼行動。Vπ(S):對於任何給定的政策π,定義值函數Vπ(S):S→R(實數集)。Vπ(S)是預期總收益。步驟4.2:將公式(1)轉換為貝爾曼方程,如公式(2)所示。其中,V(S)為在狀態S下的收益值;R(S)為獎勵函數;γ為貼現因子,γ∈(0,1);S'為後置狀態;a表示動作;Psa(S')表示在狀態S下,通過動作a轉換到S'狀態的概率;V*(S')表示在狀態S′下的收益最優值。步驟4.3:初始化V(S)=0,同時設置V*(S)的閾值,用符號σ表示,σ≥10000。對公式(2)進行迭代,直到V(S)收斂於V*(S),獲取此時的政策π,如圖3所示,並得到最佳路徑為(0,0)→(0,1)→(0,2)→(0,3)→(1,3)→(2,3)→(3,3)→(4,3)。如圖3中的箭頭表示行進路線。R((4,4))=+1這一點為要保護的信息系統或軟體應用的特權。(一次計算只能有一個+1)R((2,1))=-1這一點為攻擊者已經獲取Root權限的軟體應用或網絡主機。(可能有多個-1)R((3,1))=-0.6這一點為攻擊者已經獲取User權限的軟體應用或網絡主機。(可能有多個-0.6)R(S)=-0.2其他狀態的獎勵函數為-0.2。start為初始的信息傳輸點。黑色部分為信息傳輸不能到達的節點,原因可能是網絡故障,軟體應用沒有運行等。圖中的+1,-1,start可以在任意位置。最後,得到網絡節點集合,具體為:192.168.1.1,10.96.21.2,10.96.68.3和10.96.68.8。步驟4.4:如果步驟二得到的最差攻擊路徑對應的攻擊路徑成功率Pr>d,d為人為設定的閾值,d∈[0.1,0.3],則步驟4.3得到網絡節點集合對應的傳輸路徑為最優保護路徑,結束操作。否則,執行步驟4.5的操作。步驟4.5:用步驟4.3得到的網絡節點集合與步驟二得到的權限節點集合取交集,得到信息傳輸節點集合:192.168.1.1,10.96.21.2和10.96.68.8。即H5若向H0發送消息,將數據先打包發送至交換機,交換機發送報文信息至網關1(10.96.68.8)。網關1收到報文後,根據IP報文頭裡的IP位址,查找自己的路由表和FIB表,找到下一跳地址,然後把報文送到下一跳網關2(10.96.21.2),網關2重複上述動作發送報文給網關3(192.168.1.1)。網關3將此報文發送到H0上。由於信息傳輸節點集合不為空,則信息傳輸節點集合對應的傳輸路徑即為最優保護路徑。當前第1頁1&nbsp2&nbsp3&nbsp當前第1頁1&nbsp2&nbsp3&nbsp

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀