新四季網

基於多數據流聚類分析的木馬通信特徵快速提取方法

2023-11-03 07:11:02 2

基於多數據流聚類分析的木馬通信特徵快速提取方法
【專利摘要】本發明公開了一種基於網絡數據流聚類的木馬通信特徵快速提取方法,首先,將捕獲的網絡數據包按照網絡會話進行整理:將監控對象的IP位址和埠作為源IP位址和源埠,將數據包按照等價四元組進行會話劃分;然後,按照基於時間戳的數據流聚類算法把數據流聚類成數據流簇;最後,進行木馬通信特徵的提取,木馬通信特徵的提取是指木馬交互操作階段木馬通信特徵的提取。本發明在對網絡數據流進行聚類的基礎上,以簇為單位處理網絡數據流,分析木馬通信行為與正常網絡通信行為的差別,並結合傳統的統計分析、相關分析等技術,深入挖掘二者之間的差別並提取網絡通信特徵,在保證檢測率的同時降低誤報率,利用本發明可以實現對網絡中的竊密行為進行檢測。
【專利說明】基於多數據流聚類分析的木馬通信特徵快速提取方法

【技術領域】
[0001] 本發明涉及一種木馬通信特徵的提取方法,特別是涉及一種基於多數據流聚類分 析的木馬通信特徵快速提取方法。

【背景技術】
[0002] 近年來,木馬程序被網絡黑客利用,進行信息竊取和網絡破壞的行為越來越多,對 用戶和網絡的信息安全構成嚴重威脅。木馬最大的特點即是其行為往往帶有較強的隱蔽 性。木馬被成功植入到目標計算機後,木馬控制端必須和被控端進行通信,以便給被控端下 達控制指令或者控制被控端將所獲取的信息回傳給控制端。基於通信行為特徵分析的檢測 技術利用網絡數據包、數據流等流量特徵構建數據流輪廓模型,根據通信數據在不同的網 絡環境下具有的時空穩定性,建立異常檢測分類模型。該方法在時效性和擴展性方面具有 明顯優勢,有利於發現潛在的、未知的網絡竊密行為和威脅,具有更廣的應用前景。然而現 有的基於通信行為分析的木馬檢測算法往往在單條數據流會話上提取一些刻畫木馬通信 行為的特徵屬性,不能完全區分木馬程序和正常程序的通信數據,導致誤報率較高。在實際 網絡環境中,絕大多數數據流持續時間較短,黑客為了提高木馬通信的隱蔽性,常常會將一 次網絡活動產生的通信數據拆分成多條數據流進行傳輸。因此,如何捕獲一次完整的網絡 活動產生的多條數據流並在多數據流中有效提取木馬通信特徵,設計具有高檢測性能且計 算複雜度較低的檢測算法,進而有效地檢測竊密型木馬的網絡通信行為就成為當前一個重 要的理論和技術問題。
[0003] 基於通信行為的木馬檢測方法很多,但大部分已有方法的檢測通用性較差,而且 誤報率較高。
[0004] Borders等利用HTTP請求的時間間隔、請求包大小、包頭格式、帶寬佔用、請求規 則等特徵構造各種過濾器檢測木馬通信。然而,木馬可以通過在通信細節上的簡單改變繞 過文章中所構造的各種過濾器。例如:木馬只需將請求包的大小限制在某一閾值內即可使 請求包大小過濾器失去功效。此種方法只能針對HTTP協議進行檢測,通用性較差。而且此 種方法還需要對數據包內容進行詳細解析,效率較低。
[0005] C. Rossow等人設計了一個名叫Sandnet的網絡數據採集分析環境,他們指出,對 惡意代碼的行為進行長時間的跟蹤分析對理解其行為更有幫助。此外他們著重對惡意代 碼常用的DNS和HTTP協議進行深入分析,根據協議中不同欄位的異常取值來檢測惡意代 碼。該方法的優點在於選取了更長的時間,綜合協議的具體欄位取值對惡意代碼進行分析 檢測,缺點在於對遵守協議規範設計的惡意代碼會失去效果。
[0006] R.perdisci等人提出,基於惡意代碼產生的HTTP通信數據流的結構相似性可以 對惡意代碼的網絡通信行為進行聚類,並根據聚類結果自動的生成惡意代碼的網絡特徵, 以此來檢測基於HTTP通信的惡意代碼程序。這種方法改進了惡意代碼特徵的提取方法,但 是對不具備HTTP通信數據相似性的通信數據流失去提取特徵並檢測的能力。
[0007] Shicong Li等人從TCP會話層面和IP流層面分析木馬的通信行為,選取多維屬性 來描述木馬的網絡通信行為,並使用數據挖掘的分類算法建立了木馬檢測模型。對於實時 檢測來說,他們選取了更廣泛的屬性,描述會話之間的相關性,但是這種方法仍局限於單個 數據流,沒有對網絡通信數據流的規律性進行分析,木馬通過改變操作方式和通信方式可 以躲避檢測。
[0008] Zhang和Paxson利用數據包到達時間間隔和數據包大小描述了一種木馬通信交 互模型,用於檢測木馬和後門等惡意程序。該模型對木馬通信行為進行如下描述:1、木馬 通信過程中相鄰數據包到達時間間隔符合帕累託分布;2、由於木馬通信過程中存在命令交 互,所以小數據包應佔一定比例。但實際木馬通信過程中可以通過不同的算法使相鄰數據 包到達時間間隔滿足各種分布要求,加之數據包到達時間間隔在很大程度上會受到網絡拓 撲的影響,所以數據包到達時間間隔用其作為行為描述存在一定弊端。且木馬通信過程中 的短命令可以隱藏在較大的HTML頁面信息中,所以強調通信過程中的小數據包的比例並 不能實現有效檢測,導致誤報率較高。
[0009] 孫海濤分析了木馬的概念、原理、通信技術及隱蔽性特點,給出了木馬通信的隱蔽 性模型。並在此基礎上,分析不同階段木馬的通信行為。在連接保持無操作階段檢測木馬 的"心跳行為",在交互操作階段提取通信行為特徵,使用C4. 5決策樹算法構造分類器,實 現了木馬通信行為檢測系統。該研究提出的檢測方法能夠有效的對實時數據流進行檢測, 但也存在一定的缺點,檢測方法仍舊是基於單數據流的分析,準確度較低。


【發明內容】

[0010] 本發明要解決的技術問題是:克服現有技術的缺陷,提供一種基於多數據流聚類 分析的木馬通信特徵快速提取方法,該方法通過網絡數據流聚類,將木馬程序一次完整的 網絡活動中產生的數據流聚類成數據流簇,然後在數據流簇上有效提取竊密型木馬的通信 特徵,具有較高的檢測性能和計算效率。
[0011] 本發明的技術方案:一種基於多數據流聚類分析的木馬通信特徵快速提取方法。 首先,將捕獲的網絡數據包按照網絡會話進行整理:將監控對象的IP位址和埠作為源IP 地址和源埠。將數據包按照等價四元組(源IP位址、源埠、目的IP位址、目的埠)進 行會話劃分,即每個會話通過等價四元組唯一標識(此時每個會話鍊表包含雙向數據流), 並選用會話鍊表作為存儲會話的數據結構。選用會話鍊表作為記錄會話的數據結構的原因 是:由於網絡通信是一個動態的過程,會話中的數據包隨著通信的進行而不斷增加,用於保 存會話的數據結構也要隨之發生動態變化。組建會話鍊表過程中,需根據鍊表結點的等價 四元組查找數據包對應的位置,並將其插入至該位置中。因此,會話的記錄方式和查找速度 將直接影響會話重組效率。
[0012] 會話可以使用多維數組或多級鍊表進行保存;多維數組具有存儲效率高、查找方 便、存取速度快等優點,但是多維數組要求預先為其分配存儲空間,一旦建立無法改變多維 數組大小,容易造成空間浪費,而且網絡會話數量不固定,無法為其預先分配空間;鍊表的 優點是可動態添加或刪除、不需要預先分配空間,但缺點是查找速度慢。
[0013] 本發明採用結合哈希表和多級鍊表的數組鍊表結構來重組會話。數組鍊表結構 是指數組和鍊表相結合的數據結構;數組鍊表可通過犧牲較小的存儲空間有效提高查找效 率。可根據等價四元組中各元素的不同特性設定數組鍊表的連結順序,通過把取值範圍適 中且對應會話數量分布最均勻的元素設為數組鍊表的第一級,依次設定連結順序,以獲得 更高的會話重組效率。具體分析如下:
[0014] 設會話數量為S,若將所有的會話以傳統的單鍊表的形式進行組建,每次接收到數 據包後都要對會話鍊表進行順序查找,順序查找的平均計算時間複雜度為〇(S/2)。
[0015] 以數組鍊表的形式整理會話,設數組具有η個下標,數組第i個下標串接的會話鏈 表個數為a i,則接收數據包加入數組第i個下標的概率為j
[0016] 故對鍊表進行查詢的平均時間複雜度為:
[0017]

【權利要求】
1. 一種基於多數據流聚類分析的木馬通信特徵快速提取方法,其特徵在於, 首先,將捕獲的網絡數據包按照網絡會話進行整理:將監控對象的IP位址和埠作為 源IP位址和源埠,將數據包按照等價四元組進行會話劃分,即每個會話通過等價四元組 唯一標識,並選用會話鍊表作為存儲會話的數據結構; 其次,在此基礎上,將上述方法得到的網絡數據流,按照基於時間戳的數據流聚類算法 聚類成數據流簇,所述基於時間戳的數據流聚類算法是: 時間戳論域:設T = {(懷t/ ),(t2, t2'),…(tn,tn')--?}是待劃分的數據流開始時間戳 和結束時間戳集合,T中的每個對象&是第i個數據流的開始時間戳,V是第i個數據流 的結束時間戳; 簇半徑閾值:設e為簇半徑閾值,數據流簇的結束時間和下一個數據流的開始時間間 隔小於該閾值的將被聚類到一個數據流簇中; 簇集合:設Sj = {Cl,C2,…,C1J是數據流集合Sj經劃分得到的一個個數據流簇的集合, P (Ci) = {cn, Ci2,…,CiJ是Sj中的每個數據流簇Ci (1彡i彡m)的特徵矢量; 界標窗口 :因為數據流是順序出現的,因此選取界標窗口來存儲時間戳論域T,界標窗 口的長度AW為起始時間點到當前時間點為止記錄的數據流個數; 基於時間戳的數據流聚類算法以數據流集合S和簇半徑閾值e為輸入,簇半徑閾值e 的單位為秒,以生成的簇集合S' ={ (Ci,P (Ci)) I (1彡i彡m)}為輸出;順序遍歷數據流中 的每個數據流,通過計算當前數據流的開始時間與數據流簇的結束時間間隔判斷加入當前 簇還是新建簇; 然後,在數據流簇上進行木馬通信行為特徵的提取,木馬通信行為特徵的提取是指木 馬交互操作階段行為特徵的提取; 操作階段木馬通信特徵的提取分五個方面,分別為: 第一:針對木馬被控端在通信中扮演資源伺服器的角色,提取以下行為特徵:被控主 機的信息和文件資源異常上傳通信量;數據流簇上傳數據量偏大時為異常特徵; 第二:針對木馬通信過程中數據包分布特點,提取以下行為特徵:數據流簇接收小包 數量與小包總數量的比值、數據流簇上傳大包數量與大包總數量的比值;這兩個比值任一 項大於〇. 5時為異常特徵; 第三:針對木馬通信時的數據流表現為由內向外的上傳流的特點,提取以下特徵:數 據流簇上傳數據量與下載數據量比值;該特徵值大於1時為異常特徵; 第四,針對木馬通信過程包含一個主要連接和多個次要連接的特點,提取以下行為特 徵:主連接持續時間與數據流簇持續時間的比值,這個比值大於0. 8時為異常特徵; 第五,針對木馬通信過程中人為控制的因素較大的特點,提取以下行為特徵:提取以下 行為特徵:數據流簇中數據流持續時間的方差,方差大於50時為異常特徵。
2. 根據權利要求1所述的方法,其特徵在於,數組鍊表結構如下: 設會話數量為S,若將所有的會話以傳統的單鍊表的形式進行組建,每次接收到數據包 後都要對會話鍊表進行順序查找,順序查找的平均計算時間複雜度為O(S/2); 以數組鍊表的形式整理會話,設數組具有n個下標,數組第i個下標串接的會話鍊表個 數為ct i,則接收數據包加入數組第i個下標的概率為 9 故對鍊表進行查詢的平均時間複雜度為:
根據定理"均方根大於等於算術平均數"可得:
3. 根據權利要求1所述的方法,其特徵在於,根據權利要求1所述的方法,其特徵在於, 所述四元組中的元素為源IP位址、源埠、目的IP位址和目的埠;數據包按照等價四元 組進行會話劃分是指對源IP位址、源埠、目的IP位址、目的埠進行劃分;系統採用數組 鍊表結構來記錄四元組,數組鍊表結構是指數組和鍊表相結合的數據結構;系統利用數組 建立哈希表,將哈希表作為鍊表的索引來提高查找效率;系統針對數據包四元組中各元素 的不同概率分布,把分布均勻的元素分量設為數組鍊表,把分布不均勻的元素分量設為鏈 表。
4. 根據權利要求2所述的方法,其特徵在於,系統利用哈希表+多級鍊表的結構記錄源 IP位址分量,源埠分量、目的IP位址分量、目的埠分量依次分別建立多級鍊表,系統選 取源IP位址的最後1個字節進行哈希值的計算建立哈希表。
【文檔編號】H04L29/06GK104283897SQ201410593969
【公開日】2015年1月14日 申請日期:2014年10月29日 優先權日:2014年10月29日
【發明者】劉勝利, 王文冰, 武東英 申請人:劉勝利

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀