大規模網絡安全事件的規模預測知識訓練方法和預測方法
2023-12-07 05:02:41
專利名稱:大規模網絡安全事件的規模預測知識訓練方法和預測方法
技術領域:
本發明涉及網絡安全領域,特別涉及大規模網絡安全事件的規模預測方法。
背景技術:
大規模網絡的態勢感知對網絡安全具有重要意義,由於各種安全事件的規模體現 出了網絡安全態勢信息,而對網絡安全事件(特別是時間粒度較大的網絡安全事件)的規 模的有效預測可以為後續的決策爭取時間,因此預測網絡安全事件規模是網絡安全中的重
要一環。現有技術中已經存在一些用於預測大規模網絡安全事件規模的方法。其中一 類方法是採用了以統計學為基礎的線性預測模型,如參考文獻1 「GEP.Box,G. Μ. Jenki s, GC. Reinsel. Time Series Analysis -Forecasting andControl[M]. reviseded, Holden Day, SanFrancisco, 1978」所公開的線性預測模型,該類預測模型在解決時間序列預測問題 上已經被廣泛研究,並產生了多個具體的預測模型。這些預測模型在模型識別、階的確定、 模型參數的估計等問題上已經基本完善和成熟。例如,基於回歸對呈現為時間序列形式的 數據進行預測是最經典的一種預測方法,其主要思想是利用一些常用的曲線(使用較多的 是直線和二次曲線)來近似近期歷史數據的變化,並以擬合曲線的延展情況為依據預測時 序數據的未來發展。基於回歸擬合的預測方法由於其簡單和高效而被廣泛的使用。但在將 此類方法應用到網絡安全事件規模的預測時,由於網絡安全事件規模數據存在短期波動、 低信噪比和非穩態性等特點,實際應用中影響時間序列數據規律的因素非常複雜,無法掌 握其包含的全部信息,因此難以構建精確的數學模型,使得通過設置假設條件強行建立時 間序列的數學模型並進行後續分析的做法不能滿足網絡安全事件規模預測的需求,特別是 當數據規律發生變化時預測準確性將急劇下降。另一類方法是基於DFT或小波的預測方法。如參考文獻2 「S.Soltani,On the use of wavelet decomposition for time series prediction, NeurocomputOct.2002, vol. 48 J67-277」中所公開的方法,該類方法也是一種有代表性的時序數據預測方法,該類 方法採用小波分解分離時序數據中代表穩定因素的低頻成分和代表隨機因素的高頻成分, 然後對二者分別進行處理後再組合得到預測結果。採用這種方法可以將數據中較為穩定 的周期性成分和變化較大的隨機性成分分別處理,對周期性較強的數據具有較好的預測效 果。但對於大規模網絡安全事件規模數據而言,隨著周邊網絡環境的不斷演化,數據特徵呈 現多模式性,分別對應了不同的網絡安全態勢和風險狀態,因此基於DFT或小波預測大規 模網絡安全事件規模時,當數據中的周期性成分穩定時才有較好的效果,但大部分情況下 當網絡態勢和風險狀態發生變化時,這種周期性成分也會隨之而變化,從而使預測效果較 差。還有一類方法是基於非線性模型的預測方法。此類方法的典型代表包括混 沌時間序列預測方法(請參見參考文獻3 「WJ Baumol,REQuandt. Chaos models and their implications for forecasting. Eastern economic journal, 1985,11 :3-15.,,)以及基於神經網絡的預測方法(請參見參考文獻4 "A. Lapedes, R. Farber, Nonlinear signal processing using neuralnetworks Prediction and system modelling. IEEE international conference onneural networks,San Diego,CA,USA,21Jun 1987·,,)。混 沌時間序列預測方法研究確定性系統中表現出來的隨機運動,有可能進行較準確的短期預 測,但無法進行長期精確預測。基於神經網絡的預測方法通過在輸入和輸出變量之間構建 神經元節點來模擬人類大腦的結構,通過訓練過程為神經元賦權值,再通過對這些權值的 組合近似地得到輸出變量值。基於神經網絡的預測方法學習過程速度較慢,且存在局部最 優解,內部結構呈現為黑箱,直觀解釋性較差。總之,現有技術中用於預測大規模網絡安全事件的規模的方法存在各自的缺點, 因而需要一種預測準確性高的預測方法。
發明內容
本發明的目的是提供一種大規模網絡安全事件的規模預測知識的訓練方法,包 括步驟1)、將作為訓練數據的歷史數據分段,從分段所得到的多個子段中提取與預 測有關的數據特徵,將這些數據特徵分別離散化為特徵事件,形成特徵事件序列;步驟2~)、從所述訓練數據的特徵事件序列中挖掘頻繁情節,得到用於預測的頻繁 情節集合。上述技術方案中,所述的挖掘頻繁情節包括步驟2-1)、從候選鄰接情節集合中按順序依次選取候選鄰接情節;步驟2_2~)、將所述候選鄰接情節在所述特徵事件序列中的出現次數加以統計,將 出現次數高於支持度閾值的情節作為頻繁鄰接情節;步驟2- 、將一個頻繁鄰接情節的後綴與另一個頻繁鄰接情節的前綴做匹配測 試,合併匹配的頻繁鄰接情節從而得到最終的頻繁情節。上述技術方案中,所述的步驟1)包括步驟1-1-1)、將作為訓練數據的歷史數據分段,從分段所得到的多個子段中提取 均值特徵;步驟1-1- 、將訓練數據中整個均值特徵的值域分成兩個部分,分別對應兩種事 件類型,將切分後的值域稱為離散間隔;步驟1-1-3)、在訓練數據的各個離散間隔內分別挖掘頻繁情節,當所挖掘出的頻 繁情節中的最後一個事件與其前一個事件的類型相同,則認為該頻繁情節是一個平穩的頻 繁情節;步驟1-1-4)、當所述的平穩的頻繁情節在總的頻繁情節中所佔的比重大於第一閾 值時,將訓練數據中整個均值特徵的值域做進一步切分,然後重新執行步驟1-1- ,直到所 述平穩的頻繁情節在總的頻繁情節中所佔比重小於該第一閾值或者切分次數達到最大切 分次數;步驟1-1-5)、將各個所述離散間隔內的均值特徵轉換為與該離散間隔所對應的事 件。上述技術方案中,所述的步驟1)包括
步驟1-2-1)、將作為訓練數據的歷史數據分段,從分段所得到的多個子段中提取 斜率值;步驟1-2- 、將各個子段中出現過的斜率值的值域等值離散為N個不同的數值區 間,每一個數值區間設定為一個事件類型。本發明還提供了一種大規模網絡安全事件的規模預測方法,包括步驟1)、對近期數據分段,從分段所得到的多個子段中提取數據特徵,將這些數據 特徵分別離散化為特徵事件,形成近期數據的特徵事件序列;步驟2)、從所述的大規模網絡安全事件的規模預測知識的訓練方法得到的用於預 測的頻繁情節集合的頻繁情節中提取前綴事件,然後將這些前綴事件與所述近期數據的特 徵事件序列進行匹配,在匹配成功的前提下由頻繁情節中的後綴事件得到預測值。上述技術方案中,在所述的步驟1)中,所述的數據特徵為均值特徵,所述的特徵 事件為均值特徵事件;所述的步驟i)包括步驟2-1-1)、從由均值特徵事件所組成的頻繁情節中提取前綴事件;步驟2-1- 、將所得到的前綴事件與從近期數據中所得到的均值特徵事件序列進 行匹配;步驟2-1- 、在匹配過程中,當找到適合的頻繁情節時,用該頻繁情節的後綴事件 來預測未來時序子段的均值特徵事件;步驟2-1-4)、由所述均值特徵事件的類型所對應的數值區間的中點得到相應時序 子段中各點的數值預測值。上述技術方案中,在所述的步驟1)中,所述的數據特徵為趨勢特徵,所述的特徵 事件為趨勢特徵事件;所述的步驟i)包括步驟2-2-1)、從由趨勢特徵事件所組成的頻繁情節中提取前綴事件;步驟2-2- 、將所得到的前綴事件與從近期數據中所得到的趨勢特徵事件序列進 行匹配;步驟2-2- 、在匹配過程中,當找到適合的頻繁情節時,用該頻繁情節的後綴事件 來預測未來時序子段的預測斜率;步驟2-2-4)、根據當前時序子段的末端值以及預測得到的下一時序子段的斜率計 算下一時序子段的預測值。本發明的優點在於本發明的預測方法較現有方法相比預測準確率更高,錯誤率更小。
圖1為事件序列的一個範例;圖2為本發明的大規模網絡安全事件的規模預測方法的流程圖;圖3為實施例中所涉及的均值特徵的示意圖;圖4為不適合利用均值特徵預測的數據集的示意圖;圖5(a)為測試數據集中數據規模最大的一種木馬的實際值與預測值之間的比較 結果示意圖;圖5(b)為測試數據集中數據規模次大的一種木馬的實際值與預測值之間的比較結果示意圖;圖5(c)為測試數據集中數據規模列第三的木馬的實際值與預測值之間的比較結 果示意圖;圖6(a)為對第一殭屍網絡的預測結果與實際結果之間的比較示意圖;圖6(b)為對第二殭屍網絡的預測結果與實際結果之間的比較示意圖;圖6(c)為對第三殭屍網絡的預測結果與實際結果之間的比較示意圖;圖6(d)為對第四殭屍網絡的預測結果與實際結果之間的比較示意圖;圖6(e)為對第五殭屍網絡的預測結果與實際結果之間的比較示意圖。
具體實施例方式下面結合附圖和具體實施方式
對本發明加以說明。在對本發明的預測方法做詳細說明前,首先對本發明中所涉及的一些概念加以說 明,以方便理解。事件事件指系統在某一特定時間上的狀態或行為,這些狀態或行為一般被設定 為固定的若干種類型。事件可以表示為(Ai,、),其中Ai表示某種事件類型(從一個有限的 字符表α中取值),、表示該事件發生的時間。時序子段的特徵事件由時序數據的某一較短片段中提取出的某種數據特徵或性 質按一定的標準離散後形成的事件。事件序列將多個事件按照時間的先後順序依次排列所得到的序列被稱為事件序 列。一個事件序列s用一個三元組(S,Ts,Te)表示,其中,S = ,(Ai e α,、彡ti+1)是事件按時間的有序排列,Ts和Te分別為起始時間和結束時 間,且有Ts彡、彡 ;。在圖1中給出了事件序列的一個範例,該事件序列表示為s = (S, 1,17),其中 S = 。情節一個情節印表示為(V,彡,g),V是一個節點的集合,彡是V上定義的偏序 關係,α是每一個V中的節點到一個α中事件類型的映射。即情節定義為g(V)所 代表的事件類型按照《所描述的次序依次發生。頻繁情節對於給定的支持度閾值ε,如果一個情節印在事件序列s中的出現次 數sup> ε (任何一次出現均在時間窗口 w內完成,且同一個情節的多次出現不能重疊(即 一個情節出現完成一次之後才可能開始該情節的另一次出現)),則稱ep為s中的一個頻繁 情節。鄰接事件由連續的數個時序數據片段中提取的特徵事件,稱其相互之間的關係 為鄰接關係,多個具有鄰接關係的事件組合稱為鄰接事件組合。鄰接頻繁情節由鄰接事件組成的頻繁情節。大規模網絡安全事件規模大規模網絡中部署的檢測設備所發現的各種安全事件 的出現數量。在對上述概念加以說明後,下面對本發明方法的實現過程做詳細說明。本發明的大規模網絡安全事件的規模預測方法總體上可以分為兩個階段,第一階 段是訓練階段,該階段要實現對包含頻繁情節在內的知識的提取,第二階段是預測階段,該 階段要根據提取得到的知識實現網絡安全事件的規模預測。下面結合圖2分別對上述兩個階段的實現過程加以說明。在訓練階段中,對知識的提取是在訓練數據的基礎上實現的。訓練數據通常為從 諸如網際網路的大規模網絡上採集的已知的歷史數據,這些數據中包括網絡安全事件在各個 歷史時間點上由統計而得到的規模量值。一般來說,訓練數據的樣本範圍應當儘可能地大, 使得由訓練數據最終得到的頻繁情節儘可能地全面。在由訓練數據生成頻繁情節時,首先將訓練數據按照時間順序以一定的時間間隔 做分段處理,得到多個子段,然後從各個子段中提取與預測有關的某一數據特徵,並將這一 數據特徵離散化為特徵事件,所有子段的特徵事件形成該訓練數據的特徵事件序列,最後 從上述特徵事件序列中挖掘頻繁情節,生成預測用的知識。在上述實現過程中,與預測有關的數據特徵有多種類型,不同類型的數據特徵的 提取有不同的實現方式。在一個實施例中,所述的數據特徵可以是均值特徵,下面結合圖 3,對該實施例如何利用均值特徵生成特徵事件加以說明。圖3中的波浪形曲線代表訓練數 據,水平軸代表時間,垂直軸代表數據的數值。與時間軸相垂直的各條虛線代表了對訓練時 間的分段。對各個子段中的訓練數據做平均值計算以後就能得到該子段中訓練數據的均值 特徵,在圖3中用水平的橫線表示均值特徵。從圖3的範例可以看出,該範例的6個子段對 應有6個均值特徵,要實現均值特徵的事件化,就是要將這些均值特徵轉化為某一類型的 事件。在將均值特徵事件化的過程中,需要選擇合適的離散間隔。在本實施例中採用指數 級逐步遞減的方法來設定均值特徵離散間隔,該方法的實現步驟如下首先,將訓練數據集 的整個均值特徵的值域劃分成兩個部分,對應兩種事件類型;然後在訓練數據集上挖掘頻 繁情節(關於如何挖掘頻繁情節的技術細節將在下文中予以說明),如果所挖掘出的頻繁 情節中最後一個事件(即用於預測的事件)與其前一個事件的類型相同,則認為該頻繁情 節是一個平穩的頻繁情節;接著,考察平穩的頻繁情節在總的頻繁情節中所佔的比重,如果 比重過大,則預測出的大部分時序子段的均值特徵事件類型將和其前一個時序子段的均值 特徵事件類型相同,由此可以推定離散間隔的設定偏大,使得挖掘出的頻繁情節無法有效 區分不同時序子段中的均值特徵,從而無法達到有效預測的目的。在這種情況下,可以將離
散間隔按指數級縮小,即將其依次設定為整個均值特徵值域區間範圍的1/4、1/8........
直至所挖掘出的頻繁情節中平穩的頻繁情節所佔比例小於劃分閾值W或達到最大劃分次 數。在成功設定均值特徵的離散間隔後,就可以將各個離散間隔內的均值特徵轉換為與該 離散間隔所對應的事件。所述事件可以用字符表示,如英文字母、阿拉伯數字等皆可,所有 事件可以生成一個對應的事件字符表。繼續以圖3為例,該例子中將均值特徵的值域分為 [-2,-1)、[-1,0)、[0,1)、[1,2)多個區間,將[1,2)區間內的均值特徵對應為事件A,將[0, 1)區間內的均值特徵對應為事件B,將[_1,0)區間內的均值特徵對應為事件C,將[-2,-1) 區間內的均值特徵對應為事件D。於是,圖3所示的6個子段包括一個事件A、兩個事件B、 兩個事件C、一個事件D。需要說明的是,在上述通過指數級逐步遞減來設定均值特徵離散 間隔時,設定最大劃分次數的原因是由於在實驗中發現有些數據過於平滑(甚至到達機器 精度極限後仍無法達到劃分閾值),對於這種情況,繼續劃分下去已無意義,故應該及早停 止劃分。下面給出了利用均值特徵生成特徵事件的方法的偽代碼,以利於理解。
權利要求
1.一種大規模網絡安全事件的規模預測知識的訓練方法,包括步驟1)、將作為訓練數據的歷史數據分段,從分段所得到的多個子段中提取與預測有 關的數據特徵,將這些數據特徵分別離散化為特徵事件,形成特徵事件序列;步驟i)、從所述訓練數據的特徵事件序列中挖掘頻繁情節,得到用於預測的頻繁情節集合。
2.根據權利要求1所述的大規模網絡安全事件的規模預測知識的訓練方法,其特徵在 於,所述的挖掘頻繁情節包括步驟2-1)、從候選鄰接情節集合中按順序依次選取候選鄰接情節; 步驟2-2~)、將所述候選鄰接情節在所述特徵事件序列中的出現次數加以統計,將出現 次數高於支持度閾值的情節作為頻繁鄰接情節;步驟2- 、將一個頻繁鄰接情節的後綴與另一個頻繁鄰接情節的前綴做匹配測試,合 並匹配的頻繁鄰接情節從而得到最終的頻繁情節。
3.根據權利要求1或2所述的大規模網絡安全事件的規模預測知識的訓練方法,其特 徵在於,所述的步驟1)包括步驟1-1-1)、將作為訓練數據的歷史數據分段,從分段所得到的多個子段中提取均值 特徵;步驟1-1- 、將訓練數據中整個均值特徵的值域分成兩個部分,分別對應兩種事件類 型,將切分後的值域稱為離散間隔;步驟1-1-3)、在訓練數據的各個離散間隔內分別挖掘頻繁情節,當所挖掘出的頻繁情 節中的最後一個事件與其前一個事件的類型相同,則認為該頻繁情節是一個平穩的頻繁情 節;步驟1-1-4)、當所述的平穩的頻繁情節在總的頻繁情節中所佔的比重大於第一閾值 時,將訓練數據中整個均值特徵的值域做進一步切分,然後重新執行步驟1-1- ,直到所述 平穩的頻繁情節在總的頻繁情節中所佔比重小於該第一閾值或者切分次數達到最大切分 次數;步驟1-1-5)、將各個所述離散間隔內的均值特徵轉換為與該離散間隔所對應的事件。
4.根據權利要求1或2所述的大規模網絡安全事件的規模預測知識的訓練方法,其特 徵在於,所述的步驟1)包括步驟1-2-1)、將作為訓練數據的歷史數據分段,從分段所得到的多個子段中提取斜率值;步驟1-2- 、將各個子段中出現過的斜率值的值域等值離散為N個不同的數值區間, 每一個數值區間設定為一個事件類型。
5.一種大規模網絡安全事件的規模預測方法,包括步驟1)、對近期數據分段,從分段所得到的多個子段中提取數據特徵,將這些數據特徵 分別離散化為特徵事件,形成近期數據的特徵事件序列;步驟2)、從權利要求1-4之一的大規模網絡安全事件的規模預測知識的訓練方法得 到的用於預測的頻繁情節集合的頻繁情節中提取前綴事件,然後將這些前綴事件與所述近 期數據的特徵事件序列進行匹配,在匹配成功的前提下由頻繁情節中的後綴事件得到預測 值。
6.根據權利要求5所述的大規模網絡安全事件的規模預測方法,其特徵在於,在所述 的步驟1)中,所述的數據特徵為均值特徵,所述的特徵事件為均值特徵事件;所述的步驟 2)包括步驟2-1-1)、從由均值特徵事件所組成的頻繁情節中提取前綴事件;步驟2-1- 、將所得到的前綴事件與從近期數據中所得到的均值特徵事件序列進行匹配;步驟2-1- 、在匹配過程中,當找到適合的頻繁情節時,用該頻繁情節的後綴事件來預 測未來時序子段的均值特徵事件;步驟2-1-4)、由所述均值特徵事件的類型所對應的數值區間的中點得到相應時序子段 中各點的數值預測值。
7.根據權利要求5所述的大規模網絡安全事件的規模預測方法,其特徵在於,在所述 的步驟1)中,所述的數據特徵為趨勢特徵,所述的特徵事件為趨勢特徵事件;所述的步驟 2)包括步驟2-2-1)、從由趨勢特徵事件所組成的頻繁情節中提取前綴事件;步驟2-2- 、將所得到的前綴事件與從近期數據中所得到的趨勢特徵事件序列進行匹配;步驟2-2- 、在匹配過程中,當找到適合的頻繁情節時,用該頻繁情節的後綴事件來預 測未來時序子段的預測斜率;步驟2-2-4)、根據當前時序子段的末端值以及預測得到的下一時序子段的斜率計算下 一時序子段的預測值。
全文摘要
本發明提供一種大規模網絡安全事件的規模預測知識的訓練方法,包括將作為訓練數據的歷史數據分段,從分段所得到的多個子段中提取與預測有關的數據特徵,將這些數據特徵分別離散化為特徵事件,形成特徵事件序列;從所述訓練數據的特徵事件序列中挖掘頻繁情節,得到用於預測的頻繁情節集合。本發明還提gon一種大規模網絡安全事件的規模預測方法,包括形成近期數據的特徵事件序列;從頻繁情節集合的頻繁情節中提取前綴事件,然後將這些前綴事件與所述近期數據的特徵事件序列進行匹配,在匹配成功的前提下由頻繁情節中的後綴事件得到預測值。本發明的預測方法較現有方法相比預測準確率更高,錯誤率更小。
文檔編號H04L9/00GK102118245SQ200910260748
公開日2011年7月6日 申請日期2009年12月31日 優先權日2009年12月31日
發明者周斌, 李愛平, 楊書強, 楊尹, 程文聰, 賈焰, 鄒鵬, 韓偉紅 申請人:中國人民解放軍國防科學技術大學