一種基於K-means聚類的主被動式的網絡終端發現識別方法
2023-10-06 02:06:07
一種基於k-means聚類的主被動式的網絡終端發現識別方法
技術領域
1.本發明涉及計算機和網絡信息處理技術領域,尤其涉及一種基於k-means聚類的主被動式的網絡終端發現識別方法。
背景技術:
2.近年來,網絡安全形勢日益嚴峻,利用網絡末梢終端發起的網絡攻擊事件時有發生,攻擊造成的破壞力明顯增加,影響範圍有擴大的趨勢。由於營銷現場終端種類多、結構多樣、業務場景複雜,而且部分終端無法安裝客戶端或進行改造實現準入控制,無法實現統一安全管控,因此對終端設備的自動發現顯的更為重要,傳統方法僅依賴設備主動上報的方法是不能滿足當前需求的,而實現對接入各種營銷現場終端自動發現和類型識別技術,可以為進一步的設備合法驗證和精細管控提供支撐,可以為提升營銷現場終端的安全防護能力打下基礎。
技術實現要素:
3.本發明的目的是提供一種基於k-means聚類的主被動式的網絡終端發現識別方法,實現了網絡設備的自動發現和自動分類,避免設備特徵信息被篡改後不易察覺,有效保障了網絡設備的安全和管控。
4.本發明為實現上述發明目的採用如下技術方案:
5.本發明提供了一種基於k-means聚類的主被動式的網絡終端發現識別方法,包括:
6.獲取網絡中各類型終端設備的特徵序列樣本集,其中所述特徵序列樣本集通過主被動方式採集各類型終端設備的特徵信息,對採集到的特徵信息進行處理生成特徵序列,再將各類型終端設備的特徵序列集中構成;
7.根據獲取的特徵序列樣本集進行k-means聚類算法,得到各類型終端設備對應的最優的簇中心;
8.獲取網絡中新接入的終端設備的特徵序列,其中所述特徵序列通過主被動方式採集終端設備的特徵信息,並對採集到的特徵信息進行處理生成;
9.將獲取的新接入終端設備的特徵序列與各個終端設備類型的最優的簇中心進行距離計算,根據最短距離對應的簇確定新接入的終端設備的類型。
10.進一步地,通過主被動方式採集各類型終端設備的特徵信息的方法包括:
11.對終端設備進行主動發現,通過ping報文確認設備在線,再通過udp掃描和tcp掃描技術向終端設備發送協議探詢報文,發送帶有get請求的http報文給終端設備,得到終端設備的回覆報文;
12.接收終端設備返回的http報文,解析報文頭部欄位序列,從序列欄位中提取終端設備的特徵信息;
13.對終端設備進行被動發現,通過捕獲各個終端設備的收發流量,進行報文的分層解析,從報文中獲取網絡終端的特徵信息。
14.進一步地,從序列欄位中提取目標設備的特徵信息包括下述信息之一或下述信息之組合:
15.server、port、authorization、mac address、version、ip address、作業系統類型、伺服器版本、廠家和型號。
16.進一步地,從報文中獲取目標設備的特徵信息包括下述信息之一或下述信息之組合:
17.ip、mac、udp埠號、tcp埠號、流量大小、報文長度、有效載荷、訪問時間、應用協議和協議類型。
18.進一步地,對採集到的特徵信息進行處理生成特徵序列的方法包括:
19.通過對主動發現和被動發現的特徵信息進行進位組合,構成終端設備的特徵序列,所述特徵序列中的各特徵值以字符串形式保存。
20.進一步地,根據獲取的特徵序列樣本集進行k-means聚類算法,通過聚類計算最終得到各類型終端設備對應的最優的簇中心的方法包括:
21.獲取確定的k-means聚類的k值和初始簇中心;
22.在獲取k值和初始簇中心後,將獲取的特徵序列樣本集作為k-means聚類計算的輸入數據集,然後開始k-means的聚類,通過k-means距離計算得到各類型終端設備對應的最優的簇中心。
23.進一步地,k-means聚類的k值和初始簇中心的確定方法包括:
24.統計網絡中各類型終端設備的種類k,並由此確定k-means聚類的k值;
25.在每種終端設備類型中選擇典型終端設備的特徵序列作為該種類型終端設備的初始簇中心。
26.本發明的有益效果如下:
27.本發明通過主被動發現技術能夠發現較為完備的終端設備的各種特徵信息,通過k-means聚類算法能夠快速聚類得到終端設備類型的最優的簇中心,為終端設備類型識別提供依據,實現了網絡設備的自動發現和自動分類,避免設備特徵信息被篡改後不易察覺,有效保障了網絡設備的安全和管控。
附圖說明
28.圖1為根據本發明實施例提供的一種基於k-means聚類的主被動式的網絡終端發現識別方法中終端網絡拓撲示意圖;
29.圖2為根據本發明實施例提供的一種基於k-means聚類的主被動式的網絡終端發現識別方法中主動發現信息採集示意圖;
30.圖3為根據本發明實施例提供的一種基於k-means聚類的主被動式的網絡終端發現識別方法中被動發現信息採集示意圖;
31.圖4為根據本發明實施例提供的一種基於k-means聚類的主被動式的網絡終端發現識別方法流程圖。
具體實施方式
32.下面結合具體實施例對本發明作進一步描述。以下實施例僅用於更加清楚地說明
本發明的技術方案,而不能以此來限制本發明的保護範圍。
33.本發明提供一種基於k-means聚類的主被動式的網絡終端發現識別方法,所述方法包括以下步驟:
34.(1)首先在現有的現場終端進行終端設備發現的環境設置。在終端網絡拓撲中接入終端發現識別設備,並通過交換機埠的鏡像設置獲取網絡終端業務流量,如附圖1所示。
35.(2)在終端發現識別設備中,首先對現場已知終端進行主動發現,先通過ping報文確認設備在線,再通過udp掃描和tcp掃描技術向目標設備發送協議探詢報文,由於各個設備使用的瀏覽器服務各有不同,通過發送帶有get請求的http報文給目標設備,可以得到目標的回覆報文,如附圖2所示。
36.(3)終端發現識別設備接收到目標終端返回的http報文,解析報文頭部欄位序列,從序列欄位中提取目標設備的特徵信息,包括server、port、authorization、mac address、version、ip address、作業系統類型、伺服器版本、廠家、型號。對於沒有檢索到特徵信息的內容,則記為0。
37.(4)在終端發現識別設備中,再對現場已知終端進行被動發現,通過捕獲各個終端的收發流量,進行報文的分層解析,從報文中獲取終端的特徵信息,包括ip、mac、udp埠號、tcp埠號、流量大小、報文長度、有效載荷、訪問時間、應用協議、協議類型。對於沒有檢索到特徵信息的特徵,則記為0。如附圖3所示。
38.(5)將在終端發現識別設備上通過主動發現和被動發現的特徵信息進行組合,構成終端設備的樣本序列,對於終端發現時採集的特徵信息進位組合,構成終端設備的特徵序列{mac、ip、udpport、tcpport、protocol、server、authorization、version、model、brand},各特徵值以字符串形式保存,最後將現場所有終端的特徵序列集中構成樣本總集合。
39.(6)統計現場終端的類型數量k,並由此確定k-means聚類的k值。
40.(7)根據現場終端情況設定k-means聚類的初始簇,為了提高迭代效率,在每種終端設備類型中選擇典型終端設備的特徵序列作為該種類型終端設備的初始簇中心,用於k-means聚類計算。
41.(8)在確定k值和初始簇中心後,開始k-means的聚類,聚類的輸入數據為各類型終端設備的特徵序列樣本集,每個終端設備的特徵序列包括10個維度的特徵值,聚類過程中的相似度依據是終端設備與初始簇中心的歐式距離,歐式距離計算方法如下:
[0042][0043]
通過不斷迭代計算,最終得到最優簇中心。如附圖4所示。
[0044]
(9)對接入網絡中新的終端設備進行設備發現和終端類型判定。
[0045]
(10)在新的終端設備接入到現場網絡中後,由終端發現識別設備開啟主動發現和被動發現,探測新的終端設備的特徵信息,構建新的終端設備的特徵序列。
[0046]
(11)計算特徵序列與各個終端設備類型的最優的簇中心進行距離計算,根據最短距離對應的簇確定新接入的終端設備的類型。
[0047]
以上所述僅是本發明的優選實施方式,應當指出,對於本技術領域的普通技術人
員來說,在不脫離本發明技術原理的前提下,還可以做出若干改進和變形,這些改進和變形也應視為本發明的保護範圍。