一種網際網路流量分類樣本標註方法與流程
2023-10-23 17:38:07 6
本發明涉及計算機網絡安全領域,具體涉及一種網際網路流量分類樣本標註方法。
背景技術:
:近年來,隨著網際網路的高速發展,網際網路流量迅猛增長,流量種類也日益增加。網絡管理者通常都需要使用網絡流量分類技術來區分各種應用和協議的流量,然後再根據特定的要求來限制特定類型的流量或阻斷有害應用的流量。流量分類領域在最近十幾年的飛速發展,使得很多新的流量分類技術相繼產生,走向成熟並已經用於實際的產品中。目前在流量分類的學術領域,主要有以下幾種不同的流量分類技術:第一種是基於傳輸層埠號的流量分類技術。然而隨著網際網路的飛速發展,P2P、GAME等新興業務和私有業務不斷湧現。這些新興業務使用隨機埠號或使用標準埠號來躲避網絡監測封堵。因此基於埠號的分類方法漸漸失效。第二種是DPI(深度包檢測)的流量分類技術,通過數據包的的特徵串匹配來對其進行分類。但這種分類方法無法處理加密網絡流,且計算複雜度高,資源消耗大。第三種是基於統計特徵(包長、包間隔等)的機器學習分類技術。該方法能處理加密數據流,因此使用日漸增多。但是這種方法需要用和真實數據相似的測試數據構建分類模型,難於應用於需要實時流量分類的場合,這些缺陷影響了其在實踐中的廣泛應用。第四種方法是基於主機行為模式關聯的流量分類方法,這種方法通過將一段時間內某一主機的流量進行IP位址和埠的關聯,並藉助一些先驗知識和行為模式匹配來對網絡流量進行分類。這種方法更能反映出特定的網絡應用流量的本質特徵,但也存在計算開銷較大的問題。針對不同流量分類方法或系統進行分類效果測評,需要大量標註數據集樣本。標註數據集,也稱為基準數據集(Groundtruth數據集),是指數據集中的數據包對應的應用和協議類型已知並且已經被標記的數據集。在流量分類測評中需要採集一定的標註數據集,作為測試基準數據集。然而目前還缺乏一個完善的標註方法和標準實現樣本標註。目前已有的流量分類標註方法有以下缺陷:1)流量協議或應用劃分標準存在較大不同:如對於某些具體的應用,如某款網路遊戲的加速器的流量,有的分類系統將其劃分為遊戲的流量,有的分類系統則劃分為隧道流量;IM(InstantMessaging,實時通訊)工具中的語音和視頻流量,有的分類系統仍然算為IM流量,有的則算為VOIP(VoiceOverInternetProtocolIP承載語音)或音視頻流量之中了。2)樣本標註方法缺乏靈活性和可擴展性:常用的標註方法,是將網絡流按照五元組建流。再生成一份文檔,記錄每條五元組對應的協議或應用。該種方法的缺陷首先是標註是基於流級別,而不是基於包級別,數據使用者無法獲悉某個包的真實協議或應用。其次該方法需維護一份標註文檔,在對分類結果進行比對時,需頻繁讀取查詢該文檔,影響分類測評性能。技術實現要素:針對上述問題,本發明的目的是提供在一種網際網路流量分類樣本標註方法,能夠獲得流量分類標註樣本,具備完整的流量分類編碼規範、樣本採集方法、樣本標註方法。可提高流量分類標註的規範性、靈活性和可擴展性。適用於前述的四種流量分類方法。為達上述目的,本發明採取的具體技術方案是:一種網際網路流量分類樣本標註方法,包括以下步驟:S1:按照一樣本採集要求,採集指定協議和應用的的流量樣本,構成樣本數據集;S2:根據一流量分類編碼規範,在採集的樣本數據集的源MAC地址上標註分類信息;S3:根據所述分類信息,以一命名規範對流量樣本命名一文件名,使用該文件名作為標註標識。其中,所述樣本採集要求包括:1)流量樣本具有代表性,樣本採集時需獲取最新的或最廣泛使用的協議或應用版本,獲取主流作業系統下的樣本;2)流量樣本具有豐富性,獲取的樣本應涵蓋常用的協議和應用類型;3)流量樣本具有充分性,樣本獲取的次數和時間不小於一閥值;具體地,針對每種協議或應用至少應獲取10次,每次獲取時間不少於5分鐘。4)指定協議或應用應在一主機中運行,在與主機連接的路由器或交換機獲取流量樣本,應避免在NAT(NetworkAddressTranslation網絡地址轉換)環境獲取流量樣本;如主機中運行的是虛擬作業系統,應在虛擬系統中的路由獲取流量樣本;5)獲取指定協議或應用的時候,應過濾掉無關的協議或應用;6)應獲取指定協議或應用的完整報文;7)已知指定協議結構與指定應用特徵的前提下,獲取的流量樣本應能真實的代表此協議或應用。進一步地,所述分類信息包括:業務類型、協議類型、應用類型及擴展描述信息。進一步地,所述流量分類編碼規範用以定義流量分類層次結構,通過分類信息來描述流量分類,同時針對分類信息制定了相應的編碼。進一步地,根據流量分類編碼規範,在採集的樣本數據集的源MAC地址上相應位置標註分類信息。進一步地,所述命名規範為:文件名=業務類型_協議類型_應用類型_行為動作_應用版本_作業系統_流量保存時間.pcap。通過採取上述技術方案,本發明採用有效的框架實現網際網路流量分類樣本標註。提供了完整的流量分類編碼規範、樣本採集方法、樣本標註方法。強化了流量分類樣本標註的規範性、靈活性、可移植性,使流量分類測評更加高效、靈活。附圖說明圖1為本發明一實施例中網際網路流量分類樣本標註方法的步驟流程圖。圖2為本發明一實施例中MAC地址中各欄位分配示意圖。具體實施方式對本發明實施例中的技術方案進行清楚、完整的描述。對於本發明所提出的流量分類樣本標註方法,結合附圖的實例詳細說明。為了制定明確和完整的流量分類標註樣本,本發明首先定義了流量分類編碼規範,然後基於編碼規範,提出標註方法。標註包括在流量樣本數據集的源MAC地址標註,並以及通過命名文件名作為標註標識。本發明設計了流量分類層次結構,如下所示:流量類型:=<,,,>即流量類型可以由業務類型、協議類型、應用類型、擴展描述信息等分類信息來描述。其中業務類型、協議類型、應用類型為必填欄位,擴展描述信息為可選欄位。樣本標註時必須標註業務類型、協議類型、應用類型、擴展描述信息作為可選標註。本發明首先流量分類編碼規範,設置一流量分類編碼表,將不同業務類型、協議類型、應用類型、擴展描述信息進行編碼,作為參考性編碼方案。該編碼方案是後續樣本標註步驟實施的前提條件。表1、2、3分別給出了部分業務類型、協議類型、應用類型、擴展描述信息的編碼表:表1:不同業務類型編碼表業務類型業務類型碼音視頻類1文件傳輸類2郵件類3網絡管理類4其他類12未知業務類型15表2:不同協議類型編碼表協議類型協議類型碼BT1FTP22HTTP227POP3242SMTP243表3:不同應用類型編碼表應用類型應用類型碼百寶63百度下吧64超級旋風65電驢66加速土豆69酷狗音樂70酷樂音樂盒71酷我音樂盒72表4:不同擴展描述信息編碼表如圖1所示,流量分類樣本標註步驟如下:S1:按照樣本採集要求,採集指定協議和應用的全面、純淨、完整的流量樣本。該要求具體包括如下原則的一部分或全部:樣本採集時需獲取最新的或最廣泛使用的版本,獲取主流作業系統下的樣本,以保證樣本具代表性。為保證流量樣本兼具代表性與豐富性,獲取的樣本應涵蓋常用的協議和應用類型。樣本獲取的次數和時間必須充分,以保證樣本充分性。為了保證所獲取樣本能充分體現協議或應用的特徵,針對每種協議或應用至少應獲取10次,每次獲取時間不少於5分鐘。樣本獲取應在主機中運行指定協議或應用,在與主機連接的路由器或交換機獲取流量樣本,應避免在NAT(NetworkAddressTranslation網絡地址轉換)環境獲取流量。如主機中運行的是虛擬作業系統,應在虛擬系統中的路由獲取流量樣本。獲取指定協議或應用的時候,應過濾掉無關的協議或應用,即去除噪聲。目前常用方法就是捕包時,關閉無關的協議或應用,保證捕獲報文不含無關協議或應用。獲取指定協議或應用的完整報文,如TCP協議,至少應該包含TCP的3次握手。在已知協議結構與應用特徵的前提下,獲取的樣本應能真實的代表此協議或應用,而不至於與其他協議或應用混淆。例如,獲取SSL協議的過程中,應至少包括SSL協議層次結構中的基本內容,包括SSL握手層與SSL記錄層,缺少任何一個階段都不能完整代表此協議。其中步驟S1,具體執行步驟如下:S1.1:在目標協議或應用啟動前開啟捕包程序。S1.2:對於某種應用的獲取,需關閉不相關的應用軟體。捕包過程中的場景符合上述要求。S1.3:在完成捕包後,關閉目標應用後停止捕包。S2:根據流量分類編碼規範,利用樣本數據集的源MAC地址的六字節空間,將業務類型、協議類型、應用類型、擴展描述信息等分類信息的內容標註在上面。如圖2所示,將對應的類型碼轉化為二進位,進行標註。其中業務類型佔用4位,協議類型佔用16位,應用類型佔用16位,擴展描述信息佔用12位。假設業務類型碼為6,分配給業務類型的位數為4位,則標註為0110。S3:以一格式對樣本命名,使用文件名作為標註。文件名應該保持如下命名規範:文件名=業務類型_協議類型_應用類型_行為動作_應用版本_作業系統_流量保存時間.pcap。下面描述了每個欄位具體標註內容規則:1)業務類型、協議類型、應用類型按照編碼表中的類型碼錶進行標註;2)行為動作指對其運行時使用的功能或行為進行準確描述,如上傳功能、下載功能、交互功能等。3)應用版本指對於所描述的通用應用,使用應用官網、開源網站、或應用開發者公開使用的名稱。4)作業系統應包括主流作業系統平臺,如Windows、Linux、iOS、Android平臺等。作業系統名稱應與官方發布的名稱保持統一。5)流量保存時間按照YYYY-MM-DD-HH:FF:SS形式存儲年、月、日、小時、分、秒,如2016-05-23-12:35:26。以不同的分類信息通過流量分類層次結構標識流量分類樣本,而非傳統的依據單一特徵分類標準或主觀分類標準進行標註,採用有效的框架實現網際網路流量分類樣本標註。強化了流量分類樣本標註的規範性、靈活性、可移植性,使流量分類測評更加高效、靈活。顯然,所描述的實施例僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。當前第1頁1 2 3