新四季網

一種垃圾郵件檢測方法及裝置製造方法

2023-08-05 04:14:16

一種垃圾郵件檢測方法及裝置製造方法
【專利摘要】本發明公開了一種垃圾郵件檢測方法及裝置,該方法包括:針對一個待檢測郵件,確定該郵件對應的表徵郵件屬性信息的第一特徵向量值與每個郵件樣本對應的第二特徵向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;根據確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大於所述相似度均值的相似郵件樣本的數量;分別確定該郵件歸屬於垃圾郵件類別和歸屬於正常郵件類別的權重值;根據所述權重值,確定該待檢測郵件的類型。採用本發明這裡提出的技術方案,能夠較好地提高垃圾郵件歸類的準確性。
【專利說明】一種垃圾郵件檢測方法及裝置
【技術領域】
[0001]本發明涉及業務支撐【技術領域】,尤其是涉及一種垃圾郵件檢測方法及裝置。
【背景技術】
[0002]自從1994年出現了第一封以Spam為代表的垃圾郵件開始,垃圾郵件檢測方法也應運而生。垃圾郵件檢測方法經歷了不同的發展階段:
[0003]第一階段:基於黑白名單的垃圾郵件檢測方法,該方法通過判斷當前郵件是否是黑白名單中的郵件來檢測垃圾郵件。例如在黑名單中的任何郵件都是垃圾郵件,可以直接刪除或者歸類至垃圾郵件類別中,反之,在白名單中的任何郵件都是正常郵件,允許通過。該方法的優點是簡單明確,能最大程度的節省垃圾郵件檢測過程中佔用的系統資源。其缺點是當接收到的郵件不在黑白名單中,該方法就失去了判斷力,容易造成誤判,因此基於黑白名單的垃圾郵件檢測方法準確性較低。
[0004]第二階段:基於人工規則的垃圾郵件檢測方法,該方法根據一定的規則對垃圾郵件檢測系統進行預先設置,根據設置的規則對接收到的郵件進行檢測。其中,檢測規則主要根據關鍵詞匹配、信頭分析、群發策略和郵件內容的其它特徵等幾個方面來進行設置,該方法的缺點是受人為因素影響比較大。
[0005]第三階段:基於內容的垃圾郵件檢測方法,該方法是將機器學習中的一些算法應用到對垃圾郵件的檢測中,一般分為基於規則和基於統計的兩種檢測算法。基於內容的垃圾郵件檢測方法主要是通過分析垃圾郵件的主題和正文,獲得垃圾郵件具備的相關特徵,將這些特徵作為訓練樣本,對垃圾郵件進行檢測。該方法優點是在識別垃圾郵件方面有較高的準確率和召回率,但是該方法的準確性依賴於大量的訓練樣本。
[0006]在現有技術中,一般米用基於K最近鄰(KNN, K-Nearest Neighbor)分類算法實現對垃圾郵件的檢測。KNN算法基本理論是:對於給定文本,如果該文本在特徵空間中的K個最近或最相似的文本中的大多數屬於一個類別,則可以判定該文本也屬於這個類別。例如圖1所示,圖1中所示的三角形是等待歸類處理的形狀,正方形和圓形是兩個已知的類另U,若K=3,由於圓形所佔比例為2/3,則等待歸類處理的三角形將被歸類到圓形類別中,若Κ=5,由於正方形所佔比例為3/5,因此三角形被歸類到正方形類別中。基於上述原理,現有技術中基於KNN算法實現垃圾郵件檢測方法流程具體如下述:
[0007]步驟一:選取訓練樣本集合,其中,訓練樣本集合中包括垃圾郵件樣本和正常郵件樣本。在訓練樣本集合中,分別確定表徵垃圾郵件樣本和正常郵件樣本的屬性信息的特徵
向量值。
[0008]步驟二:對於等待歸類確認的每一個郵件,獲得表徵該郵件屬性信息的特徵向量值。
[0009]步驟三:根據夾角餘弦法,分別計算該郵件對應的特徵向量值與訓練樣本集合中所有樣本對應的特徵向量值之間的相似度,將確定出的所有相似度按照大小排序,選取出與該等待歸類的郵件比較相似、比較接近的K個樣本。[0010]步驟四:對選取出的K個樣本,分別計算該待確定的郵件歸屬垃圾郵件和歸屬正常郵件的權重值,根據確定出的權重值,判斷該郵件是否是垃圾郵件,如果是將該郵件濾除,反之不做處理。
[0011]現有技術中提出的基於KNN算法實現垃圾郵件檢測的方法,對等待歸類確認的郵件進行歸類確認時,僅通過比較與垃圾郵件和正常郵件兩類的相似度之和來確定權重值,未考慮到其它因素等也會影響最終的歸類結果,因此準確性較低。

【發明內容】

[0012]本發明實施例提供一種垃圾郵件檢測方法及裝置,能夠較好地提高垃圾郵件檢測的準確性。
[0013]一種垃圾郵件檢測方法,包括:針對一個待檢測郵件,確定該郵件對應的表徵郵件屬性信息的第一特徵向量值與郵件樣本集合中的每個郵件樣本對應的表徵郵件屬性信息的第二特徵向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;根據確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大於所述相似度均值的相似郵件樣本的數量;根據所述相似度均值和數量,分別確定該待檢測郵件歸屬於垃圾郵件類別和歸屬於正常郵件類別的權重值;根據垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
[0014]一種垃圾郵件檢測裝置,包括:相似度值確定單元,用於針對一個待檢測郵件,確定該郵件對應的表徵郵件屬性信息的第一特徵向量值與郵件樣本集合中的每個郵件樣本對應的表徵郵件屬性信息的第二特徵向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本;獲得單元,用於根據確定單元確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本;相似度均值確定單元,還用於確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大於所述相似度均值的相似郵件樣本的數量;權重值確定單元,用於根據所述相似度均值確定出的相似度均值和數量,分別確定該待檢測郵件歸屬於垃圾郵件類別和歸屬於正常郵件類別的權重值;郵件類型確認單元,用於根據權重值確定單元確定出的垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
[0015]採用本發明上述提出的技術方案,對於一個待檢測郵件,通過確定該郵件對應的第一特徵向量值與郵件樣本集合中的每個郵件樣本對應的第二特徵向量值之間的相似度值,獲得該郵件與郵件樣本集合中的相似郵件樣本,然後再確定該郵件和獲得的相似郵件樣本之間的相似度均值,以及獲得相似度值大於相似度均值的相似郵件樣本的數量,根據相似度均值和數量,分別確定該郵件歸屬垃圾郵件類別的權重值和歸屬正常郵件樣本的權重值,最後根據歸屬不同類別的權重值,確定該待檢測郵件的類型。從而實現將待檢測郵件歸類為垃圾郵件或者歸類為正常郵件,本發明提出的技術方案中,引入了相似度均值作為參考,較好地提高了確定待檢測郵件類型的準確性。
【專利附圖】

【附圖說明】
[0016]圖1為現有技術中,提出的KNN算法示意圖;[0017]圖2為本發明實施例一中,提出的垃圾郵件檢測方法流程圖;
[0018]圖3為本發明實施例一中,提出的訓練樣本的偽聚類示意圖;
[0019]圖4為本發明實施例一中,提出的原始樣本分成小類過程示意圖;
[0020]圖5為本發明實施例一中,提出的APC-KNN分類器的訓練流程圖;
[0021]圖6為本發明實施例一中,提出的不同特徵維數三組實驗的Fl值對比示意圖;
[0022]圖7為本發明實施例一中,提出的不同特徵維數對分類結果的影響對比示意圖;
[0023]圖8為本發明實施例一中,提出的不同K值三組實驗的Fl值對比示意圖;
[0024]圖9為本發明實施例一中,提出的不同K值對分類結果的影響對比示意圖;
[0025]圖10為本發明實施例二中,提出的倆及郵件檢測裝置結構示意圖。
【具體實施方式】
[0026]針對現有技術中垃圾郵件檢測方法,僅根據待檢測郵件與郵件樣本集合中的郵件樣本之間的相似度值之和來確定權重值,然後對待檢測郵件進行歸類,使得對郵件檢測的準確性較低的問題,本發明實施例這裡提出的技術方案,結合改進的KNN算法和預先設置的郵件樣本集合,綜合考慮影響歸類結果的條件來確定待檢測的郵件類型,能夠較好地提高垃圾郵件檢測的準確性。
[0027]下面將結合各個附圖對本發明實施例技術方案的主要實現原理、【具體實施方式】及其對應能夠達到的有益效果進行詳細地闡述。
[0028]實施例一
[0029]本發明實施例一這裡提出一種垃圾郵件檢測方法,如圖2所示,具體處理過程如下:
[0030]步驟21,選取郵件樣本集合,郵件樣本集合也可以稱之為訓練樣本集合。
[0031]其中,郵件樣本集合中包括垃圾郵件樣本和正常郵件樣本,垃圾郵件樣本的數量和正常郵件樣本的數量可以相同,也可以不相同。在敏感度要求較高的應用環境中,在選取的郵件樣本集合中,包含的垃圾郵件樣本的數量可以大於正常郵件樣本的數量,反之,在敏感度要求較低的場合中,在選取的郵件樣本集合中,包含的垃圾郵件樣本的數量可以小於正常郵件樣本的數量。基於公平的原則,本發明實施例一這裡提出的技術方案,在選取的郵件樣本集合中,包含相同數量的垃圾郵件樣本和正常郵件樣本。
[0032]步驟22,針對一個待檢測郵件,確定該郵件對應的表徵郵件屬性信息的第一特徵向量值以及確定選取的郵件樣本集合中每個郵件樣本對應的表徵郵件屬性信息的第二特徵向量值。
[0033]其中,每個郵件都具備表徵郵件屬性信息的特徵向量值,為便於闡述,本發明實施例一這裡待檢測郵件對應的表徵郵件屬性信息的特徵向量值規定為第一特徵向量值,將郵件樣本對應的表徵郵件屬性信息的特徵向量值規定為第二特徵向量值。具體地,第一特徵向量值的選取和第二特徵向量值的選取方法是相同的。
[0034]步驟23,根據確定出的第一特徵向量值和第二特徵向量值,計算二者之間的相似度值。
[0035]其中,可以基於夾角餘弦算法,根據確定出的第一特徵向量值和第二特徵向量值,計算相似度值,該相似度值可以表徵待檢測郵件和郵件樣本集合中包含的郵件樣本之間的相似度。
[0036]具體地,可以採用下述公式I來計算相似度值:
【權利要求】
1.一種垃圾郵件檢測方法,其特徵在於,包括: 針對一個待檢測郵件,確定該郵件對應的表徵郵件屬性信息的第一特徵向量值與郵件樣本集合中的每個郵件樣本對應的表徵郵件屬性信息的第二特徵向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本; 根據確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本; 確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大於所述相似度均值的相似郵件樣本的數量; 根據所述相似度均值和數量,分別確定該待檢測郵件歸屬於垃圾郵件類別和歸屬於正常郵件類別的權重值; 根據垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
2.如權利要求1所述的方法,其特徵在於,採用下述公式確定所述正常郵件類別的權重值:
3.如權利要求1所述的方法,其特徵在於,採用下述公式確定所述正常郵件類別的權重值:
4.如權利要求1所述的方法,其特徵在於,採用下述方式確定郵件樣本集合: 基於聚類算法,將正常郵件樣本和垃圾郵件樣本分別進行聚類,得到至少一個正常郵件樣本簇和至少一個垃圾郵件樣本簇; 在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本; 將選擇出的第一中心樣本和第二中心樣本組成郵件樣本集合。
5.如權利要求4所述的方法,其特徵在於,所述將正常郵件樣本進行聚類,得到至少一個正常郵件樣本簇,包括: 確定每個正常郵件樣本對應的第一特徵權重值; 根據確定的所述第一特徵權重值,按照預設的步進值將所有正常郵件樣本劃分為至少一個正常郵件樣本簇。
6.如權利要求5所述的 方法,其特徵在於,採用下述公式確定第一特徵權重值:
其中,D1是第一特徵權重值,Xi是每個正常郵件樣本對應的正常郵件樣本特徵向量值,Wi是預設的對應正常郵件樣本的參數值。
7.如權利要求4所述的方法,其特徵在於,所述將垃圾郵件樣本進行聚類,得到至少一個垃圾郵件樣本簇,包括: 確定每個垃圾郵件樣本對應的第二特徵權重值; 根據所述第二特徵權重值,按照預設的步進值將垃圾郵件樣本劃分為至少一個垃圾郵件樣本簇。
8.如權利要求7所述的方法,其特徵在於,採用下述公式確定第二特徵權重值:
η D2 =η = \,2…N
J=I 其中,D2是第二特徵權重值,Xj是每個垃圾郵件樣本對應的垃圾郵件樣本特徵向量值,Wj是預設的對應垃圾郵件樣本的參數值。
9.如權利要求4所述的方法,其特徵在於,所述在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本,包括: 基於平均中心算法,在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本。
10.一種垃圾郵件檢測裝置,其特徵在於,包括: 相似度值確定單元,用於針對一個待檢測郵件,確定該郵件對應的表徵郵件屬性信息的第一特徵向量值與郵件樣本集合中的每個郵件樣本對應的表徵郵件屬性信息的第二特徵向量值之間的相似度值,其中所述郵件樣本集合中包含至少一個正常郵件樣本和至少一個垃圾郵件樣本; 獲得單元,用於根據確定單元確定出的相似度值,在郵件樣本集合中獲得與所述待檢測郵件相似的郵件樣本; 相似度均值確定單元,還用於確定待檢測郵件和相似的郵件樣本之間的相似度均值,以及確定出對應的相似度值大於所述相似度均值的相似郵件樣本的數量; 權重值確定單元,用於根據所述相似度均值確定出的相似度均值和數量,分別確定該待檢測郵件歸屬於垃圾郵件類別和歸屬於正常郵件類別的權重值; 郵件類型確認單元,用於根據權重值確定單元確定出的垃圾郵件類別的權重值和正常郵件類別的權重值,確定該待檢測郵件的類型。
11.如權利要求10所述的裝置,其特徵在於,所述權重值確定單元,具體採用下述公式確定所述正常郵件類別的權重值:
12.如權利要求10所述的裝置,其特徵在於,所述權重值確定單元,具體採用下述公式確定所述正常郵件類別的權重值:
所述權重值確定單元具體採用下述公式確定所述垃圾郵件類別的權重值:

13.如權利要求10所述的裝置,其特徵在於,還包括郵件樣本集合確定單元,具體用於採用下述方式確定郵件樣本集合: 基於聚類算法,將正常郵件樣本和垃圾郵件樣本分別進行聚類,得到至少一個正常郵件樣本簇和至少一個垃圾郵件樣本簇;在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本;將選擇出的第一中心樣本和第二中心樣本組成郵件樣本集合。
14.如權利要求13所述的裝置,其特徵在於,所述郵件樣本集合確定單元,具體用於確定每個正常郵件樣本對應的第一特徵權重值;根據確定的所述第一特徵權重值,按照預設的步進值將所有正常郵件樣本劃分為至少一個正常郵件樣本簇。
15.如權利要求14所述的裝置,其特徵在於,所述郵件樣本集合確定單元,具體採用下述公式確定第一特徵權重值: 其中,D1是第一特徵權重值,Xi是每個正常郵件樣本對應的正常郵件樣本特徵向量值,Wi是預設的對應正常郵件樣本的參數值。
16.如權利要求13所述的裝置,其特徵在於,所述郵件樣本集合確定單元,具體用於確定每個垃圾郵件樣本對應的第二特徵權重值;根據所述第二特徵權重值,按照預設的步進值將垃圾郵件樣本劃分為至少一個垃圾郵件樣本簇。
17.如權利要求16所述的裝置,其特徵在於,所述郵件樣本集合確定單元,具體用於採用下述公式確定第二特徵權重值: P =乞WjXi η = \.2…N
J=I 其中,D2是第二特徵權重值,Xj是每個垃圾郵件樣本對應的垃圾郵件樣本特徵向量值,Wj是預設的對應垃圾郵件樣本的參數值。
18.如權利要求13所述的裝置,其特徵在於,郵件樣本集合確定單元,具體用於基於平均中心算法,在每個正常郵件樣本簇中選擇一個第一中心樣本和在每個垃圾郵件樣本簇中選擇一個第二中心樣本。
【文檔編號】H04L12/24GK103490974SQ201210195957
【公開日】2014年1月1日 申請日期:2012年6月14日 優先權日:2012年6月14日
【發明者】韋媚, 劉曉峰, 梁耿, 陳陽, 凌俊民 申請人:中國移動通信集團廣西有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀