一種基於過濾器動態集成的垃圾郵件過濾方法
2023-06-12 00:13:16 2
專利名稱:一種基於過濾器動態集成的垃圾郵件過濾方法
技術領域:
本發明涉及電子郵件技術領域中的垃圾郵件處理技術,尤其涉及一種基於過濾器 動態集成的垃圾郵件過濾方法。
背景技術:
信息通訊技術的發展及由此帶來的信息量增長,極大促進了人們的溝通和交流, 作為當前信息爆炸的產物,垃圾郵件佔用大量傳輸、存儲和運算資源,造成了巨大的資源浪 費,在其它方面的危害程度也相當大。
目前,反垃圾郵件技術主要包括基於協議的方法、基於規則的方法、基於統計機器 學習的方法。隨著郵件在線變化日益突出,基於協議和基於規則的方法因為需要事先定義 規則,往往無法及時處理新的垃圾郵件形式。而基於統計學習的方法具有與時俱進的優點, 成為近年來研究的重點和熱點,特別是隨著特徵選擇技術和機器學習算法的改進,基於統 計的垃圾郵件過濾方法取得了優異的性能。
近年來,隨著各種五花八門的垃圾郵件出現,單分類器學習算法往往無法適應其 變化,為此,利用各種算法組合來提高分類性能得到了廣泛的關注。然而,現有的過濾器組 合方法只是單純地挑選一些在單獨工作時效果好的過濾器,並沒有對過濾器進行區分、歸 類,這使得一些具有相似機理的過濾器在組合工作時往往無法充分相互配合,過濾的穩定 性不高。同時,現有過濾器組合一旦選定了某種組合方式,便不再對其進行調整。這樣,隨 著時間的推移,垃圾郵件製造者通過不斷變換郵件特徵,能夠輕易地避開現有集成方案的 檢測,使其失去對新產生的垃圾郵件的判別能力,導致過濾的準確性下降。發明內容
有鑑於此,本發明提供一種基於過濾器動態集成的垃圾郵件過濾方法,利用過濾 器分組以及動態配置集成過濾器,克服現有技術的缺陷,提高垃圾郵件過濾的準確性和穩 定性。
為達到上述目的,本發明的技術方案是這樣實現的
A、用文本處理方法對垃圾郵件進行處理;
B、用戶對過濾器進行分組並初始選取過濾器;
C、通過延時替換控制對過濾器進行動態選擇。
由上述的技術方案可知,本發明中的一種基於過濾器動態集成的垃圾郵件過濾方 法,由於用戶按照一定的歸類原則對過濾器進行分組,並動態從每組中選取過濾器用於集 成分類,使得多個過濾器在工作時得以充分地相互配合,有效克服現有多過濾器集成方法 在應對郵件特徵變化方面的不足,提高了垃圾郵件過濾的準確性和穩定性。
圖1是本發明實施例中一種基於過濾器動態集成的垃圾郵件過濾方法的原理圖。3
圖2是本發明實施例中一種基於過濾器動態集成的垃圾郵件過濾方法的流程圖。
圖3是本發明實施例中一種基於異質過濾器動態集成的垃圾郵件過濾方法的流 程圖。
具體實施方式
為使本發明的目的、技術方案和優點表達得更加清楚明白,下面結合附圖及具體 實施例,對本發明作進一步的詳細說明,但本發明的實施方式不限於此。
圖1是本發明實例中一種基於過濾器動態集成的垃圾郵件過濾方法的原理圖。如 圖1所示,本發明首先利用文本處理方法對郵件進行處理,得到處理結果;然後,將所得到 的文本處理結果輸入經用戶分組選定的各個過濾器進行學習和分類;最後,根據分類結果 和用戶反饋對過濾器進行動態選取。
圖2是本發明實例中一種基於過濾器動態集成的垃圾郵件過濾方法的流程圖。如 圖2所示,本發明實例中一種基於過濾器動態集成的垃圾郵件過濾方法包括如下所述的步 驟
步驟201,用文本處理方法對垃圾郵件進行處理。
所述的文本處理方法,包括對郵件文本的抽取、文本分詞、文本的特徵選取、文本 向量映射。具體的處理步驟如下
1)郵件文本的抽取
郵件原文一般都進行了加密,並帶有各種字符編碼。因此,抽取郵件文本需要進行 如下步驟對郵件進行解密,得到解密後的郵件內容;提取郵件中文本的字符編碼,並利用 編碼的轉換統一文本的字符編碼。最後,提取統一了編碼的文本信息。
2)文本分詞
對於類似於中文的無間隔、連寫的語言,為了能夠使一些機器學習算法理解其意 義,需要對其進行分詞處理,找到表示文本的特徵。
3)文本的特徵選取
特徵選取方法通過將高維數據映射到低維表示,從而減少數據的稀疏性,同時在 一定程度上能夠去除噪音,提高分類算法的性能。因而,特徵選取方法是一項重要的數 據預處理方法。常用的特徵選取方法包括文檔頻率(document frequency,DF)、信息熵 (information gain, IG)等。
4)向量映射
由於一些文本分類算法需要基於向量空間模型進行相似性計算,因此需要提供向 量輸入。文本向量映射是將郵件的文本表示轉化為向量表示,向量的長度是訓練郵件集中 所有出現的特徵詞數量,向量的每一維大小表示該文本中對應的特徵詞的權重。所述的 訓練郵件集是指經過標註的用於訓練過濾器的郵件集合。所述的特徵詞權重的常用計算 方法有二值(binary)、詞步頁(term frequency, TF)、反轉文檔步頁率(inverse document frequency, IDF)等。
對文本集進行上述預處理後,按照分類過濾器的不同要求將符合的信息輸入各個 分類過濾器。
步驟202,用戶對過濾器進行分組並初始選取過濾器。
所述的對過濾器進行分組,是指用戶可以依據過濾器的機理對其進行分組,開始 時在每一組中隨機選擇過濾器作為初始分類器。
步驟203,通過延時替換控制對過濾器進行動態選擇。
在該步驟中,本發明實施例首先利用所選的過濾器基於文本處理方法所提供的輸 入進行集成分類;然後,根據分類結果和用戶的反饋,通過延時替換控制動態對過濾器進行 選取。具體的處理步驟如下
1)根據所選的過濾器基於文本處理方法所提供的輸入進行集成分類。
所述的集成分類的步驟如下首先,過濾器通過訓練獲得各自的分類處理模型; 然後,利用所獲得的分類處理模型對待分類郵件判定得分;接著,將所有的判定信息進行匯 總、集成,得到最終判定得分;最後,通過閾值策略將郵件投放到正常郵件或垃圾郵件收件 箱中。
其中,過濾器通過訓練獲得各自的分類處理模型,分為兩種情況一是,在首次使 用某個過濾器進行分類前,需要學習一些帶標註的郵件,通過文本處理方法得到過濾器的 輸入,結合郵件標註,訓練獲得初始分類過濾器;二是,在以後使用某個過濾器進行分類前, 過濾器通過用戶反饋的郵件標註以及文本處理方法提供的相應郵件的輸入進行分類處理 模型的訓練。集成方式主要分為線性和非線性兩種,其中線性集成分為簡單算術平均集成、 根據歷史準確率設定的加權平均集成等,非線性集成有基於支持向量機的集成等。
2)根據分類結果和用戶反饋,通過延時替換控制動態對過濾器選取。
用戶通過查閱對一部分郵件進行標註。在此基礎上,所述的根據分類結果和用戶 的反饋,通過延時替換控制決定下一次的過濾器選取的具體步驟如下首先,記錄用戶標 注,並以此信息為依據,在時間範圍Tl內計算正在運行的過濾器的正確率;然後,若其中一 個或幾個過濾器在時間Tl內的正確率低於用戶給定閾值E,則準備對過濾器進行替換;接 著,考慮待替換過濾器正確率在接下來的時間範圍T2內的準確率,若低於閾值E,則對其替 換,從其所在組內隨機選取其它任意一款過濾器。
圖3是本發明實例中一種基於異質過濾器動態集成的垃圾郵件過濾方法的流程 圖。所述的異質是指過濾器的工作原理不同,即過濾器核心模塊所基於的機器學習技術不 同。在本發明實例中,初始提供的過濾器包括兩種基於貝葉斯判定的過濾器SpamProbe 和BogoFilter,一種基於局部匹配預測技術的過濾器PPM(Prediction by Partial Matching),—禾中 雲力 I Markov Hifii^Wil 5 !^ DMC (Dynamic Markov compression), 一種對傳統SVM的改進的過濾器ROSVM(Relaxed Online SVM),一種基於Logistic回歸 的過濾器 LR_trirls (Logistic Regression with truncated iteratively re-weighted least squares)。
如圖3所示,本發明實例中一種基於異質過濾器動態集成的垃圾郵件過濾方法的 具體實施步驟如下
1)利用文本處理方法對郵件進行處理。
利用文本處理方法分別得到郵件提取文本的原文、分詞後的郵件提取文本以及向 量表示的郵件提取文本。
其中,提取文本原文的方法包括解碼、去除標記信息、字符集轉換、繁簡字轉換、標 題和正文提取等步驟。
文本分詞步驟是在上述所獲得的郵件文本基礎上,利用天網分詞程序對提取的郵 件原文進行分詞處理,保存分詞後的文本。
文本向量表示是在上述經過文本分詞處理的步驟後,利用文檔頻率(DF)方法進 行特徵選擇,設定保留維數為1000,從而得到特徵選擇的結果。根據特徵選擇的結果,採用 二值表示向量每一維的權重將分詞後的郵件文本映射為向量,即,當特徵詞出現在郵件文 本中時,其權重為1,否則為0。
2)用戶對過濾器進行分組並初始選取過濾器。
用戶將基於相同工作原理的過濾器設定為同一組,即,將基於區分方法的過濾器 ROSVM和LR_trirls分為一組;將基於生成方法的過濾器SpamProbe和BogoFilter分為 一組;將基於壓縮方法的過濾器PPM和DMC分為一組。並且隨機選擇了 PPM、BogoFilter, ROSVM作為初始的集成過濾器。
3)通過延時替換控制對過濾器進行動態選擇。
該方法包括兩個步驟
(a)根據所選的過濾器基於文本處理方法所提供的輸入進行集成分類。
首先,將提取的郵件文本原文輸入過濾器PPM,將經過分詞處理的郵件文本輸入過 濾器BogoFilter,將經過向量表示的文本輸入過濾器R0SVM,三個過濾器PPM、BogoFilter、 ROSVM通過訓練獲得各自的分類處理模型。然後,利用所獲得的分類處理模型,用三個過濾 器對待分類郵件進行判定,分別輸出W,l]區間的垃圾郵件概率值。接著,採用簡單算術平 均分集成方式,只計算所有過濾器的平均得分S。最後,將得分S與設定的閾值T = 0. 5進 行比較,當得分S超過閾值T,將郵件判定為垃圾郵件;反之,則判定為正常郵件。
其中,通過訓練獲得各自的分類處理模型包括兩種情況一是,在首次使用上述三 個過濾器進行分類前,利用事先準備好的帶標註的郵件,訓練PPM、BogoFilter, ROSVM的初 始分類處理模型;二是,在以後使用上述三個過濾器進行分類前,通過用戶反饋的郵件標註 以及文本處理方法提供的相應郵件的輸入進行分類處理模型的訓練。
(b)根據分類結果和用戶反饋,通過延時替換控制動態對過濾器選取。
首先,用戶查看接收的郵件,並對查看的郵件進行類別標記。然後,將用戶的標記 和分類結果作為歷史信息,計算在時間範圍Tl內的PPM、BogoFilter、ROSVM的歷史正確率 A。接著,若其中一個或幾個過濾器在Tl時間內的歷史正確率A低於用戶給定閾值E,則準 備對過濾器進行替換。最後,若待替換過濾器的歷史正確率A在接下來的T2時間內仍低於 E,則替換這一個或這幾個過濾器,並且隨機選取這一個或這幾個過濾器所在組中的其他任 意一款過濾器。
其中,
權利要求
1.一種基於過濾器動態集成的垃圾郵件過濾方法,其特徵在於,該方法包括以下步驟A、用文本處理方法對垃圾郵件進行處理;B、用戶對過濾器進行分組並初始選取過濾器;C、通過延時替換控制對過濾器進行動態選擇。
2.根據權利要求1所述的方法,其特徵在於,步驟A中所述的文本處理方法包括對郵 件文本的抽取、文本分詞、文本的特徵選取和文本向量映射。
3.根據權利要求1所述的方法,其特徵在於,步驟B中所述的對過濾器進行分組,是指 用戶可以依據過濾器的機理對其進行分組。所述的初始選取過濾器,是指開始時在每一組 中隨機選擇過濾器作為初始分類器。
4.根據權利要求1所述的方法,其特徵在於,步驟C具體包括Cl、利用所選的過濾器基於文本處理方法所提供的輸入進行集成分類; C2、根據分類結果和用戶反饋,通過延時替換控制動態對過濾器進行選取。
5.根據權利要求4所述的方法,其特徵在於,步驟Cl中所述的集成分類的具體步驟包括C11、過濾器通過訓練獲得各自的分類處理模型; C12、利用所獲得的分類處理模型對待分類郵件判定得分; C13、將所有的判定信息進行匯總、集成,得到最終判定得分; C14、通過閾值策略將郵件投放到正常郵件或垃圾郵件收件箱中。
6.根據權利要求5所述的方法,其特徵在於,步驟Cll包括兩種情況一是,在首次使 用某個過濾器進行分類前,需要學習一些帶標註的郵件,通過文本處理方法得到過濾器的 輸入,結合郵件標註,訓練獲得初始分類過濾器;二是,在以後使用某個過濾器進行分類前, 過濾器通過用戶反饋的郵件標註以及文本處理方法提供的相應郵件的輸入進行分類處理 模型的訓練。
7.根據權利要求4所述的方法,其特徵在於,步驟C2具體包括首先,記錄用戶標註, 並以此信息為依據,在時間範圍Tl內計算正在運行的過濾器的正確率;然後,若其中一個 或幾個過濾器在時間Tl內的正確率低於用戶給定閾值E,則準備對過濾器進行替換;接著, 考慮待替換過濾器正確率在接下來的時間範圍T2內的準確率,若低於閾值E,則對其替換, 從其所在組內隨機選取其它任意一款過濾器。
全文摘要
本發明涉及電子郵件技術領域中的垃圾郵件處理技術,尤其涉及一種基於過濾器動態集成的垃圾郵件過濾方法。該方法包括用文本處理方法對垃圾郵件進行處理;用戶對過濾器進行分組並初始選取過濾器;通過延時替換控制對過濾器進行動態選擇。用戶按照一定的歸類原則對過濾器進行分組,並動態從每組中選取過濾器用於集成分類,使得多個過濾器在工作時得以充分地相互配合,有效克服現有多過濾器集成方法在應對郵件特徵變化方面的不足,提高了垃圾郵件過濾的準確性和穩定性。
文檔編號H04L29/06GK102035753SQ20091020562
公開日2011年4月27日 申請日期2009年10月2日 優先權日2009年10月2日
發明者王金龍, 高珂 申請人:青島理工大學