基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法
2023-04-29 21:37:36
專利名稱:基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法
技術領域:
本發明是一種提取圖片的局部不變特徵,利用陸地移動距離的相似度測量方法, 對圖像型垃圾郵件檢測的實現方案,主要解決了當今的技術對圖片型垃圾郵件的檢測效率 和召回率低等問題,屬於數據挖掘和機器學習領域。
背景技術:
電子郵件已成為人們進行網絡交流溝通的重要途徑,但是由於巨大的商業、經濟 及政治利益,導致垃圾郵件數量急劇膨脹。起初盛行的圖像型垃圾郵件是將廣告等垃圾信 息以文字形式嵌入圖像中,Hrishikesh等人在利用挖掘出來的文本以及顏色特徵來對郵件 進行分類[1]。Fumera等人在2006年提出了一種0CR(光學字符識別)技術檢測圖像型垃 圾郵件的文本信息,相對其他過濾系統來說,具有較好的檢測效果[2]。同時垃圾郵件製造 者們也在不斷地增強垃圾郵件逃避檢測系統的能力,他們對嵌有廣告等垃圾信息的圖像進 行了模糊處理,這使得當時的OCR技術無法挖掘出嵌入這種圖片中的文字。Dredze等人提 出了利用圖片的高級特徵來對圖片進行分類,高級特徵指的是文件格式,大小,顏色分布等。這種方法的優點是檢測速度很快,並且具有較好的擴展性,能夠與對低級特徵的圖片 過濾器進行有效的結合。Fumera在2007年提出了一種通過計算圖像周長複雜度的方法來判別一張圖片是 否經過了模糊技術的處理[4]。一張圖片的模糊的程度可以由周長複雜度來衡量的,計算方 法為文字區域周長的平方和文字區域面積的比值。通過文字周長複雜度可以標識斷字符或 者是噪音對象的出現。由於不能證實經過模糊處理的圖像就是攜帶垃圾信息的圖像,這種 處理技術只能作為垃圾郵件過濾系統中預處理某個模塊。Zhe Wang等人提出的圖像型垃圾 郵件過濾方法是通過比較圖像之間的相似性方法[5]分別使用結合三類圖像型垃圾郵件 過濾方法(顏色直方圖過濾方法、哈爾小波過濾以及方向直方圖特徵),實驗的結果表明 每個過濾系統單獨執行時,通過比較發現小波過濾獲取了最好的檢測率並且其誤檢率(將 正常圖片標識為垃圾圖片)低於0. 0009%,三類過濾器結合起來的精確率達到96%,該方 法是通過結合已有的過濾系統來實現的,可以說它是對一個階段的垃圾郵件過濾技術的一 個總結,使用該方法提高了圖像型垃圾郵件過濾系統的性能。Mehta等在2008年針對使用模板而大量生成的垃圾郵件進行檢測,利用重複相 似性質,使用支持向量機分類器的精確度達到了 98%,同時提出了利用高斯混合模型來對 圖片進行聚類的算法[6]將每幅圖片縮小到100X100像素點,提取每個像素的紋理形狀 和顏色特徵,對每幅圖片訓練其高斯混合模型,並計算高斯混合模型之間的相近距離來聚 類。通過計算閥值來分辨垃圾圖片,雖然該方法採用統計學知識計算比較精確但是計算量 太大,算法的時間複雜度較高,不利於在實際的應用中。隨後由Zuo等提出了使用核函數 為PMK的一類支持向量機分類器對電子郵件中圖像的局部不變特徵進行歸類[7]。該方法 主要是針對那些為了逃避基於圖像模板相似性的過濾器,而改變圖像的總體布局,保留圖 片中的某些局部不變特徵的垃圾郵件。所以這種方法在一定程度上彌補了相似性檢測的漏洞。[1]Hrishikesh Aradhye, Gregory Myers, and James Herson. Image analysis forefficient categorization of image-based spam e-mail.In Proceedings of EighthInternational Conference on Document Analysis and Recognition, ICDAR 2005, volume 2, pages 914-918. IEEE Computer Society,2005.[2]Giorgio Fumera, Ignazio Pillai, and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images. Journal of Machine LearningResearch, (7) :2699_2720,2006.[3]Mark Dredze, Reuven Gevaryahu, and Ari Elias-Bachrach. Learning fastclassifiers for image spam. In Proceedings of the Fourth Conference on Emailand Anti-Spam, CEAS' 2007,2007.[4]Giorgio Fumera,Ignazio Pillai,Fabio Roli,and Battista Biggio. Image spamfiltering using textual and visual information, MIT Spam Conference2007, Cambridge, USA, March 2007[5]Zhe Wang, William Josephson, Qin Lv, Moses Charikar, and Kai Li.Filteringimage spam with near-duplicate detection. In Proceedings of the FourthConterence on Email and Anti-Spam, CEAS' 2007,2007.[6]Mehta, B. , Nangia, S. , Gupta, Μ. , and Nejdl, W. Detecting image spam usingvisual features and near duplicate detection.In Proceeding of the 17thinternational Conference on World Wide Web(Beijing, China, April 21-25, 2008) .WWW' 08. ACM, New York,NY,497-506.[7]Haiqiang Zuo, Weiming Hu, Ou Wu, Yunfei Chen, Guan Luo. Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel. Proceedings ofthe 18th international conference on World Wide Web Pages,2009,1187—1188.
發明內容
技術問題本發明的目的是提供一種使用圖片的局部不變特徵的基於陸地移動距 離的相似度檢測圖像型垃圾郵件的方法。目前現有的利用相似度檢測圖像型垃圾郵件技術 主要是使用歐式距離,而歐式距離無法處理結構大小可變的特徵,需要先對特徵進行聚類 規範化特徵,因此影響了檢測速度。本發明利用陸地移動距離直接處理結構大小可變的局 部不變特徵,大大提高了圖像型垃圾郵件的檢測速度,同時保證了高精確度和低誤判率。技術方案圖片的局部不變特徵,是一種基於尺度空間的不變量技術的特徵檢測 方法,對圖像平移、旋轉、縮放、甚至仿射變換保持不變性的圖像局部特徵。用這種方法提取 圖片中的不變區域特徵,是結構大小可變的特徵。陸地移動距離,是一種能夠計算結構大小 可變特徵的距離的測量標準,可以用它來計算兩個圖片的局部不變特徵的距離。本發明提出使用陸地移動距離根據圖片的局部不變特徵計算圖片之間的相似度, 進而達到檢測圖像型垃圾郵件的實現方法。整個方法包括訓練閾值,檢測圖像型郵件兩大 模塊,系統的模塊組成如圖1所示。基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法主要分為以下步驟
一、首先根據樣本集訓練閾值步驟1).對待訓練的圖片數據集進行標籤,分為垃圾圖片和正常圖片;步驟2).首先對每個圖片進行標準化到一樣的長度和寬度,然後採用尺度不變特 徵轉換算法分別提取每個垃圾圖片和正常圖片的局部不變特徵描述符,構造正常圖片特徵 庫與垃圾圖片特徵庫;步驟3).使用陸地移動距離分別計算垃圾圖片集、正常圖片集與垃圾圖片特徵庫 的相似度,通過對這些相似度的分析統計分別確定垃圾圖片集的閾值1和正常圖片集的閾 值2;步驟4).確定最終閾值為閾值1和閾值2的加權平均值;二、然後進行檢測過程步驟5).對於待檢測的圖片,首先對圖片進行標準化,然後利用尺度不變特徵轉 換算法來提取標準化後圖片的局部不變特徵描述符;步驟6).計算待檢測圖片局部不變特徵描述符與垃圾圖片特徵庫的陸地移動距 離;計算時將遍歷垃圾圖片特徵庫中每個圖片的局部不變特徵描述符;步驟7).比較步驟6)得到的距離與步驟4)得到的閾值的大小,根據比較結果進 行分類,如果待檢測圖片與垃圾圖片特徵庫的相似度小於該閾值,則該圖片為垃圾圖片,否 則為正常圖片。有益效果本發明方法提出了提取圖片的局部不變特徵,根據這個特徵使用陸地 移動距離來計算兩個圖片的相似度,完成對圖片型垃圾郵件進行檢測。通過使用本發明的 方法,能夠提高垃圾郵件檢測的精確度和召回率,節省程序運算時間和空間。
圖1基於陸地移動距離的相似度檢測圖像型垃圾郵件的系統原型,圖2檢測階段的分類算法流程圖。
具體實施例方式基於陸地移動距離的相似度檢測圖像型垃圾郵件,採用VC++6. 0為開發工具,其 中對圖像特徵的處理利用opencvl. 0開源庫,其中詳細的步驟如下一、獲取垃圾圖片特徵庫步驟1)選取M個垃圾圖片並用尺度不變特徵轉換算法提取不變特徵描述符作為 垃圾圖片特徵庫,則圖片的籤名為 P = {(pi, Wp,); Cp2 5 'Wp2 )5 …,(pm, )}.Pi為不變特徵描述符,wA^ PiW權重,m為不變特徵描述符的個數,i = {1,2,…
m} ο二、訓練閾值步驟1)選取N個垃圾圖片作為訓練閾值用的垃圾圖片集,選取N個正常圖片作為 訓練閾值用的正常圖片集;步驟2)對於垃圾圖片集中的一個圖片,先用尺度不變特徵轉換算法提取局部不 變特徵,然後計算與垃圾圖片資料庫中每一個圖片的陸地移動距離,並選取其中最小值,記
權利要求
1. 一種基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法,其特徵在於該方法主 要分為以下步驟一、首先根據樣本集訓練閾值步驟1).對待訓練的圖片數據集進行標籤,分為垃圾圖片和正常圖片;步驟2).首先對每個圖片進行標準化到一樣的長度和寬度,然後採用尺度不變特徵轉 換算法分別提取每個垃圾圖片和正常圖片的局部不變特徵描述符,構造正常圖片特徵庫與 垃圾圖片特徵庫;步驟3).使用陸地移動距離分別計算垃圾圖片集、正常圖片集與垃圾圖片特徵庫的相 似度,通過對這些相似度的分析統計分別確定垃圾圖片集的閾值1和正常圖片集的閾值2 ;步驟4).確定最終閾值為閾值1和閾值2的加權平均值;二、然後進行檢測過程步驟5).對於待檢測的圖片,首先對圖片進行標準化,然後利用尺度不變特徵轉換算 法來提取標準化後圖片的局部不變特徵描述符;步驟6).計算待檢測圖片局部不變特徵描述符與垃圾圖片特徵庫的陸地移動距離;計 算時將遍歷垃圾圖片特徵庫中每個圖片的局部不變特徵描述符;步驟7).比較步驟6)得到的距離與步驟4)得到的閾值的大小,根據比較結果進行分 類,如果待檢測圖片與垃圾圖片特徵庫的相似度小於該閾值,則該圖片為垃圾圖片,否則為 正常圖片。
全文摘要
基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法,利用了尺度不變特徵轉換算法來提取圖片中垃圾信息的不變區域特徵,使用陸地移動距離計算待測圖片與垃圾郵件特徵庫中圖片的相似度,從而檢測出圖像型垃圾郵件。本發明提供了一種使用圖片的局部不變特徵的基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法。目前現有的利用相似度檢測圖像型垃圾郵件技術主要是使用歐式距離,而歐式距離無法處理結構大小可變的特徵,需要先對特徵進行聚類規範化特徵,因此影響了檢測速度。本發明利用陸地移動距離直接處理結構大小可變的局部不變特徵,大大提高了圖像型垃圾郵件的檢測速度,同時保證了高精確度和低誤判率。
文檔編號G06K9/66GK102103700SQ20111002090
公開日2011年6月22日 申請日期2011年1月18日 優先權日2011年1月18日
發明者周國強, 張衛豐, 張迎周, 王宗輝, 許碧歡, 陸柳敏 申請人:南京郵電大學