新四季網

基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法

2023-04-29 21:37:36

專利名稱:基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法
技術領域:
本發明是一種提取圖片的局部不變特徵,利用陸地移動距離的相似度測量方法, 對圖像型垃圾郵件檢測的實現方案,主要解決了當今的技術對圖片型垃圾郵件的檢測效率 和召回率低等問題,屬於數據挖掘和機器學習領域。
背景技術:
電子郵件已成為人們進行網絡交流溝通的重要途徑,但是由於巨大的商業、經濟 及政治利益,導致垃圾郵件數量急劇膨脹。起初盛行的圖像型垃圾郵件是將廣告等垃圾信 息以文字形式嵌入圖像中,Hrishikesh等人在利用挖掘出來的文本以及顏色特徵來對郵件 進行分類[1]。Fumera等人在2006年提出了一種0CR(光學字符識別)技術檢測圖像型垃 圾郵件的文本信息,相對其他過濾系統來說,具有較好的檢測效果[2]。同時垃圾郵件製造 者們也在不斷地增強垃圾郵件逃避檢測系統的能力,他們對嵌有廣告等垃圾信息的圖像進 行了模糊處理,這使得當時的OCR技術無法挖掘出嵌入這種圖片中的文字。Dredze等人提 出了利用圖片的高級特徵來對圖片進行分類,高級特徵指的是文件格式,大小,顏色分布等。這種方法的優點是檢測速度很快,並且具有較好的擴展性,能夠與對低級特徵的圖片 過濾器進行有效的結合。Fumera在2007年提出了一種通過計算圖像周長複雜度的方法來判別一張圖片是 否經過了模糊技術的處理[4]。一張圖片的模糊的程度可以由周長複雜度來衡量的,計算方 法為文字區域周長的平方和文字區域面積的比值。通過文字周長複雜度可以標識斷字符或 者是噪音對象的出現。由於不能證實經過模糊處理的圖像就是攜帶垃圾信息的圖像,這種 處理技術只能作為垃圾郵件過濾系統中預處理某個模塊。Zhe Wang等人提出的圖像型垃圾 郵件過濾方法是通過比較圖像之間的相似性方法[5]分別使用結合三類圖像型垃圾郵件 過濾方法(顏色直方圖過濾方法、哈爾小波過濾以及方向直方圖特徵),實驗的結果表明 每個過濾系統單獨執行時,通過比較發現小波過濾獲取了最好的檢測率並且其誤檢率(將 正常圖片標識為垃圾圖片)低於0. 0009%,三類過濾器結合起來的精確率達到96%,該方 法是通過結合已有的過濾系統來實現的,可以說它是對一個階段的垃圾郵件過濾技術的一 個總結,使用該方法提高了圖像型垃圾郵件過濾系統的性能。Mehta等在2008年針對使用模板而大量生成的垃圾郵件進行檢測,利用重複相 似性質,使用支持向量機分類器的精確度達到了 98%,同時提出了利用高斯混合模型來對 圖片進行聚類的算法[6]將每幅圖片縮小到100X100像素點,提取每個像素的紋理形狀 和顏色特徵,對每幅圖片訓練其高斯混合模型,並計算高斯混合模型之間的相近距離來聚 類。通過計算閥值來分辨垃圾圖片,雖然該方法採用統計學知識計算比較精確但是計算量 太大,算法的時間複雜度較高,不利於在實際的應用中。隨後由Zuo等提出了使用核函數 為PMK的一類支持向量機分類器對電子郵件中圖像的局部不變特徵進行歸類[7]。該方法 主要是針對那些為了逃避基於圖像模板相似性的過濾器,而改變圖像的總體布局,保留圖 片中的某些局部不變特徵的垃圾郵件。所以這種方法在一定程度上彌補了相似性檢測的漏洞。[1]Hrishikesh Aradhye, Gregory Myers, and James Herson. Image analysis forefficient categorization of image-based spam e-mail.In Proceedings of EighthInternational Conference on Document Analysis and Recognition, ICDAR 2005, volume 2, pages 914-918. IEEE Computer Society,2005.[2]Giorgio Fumera, Ignazio Pillai, and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images. Journal of Machine LearningResearch, (7) :2699_2720,2006.[3]Mark Dredze, Reuven Gevaryahu, and Ari Elias-Bachrach. Learning fastclassifiers for image spam. In Proceedings of the Fourth Conference on Emailand Anti-Spam, CEAS' 2007,2007.[4]Giorgio Fumera,Ignazio Pillai,Fabio Roli,and Battista Biggio. Image spamfiltering using textual and visual information, MIT Spam Conference2007, Cambridge, USA, March 2007[5]Zhe Wang, William Josephson, Qin Lv, Moses Charikar, and Kai Li.Filteringimage spam with near-duplicate detection. In Proceedings of the FourthConterence on Email and Anti-Spam, CEAS' 2007,2007.[6]Mehta, B. , Nangia, S. , Gupta, Μ. , and Nejdl, W. Detecting image spam usingvisual features and near duplicate detection.In Proceeding of the 17thinternational Conference on World Wide Web(Beijing, China, April 21-25, 2008) .WWW' 08. ACM, New York,NY,497-506.[7]Haiqiang Zuo, Weiming Hu, Ou Wu, Yunfei Chen, Guan Luo. Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel. Proceedings ofthe 18th international conference on World Wide Web Pages,2009,1187—1188.

發明內容
技術問題本發明的目的是提供一種使用圖片的局部不變特徵的基於陸地移動距 離的相似度檢測圖像型垃圾郵件的方法。目前現有的利用相似度檢測圖像型垃圾郵件技術 主要是使用歐式距離,而歐式距離無法處理結構大小可變的特徵,需要先對特徵進行聚類 規範化特徵,因此影響了檢測速度。本發明利用陸地移動距離直接處理結構大小可變的局 部不變特徵,大大提高了圖像型垃圾郵件的檢測速度,同時保證了高精確度和低誤判率。技術方案圖片的局部不變特徵,是一種基於尺度空間的不變量技術的特徵檢測 方法,對圖像平移、旋轉、縮放、甚至仿射變換保持不變性的圖像局部特徵。用這種方法提取 圖片中的不變區域特徵,是結構大小可變的特徵。陸地移動距離,是一種能夠計算結構大小 可變特徵的距離的測量標準,可以用它來計算兩個圖片的局部不變特徵的距離。本發明提出使用陸地移動距離根據圖片的局部不變特徵計算圖片之間的相似度, 進而達到檢測圖像型垃圾郵件的實現方法。整個方法包括訓練閾值,檢測圖像型郵件兩大 模塊,系統的模塊組成如圖1所示。基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法主要分為以下步驟
一、首先根據樣本集訓練閾值步驟1).對待訓練的圖片數據集進行標籤,分為垃圾圖片和正常圖片;步驟2).首先對每個圖片進行標準化到一樣的長度和寬度,然後採用尺度不變特 徵轉換算法分別提取每個垃圾圖片和正常圖片的局部不變特徵描述符,構造正常圖片特徵 庫與垃圾圖片特徵庫;步驟3).使用陸地移動距離分別計算垃圾圖片集、正常圖片集與垃圾圖片特徵庫 的相似度,通過對這些相似度的分析統計分別確定垃圾圖片集的閾值1和正常圖片集的閾 值2;步驟4).確定最終閾值為閾值1和閾值2的加權平均值;二、然後進行檢測過程步驟5).對於待檢測的圖片,首先對圖片進行標準化,然後利用尺度不變特徵轉 換算法來提取標準化後圖片的局部不變特徵描述符;步驟6).計算待檢測圖片局部不變特徵描述符與垃圾圖片特徵庫的陸地移動距 離;計算時將遍歷垃圾圖片特徵庫中每個圖片的局部不變特徵描述符;步驟7).比較步驟6)得到的距離與步驟4)得到的閾值的大小,根據比較結果進 行分類,如果待檢測圖片與垃圾圖片特徵庫的相似度小於該閾值,則該圖片為垃圾圖片,否 則為正常圖片。有益效果本發明方法提出了提取圖片的局部不變特徵,根據這個特徵使用陸地 移動距離來計算兩個圖片的相似度,完成對圖片型垃圾郵件進行檢測。通過使用本發明的 方法,能夠提高垃圾郵件檢測的精確度和召回率,節省程序運算時間和空間。


圖1基於陸地移動距離的相似度檢測圖像型垃圾郵件的系統原型,圖2檢測階段的分類算法流程圖。
具體實施例方式基於陸地移動距離的相似度檢測圖像型垃圾郵件,採用VC++6. 0為開發工具,其 中對圖像特徵的處理利用opencvl. 0開源庫,其中詳細的步驟如下一、獲取垃圾圖片特徵庫步驟1)選取M個垃圾圖片並用尺度不變特徵轉換算法提取不變特徵描述符作為 垃圾圖片特徵庫,則圖片的籤名為 P = {(pi, Wp,); Cp2 5 'Wp2 )5 …,(pm, )}.Pi為不變特徵描述符,wA^ PiW權重,m為不變特徵描述符的個數,i = {1,2,…
m} ο二、訓練閾值步驟1)選取N個垃圾圖片作為訓練閾值用的垃圾圖片集,選取N個正常圖片作為 訓練閾值用的正常圖片集;步驟2)對於垃圾圖片集中的一個圖片,先用尺度不變特徵轉換算法提取局部不 變特徵,然後計算與垃圾圖片資料庫中每一個圖片的陸地移動距離,並選取其中最小值,記
權利要求
1. 一種基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法,其特徵在於該方法主 要分為以下步驟一、首先根據樣本集訓練閾值步驟1).對待訓練的圖片數據集進行標籤,分為垃圾圖片和正常圖片;步驟2).首先對每個圖片進行標準化到一樣的長度和寬度,然後採用尺度不變特徵轉 換算法分別提取每個垃圾圖片和正常圖片的局部不變特徵描述符,構造正常圖片特徵庫與 垃圾圖片特徵庫;步驟3).使用陸地移動距離分別計算垃圾圖片集、正常圖片集與垃圾圖片特徵庫的相 似度,通過對這些相似度的分析統計分別確定垃圾圖片集的閾值1和正常圖片集的閾值2 ;步驟4).確定最終閾值為閾值1和閾值2的加權平均值;二、然後進行檢測過程步驟5).對於待檢測的圖片,首先對圖片進行標準化,然後利用尺度不變特徵轉換算 法來提取標準化後圖片的局部不變特徵描述符;步驟6).計算待檢測圖片局部不變特徵描述符與垃圾圖片特徵庫的陸地移動距離;計 算時將遍歷垃圾圖片特徵庫中每個圖片的局部不變特徵描述符;步驟7).比較步驟6)得到的距離與步驟4)得到的閾值的大小,根據比較結果進行分 類,如果待檢測圖片與垃圾圖片特徵庫的相似度小於該閾值,則該圖片為垃圾圖片,否則為 正常圖片。
全文摘要
基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法,利用了尺度不變特徵轉換算法來提取圖片中垃圾信息的不變區域特徵,使用陸地移動距離計算待測圖片與垃圾郵件特徵庫中圖片的相似度,從而檢測出圖像型垃圾郵件。本發明提供了一種使用圖片的局部不變特徵的基於陸地移動距離的相似度檢測圖像型垃圾郵件的方法。目前現有的利用相似度檢測圖像型垃圾郵件技術主要是使用歐式距離,而歐式距離無法處理結構大小可變的特徵,需要先對特徵進行聚類規範化特徵,因此影響了檢測速度。本發明利用陸地移動距離直接處理結構大小可變的局部不變特徵,大大提高了圖像型垃圾郵件的檢測速度,同時保證了高精確度和低誤判率。
文檔編號G06K9/66GK102103700SQ20111002090
公開日2011年6月22日 申請日期2011年1月18日 優先權日2011年1月18日
發明者周國強, 張衛豐, 張迎周, 王宗輝, 許碧歡, 陸柳敏 申請人:南京郵電大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀