新四季網

一種反圖像型垃圾郵件的方法及裝置的製作方法

2023-05-06 22:29:56 2

專利名稱:一種反圖像型垃圾郵件的方法及裝置的製作方法
技術領域:
本發明涉及圖像處理與模式識別技術,具體涉及一種垃圾郵件圖像的特徵提取、 識別技術及裝置。
背景技術:
經過30多年的發展,電子郵件已成為互連網非常重要的的組成部分,電子郵件在 人們交流和通信中扮演越來越重要的角色。然而,垃圾郵件的泛濫使得電子郵件受到巨大 挑戰。目前,我國已成為垃圾郵件的受害者。據中國網際網路信息中心(CNNIC)發布的《中國 網際網路發展狀況統計報告》顯示,2004年1月中國網民平均每周收到垃圾郵件7. 9封,但是 2009年1月中國網民平均每周收到的垃圾郵件數量達到17. 55封,隨著網民數量的增加垃 圾郵件的數量也不斷的在增加。普通用戶收到的垃圾郵件主要有三種純文本格式,純圖片 格式和圖片加文本格式。其中只有30%是純文本格式,這也說明圖像垃圾郵件所佔比例接 近70%。垃圾郵件問題從出現之初就引起了社會各界的關注,並出現了大量的垃圾郵件檢 測算法,例如IP黑名單、基於規則的垃圾郵件檢測算法、基於文本內容的檢測算法等、基於 行為的過濾方式。其中以基於文本內容的檢測算法研究得最多,其性能也最好。然而,就像在病毒與反病毒的鬥爭中一樣,隨著反垃圾郵件技術的不斷發展,垃圾 郵件製造者自身技術也在不斷提高。由於基於文本內容的反垃圾郵件系統在檢測文本信息 方面已經具有很高的效率,為了逃避此種系統的檢測,垃圾郵件製造者將文字信息嵌入到 圖像中,以圖像為載體來傳播垃圾信息。這種以圖像為載體的垃圾郵件被稱為圖像型垃圾 郵件,由於其文本內容被嵌入在圖像中,使得基於文本內容的反垃圾郵件系統完全失效。並 且圖像型垃圾郵件的體積是文本型垃圾郵件的10-20倍,圖片型垃圾郵件一方面消耗大量 的網絡資源,導致網絡堵塞;另一方面浪費大量的存儲資源,導致社會經濟的重大損失。圖 像型垃圾郵件的蔓延,已給社會帶來極大的負面影響。為遏制圖像型垃圾郵件的蔓延,彌補基於文本內容的垃圾郵件檢測系統的不足, 已經有許多學者對圖像型垃圾郵件作了較深入的研究。當前主流的商業系統採用該技術利 用光學文字識別技術(OCR)來提取圖像中嵌入的文字,然後利用傳統的基於文本內容的垃 圾郵件檢測手段識別圖像型垃圾郵件。但是垃圾郵件中所嵌入的圖像通常含有大量人為幹 擾,使得文字識別正確率較低,效率也不高。另外一些學者則提出利用垃圾郵件中所含圖像 的屬性作為特徵來識別圖像型垃圾郵件,例如大小、寬、高、面積等。該方法雖然識別速度較 快,但僅能識別出較少的圖像型垃圾郵件。反垃圾郵件領域仍在尋找一種快速高效的圖像 型垃圾郵件識別算法以解決圖像型垃圾郵件問題。

發明內容
本發明主要提出一種垃圾郵件圖像識別方法及裝置。通過提取郵件中所含圖像的 元數據、顏色特徵、紋理特徵和形狀特徵,結合支持向量機實現垃圾郵件圖像的自動檢測與 識別。本發明的主要內容包括提取郵件圖像的元數據特徵、提取圖像的顏色特徵、提取圖像的紋理特徵和形狀特徵的技術,基於支持向量機的垃圾郵件圖像自動識別裝置。為了實現上述目的,採取的技術方案是1.提取待測圖像郵件中圖像的元數據特徵。元數據特徵包括高度、寬度、高寬比、文件類型、文件大小、文件面積、壓縮率、周 長複雜度、文字區域佔總區域的面積比率等。2.提取待測圖像郵件中圖像的顏色特徵。顏色特徵包括灰度直方圖、顏色直方圖、平均色、顏色集、顏色聚合向量、平均亮 度、顏色空間等。3.提取待測圖像郵件中圖像的紋理特徵。紋理特徵包括共生矩陣、邊緣頻率、小波變換等。4.提取待測圖像郵件中圖像的形狀特徵。形狀特徵包括幾何矩、偏心率、骨架等。5.基於支持向量機的垃圾郵件圖像自動識別裝置支持向量機(SVM,Support Vector Machine)是一種基於統計學習理論的機器學 習方法。統計學習理論針對小樣本統計問題建立了一套新的理論體系,最近10多年間發展 迅速,成為各界研究的熱點。支持向量機也隨之發展,它通過構造最優分類平面來實現分 類。在傳統的基於文本內容的垃圾郵件過濾算法中,支持向量機就表現出了很好的性能。因 此本發明利用支持向量機作為分類算法,對郵件圖像進行分類以識別出垃圾郵件圖像。構建一個基於支持向量機的分類器,需要大量的郵件圖像樣本,包括正常郵件圖 像樣本和垃圾郵件圖像樣本。提取這些圖像的元數據、顏色和紋理特徵,並對特徵進行歸一 化,然後利用網格法搜索支持向量機的最佳參數。找到最佳參數後便可以利用提取的圖像 特徵數據及參數對支持向量機進行訓練以生成一個基於元數據、顏色、紋理、形狀特徵和支 持向量機的郵件圖像分類器。當出現未知的郵件圖像時,提取其元數據、顏色、紋理和形狀 特徵,然後將特徵向量輸入到該分類器即可判定該郵件圖像是否是垃圾郵件圖像。最後,實施本發明具有以下有益效果從本發明提供的以上技術方案可以看出,本發明提取郵件圖像的元數據、顏色、紋 理和形狀特徵,並結合支持向量機實現垃圾郵件圖像的自動識別。其中,顏色和直方圖的矩 對平移、旋轉、縮放有較好的魯棒性,因此其抗幹擾能力強,能應對絕大多數垃圾郵件圖像 中的人為幹擾。由於提取的是圖像的元數據特徵,以及圖像的顏色和紋理特徵,而不是提 取、分析和區別圖像中文字特徵,採用直接視覺特徵的好處是僅需要對圖像文件進行一次 線性掃描,避免了文字識別所需的反覆掃描,降低了計算複雜度。同時,採用直接視覺特徵 能夠有效克服文字扭曲技術對OCR字符識別軟體的影響,提高分類器的抗幹擾能力。因此 本發明速度較快、效率高。另外,支持向量機的引入,使得整個裝置更加智能化、自動化。並 且通過利用新的樣本郵件圖像對分類器的訓練,可以快速識別新類型的垃圾郵件圖像。


圖1為本發明構建基於支持向量機的分類器的具體流程圖;圖2為本發明對未知郵件圖像屬性的典型判定流程圖。
具體實施例方式為使本發明的目的、技術方案、及優點更加清楚明白,以下參照附圖對本發明進一 步詳細說明。圖1描述了本發明構建基於支持向量機的分類器的具體過程步驟101、手工標記正常圖像和垃圾圖像為構建一個較好的分類器,首先需要大量樣本對分類器進行訓練,其中正常郵件 樣本最好與垃圾郵件樣本數量相當。步驟102、提取樣本集中各幅圖像的元數據特徵、顏色特徵、紋理特徵和形狀特徵步驟103、尋找分類器的最佳參數採用不同的參數,訓練所獲得的分類器性能差別非常大。為了尋找一組最佳的參 數,可以採用的一種方法是用網格法在一個2維平面中搜索最佳參數包括懲罰因子C和參 數 gama。步驟104、訓練支持向量機分類器利用步驟102獲得的大量訓練樣本的特徵數據和步驟103獲得的最佳參數,對支 持向量機進行訓練。訓練後生成一模型文件,其中包含各種參數和選取的支撐矢量。這樣 便完成了一個分類器的構建。圖2描述了本發明對未知郵件圖像的典型判定過程步驟201、讀入郵件圖像如果成功載入圖像則繼續步驟202以提取圖像的特徵,否則執行步驟208返回判 定失敗消息。步驟202、圖像特徵提取提取未知圖像的元數據特徵、顏色特徵、紋理特徵和形狀特徵。步驟203、載入訓練階段所生成的模型文件圖1描述了支持向量機分類器的構建過程,其最終生成了一個模型文件。該文件 中包含了支持向量機的參數和選擇的支撐矢量。將這些信息讀入,構建一個分類器;如果文 件讀入失敗則執行步驟208以返回判定失敗消息。步驟204、判定郵件圖像屬性將步驟203所獲得的郵件圖像特徵作為步驟203所生成的分類器的輸入,利用分 類器判定圖像的屬性。如果為正常郵件圖像則執行步驟205,返回圖像為正常郵件圖像消 息;否則執行步驟206,返回該圖像為垃圾郵件圖像消息。步驟205、返回圖像為正常郵件圖像消息當系統將判斷為正常郵件圖像時,則返回正常郵件圖像標誌。步驟206、返回圖像為垃圾郵件圖像消息當系統將判斷為垃圾郵件圖像時,則返回垃圾郵件圖像標誌。步驟207、返回判定失敗消息當系統出現異常時,如圖像文件載入失敗,則返回判定失敗消息。以上對本發明中利用圖像元數據、顏色特徵、紋理特徵和形狀特徵,結合支持向量 機對垃圾郵件圖像的自動識別算法及裝置進行了詳細介紹,以上的說明只是用於幫助理解 本發明的方法及其思想;同時,對於本領域的一般技術人員,依據本發明的思想,在具體實施方式
及應用範圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發明的限 制。
權利要求
一種利用圖像元數據、顏色特徵、紋理特徵和形狀特徵,結合支持向量機自動識別垃圾郵件圖像的方法及裝置;首先提取出圖像的元數據;其次提取出圖像的顏色特徵;再次提取出圖像的紋理特徵和形狀特徵;最後利用支持向量機分類器對圖像進行分類,以判定圖像是垃圾郵件圖像還是正常郵件圖像。
2.如權利要求1所述,提取圖像的元數據、顏色特徵、紋理特徵和形狀特徵,圖像的這 些特徵可以很好的反映圖像中所含對象的形狀信息;垃圾郵件圖像與正常郵件圖像不同, 通常它們的大小比較正常圖片小,顏色較正常圖片單一,紋理沒有正常圖片豐富;利用元數 據、顏色特徵、紋理特徵和形狀特徵可以很好的表達這些特徵並區分垃圾郵件圖像和正常 圖像。
3.如權利要求1所述,利用權力要求2提取的特徵並結合所構造的支持向量機分類器 對未知圖像進行自動分類,返回結果為正常郵件圖像或者垃圾郵件圖像。
4.權力要求3中的支持向量機分類器的構造方式如下首先,獲取大量的垃圾郵件圖像和正常郵件圖像樣本集,當正常圖像樣本數量與垃圾 郵件圖像樣本數量相當時,效果最佳;其次,提取以上圖像集中各幅圖像的元數據、顏色特徵、紋理特徵和形狀特徵,並對這 些特徵歸一化處理。然後對每一個特徵向量手工加上正常郵件圖像或者垃圾郵件圖像標 籤;再次,將這些特徵向量作為訓練樣本,利用網格法選取支持向量機的最佳參數;最後,利用上一步選取的參數和所獲得的訓練樣本作為支持向量機的輸入,訓練生成 模型文件,其中包含最佳參數和所選取的支持向量。
全文摘要
本發明涉及圖像處理技術和模式識別領域的相關技術,公開了一種利用垃圾郵件圖像自動識別的方法及裝置。利用圖像的元數據、顏色特徵和紋理特徵並結合支持向量機實現對正常郵件圖像和垃圾郵件圖像的自動分類。首先提取出圖像的元數據;其次提取出圖像的顏色特徵;再次提取出圖像的紋理特徵和形狀特徵;最後,利用支持向量機分類器對圖像進行自動識別。本發明中,由於提取的是圖像的元數據特徵,以及圖像的顏色、紋理和形狀特徵,因此本發明速度較快、效率高。
文檔編號G06K9/66GK101877066SQ20101017996
公開日2010年11月3日 申請日期2010年5月21日 優先權日2010年5月21日
發明者劉嶠, 王超, 羅緒成, 鄧蔚 申請人:電子科技大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀