反垃圾郵件處理系統及方法

2023-05-25 17:48:01 1

專利名稱：反垃圾郵件處理系統及方法
技術領域：
本發明涉及反垃圾郵件技術，尤其涉及一種反垃圾郵件處理系統及方法。
背景技術：
在網際網路用戶的各種應用中，電子郵件是一種比較常用的基礎應用，用戶可以通過發送電子郵件向另一方傳送信息，十分便捷，但也同時產生了垃圾電子郵件的問題。
垃圾電子郵件(以下簡稱垃圾郵件)是指未經用戶許可就強行發送到用戶的電子郵箱中的任何電子郵件，垃圾郵件主要通過電子郵箱來發送。垃圾郵件的內容包括推銷廣告、成人廣告、賺錢信息，或包含電腦病毒等破壞性的電子郵件。這些垃圾郵件給郵箱用戶帶來了困擾，影響到了郵箱用戶的使用體驗，因此各大郵件提供商都把提升電子郵件反垃圾系統效果作為提升郵箱用戶體驗的重要關注點。
現有的反垃圾郵件處理系統通常是採用垃圾關鍵字的匹配方法，即通過在郵件內容中查詢是否有字詞與已錄入在系統中的垃圾關鍵字匹配，由此確定該郵件是否屬於垃圾郵件。這種垃圾關鍵字匹配方案由於需要全文匹配，效率比較低，而且對於增加了很多幹擾性的符號或類似詞義或字形或發音的其他表達詞形式，則很難準確的進行識別和匹配。發明內容
本發明的目的是提出一種反垃圾郵件處理系統及方法，能夠實現較高的垃圾郵件識別準確率和效率。
為實現上述目的，本發明提供了一種反垃圾郵件處理系統，包括及所述信息段相對於整個郵件的尺寸關系計算對應的信息段尺寸關鍵值SizeKey ；
信息段編碼關鍵值計算組件，用於根據所述信息段採用的編碼方式及相關信息計算對應的信息段編碼關鍵值EncodeKey ；
遞歸線性計算組件，用於通過對所述電子郵件的郵件體分成的各個信息段所對應的所述信息段結構關鍵值MIMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值 EncodeKey進行遞歸線性計算,得出所述電子郵件的郵件體所對應的郵件體結構關鍵值 MMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey。
進一步的，所述郵件頭關鍵值計算單元所應用的計算公式為
HeadKey = Σ (第i個域出現的序號* log (該域的映射數值))，i = I N ;
其中，N為所述郵件頭中所包括的域的數量。
進一步的，所述信息段結構關鍵值計算組件所應用的計算公式為
信息段結構關鍵值MMEKey =當前信息段的層數* log(當前信息段的映射數值)+當前信息段的數據尺寸* log(下一信息段的映射數值)；
所述信息段尺寸關鍵值計算組件所應用的計算公式為
信息段尺寸關鍵值SizeKey =((當前信息段解碼後數據尺寸+電子郵件總體數據尺寸/2)/電子郵件總體數據尺寸)* log(當前信息段的映射數值)；
信息段編碼關鍵值計算組件所應用的計算公式為
信息段編碼關鍵值EncodeKey = a * log(字符集的映射數值)+b * log(當前信息段的加密編碼的映射數值)+c * log (MIME結構內定義的標準CONTENT-TYPE的映射數值)+d * Iog(CC)NTENT-TYPE標籤的長度)+e * log(附件名字符集的映射數值)，其中a、 b、C、d、e均為預設的係數。
為實現上述目的，本發明提供了一種反垃圾郵件處理方法，包括
接收郵件傳送代理系統轉發的MME格式的電子郵件，並計算
關鍵值向量庫，用於保存垃圾郵件樣本所對應的關鍵值向量；
關鍵值向量生成器，用於接收郵件傳送代理系統轉發的MME格式的電子郵件，並計算所述電子郵件所對應的關鍵值向量；
垃圾郵件處理單元，將所述電子郵件對應的關鍵值向量與所述關鍵值向量庫中保存的關鍵值向量分別進行比較，如果存在比較結果在垃圾郵件判斷閾值範圍內，則確定所述電子郵件為垃圾郵件，否則將所述電子郵件轉交給郵件投遞代理系統進行郵件投遞。
進一步的，所述關鍵值向量生成器具體包括
郵件分割單元，用於對所述電子郵件的郵件頭和郵件體進行分割；
郵件頭關鍵值計算單元，用於根據所述電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值HeaderKey ；
郵件體關鍵值計算單元，用於根據所述電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值 MMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey ；
關鍵值向量生成單元，根據所述郵件頭關鍵值計算單元計算出的郵件頭關鍵值 HeaderKey和所述郵件體關鍵值計算單元計算出的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey得到所述電子郵件對應的關鍵值向量。
進一步的,所述郵件體關鍵值計算單元具體包括
MIME結構樹生成組件，用於將郵件體表示為呈MME樹形結構所對應的多維向量，所述多維向量與所述郵件體所分成的多個信息段相對應，所述多維向量的維度包括信息段結構關鍵值MIMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey ；
信息段結構關鍵值計算組件，用於根據所述信息段在所述電子郵件的郵件體中的位置以及所述信息段與其他信息段的父子兄弟關係計算對應的信息段結構關鍵值 MIMEKey ；
信息段尺寸關鍵值計算組件，用於根據所述信息段的數據尺寸以所述電子郵件所對應的關鍵值向量；
將所述電子郵件對應的關鍵值向量與所述關鍵值向量庫中保存的垃圾郵件樣本所對應的關鍵值向量分別進行比較，如果存在比較結果在垃圾郵件判斷閾值範圍內，則確定所述電子郵件為垃圾郵件，否則將所述電子郵件轉交給郵件投遞代理系統進行郵件投遞。
進一步的，所述計算電子郵件所對應的關鍵值向量的操作具體包括
對所述電子郵件的郵件頭和郵件體進行分割；
根據所述電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值HeaderKey ；
根據所述電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MMEKey、郵件體尺寸關鍵值 SizeKey和郵件體編碼關鍵值EncodeKey ；
根據計算出的郵件頭關鍵值HeaderKey、郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey得到所述電子郵件對應的關鍵值向量。
進一步的，所述根據電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey的操作具體包括
將郵件體表示為呈MIME樹形結構所對應的多維向量,所述多維向量與所述郵件體所分成的多個信息段相對應，所述多維向量的維度包括信息段結構關鍵值MMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey ；
根據所述信息段在所述電子郵件的郵件體中的位置以及所述信息段與其他信息段的父子兄弟關係計算對應的信息段結構關鍵值MIMEKey ；
根據所述信息段的數據尺寸以及所述信息段相對於整個郵件的尺寸關係計算對應的信息段尺寸關鍵值SizeKey ；
根據所述信息段採用的編碼方式及相關信息計算對應的信息段編碼關鍵值 EncodeKey ；
通過對所述電子郵件的郵件體分成的各個信息段所對應的所述信息段結構關鍵值MIMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey進行遞歸線性計算，得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值 SizeKey和郵件體編碼關鍵值EncodeKey。
進一步的，所述根據電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值 HeaderKey的操作所應用的計算公式為
HeadKey = Σ (第i個域出現的序號* log(該域的映射數值))，i = I N ;
其中，N為所述郵件頭中所包括的域的數量。
進一步的，所述根據信息段在所述電子郵件的郵件體中的位置以及所述信息段與其他信息段的父子兄弟關係計算對應的信息段結構關鍵值MIMEKey的操作所應用的計算公式為
信息段結構關鍵值MMEKey =當前信息段的層數* log(當前信息段的映射數值)+當前信息段的數據尺寸* log(下一信息段的映射數值)；
所述根據信息段的數據尺寸以及所述信息段相對於整個郵件的尺寸關係計算對應的信息段尺寸關鍵值SizeKey的操作所應用的計算公式為
信息段尺寸關鍵值SizeKey =((當前信息段解碼後數據尺寸+電子郵件總體數據尺寸/2)/電子郵件總體數據尺寸)* log(當前信息段的映射數值)；
所述根據信息段採用的編碼方式及相關信息計算對應的信息段編碼關鍵值 EncodeKey的操作所應用的計算公式為
信息段編碼關鍵值EncodeKey = a * log(字符集的映射數值)+b * log(當前信息段的加密編碼的映射數值)+c * log (MIME結構內定義的標準CONTENT-TYPE的映射數值)+d * Iog(CC)NTENT-TYPE標籤的長度)+e * log(附件名字符集的映射數值)，其中a、b、C、d、e均為預設的係數。
基於上述技術方案，本發明對接收到的電子郵件生成對應的關鍵值向量，並將該向量與垃圾郵件樣本對應的關鍵值向量進行比較，根據比較情況來確定該電子郵件是否有較大可能是垃圾郵件，這種方式比傳統的垃圾關鍵字全文比較方式更快捷，即便垃圾關鍵字進行了改裝，也仍能確保垃圾郵件過濾的準確率。

此處所說明的附圖用來提供對本發明的進一步理解，構成本申請的一部分，本發明的示意性實施例及其說明用於解釋本發明，並不構成對本發明的不當限定。在附圖中
圖1為本發明反垃圾郵件處理系統的一實施例的結構示意圖。
圖2為本發明中一封MIME郵件的識別特徵碼的實例示意圖。
圖3為本發明反垃圾郵件處理系統的另一實施例中的關鍵值向量生成器的結構示意圖。
圖4為本發明反垃圾郵件處理方法的一實施例的流程示意圖。
圖5為本發明反垃圾郵件處理方法的另一實施例的流程示意圖。
具體實施方式
下面通過附圖和實施例，對本發明的技術方案做進一步的詳細描述。
目前的電子郵件基本都是根據MME規範編碼而成的電子郵件，MIME郵件是由郵件頭和郵件體構成。郵件體被分為多段，每個段又包含段頭和段體。因此每封MME郵件都可以被描述成一個樹狀結構。MME郵件的樹狀結構中每一個樹狀節點都代表不同的內容(如文字長度、內容類型、傳輸編碼等)。在日常監測中發現，很多垃圾郵件在群發的過程中，雖然垃圾郵件發給每個人的郵件會有變種，但MME郵件結構中只有小部分結構中的內容會進行變動，因此本發明基於MME結構樹特徵識別來進行垃圾郵件的識別，將垃圾郵件的MME樹結構進行特徵碼提取，形成垃圾郵件特徵碼庫，並作為後續垃圾郵件判斷的依據。無論是作為反垃圾郵件系統的主要技術手段還是以垃圾關鍵字識別方式為主的傳統反垃圾郵件系統的輔助技術手段，均可實現較好的垃圾郵件識別準確率和效率。
如圖1所示，為本發明反垃圾郵件處理系統的一實施例的結構示意圖。在本實施例中，反垃圾郵件處理系統主要包括以下組件關鍵值向量庫1、關鍵值向量生成器2和垃圾郵件處理單元3。在這些組件中，關鍵值向量庫I負責保存垃圾郵件樣本所對應的關鍵值向量，這裡提到的垃圾郵件樣本是指日常收集到的垃圾郵件樣本，例如一些歷史數據、每次判斷後的垃圾郵件、外部導入的垃圾郵件數據等等。選取這些樣本就是希望從這些樣本中找出具有能夠較顯著的區別出垃圾郵件與普通郵件之間區別的特徵，從而為垃圾郵件判別提供判斷依據。關鍵值向量庫I中的垃圾郵件樣本對應的關鍵值向量可以採用與關鍵值向量生成器2相同的生成機理，以便關鍵值比較實在一個對等的基礎上，或者如果能夠保證關鍵值比較的可靠性，採用不同於關鍵值向量生成器2的關鍵值向量生成機理也是可行的。
關鍵值向量生成器2負責接收郵件傳送代理(Mail Transfer Agent,簡稱MTA) 系統轉發的MME格式的電子郵件，並計算該電子郵件所對應的關鍵值向量。前面已經提到了直接進行關鍵字類的比較在效率上、判斷適應範圍等方面還存在缺陷，而採用關鍵值向量的方式則可以屏蔽掉一些內容上的規避，而直接從郵件結構入手，因此可以在識別效率上、對各類不同形態的垃圾郵件的適應範圍等方面均有所提高，進一步也提高了識別的準確率。
垃圾郵件處理單元3負責將該電子郵件對應的關鍵值向量與關鍵值向量庫中保存的關鍵值向量分別進行比較，如果存在比較結果在垃圾郵件判斷閾值範圍內，則確定所述電子郵件為垃圾郵件，否則將所述電子郵件轉交給郵件投遞代理(Mail Delivery Agent，簡稱MDA)系統進行郵件投遞。在具體垃圾郵件的判斷過程中，垃圾郵件處理單元3 主要是進行關鍵值向量的比較，通過判斷比較結果是否比較顯著來判斷該電子郵件是否與垃圾郵件相符，如果比較結果比較顯著，那就證明該電子郵件與垃圾郵件的樣本在結構上差異較大，不能被認定為垃圾郵件，或者說屬於垃圾郵件的機率較小，而如果比較結果表明該電子郵件與垃圾郵件的樣本在結構上比較接近，而前面提到通過觀察，即便是變種的垃圾郵件在MME郵件結構中的結構變化也比較小，進而推出該電子郵件為垃圾郵件，或者說屬於垃圾郵件的機率較大。在判斷出垃圾郵件後，可以將該郵件作為垃圾郵件樣本存入關鍵值向量庫1，以便不斷更新關鍵值向量庫1，使其更符合實際情況。
下面通過圖2來先提供一個比較直觀的MME郵件的識別特徵碼的實例說明。在圖 2中的MME結構樹中並未包括郵件頭，主要是郵件體所分成的各層各段。每個節點包括了信息段所對應的幾種關鍵值信息，這裡暫不詳述，在後面將結合方法實施例繼續進行說明。
如圖3所示，為本發明反垃圾郵件處理系統的另一實施例中的關鍵值向量生成器的結構示意圖。在本實施例中，關鍵值向量生成器具體包括郵件分割單元21、郵件頭關鍵值計算單元22、郵件體關鍵值計算單元23和關鍵值向量生成單元24。其中，郵件分割單元21負責對電子郵件的郵件頭和郵件體進行分割。郵件頭關鍵值計算單元22負責根據電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值HeaderKey。在計算郵件關鍵值時，由於一些郵件頭的域是要具備的，例如Received、From、To、Subject、Date、Message-1D、 MIME-Version、Content-Type等,通過建立這些域的映射數值表,將郵件頭的結構轉換成具體數值的計算，以求得郵件頭關鍵值HeaderKey。在具體計算方法中，可以在考慮郵件頭的結構的基礎上進一步採用對數的處理方式，使結果在保持線性的基礎上增加離散性。具體計算公式例如以下
HeadKey = Σ (第i個域出現的序號* log (該域的映射數值))，i = I N,這裡的N為所述郵件頭中所包括的域的數量。
郵件體關鍵值計算單元23負責根據所述電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值 MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey。郵件體關鍵值在計算過程中主要是通過對各個信息段的郵件體關鍵值進行遞歸計算而得到的，通過這種方式可以將整個郵件體中包括各個信息段的整體和局部結構以數字方式清楚的表達出來。
關鍵值向量生成單元24負責根據所述郵件頭關鍵值計算單元計算出的郵件頭關鍵值HeaderKey和所述郵件體關鍵值計算單元計算出的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey得到所述電子郵件對應的關鍵值向量。
在另一個具體實施例中，郵件體關鍵值計算單元可以具體包括:MME結構樹生成組件、信息段結構關鍵值計算組件、信息段尺寸關鍵值計算組件、信息段編碼關鍵值計算組件和遞歸線性計算組件。
MIME結構樹生成組件負責將郵件體表示為呈MME樹形結構所對應的多維向量，所述多維向量與所述郵件體所分成的多個信息段相對應，所述多維向量的維度包括信息段結構關鍵值MIMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey。
MIME結構樹生成組件所生成的MME結構樹如圖2所示，在圖2中，每個信息段作為一個節點，其對應著多維向量，並被記錄在該MME結構樹的節點中，而每個向量的維度包括了每個信息段對應的結構關鍵值MIMEKey、尺寸關鍵值SizeKey和編碼關鍵值 EncodeKey0在其他實施例中，根據具體情況還可以在本實施例中的各個維度的基礎上中增加或減少維度，例如郵件的時間維度可能也能夠作為判斷依據之一，因此可以在多維向量中增加該維度或者替換其中的某個維度。另外，在每個節點中，編碼關鍵值EncodeKey不限於一個，可以包括並列的多種編碼類型。
信息段結構關鍵值計算組件負責根據所述信息段在所述電子郵件的郵件體中的位置以及所述信息段與其他信息段的父子兄弟關係計算對應的信息段結構關鍵值 MMEKey。在具體計算方法中，可以在考慮信息段的結構的基礎上進一步採用對數的處理方式，使結果在保持現行的基礎上增加離散性。例如計算公式如下所示但不限於該公式
信息段結構關鍵值MMEKey =當前信息段的層數* log(當前信息段的映射數值)+當前信息段的數據尺寸* log(下一信息段的映射數值)。這裡的層數就是根據MIME 結構樹所體現出的各個節點所對應的層。
信息段尺寸關鍵值計算組件負責根據所述信息段的數據尺寸以及所述信息段相對於整個郵件的尺寸關係計算對應的信息段尺寸關鍵值SizeKey。在具體計算方法中，可以在考慮信息段的結構的基礎上進一步採用對數的處理方式，使結果在保持現行的基礎上增加離散性。例如計算公式如下所示但不限於該公式
信息段尺寸關鍵值SizeKey =((當前信息段解碼後數據尺寸+電子郵件總體數據尺寸/2)/電子郵件總體數據尺寸)* log(當前信息段的映射數值)。
信息段編碼關鍵值計算組件負責根據所述信息段採用的編碼方式及相關信息計算對應的信息段編碼關鍵值EncodeKey。在具體計算方法中，可以在考慮信息段的結構的基礎上進一步採用對數的處理方式，使結果在保持現行的基礎上增加離散性。例如計算公式如下所示但不限於該公式
信息段編碼關鍵值EncodeKey = a * log(字符集的映射數值)+b * log(當前信息段的加密編碼的映射數值)+c * log (MIME結構內定義的標準CONTENT-TYPE的映射數值)+d * Iog(CC)NTENT-TYPE標籤的長度)+e * log(附件名字符集的映射數值)，其中a、 b、C、d、e均為預設的係數。
遞歸線性計算組件負責通過對所述電子郵件的郵件體分成的各個信息段所對應的所述信息段結構關鍵值MIMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值 EncodeKey進行遞歸線性計算,得出所述電子郵件的郵件體所對應的郵件體結構關鍵值 MMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey。
下面將通過幾個反垃圾郵件處理方法的實施例對本發明進行說明。如圖4所示，為本發明反垃圾郵件處理方法的一實施例的流程示意圖。在本實施例中，反垃圾郵件處理流程包括
步驟100、接收郵件傳送代理系統轉發的MME格式的電子郵件；
步驟110、計算電子郵件所對應的關鍵值向量；
步驟120、將所述電子郵件對應的關鍵值向量與所述關鍵值向量庫中保存的垃圾郵件樣本所對應的關鍵值向量分別進行比較；
步驟130、判斷是否存在比較結果在垃圾郵件判斷閾值範圍內的情況，如果存在，則執行步驟140，否則執行步驟150 ；
步驟140、確定所述電子郵件為垃圾郵件，並在後續執行相應的處理，例如屏蔽該郵件，將該郵件作為垃圾郵件樣本存入關鍵值向量庫，或者刪除該郵件等；
步驟150、將所述電子郵件轉交給郵件投遞代理系統進行郵件投遞。
本實施例對接收到的電子郵件生成對應的關鍵值向量，並將該向量與垃圾郵件樣本對應的關鍵值向量進行比較，根據比較情況來確定該電子郵件是否有較大可能是垃圾郵件，這種方式比傳統的垃圾關鍵字全文比較方式更快捷，即便垃圾關鍵字進行了改裝，也仍能確保垃圾郵件過濾的準確率。
如圖5所示，為本發明反垃圾郵件處理方法的另一實施例的流程示意圖。與上一實施例相比，本實施例中的步驟Iio的具體步驟包括
步驟111、對所述電子郵件的郵件頭和郵件體進行分割；
步驟112、根據所述電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值 HeaderKey ；
步驟113、根據所述電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey ；
步驟114、根據計算出的郵件頭關鍵值HeaderKey、郵件體結構關鍵值MMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey得到所述電子郵件對應的關鍵值向量。
在本實施例中，郵件頭和郵件體的關鍵值向量是分開計算的，在步驟112中主要對郵件頭對應的關鍵值向量進行了計算，具體公式可參見以下公式，但不限於該公式
HeadKey = Σ (第i個域出現的序號* log (該域的映射數值))，i = I N,這裡的N為所述郵件頭中所包括的域的數量。
在步驟113中，信息段結構關鍵值MMEKey的操作所應用的計算公式例如以下，但不限制為該公式
信息段結構關鍵值MMEKey =當前信息段的層數* log(當前信息段的映射數值)+當前信息段的數據尺寸* log (下一信息段的映射數值)。
信息段尺寸關鍵值SizeKey的操作所應用的計算公式例如以下，但不限制為該公式
信息段尺寸關鍵值SizeKey =((當前信息段解碼後數據尺寸+電子郵件總體數據尺寸/2)/電子郵件總體數據尺寸)* log(當前信息段的映射數值)。
信息段編碼關鍵值EncodeKey的操作所應用的計算公式例如以下，但不限制為該公式
信息段編碼關鍵值EncodeKey = a * log(字符集的映射數值)+b * log(當前信息段的加密編碼的映射數值)+c * log (MIME結構內定義的標準CONTENT-TYPE的映射數值)+d * Iog(CC)NTENT-TYPE標籤的長度)+e * log(附件名字符集的映射數值)，其中a、 b、C、d、e均為預設的係數。
在得到了各個信息段所對應的多維向量後，通過遞歸計算得到總的郵件體所對應的郵件體關鍵值向量，進而結合郵件頭關鍵值向量生成該電子郵件所對應的關鍵值向量。
本發明所闡述的反垃圾郵件處理系統及方法強調郵件的原始信息結構，利用郵件的MME樹形結構計算其KeyValue來進行垃圾郵件識別，便於從垃圾郵件結構特徵進行垃圾郵件識別，避免垃圾郵件通過部分變體來逃避過濾；同時傳統的MME結構特徵反垃圾方法需要遍歷每個分支進行比對，本發明則創新性的通過將每封郵件生成唯一 MME結構特徵向量的方法，只對每封郵件的MME結構特徵向量與垃圾郵件MME結構特徵向量庫進行匹配，大大提高了可疑垃圾郵件的識別效率。
本說明書中各個實施例均採用遞進的方式描述，每個實施例重點說明的都是與其它實施例的不同之處，各個實施例之間相同或相似的部分相互參見即可。對於方法實施例而言，由於其與系統實施例基本相似，所以描述的比較簡單，相關之處參見系統實施例的部分說明即可。
本領域普通技術人員可以理解實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬體來完成，前述的程序可以存儲於一計算機可讀取存儲介質中，該程序在執行時，執行包括上述方法實施例的步驟；而前述的存儲介質包括R0M、RAM、磁碟或者光碟等各種可以存儲程序代碼的介質。
最後應當說明的是以上實施例僅用以說明本發明的技術方案而非對其限制；儘管參照較佳實施例對本發明進行了詳細的說明，所屬領域的普通技術人員應當理解依然可以對本發明的具體實施方式
進行修改或者對部分技術特徵進行等同替換；而不脫離本發明技術方案的精神，其均應涵蓋在本發明請求保護的技術方案範圍當中。
權利要求
1.一種反垃圾郵件處理系統，包括關鍵值向量庫，用於保存垃圾郵件樣本所對應的關鍵值向量；關鍵值向量生成器，用於接收郵件傳送代理系統轉發的MME格式的電子郵件，並計算所述電子郵件所對應的關鍵值向量；垃圾郵件處理單元，將所述電子郵件對應的關鍵值向量與所述關鍵值向量庫中保存的關鍵值向量分別進行比較，如果存在比較結果在垃圾郵件判斷閾值範圍內，則確定所述電子郵件為垃圾郵件，否則將所述電子郵件轉交給郵件投遞代理系統進行郵件投遞。
2.根據權利要求1所述的系統，其中，所述關鍵值向量生成器具體包括郵件分割單元，用於對所述電子郵件的郵件頭和郵件體進行分割；郵件頭關鍵值計算單元，用於根據所述電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值HeaderKey ；郵件體關鍵值計算單元，用於根據所述電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey ；關鍵值向量生成單元，根據所述郵件頭關鍵值計算單元計算出的郵件頭關鍵值 HeaderKey和所述郵件體關鍵值計算單元計算出的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey得到所述電子郵件對應的關鍵值向量。
3.根據權利要求2所述的系統，其中所述郵件體關鍵值計算單元具體包括MIME結構樹生成組件，用於將郵件體表示為呈MME樹形結構所對應的多維向量，所述多維向量與所述郵件體所分成的多個信息段相對應，所述多維向量的維度包括信息段結構關鍵值MMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey ；信息段結構關鍵值計算組件，用於根據所述信息段在所述電子郵件的郵件體中的位置以及所述信息段與其他信息段的父子兄弟關係計算對應的信息段結構關鍵值MIMEKey ；信息段尺寸關鍵值計算組件，用於根據所述信息段的數據尺寸以及所述信息段相對於整個郵件的尺寸關係計算對應的信息段尺寸關鍵值SizeKey ；信息段編碼關鍵值計算組件，用於根據所述信息段採用的編碼方式及相關信息計算對應的信息段編碼關鍵值EncodeKey ；遞歸線性計算組件，用於通過對所述電子郵件的郵件體分成的各個信息段所對應的所述信息段結構關鍵值MIMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey 進行遞歸線性計算，得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey。
4.根據權利要求2所述的系統，其中，所述郵件頭關鍵值計算單元所應用的計算公式為HeadKey = Σ (第i個域出現的序號* log(該域的映射數值))，i = I N ;其中，N為所述郵件頭中所包括的域的數量。
5.根據權利要求3所述的系統，其中，所述信息段結構關鍵值計算組件所應用的計算公式為信息段結構關鍵值MMEKey =當前信息段的層數* log (當前信息段的映射數值)+當前信息段的數據尺寸* log (下一信息段的映射數值)；所述信息段尺寸關鍵值計算組件所應用的計算公式為信息段尺寸關鍵值SizeKey =((當前信息段解碼後數據尺寸+電子郵件總體數據尺寸/2)/電子郵件總體數據尺寸)* log(當前信息段的映射數值)；信息段編碼關鍵值計算組件所應用的計算公式為信息段編碼關鍵值EncodeKey = a * log(字符集的映射數值)+b * log(當前信息段的加密編碼的映射數值)+c log (MIME結構內定義的標準CONTENT-TYPE的映射數值)+d*log (CONTENT-TYPE標籤的長度)+e * log (附件名字符集的映射數值)，其中a、b、C、d、 e均為預設的係數。
6.一種反垃圾郵件處理方法，包括接收郵件傳送代理系統轉發的MME格式的電子郵件，並計算所述電子郵件所對應的關鍵值向量；將所述電子郵件對應的關鍵值向量與所述關鍵值向量庫中保存的垃圾郵件樣本所對應的關鍵值向量分別進行比較，如果存在比較結果在垃圾郵件判斷閾值範圍內的情況，則確定所述電子郵件為垃圾郵件，否則將所述電子郵件轉交給郵件投遞代理系統進行郵件投遞。
7.根據權利要求6所述的方法，其中，所述計算電子郵件所對應的關鍵值向量的操作具體包括對所述電子郵件的郵件頭和郵件體進行分割；根據所述電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值HeaderKey ；根據所述電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey ；根據計算出的郵件頭關鍵值HeaderKey、郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey得到所述電子郵件對應的關鍵值向量。
8.根據權利要求7所述的方法，其中所述根據電子郵件的郵件體中的各個信息段所對應的多維向量通過遞歸計算得出所述電子郵件的郵件體所對應的郵件體結構關鍵值 MMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey的操作具體包括將郵件體表示為呈MME樹形結構所對應的多維向量，所述多維向量與所述郵件體所分成的多個信息段相對應，所述多維向量的維度包括信息段結構關鍵值MMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey ；根據所述信息段在所述電子郵件的郵件體中的位置以及所述信息段與其他信息段的父子兄弟關係計算對應的信息段結構關鍵值MMEKey ；根據所述信息段的數據尺寸以及所述信息段相對於整個郵件的尺寸關係計算對應的信息段尺寸關鍵值SizeKey ；根據所述信息段採用的編碼方式及相關信息計算對應的信息段編碼關鍵值 EncodeKey ；通過對所述電子郵件的郵件體分成的各個信息段所對應的所述信息段結構關鍵值 MIMEKey、信息段尺寸關鍵值SizeKey和信息段編碼關鍵值EncodeKey進行遞歸線性計算，得出所述電子郵件的郵件體所對應的郵件體結構關鍵值MIMEKey、郵件體尺寸關鍵值SizeKey和郵件體編碼關鍵值EncodeKey。
9.根據權利要求7所述的方法，其中，所述根據電子郵件的郵件頭中的各個域計算對應的郵件頭關鍵值HeaderKey的操作所應用的計算公式為HeadKey = Σ (第i個域出現的序號* log(該域的映射數值))，i = I N ;其中，N為所述郵件頭中所包括的域的數量。
10.根據權利要求8所述的方法，其中，所述根據信息段在所述電子郵件的郵件體中的位置以及所述信息段與其他信息段的父子兄弟關係計算對應的信息段結構關鍵值MMEKey 的操作所應用的計算公式為信息段結構關鍵值MMEKey =當前信息段的層數* log (當前信息段的映射數值)+當前信息段的數據尺寸* log (下一信息段的映射數值)；所述根據信息段的數據尺寸以及所述信息段相對於整個郵件的尺寸關係計算對應的信息段尺寸關鍵值SizeKey的操作所應用的計算公式為信息段尺寸關鍵值SizeKey =((當前信息段解碼後數據尺寸+電子郵件總體數據尺寸/2)/電子郵件總體數據尺寸)* log(當前信息段的映射數值)；所述根據信息段採用的編碼方式及相關信息計算對應的信息段編碼關鍵值EncodeKey 的操作所應用的計算公式為信息段編碼關鍵值EncodeKey = a * log(字符集的映射數值)+b * log(當前信息段的加密編碼的映射數值)+c log (MIME結構內定義的標準CONTENT-TYPE的映射數值)+d*log (CONTENT-TYPE標籤的長度)+e * log (附件名字符集的映射數值)，其中a、b、C、d、 e均為預設的係數。
全文摘要
本發明涉及一種反垃圾郵件處理系統，包括關鍵值向量庫，用於保存垃圾郵件樣本所對應的關鍵值向量；關鍵值向量生成器，用於接收郵件傳送代理系統轉發的MIME格式的電子郵件，並計算電子郵件所對應的關鍵值向量；垃圾郵件處理單元，將電子郵件對應的關鍵值向量與關鍵值向量庫中保存的關鍵值向量分別進行比較，如果存在比較結果在垃圾郵件判斷閾值範圍內，則確定電子郵件為垃圾郵件，否則將電子郵件轉交給郵件投遞代理系統進行郵件投遞。本發明還涉及一種反垃圾郵件處理方法。本發明比傳統的垃圾關鍵字全文比較方式更快捷，即便垃圾關鍵字進行了改裝，也仍能確保垃圾郵件過濾的準確率。
文檔編號H04L12/58GK103001849SQ20111026466
公開日2013年3月27日申請日期2011年9月8日優先權日2011年9月8日
發明者郭濤, 於洪湧, 薛立宏, 丘凌, 張國威申請人:中國電信股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

反垃圾郵件處理系統及方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法