垃圾郵件伺服器的判斷方法和裝置製造方法
2023-10-23 22:57:22 2
垃圾郵件伺服器的判斷方法和裝置製造方法
【專利摘要】本發明公開了一種垃圾郵件伺服器的判斷方法和裝置,所述方法包括:對於從待判定的郵件伺服器接收到的每個電子郵件,將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位點;對於多個從待判定的郵件伺服器接收到的電子郵件,計算各電子郵件所屬分位點的序號的均方差;若計算出的均方差小於設定閾值,則判斷該郵件伺服器為垃圾郵件伺服器;其中,至少兩個分位點是對資料庫中的各非垃圾郵件的電子郵件的大小進行統計後確定的。由於根據電子郵件所屬分位點的均方差進行垃圾郵件伺服器的判斷,避免了對郵件內容進行大量的分析、計算,使得垃圾郵件伺服器的判斷更加快速、高效,並增強了垃圾郵件伺服器判斷的抗幹擾能力。
【專利說明】垃圾郵件伺服器的判斷方法和裝置
【技術領域】
[0001]本發明涉及網際網路領域,尤其涉及一種垃圾郵件伺服器的判斷方法和裝置。
【背景技術】
[0002]電子郵件(electronic mail)是一種用電子手段提供信息交換的通信方式,是 Internet (網際網路)應用最廣的服務;通過網絡的電子郵件發送系統,用戶可以快速、低廉的 方式與其他網絡用戶聯繫。
[0003]然而,隨著網際網路技術的迅猛發展,網上信息爆炸式增長,一些商家或組織,未經 用戶許可就強行發送一些攜帶有廣告宣傳或惡意信息的電子郵件到用戶的郵箱中,這給用 戶帶來了幹擾;甚至,為大面積散布信息,這些商家或組織會設置一個或幾個郵件伺服器, 以巨量發送垃圾郵件的方式攻擊其它郵件伺服器,造成其它郵件伺服器大量帶寬損失,並 嚴重幹擾郵件伺服器進行正常的郵件遞送工作。通常,將這種未經用戶許可就強行發送到 用戶郵箱中的電子郵件稱為垃圾郵件;將發送垃圾郵件的郵件伺服器稱為垃圾郵件服務 器。
[0004]為解決上述問題,現有技術採用基於郵件內容的判斷方法來判斷電子郵件是否為 垃圾郵件,進而判斷發送垃圾郵件的郵件伺服器是否為垃圾郵件伺服器;但是,該方法需要 對全部電子郵件的郵件內容進行分析、計算,如解碼、分詞和語義分析,使得計算資源開銷 比較大,判斷垃圾郵件的效率較低,進而影響判斷垃圾郵件伺服器的效率;而且,垃圾郵件 發送者可以在郵件內容中插入與主題不相干的內容,幹擾郵件內容判斷引擎對郵件內容的 分析,從而幹擾郵件內容判斷引擎對電子郵件是否為垃圾郵件的判斷,增大了垃圾郵件判 斷的難度,相應增加了垃圾郵件伺服器的判斷難度。
【發明內容】
[0005]針對上述現有技術存在的缺陷,本發明提供了一種垃圾郵件伺服器的判斷方法和 裝置,用以快速、高效地判斷出垃圾郵件伺服器。
[0006]根據本發明的一個方面,提供了一種垃圾郵件伺服器的判斷方法,包括:
[0007]對於從待判定的郵件伺服器接收到的每個電子郵件,將該電子郵件的大小與預先 確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位點;
[0008]對於多個從待判定的郵件伺服器接收到的電子郵件,計算各電子郵件所屬分位點 的序號的均方差;
[0009]若計算出的均方差小於設定閾值,則判斷所述郵件伺服器為垃圾郵件伺服器;
[0010]其中,所述至少兩個分位點是對資料庫中的各非垃圾郵件的電子郵件的大小進行 統計後確定的。
[0011]較佳地,所述至少兩個分位點是對資料庫中的各非垃圾郵件的電子郵件的大小進 行統計後確定的,具體包括:
[0012]對所述資料庫中的各非垃圾郵件的電子郵件的大小進行排序後,將排序結果中第iXn個電子郵件的大小作為所述分位點,並按分位點的大小順序設定各分位點的序號;其 中,n為預設的郵件間隔數,i從自然數I到m中依次取值,m為分位點的總數,m由所述資 料庫中的各非垃圾郵件的電子郵件總數與n之商再取整得到。
[0013]較佳地,所述多個從待判定的郵件伺服器接收到的電子郵件具體為:
[0014]設定時間段內從所述待判定的郵件伺服器接收到的電子郵件;
[0015]或者,從所述待判定的郵件伺服器接收到的設定數量的電子郵件。
[0016]較佳地,所述將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確 定該電子郵件所屬分位點具體為:
[0017]將該電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小大 於序號最大的分位點,則將序號最大的分位點作為該電子郵件所屬分位點;否則,確定出大 於該電子郵件的大小的最小分位點,將確定出的分位點作為該電子郵件所屬分位點。
[0018]或者,所述將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定 該電子郵件所屬分位點具體為:
[0019]將該電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小小 於序號最小的分位點,則將該序號最小的分位點作為該電子郵件所屬分位點;否則,確定出 小於該電子郵件的大小的最大分位點,將確定出的分位點作為該電子郵件所屬分位點。
[0020]或者,所述將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定 該電子郵件所屬分位點具體為:
[0021]將該電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小小 於序號最小的分位點,則將該序號最小的分位點作為該電子郵件所屬分位點;
[0022]若該電子郵件的大小大於序號最大的分位點,則將序號最大的分位點作為該電子 郵件所屬分位點;
[0023]若該電子郵件的大小在序號最小的分位點與序號最大的分位點之間,則確定出小 於該電子郵件的大小的最大分位點,以及大於該電子郵件的大小的最小分位點,計算所述 最大分位點和最小分位點的平均值;若該電子郵件的大小大於所述平均值,則將所述最大 分位點作為該電子郵件所屬分位點;若該電子郵件的大小不大於所述平均值,則將所述最 小分位點作為該電子郵件所屬分位點。
[0024]根據本發明的另一個方面,還提供了一種垃圾郵件伺服器的判斷裝置,包括:
[0025]所屬分位點確定模塊,用於對於從待判定的郵件伺服器接收到的每個電子郵件, 將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位 點,其中,所述至少兩個分位點是對資料庫中的各非垃圾郵件的電子郵件的大小進行統計 後確定的;
[0026]均方差計算模塊,用於對於多個從待判定的郵件伺服器接收到的電子郵件,計算 各電子郵件所屬分位點的序號的均方差;
[0027]垃圾郵件伺服器判斷模塊,用於將所述均方差計算模塊計算出的均方差與設定閾 值進行比較;若所述均方差小於設定閾值,則輸出所述郵件伺服器為垃圾郵件伺服器的判 斷結果。
[0028]進一步,所述垃圾郵件伺服器的判斷裝置,還包括:
[0029]分位點統計模塊,用於對資料庫中的各非垃圾郵件的電子郵件的大小進行統計後確定出所述至少兩個分位點:對所述資料庫中的各非垃圾郵件的電子郵件的大小進行排序 後,將排序結果中第個電子郵件的大小作為所述統計結果中的分位點,並按分位點的大小 順序設定各分位點的序號;其中,為預設的郵件間隔數,從自然數I到m中依次取值,m為分 位點的總數,m由所述資料庫中的各非垃圾郵件的電子郵件總數與之商再取整得到。
[0030]較佳地,所述所屬分位點確定模塊具體包括:
[0031 ]用於確定從待判定的郵件伺服器接收到的每個電子郵件的大小的郵件大小確定 單元,以及如下任一分位點確定單元:
[0032]第一分位點確定單元,用於將所述郵件大小確定單元確定出的電子郵件的大小與 預先確定的各分位點進行比較後,若該電子郵件的大小大於序號最大的分位點,則將序號 最大的分位點作為該電子郵件所屬分位點;否則,確定出大於該電子郵件的大小的最小分 位點,將確定出的分位點作為該電子郵件所屬分位點;
[0033]第二分位點確定單元,用於將所述郵件大小確定單元確定出的電子郵件的大小與 預先確定的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點,則將該序 號最小的分位點作為該電子郵件所屬分位點;否則,確定出小於該電子郵件的大小的最大 分位點,將確定出的分位點作為該電子郵件所屬分位點;
[0034]第三分位點確定單元,用於將所述郵件大小確定單元確定出的電子郵件的大小與 預先確定的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點,則將該序 號最小的分位點作為該電子郵件所屬分位點;若該電子郵件的大小大於序號最大的分位 點,則將序號最大的分位點作為該電子郵件所屬分位點;若該電子郵件的大小在序號最小 的分位點與序號最大的分位點之間,則確定出小於該電子郵件的大小的最大分位點,以及 大於該電子郵件的大小的最小分位點,計算所述最大分位點和最小分位點的平均值;若該 電子郵件的大小大於所述平均值,則將所述最大分位點作為該電子郵件所屬分位點;若該 電子郵件的大小不大於所述平均值,則將所述最小分位點作為該電子郵件所屬分位點。
[0035]較佳地,所述均方差計算模塊具體用於在設定周期到達時,計算當前時間之前的 設定時間段內所述所屬分位點確定模塊確定出的各電子郵件所屬分位點的序號的均方 差;
[0036]或者,所述均方差計算模塊具體用於在設定周期到達時,計算從待判定的郵件服 務器接收到的設定數量的電子郵件所屬分位點的序號的均方差。
[0037]本發明的技術方案中,對於從待判定的郵件伺服器接收到的每個電子郵件,確定 該電子郵件所屬分位點後,對於多個從待判定的郵件伺服器接收到的電子郵件,計算各電 子郵件所屬分位點的序號的均方差,並判斷出計算出的均方差小於設定閾值後,判斷待判 定的郵件伺服器為垃圾郵件伺服器;從而,避免了對郵件內容進行大量的分析、計算,更加 快速、高效地判斷出了垃圾郵件伺服器;
[0038]進一步,本發明的技術方案中,由於判斷待判定的郵件伺服器是否為垃圾郵件服 務器時,不對垃圾郵件伺服器發送的垃圾郵件的郵件內容進行分析、計算,避免了現有技術 中的垃圾郵件發送者對郵件內容判斷的幹擾問題,增強了進行垃圾郵件伺服器判斷的抗幹 擾能力;而且,可以在判斷出垃圾郵件伺服器後,對垃圾郵件伺服器拉黑名單,或者直接對 其發送的郵件進行垃圾郵件標識,進一步避免了對後續接收到的電子郵件的郵件內容的分 析、計算。【專利附圖】
【附圖說明】
[0039]圖1a為本發明實施例的確定分位點的方法流程圖;
[0040]圖1b為本發明實施例的垃圾郵件伺服器的判斷方法的流程圖;
[0041]圖2a、2b、2c為本發明實施例的垃圾郵件伺服器的判斷裝置的內部結構框圖。
【具體實施方式】
[0042]以下將結合附圖對本發明的技術方案進行清楚、完整的描述,顯然,所描述的實施 例僅僅是本發明的一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普 通技術人員在沒有做出創造性勞動的前提下所得到的所有其它實施例,都屬於本發明所保 護的範圍。
[0043]本申請使用的「模塊」、「系統」等術語旨在包括與計算機相關的實體,例如但不限 於硬體、固件、軟硬體組合、軟體或者執行中的軟體。例如,模塊可以是,但並不僅限於:處理 器上運行的進程、處理器、對象、可執行程序、執行的線程、程序和/或計算機。舉例來說,計 算設備上運行的應用程式和此計算設備都可以是模塊。一個或多個模塊可以位於執行中的 一個進程和/或線程內,一個模塊也可以位於一臺計算機上和/或分布於兩臺或更多臺計 算機之間。
[0044]本發明的發明人對電子郵件的大小進行分析後發現,正常的郵件發送者發送的電 子郵件(非垃圾郵件)的大小通常在比較大的範圍內分布,而垃圾郵件發送者出於對成本的 考慮,往往發送的的電子郵件的大小集中在較小區間範圍內,而且垃圾郵件發送者往往會 設置垃圾郵件伺服器,用於發送垃圾郵件;
[0045]從而,本發明的發明人考慮到,可以根據一段時間內一臺郵件伺服器發送的電子 郵件的大小的分布範圍,判斷出該郵件伺服器是否為垃圾郵件伺服器;由此,不需要對該郵 件伺服器發送的電子郵件的郵件內容進行判斷,可以避免對郵件內容的大量的分析、計算, 節省分析、計算資源的開銷。
[0046]基於上述的分析,本發明的技術方案中,通過對資料庫中的電子郵件的大小進行 統計後,確定出非垃圾郵件的分布規律,將該分布規律作為先驗知識,確定出待判定的郵件 伺服器發送的電子郵件是否集中分布在設定範圍內,進而判定出該待判定的郵件伺服器是 否為垃圾郵件伺服器,使得垃圾郵件伺服器的判斷更加快速、高效。
[0047]下面結合附圖詳細說明本發明的技術方案。
[0048]事實上,在進行垃圾郵件伺服器的判斷之前,需要先確定出非垃圾郵件的分布規 律,即對資料庫中的電子郵件的大小進行統計,確定出統計結果,並進而確定出統計結果中 的分位點,具體方法的流程,如圖1a所示,包括如下步驟:
[0049]SlOl:對資料庫中的各非垃圾郵件的電子郵件的大小進行排序。
[0050]具體地,在資料庫中存儲有多個電子郵件,在本步驟中,可以選取資料庫中的各非 垃圾郵件的電子郵件,並對各非垃圾郵件的電子郵件的大小進行排序。
[0051]S102:根據排序結果確定出統計結果,進而確定出統計結果中的分位點。
[0052]具體地,在步驟SlOl對資料庫中的各非垃圾郵件的電子郵件的大小進行排序後, 在本步驟中,將排序結果中第iXn個電子郵件的大小作為統計結果中的分位點,並按分位點的大小順序設定各分位點的序號,且分位點的個數至少為兩個;其中,n為預設的郵件間隔數,具體可以為100、或200,i從自然數I到m中依次取值,m為分位點的總數,m由資料庫中的各非垃圾郵件的電子郵件總數與n之商再取整得到,且m3 2。
[0053]其中,按分位點的大小順序設定各分位點的序號具體可以為:按分位點從小到大的順序,將分位點的序號依次設定為I?m的自然數;其中,m為分位點的總數。
[0054]例如,若資料庫中的非垃圾郵件為1010封,預設的郵件間隔數為100,對各非垃圾郵件進行排序後,第100封的大小為10k,第200封的大小為15k,第300封的大小為 21k,……,第900封的大小為5M,第1000封的大小為100M,則分位點的總數為10 (即1010 與100之商取整),且可以將10k、15k、21k、…、5M和100M作為統計結果中的分位點,並可以將各分位點的序號依次設定為1、2、3、…、9、10。
[0055]基於預先確定的統計結果中的分位點,本發明提供的垃圾郵件伺服器的判斷方法的流程,如圖1b所示,包括如下步驟:
[0056]S111:對於從待判定的郵件伺服器接收到的每個電子郵件,將該電子郵件的大小與預先確定的統計結果中的分位點進行比較後,確定該電子郵件所屬分位點。
[0057]具體地,待判定的郵件伺服器發送電子郵件到設置有本發明的垃圾郵件伺服器的判斷裝置的郵件伺服器後,垃圾郵件伺服器的判斷裝置對於從待判定的郵件伺服器接收到的每個電子郵件,將該電子郵件的大小與預先確定的統計結果中的分位點進行比較後,確定該電子郵件所屬分位點。
[0058]其中,一種確定該電子郵件所屬分位點的方法可以為:將該電子郵件的大小與預先確定的統計結果中的各分位點進行比較後,若該電子郵件的大小大於序號最大的分位點,則將序號最大的分位點作為該電子郵件所屬分位點;否則,確定出大於該電子郵件的大小的最小分位點,將確定出的分位點作為該電子郵件所屬分位點。
[0059]例如,預先確定的統計結果中的各分位點如上述所示,若該電子郵件的大小為 105MC105M -100M),則可以確定出該電子郵件所屬分位點為序號為10的100M分位點;若該電子郵件的大小為16k,則可以確定出該電子郵件所屬分位點為序號為3的21k分位點。
[0060]另一種確定該 電子郵件所屬分位點的方法可以為:將該電子郵件的大小與預先確定的統計結果中的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點,則將該序號最小的分位點作為該電子郵件所屬分位點;否則,確定出小於該電子郵件的大小的最大分位點,將確定出的分位點作為該電子郵件所屬分位點。
[0061]例如,預先確定的統計結果中的各分位點如上述所示,若該電子郵件的大小為8k (8k< 10k),則可以確定出該電子郵件所屬分位點為序號為I的IOk分位點;若該電子郵件的大小為16k,則可以確定出該電子郵件所屬分位點為序號為2的15k分位點。
[0062]此外,確定該電子郵件所屬分位點的方法還可以為:將該電子郵件的大小與預先確定的統計結果中的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點, 則將該序號最小的分位點作為該電子郵件所屬分位點;
[0063]若該電子郵件的大小大於序號最大的分位點,則將序號最大的分位點作為該電子郵件所屬分位點;
[0064]若該電子郵件的大小在序號最小的分位點與序號最大的分位點之間,則確定出小於該電子郵件的大小的最大分位點,以及大於該電子郵件的大小的最小分位點,計算所述最大分位點和最小分位點的平均值;若該電子郵件的大小大於所述平均值,則將所述最大分位點作為該電子郵件所屬分位點;若該電子郵件的大小不大於所述平均值,則將所述最小分位點作為該電子郵件所屬分位點。
[0065]例如,預先確定的統計結果中的各分位點如上述所示,若該電子郵件的大小為8k(8k≤10k),則可以確定出該電子郵件所屬分位點為序號為I的IOk分位點;若該電子郵件的大小為105M (105M ≥ 100M),則可以確定出該電子郵件所屬分位點為序號為10的100M分位點;
[0066]若該電子郵件的大小為16k,則計算序號為2的15k分位點和序號為3的21k分位點的平均值,即18k ;由於16k ≤ 18k,可以確定出該電子郵件所屬分位點為序號為2的15k分位點;同樣,若該電子郵件的大小為19k (19k>18k),可以確定出該電子郵件所屬分位點為序號為3的21k分位點。
[0067]S112:對於多個從待判定的郵件伺服器接收到的電子郵件,計算各電子郵件所屬分位點的序號的均方差。
[0068]具體地,在設定周期到達時,垃圾郵件伺服器的判斷裝置對於多個從待判定的郵件伺服器接收到的電子郵件,計算各電子郵件所屬分位點的序號的均方差;其中,多個從待判定的郵件伺服器接收到的電子郵件具體為:設定時間段內從待判定的郵件伺服器接收到的電子郵件;設定時間段具體可以為當前時間之前的設定時間段,且設定周期、設定時間段由本領域技術人員根據實際需求進行設定;
[0069]或者,多個從待判定的郵件伺服器接收到的電子郵件為設定數量的電子郵件,且設定數量由本領域技術人員根據實際需求進行設定,具體可以為100封。
[0070]例如,若在設定周期到達時,垃圾郵件伺服器的判斷裝置從待判定的郵件伺服器接收到的電子郵件為100封,確定出的分位點為Xl,X2,…,X.,則根據如下公式I和公式2,計算該100封電子郵件的均方差σ:1 100
【權利要求】
1.一種垃圾郵件伺服器的判斷方法,其特徵在於,包括:對於從待判定的郵件伺服器接收到的每個電子郵件,將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位點;對於多個從待判定的郵件伺服器接收到的電子郵件,計算各電子郵件所屬分位點的序號的均方差;若計算出的均方差小於設定閾值,則判斷所述郵件伺服器為垃圾郵件伺服器;其中,所述至少兩個分位點是對資料庫中的各非垃圾郵件的電子郵件的大小進行統計後確定的。
2.如權利要求1所述的方法,其特徵在於,所述至少兩個分位點是對資料庫中的各非垃圾郵件的電子郵件的大小進行統計後確定的,具體包括:對所述資料庫中的各非垃圾郵件的電子郵件的大小進行排序後,將排序結果中第iXn 個電子郵件的大小作為所述分位點,並按分位點的大小順序設定各分位點的序號;其中,n 為預設的郵件間隔數,i從自然數I到m中依次取值,m為分位點的總數,m由所述資料庫中的各非垃圾郵件的電子郵件總數與n之商再取整得到。
3.如權利要求2所述的方法,其特徵在於,所述多個從待判定的郵件伺服器接收到的電子郵件具體為:設定時間段內從所述待判定的郵件伺服器接收到的電子郵件;或者,從所述待判定的郵件伺服器接收到的設定數量的電子郵件。
4.如權利要求3所述的方法,其特徵在於,所述將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位點具體為:將該電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小大於序號最大的分位點,則將序號最大的分位點作為該電子郵件所屬分位點;否則,確定出大於該電子郵件的大小的最小分位點,將確定出的分位點作為該電子郵件所屬分位點。.
5.如權利要求3所述的方法,其特徵在於,所述將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位點具體為:將該電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點,則將該序號最小的分位點作為該電子郵件所屬分位點;否則,確定出小於該電子郵件的大小的最大分位點,將確定出的分位點作為該電子郵件所屬分位點。
6.如權利要求3所述的方法,其特徵在於,所述將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位點具體為:將該電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點,則將該序號最小的分位點作為該電子郵件所屬分位點;若該電子郵件的大小大於序號最大的分位點,則將序號最大的分位點作為該電子郵件所屬分位點;若該電子郵件的大小在序號最小的分位點與序號最大的分位點之間,則確定出小於該電子郵件的大小的最大分位點,以及大於該電子郵件的大小的最小分位點,計算所述最大分位點和最小分位點的平均值;若該電子郵件的大小大於所述平均值,則將所述最大分位點作為該電子郵件所屬分位點;若該電子郵件的大小不大於所述平均值,則將所述最小分位點作為該電子郵件所屬分位點。
7.一種垃圾郵件伺服器的判斷裝置,其特徵在於,包括:所屬分位點確定模塊,用於對於從待判定的郵件伺服器接收到的每個電子郵件,將該電子郵件的大小與預先確定的至少兩個分位點進行比較後,確定該電子郵件所屬分位點, 其中,所述至少兩個分位點是對資料庫中的各非垃圾郵件的電子郵件的大小進行統計後確定的;均方差計算模塊,用於對於多個從待判定的郵件伺服器接收到的電子郵件,計算各電子郵件所屬分位點的序號的均方差;垃圾郵件伺服器判斷模塊,用於將所述均方差計算模塊計算出的均方差與設定閾值進行比較;若所述均方差小於設定閾值,則輸出所述郵件伺服器為垃圾郵件伺服器的判斷結果。
8.如權利要求7所述的系統,其特徵在於,還包括:分位點統計模塊,用於對資料庫中的各非垃圾郵件的電子郵件的大小進行統計後確定出所述至少兩個分位點:對所述資料庫中的各非垃圾郵件的電子郵件的大小進行排序後, 將排序結果中第iXn個電子郵件的大小作為所述統計結果中的分位點,並按分位點的大小順序設定各分位點的序號;其中,n為預設的郵件間隔數,i從自然數I到m中依次取值,m 為分位點的總數,m由所述資料庫中的各非垃圾郵件的電子郵件總數與n之商再取整得到。
9.如權利要求8所述的系統,其特徵在於,所述所屬分位點確定模塊具體包括:用於確定從待判定的郵件伺服器接收到的每個電子郵件的大小的郵件大小確定單元, 以及如下任一分位點確定單元:第一分位點確定單元,用於將所述郵件大小確定單元確定出的電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小大於序號最大的分位點,則將序號最大的分位點作為該電子郵件所屬分位點;否則,確定出大於該電子郵件的大小的最小分位點, 將確定出的分位點作為該電子郵件所屬分位點;第二分位點確定單元,用於將所述郵件大小確定單元確定出的電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點,則將該序號最小的分位點作為該電子郵件所屬分位點;否則,確定出小於該電子郵件的大小的最大分位點,將確定出的分位點作為該電子郵件所屬分位點; 第三分位點確定單元,用於將所述郵件大小確定單元確定出的電子郵件的大小與預先確定的各分位點進行比較後,若該電子郵件的大小小於序號最小的分位點,則將該序號最小的分位點作為該電子郵件所屬分位點;若該電子郵件的大小大於序號最大的分位點,則將序號最大的分位點作為該電子郵件所屬分位點;若該電子郵件的大小在序號最小的分位點與序號最大的分位點之間,則確定出小於該電子郵件的大小的最大分位點,以及大於該電子郵件的大小的最小分位點,計算所述最大分位點和最小分位點的平均值;若該電子郵件的大小大於所述平均值,則將所述最大分位點作為該電子郵件所屬分位點;若該電子郵件的大小不大於所述平均值,則將所述最小分位點作為該電子郵件所屬分位點。
10.如權利要求7-9任一所述的系統,其特徵在於,所述均方差計算模塊具體用於在設定周期到達時,計算當前時間之前的設定時間段內所述所屬分位點確定模塊確定出的各電子郵件所屬分位點的序號的均方差;或者,所述均方差計算模塊具體用於在設定周期到達時,計算從待判定的郵件伺服器接收到的設定數量的電子 郵件所屬分位點的序號的均方差。
【文檔編號】H04L29/06GK103441920SQ201310352828
【公開日】2013年12月11日 申請日期:2013年8月14日 優先權日:2013年8月14日
【發明者】王安國, 朱歡 申請人:新浪網技術(中國)有限公司