垃圾簡訊過濾方法

2023-07-14 07:21:31 2

專利名稱：垃圾簡訊過濾方法
技術領域：
本發明涉及文本信息處理技術領域，特別涉及一種垃圾簡訊的過濾方法。
背景技術：
簡訊是人們經常使用的信息交流方式之一，與此同時，垃圾簡訊也開始逐步泛濫。統計顯示，在數量龐大的簡訊中，約30%屬於垃圾簡訊。對普通用戶而言，垃圾簡訊嚴重幹擾日常生活；對運營商而言，垃圾簡訊佔據大量流量空間，降低信息傳送效率。垃圾簡訊的主要內容包括廣告信息、色情信息、假中獎信息、欺詐信息和惡作劇等，其中尤以色情信息和假中獎信息最為常見。現有技術中，最常見的過濾方法包括1、基於敏感詞的垃圾簡訊過濾通過在伺服器端布置敏感詞表並通過模式匹配的方法來過濾垃圾簡訊。基于敏感詞和串匹配的方法是最通用的垃圾簡訊過濾方法，該方法往往作為其它方法的預處理步驟。基於敏感詞和串匹配的過濾方法的最大優點在於執行效率比較高，對輸入消息掃描一遍即可。在線系統中常常使用。該方法的最大缺陷在於(1) 「誤殺率」較高，無論是進行分詞或者不進行分詞，基於匹配的垃圾簡訊過濾都會造成不小的「誤殺」。(2)不能靈活應對垃圾簡訊的變化。垃圾簡訊的發送者往往會不斷變化可能的敏感詞形式，以期繞過敏感詞過濾機制。例如朱容基、朱溶劑、朱榕基、朱鎔基等。通過敏感詞列舉的方式無法窮盡所有的敏感詞形式，這種方法永遠滯後於垃圾短信的傳播。2、基於分類模型的垃圾簡訊過濾基於分類模型的垃圾簡訊過濾方法主要是基於內容比較。通過把簡訊分割為獨立的部分，並計算這些部分與分類之間的關係來判斷是否為垃圾短息。常見的分類一般包括兩類正常簡訊和垃圾簡訊。一般，簡訊分割為字、詞或者短語。常見的分類模型包括樸素貝葉斯模型、向量空間模型、最大熵模型、支持向量機模型等等。一般的分類模型都可以用來判斷是否為垃圾短息。通過引入分類模型，可以很大程度上避開敏感詞過濾的缺陷，可以從整體內容上判斷消息是否為垃圾簡訊。儘管基於分類模型可以從內容上計算消息的可靠程度，但該方法存在自身的缺陷(1)需要構建一定規模的訓練語料庫。主流的分類模型往往需要構建一定規模的訓練語料來得到分類用的參數，一般情況下，訓練語料庫規模越大，分類準確率越高。為了構建一定規模的訓練語料庫，需要花費極大的代價，而且，訓練語料庫必須不斷更新，否則難以跟上垃圾簡訊息變化的步伐。(2)垃圾簡訊過濾效率較低，不適合實時性較高的場合。
基於分類模型的過濾效率較低的原因在於計算複雜度較高。在上述諸種分類模型中，除了貝葉斯模型外，其它模型的參數規模均比較大，而且計算複雜度比較高。在對效率要求很高的垃圾簡訊過濾上面，基於分類模型的方法並不適合。3、基於行為模式的垃圾簡訊過濾與基於內容的垃圾過濾思路不同，基於社會網絡的垃圾簡訊過濾方法側重利用短信發送模式和接收模式來進行簡訊過濾。垃圾簡訊的發送往往在陌生人之間進行，即發送方和接收方過去沒有在語音上建立過聯繫，相互之間幾乎沒有通信記錄。普通用戶在接收到垃圾簡訊後，往往不會回復消息，即垃圾簡訊的接收往往不會有回覆。通過垃圾簡訊的發送和接收方式的特點可以發現絕大多數垃圾簡訊。該方法的缺陷表現在(1)社會網絡規模太大，建模比較困難，且存儲和計算複雜度均較大。(2)並非陌生人簡訊都是垃圾簡訊，也並非所有不回復的簡訊息都是垃圾簡訊。4、基於客戶端描述的垃圾簡訊過濾與伺服器端的簡訊過濾不同，可以預先在客戶端部署過濾模塊。在客戶端部署的垃圾短息過濾模塊往往利用用戶的通訊簿和其它特徵來過濾垃圾消息。這種方法不僅加重了客戶端的計算壓力，而且極容易過濾陌生人的消息。綜上所述，現有技術中的垃圾簡訊過濾方法，要麼只基於垃圾簡訊的內容進行過濾，要麼只基於垃圾簡訊的傳播方式進行過濾，不能有效地識別並過濾垃圾簡訊。

發明內容
(一)要解決的技術問題本發明要解決的技術問題是如何提供一種垃圾簡訊過濾方法，在對垃圾簡訊進行過濾時既考慮垃圾簡訊的內容又考慮垃圾簡訊的傳播方式，從而能夠實時高效地識別並過濾垃圾簡訊。(二)技術方案為解決上述技術問題，本發明提供了一種垃圾簡訊過濾方法，該方法包括步驟10、刪除簡訊中與簡訊內容無關的字詞；步驟20、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋；步驟30、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了第一預設閾值，則判定該簡訊為垃圾簡訊。優選地，所述步驟10和步驟20之間，該方法進一步包括步驟11、對簡訊進行漢語分詞；步驟12、刪除分詞後的簡訊中與簡訊內容無關的字詞。優選地，所述步驟11具體包括步驟101、對簡訊進行最大匹配粗切分，如果遇到歧義，則進行步驟102 ；步驟102、對簡訊進行歧義和未登錄詞識別。優選地，所述步驟12具體包括刪除分詞後的簡訊中權重低於第二預設閾值的字
4詞。優選地，所述字詞的權重為字詞的逆文檔頻次IDF ；所述IDF的計算公式為
NIDF(W)=——
dfiyv)其中，w為簡訊中的字詞；N為預先設定的簡訊庫的簡訊總數；df (W)為預先設定的簡訊庫中包含w的簡訊數目。優選地，所述步驟12具體包括根據詞性刪除分詞後的簡訊中與簡訊內容無關的字詞。優選地，所述步驟30具體包括在內存中維護一個固定大小的緩存空間作為比對窗口，所有簡訊均出現在該比對窗口內；劃分一個固定大小的緩存空間作為簡訊緩衝區，保存同一時間段內出現在比對窗口的所有簡訊的文件指紋；將同一時間段內的任意簡訊的文件指紋與緩衝區保存的文件指紋進行比對，如果該簡訊的文件指紋的個數超過第一預設閾值時，則判定該簡訊為垃圾消息。優選地，所述步驟10中簡訊中與簡訊內容無關的字詞包括控制字符、表形符號和不可見字符中的一個或多個。優選地，所述步驟20中計算文件指紋的方法為MD5算法。(三)有益效果本發明提出了一種垃圾簡訊過濾方法。該方法基於文件指紋的過濾方法既考慮到了垃圾簡訊內容上的相似性，也考慮到了垃圾簡訊的傳播方式，基於這兩個主要特徵來識別垃圾簡訊。在垃圾簡訊過濾過程中，通過維護一個固定大小的緩存空間作為比對窗口，所有簡訊內容均出現在該比對窗口內。通過給每條短消息計算一個唯一的文件指紋，可以快速地找到是否存在垃圾簡訊。本發明所示垃圾簡訊過濾方法的優點在於(1)垃圾簡訊識別和過濾的速度快，可以用在對實時性有較高要求的場合。(2)不會受到垃圾簡訊中非本質內容變化的影響，可以有效應對垃圾消息不斷變化的情況。

圖1是本發明實施例的垃圾簡訊過濾方法的流程圖；圖2是本發明所述方法中對簡訊進行漢語分詞的方法流程圖。
具體實施例方式下面結合附圖和實施例，對本發明的具體實施方式
作進一步詳細描述。以下實施例用於說明本發明，但不用來限制本發明的範圍。本發明的核心思想是對輸入或存儲的簡訊進行漢語分詞，並刪除與一般簡訊內容表達無關的字詞，對保留的簡訊計算其文件指紋。如果該簡訊的文件指紋在緩存中出現的次數超過預設閾值，則可以判斷該簡訊為垃圾簡訊，否則為正常簡訊。圖1是本發明實施例的基垃圾簡訊過濾方法的流程圖；如圖1所述，所述方法包括步驟A、刪除簡訊中與簡訊內容無關的字詞；
5
在本步驟中，直接刪除與輸入或存儲的簡訊內容無關的字詞。所述與輸入或存儲的簡訊內容無關的字詞包括控制字符(如回車符、換行符、制表符、全形半角空格等)、表形符號(如·、◎、、、-_-、( η _ η )ο等等)、不可見字符(字符編碼中很多位置的字符不可見，或者沒有編碼)。無論是控制字符，還是表形符號或者不可見字符，一般情況下均與簡訊內容沒有太大聯繫，完全可以不必考慮這些字符的意義。步驟B、對簡訊進行漢語分詞。漢語分詞是指把簡訊中的詞語切分出來。漢語分詞的重要指標是分詞的準確率和速度。在簡訊過濾的環境中，切分速度非常重要，本步驟中採用的漢語分詞工具是基於最大匹配和字本位最大熵模型，分詞準確率達到95. 4%，切分速度達到每秒2MB，完全滿足實時性的要求。圖2是本發明所述方法中對簡訊進行漢語分詞的方法流程圖；參見圖2，該過程包括以下兩個步驟步驟101、對簡訊進行最大匹配粗切分，如果遇到歧義，則進行步驟102 ；在本步驟中，僅使用正向最大匹配策略分詞。為了緩解最大匹配過程中的錯誤切分，在分詞中輔以海量分詞資源，例如歧義庫、人名詞典、地名詞典和組織機構名詞典。利用海量分詞資源輔助最大匹配的分詞策略，既可以提高分詞準確率，又不會降低分詞速度。步驟102、對簡訊進行歧義和未登錄詞識別。在本步驟中使用了字本位的最大熵的歧義和未登錄詞識別策略，即採取回退一字的策略，然後利用字本位的最大熵模型判斷歧義的切分方式。這在一定程度上可以彌補歧義庫的不足。同時在切分過程中遇到姓氏的話，則根據姓氏及其上下文來判斷是否姓名或其它未登錄詞。步驟C、刪除分詞後的簡訊中與簡訊內容無關的字詞。在本步驟中，所述刪除分詞後的簡訊中與簡訊內容無關的字詞具體包括刪除分詞後的簡訊中權重低於預設閾值的字詞。所述字詞的權重可以根據IDF(inverse document frequency，逆文檔頻次)公式計算得到。IDF是信息檢索和數據挖掘中常用的詞語權重計算方法，其計算字詞權重的根據為包含字詞的簡訊越多，則其區分能力越有限，即字詞的權重越低。本步驟中用字詞的 IDF值表示字詞的權重，IDF的計算公式為
NIDF(W) = --(1)
df(w)其中w為簡訊中的字詞；N 指預先設定的簡訊庫的簡訊總數；df (W)指預先設定的簡訊庫中包含w的簡訊數目。IDF對於領域內獨有的字詞賦予較高的權重，適合用來進行文本相關性計算，而對於那些在所有或大部分文本中都出現的字詞，則賦予較低的權重，這些詞對相關性計算的重要性較低。利用IDF公式，提取了大約300個常用詞，這些詞在所有文本中的權重最低，例如的了在我是一和不有你人為要就上中好對也這到都多年天說與等大地來會著將自己以還去新我們想從很能用兩得把又經濟而下後們已並沒有但本報最進行於被啊次真時給向讓種可以起由之電更使重要心等等。在本步驟中，所述刪除分詞後的簡訊中與簡訊內容無關的字詞具體還可以包括
6根據詞性刪除分詞後的簡訊中與簡訊內容無關的字詞。不同詞性的字詞能夠表達不同的內容，具有不同的權重。名詞和動詞往往是文本表達的重點，副詞和形容詞往往僅表示名詞和動詞的屬性和狀態。這些屬性和狀態並不影響文本基本內容的表達。例如1、紅色的蘋果在桌子上。綠色的蘋果在桌子上。2、我非常愛你。我很愛你。3、我愛你。我恨你。在第1個例子裡，前後句子的內容基本一樣，因為前後句子的名詞「蘋果」相同。在第2個句子裡，前後句子也基本一樣，因為前後句子的動詞「愛」相同。在第3個例子裡，前後句子的基本內容很不一樣，因為前後句子的動詞「愛」和「恨」不相同。從自動句法分析來看，能夠成為句子中心成分的詞往往能夠影響基本內容的表達，反之，不能成為句子中心成分的詞並不會影響基本內容。從這個判斷出發，本方法對詞性的權重進行了分組
下列詞性的詞會影響基本內容名形詞簡稱略語用語人名處所詞動詞
名詞
其他專名動語素
名語素機構團體時間詞名動詞
地名時語素副動詞
下列詞性的詞不會影響基本內容(主要是虛詞) 數詞標點語氣詞嘆詞形容詞副詞介詞量詞助詞成語習用語連詞區別詞方位詞代詞狀態詞步驟D、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋。由於簡訊的長度不一，這對給簡訊存儲和查找帶來不便。為了更方便的存儲和查找簡訊，本方法將每條簡訊賦予一個唯一的編碼，即文件指紋標識，文件指紋標識的長度大大小於文本長度，且長度固定，易於存儲和計算。本步驟中採用MD5算法(Message Digest Alg0rithm5，消息摘要算法第五版)來給刪除與簡訊內容無關的字詞後的每條簡訊計算唯一的文件指紋標識。步驟E、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了預設閾值，則判定該簡訊為垃圾簡訊。在垃圾簡訊過濾過程中，通過給每條短消息計算一個唯一的文件指紋，可以快速地找到是否存在相同或相似的短消息。一般情況下，垃圾簡訊往往在同一段時間內群發，且在內容上相同或者相似。只要在一段時間內發現多條相同的指紋即可以判斷這些消息是垃圾消息。由於簡訊的規模非常大，因此存儲所有簡訊來進行簡訊比對的方案並不可行。鑑於垃圾簡訊發送的這種特點，本步驟在內存中維護一個固定大小的緩存空間作為比對窗口，所有簡訊內容均會出現在該比對窗口內；劃分一個固定大小的緩存空間作為簡訊緩衝區，保存同一時間段內出現在比對窗口的所有簡訊的文件指紋，所有輸入或存儲的簡訊在計算了文件指紋之後，都將文件指紋與緩衝區的已有文件指紋進行比對，如果發現了個數超過預設閾值時，則該消息被判定為垃圾消息。在文件指紋緩衝區中，文件指紋比對的速度對系統的影響很大。有鑑於此，本步驟採用樹形結構來表示簡訊的文件指紋緩衝區。給定一個新的文件指紋，最多只要對該文件指紋掃描一遍即可確定是否在緩衝區中出現過。以上實施方式僅用於說明本發明，而並非對本發明的限制，有關技術領域的普通技術人員，在不脫離本發明的精神和範圍的情況下，還可以做出各種變化和變型，因此所有等同的技術方案也屬於本發明的範疇，本發明的專利保護範圍應由權利要求限定。
權利要求
一種垃圾簡訊過濾方法，其特徵在於，該方法包括步驟10、刪除簡訊中與簡訊內容無關的字詞；步驟20、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋；步驟30、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了第一預設閾值，則判定該簡訊為垃圾簡訊。
2.如權利要求1所述的方法，其特徵在於，所述步驟10和步驟20之間，該方法進一步包括步驟11、對簡訊進行漢語分詞；步驟12、刪除分詞後的簡訊中與簡訊內容無關的字詞。
3.如權利要求2所述的方法，其特徵在於，所述步驟11具體包括步驟101、對簡訊進行最大匹配粗切分，如果遇到歧義，則進行步驟102 ；步驟102、對簡訊進行歧義和未登錄詞識別。
4.如權利要求2所述的方法，其特徵在於，所述步驟12具體包括刪除分詞後的簡訊中權重低於第二預設閾值的字詞。
5.如權利要求4所述的方法，其特徵在於，所述字詞的權重為字詞的逆文檔頻次IDF; 所述IDF的計算公式為
6.如權利要求2所述的方法，其特徵在於，所述步驟12具體包括根據詞性刪除分詞後的簡訊中與簡訊內容無關的字詞。
7.如權利要求1所述的方法，其特徵在於，所述步驟30具體包括在內存中維護一個固定大小的緩存空間作為比對窗口，所有簡訊均出現在該比對窗口內；劃分一個固定大小的緩存空間作為簡訊緩衝區，保存同一時間段內出現在比對窗口的所有簡訊的文件指紋；將同一時間段內的任意簡訊的文件指紋與緩衝區保存的文件指紋進行比對，如果該簡訊的文件指紋的個數超過第一預設閾值時，則判定該簡訊為垃圾消息。
8.如權利要求1-7中任一項所述的方法，其特徵在於，所述步驟10中簡訊中與簡訊內容無關的字詞包括控制字符、表形符號和不可見字符中的一個或多個。
9.如權利要求1-7中任一項所述的方法，其特徵在於，所述步驟20中計算文件指紋的方法為MD5算法。
全文摘要
本發明公開了一種垃圾簡訊過濾方法，該方法包括步驟10、刪除簡訊中與簡訊內容無關的字詞；步驟20、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋；步驟30、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了第一預設閾值，則判定該簡訊為垃圾簡訊。該方法基於文件指紋的過濾方法既考慮到了垃圾簡訊內容上的相似性，也考慮到了垃圾簡訊的傳播方式，本發明所示垃圾簡訊過濾方法的優點在於(1)垃圾簡訊識別和過濾的速度快，可以用在對實時性有較高要求的場合。(2)不會受到垃圾簡訊中非本質內容變化的影響，可以有效應對垃圾消息不斷變化的情況。
文檔編號H04W4/14GK101977360SQ20101050400
公開日2011年2月16日申請日期2010年9月30日優先權日2010年9月30日
發明者牟小峰, 陳鵬申請人:北京新媒傳信科技有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

垃圾簡訊過濾方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法