新四季網

垃圾簡訊過濾方法

2023-07-14 07:21:31

專利名稱:垃圾簡訊過濾方法
技術領域:
本發明涉及文本信息處理技術領域,特別涉及一種垃圾簡訊的過濾方法。
背景技術:
簡訊是人們經常使用的信息交流方式之一,與此同時,垃圾簡訊也開始逐步泛濫。 統計顯示,在數量龐大的簡訊中,約30%屬於垃圾簡訊。對普通用戶而言,垃圾簡訊嚴重幹 擾日常生活;對運營商而言,垃圾簡訊佔據大量流量空間,降低信息傳送效率。垃圾簡訊的主要內容包括廣告信息、色情信息、假中獎信息、欺詐信息和惡作劇 等,其中尤以色情信息和假中獎信息最為常見。現有技術中,最常見的過濾方法包括1、基於敏感詞的垃圾簡訊過濾通過在伺服器端布置敏感詞表並通過模式匹配的方法來過濾垃圾簡訊。基于敏 感詞和串匹配的方法是最通用的垃圾簡訊過濾方法,該方法往往作為其它方法的預處理步 驟。基於敏感詞和串匹配的過濾方法的最大優點在於執行效率比較高,對輸入消息掃描一 遍即可。在線系統中常常使用。該方法的最大缺陷在於(1) 「誤殺率」較高,無論是進行分詞或者不進行分詞,基於匹配的垃圾簡訊過濾都 會造成不小的「誤殺」。(2)不能靈活應對垃圾簡訊的變化。垃圾簡訊的發送者往往會不斷變化可能的敏 感詞形式,以期繞過敏感詞過濾機制。例如朱容基、朱溶劑、朱榕基、朱鎔基等。通過敏感詞列舉的方式無法窮盡所有的敏感詞形式,這種方法永遠滯後於垃圾短 信的傳播。2、基於分類模型的垃圾簡訊過濾基於分類模型的垃圾簡訊過濾方法主要是基於內容比較。通過把簡訊分割為獨立 的部分,並計算這些部分與分類之間的關係來判斷是否為垃圾短息。常見的分類一般包括 兩類正常簡訊和垃圾簡訊。一般,簡訊分割為字、詞或者短語。常見的分類模型包括樸素貝葉斯模型、向量空間模型、最大熵模型、支持向量機模 型等等。一般的分類模型都可以用來判斷是否為垃圾短息。通過引入分類模型,可以很大程度上避開敏感詞過濾的缺陷,可以從整體內容上 判斷消息是否為垃圾簡訊。儘管基於分類模型可以從內容上計算消息的可靠程度,但該方法存在自身的缺 陷(1)需要構建一定規模的訓練語料庫。主流的分類模型往往需要構建一定規模的訓練語料來得到分類用的參數,一般情 況下,訓練語料庫規模越大,分類準確率越高。為了構建一定規模的訓練語料庫,需要花費 極大的代價,而且,訓練語料庫必須不斷更新,否則難以跟上垃圾簡訊息變化的步伐。(2)垃圾簡訊過濾效率較低,不適合實時性較高的場合。
基於分類模型的過濾效率較低的原因在於計算複雜度較高。在上述諸種分類模型 中,除了貝葉斯模型外,其它模型的參數規模均比較大,而且計算複雜度比較高。在對效率 要求很高的垃圾簡訊過濾上面,基於分類模型的方法並不適合。3、基於行為模式的垃圾簡訊過濾與基於內容的垃圾過濾思路不同,基於社會網絡的垃圾簡訊過濾方法側重利用短 信發送模式和接收模式來進行簡訊過濾。垃圾簡訊的發送往往在陌生人之間進行,即發送方和接收方過去沒有在語音上建 立過聯繫,相互之間幾乎沒有通信記錄。普通用戶在接收到垃圾簡訊後,往往不會回復消息,即垃圾簡訊的接收往往不會 有回覆。通過垃圾簡訊的發送和接收方式的特點可以發現絕大多數垃圾簡訊。該方法的缺 陷表現在(1)社會網絡規模太大,建模比較困難,且存儲和計算複雜度均較大。(2)並非陌生人簡訊都是垃圾簡訊,也並非所有不回復的簡訊息都是垃圾簡訊。4、基於客戶端描述的垃圾簡訊過濾與伺服器端的簡訊過濾不同,可以預先在客戶端部署過濾模塊。在客戶端部署的 垃圾短息過濾模塊往往利用用戶的通訊簿和其它特徵來過濾垃圾消息。這種方法不僅加重 了客戶端的計算壓力,而且極容易過濾陌生人的消息。綜上所述,現有技術中的垃圾簡訊過濾方法,要麼只基於垃圾簡訊的內容進行過 濾,要麼只基於垃圾簡訊的傳播方式進行過濾,不能有效地識別並過濾垃圾簡訊。

發明內容
(一)要解決的技術問題本發明要解決的技術問題是如何提供一種垃圾簡訊過濾方法,在對垃圾簡訊進 行過濾時既考慮垃圾簡訊的內容又考慮垃圾簡訊的傳播方式,從而能夠實時高效地識別並 過濾垃圾簡訊。(二)技術方案為解決上述技術問題,本發明提供了一種垃圾簡訊過濾方法,該方法包括步驟10、刪除簡訊中與簡訊內容無關的字詞;步驟20、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋;步驟30、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了第一 預設閾值,則判定該簡訊為垃圾簡訊。優選地,所述步驟10和步驟20之間,該方法進一步包括步驟11、對簡訊進行漢語分詞;步驟12、刪除分詞後的簡訊中與簡訊內容無關的字詞。優選地,所述步驟11具體包括步驟101、對簡訊進行最大匹配粗切分,如果遇到歧義,則進行步驟102 ;步驟102、對簡訊進行歧義和未登錄詞識別。優選地,所述步驟12具體包括刪除分詞後的簡訊中權重低於第二預設閾值的字
4詞。優選地,所述字詞的權重為字詞的逆文檔頻次IDF ;所述IDF的計算公式為
NIDF(W)=——
dfiyv)其中,w為簡訊中的字詞;N為預先設定的簡訊庫的簡訊總數;df (W)為預先設定的 簡訊庫中包含w的簡訊數目。優選地,所述步驟12具體包括根據詞性刪除分詞後的簡訊中與簡訊內容無關的字詞。優選地,所述步驟30具體包括在內存中維護一個固定大小的緩存空間作為比對 窗口,所有簡訊均出現在該比對窗口內;劃分一個固定大小的緩存空間作為簡訊緩衝區,保 存同一時間段內出現在比對窗口的所有簡訊的文件指紋;將同一時間段內的任意簡訊的文 件指紋與緩衝區保存的文件指紋進行比對,如果該簡訊的文件指紋的個數超過第一預設閾 值時,則判定該簡訊為垃圾消息。優選地,所述步驟10中簡訊中與簡訊內容無關的字詞包括控制字符、表形符號 和不可見字符中的一個或多個。優選地,所述步驟20中計算文件指紋的方法為MD5算法。(三)有益效果本發明提出了一種垃圾簡訊過濾方法。該方法基於文件指紋的過濾方法既考慮到 了垃圾簡訊內容上的相似性,也考慮到了垃圾簡訊的傳播方式,基於這兩個主要特徵來識 別垃圾簡訊。在垃圾簡訊過濾過程中,通過維護一個固定大小的緩存空間作為比對窗口,所 有簡訊內容均出現在該比對窗口內。通過給每條短消息計算一個唯一的文件指紋,可以快 速地找到是否存在垃圾簡訊。本發明所示垃圾簡訊過濾方法的優點在於(1)垃圾簡訊識別和過濾的速度快,可以用在對實時性有較高要求的場合。(2)不會受到垃圾簡訊中非本質內容變化的影響,可以有效應對垃圾消息不斷變 化的情況。


圖1是本發明實施例的垃圾簡訊過濾方法的流程圖;圖2是本發明所述方法中對簡訊進行漢語分詞的方法流程圖。
具體實施例方式下面結合附圖和實施例,對本發明的具體實施方式
作進一步詳細描述。以下實施 例用於說明本發明,但不用來限制本發明的範圍。本發明的核心思想是對輸入或存儲的簡訊進行漢語分詞,並刪除與一般簡訊內 容表達無關的字詞,對保留的簡訊計算其文件指紋。如果該簡訊的文件指紋在緩存中出現 的次數超過預設閾值,則可以判斷該簡訊為垃圾簡訊,否則為正常簡訊。圖1是本發明實施例的基垃圾簡訊過濾方法的流程圖;如圖1所述,所述方法包 括步驟A、刪除簡訊中與簡訊內容無關的字詞;
5
在本步驟中,直接刪除與輸入或存儲的簡訊內容無關的字詞。所述與輸入或存儲 的簡訊內容無關的字詞包括控制字符(如回車符、換行符、制表符、全形半角空格等)、表 形符號(如·、◎、 、 、-_-、( η _ η )ο等等)、不可見字符(字符編碼中很多位置的字 符不可見,或者沒有編碼)。無論是控制字符,還是表形符號或者不可見字符,一般情況下均 與簡訊內容沒有太大聯繫,完全可以不必考慮這些字符的意義。步驟B、對簡訊進行漢語分詞。漢語分詞是指把簡訊中的詞語切分出來。漢語分詞的重要指標是分詞的準確率和 速度。在簡訊過濾的環境中,切分速度非常重要,本步驟中採用的漢語分詞工具是基於最大 匹配和字本位最大熵模型,分詞準確率達到95. 4%,切分速度達到每秒2MB,完全滿足實時 性的要求。圖2是本發明所述方法中對簡訊進行漢語分詞的方法流程圖;參見圖2,該過程 包括以下兩個步驟步驟101、對簡訊進行最大匹配粗切分,如果遇到歧義,則進行步驟102 ;在本步驟中,僅使用正向最大匹配策略分詞。為了緩解最大匹配過程中的錯誤切 分,在分詞中輔以海量分詞資源,例如歧義庫、人名詞典、地名詞典和組織機構名詞典。利用 海量分詞資源輔助最大匹配的分詞策略,既可以提高分詞準確率,又不會降低分詞速度。步驟102、對簡訊進行歧義和未登錄詞識別。在本步驟中使用了字本位的最大熵的歧義和未登錄詞識別策略,即採取回退一字 的策略,然後利用字本位的最大熵模型判斷歧義的切分方式。這在一定程度上可以彌補歧 義庫的不足。同時在切分過程中遇到姓氏的話,則根據姓氏及其上下文來判斷是否姓名或 其它未登錄詞。步驟C、刪除分詞後的簡訊中與簡訊內容無關的字詞。在本步驟中,所述刪除分詞後的簡訊中與簡訊內容無關的字詞具體包括刪除分 詞後的簡訊中權重低於預設閾值的字詞。所述字詞的權重可以根據IDF(inverse document frequency,逆文檔頻次)公式 計算得到。IDF是信息檢索和數據挖掘中常用的詞語權重計算方法,其計算字詞權重的根 據為包含字詞的簡訊越多,則其區分能力越有限,即字詞的權重越低。本步驟中用字詞的 IDF值表示字詞的權重,IDF的計算公式為
NIDF(W) = --(1)
df(w)其中w為簡訊中的字詞;N 指預先設定的簡訊庫的簡訊總數;df (W)指預先設定 的簡訊庫中包含w的簡訊數目。IDF對於領域內獨有的字詞賦予較高的權重,適合用來進行文本相關性計算,而對 於那些在所有或大部分文本中都出現的字詞,則賦予較低的權重,這些詞對相關性計算的 重要性較低。利用IDF公式,提取了大約300個常用詞,這些詞在所有文本中的權重最低,例如 的了在我是一和不有你人為要就上中好對也這到都多年天說與等大地來會著將自己以還 去新我們想從很能用兩得把又經濟而下後們已並沒有但本報最進行於被啊次真時給向讓 種可以起由之電更使重要心等等。在本步驟中,所述刪除分詞後的簡訊中與簡訊內容無關的字詞具體還可以包括
6根據詞性刪除分詞後的簡訊中與簡訊內容無關的字詞。不同詞性的字詞能夠表達不同的內容,具有不同的權重。名詞和動詞往往是文本 表達的重點,副詞和形容詞往往僅表示名詞和動詞的屬性和狀態。這些屬性和狀態並不影 響文本基本內容的表達。例如1、紅色的蘋果在桌子上。綠色的蘋果在桌子上。2、我非常愛你。我很愛你。3、我愛你。我恨你。在第1個例子裡,前後句子的內容基本一樣,因為前後句子的名詞「蘋果」相同。在 第2個句子裡,前後句子也基本一樣,因為前後句子的動詞「愛」相同。在第3個例子裡,前 後句子的基本內容很不一樣,因為前後句子的動詞「愛」和「恨」不相同。從自動句法分析來看,能夠成為句子中心成分的詞往往能夠影響基本內容的表 達,反之,不能成為句子中心成分的詞並不會影響基本內容。從這個判斷出發,本方法對詞 性的權重進行了分組
下列詞性的詞會影響基本內容 名形詞 簡稱略語 用語 人名 處所詞 動詞
名詞
其他專名 動語素
名語素 機構團體 時間詞 名動詞
地名 時語素 副動詞
下列詞性的詞不會影響基本內容(主要是虛詞) 數詞 標點 語氣詞 嘆詞 形容詞 副詞 介詞 量詞 助詞 成語 習用語 連詞 區別詞 方位詞 代詞 狀態詞 步驟D、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋。 由於簡訊的長度不一,這對給簡訊存儲和查找帶來不便。為了更方便的存儲和查 找簡訊,本方法將每條簡訊賦予一個唯一的編碼,即文件指紋標識,文件指紋標識的長度大 大小於文本長度,且長度固定,易於存儲和計算。本步驟中採用MD5算法(Message Digest Alg0rithm5,消息摘要算法第五版)來給刪除與簡訊內容無關的字詞後的每條簡訊計算唯 一的文件指紋標識。步驟E、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了預設 閾值,則判定該簡訊為垃圾簡訊。在垃圾簡訊過濾過程中,通過給每條短消息計算一個唯一的文件指紋,可以快速 地找到是否存在相同或相似的短消息。一般情況下,垃圾簡訊往往在同一段時間內群發,且 在內容上相同或者相似。只要在一段時間內發現多條相同的指紋即可以判斷這些消息是垃 圾消息。由於簡訊的規模非常大,因此存儲所有簡訊來進行簡訊比對的方案並不可行。鑑 於垃圾簡訊發送的這種特點,本步驟在內存中維護一個固定大小的緩存空間作為比對窗 口,所有簡訊內容均會出現在該比對窗口內;劃分一個固定大小的緩存空間作為簡訊緩衝 區,保存同一時間段內出現在比對窗口的所有簡訊的文件指紋,所有輸入或存儲的簡訊在計算了文件指紋之後,都將文件指紋與緩衝區的已有文件指紋進行比對,如果發現了個數 超過預設閾值時,則該消息被判定為垃圾消息。在文件指紋緩衝區中,文件指紋比對的速度對系統的影響很大。有鑑於此,本步驟 採用樹形結構來表示簡訊的文件指紋緩衝區。給定一個新的文件指紋,最多只要對該文件 指紋掃描一遍即可確定是否在緩衝區中出現過。以上實施方式僅用於說明本發明,而並非對本發明的限制,有關技術領域的普通 技術人員,在不脫離本發明的精神和範圍的情況下,還可以做出各種變化和變型,因此所有 等同的技術方案也屬於本發明的範疇,本發明的專利保護範圍應由權利要求限定。
權利要求
一種垃圾簡訊過濾方法,其特徵在於,該方法包括步驟10、刪除簡訊中與簡訊內容無關的字詞;步驟20、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋;步驟30、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了第一預設閾值,則判定該簡訊為垃圾簡訊。
2.如權利要求1所述的方法,其特徵在於,所述步驟10和步驟20之間,該方法進一步 包括步驟11、對簡訊進行漢語分詞;步驟12、刪除分詞後的簡訊中與簡訊內容無關的字詞。
3.如權利要求2所述的方法,其特徵在於,所述步驟11具體包括步驟101、對簡訊進行最大匹配粗切分,如果遇到歧義,則進行步驟102 ;步驟102、對簡訊進行歧義和未登錄詞識別。
4.如權利要求2所述的方法,其特徵在於,所述步驟12具體包括刪除分詞後的簡訊 中權重低於第二預設閾值的字詞。
5.如權利要求4所述的方法,其特徵在於,所述字詞的權重為字詞的逆文檔頻次IDF; 所述IDF的計算公式為
6.如權利要求2所述的方法,其特徵在於,所述步驟12具體包括根據詞性刪除分詞 後的簡訊中與簡訊內容無關的字詞。
7.如權利要求1所述的方法,其特徵在於,所述步驟30具體包括在內存中維護一個 固定大小的緩存空間作為比對窗口,所有簡訊均出現在該比對窗口內;劃分一個固定大小 的緩存空間作為簡訊緩衝區,保存同一時間段內出現在比對窗口的所有簡訊的文件指紋; 將同一時間段內的任意簡訊的文件指紋與緩衝區保存的文件指紋進行比對,如果該簡訊的 文件指紋的個數超過第一預設閾值時,則判定該簡訊為垃圾消息。
8.如權利要求1-7中任一項所述的方法,其特徵在於,所述步驟10中簡訊中與簡訊內 容無關的字詞包括控制字符、表形符號和不可見字符中的一個或多個。
9.如權利要求1-7中任一項所述的方法,其特徵在於,所述步驟20中計算文件指紋的 方法為MD5算法。
全文摘要
本發明公開了一種垃圾簡訊過濾方法,該方法包括步驟10、刪除簡訊中與簡訊內容無關的字詞;步驟20、計算刪除與簡訊內容無關的字詞後的簡訊的文件指紋;步驟30、如果刪除與簡訊內容無關的字詞後的簡訊的文件指紋的個數超過了第一預設閾值,則判定該簡訊為垃圾簡訊。該方法基於文件指紋的過濾方法既考慮到了垃圾簡訊內容上的相似性,也考慮到了垃圾簡訊的傳播方式,本發明所示垃圾簡訊過濾方法的優點在於(1)垃圾簡訊識別和過濾的速度快,可以用在對實時性有較高要求的場合。(2)不會受到垃圾簡訊中非本質內容變化的影響,可以有效應對垃圾消息不斷變化的情況。
文檔編號H04W4/14GK101977360SQ20101050400
公開日2011年2月16日 申請日期2010年9月30日 優先權日2010年9月30日
發明者牟小峰, 陳鵬 申請人:北京新媒傳信科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀