新四季網

一種分布式垃圾簡訊識別方法與流程

2023-12-03 19:54:32


本發明涉及一種分布式垃圾簡訊識別方法,屬於智能簡訊識別技術領域。



背景技術:

隨著資訊時代通信服務業的高速發展,垃圾簡訊已日益成為困擾運營商和手機用戶的難題,不僅侵害了電信客戶的合法權益,破壞了和諧的電信消費環境,而且嚴重影響到人們正常生活、侵害到運營商的社會形象以及危害著社會穩定,垃圾簡訊的存在給用戶與運營商均帶來了不少的煩惱,因此,研究垃圾簡訊的識別與處理具有重要意義。

目前垃圾簡訊的識別過濾主要有以下幾種技術:黑白名單識別技術、發送頻率限制識別技術、關鍵詞匹配識別技術、基於機器學習識別垃圾簡訊技術等。這些常用的垃圾簡訊識別技術均存在各自的局限性,比如黑白名單技術僅對已知的號碼有效,發送頻率限制識別技術的發送頻率規則易被相對應的方法所規避,關鍵字匹配識別技術對關鍵字的選取難以界定而易導致誤判,基於機器學習識別垃圾簡訊技術相對較複雜從而影響識別的效率。上述垃圾簡訊識別的研究成果的局限性較大地影響了垃圾簡訊的識別準確率和效率。垃圾簡訊識別技術已成為學術界和產業界的研究熱點,同時隨著如今信息化大數據的發展,需要識別處理的信息數據越來越多,傳統的識別方法已跟不上數據時代的步伐,因此需要一個高效的識別垃圾簡訊的方法,同時具有網絡化分布式計算與存儲大量信息數據的方法來應對垃圾簡訊識別和處理問題。



技術實現要素:

本發明所要解決的技術問題是提供一種針對常規垃圾簡訊識別方法的低準確率的特點,具有高準確率、快速識別、智能反饋等特點的分布式垃圾簡訊識別方法。

本發明為了解決上述技術問題採用以下技術方案:本發明設計了一種分布式垃圾簡訊識別方法,將待識別簡訊數據集合拆分成各個待識別簡訊子任務,各個待識別簡訊子任務分別包括至少一條待識別簡訊,各個待識別簡訊子任務分別發送至分布式系統中的各個節點進行處理,各個節點分別按如下步驟,根據預設檢測器庫中各個檢測器內的各個垃圾簡訊關鍵詞,針對所接收到的待識別簡訊子任務進行垃圾簡訊識別;

步驟000.根據預設垃圾關鍵詞庫,初始化檢測器庫中的各個檢測器,然後進入步驟001;

步驟001.由待識別簡訊子任務隊列中提取一條未處理的待識別簡訊,作為當前識別簡訊,獲取當前識別簡訊中的各個關鍵詞Gene1,Gene2,Gene3…Genei,進入步驟002;步驟002.將當前識別簡訊中的各個關鍵詞Gene1,Gene2,Gene3…Genei通過HashMap,獲得所有包含有這些關鍵詞的檢測器Index的索引值的集合,進入步驟003;

步驟003.將得到的索引值集合通過m個HashSet,判斷是否存在親和力大於或等於預設匹配率閾值brake的檢測器Index,是則判定當前識別簡訊為垃圾簡訊,將其加入垃圾簡訊庫,並由AVL樹中提取出利用該檢測器Index,進入步驟004;否則說明檢測器庫中不存在能與當前識別簡訊匹配率達到預設匹配率閾值brake的檢測器,則判定當前識別簡訊為正常簡訊,將其加入至正常簡訊庫,進入步驟009;其中,m=Testlength*brake;

步驟004.由被判斷為垃圾簡訊的當前識別簡訊中的各個關鍵詞,構建若干新檢測器,接著判斷正常簡訊庫中正常簡訊的條數是否大於或等於預設正常簡訊庫比對條數閾值,是則進入步驟005;否則將各個新檢測器加入到檢測器庫中,並進入步驟009;

步驟005.由正常簡訊庫隊列中提取一條未參與針對各個新檢測器自檢的正常簡訊,分別針對各個新檢測器,將該正常簡訊中各個關鍵詞與新檢測器中各個垃圾簡訊關鍵詞進行匹配,獲得彼此匹配相同關鍵詞的數量Count,並獲得新檢測器中垃圾簡訊關鍵詞的數量N,再根據Count與N的比值,獲得新檢測器針對該正常簡訊的垃圾匹配率,進而分別獲得各個新檢測器針對該正常簡訊的垃圾匹配率,然後進入步驟006;

步驟006.分別針對各個新檢測器,判斷新檢測器針對該正常簡訊的垃圾匹配率是否大於或等於預設垃圾匹配率閾值,是則說明新檢測器把正常簡訊判斷為垃圾簡訊,即新檢測器為不合格檢測器,刪除該不合格的新檢測器,否則不做進一步操作,然後進入步驟007;

步驟007.判斷是否存在新檢測器,是則進入步驟008;否則進入步驟009;

步驟008.判斷正常簡訊庫中是否存在未參與針對該各個新檢測器自檢的正常簡訊,是則返回步驟005;否則判斷新檢測器為合格檢測器,將合格檢測器加入到檢測器庫中,並進入步驟009;

步驟009.判斷待識別簡訊子任務中是否存在未處理的待識別簡訊,是則返回步驟001;否則針對該待識別簡訊子任務垃圾簡訊識別方法結束。

作為本發明的一種優選技術方案:所述步驟000具體包括:根據預設垃圾關鍵詞庫,初始化檢測器庫中的各個檢測器,其中,使用AVL樹的數據結構將檢測器裝入內存,並利用HashMap存儲每個基因所在檢測器Index的集合,其中key為Gene,value為所有含有該Gene的檢測器Index的鍊表集合,然後進入步驟001。

作為本發明的一種優選技術方案:還包括針對所述檢測器庫中原有各個檢測器,以及新加入的各個檢測器,均定義生命周期時長屬性,並初始化生命周期時長檢測值;所述各個節點分別按所述步驟001至步驟009,針對所接收到待識別簡訊子任務執行垃圾簡訊識別的同時,進行計時,並分別針對檢測器庫中的各個檢測器,判斷在生命周期時長檢測值結束時,檢測器是否檢測出垃圾簡訊,是則將該檢測器的生命周期時長設置為永久,否則將該檢測器刪除。

作為本發明的一種優選技術方案:所述各個節點分別按所述步驟001至步驟009,針對所接收到待識別簡訊子任務執行垃圾簡訊識別的同時,還包括按預設第一時長周期間隔,分別針對生命周期時長為永久的各個檢測器,針對檢測器中未與簡訊關鍵詞成功匹配過的關鍵詞,由預設垃圾關鍵詞庫中隨機選擇垃圾關鍵詞進行替換。

作為本發明的一種優選技術方案:所述各個節點分別按所述步驟001至步驟009,針對所接收到待識別簡訊子任務執行垃圾簡訊識別的同時,還包括按預設第二時長周期間隔,針對所述檢測器庫中的檢測器進行如下步驟操作:

步驟a01.分別獲得檢測器庫中各個檢測器的垃圾簡訊成功匹配率,按垃圾簡訊成功匹配率由高至低順序,選擇預設檢測器總數百分比數量的檢測器,作為各個高成功匹配率檢測器,並獲得高成功匹配率檢測器的個數M,然後進入步驟a02;

步驟a02.分別針對各個高成功匹配率檢測器,獲得高成功匹配率檢測器的垃圾簡訊成功匹配率與M的乘積,作為該高成功匹配率檢測器的複製數量,由此分別獲得各個高成功匹配率檢測器的複製數量,並獲得所有高成功匹配率檢測器的複製總數K,然後進入步驟a03;

步驟a03.分別按各個高成功匹配率檢測器的複製數量,針對各個高成功匹配率檢測器分別進行複製,並提取所有複製檢測器中的關鍵詞,構成複製關鍵詞集合,然後進入步驟a04;

步驟a04.將複製關鍵詞集合中的所有關鍵詞隨機分配為K組,構成K個重組檢測器,並進入步驟a05;

步驟a05.判斷正常簡訊庫中正常簡訊的條數是否大於或等於預設正常簡訊庫比對條數閾值,是則進入步驟a06;否則將該K個重組檢測器加入到檢測器庫中;

步驟a06.按所述步驟005至步驟008的方法,分別針對該K個重組檢測器進行自檢,刪除不合格重組檢測器,並將合格重組檢測器加入到檢測器庫中。

作為本發明的一種優選技術方案:所述步驟a06中,分別針對該K個重組檢測器,分別執行如下步驟進行重組檢測器自檢;

步驟b01.由正常簡訊庫中隨機提取一條未參與針對該重組檢測器自檢的正常簡訊,按所述步驟005的方法,獲得該重組檢測器針對該正常簡訊的垃圾匹配率,並判斷該垃圾匹配率是否大於或等於預設垃圾匹配率閾值,是則判斷該重組檢測器為不合格檢測器,刪除該不合格檢測器;否則進入步驟b02;

步驟b02.判斷是否還存在重組檢測器,以及正常簡訊庫中是否存在未參與針對該重組檢測器自檢的正常簡訊,是則返回步驟b01;否則判斷該重組檢測器為合格檢測器,將該合格檢測器加入到檢測器庫中。

本發明所述一種分布式垃圾簡訊識別方法採用以上技術方案與現有技術相比,具有以下技術效果:本發明設計的分布式垃圾簡訊識別方法,提出具有智能計算、學習、並行式、記憶性、動態性等特點垃圾簡訊識別方法,極大提高了垃圾簡訊的識別準確率;其中,引入分布式節點,實現對海量垃圾簡訊進行分布式計算和快速識別;通過反饋環節,實現智能識別,並且具有廣泛的推廣性,諸如推廣到垃圾郵件識別攔截,同時也可以推廣到人人網、QQ空間、朋友圈、微博等,對廣告或其他垃圾信息進行識別並屏蔽,具有廣泛的應用範疇。

附圖說明

圖1是本發明所設計分布式垃圾簡訊識別方法的流程圖;

圖2是檢測器在AVL樹分布示意圖;

圖3是關鍵詞Gene與Index之間的查找示意圖;

具體實施方式

下面結合說明書附圖對本發明的具體實施方式作進一步詳細的說明。

本發明為了解決上述問題採用以下技術方案:基於文本識別和垃圾簡訊的特徵,本發明首先提出具有智能計算、深度學習、分布式識別等特點的垃圾簡訊識別方法,利用該方法可以實現較高的垃圾簡訊識別準確率;同時部署分布式平臺,把海量的待測簡訊數據的識別處理任務利用分塊方法拆分成多個垃圾簡訊識別子任務,並把這些子任務發送到分布式模式的若干個節點上去計算識別,每個計算識別的節點均採用本發明提出的垃圾簡訊方法,然後對每一個子任務的識別結果進行匯總,實現分布式處理識別垃圾簡訊;同時本發明做出了一個基於智能計算、深度學習的垃圾簡訊識別方法和分布式模型之上的多功能可視化系統,對垃圾簡訊識別的輸入數據及輸出結果進行顯示,並可以對簡訊進行反饋等智能化相關性操作。

如圖1所示,本發明設計了一種分布式垃圾簡訊識別方法,實際應用過程當中,將待識別簡訊數據集合拆分成各個待識別簡訊子任務,各個待識別簡訊子任務分別包括至少一條待識別簡訊,各個待識別簡訊子任務分別發送至分布式系統中的各個節點進行處理,各個節點分別具體按如下步驟,根據預設檢測器庫中各個檢測器內的各個垃圾簡訊關鍵詞,針對所接收到的待識別簡訊子任務進行垃圾簡訊識別;

步驟000.根據預設垃圾關鍵詞庫,初始化檢測器庫中的各個檢測器,然後進入步驟001;具體具體包括:根據預設垃圾關鍵詞庫,初始化檢測器庫中的各個檢測器,其中,使用AVL樹的數據結構將檢測器裝入內存,AVL示意圖如圖2所示,並利用HashMap存儲每個基因所在檢測器Index的集合,其中key為Gene,value為所有含有該Gene的檢測器Index的鍊表集合,關鍵詞Gene與Index之間的查找示意圖,如圖3所示,然後進入步驟001。

步驟001.由待識別簡訊子任務隊列中提取一條未處理的待識別簡訊,作為當前識別簡訊,利用開源IK-Analyzer-2012FF分詞器針對當前識別簡訊進行分詞,獲取當前識別簡訊中的各個關鍵詞Gene1,Gene2,Gene3…Genei,進入步驟002。步驟002.將當前識別簡訊中的各個關鍵詞Gene1,Gene2,Gene3…Genei通過HashMap,獲得所有包含有這些關鍵詞的檢測器Index的索引值的集合,進入步驟003。

步驟003.將得到的索引值集合通過m個HashSet,判斷是否存在親和力大於或等於預設匹配率閾值brake的檢測器Index,是則判定當前識別簡訊為垃圾簡訊,將其加入垃圾簡訊庫,並由AVL樹中提取出利用該檢測器Index,進入步驟004;否則說明檢測器庫中不存在能與當前識別簡訊匹配率達到預設匹配率閾值brake的檢測器,則判定當前識別簡訊為正常簡訊,將其加入至正常簡訊庫,進入步驟009;其中,m=Testlength*brake。

步驟004.由被判斷為垃圾簡訊的當前識別簡訊中的各個關鍵詞,構建若干新檢測器,接著判斷正常簡訊庫中正常簡訊的條數是否大於或等於預設正常簡訊庫比對條數閾值,是則進入步驟005;否則將各個新檢測器加入到檢測器庫中,並進入步驟009。

步驟005.由正常簡訊庫隊列中提取一條未參與針對各個新檢測器自檢的正常簡訊,分別針對各個新檢測器,將該正常簡訊中各個關鍵詞與新檢測器中各個垃圾簡訊關鍵詞進行匹配,獲得彼此匹配相同關鍵詞的數量Count,並獲得新檢測器中垃圾簡訊關鍵詞的數量N,再根據Count與N的比值,獲得新檢測器針對該正常簡訊的垃圾匹配率,進而分別獲得各個新檢測器針對該正常簡訊的垃圾匹配率,然後進入步驟006。

步驟006.分別針對各個新檢測器,判斷新檢測器針對該正常簡訊的垃圾匹配率是否大於或等於預設垃圾匹配率閾值,是則說明新檢測器把正常簡訊判斷為垃圾簡訊,即新檢測器為不合格檢測器,刪除該不合格的新檢測器,否則不做進一步操作,然後進入步驟007。

步驟007.判斷是否存在新檢測器,是則進入步驟008;否則進入步驟009。

步驟008.判斷正常簡訊庫中是否存在未參與針對該各個新檢測器自檢的正常簡訊,是則返回步驟005;否則判斷新檢測器為合格檢測器,將合格檢測器加入到檢測器庫中,並進入步驟009。

步驟009.判斷待識別簡訊子任務中是否存在未處理的待識別簡訊,是則返回步驟001;否則針對該待識別簡訊子任務垃圾簡訊識別方法結束。

上述實際應用的同時,還包括針對所述檢測器庫中原有各個檢測器,以及新加入的各個檢測器,均定義生命周期時長屬性,並初始化生命周期時長檢測值;所述各個節點分別按所述步驟001至步驟009,針對所接收到待識別簡訊子任務執行垃圾簡訊識別的同時,進行計時,並分別針對檢測器庫中的各個檢測器,判斷在生命周期時長檢測值結束時,檢測器是否檢測出垃圾簡訊,是則將該檢測器的生命周期時長設置為永久,否則將該檢測器刪除。並且各個節點分別按所述步驟001至步驟009,針對所接收到待識別簡訊子任務執行垃圾簡訊識別的同時,還包括按預設第一時長周期間隔,分別針對生命周期時長為永久的各個檢測器,針對檢測器中未與簡訊關鍵詞成功匹配過的關鍵詞,由預設垃圾關鍵詞庫中隨機選擇垃圾關鍵詞進行替換。與此同時,各個節點分別按所述步驟001至步驟009,針對所接收到待識別簡訊子任務執行垃圾簡訊識別的同時,還包括按預設第二時長周期間隔,針對所述檢測器庫中的檢測器進行如下步驟操作:

步驟a01.分別獲得檢測器庫中各個檢測器的垃圾簡訊成功匹配率,按垃圾簡訊成功匹配率由高至低順序,選擇預設檢測器總數百分比數量的檢測器,作為各個高成功匹配率檢測器,並獲得高成功匹配率檢測器的個數M,然後進入步驟a02。

步驟a02.分別針對各個高成功匹配率檢測器,獲得高成功匹配率檢測器的垃圾簡訊成功匹配率與M的乘積,作為該高成功匹配率檢測器的複製數量,由此分別獲得各個高成功匹配率檢測器的複製數量,並獲得所有高成功匹配率檢測器的複製總數K,然後進入步驟a03。

步驟a03.分別按各個高成功匹配率檢測器的複製數量,針對各個高成功匹配率檢測器分別進行複製,並提取所有複製檢測器中的關鍵詞,構成複製關鍵詞集合,然後進入步驟a04。

步驟a04.將複製關鍵詞集合中的所有關鍵詞隨機分配為K組,構成K個重組檢測器,並進入步驟a05。

步驟a05.判斷正常簡訊庫中正常簡訊的條數是否大於或等於預設正常簡訊庫比對條數閾值,是則進入步驟a06;否則將該K個重組檢測器加入到檢測器庫中。

步驟a06.按所述步驟005至步驟008的方法,分別針對該K個重組檢測器進行自檢,刪除不合格重組檢測器,並將合格重組檢測器加入到檢測器庫中。

上述步驟a06中,分別針對該K個重組檢測器,分別執行如下步驟進行重組檢測器自檢;

步驟b01.由正常簡訊庫中隨機提取一條未參與針對該重組檢測器自檢的正常簡訊,按所述步驟005的方法,獲得該重組檢測器針對該正常簡訊的垃圾匹配率,並判斷該垃圾匹配率是否大於或等於預設垃圾匹配率閾值,是則判斷該重組檢測器為不合格檢測器,刪除該不合格檢測器;否則進入步驟b02。

步驟b02.判斷是否還存在重組檢測器,以及正常簡訊庫中是否存在未參與針對該重組檢測器自檢的正常簡訊,是則返回步驟b01;否則判斷該重組檢測器為合格檢測器,將該合格檢測器加入到檢測器庫中。

上述設計分布式垃圾簡訊識別方法在實際應用中,在垃圾簡訊識別算法層和分布式服務層之上,還引入可視化軟體層,我們用JavaSwing實現系統的可視化界面,其中包括如下一些功能:

(1)可視化顯示信息:顯示識別出的垃圾短息的文本內容和正常簡訊的文本內容和識別正常簡訊和垃圾簡訊統計的數目,以及顯示檢測器及其每個關鍵詞的匹配情況;

(2)基本功能按鍵:開始檢測、停止檢測、統計檢測簡訊相關數目;

(3)智能功能按鍵:加入正常簡訊、加入垃圾簡訊。基於算法層的反饋環節和垃圾簡訊的兩層定義,本發明把正常的簡訊添加到垃圾簡訊庫,也可以把垃圾簡訊添加到正常簡訊中,實現智能化、人性化垃圾簡訊的識別。

上述技術方案所設計分布式垃圾簡訊識別方法,實際應用中,提出具有智能計算、學習、並行式、記憶性、動態性等特點垃圾簡訊識別方法,極大提高了垃圾簡訊的識別準確率;其中,引入分布式節點,實現對海量垃圾簡訊進行分布式計算和快速識別;通過反饋環節,實現智能識別,並且具有廣泛的推廣性,諸如推廣到垃圾郵件識別攔截,同時也可以推廣到人人網、QQ空間、朋友圈、微博等,對廣告或其他垃圾信息進行識別並屏蔽,具有廣泛的應用範疇。

上面結合附圖對本發明的實施方式作了詳細說明,但是本發明並不限於上述實施方式,在本領域普通技術人員所具備的知識範圍內,還可以在不脫離本發明宗旨的前提下做出各種變化。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀