一種自反饋垃圾信息過濾方法
2023-10-22 06:55:27 1
專利名稱:一種自反饋垃圾信息過濾方法
技術領域:
本發明涉及網絡信息處理技術領域,具體來講,涉及一種自反饋垃圾信息過濾方法。
背景技術:
垃圾信息的通常定義為未經請求和允許而收到的、對接收者來說無用的信息。垃圾信息的內容主要包括廣告信息、色情信息、假中獎信息、欺詐信息、惡作劇等。垃圾信息的泛濫不僅影響了人們的正常生活,也給正在蓬勃發展的網絡和移動行業帶來了很大的負面影響,甚至成了一大社會公害。因此,研製垃圾信息過濾系統具有重要的經濟價值和社會效益。
在手機簡訊、郵件以及web網頁中,垃圾信息過濾技術已經得到廣泛的應用。目前的垃圾信息的實時過濾方案中主要採用靜態方式,即系統運行過程中主要依賴手動設置的關鍵詞或者黑名單等,在系統初始化時加載過濾器來進行信息過濾。這樣的靜態方式必須經過人工手動的調整參數和知識庫來達到優化系統的目的,浪費了大量的人力及物力,同時靜態方式也沒有充分利用系統運行過程中得到的有價值信息,主要為過濾到的垃圾信息。另外,目前存在的方案中多採用單一方式進行信息過濾,在實時系統中,快速過濾方法如黑名單等可以滿足速度要求,但是過濾效果一般不夠高,而效率較好的內容過濾如分類等卻有致命的速度弱點。
發明內容
本發明的目的在於克服上述現有技術的不足,提供一種較高過濾效果、過濾速度較快的自反饋垃圾信息過濾方法。
為實現上述目的,本發明的自反饋垃圾信息過濾方法,包括以下步驟 (1)、建立信息過濾規則庫,各種信息過濾規則存入其中; (2)、信息過濾器從過濾規則庫中得到過濾規則,對信息流進行過濾,並將過濾結果存入信息日誌庫中; (3)、構建日誌分析模塊,從信息日誌庫中讀取垃圾信息,分析後更新信息過濾規則庫中的過濾規則。
本發明通過構建日誌分析模塊,能在人為操作儘可能少的情況下,根據過濾到的垃圾信息自我分析、自我決策、自我優化實行信息過濾規則的自反饋更新,大大提高了信息過濾速度和準確率,克服了傳統海量信息過濾中人工參與度高,工作量大,速度和準確率與人的操作高度相關的缺點,實現了信息過濾自動化。
圖1是本發明自反饋垃圾信息過濾方法一種具體實施方式
的流程圖。
具體實施例方式 下面對本發明的具體實施方式
進行描述,需要特別提醒注意的是,在以下的描述中,當採用已知功能和設計的詳細描述也許會淡化本發明的主要內容時,這些描述在這兒將被忽略。
圖1是本發明自反饋垃圾信息過濾方法一種具體實施方式
的流程圖。
在本實施例中,以在簡訊中心對手機短消息進行過濾和自我優化為例對發明進行詳細說明,信息過濾器為簡訊過濾器,包括流量過濾器、黑白名單過濾器、抽樣過濾器、關鍵詞過濾器以及分類過濾器;信息過濾規則庫為簡訊過濾規則庫,包括流量策略庫D31、黑白名單庫D32、用戶信息庫D33、關鍵詞庫D34、分類器庫D35;信息日誌庫為簡訊日誌庫R 簡訊過濾器,採用以下步驟對簡訊進行過濾 步驟S11、接收簡訊中心的簡訊,讀取簡訊過濾規則庫中的流量策略庫D31,並根據流量策略進行流量過濾,選中的簡訊作為可疑簡訊,進行黑白名單過濾,否則直接發送。
流量策略庫D31存儲流量監控策略,該策略結構至少包括簡訊中轉基站標識、基站段內消息數量、策略時間段、過濾比例等信息,如下表1所示 表1 首先從流量策略庫D31讀取流量策略,並初始化過濾規則。然後接收簡訊中心的簡訊流,該簡訊至少包含基站標識、發送/接收方ID、發送時間、簡訊內容等信息。流量過濾模塊根據如下方法對該簡訊流進行分時、分地過濾 所謂分時,即根據同一基站在不同時間段內可能轉發垃圾簡訊的比率不同而確定不同的簡訊過濾流量,例如對於某基站A,在一個周期,假設一天時間內,根據其轉發垃圾簡訊佔所有簡訊比率的不同而分為n(n>0)個監控區間d,針對每一個監控區間,設定相關的監控比率r,則流量監控分時策略為 Md={(d0,r0),(d1,r1),...,(dn-1,rn-1)} 其中di=[t1,t2),且(t1<t2),ti(i=1,2)為某一具體時間點,表示一個監控時間段,r1∈
表示該時間段內的監控比率。則在一個監控區間內,分時過濾方法為若基站A在監控時間段di=[t1,t2)(例如內的例如12:00-14:00)內轉發垃圾簡訊的比率超過一定閾值δ(例如30%),而其他時間段轉發垃圾簡訊的比例較少,則針對較高的時間段進行大概率(例如ri=0.3)抽樣。
所謂分地,即根據不同基站轉發垃圾簡訊的比率不同而設定不同的簡訊過濾流量,例如對於不同的基站Si,垃圾簡訊的分地監控策略為 MS={(s0,p0),(s1,p1),...,(sn,pn),...} 其中,pi=
為基站Si所對應的監控比率。則針對不同的基站,分地過濾方法為若基站S1和基站S2,通過S1基站的垃圾簡訊的比率一直低於某一閾值α(例如1%),而通過S2基站的垃圾簡訊的比率一直高於某一閾值β(例如50%),則針對S1基站進行小概率(例如pi=0.1)抽樣,而針對S2基站採用大概率(例如pi=0.6)抽樣。
綜上所述任一基站Sk在任一時間段dj的流量監控比率為 根據需要,可以設置監控時間段,例如時間段可以為十分鐘,一天或者一周,則對應的時間周期則為一天,一月或者一年。該時間周期結束時,將重新開始循環過濾。
步驟S12、接收流量過濾選中的可疑簡訊,讀取簡訊過濾規則庫中的黑白名單庫D32,進行黑白名單過濾,正常簡訊則直接發送,攔截垃圾簡訊並生成垃圾簡訊日誌後存入信息日誌庫R,可疑簡訊則進行抽樣過濾。
黑白名單庫D32存儲黑、白名單及灰度值,該黑白名單結構至少包括用戶標識ID、灰度值等信息,如下表2所示 表2 步驟S13、接收黑白名單過濾後的可疑簡訊,讀取簡訊過濾規則庫中的用戶信息庫D33,根據用戶信任度進行抽樣過濾,正常簡訊則直接發送,攔截垃圾簡訊並生成垃圾簡訊日誌後存入簡訊過濾規則庫中的信息日誌庫R,可疑簡訊則進行關鍵詞過濾。
用戶信息庫D33存儲用戶抽樣屬性,該用戶信息結構至少包括用戶標識ID、消息發送總數、正常消息總數、用戶信任度、連續抽樣標識、連續抽樣正常簡訊數等信息,如下表3所示 表3 用戶信任度抽樣是指根據用戶的信任度對用戶所發送的簡訊進行相應頻率(強度)的抽樣過濾。用戶信任度是指對用戶發送正常簡訊的信任程度,可以依據用戶垃圾簡訊的發送量、正常簡訊的發送量和總的簡訊發送量計算而成。如果不同用戶的垃圾簡訊發送量、正常簡訊發送量和總的簡訊發送量不同,那麼信任度就不同。因此,對這些用戶抽樣監測的頻率(強度)也就不一樣。一般地講,用戶信任度越低,用戶發送垃圾簡訊的可能性越大,被抽樣的頻率強度越高;用戶信任度越高,用戶發送垃圾簡訊的可能性越小,被抽樣的頻率強度越低。被抽樣到的簡訊作為可疑簡訊,到下一步進行基於簡訊長度的過濾;未被抽樣到的簡訊作為正常簡訊,並予以發送。
步驟S14、接收抽樣過濾後的可疑簡訊,讀取簡訊過濾規則庫中的關鍵詞庫D34,進行關鍵詞匹配過濾,正常簡訊則直接發送,攔截垃圾簡訊並生成垃圾簡訊日誌後存入簡訊過濾規則庫中的信息日誌庫R,可疑簡訊則進行分類過濾。
關鍵詞庫D34存儲垃圾關鍵詞,該關鍵詞庫結構至少包括關鍵詞值、關鍵詞類別、詞權重等信息,如下表4所示 表4 關鍵詞過濾的功能是判斷一條簡訊中是否存在或者存在多少於存儲在系統中的敏感詞表相對應的敏感詞彙,並把這些詞彙的權值累加得到一個最終值,並依次判斷該條簡訊是否為垃圾簡訊。
當一些敏感詞彙單獨在簡訊中出現時,並不能說明此簡訊就是垃圾簡訊,但當它與一些其他詞彙共同出現時,該簡訊為垃圾簡訊的機率將大大增加。因此可以考慮對敏感詞組合進行過濾的方法,方法是額外維護一個詞彙組合表KEYWORDS,在表裡每一項存放該項包含的詞彙數量n,當前已經匹配成功的詞彙計數count,還有該組合對應的權值等用於計算的信息,並在索引樹的每個節點結構裡增加一個該詞所屬的關鍵詞組編號。匹配過程如下 1.根據當前這個詞所屬的關鍵詞組編號X,把KEYWORDS[X].count加一,並判斷這時該值是否等於KEYWORDS[X].n,如果是,那麼這個詞組就算匹配成功了,然後可以取出該詞組對應的權值作相應計算。
2.每條簡訊的匹配過程中記錄下該條簡訊所有匹配成功的關鍵詞所屬的詞組編號,在對一條簡訊匹配結束時,把它們的計數值count全部清零,以便下一條簡訊使用。
步驟S15、接收關鍵詞過濾後的可疑簡訊,讀取簡訊過濾規則庫中的分類器庫D35,進行內容分類過濾,正常簡訊則直接發送,攔截垃圾簡訊並生成垃圾簡訊日誌後存入簡訊過濾規則庫中的信息日誌庫R。
分類器庫D35存數分類器,該分類器庫結構至少包括分類器類別、分類器識別號、分類器指針等信息,用來存儲不同分類方法所生成的不同的分類器,如下表5所示 表5 在本實施例中,信息日誌庫R存儲垃圾簡訊攔截記錄,該信息日誌庫結構至少包括簡訊發送方ID、接收方ID、發送日期、時間、簡訊內容、基站標識、垃圾權值等信息,如下表6所示 表6 日誌分析包括以下步驟 步驟S21、讀取簡訊日誌庫R,將垃圾簡訊作為分類訓練數據的垃圾信息端,同時獲取正常簡訊作為分類訓練數據的正常信息端,訓練得到新的垃圾簡訊分類器,並更新至分類器庫D35。
分類器訓練可以用到各類分類方法,例如Bayes、決策樹、神經網絡、支持向量機(SVM)等等。
根據上述分類器訓練方法,將計算得到一個分類過濾器。分類器的自反饋更新方法如下 1、定時喚醒分類器訓練線程; 2、根據系統日誌,生成一個全新的分類器; 3、從簡訊過濾規則庫的分類器庫D35中獲取本分類器對應的類別; 4、生成全局唯一分類器識別號,賦予分類器ID; 5、將當前分類器指針指向剛剛生成的分類器; 6、發布分類器更新消息,激活信息過濾端分類過濾S15的分類器更新功能,重新獲得當前分類器指針所指向的分類器; 7、分類器訓練線程休眠,等待下一定時時刻的自動喚醒。
通過以上步驟,實現了分類過濾和分類器訓練的一個自反饋方案。
步驟S22、從垃圾簡訊中分析得到增量的關鍵詞信息,更新至關鍵詞庫D34。
首先獲取垃圾簡訊日誌庫中的一段時間垃圾簡訊,將每條簡訊的內容作為一個獨立文本; 然後對所選擇簡訊文本使用某一種有指導的聚類算法進行聚類,得到類別不同(例如廣告類、欺詐類等)的文本集合; 再針對每個文本集合,利用某一種關鍵詞提取算法(例如TF-IDF算法等)計算關鍵詞權重,依權重由大到小排序後得到關鍵詞列表; 最後將關鍵詞列表中詞和關鍵詞庫中詞加權,更新關鍵詞庫並通知步驟S14重新獲取關鍵詞信息。關鍵詞的自反饋更新方法如下 1、定時喚醒垃圾關鍵詞提取線程; 2、根據系統日誌,根據上述方法得到一個權重由大到小排列的關鍵詞列表; 3、將關鍵詞按類別信息分別存儲到簡訊過濾規則庫的關鍵詞庫D34當中; 4、發布關鍵詞庫更新消息,激活信息過濾端分類過濾S14的關鍵詞庫更新功能,重新載入關鍵詞庫; 5、關鍵詞提取線程休眠,等待下一定時時刻的自動喚醒。
通過以上步驟,實現了關鍵詞過濾和關鍵詞提取的一個自反饋方案。
步驟S23、對日誌記錄中發垃圾簡訊的用戶進行綜合分析,一方面用來增減黑白名單庫D32,或者調整用戶的黑白名單灰度值,另一方面調整用戶信息庫D33,得到隨時間更新的用戶抽樣策略。
先獲取垃圾簡訊日誌庫中的一段時間垃圾簡訊; 根據步驟S22方法獲取每條垃圾簡訊關鍵詞及其權重smg={(word0,weight0),(word1,weight1),...,(wordn,weightn),其中,wordi為關鍵詞信息,weighti為關鍵詞權重; 統計所有垃圾簡訊用戶的用戶ID列表,則用戶i發送的垃圾簡訊的信息集合為useri=(smg0,smg1,...,smgm); 計算用戶i發送簡訊的垃圾權重方法如下 最後根據以上發送垃圾簡訊用戶垃圾權值來更新黑白名單庫和用戶信息庫,更新方法為對黑白名單進行加權,即增大黑白名單用戶的灰度值;降低用戶信息庫中用戶信任度,增加其發送簡訊的抽中比例。用戶分析對用戶信息庫和黑白名單庫的自反饋更新方法如下 1、定時喚醒用戶分析線程; 2、根據系統日誌,根據上述方法得到一個根據用戶所發送的垃圾簡訊生成的垃圾用戶權重列表; 3、針對每一個用戶 1)從簡訊過濾規則庫中的黑白名單庫D32中獲取用戶對應的黑白名單信息; 2)若用戶存在於黑名單中,則對其灰度值進行增量加權更新;若用戶存在於白名單中,則對其灰度值進行減量加權更新;否則將用戶增加到黑名單庫,並賦予一個較小的黑名單灰度值; 3)從簡訊過濾規則庫中的用戶信息庫D33獲取用戶對應的用戶信任度信息; 4)對用戶信任度進行減量加權更新,增加其簡訊被過濾的機率; 4、重複步驟3,直到所有用戶的黑白名單信息和信任度信息更新完畢; 5、發布黑白名單庫和用戶信息庫更新消息,激活信息過濾端的黑白名單過濾S12的黑白名單庫更新功能,重新載入黑白名單庫,同時激活抽樣過濾S13用戶信息庫更新功能,重新載入用戶信息庫; 6、用戶分析線程休眠,等待下一定時時刻的自動喚醒。
通過以上步驟,實現了黑白名單過濾和抽樣過濾與用戶分析之間的一個自反饋方案。
步驟S24、根據簡訊中心不同基站,不同時段、不同監測結果生成新的流量監控策略,隨時間更新監控策略庫D31。
首先獲取簡訊日誌庫中的垃圾簡訊,根據簡訊中的時間信息和基站信息進行不同層次聚合。再根據流量監控的分時分地策略,如步驟S11所述,統計不同基站在不同時間段垃圾簡訊的數量,獲取當前批次垃圾簡訊的分時分地策略。最後與歷史數據加權平均後即得到新的流量監控策略並通知流量過濾S11步驟更新策略。流量策略生成對流量策略庫的自反饋更新方法如下 1、定時喚醒流量策略生成線程; 2、根據系統日誌,根據上述方法得到針對每個基站不同時段的分時分地監控策略; 3、將新的監控策略按基站信息的不同分別存儲到簡訊過濾規則庫的監控策略庫D31當中; 4、發布監控策略更新消息,激活信息過濾端流量過濾S11的監控策略更新功能,重新載入對應基站的流量監控策略; 5、流量策略生成線程休眠,等待下一定時時刻的自動喚醒。
通過以上步驟,實現了流量過濾和流量策略生成之間的一個自反饋方案。
儘管上面對本發明說明性的具體實施方式
進行了描述,以便於本技術領的技術人員理解本發明,但應該清楚,本發明不限於具體實施方式
的範圍,對本技術領域的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發明的精神和範圍內,這些變化時顯而易見的,一切利用本發明構思的發明創造均在保護之列。
權利要求
1、一種自反饋垃圾信息過濾方法,其特徵在於,包括以下步驟
(1)、建立信息過濾規則庫,各種信息過濾規則存入其中;
(2)、信息過濾器從過濾規則庫中得到過濾規則,對信息流進行過濾,並將過濾結果存入信息日誌庫中;
(3)、構建日誌分析模塊,從信息日誌庫中讀取垃圾信息,分析後更新信息過濾規則庫中的過濾規則。
2、根據權利要求1所述的自反饋垃圾信息過濾方法,其特徵在於,所述的信息過濾規則庫中為流量策略庫,流量策略庫包括信息中轉基站標識、基站段內消息數量、策略時間段、過濾比例;
信息過濾器為流量過濾器,讀取流量策略庫的中轉基站標識、基站段內消息數量、策略時間段、過濾比例,根據流量過濾器讀入的中轉基站標識、基站段內消息數量、策略時間段、過濾比例信息,對同一基站在不同時間段內可能轉發垃圾信息的比率不同而確定不同的信息過濾流量,不同基站轉發垃圾信息的比率不同而設定不同的信息過濾流量;
首先獲取信息日誌庫中的垃圾信息,根據信息中的時間信息和基站信息進行不同層次聚合;再根據流量監控的分時分地策略,統計不同基站在不同時間段垃圾信息的數量,獲取當前批次垃圾信息的分時分地策略;最後與歷史數據加權平均後即得到新的流量監控策略並通知流量過濾步驟更新策略。
3、根據權利要求1所述的自反饋垃圾信息過濾方法,其特徵在於,所述的信息過濾規則庫中為黑白名單庫,黑白名單庫存儲黑、白名單及灰度值;
接收流量過濾選中的可疑信息,讀取信息過濾規則庫中的黑白名單庫,進行黑白名單過濾,正常信息則直接發送,攔截垃圾信息並生成垃圾信息日誌後存入信息日誌庫,可疑信息則進行抽樣過濾;
對日誌記錄中發垃圾信息的用戶進行綜合分析,一方面用來增減黑白名單庫,或者調整用戶的黑白名單灰度值,另一方面調整用戶信息庫,得到隨時間更新的用戶抽樣策略。
4、根據權利要求1所述的自反饋垃圾信息過濾方法,其特徵在於,所述的信息過濾規則庫中為用戶信息庫,存儲用戶抽樣屬性,該用戶信息庫包括用戶標識ID、消息發送總數、正常消息總數、用戶信任度、連續抽樣標識、連續抽樣正常信息數信息;
接收信息,讀取信息存儲端中的用戶信息庫,根據用戶信任度進行抽樣過濾,正常信息則直接發送,攔截垃圾信息並生成垃圾信息日誌後存入信息存儲端中的信息日誌庫,可疑信息則進行關鍵詞過濾;
對日誌記錄中發垃圾信息的用戶進行綜合分析,依據用戶垃圾信息的發送量、正常信息的發送量和總的信息發送量計算用戶信任度,並用戶信息庫。
5、根據權利要求1所述的自反饋垃圾信息過濾方法,其特徵在於,所述的信息過濾規則庫中為關鍵詞庫,關鍵詞庫包括關鍵詞值、關鍵詞類別、詞權重;
接收信息,讀取信息過濾規則庫中的關鍵詞庫,進行關鍵詞匹配過濾,正常信息則直接發送,攔截垃圾信息並生成垃圾信息日誌後存入信息過濾規則庫中的信息日誌庫,可疑信息則進行分類過濾;
首先獲取垃圾信息日誌庫中的一段時間垃圾信息,將每條信息的內容作為一個獨立文本;然後對所選擇信息文本使用某一種有指導的聚類算法進行聚類,得到類別不同的文本集合;再針對每個文本集合,利用某一種關鍵詞提取算法計算關鍵詞權重,依權重由大到小排序後得到關鍵詞列表;最後將關鍵詞列表中詞和關鍵詞庫中詞加權,更新關鍵詞庫。
6、根據權利要求1所述的自反饋垃圾信息過濾方法,其特徵在於,所述的信息過濾規則庫中為分類器庫,分類器庫包括分類器類別、分類器識別號、分類器指針等信息,用來存儲不同分類方法所生成的不同的分類器;
接收信息,讀取信息過濾規則庫中的分類器庫,進行內容分類過濾,正常信息則直接發送,攔截垃圾信息並生成垃圾信息日誌後存入信息過濾規則庫中的信息日誌庫;
讀取信息日誌庫,將垃圾信息作為分類訓練數據的垃圾信息端,同時獲取正常信息作為分類訓練數據的正常信息端,訓練得到新的垃圾信息分類器,並更新至分類器庫。
全文摘要
本發明公開了一種自反饋垃圾信息過濾方法,通過構建日誌分析模塊,能在人為操作儘可能少的情況下,根據過濾到的垃圾信息自我分析、自我決策、自我優化實行信息過濾規則的自反饋更新,大大提高了信息過濾速度和準確率,克服了傳統海量信息過濾中人工參與度高,工作量大,速度和準確率與人的操作高度相關的缺點,實現了信息過濾自動化。
文檔編號H04L29/06GK101447984SQ200810147718
公開日2009年6月3日 申請日期2008年11月28日 優先權日2008年11月28日
發明者彥 傅, 虎 夏, 陳安龍, 曾金全, 引 羅 申請人:電子科技大學