新四季網

一種識別垃圾文本的方法和裝置製造方法

2023-05-24 19:32:36

一種識別垃圾文本的方法和裝置製造方法
【專利摘要】本申請公開了一種識別垃圾文本的方法和裝置。該方法包括:預先採用籤名算法計算垃圾文本的籤名,在樣本庫中存儲垃圾文本的籤名信息,採用所述籤名算法計算待處理文本的籤名,確定待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度;根據所述差異程度識別待處理文本是否為垃圾文本;其中,採用所述籤名算法針對不同文本計算出的籤名能夠反映所述不同文本之間的差異程度信息。應用本發明能夠提高垃圾文本的召回率。
【專利說明】一種識別垃圾文本的方法和裝置
【技術領域】
[0001]本申請涉及信息處理【技術領域】,尤其涉及一種識別垃圾文本的方法和裝置。
【背景技術】
[0002]在網際網路中常常充斥著各種垃圾文本,例如垃圾評論信息等,如何識別出這些垃圾文本是目前急需解決的一個技術問題。
[0003]目前,一般根據敏感詞庫來識別垃圾文本,具體地:
[0004]預先根據已經確定的垃圾文本建立敏感詞庫,對於待處理文本,判斷該待處理文本中是否出現了敏感詞庫中的詞,如果是,則將該待處理文本識別為垃圾文本,否則,將該待處理文本識別為非垃圾文本。
[0005]可見,目前根據敏感詞庫來識別垃圾文本的方法存在以下的缺陷:
[0006]有些垃圾文本會通過不斷變換關鍵詞,來避免與敏感詞庫中的敏感詞相同,例如,當某用戶發送了垃圾廣告評論「各種化妝品,盡在我的淘寶店」時,敏感詞庫編輯人員將「淘寶店」加入到敏感詞庫中,然而,當用戶將評論內容改成「各種化妝品,盡在我的淘寶商店」,由於「淘寶商店」並不在敏感詞庫中,因此將導致敏感詞庫失效,即將本應為垃圾文本的「各種化妝品,盡在我的淘寶商店」識別為了非垃圾文本。
[0007]因此,目前識別垃圾文本的方法的垃圾文本召回率較低。

【發明內容】

[0008]本申請提供了一種識別垃圾文本的方法和裝置,能夠提高垃圾文本的召回率。
[0009]一種識別垃圾文本的方法,該方法包括:
[0010]預先採用籤名算法計算垃圾文本的籤名,在樣本庫中存儲垃圾文本的籤名信息,
[0011]採用所述籤名算法計算待處理文本的籤名,確定待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度;
[0012]根據所述差異程度識別待處理文本是否為垃圾文本;
[0013]其中,採用所述籤名算法針對不同文本計算出的籤名能夠反映所述不同文本之間的差異程度息。
[0014]一種識別垃圾文本的裝置,該裝置包括樣本庫模塊、差異程度確定模塊和識別模塊;
[0015]所述樣本庫模塊,用於存儲預先採用籤名算法計算出的垃圾文本的籤名信息;
[0016]所述差異程度確定模塊,用於採用所述籤名算法計算待處理文本的籤名,確定待處理文本的籤名與樣本庫模塊中存儲的籤名信息之間的差異程度;
[0017]所述識別模塊,用於根據所述差異程度識別待處理文本是否為垃圾文本;
[0018]其中,採用所述籤名算法針對不同文本計算出的籤名能夠反映所述不同文本之間的差異程度息。
[0019]由上述技術方案可見,本發明通過在樣本庫中存儲垃圾文本的籤名,計算待處理文本的籤名,而且計算垃圾文本的籤名和計算待處理文本的籤名所採用的籤名算法針對不同文本計算出的籤名能夠反映不同文本之間的差異程度信息,因此,通過確定待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度,根據所述差異程度能夠識別待處理文本是否為垃圾文本。
[0020]由於本發明根據待處理文本的籤名與垃圾文本的籤名之間的差異程度來識別待處理文本是否是垃圾文本,因此,即便待處理文本與垃圾文本不完全一致,只要兩者的差異程度滿足預定的條件,本發明也能夠將所述待處理文本識別為垃圾文本,因此能夠大大提高垃圾文本的召回率。
【專利附圖】

【附圖說明】
[0021]圖1是本發明提供的識別垃圾文本的方法流程圖。
[0022]圖2是本發明提供的識別垃圾文本的裝置結構圖。
【具體實施方式】
[0023]圖1是本發明提供的識別垃圾文本的方法流程圖。
[0024]如圖1所示,該方法包括:
[0025]步驟101,預先採用籤名算法計算垃圾文本的籤名,在樣本庫中存儲垃圾文本的籤名信息。
[0026]步驟102,採用所述籤名算法計算待處理文本的籤名。
[0027]其中,採用所述籤名算法針對不同文本計算出的籤名能夠反映所述不同文本之間的差異程度息。
[0028]步驟103,確定待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度。
[0029]步驟104,根據所述差異程度識別待處理文本是否為垃圾文本。
[0030]可見,由於圖1所示方法根據待處理文本的籤名與垃圾文本的籤名之間的差異程度來識別待處理文本是否是垃圾文本,因此,即便待處理文本與垃圾文本不完全一致,只要兩者的差異程度滿足預定的條件,圖1所示方法也能夠將所述待處理文本識別為垃圾文本,因此能夠大大提高垃圾文本的召回率。
[0031 ] 其中,所採用的籤名算法可以是SMHASH籤名算法,也可以是MINHASH籤名算法。
[0032]其中,具體可以通過計算待處理文本的籤名與垃圾文本的籤名之間的漢明距離來確定待處理文本的籤名與垃圾文本的籤名之間的差異程度。
[0033]其中,所述漢明距離是兩個等長字符串對應位置的字符不同的個數。比如,字符串A=」A1B2C3D4」與字符串B= 「A2B1C3D4」的漢明距離為:2,所以漢明距離可以衡量字符串之間的相似度,即漢明距離越小,字符串相似度越高。
[0034]因此,確定待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度具體可以包括:
[0035]將待處理文本的籤名和樣本庫中存儲的籤名信息轉換為位數相同的二進位數,計算由待處理文本的籤名轉換得到的二進位數與由樣本庫中存儲的籤名信息轉換得到的二進位數之間的漢明距離,將所述漢明距離作為待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度。[0036]具體地,可以在將垃圾文本的籤名信息存儲在樣本庫中時,將垃圾文本的籤名轉換為目標位數的二進位數,在樣本庫中直接存儲所述二進位數,在對待處理文本進行處理時,先採用計算垃圾文本籤名的籤名算法計算待處理文本的籤名,然後將待處理文本的籤名轉換為目標位數的二進位數,由於樣本庫中存儲的籤名信息就是目標位數的二進位數,因此,可以將由待處理文本的籤名轉換得到的二進位數與樣本庫中存儲的二進位數直接進行逐條比較(一個垃圾文本的籤名轉換得到的二進位數為一條二進位數),從而計算待處理文本的籤名與垃圾文本的籤名信息之間的漢明距離,將所述漢明距離作為待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度。
[0037]也可以將由籤名算法計算得到的垃圾文本籤名直接存儲在樣本庫中,在對待處理文本進行處理時,先採用計算垃圾文本籤名的籤名算法你計算待處理文本的籤名,然後將待處理文本的籤名轉換為目標位數的二進位數,將樣本庫中的籤名也轉換為目標位數的二進位數,然後計算由待處理文本的籤名轉換得到的目標位數二進位數與由垃圾文本的籤名轉換得到的目標位數二進位數的漢明距離,將所述漢明距離作為待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度。
[0038]其中,所述目標位數可以是32位,也可以是64位。
[0039]在根據所述差異程度識別待處理文本是否為垃圾文本時,如果由待處理文本中字符串的籤名轉換得到的二進位數與由樣本庫中存儲的籤名轉換得到的二進位數之間的漢明距離小於預定值,則可以將所述待處理文本識別為垃圾文本。
[0040]當然,也可以在所述漢明距離的基礎上,進一步結合其他條件判斷待處理文本是否為垃圾文本。 [0041]為了提高本發明提供的識別垃圾文本的方法適應垃圾文本變化的能力,本發明還提出,在將待處理文本識別為垃圾文本之後,可以將識別為垃圾文本的待處理文本的籤名信息存儲在所述樣本庫中,從而實現樣本庫的自動更新,進而能夠隨著垃圾文本的變化而識別新的垃圾文本。
[0042]下面舉一個具體的例子,對本發明提供的識別垃圾文本的方法進行示例性介紹。
[0043]在該例子中,預先對歷史垃圾評論進行人工分揀,並計算分揀出的垃圾評論內容的籤名,根據所述籤名形成一個垃圾評論的樣本庫,即在樣本庫中存儲SM(Al),SM(A2)…SIM (Ai) -SIM (An),其中,SM (Al)、SM (A2)...SM (An)為採用 32 位二進位數存儲的垃圾評論內容Al、A2...An的SMHASH值。
[0044]當某用戶發送了一條評論B,首先計算出該評論的SMHASH值:SM(B),然後將SM(B)與垃圾評論的樣本庫中的SMHASH值逐條比較,從而計算出評論B與垃圾評論庫中各個評論SMHASH值的漢明距離。
[0045]例如:樣本庫中有三條垃圾樣本Al,A2和A3的籤名,且籤名值的十進位數分別為407450932U350698740U2495694113,假設評論B的SIMHASH值的十進位數為:SM(B) =2433245321,那麼它與Al、A2、A3的漢明距離分別為下表所示:
[0046]
SIMHASH__I十進位數 I二進位值I與SEM(B)漢明距離
【權利要求】
1.一種識別垃圾文本的方法,其特徵在於,該方法包括: 預先採用籤名算法計算垃圾文本的籤名,在樣本庫中存儲垃圾文本的籤名信息, 採用所述籤名算法計算待處理文本的籤名,確定待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度; 根據所述差異程度識別待處理文本是否為垃圾文本; 其中,採用所述籤名算法針對不同文本計算出的籤名能夠反映所述不同文本之間的差異程度信息。
2.根據權利要求1所述的方法,其特徵在於,所述確定待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度包括: 將待處理文本的籤名和樣本庫中存儲的籤名信息轉換為位數相同的二進位數,計算由待處理文本的籤名轉換得到的二進位數與由樣本庫中存儲的籤名信息轉換得到的二進位數之間的漢明距離,將所述漢明距離作為待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度; 其中,所述漢明距離是兩個等長字符串對應位置的字符不同的個數。
3.根據權利要求2所述的方法,其特徵在於,根據所述差異程度識別待處理文本是否為垃圾文本包括: 在由待處理文本中字符串的籤名轉換得到的二進位數與由樣本庫中存儲的籤名轉換得到的二進位數之間的漢明距離小於預定值時,將所述待處理文本識別為垃圾文本。
4.根據權利要求3所述的方法,其特徵在於,將所述待處理文本識別為垃圾文本之後,該方法還包括: 將識別為垃圾文本的待處理文本的籤名信息存儲在所述樣本庫中。
5.根據權利要求2至4任一權利要求所述的方法,其特徵在於,所述位數相同的二進位數為32位二進位數或64位二進位數。
6.根據權利要求1所述的方法,其特徵在於,所述籤名算法包括SMHASH籤名算法、或者MINHASH籤名算法。
7.一種識別垃圾文本的裝置,其特徵在於,該裝置包括樣本庫模塊、差異程度確定模塊和識別模塊; 所述樣本庫模塊,用於存儲預先採用籤名算法計算出的垃圾文本的籤名信息; 所述差異程度確定模塊,用於採用所述籤名算法計算待處理文本的籤名,確定待處理文本的籤名與樣本庫模塊中存儲的籤名信息之間的差異程度; 所述識別模塊,用於根據所述差異程度識別待處理文本是否為垃圾文本; 其中,採用所述籤名算法針對不同文本計算出的籤名能夠反映所述不同文本之間的差異程度信息。
8.根據權利要求7所述的裝置,其特徵在於, 所述差異程度確定模塊,用於將待處理文本的籤名和樣本庫模塊中存儲的籤名信息轉換為位數相同的二進位數,計算由待處理文本的籤名轉換得到的二進位數與由樣本庫中存儲的籤名信息轉換得到的二進位數之間的漢明距離,將所述漢明距離作為待處理文本的籤名與樣本庫中存儲的籤名信息之間的差異程度; 其中,所述漢明距離是兩個等長字符串對應位置的字符不同的個數。
9.根據權利要求8所述的裝置,其特徵在於, 所述識別模塊,用於在由待處理文本中字符串的籤名轉換得到的二進位數與由樣本庫模塊中存儲的籤名轉換得到的二進位數之間的漢明距離小於預定值時,將所述待處理文本識別為垃圾文本。
10.根據權利要求7所述的裝置,其特徵在於,該裝置還包括樣本更新模塊; 所述樣本更新模塊,用於將識別為垃圾文本的待處理文本的籤名信息存儲在所述樣本庫模塊 中。
【文檔編號】G06F17/30GK104008105SQ201310058680
【公開日】2014年8月27日 申請日期:2013年2月25日 優先權日:2013年2月25日
【發明者】張湘念 申請人:騰訊科技(北京)有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀