新四季網

基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法

2023-10-10 18:23:04 2

專利名稱:基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法
技術領域:
本發明屬於數據質量的研究領域,特別涉及一種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法。
背景技術:
主題共識:根據用戶行為特徵研究領域的一項重要結論,網絡社區中針對同一主題進行交流的普通用戶所發布的內容都與該主題相關,而存在不良意圖的用戶則會發布一些與主題無關的內容。J.M.Reagle 在其專著《GoodFaith Collaboration —The Cultureof Wikipedia))中分析指出,網絡社區中發布各自不同觀點的用戶之所以能夠圍繞同一主題成功進行溝通交流,是因為彼此之間具有對該主題的基本共識,並且相信與自己交流的對方也同樣會根據這一基本共識發布回復內容[I]。而行業內最大的網絡共建社區維基百科的發起人JimGiles也承認,維基百科是一個基於主題共識而建立的網站[2]。這些用戶行為特徵研究領域的相關成果為本項目提出的方法提供了理論基礎。一般的,在網絡社區中,一個主貼及其對應的所有回覆貼應當圍繞著同一主題共識進行交流。文本內容的特徵值與特徵向量:一段文本內容可以用它的一些屬性來表示其特徵,這些可以用來標識文本內容的特徵屬性,被稱為文本內容的特徵值[3]。文本所包含的字詞集合、詞頻、詞序等,都屬於該文本內容的特徵值。將一段文本內容以一組特徵值所組成的特徵向量來表示,是利用計算機進行文本挖掘得以實施的基礎。詞袋算法:詞袋算法是將文本內容用不同詞彙的出現次數組成的向量進行的數學化表示的一種方法[4]。其主要思路是:以全部文本內容中所出現的全部詞彙集合作為詞典,以詞典裡各個詞彙在某段文本內容中的出現次數(即詞頻)作為元素,將所有詞彙所對應的元素組合起來成為一個數學向量,使得這個數學向量能夠表示該段文本內容的詞彙與詞頻特徵,從而得到這段文本內容的詞頻向量。由於傳統的詞袋算法沒有考慮詞彙之間的順序而導致詞序這一重要文本標識信息丟失,因此本項目將在詞彙單元的基礎上,利用雙詞彙串作為基本的詞袋單元[5],從而在詞袋算法中引入對詞彙順序的考慮,對各段文本內容建立標識更為準確的詞頻向量。此處需要注意的是,在詞袋算法中,由於詞典的大小是固定的,因此即使是不同的文本內容,其對應的詞頻向量長度也是相同的。文本分類:文本分類,其方法可以歸結為根據待分類數據的某些特徵來進行匹配,是數據挖掘相關研究中的一項重要內容。文本分類一般包括了文本的表達、分類器的選擇與訓練、分類結果的評價與反饋等過程,其中文本的表達又可細分為文本預處理、索引和統計、特徵抽取等步驟。目前較為通用的文本分類方法是基於機器學習理論的方法。統計學習方法需要一批由人工進行了準確分類的文檔作為學習的材料(稱為訓練集,注意由人分類一批文檔比從這些文檔中總結出準確的規則成本要低得多),再由計算機從這些文檔中挖掘出一些能夠有效分類的規則,這個過程被形象的稱為訓練,而總結出的規則集合常常被稱為分類器。訓練完成之後再對待檢測的文檔進行分類時,便使用這些分類器來進行。主流的機器學習方法包括決策樹[6],Na』ive Bayes [7],神經網絡,支持向量機(SVM) [8],線性最小平方擬合[9],k-NN,遺傳算法,最大熵[10]等。本項目主要採用支持向量機(SVM)算法來建立文本分類模型,判斷待檢測的文本內容是否為垃圾信息需要過濾。網絡社區垃圾信息的檢測與過濾:目前的網絡社區垃圾檢測算法一般會考察待發布內容的一些基本特徵或者固定模式,如文本的長度、敏感詞數量、作者可信度等。Potthast等人針對編輯內容(包括文本、結構、連結、多媒體)和編輯操作(插入、替換及刪除)的特徵,採用了邏輯回歸模型來檢測無效的編輯內容[11]。Smets等學者用部分匹配的壓縮模型對Wikipedia社區中一個小時出現的新增內容進行分類,並查驗其中的垃圾信息。而SiCh1.Chin等人用的則是統計語言模型[13]。除此之外,West等研究者用到了網頁的meta數據,根據作者的聲譽來估計新發布內容的可信度,其中作者的聲譽是通過發帖頻率、發帖位置和註冊信息來度量的[14]。然而上述檢測方法沒有考慮到同一主題下發帖內容的趨同性,因此,對於那些發布內容與正常發帖相似因而顯得較為隱蔽的垃圾信息,這些方法的檢測準確率和召回率都不高。參考文獻:[I]J.M.Reagle.Good Faith Collaboration—The Culture of Wikipedia(Webedition).The MIT Press, Cambridge, MA.2011.
[2]Wikipedia, 「Wikipedia, 」http://en.wikipedia.0rg/wiki/Wikipedia.Mar6th, 2010.
[3](以)費爾德曼,(美)桑格.文本挖掘(英文版) 人民郵電出版社,I S BN:9787115205353, Aug.2009.
[4] A.K.McCal lum.1996.Bow: a Toolkit for Statistical LanguageModeling, Text Retrieval, Classification and Clustering.Available at http://www.cs.emu.edu/ mccallum/bow.
[5]Koen Smets, Bart Goethals, Brigitte Verdonk.Automatic VandalismDetection in ffikipedia:Towards a Machine Learning Approach.1n:2008Associationfor the Advancement ofArtificial Intelligence.(2008)[6]J.R, QUINLAN.1nduction of Decision Trees.MachineLearningl:81-106, Kluwer Academic Publishers, Boston, 1986.
[7] Christopher D.Manning, Prabhakar Raghavan&Hinrich Schiitze.1ntroduction to Information Retrieval.Cambridge University Press.2008.Website:http://informationretrieval.0rg/.
[8]張學工.關於統計學習理論與支持向量機.自動化學報,Vol.126,N0.1, Jan.2000.
[9](美)Tom Mitchell.Machine Learning.1SBN: 9787111109938.機械工業出版社 2008-3[10]E.T.Jaynes.0n the Rationale of Maximum_Entropy Methods.Proceedingsofthe IEEE.Vol.70, N0.9, pp.939-9 52.Sep., 1982.
[11]M.Pothast, B.Stein, R.Gerling.Automatic vandalism detection inffikipedia.Advances in Information Retrieval.2008.
[12]K.Smets, B.Goethals, B.Verdonk.Automatic vandal ism detection inffikipedia:Towards a machine learning approach.1n:WikiA108:Proceedings of theAAA1.Workshop on ffikipedia and Artificial Intelligence.2008.
[13] Si Ch1.Chin, ff.N.Street, P.Srini vasan, and D.Eichmann.Detectingwikipedia vandalism with active learning and statistical language models.1nWIC0W』 10,pages3-10, 2010.
[14] A.G.West, S.Kannan, and 1.Lee.Detecting wikipedia vandal ismviaspatio-temporal analysis ofrevision metadata.1n EUROSEC』 10,pages2228, 2010.
[15]B.T.Adler, L.de Alfaro, S.M.Mola-Velasco, P.Rosso and A.G.West,ffikipedia Vandal ism Detection:Combining Natural Language, Metadata, andReputation Features.Computational Linguistics and Intelligent Text Processing.2011,Volume6609/2011, 277-288,DO1:10.1007/978-3-642-19437_5_23[16] Qinyi ffu, Danesh Irani, Calton Pu, Lakshmish Ramaswamy.ElusiveVandalism Detect ion in ffikipedia: A Text Stability-based Approach.1nCIKM』 10,0ctober26 - 30,2010.

發明內容
針對因網絡社區垃圾信息泛濫,而目前尚無有效的檢測與過濾機制的情況,發明提出一種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法。本方法根據主貼內容和正常回復內容構建主題趨同性約束關係,計算待檢測內容的主題共識覆蓋率特徵值,結合模式識別分類器,對待檢測內容進行分類判斷,界定是否為垃圾信息,從而完成網絡社區垃圾信息的檢測與過濾功能,可應用於對網絡社區進行質量管理,對無關廣告、無效內容甚至惡意言論進行判斷與清理。為解決上述技術問題,本發明採用如下技術方案:一種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,包括以下步驟:步驟1,數據準備:採集兩組以上的圍繞不同主題進行交流的主貼及相應的回覆的文本內容,抽樣其中部分組的主貼與回復作為訓練集,其餘作為待檢測集,對訓練集中的文本內容進行人工分類,判斷回復的文本內容是否與各自的主貼內容相關,不相關的視為無效的垃圾內容,分類的結果作為訓練數據集;步驟2,計算詞頻向量:此處運用詞袋算法,將之前採集到的訓練集和待檢測集中的各個主貼和全部的回覆內容全部以詞頻向量的形式表示;步驟3,聚合得到主題共識的詞頻向量:對訓練集和待檢測集中的各組主貼與回復,聚合各組中所有文本內容對應的詞頻向量,得到圍繞各組內容主題的主題共識的詞頻
向量;步驟4,計算特徵值,組合特徵向量:計算訓練數據集和待檢測集中各文本內容的文本特徵值,將文本特徵值組合起來形成與文本內容相對應的特徵向量,文本特徵值包括主題共識覆蓋率和其他文本特徵值,具體包括以下步驟,步驟4.1,計算主題共識覆蓋率:以步驟3中聚合得到的主題共識的詞頻向量為基礎,計算各文本內容的主題共識覆蓋率;步驟4.2,計算其他文本特徵值:其他文本特徵值包括文本長度、文本信息熵、文本作者可信度、敏感詞彙數量、包含連結數量中的一種或其組合;步驟4.3,組合主題共識覆蓋率和各文本內容的其他文本特徵值,形成特徵向量;步驟5,訓練文本分類器:採用以支持向量機模型為基礎的文本內容分類器,用訓練集中的各文本內容的特徵向量作為樣本輸入,以步驟I中對這些文本內容的分類結果作為標準輸出,對支持向量機分類器進行反覆訓練,直到分類器對訓練樣本的分類準確率達到95%以上;步驟6,文本分類,檢測垃圾內容:對待檢測集中的各文本內容進行分類,以待檢測文本內容的特徵向量作為輸入,用步驟5中已調好參數的支持向量機分類器進行分類,判斷該段待檢測文本內容是否為垃圾信息。所述步驟3中,聚合操作通過平均值聚合方法實現,即先對所有詞頻向量中各個對應位置上的元素求平均值,然後將不同位置上的元素的平均值組合成為一個新的向量:設詞表空間用集合{w1; W2, , Wj,…,wN}表示,其中N為詞表空間大小,即預先設定的詞表中的詞彙數量。將第i個文本內容記為Di,文本中詞彙%出現的次數即詞頻用
Wj Il i表示,各文本內容的詞頻向量依次表示為:
權利要求
1.種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,其特徵在於,包括以下步驟: 步驟1,數據準備:採集兩組以上的圍繞不同主題進行交流的主貼及相應的回覆的文本內容,抽樣其中部分組的主貼與回復作為訓練集,其餘作為待檢測集,對訓練集中的文本內容進行人工分類,判斷回復的文本內容是否與各自的主貼內容相關,不相關的視為無效的垃圾內容,分類的結果作為訓練數據集; 步驟2,計算詞頻向量:運用詞袋算法,將之前採集到的訓練集和待檢測集中的各個主貼和全部的回覆內容全部以詞頻向量的形式表示;步驟3,聚合得到主題共識的詞頻向量:對訓練集和待檢測集中的各組主貼與回復,聚合各組中所有文本內容對應的詞頻向量,得到圍繞各組內容主題的主題共識的詞頻向量;步驟4,計算特徵值,組合特徵向量:計算訓練數據集和待檢測集中各文本內容的文本特徵值,將文本特徵值組合起來形成與文本內容相對應的特徵向量,文本特徵值包括主題共識覆蓋率和其他文本特徵值,具體包括以下步驟, 步驟4.1,計算主題共識覆蓋率:以步驟3中聚合得到的主題共識的詞頻向量為基礎,計算各文本內容的主題共識覆蓋率; 步驟4.2,計算其他文本特徵值:其他文本特徵值包括文本長度、文本信息熵、文本作者可信度、敏感詞彙數量、包含連結數量中的一種或其組合; 步驟4.3,組合主題共識覆蓋率和各文本內容的其他文本特徵值,形成特徵向量; 步驟5,訓練文本分類器:採用以支持向量機模型為基礎的文本內容分類器,用訓練集中的各文本內容的特徵向量作為樣本輸入,以步驟I中對這些文本內容的分類結果作為標準輸出,對支持向 量機分類器進行反覆訓練,直到分類器對訓練樣本的分類準確率達到95%以上; 步驟6,文本分類,檢測垃圾內容:對待檢測集中的各文本內容進行分類,以待檢測文本內容的特徵向量作為輸入,用步驟5中已調好參數的支持向量機分類器進行分類,判斷該段待檢測文本內容是否為垃圾信息。
2.據權利要求1所述的一種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,其特徵在於:所述步驟3中,聚合操作通過平均值聚合方法實現,即先對所有詞頻向量中各個對應位置上的元素求平均值,然後將不同位置上的元素的平均值組合成為一個新的向量: 設詞表空間用集合{w1; W2,...,Wj,...,WnI表示,其中N為詞表空間大小,即預先設定的詞表中的詞彙數量,將第i個文本內容記為Di,文本中詞彙%出現的次數即詞頻用Il Wj Il i表示,各文本內容的詞頻向量依次表示為:D1 = (I W1I t.| W,I I WjiID; = (I W112,11.wN|.:)Dk = Cl W1Ts,! W21: K,I wNI: K)其中,K為圍繞同一個主題進行討論的全部帖子數量; 詞彙%在所有文本中的詞頻的平均值為:
3.據權利要求1所述的一種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,其特徵在於:所述步驟3中,聚合操作通過最泛值聚合方法實現,即找到所有詞頻向量中各個對應位置上出現的最為普遍的元素值,將各個位置上對應的最普遍出現的元素值組合起來,形成新的詞頻向量: 為了標識出詞頻向量中某個位置上出現得最普遍的元素值,首先定義如下的二元函數Ai(X) -.A1 (x)是整數值X的函數,表示在第i個文本Di的詞頻向量中詞彙Wj所對應的元素值是否為x,如果是,則Ai(X)值為1,否則為O,即:
4.據權利要求1或2或3所述的一種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,其特徵在於:所述步驟4.1中,主題共識覆蓋率用如下公式進行計算:
5.據權利要求1或2或3所述的一種基於主題共識覆蓋率的網絡社區垃圾信息檢測與過濾方法,其特徵在於:所述步驟4.3中,形成特徵向量的方法如下: 第i個文本內容為Di=UI Wl| Ii, IIw2I Ii,…,Il wN| Ii),判斷文本Di是否為垃圾信息的依據是其特徵向量P(A),
全文摘要
本發明提供一種基於主題共識覆蓋率的網絡社區垃圾信息自動檢測與過濾方法,屬於數據質量的研究範疇,涉及用戶行為特徵研究、網絡信息質量評估、文本內容的特徵值提取、文本分類模型的建立與優化等技術領域,主要針對網絡社區垃圾信息尚無有效的自動檢測與過濾機制的情況,建立了垃圾信息檢測模型,根據主貼內容和正常回復內容構建了主題趨同性約束關係,提出了待檢測內容的主題共識覆蓋率特徵值並將其運用到文本分類器,從而實現了網絡社區垃圾信息的自動檢測與過濾。本方法可廣泛應用於網絡社區質量管理中的各類內容甄別問題,對無關廣告、無效內容甚至惡意言論進行自動判斷與清理,在一定程度上提高網絡社區信息質量。
文檔編號G06F17/27GK103092975SQ20131002985
公開日2013年5月8日 申請日期2013年1月25日 優先權日2013年1月25日
發明者李石君, 湯小月, 餘偉, 楊莎, 劉晶, 丁永剛, 胡亞慧, 王凱 申請人:武漢大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀