文本分類方法
2023-05-25 00:34:06
專利名稱:文本分類方法
技術領域:
本發明涉及數據預處理技術,尤其涉及一種文本分類方法。
背景技術:
隨著網際網路的迅速發展,網絡上的網頁、電子郵件、資料庫、數字圖 書館等電子文本成幾何級數不斷增長,如何有效處理這些文本並進行分類 是一個非常重要的課題。文本分類是指在已有數據的基礎上構造一個分類 模型,即,分類器。它按照預先定義的分類體系為測試文檔集合中的每個 文檔確定一個類別,使得用戶能夠方便地瀏覽文檔,也可以通過限制搜索 範圍來使文檔的查找更為容易。文本自動分類就是用大量的帶有類標誌的 文本,對分類準則或模型參數進行訓練,然後用訓練得到的結果對未知類別 的文本進4於識別。
然而在實際分類應用中,經常會遇到數據傾斜,又稱作數據不平衡或 者類別不平衡,這是影響分類性能的重要因素之一,對傳統的分類方法構 成了挑戰。大多數分類算法都是面向均勻分布數據提出的,對於數據傾斜 的情況,僅利用傳統的分類方法並不能取得理想的文本分類效果。
發明內容
本發明的目的旨在至少解決現有技術中的上述問題之一 。 為此,本發明的實施例提出一種提高存在數據傾斜的文本分類效果的 文本分類方法。
本發明實施例提出了 一種文本分類方法,所述分類方法包括以下步驟 a)根據類別將初始訓練文本集劃分為多個分別包含相同類別文本的子集, 並從每個子集中抽取出對應的概率主題模型;b)利用對應的概率主題模型 生成新的文本來均衡所述多個子集的類別;c)根據所述多個子集對應的均衡訓練文本集構造分類器;以及d)利用所述分類器進行文本分類。
根據本發明進一步的實施例,所述概率主題模型為LDA概率主題模型。
根據本發明進一步的實施例,所述步驟b包括確定包含最多文本數 量的子集;每個概率主題模型根據所述最多文本數量生成對應的新文本, 其中所述新文本數量為所述最多文本數量與每個子集包含的文本數量的差 值;以及將所述新文本加入到對應的子集中。
根據本發明進一步的實施例,還包括利用所述概率主題模型生成新的 文本代替所述初始文本訓練集包含的文本。
根據本發明進一步的實施例,還包括對構造分類器的所述均衡訓練文 本集進行特徵降維的步驟。
根據本發明進一步的實施例,所述分類器為支持向量機。
根據本發明進一步的實施例,還包括對所述初始訓練文本集進行預處 理的步驟,以過濾常用詞以及進行詞才艮還原。
本發明通過從文本訓練集上抽取出對應的概率主題模型,並利用對應 的概率主題模型生成稀有類別的樣本,擴大稀有類別在整個文本集的比例, 對文本集進行數據平衡,從而利用模型所反映的文本全局語義信息來提高 數據傾斜下的文本分類效果。
此外,本發明通過概率主題模型重新生成該類別的所有樣本,替代原 來的樣本作為新的訓練樣本,可以達到數據平滑的效果,削弱噪聲對文本
分類的影響。
本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面 、的描述中變得明顯,或通過本發明的實踐了解到。
本發明的上述和/或附加的方面和優點從下面結合附圖對實施例的描 述中將變得明顯和容易理解,其中
圖1為本發明實施例的文本分類方法流程圖; 圖2為本發明實施例的概率主題模型示例;
5圖3為本發明實施例的利用概率主題模型生成新的文本的示例圖4為本發明實施例的LDA概率主題模型抽取步驟流程圖5為本發明實施例基於LDA概率主題模型的文本生成步驟流程圖;
圖6為本發明具體實施例的文本分類方法的流程圖;以及
圖7為本發明實施例的文本分類方法對應的總體結構框架具體實施例方式
下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其
能的元件。下面通過參考附圖描述的實施例是示例性的,僅用於解釋本發 明.,而不能解釋為對本發明的限制。
圖1為本發明實施例的文本分類方法流程圖,如圖所示,首先根據類 別將初始訓練文本集劃分為多個分別包含相同類別文本的子集,並從每個 子集中抽取出對應的概率主題模型(步驟102)。當然,這裡初始訓練文 本集可能存在數據傾斜,或者類別不平衡的問題。文本類別是指對應的文 本屬於新聞、體育、娛樂還是其他,這裡不——舉例。
例如,設初始訓練文本集中含有11個類別〔={£:1^2,..., },則訓練文本集
可以根據類別劃分為n個子集"={《^2,...,《}。當然,每個子集對應相同類 型的文本,文本的數量為一個或多個。
概率主題模型的主要思想認為文檔是若干主題的混合分布,而每個主 題又是一個關於單詞的概率分布。主題模型可以看作是文檔的一種生成模 型文檔的生成就是基於主題模型的一個筒單概率過程。當生成一個新的 文檔時,首先得到一個關於主題的分布,對於該文檔的每一個詞符,先通 過主題的分布隨機得到某個主題,接著通過該主題的單詞分布隨機得到一 個單詞作為該詞符的具體單詞。
目前存在多種概率主題模型,例如隱迪列徹萊特分配(Latent Dirichlet Allocation, LDA )模型,彈球盤分配模型(Pachinko Allocation Model, PAM ), 互相關主題模型(Correlated Topic Model, CTM )及概率隱語義分配 (Probabilistic Latent Semantic Allocation, pLSA )才莫型等等。本發明以LDA模型作為實施示例,但本發明的應用範圍並不局限於LDA模型,而是適用 於絕大多數概率主題模型。
圖2給出了從某篇文章抽取出的概率主題模型的一個示例,如圖所示 該文章有40個主題,每個主題底下有40個單詞,需要注意的是一個單詞 可以同時出現在多個主題下面。每個主題在文章中出現的概率都不一樣, 例如主題1出現的概率是主題2的將近2倍,同時每個單詞在同一主題下 面出現的概率也是不一樣的。可以看出,主題1主要談論的是圖形方面的 話題,而主題40主要談論的是概率統計方面的話題。
圖3給出了利用概率主題模型生成新的文本的示例圖。如圖所示,主 題1和主題2都與money和river相關。它們具有不同的詞分布。可通過從 主題中選擇對該主題重要程度不同的詞構成文檔。文檔1和文檔3是由主 題1和主題2分別隨機抽樣得到的,而文檔2則是由主題1和主題2根據 不同的主題分布混合得到的。注意,詞的右上角標的數字是其所屬的主題 號,即該詞是有所標主題隨機抽樣得到的。
在抽取得到每個子集的概率主題模型之後,在步驟104中可以利用對 應的概率主題模型生成新的文本,擴充對應子集類別的規模,從而實現對 多個子集類別的均衡。
在經典的LDA模型當中,每個文本都有自己獨立的主題分布,而在文 本分類任務中,假設同一類別的文本具有相同的主題分布。則可以把訓練 文本集的構造過程看成主題模型的一個生成過程對於文本集中的每一個 類別,都存在一個潛在的概率主題模型,該類別的所有文本都是由其對應 的主題模型按照自己的生成過程產生的。也就是說,由某個概率主題模型 生成的新文本一定還是屬於這個模型對應的類別。
在均衡每個子集的類別時,首先確定包含最多文本數量的子集。例如 對於n個類別C = {Cl,c2,...,c },把含有最多文本的類別的文本數目記為 M^T—S/Z£。對於其他任何類別c,.,通過其對應的概率主題模型生成
—S/Z五-I《l個新的文本,並加入到原來的文本集裡面,其中l《l表示c,原
來的文本數目。這些新生成的文本與原來的舊 本一起構成新的訓練集 = ,滿足K =|《| = ... = |《| 。這樣,通過從文本集上抽取出對應的概率主題模型,利用模型所反映 的文本全局語義信息來提高數據傾斜下的文本分類效果。對於存在數據傾 斜的文本集,本發明通過對應的概率主題模型生成稀有類別的樣本,擴大 稀有類別在整個文本集的比例訓練文本集中各個類別進行擴充後,所有類 別在整個數據集裡的比例是一樣的,使得分類器對各個類別同等對待,從 而達到數據平衡的效果。
然後,把上述均衡訓練文本集交付給分類器學習模塊進行分類器的學
習,實現分類器的構造(步驟106)。最後,利用該分類器進行文本分類 (步驟108),最終可以改善數據傾斜條件下文本分類的效果。
下面,以LDA概率主題模型為例來說明概率主題模型的抽取以及應 用。LDA模型是目前應用最廣泛的一種概率主題模型,它具有比其他模型 更全面的文本生成假設。
設文本中的主題z的分布為屍(力,對於給定的某個主題z,該主題上面 的單詞概率分布為。我們用= /)表示生成第i個單詞時第j個主題 被選中的概率,P(vv,lz,-力表示通過主題j選中單詞w,的概率。因此文本中 單詞的概率分布可以表示為
f(w,) = i>(w,|z,=/)i^=_/)
其中T表示主題數目。為方便起見,令^力-屍(wlz-力表示單詞在主題 j上面的多項式分布,W^P②表示主題在文本d上面的多項式分布。
LDA模型採用Dirichlet(迪列徹萊特)分布作為多項式分布-和^的共 軛先驗,簡化了模型的統計推導。
在本發明中,抽取LDA概率主題模型的方法有變分法、期望最大化 (Expectation Maximization, EM)及吉布斯(Gibbs )抽樣等算法。在一個型。
Gibbs抽樣算法並不直接計算每個文檔的主題-單詞分布-和主題分布 P。根據文檔中可見的單詞序列,通過求出z的後驗分布(即把文檔中每個 單詞賦予某個主題),間接地統計出主題-單詞分布0和主題分布0。每個單 詞i對應的主題變量z,被賦予[l, 2, ..., T]中的某個整數t,表示這個單詞對應的是第t個主題。
對於文本集合裡面的每一個詞符i,用w,和《分別表示它的詞彙索引和
文檔索引。Gibbs抽樣過程逐個處理文本集裡的每個詞符,在已知其他詞符
的主題分布的條件下,估算當前詞符屬於每個主題的可能性。基於這種條
件分布,重新選擇某個主題作為當前詞符的主題。把該條件分布記為 =#_,,w,,《,),其中z,/表示把主題j賦給詞符i作為其主題,l,表示除
當前詞符外的其他所有詞符的主題賦值, 表示其他所有的已知或可見的 信息,如其他所有詞符的詞彙索引w一,和文檔索引義,,以及超參數a和/ 。
這個條件分布的計算公式如下
屍O, -來;,W",)oc.
c》"c:化
/=1
其中,C盯、C^分別是WxT、 DxT維的整數矩陣;C:為除當前詞 符i外單詞w被賦予主題j的次數,C《表示除當前詞符i外文檔d中的詞 符被標註為主題j的次數。注意上式中的概率是為歸一化的, 一個詞符被
Gibbs抽樣算法在剛開始時隨機賦予每個詞符[l,...,T]中的一個主題。 對於每個詞符,計數矩陣c盯和C^中對應當前單詞和賦予的主題的值減1。 然後,根據公上式抽樣一個新的主題,同時計數矩陣C町和C^中對應的值 加1。在每一輪Gibbs抽樣中,文本集中所有N個詞符都被輪流重新賦予 一個新的主題。在抽樣過程的前期階段,由於對後驗概率的模擬不夠充分, Gibbs抽樣的結果還不是很精確。過了前期階段以後,Gibbs抽樣的結果開 始逼近目標分布並最終處於一個與目標分布相近的穩定狀態。
抽樣過程直接給出了每個單詞的z估計。通過對z的統計,可以得到-和 e的近4以^f直^和0':
z《, IXf+ra
在文本分類問題中,假定同 一類別的文檔的主題概率分布是一樣的。 也就是說,假設同 一個類別的文檔都是由該類別的概率主題模型生成的。因此,4巴上式改成formula see original document page 10
圖4顯示了在單個類別文本集合上本發明實施例的LDA概率主題模型 抽取步驟流程。
步驟S401:對集合裡的所有詞符進行統計,構成向量 " = ",/2,...,~), N 為詞符的總數目;
步驟S402:建立每個詞符的詞彙索引際和文檔索引麗,『S(/)表示第 i個詞符對應的詞彙索引,DS(/)表示第i個詞符對應的文檔索引,即第i個 詞符來自第Z^(/)個文檔;
步驟S403:隨才幾初始化詞符的主題標註向量S, z(/)表示把第i個詞符 標註為第力)個主題,同時更新C盯和C^矩陣,並使用向量^",來記錄每個 主題出現的次數;
步驟S404:判斷是否已經滿足迭代終止條件,若是,轉到步驟S412, 否則,轉到步驟S405;
步驟S405:判斷在當前迭代中是否已經處理完所有詞符,若是,轉到 步驟S404,否則,轉到步驟S406;
步驟S406:選擇下一個要進行主題標註的詞符token(i);
步驟S407:對於詞符token(i),令矩陣C盯、C加及向量^ 對應的值減
1;
步驟S408:判斷是否處理完所有的主題,若是,轉到步驟S411,否則, 轉到步驟S409;
步驟S409:選擇下一個未處理過的主題j;
步驟S410:根據上面的公式計算出當前上下文環境下token(i)屬於該
主題的概率formula see original document page 10
步驟S411:根據formula see original document page 10使用輪盤賭算法選擇一個主題j作
為token(i)新的主題,同時更新矩陣C盯、C^及向量^,使對應的值加l; 步驟S412:計算文檔的主題分布0以及每個主題上面單詞的分布0的近步驟S413:輸出包括W和^'在內的LDA模型,並對其持久化。 由於抽取出的LDA模型包含大量的數據,佔用較多的內存空間,當訓 練文本集的類別較多的情況下,LDA模型不宜常駐內存。因此在步驟S413 中對LDA模型進行持久化,把它存儲在文件中,當需要該模型時再把其裝 載進內存,這樣可以處理類別比較多的訓練文本集,節省內存空間。 另外,LAD概率主題模型生成文本的過程如下
1. 對於每個主題j,根據Dirichlet分布"/r(P)得到該主題上面的一個單 詞多項式分布向量0)
2. 根據泊松分布屍ozho"(《)得到文本的單詞數目N
3. 根據Dirichlet分布",>"( )得到該文本的一個主題分布概率向量0
4. 對於該文本N個單詞中的每一個單詞w :
a) 乂人e的多項式分布Mw/""ow/a/(e)隨才幾選擇一個主題k
b) 從主題k的多項式條件概率分布MwW"。w/a/((p(")選擇一個單詞作為w
關於LDA概率主題模型的概念可以參考文獻"T. L. Griffiths and M. Steyvers, Finding scientific topics. The National Academy of Sciences, vol. 101 Suppl 1, pp. 5228-5235, April 2004"和"David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research 3(2003), pages:993誦1022"。
下面,結合圖5對利用LDA概率主題模型生成單個新文本的步驟進行 詳細描述。
在上述實施例將抽取的LDA概率主題模型進行存儲的情況下,生成新 文本需要兩個輸入參數保存LDA概率主題模型的文件路徑path和用於 確定新文本長度的泊松分布參數g 。具體步驟如下
步驟S501:根據路徑載入LDA概率主題模型,包括主題分布e以及每 個主題上面單詞的分布
步驟S502: —般的文本分類方法中都是以"詞袋"模型(Bags of words) 來處理文本,因此必須先確定新文本的長度即詞符數目N。本發明根據泊 松分布屍o/^ow(g)確定新文本的詞符數目N,其中《為輸入參數;步驟S503:新文本初始化,令詞符列表wordlist=0, wordlist為保存 新文本詞符的列表;
步驟S504:判斷新文本的長度是否還未達到預定的長度N,若是,轉 到步驟S505,否則,返回wordlist;
步驟S505:根據LDA概率主題模型中的主題分布0,通過概率選擇算 法,例如輪盤賭算法,隨機選擇一個主題T,作為當前詞符的潛在主題;
步驟S506:在上一步確定主題T的基礎上,根據主題T上面的單詞概 率分布W),通過概率選擇算法,例如輪盤賭算法,隨機地從主題T包含的
單詞中選擇一個單詞w,作為當前詞符對應的詞彙;
步驟S507:把上一步得到的新詞符加到wordlist列表當中,然後轉到 步驟S504進行分支判斷;
該流程的輸出結果為包含新文本所有詞符的 一個詞符列表wordlist,對 於訓練文本集中的每一個類別子集,都通過使用該文本生成步驟生成對應 數量新的文本,來實現對訓練文本集的類別比例進行平衡處理,進而減弱 數據傾斜對最終分類器性能的影響。
圖6給出了本發明一個具體實施例的文本分類方法的流程圖,在該流 程圖中對訓練文本集中可能存在的其他問題進一 步進行處理和優化。
步驟S601:統計訓練文集中各個類別的樣本數目,找出數目最多的類 別,其規模M4X —s/ZE作為後面類別平衡模塊的參數;
步驟S602:由於需要對訓練文本集中每個類別的數據分別進行處理, 本步驟判斷訓練文本集中所有類別是否都處理完畢,如果已經都處理完畢, 則轉到步驟S610;否則,轉到步驟S603;
步驟S603:從訓練文本集中還未處理的類別裡選擇一個類別,作為下 一個接受處理的類別,選擇順序可以根據類別名排序或者其他適當的方法;
步驟S604:在抽取概率主題模型之前,對訓練文本集進行預處理,以 過濾常用詞。常用詞(停用詞)指的是使用過於頻繁的單詞,如"is"、 "i" 、"what" 、"it"等。這些詞由於普遍存在於所有文章當中,對文 本的分類沒有幫助,浪費系統的空間資源和計算開銷,因此可以過濾掉這 些沒有利用價值的停用詞;
12步驟S605:英文中的單詞存在4艮多變形,比如"compute"存在 "computes" 、"computing" 、 "computed"等多種變形,這些變形在文 本分類中起到的作用是一樣的,所以可以在提取概率主題模型之前先進行 詞根還原;
步驟S606:從該類別對應的文本集合中抽取概率主題模型;
步驟S607:用戶根據訓練文本集的情況判斷文本集當中是否含有噪聲
樣本。如果訓練文本集中含有噪聲,則轉到步驟S608;否則,直接轉到步
驟S609;
步驟S608:利用步驟606抽取出來的概率主題模型對該類別的訓練文 本進行數據平滑處理,減弱噪聲樣本對訓練文本集質量的影響;
分類器的質量對文本分類的最終結果具有直接的影響,而分類器的質 量很大程度上取決於訓練文本集的質量。 一般說來,訓練文本集類別越準 確、內容越全面,得到的分類器質量就越高。但是在實際應用中,這種全 面準確的訓練文本集是很難得到的,尤其是在數據規模很大的情況下,更 是如此。在真實的文本分類應用中,訓練數據一般都不可避免的含有噪聲, 這些噪聲樣本將對最終的分類結果產生重要影響。
一般情況下,在含有噪聲樣本的數據中,每一個類別的噪聲樣本數目 相對於該類別正常的樣本數目來說是佔少數的。抽取得到的概率主題模型 總體上能夠反映該類別的正確語義信息的。雖然會受到噪聲樣本的影響, 通過該主題模型生成的新文本基本上還是比較接近該類別。
但是為了進一步提高分類的效果,利用概率主題模型重新生成該類別 對應的所有文本,替代原來的文本作為新的訓練樣本,可以達到數據平滑 的效果,削弱噪聲對最終分類器性能的影響。
步驟S609:利用步驟S606抽取出來的概率主題模型生成新的該類別 的文本,擴充該類別的規模。
這裡,概率主題模型生成類別平衡新文本的算法與上述步驟608進行 數據平滑所生成新文本的方式相同。例如,這些新文本生成均可以採用圖 5實施例的步驟。
步驟S610:由於文本集裡面的詞彙規模非常大,不可能也沒有必要把所有的詞彙都作為特徵項處理,因此本發明通過降維技術提取其中最有價 值的一'J、部分詞彙作為特徵項。
在一個實施例中,特徵降維步驟包括計算均衡訓練文本集中每個單 詞的信息增益,並將每個單詞的信息增益與預定閾值進行比較。將信息增 益小於預定閾值的單詞除去,剩下的即為選中的特徵。或者,按照信息增 益的大小將每個單詞進行排序,除去信息增益較小的單詞部分,剩下的即 為淨皮選中的特徵。
步驟S611:在上述處理過的訓練樣本集上構造分類器,分類器可根據 需要自由選擇。例如,4吏用支持向量機(Support Vector Machine, SVM ) 作為分類器。
S VM分類的基本原理是將向量空間劃分成兩個不相交的空間,通過構 造一個超平面,使特徵空間中的特徵落在平面的兩側,平面兩側的特徵點 屬於不同的類別,這樣就將空間中的點分作了兩個不同的類別。在實際分 類問題中,訓練文本一般會有超過兩個的類別,而SVM是對兩個類的劃分, 為了解決這個問題, 一般有兩種方法, 一種是構建一對一的分類器,對任 意兩個類別之間構建一個分類器,判斷文本屬於其中哪一個類別,然後根 據投票原則將文本劃分到投票最多的一個或幾個類別中,按照這種方法, 對k個類別的分類問題來說,就需要構建(k-l^k個小的分類器;另外一種 思路是構建多個一對多的分類器,對任意一個類別,構建一個分類器,判斷 文本"是否"屬於該類別,或者求出文本屬於各個類別的可能性,然後根 據各個分類器的結果綜合判斷該文本屬於哪個類別,對k個類別的分類問 題來說,這種方法需要構建k個分類器。本發明目前採用第一種方法來處 理多類分類問題,但並不限於這些方法。
步驟S612:使用步驟S611構造的分類器對待分類的新文本進行分類。 需要注意的是,任何其他特徵降維方法與分類器方法都適用於本發明。 例如,適合本發明的特徵降維方法包括但不限於文檔頻率法(Document Frequency, DF)、互信息法(Mutual Information, MI)、 %2統計法(CHI)、特 徵詞強度法(Term Strength, TS)潛在語義索引(Latent Semantic Indexing, LSI)、 主成分分析(Primary Component Analysis)、 因子分析(FactorAnalysis) 、 Projection Pursuit、 獨立組件分析(Independent Component Analysis, ICA)、隨機映射(Random Projection, RP)等等;適合本發 明的分類器方法包括但不限於簡單向量距離分類法、貝葉斯分類法、K 最近鄰學習算法、元分類器方法、決策樹方法、神經網絡方法等等。
圖7在上述實施例的基礎上,給出了本發明實施例的文本分類方法對 應的總體結構框架圖。
系統總體上分為離線分類器構造子系統和在線實時分類子系統兩個部 分。其中離線分類器構造子系統負責對訓練文本集進行數據平滑、類別平 衡處理,然後構造分類器供在線實時分類子系統使用;在線實時分類子系 統通過使用離線分類器構造子系統構造的文本分類器對新文本進行實時分 類。下面分別對這兩個子系統進行具體描述。
在離線分類器構造子系統中,首先根據文本分類系統的應用領域準備 相應的原始訓練文本集10。例如,如果系統將用來對醫學文獻分類,則應 該準備醫學文獻方面的訓練文本集。原始訓練文本集中的文字未經過任何 處理,因此需要使用停用詞去除、詞根還原等特徵預處理技術把原始文本 轉換成"詞袋"才莫式的文本形式。例如,原始文本"Can someone give me the title of a good VGA graphics programming book "經過特徵預處理後變成 "someone give title good VGA graphic program book", 其中去掉了停用詞 "can" 、 "me" 、 "the" 、 "of, 、 "a,,及問號,"graphics", "programming" 經詞根還原變成"graphic"和"program"。經過特徵預處理,從而得到訓 練文本集20。
通過對經過特徵預處理的訓練文本集中各個類別分別抽取,從而得到 對應的概率主題模型,例如使用Gibbs抽樣算法得到LDA概率主題模型30 (訓練文本集中不同的類型對應不同的主題模型1、主題模型2...主題模型 n)。
利用LDA概率主題模型30可以進一步對訓練文本集20進行數據平滑 處理,從而文本集中噪聲數據的影響被減弱了,得到了去噪訓練文本集40。 這時去噪訓練文本集40中各個類別的比例還不平衡,使用LDA概率主題 模型30對其進行類別平衡處理後,各個類別的規模都擴充到最大類別的規模,因此各個類別在文本集中的比例是一樣的,這樣就得到了均衡訓練文
本集50。
在對均衡訓練文本集50進行特徵降維之後,轉化為向量矩陣形式,然 後用來訓練文本分類器,得到最終的分類器60,對其進行持久化保存,供 在線實時分類子系統使用。
在離線分類器構造子系統中,LDA概率主題模型的抽取、數據平滑、 類別平衡、特徵降維、分類器訓練都需要較高的時間開銷,不過由於該子 系統是離線處理的,對實時性要求較低,這些時間開銷是可以接受的並且 不會影響系統的正常工作。
在在線實時分類子系統中,首先從硬碟載入已經構造好的文本分類器 60。當有新的文本需要進行分類時,先根據離線分類器構造子系統使用的 特徵降維技術,採用對應的特徵空間映射方法,把新文本轉化成文本分類 器能夠處理的特徵向量形式。然後文本分類器60對這個特徵向量進行實時 分類,得到該文本的類別。在對新的文本進行實時分類時,特徵空間映射 的時間開銷可以忽略不計。實時分類的時間開銷取決於分類器處理單個特 徵向量的時間開銷,目前多數分類器都能滿足這種實時性要求。
本發明提供了一種針對文本分類領域的基於概率主題模型的數據傾斜 分類方法,通過從文本集上抽取出對應的概率主題模型,利用模型所反映 的文本全局語義信息來提高數據傾斜下的文本分類效果。本發明通過對應 的概率主題模型生成稀有類別的樣本,擴大稀有類別在整個文本集的比例, 從而達到數據平衡的效果。
該方法利用文本所特有的語義特徵來處理不平衡問題,概率主題模型 實際上已經潛在地記錄了對應類別的全局語義信息,通過概率主題模型生 成的文本其談論的話題仍然屬於該類別的範疇。但是由於主題模型生成過 程的特點,新生成的文本又與該類別已有文本具有相當的區別,保證了該 類別文本內容的多樣性。
此外,通過利用概率主題模型對訓練數據進行平滑,避免了噪聲數據 對分類器性能的影響,提高了訓練數據的質量。把處理過的訓練數據交付 給分類器學習模塊進行分類器的學習,最終改善數據傾斜條件下文本分類的效果。
儘管已經示出和描述了本發明的實施例,對於本領域的普通技術人員 而言,可以理解在不脫離本發明的原理和精神的情況下可以對這些實施例 進行多種變化、修改、替換和變型,本發明的範圍由所附權利要求及其等 同限定。
權利要求
1.一種文本分類方法,其特徵在於,所述分類方法包括以下步驟a)根據類別將初始訓練文本集劃分為多個分別包含相同類別文本的子集,並從每個子集中抽取出對應的概率主題模型;b)利用對應的概率主題模型生成新的文本來均衡所述多個子集的類別;c)根據所述多個子集對應的均衡訓練文本集構造分類器;以及d)利用所述分類器進行文本分類。
2. 如權利要求1所述的分類方法,其特徵在於,所述概率主題模型為 LDA概率主題模型。
3. 如權利要求1所述的分類方法,其特徵在於,所述步驟b包括 確定包含最多文本數量的子集;每個概率主題模型根據所述最多文本數量生成對應的新文本,其中所 述新文本數量為所述最多文本數量與每個子集包含的文本數量的差值;以 及將所述新文本加入到對應的子集中。
4. 如權利要求2所述的分類方法,其特徵在於,所述概率主題模型生 成新文本的步驟包括el)根據泊松分布確定所述新文本的詞符數目;e2)根據所述概率主題模型的主題分布,隨機選擇一個主題作為當前 詞符的潛在主題;e3)根據所述主題的單詞分布,隨機從所述主題包含的單詞中選擇一 個單詞作為當前詞符對應的單詞;e4)將所述當前詞符及對應的單詞加入新文本中並處理下 一個詞符; e5)重複上述步驟e2到步驟e4,直至所述新文本中的詞符數目等於所 述確定的詞符數目。
5. 如權利要求1或3所述的分類方法,其特徵在於,還包括利用所述 概率主題模型生成新的文本代替所述初始文本訓練集包含的文本。
6. 如權利要求1所述的分類方法,其特徵在於,還包括對構造分類器 的所述均衡訓練文本集進行特徵降維的步驟。
7. 如權利要求6所述的分類方法,其特徵在於,所述特徵降維步驟包括計算所述均衡訓練文本集中每個單詞的信息增益;將每個單詞的信息增益與預定閾值進行比較;以及 將信息增益小於所述預定闊值的單詞除去。
8. 如權利要求6所述的分類方法,其特徵在於,所述特徵降維步驟包括計算所述均衡訓練文本集中每個單詞的信息增益; 按照信息增益的大小將每個單詞進行排序;以及 除去信息增益較小的單詞。
9. 如權利要求1所述的分類方法,其特徵在於,所述分類器為支持向 量機。
10. 如權利要求1所述的分類方法,其特徵在於,還包括對所述初始 訓練文本集進行預處理的步驟,以過濾常用詞以及進行詞根還原。
全文摘要
一種文本分類方法,包括以下步驟根據類別將初始訓練文本集劃分為多個分別包含相同類別文本的子集,並從每個子集中抽取出對應的概率主題模型;利用對應的概率主題模型生成新的文本來均衡所述多個子集的類別;根據所述多個子集對應的均衡訓練文本集構造分類器;以及利用所述分類器進行文本分類。本發明能夠提高文本分類方法在數據傾斜條件下的分類效果。
文檔編號G06F17/30GK101587493SQ20091014228
公開日2009年11月25日 申請日期2009年6月29日 優先權日2009年6月29日
發明者曹歡歡, 林洋港, 陳恩紅, 馬海平 申請人:中國科學技術大學