一種基於概率單詞選擇和監督主題模型的文本分類方法

2023-09-18 15:38:20 2

一種基於概率單詞選擇和監督主題模型的文本分類方法
【專利摘要】本發明公開了一種基於概率單詞選擇和監督主題模型的文本分類方法。包括如下步驟：1）去除訓練文本中的標點符號，統計詞頻信息及類別信息，並形成單詞表和類別表；2）初始化主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣；3）根據訓練文本的單詞列表及其類別迭代更新主題比例矢量、主題單詞矩陣、主題單詞鑑別度矩陣和回歸係數矩陣；4）對於測試文本，統計詞頻信息，然後利用主題比例矢量、主題單詞矩陣、主題單詞鑑別度矩陣和回歸係數矩陣進行分類。本發明能夠最大程度地減輕文本分類時繁雜的預處理過程，可以更加準確地對測試文本進行分類。本發明還能挖掘出主題中單詞的鑑別度，以形象化展示文本中單詞的重要性。
【專利說明】一種基於概率單詞選擇和監督主題模型的文本分類方法
【技術領域】
[0001]本發明涉及概率單詞選擇、監督主題模型，尤其涉及一種基於概率單詞選擇和監督主題模型的文本分類方法。
【背景技術】
[0002]網際網路的出現使得人們獲取信息越來越方便。然而，網際網路的快速發展所產生的海量數據同樣為人們對數據分析、利用帶來了巨大的困難。因此，自動地組織，管理和挖掘數據變得越來越重要。因為主題模型的潛在結構的可解釋性，如PLSA(ProbabilisticLatent Semantic Analysis)、LDA(Latent Dirichlet Allocation)等，它們廣泛地用於挖掘文本的低維表達。主題模型假設文本中所有的單詞都是從一個叫做「主題」的多項分布中產生而來，而文本則是由這些主題混合而成。
[0003]傳統的LDA是基於BOW (Bag Of Words)的無監督模型，不能很好地利用文本常常伴有的監督信息，如伴隨新聞文本的類別信息、伴隨電影文本的評分信息等。為了克服LDA在處理伴隨有監督信息的文本時的不足，人們提出了 LDA的擴展模型。例如，Blei等人將文本的監督信息看作文本單詞的主題結構上的響應，並且以回歸的方式將文本的監督信息和文本單詞聯繫了起來。他們稱之為監督LDA。監督LDA構造了一個分析伴隨有監督信息的文本的框架模型，在分析伴隨有評分信息的電影文本上取得了成功。之後，Wang等人將監督LDA擴展到了文本的分類上來。
[0004]和傳統的LDA—樣，監督LDA同樣需要對文本進行大量的繁瑣的預處理。不進行預處理或者不當的預處理，都會使得模型面對的文本數據包含冗餘的數據，從而影響主題模型的性能。另一方面，忽視主題中單詞相對於鑑別信息所體現出來的不一樣的重要性(或可做成鑑別度)同樣會對主題模型的性能造成影響。最後，直接基於單詞而非主題結構的監督模型則不能利用廣泛存在的單詞多義性。
[0005]針對這些方法的不足，我們提出了一個基於概率單詞選擇和監督主題模型的文本分類方法，並將其運用在了從http://web.1st.utl.Pt/?acardoso/datasets/下載的新聞文本20neWSgroUpS上。該方法首先為主題中的單詞構造了各自不同的鑑別度，這個鑑別度依賴與單詞本身和其對應的主題；其次，當每篇文本的單詞產生之後，該方法通過以文本單詞鑑別度為參數的伯努利分布來對單詞進行篩選，篩選後的單詞將會以兩種不同的權重中的一種參與到文本監督信息的生成；最後，通過在文本中單詞新的權重上的回歸產生了文本的類別。通過在訓練文本上的學習過程，該方法能很好地學習到單詞的鑑別度並用於分類測試文本。

【發明內容】

[0006]本發明的目的是克服現有推薦技術的不足，提供一種基於概率單詞選擇和監督主題模型的文本分類方法。
[0007]基於概率單詞選擇和監督主題模型的文本分類方法，包括如下步驟:[0008]I)去除訓練文本中的標點符號，統計詞頻信息及類別信息，並形成單詞表和類別表;
[0009]2)初始化主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣；
[0010]3)根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣；
[0011]4)對於測試文本，統計詞頻信息，然後利用主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣進行分類。
[0012]所述的去除訓練文本中的標點符號，統計詞頻信息及類別信息，並形成單詞表和類別表的步驟包括:
[0013]2.1)去除訓練文本中的標點符號，順序掃描訓練文本中的所有單詞，每個不同的單詞保留一個，最終形成一個大小為V的詞彙表，順序掃描每個訓練文本的類別，每個不同的類別保留一個，最終形成一個大小為C的文本類別表；
[0014]2.2)統計訓練文本的詞頻信息，加上訓練文本所屬的類別信息，得到訓練文本TRAIN = {((wd, fd, yd)), d = I,…，DtJ ,其中 Dtr 表示訓練文本的數目，wd = {(Wdm), m =1，-,Md,wdm e {I,…，V}}表示訓練文本d的所有不同的單詞，Md表示訓練文本d中不同的單詞的個數；fd= {(fdn.)? m = I,…，Md, Ifdm e Z+I表示訓練文本d中每個不同的單詞出現的頻數，Z+表示正整數；yde {I,…，C}表示訓練文本d所屬的類別。
[0015]所述的初始化主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣的步驟包括:
[ [0020]所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣的方法是:當算法沒有滿足終止條件時，反覆迭代執行以下步驟:
[ [0027]4.2)對於所有訓練文本(wd，fd，yd)，d=l,…，Dfe，進行變分推理，並更新有關統計變量 Ntv, Stv, Ed 和 Qd；.[0054](5.9)更新A的每個元素:
[0056](5.10)更新訓練文本d的統計期望edm:
[0058](5.11)更新訓練文本d的統計方差qdm [0060]所述的步驟4.3)具體是:
[0061]6.1)由式子 V得到 β 的每個
元素；
[0062]6.2)由式子 V 得到 Ψ 的每個元素；
[0063]6.3)用 Newton-Raphson 算法最大化下式:
[0064] [0065]從而求出α，其中，表示digamma函數；
[0066]6.4)求取η來最大化目標函數F( η):
[0067] [0069]其中，最大化F (η)採用共軛梯度下降或者梯度下降的方法。
[0070]所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣所述的定義的終止條件是:所有文本的似然概率之和的改變量小於給定參數學習似然變化閾值或者已經達到了參數學習最大迭代次數；
[0071]所述的對於測試文本，統計詞頻信息，然後利用主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣進行分類的步驟是:
[0072]8.1)對於測試文本，去除標點符號，統計詞頻信息，得到測試文本 [0073]8.2)對於每篇測試文本(wt，ft)，t=l,…，Dte，進行變分推理，並進行類別預測；
[0074]所述的步驟8.2)具體是:對於所有測試文本的(wt,ft),t=l,…，Dte,執行下述步驟:
[0075](9.1)初始化主題比例變分參數 [0076](9.2)初始化主題分配變分參數[0077](9.3)初始化單詞鑑別值變分參數μ = {(μ m)，m=l，…，Mj ；
[0078](9.4)初始化已完成迭代次數Uer=O ；
[0079](9.5)對訓練文本t中所有不同的單詞及其詞頻(Wtm，ftm)，m=l,…，Mt，執行下述步驟:
[0080](e)運用固定點迭代的方法學習單μ m:
[0081] [0082](f)刪除舊的ΦΛ對Y的影響:
[0083] [0084](g)更新
[0085] [0087]其中，Ψ表示digamma函數；
[0088](h)更新 Y:
[0089]和現有技術相比，本發明能夠最大程度地減輕文本分類時繁雜的預處理過程，可以更加準確地對測試文本進行分類。除此之外，本發明還能挖掘出主題中單詞的鑑別度，以形象化展示文本中單詞的重要性。
【專利附圖】

【附圖說明】
[0090]圖1是基於概率單詞選擇和監督主題模型的文本分類方法流程圖；
[0091]圖2是從20newsgroups學習到的4個主題中單詞的鑑別度與單詞實際分布的熵比較圖。
【具體實施方式】
[0092]基於概率單詞選擇和監督主題模型的文本分類方法，包括如下步驟:
[0093]I)去除訓練文本中的標點符號，統計詞頻信息及類別信息，並形成單詞表和類別表;
[0094]2)初始化主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣；
[0095]3)根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣；
[0096]4)對於測試文本，統計詞頻信息，然後利用主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣進行分類。
[0097]所述的去除訓練文本中的標點符號，統計詞頻信息及類別信息，並形成單詞表和類別表的步驟包括:
[0098]2.1)去除訓練文本中的標點符號，順序掃描訓練文本中的所有單詞，每個不同的單詞保留一個，最終形成一個大小為V的詞彙表，順序掃描每個訓練文本的類別，每個不同的類別保留一個，最終形成一個大小為C的文本類別表；[0099]2.2)統計訓練文本的詞頻信息，加上訓練文本所屬的類別信息，得到訓練文本TRAIN= {((wd, fd, yd))，d=l,…，DtJ ,其中 Dtr 表示訓練文本的數目，Wd= {(Wdm)，m=l,...,Md,WdfflG {I,…，V}}表示訓練文本d的所有不同的單詞，Md表示訓練文本d中不同的單詞的個數；fd= KfdJ，m=l，…，Md, fdm e Z+}表示訓練文本d中每個不同的單詞出現的頻數，Z+表示正整數；yde {I,…，C}表示訓練文本d所屬的類別。
[0100]所述的初始化主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣的步驟包括:
[0101]3.1)初始化主題比例矢量a={(ak)，k=l，…，K}，其中K表示主題的個數；
[0102]3.2)初始化主題單詞矩陣 β ={ ( β kv), k=l,..., K, v=l,..., V}；
[0103]3.3)初始化主題單詞鑑別度矩陣￥ = {(￥kv), k=l,..., K, v=l,..., V}；
[0104]3.4)初始化回歸係數矩陣 Il = Kncv), c=l，…，C，v=l，…，V}。
[0105]所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣的方法是:當算法沒有滿足終止條件時，反覆迭代執行以下步驟:
[0106]4.1)置下述統計量的所有元素的值為O:
[0107](4.1.1)主題中單詞的個數矩陣 N={ (nkv), k=l,..., K, v=l,..., V}；
[0108](4.1.2)主題中顯著性單詞的數量矩陣S=Kskv)，k=l，-,K, v=l,…，V};
[0109](4.1.3)主題比例累積量 A={(ak)，k=l，…，K}; [0110](4.1.4)訓練文本的統計期望 E={(edm), d=l, Dtrain, m=l,…，Md};
[0111](4.1.5)訓練文本的統計方差 Q=Kqdm), d=l,..., Dtr, m=l,...，Md};
[0112]4.2)對於所有訓練文本(wd，fd，yd)，d=l，…，Dti，進行變分推理，並更新有關統計變量 Ntv, Stv, Ed 和 Qd；
[0113]4.3)用N，S來學習β和Ψ ;用六來學習α ;用E和Q來學習η。
[0114]所述的步驟4.2)具體是:對於所有訓練文本的(wd, fd, yd), d=l,..., Dta,執行下述步驟:
[0115](5.1)初始化主題比例變分參數Y = {( Y k), k = I,...,K};
[0116](5.2)初始化主題分配變分參數 Φ = {(<i)mk), m = I,...,Md, k= I,...,K};
[0117](5.3)初始化單詞鑑別值變分參數μ = {( μ m), m = I,..., Md}；
[0118](5.4)初始化已完成迭代次數iter = O ；
[0119](5.5)對訓練文本d中所有不同的單詞及其詞頻(wdm，fdm)，m = 1，…，Md，執行下述步驟:
[0120](a)運用固定點迭代的方法學習μ m:
]ogT^V~= Σ φνι'κ logI'-^1".....— + 辦,-(￡l —€ο)
1 ^rn1 Wkwdm
[0121]Κ_1

^ml — ^mO

+ "m0(l — "m))
[0122] 其中，e I和e ^分別表示峰鑑別值單詞的權重和谷鑑別值單詞的權重，..[0171]實施例
[0172]從 http: //web, ist.utl.Pt/ ~acardoso/datasets/ 下裁的訓練文本20ng-train-alΙ-terms和測試文本20ng-test-all_terms,去掉出現不超過3個單詞的文本，得到Dt,=l 1285篇訓練文本和Dt,=8571篇測試文本。實驗中，主題個數K設置為20，其他實驗參數選取如表1:
[0173]表1
[0174]
峰鑑別值單詞的權重E1 參數學習似然變化閾值變分推理似然變化閾值0.9 0.0001 0.001谷鑑別值單詞的權重eQ 參數學習最大迭代次數變分推理最大迭代次f_O1I_50_20_
[0175]對於訓練文本，執行下列步驟:
[0176]I)去除標點符號，統計詞頻信息及類別信息，並形成大小為73712的單詞表和大小為20的類別表；
[0177]2)初始化主題比例矢量α，主題單詞矩陣β，主題單詞鑑別度矩陣Ψ和回歸係數矩陣Π:
[0178](2.1)對於 α，ψ 和 η，a k=0.1, Vkv=0.5, ncv=0,k=l,…，K,c=l,…，C,v=l,...,V；
[0179](2.2)對於 β，先令= ^ + 0.1 X randQ, k=l,…，K，v=l，...，ν，其中 rand函數隨機產生O~I之間的數；然後對β進行歸一化處理:
_] ^kv = ,.^ k = I,..K V = I,…，V,

^vi = I Pkvf
[0181]其中示歸一化前的元素值；
[0182]3)根據訓練文本的單詞列表及其類別迭代更新α，β，V和Il:當算法沒有滿足終止條件時，反覆迭代執行以下步驟:
[0183](3.1)置下述統計量的所有元素的值為O:
[0184](a)主題中單詞的個數矩陣 N={ (nkv), k=l,..., K, v=l,..., V}；
[0185](b)主題中顯著性單詞的數量矩陣S={ (skv), k=l,..., K, v=l,..., V}；
[0186](c)主題比例累積量 A={ (ak), k=l,...,K};
[0187](d)訓練文本的統計期望 E=Kedm), d=l,…，Dtrain, m=l,...，Md};
[0188](e)訓練文本的統計方差 Q=KqJ，d=l，…，Dtr，m=l，...，Md};
[0189](3.2)對於每篇訓練文本(wd, fd，yd)，d=l，…，Dta，進行變分推理，並更新有關統計變量Ntv, Stv, Ed和Qd,具體是執行下述步驟:
[0190](a)初始化主題分配變分參數Φ:

I
[0191]cPmk = ψ>πι = t …,Md,k = I,…，if;
[0192](b)初始化單詞鑑別值變分參數μ:
[0193]μ m=0.5, m=l,..., Md ；[0194](c)初始化主題比例變分參數Y: [0196](d)初始化已完成迭代次數iter=0 ；
[0197](e)對訓練文本d中所有不同的單詞及其詞頻(wdm，fdm)，m=l,…，Md，執行下述步驟:
[0198](el)運用固定點迭代的方法學習單詞Wdm對應的鑑別值變分參數μπ:
hm0 = Ic=i 9mc exp(e0^CVVdm/dm),M gmc 由以下方式計算:
[0202] [0203](e2)刪除舊的ΦΛ對Y的影響:
[0204]Yk=YkUdni, k=l，…，K
[0205](e3)更新(J)mk, k=l,...,K:
[0206]
[0207]其中，Ψ表示digamma函數；
[0208](e4)更新 y:
[0209]k=l,…，K
[0210](f)由訓練文本d對應的Y，Φ和μ計算訓練文本d的似然概率，如果單文本似然概率的改變量大於給定變分推理似然變化閾值且已完成迭代次數iter小於變分推理最大迭代次數，則iter=iter+l，轉到步驟(e)繼續執行；
[0211 ] (g)更新N的每個元素:
ΣΜ?
?mk fdwA (y^dmf , kλ V ~ I,..、V,

m~ I
[0213]其中，δ(a，b)表示 Kronecker delta 函數，當 a=b 時，δ (a，b) =1 ;而 a # b 時，δ (a，b)=0 ；
[0214](h)更新S的每個元素:[0234]2)對於每篇測試文本(wt，ft)，t=l,…，Dte，進行變分推理和類別預測:
[0235](a)初始化主題比例變分參數Y = {( Yk), k=l,...,K};
[0236](b)初始化主題分配變分參數 Φ = {( <i)mk), m=l,..., Mt, k=l,...,K};
[0237](c)初始化單詞鑑別值變分參數μ = {(μ m), m=l,..., Mj ；
[0238](d)初始化已完成迭代次數iter=0 ；
[0239](e)對訓練文本t中所有不同的單詞及其詞頻(wtm, ftm), m=l,..., Mt,執行下述步驟:
[0240](el)運用固定點迭代的方法學習μ m:
[0241 ][0242](e2)刪除舊的ΦΛ對Y的影響:
[0246]其中，Ψ表示digamma函數；
[0247](e4)更新 Y:
[0248]k=l,…，K
[0249](f)由測試文本t對應的Y，Φ和μ計算測試文本t的似然概率，如果單文本似然概率的改變量大於給定變分推理似然變化閾值且已完成迭代次數iter小於變分推理最大迭代次數，則iter=iter+l,轉到步驟(e)繼續執行；
[0250](g)得到測試文本t的統計期望etm:
[0251] [0253]在得到測試文本的預測類別之後，我們將預測結果與測試文本的真實類別用Accuracy, MacroAUC, MicroAUC, MacroFl, MicroFl等5個評價標準進行比對，結果如表2所示。結果表明了本發明良好的預測能力，在總共20個類的數據上，達到了 80%的預測精確度。
[0254]表2 [0256]另外，我們也學習到了主題中單詞的鑑別度。表3展示了學習到的4個主題中的前10個高鑑別度的單詞。這裡，高鑑別度是指鑑別度高於0.9。不難發現，雖然我們對文本數據只做過極其簡單地預處理，本發明依然能很好的發現體現主題的高鑑別度的單詞。例如，就「atheism」(無神論)而言，本發明挖掘除了能強烈關聯這一意味的「jesus」(耶穌)「church」(教堂)「Christianity」(基督教)，「hell」(地獄)等等。
[0257]表3
[0258]
I前?ο個高鑑別度的單詞
【權利要求】
1.一種基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於包括如下步驟: 1)去除訓練文本中的標點符號，統計詞頻信息及類別信息，並形成單詞表和類別表； 2)初始化主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣； 3)根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣； 4)對於測試文本，統計詞頻信息，然後利用主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣進行分類。
2.根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的去除訓練文本中的標點符號，統計詞頻信息及類別信息，並形成單詞表和類別表的步驟包括: 2.1)去除訓練文本中的標點符號，順序掃描訓練文本中的所有單詞，每個不同的單詞保留一個，最終形成一個大小為V的詞彙表，順序掃描每個訓練文本的類別，每個不同的類別保留一個，最終形成一個大小為C的文本類別表； 2.2)統計訓練文本的詞頻信息，加上訓練文本所屬的類別信息，得到訓練文本TRAIN= {((wd, fd, yd))，d=l,…，DtJ ,其中 Dtr 表示訓練文本的數目，Wd= {(Wdm)，m=l,...,Md,WdfflG {I,…，V}}表示訓練文本d的所有不同的單詞，Md表示訓練文本d中不同的單詞的個數；fd = KfdmLm=I,…，Md, Ifdm e Z+I表示訓練文本d中每個不同的單詞出現的頻數,Z+表示正整數；yde {I,…，C}表示訓練文本d所屬的類別。
3.根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的初始化主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣的步驟包括: 3.1)初始化主題比例矢量a={(ak)，k=l，…，K}，其中K表示主題的個數；
3.2)初始化主題單詞矩陣 β ={(β kv), k=l,..., K, v=l,..., V}； 3.3)初始化主題單詞鑑別度矩陣￥= {(￥kv), k=l,..., K, v=l,...,V}； 3.4)初始化回歸係數矩陣IT= Kncv)，c=l，…，C，v=l，…，V}。
4. 根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣的方法是:當算法沒有滿足終止條件時，反覆迭代執行以下步驟: 4.1)置下述統計量的所有元素的值為O:
(4.1.1)主題中單詞的個數矩陣 N={ (nkv), k=l,..., K, v=l,..., V}; (4.1.2)主題中顯著性單詞的數量矩陣S=Kskv)，k=l，-,K, v=l,…，V}; (4.1.3)主題比例累積量A=Kak)，k=l，…，K}； (4.1.4)訓練文本的統計期望 E=Kedm), d=l,…，Dtrain, m=l,…，MdI ； (4.1.5)訓練文本的統計方差Q=Kqdm)，d=l，…，Dtr, m=l，…，MdI ； 4.2)對於所有訓練文本(wd，fd，yd)，d=l，…，Dy進行變分推理，並更新有關統計變量Ntv, Stv, Ed 和 Qd； 4.3)用N，S來學習β和Ψ ;用A來學習α ;用E和Q來學習η。
5.根據權利要求4所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的步驟4.2)具體是:對於所有訓練文本的(wd，fd，yd)，d=l,…，Dta，執行下述步驟: (5.1)初始化主題比例變分參數Y = {Uk)，k=l，…，K}；
(5.2)初始化主題分配變分參數 <i) = {(<i)mk), m=l,..., Md, k=l,...,K}; (5.3)初始化單詞鑑別值變分參數y={(ym),m=l,..., Md}； (5.4)初始化已完成迭代次數iter=0 ； (5.5)對訓練文本d中所有不同的單詞及其詞頻(Wdn^fdffl)，m=l，…，Md，執行下述步驟: (a)運用固定點迭代的方法學習μπ: 其中，^ ι和e。分別表示峰鑑別值單詞的權重和谷鑑別值單詞的權重，"77tl ~ ^jc=I &?nc:9 "mG — Lc=I exp(fo"t7Vi/rfm/cim)，而 Snc由以下方式計算: (b)刪除舊的ΦΛ對Y的影響:
Yk=YiTcKkfd^k=I,...，K
(C)更新(J)mk: 其中，ψ表示diga_a函數； (d)更新Y:
Yk=Yk+cKkfdm, k=l，...，K (5.6)由訓練文本d對應的，φ和μ計算訓練文本d的似然概率，如果單文本似然概率的改變量大於給定變分推理似然變化閾值且已完成迭代次數iter小於變分推理最大迭代次數，則iter = iter+1,轉到步驟(5.5)繼續執行； (5.7)更新N的每個元素:
其中，δ (a, b)表不 Kronecker delta 函數，當 a = b 時，δ (a, b) = I ;而 a 古 b 時，δ (a, b) = O ； (5.8)更新S的每個元素:
6.根據權利要求4所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的步驟4.3)具體是: 6.1)由式子/V1 — ^kv/ Σζ>=ι ^kv' > ^ L..Kv= I,…，V 得到 β 的每個元素； 6.2)由式子 Vkv = skv/nkv, k = I,..., K, ν = I,…，V 得到 Ψ 的每個元素； 6.3)用Newton-Raphson算法最大化下式:
7.根據權利要求4所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣所述的定義的終止條件是:所有文本的似然概率之和的改變量小於給定參數學習似然變化閾值或者已經達到了參數學習最大迭代次數。
8.根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的對於測試文本，統計詞頻信息，然後利用主題比例矢量，主題單詞矩陣，主題單詞鑑別度矩陣和回歸係數矩陣進行分類的步驟是: ` 8.1)對於測試文本，去除標點符號，統計詞頻信息，得到測試文本TEST = {((wt,ft)),t=1,…，DteJ ,其中Dte表示測試文本的數目，wt = {(wtm)，m = I,…，Mt,wtm e {1，…，V}}表示測試文本t的所有不同的單詞，Mt表示訓練文本t中不同的單詞的個數；ft = Kftm)，m = I,..., Mt, ftm e Z+}表示訓練文本t中每個不同的單詞出現的頻數； `8.2)對於每篇測試文本(wt，ft)，t = 1，…，Dte，進行變分推理，並進行類別預測。
9.根據權利要求8所述的基於概率單詞選擇和監督主題模型的文本分類方法，其特徵在於所述的步驟8.2)具體是:對於所有測試文本的(wt，ft)，t = 1，…，Dte，執行下述步驟: (9.1)初始化主題比例變分參數Y = {(Yk),k= I,..., K}；(9.2)初始化主題分配變分參數 Φ = {(<i)mk), m = I,..., Mt, k = I,...,K}; (9.3)初始化單詞鑑別值變分參數μ = {( μ m), m = I,..., Mj ； (9.4)初始化已完成迭代次數iter = O ； (9.5)對訓練文本t中所有不同的單詞及其詞頻(wtm，ftm)，m = 1，…，Mt，執行下述步驟: (e)運用固定點迭代的方法學習單μπ:
【文檔編號】G06F17/30GK103473309SQ201310410657
【公開日】2013年12月25日申請日期:2013年9月10日優先權日:2013年9月10日
【發明者】莊越挺, 吳飛, 高海東申請人:浙江大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種基於概率單詞選擇和監督主題模型的文本分類方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法