新四季網

一種基於概率單詞選擇和監督主題模型的文本分類方法

2023-09-18 15:38:20

一種基於概率單詞選擇和監督主題模型的文本分類方法
【專利摘要】本發明公開了一種基於概率單詞選擇和監督主題模型的文本分類方法。包括如下步驟:1)去除訓練文本中的標點符號,統計詞頻信息及類別信息,並形成單詞表和類別表;2)初始化主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣;3)根據訓練文本的單詞列表及其類別迭代更新主題比例矢量、主題單詞矩陣、主題單詞鑑別度矩陣和回歸係數矩陣;4)對於測試文本,統計詞頻信息,然後利用主題比例矢量、主題單詞矩陣、主題單詞鑑別度矩陣和回歸係數矩陣進行分類。本發明能夠最大程度地減輕文本分類時繁雜的預處理過程,可以更加準確地對測試文本進行分類。本發明還能挖掘出主題中單詞的鑑別度,以形象化展示文本中單詞的重要性。
【專利說明】一種基於概率單詞選擇和監督主題模型的文本分類方法
【技術領域】
[0001]本發明涉及概率單詞選擇、監督主題模型,尤其涉及一種基於概率單詞選擇和監督主題模型的文本分類方法。
【背景技術】
[0002]網際網路的出現使得人們獲取信息越來越方便。然而,網際網路的快速發展所產生的海量數據同樣為人們對數據分析、利用帶來了巨大的困難。因此,自動地組織,管理和挖掘數據變得越來越重要。因為主題模型的潛在結構的可解釋性,如PLSA(ProbabilisticLatent Semantic Analysis)、LDA(Latent Dirichlet Allocation)等,它們廣泛地用於挖掘文本的低維表達。主題模型假設文本中所有的單詞都是從一個叫做「主題」的多項分布中產生而來,而文本則是由這些主題混合而成。
[0003]傳統的LDA是基於BOW (Bag Of Words)的無監督模型,不能很好地利用文本常常伴有的監督信息,如伴隨新聞文本的類別信息、伴隨電影文本的評分信息等。為了克服LDA在處理伴隨有監督信息的文本時的不足,人們提出了 LDA的擴展模型。例如,Blei等人將文本的監督信息看作文本單詞的主題結構上的響應,並且以回歸的方式將文本的監督信息和文本單詞聯繫了起來。他們稱之為監督LDA。監督LDA構造了一個分析伴隨有監督信息的文本的框架模型,在分析伴隨有評分信息的電影文本上取得了成功。之後,Wang等人將監督LDA擴展到了文本的分類上來。
[0004]和傳統的LDA—樣,監督LDA同樣需要對文本進行大量的繁瑣的預處理。不進行預處理或者不當的預處理,都會使得模型面對的文本數據包含冗餘的數據,從而影響主題模型的性能。另一方面,忽視主題中單詞相對於鑑別信息所體現出來的不一樣的重要性(或可做成鑑別度)同樣會對主題模型的性能造成影響。最後,直接基於單詞而非主題結構的監督模型則不能利用廣泛存在的單詞多義性。
[0005]針對這些方法的不足,我們提出了一個基於概率單詞選擇和監督主題模型的文本分類方法,並將其運用在了從http://web.1st.utl.Pt/?acardoso/datasets/下載的新聞文本20neWSgroUpS上。該方法首先為主題中的單詞構造了各自不同的鑑別度,這個鑑別度依賴與單詞本身和其對應的主題;其次,當每篇文本的單詞產生之後,該方法通過以文本單詞鑑別度為參數的伯努利分布來對單詞進行篩選,篩選後的單詞將會以兩種不同的權重中的一種參與到文本監督信息的生成;最後,通過在文本中單詞新的權重上的回歸產生了文本的類別。通過在訓練文本上的學習過程,該方法能很好地學習到單詞的鑑別度並用於分類測試文本。

【發明內容】

[0006]本發明的目的是克服現有推薦技術的不足,提供一種基於概率單詞選擇和監督主題模型的文本分類方法。
[0007]基於概率單詞選擇和監督主題模型的文本分類方法,包括如下步驟:[0008]I)去除訓練文本中的標點符號,統計詞頻信息及類別信息,並形成單詞表和類別表;
[0009]2)初始化主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣;
[0010]3)根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣;
[0011]4)對於測試文本,統計詞頻信息,然後利用主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣進行分類。
[0012]所述的去除訓練文本中的標點符號,統計詞頻信息及類別信息,並形成單詞表和類別表的步驟包括:
[0013]2.1)去除訓練文本中的標點符號,順序掃描訓練文本中的所有單詞,每個不同的單詞保留一個,最終形成一個大小為V的詞彙表,順序掃描每個訓練文本的類別,每個不同的類別保留一個,最終形成一個大小為C的文本類別表;
[0014]2.2)統計訓練文本的詞頻信息,加上訓練文本所屬的類別信息,得到訓練文本TRAIN = {((wd, fd, yd)), d = I,…,DtJ ,其中 Dtr 表示訓練文本的數目,wd = {(Wdm), m =1,-,Md,wdm e {I,…,V}}表示訓練文本d的所有不同的單詞,Md表示訓練文本d中不同的單詞的個數;fd= {(fdn.)? m = I,…,Md, Ifdm e Z+I表示訓練文本d中每個不同的單詞出現的頻數,Z+表示正整數;yde {I,…,C}表示訓練文本d所屬的類別。
[0015]所述的初始化主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣的步驟包括:
[ [0020]所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣的方法是:當算法沒有滿足終止條件時,反覆迭代執行以下步驟:
[ [0027]4.2)對於所有訓練文本(wd,fd,yd),d=l,…,Dfe,進行變分推理,並更新有關統計變量 Ntv, Stv, Ed 和 Qd;.[0054](5.9)更新A的每個元素:
[0056](5.10)更新訓練文本d的統計期望edm:
[0058](5.11)更新訓練文本d的統計方差qdm [0060]所述的步驟4.3)具體是:
[0061]6.1)由式子 V得到 β 的每個
元素;
[0062]6.2)由式子 V 得到 Ψ 的每個元素;
[0063]6.3)用 Newton-Raphson 算法最大化下式:
[0064] [0065]從而求出α,其中, 表示digamma函數;
[0066]6.4)求取η來最大化目標函數F( η):
[0067] [0069]其中,最大化F (η)採用共軛梯度下降或者梯度下降的方法。
[0070]所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣所述的定義的終止條件是:所有文本的似然概率之和的改變量小於給定參數學習似然變化閾值或者已經達到了參數學習最大迭代次數;
[0071]所述的對於測試文本,統計詞頻信息,然後利用主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣進行分類的步驟是:
[0072]8.1)對於測試文本,去除標點符號,統計詞頻信息,得到測試文本 [0073]8.2)對於每篇測試文本(wt,ft),t=l,…,Dte,進行變分推理,並進行類別預測;
[0074]所述的步驟8.2)具體是:對於所有測試文本的(wt,ft),t=l,…,Dte,執行下述步驟:
[0075](9.1)初始化主題比例變分參數 [0076](9.2)初始化主題分配變分參數[0077](9.3)初始化單詞鑑別值變分參數μ = {(μ m),m=l,…,Mj ;
[0078](9.4)初始化已完成迭代次數Uer=O ;
[0079](9.5)對訓練文本t中所有不同的單詞及其詞頻(Wtm,ftm),m=l,…,Mt,執行下述步驟:
[0080](e)運用固定點迭代的方法學習單μ m:
[0081] [0082](f)刪除舊的ΦΛ對Y的影響:
[0083] [0084](g)更新
[0085] [0087]其中,Ψ表示digamma函數;
[0088](h)更新 Y:
[0089]和現有技術相比,本發明能夠最大程度地減輕文本分類時繁雜的預處理過程,可以更加準確地對測試文本進行分類。除此之外,本發明還能挖掘出主題中單詞的鑑別度,以形象化展示文本中單詞的重要性。
【專利附圖】

【附圖說明】
[0090]圖1是基於概率單詞選擇和監督主題模型的文本分類方法流程圖;
[0091]圖2是從20newsgroups學習到的4個主題中單詞的鑑別度與單詞實際分布的熵比較圖。
【具體實施方式】
[0092]基於概率單詞選擇和監督主題模型的文本分類方法,包括如下步驟:
[0093]I)去除訓練文本中的標點符號,統計詞頻信息及類別信息,並形成單詞表和類別表;
[0094]2)初始化主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣;
[0095]3)根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣;
[0096]4)對於測試文本,統計詞頻信息,然後利用主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣進行分類。
[0097]所述的去除訓練文本中的標點符號,統計詞頻信息及類別信息,並形成單詞表和類別表的步驟包括:
[0098]2.1)去除訓練文本中的標點符號,順序掃描訓練文本中的所有單詞,每個不同的單詞保留一個,最終形成一個大小為V的詞彙表,順序掃描每個訓練文本的類別,每個不同的類別保留一個,最終形成一個大小為C的文本類別表;[0099]2.2)統計訓練文本的詞頻信息,加上訓練文本所屬的類別信息,得到訓練文本TRAIN= {((wd, fd, yd)),d=l,…,DtJ ,其中 Dtr 表示訓練文本的數目,Wd= {(Wdm),m=l,...,Md,WdfflG {I,…,V}}表示訓練文本d的所有不同的單詞,Md表示訓練文本d中不同的單詞的個數;fd= KfdJ,m=l,…,Md, fdm e Z+}表示訓練文本d中每個不同的單詞出現的頻數,Z+表示正整數;yde {I,…,C}表示訓練文本d所屬的類別。
[0100]所述的初始化主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣的步驟包括:
[0101]3.1)初始化主題比例矢量a={(ak),k=l,…,K},其中K表示主題的個數;
[0102]3.2)初始化主題單詞矩陣 β ={ ( β kv), k=l,..., K, v=l,..., V};
[0103]3.3)初始化主題單詞鑑別度矩陣 ¥ = {(¥kv), k=l,..., K, v=l,..., V};
[0104]3.4)初始化回歸係數矩陣 Il = Kncv), c=l,…,C,v=l,…,V}。
[0105]所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣的方法是:當算法沒有滿足終止條件時,反覆迭代執行以下步驟:
[0106]4.1)置下述統計量的所有元素的值為O:
[0107](4.1.1)主題中單詞的個數矩陣 N={ (nkv), k=l,..., K, v=l,..., V};
[0108](4.1.2)主題中顯著性單詞的數量矩陣S=Kskv),k=l,-,K, v=l,…,V};
[0109](4.1.3)主題比例累積量 A={(ak),k=l,…,K}; [0110](4.1.4)訓練文本的統計期望 E={(edm), d=l, Dtrain, m=l,…,Md};
[0111](4.1.5)訓練文本的統計方差 Q=Kqdm), d=l,..., Dtr, m=l,...,Md};
[0112]4.2)對於所有訓練文本(wd,fd,yd),d=l,…,Dti,進行變分推理,並更新有關統計變量 Ntv, Stv, Ed 和 Qd;
[0113]4.3)用N,S來學習β和Ψ ;用六來學習α ;用E和Q來學習η。
[0114]所述的步驟4.2)具體是:對於所有訓練文本的(wd, fd, yd), d=l,..., Dta,執行下述步驟:
[0115](5.1)初始化主題比例變分參數Y = {( Y k), k = I,...,K};
[0116](5.2)初始化主題分配變分參數 Φ = {(<i)mk), m = I,...,Md, k= I,...,K};
[0117](5.3)初始化單詞鑑別值變分參數μ = {( μ m), m = I,..., Md};
[0118](5.4)初始化已完成迭代次數iter = O ;
[0119](5.5)對訓練文本d中所有不同的單詞及其詞頻(wdm,fdm),m = 1,…,Md,執行下述步驟:
[0120](a)運用固定點迭代的方法學習μ m:
]ogT^V~= Σ φνι'κ logI'-^1".....— + 辦,-(£l —€ο)
1 ^rn1 Wkwdm
[0121]Κ_1

^ml — ^mO

+ "m0(l — "m))
[0122] 其中,e I和e ^分別表示峰鑑別值單詞的權重和谷鑑別值單詞的權重,..[0171]實施例
[0172]從 http: //web, ist.utl.Pt/ ~acardoso/datasets/ 下裁的訓練文本20ng-train-alΙ-terms和測試文本20ng-test-all_terms,去掉出現不超過3個單詞的文本,得到Dt,=l 1285篇訓練文本和Dt,=8571篇測試文本。實驗中,主題個數K設置為20,其他實驗參數選取如表1:
[0173]表1
[0174]
峰鑑別值單詞的權重E1 參數學習似然變化閾值變分推理似然變化閾值0.9 0.0001 0.001谷鑑別值單詞的權重eQ 參數學習最大迭代次數變分推理最大迭代次f_O1I_50_20_
[0175]對於訓練文本,執行下列步驟:
[0176]I)去除標點符號,統計詞頻信息及類別信息,並形成大小為73712的單詞表和大小為20的類別表;
[0177]2)初始化主題比例矢量α,主題單詞矩陣β,主題單詞鑑別度矩陣Ψ和回歸係數矩陣Π:
[0178](2.1)對於 α,ψ 和 η,a k=0.1, Vkv=0.5, ncv=0,k=l,…,K,c=l,…,C,v=l,...,V;
[0179](2.2)對於 β,先令= ^ + 0.1 X randQ, k=l,…,K,v=l,...,ν,其中 rand函數隨機產生O~I之間 的數;然後對β進行歸一化處理:
_] ^kv = ,.^ k = I,..K V = I,…,V,

^vi = I Pkvf
[0181]其中示歸一化前的元素值;
[0182]3)根據訓練文本的單詞列表及其類別迭代更新α,β,V和Il:當算法沒有滿足終止條件時,反覆迭代執行以下步驟:
[0183](3.1)置下述統計量的所有元素的值為O:
[0184](a)主題中單詞的個數矩陣 N={ (nkv), k=l,..., K, v=l,..., V};
[0185](b)主題中顯著性單詞的數量矩陣S={ (skv), k=l,..., K, v=l,..., V};
[0186](c)主題比例累積量 A={ (ak), k=l,...,K};
[0187](d)訓練文本的統計期望 E=Kedm), d=l,…,Dtrain, m=l,...,Md};
[0188](e)訓練文本的統計方差 Q=KqJ,d=l,…,Dtr,m=l,...,Md};
[0189](3.2)對於每篇訓練文本(wd, fd,yd),d=l,…,Dta,進行變分推理,並更新有關統計變量Ntv, Stv, Ed和Qd,具體是執行下述步驟:
[0190](a)初始化主題分配變分參數Φ:

I
[0191]cPmk = ψ>πι = t …,Md,k = I,…,if;
[0192](b)初始化單詞鑑別值變分參數μ:
[0193]μ m=0.5, m=l,..., Md ;[0194](c)初始化主題比例變分參數Y: [0196](d)初始化已完成迭代次數iter=0 ;
[0197](e)對訓練文本d中所有不同的單詞及其詞頻(wdm,fdm),m=l,…,Md,執行下述步驟:
[0198](el)運用固定點迭代的方法學習單詞Wdm對應的鑑別值變分參數μπ:
hm0 = Ic=i 9mc exp(e0^CVVdm/dm),M gmc 由以下方式計算:
[0202] [0203](e2)刪除舊的ΦΛ對Y的影響:
[0204]Yk=YkUdni, k=l,…,K
[0205](e3)更新(J)mk, k=l,...,K:
[0206]
[0207]其中,Ψ表示digamma函數;
[0208](e4)更新 y:
[0209]k=l,…,K
[0210](f)由訓練文本d對應的Y,Φ和μ計算訓練文本d的似然概率,如果單文本似然概率的改變量大於給定變分推理似然變化閾值且已完成迭代次數iter小於變分推理最大迭代次數,則iter=iter+l,轉到步驟(e)繼續執行;
[0211 ] (g)更新N的每個元素:
ΣΜ?
?mk fdwA (y^dmf , kλ V ~ I,..、V,

m~ I
[0213]其中,δ(a,b)表示 Kronecker delta 函數,當 a=b 時,δ (a,b) =1 ;而 a # b 時,δ (a,b)=0 ;
[0214](h)更新S的每個元素:[0234]2)對於每篇測試文本(wt,ft),t=l,…,Dte,進行變分推理和類別預測:
[0235](a)初始化主題比例變分參數Y = {( Yk), k=l,...,K};
[0236](b)初始化主題分配變分參數 Φ = {( <i)mk), m=l,..., Mt, k=l,...,K};
[0237](c)初始化單詞鑑別值變分參數μ = {(μ m), m=l,..., Mj ;
[0238](d)初始化已完成迭代次數iter=0 ;
[0239](e)對訓練文本t中所有不同的單詞及其詞頻(wtm, ftm), m=l,..., Mt,執行下述步驟:
[0240](el)運用固定點迭代的方法學習μ m:
[0241 ][0242](e2)刪除舊的ΦΛ對Y的影響:
[0246]其中,Ψ表示digamma函數;
[0247](e4)更新 Y:
[0248]k=l,…,K
[0249](f)由測試文本t對應的Y,Φ和μ計算測試文本t的似然概率,如果單文本似然概率的改變量大於給定變分推理似然變化閾值且已完成迭代次數iter小於變分推理最大迭代次數,則iter=iter+l,轉到步驟(e)繼續執行;
[0250](g)得到測試文本t的統計期望etm:
[0251] [0253]在得到測試文本的預測類別之後,我們將預測結果與測試文本的真實類別用Accuracy, MacroAUC, MicroAUC, MacroFl, MicroFl等5個評價標準進行比對,結果如表2所示。結果表明了本發明良好的預測能力,在總共20個類的數據上,達到了 80%的預測精確度。
[0254]表2 [0256]另外,我們也學習到了主題中單詞的鑑別度。表3展示了學習到的4個主題中的前10個高鑑別度的單詞。這裡,高鑑別度是指鑑別度高於0.9。不難發現,雖然我們對文本數據只做過極其簡單地預處理,本發明依然能很好的發現體現主題的高鑑別度的單詞。例如,就「atheism」(無神論)而言,本發明挖掘除了能強烈關聯這一意味的「jesus」(耶穌)「church」(教堂)「Christianity」(基督教),「hell」(地獄)等等。
[0257]表3
[0258]
I前?ο個高鑑別度的單詞
【權利要求】
1.一種基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於包括如下步驟: 1)去除訓練文本中的標點符號,統計詞頻信息及類別信息,並形成單詞表和類別表; 2)初始化主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣; 3)根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣; 4)對於測試文本,統計詞頻信息,然後利用主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣進行分類。
2.根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的去除訓練文本中的標點符號,統計詞頻信息及類別信息,並形成單詞表和類別表的步驟包括: 2.1)去除訓練文本中的標點符號,順序掃描訓練文本中的所有單詞,每個不同的單詞保留一個,最終形成一個大小為V的詞彙表,順序掃描每個訓練文本的類別,每個不同的類別保留一個,最終形成一個大小為C的文本類別表; 2.2)統計訓練文本的詞頻信息,加上訓練文本所屬的類別信息,得到訓練文本TRAIN= {((wd, fd, yd)),d=l,…,DtJ ,其中 Dtr 表示訓練文本的數目,Wd= {(Wdm),m=l,...,Md,WdfflG {I,…,V}}表示訓練文本d的所有不同的單詞,Md表示訓練文本d中不同的單詞的個數;fd = KfdmLm=I,…,Md, Ifdm e Z+I表示訓練文本d中每個不同的單詞出現的頻數,Z+表示正整數;yde {I,…,C}表示訓練文本d所屬的類別。
3.根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的初始化主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣的步驟包括: 3.1)初始化主題比例矢量a={(ak),k=l,…,K},其中K表示主題的個數;
3.2)初始化主題單詞矩陣 β ={(β kv), k=l,..., K, v=l,..., V}; 3.3)初始化主題單詞鑑別度矩陣¥= {(¥kv), k=l,..., K, v=l,...,V}; 3.4)初始化回歸係數矩陣IT= Kncv),c=l,…,C,v=l,…,V}。
4. 根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣的方法是:當算法沒有滿足終止條件時,反覆迭代執行以下步驟: 4.1)置下述統計量的所有元素的值為O:
(4.1.1)主題中單詞的個數矩陣 N={ (nkv), k=l,..., K, v=l,..., V}; (4.1.2)主題中顯著性單詞的數量矩陣S=Kskv),k=l,-,K, v=l,…,V}; (4.1.3)主題比例累積量A=Kak),k=l,…,K}; (4.1.4)訓練文本的統計期望 E=Kedm), d=l,…,Dtrain, m=l,…,MdI ; (4.1.5)訓練文本的統計方差Q=Kqdm),d=l,…,Dtr, m=l,…,MdI ; 4.2)對於所有訓練文本(wd,fd,yd),d=l,…,Dy進行變分推理,並更新有關統計變量Ntv, Stv, Ed 和 Qd; 4.3)用N,S來學習β和Ψ ;用A來學習α ;用E和Q來學習η。
5.根據權利要求4所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的步驟4.2)具體是:對於所有訓練文本的(wd,fd,yd),d=l,…,Dta,執行下述步驟: (5.1)初始化主題比例變分參數Y = {Uk),k=l,…,K};
(5.2)初始化主題分配變分參數 <i) = {(<i)mk), m=l,..., Md, k=l,...,K}; (5.3)初始化單詞鑑別值變分參數y={(ym),m=l,..., Md}; (5.4)初始化已完成迭代次數iter=0 ; (5.5)對訓練文本d中所有不同的單詞及其詞頻(Wdn^fdffl),m=l,…,Md,執行下述步驟: (a)運用固定點迭代的方法學習μπ: 其中,^ ι和e。分別表示峰鑑別值單詞的權重和谷鑑別值單詞的權重,"77tl ~ ^jc=I &?nc:9 "mG — Lc=I exp(fo"t7Vi/rfm/cim),而 Snc由以下方式計算: (b)刪除舊的ΦΛ對Y的影響:
Yk=YiTcKkfd^k=I,...,K
(C)更新(J)mk: 其中,ψ表示diga_a函數; (d)更新Y:
Yk=Yk+cKkfdm, k=l,...,K (5.6)由訓練文本d對應的 ,φ和μ計算訓練文本d的似然概率,如果單文本似然概率的改變量大於給定變分推理似然變化閾值且已完成迭代次數iter小於變分推理最大迭代次數,則iter = iter+1,轉到步驟(5.5)繼續執行; (5.7)更新N的每個元素:
其中,δ (a, b)表不 Kronecker delta 函數,當 a = b 時,δ (a, b) = I ;而 a 古 b 時,δ (a, b) = O ; (5.8)更新S的每個元素:
6.根據權利要求4所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的步驟4.3)具體是: 6.1)由式子/V1 — ^kv/ Σζ>=ι ^kv' > ^ L..Kv= I,…,V 得到 β 的每個元素; 6.2)由式子 Vkv = skv/nkv, k = I,..., K, ν = I,…,V 得到 Ψ 的每個元素; 6.3)用Newton-Raphson算法最大化下式:
7.根據權利要求4所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的根據訓練文本的單詞列表及其類別迭代更新主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣所述的定義的終止條件是:所有文本的似然概率之和的改變量小於給定參數學習似然變化閾值或者已經達到了參數學習最大迭代次數。
8.根據權利要求1所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的對於測試文本,統計詞頻信息,然後利用主題比例矢量,主題單詞矩陣,主題單詞鑑別度矩陣和回歸係數矩陣進行分類的步驟是: ` 8.1)對於測試文本,去除標點符號,統計詞頻信息,得到測試文本TEST = {((wt,ft)),t=1,…,DteJ ,其中Dte表示測試文本的數目,wt = {(wtm),m = I,…,Mt,wtm e {1,…,V}}表示測試文本t的所有不同的單詞,Mt表示訓練文本t中不同的單詞的個數;ft = Kftm),m = I,..., Mt, ftm e Z+}表示訓練文本t中每個不同的單詞出現的頻數; `8.2)對於每篇測試文本(wt,ft),t = 1,…,Dte,進行變分推理,並進行類別預測。
9.根據權利要求8所述的基於概率單詞選擇和監督主題模型的文本分類方法,其特徵在於所述的步驟8.2)具體是:對於所有測試文本的(wt,ft),t = 1,…,Dte,執行下述步驟: (9.1)初始化主題比例變分參數Y = {(Yk),k= I,..., K};(9.2)初始化主題分配變分參數 Φ = {(<i)mk), m = I,..., Mt, k = I,...,K}; (9.3)初始化單詞鑑別值變分參數μ = {( μ m), m = I,..., Mj ; (9.4)初始化已完成迭代次數iter = O ; (9.5)對訓練文本t中所有不同的單詞及其詞頻(wtm,ftm),m = 1,…,Mt,執行下述步驟: (e)運用固定點迭代的方法學習單μπ:
【文檔編號】G06F17/30GK103473309SQ201310410657
【公開日】2013年12月25日 申請日期:2013年9月10日 優先權日:2013年9月10日
【發明者】莊越挺, 吳飛, 高海東 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀