一種基於百度百科的文本語義主題抽取方法
2023-07-05 17:44:36 1
專利名稱:一種基於百度百科的文本語義主題抽取方法
技術領域:
本發明涉及一種基於百度百科的文本語義主題抽取方法。
背景技術:
網絡已經進入了 Web2.0的時代,即以用戶為主導、由用戶提供和分享資源的網絡應用迅速發展,每天都會出現海量的新信息,如何獲取其中真正所需的內容卻是一大難題。網絡上的文本資源組合靈活、不規範、數據量大、容易創作與發布,話題涉及社會的方方面面。對這些數據進行主題跟蹤發現、分類、情感判斷將有著廣泛的應用和前景,如社會輿情監控、情感分析、商業調查等。 處理這些數據需要應用文本挖掘技術,涉及文本相似度計算、聚類、分類等方面。這些傳統方法大多是針對文本信息表述規則,包含了大量的信息內容的文本。然而,網絡文本包含許多不規則的簡寫方式,例如『發改委』和『發展改革委員會』,若用傳統的數據挖掘相似度算法,計算結果為0,因為二者沒有詞彙交集,但實際上二者在語義上相同。另外,詞彙的語義與其所處環境有關,比如『蘋果4代』與『4袋蘋果』,兩個短語中都有的『蘋果』 一詞,傳統算法計算結果相似度為0. 67,但二者風馬牛不相及。面對這些問題,傳統的文本挖掘方法顯然不能令人滿意。特別在中文領域,情況更為複雜,不僅要解決文本挖掘的基本問題,還需先對文本做準確的分詞。現有的中文分詞工具對長文本的分詞取得不錯的效果。但在短文本分詞方面還有待改進,例如『有木有銀請我7飯』(有沒有人請我吃飯),通過ICTCLAS分詞結果處理的分詞結果是『有木有銀請我7飯』,與實際意思相差很大,對進一步所要做的語義挖掘很不利。要解決這些困局,需要一個能涵蓋社會各領域的知識庫,不僅能提供全面、準確、複雜的知識關係,還要能及時跟進社會熱點與網絡流行動態。在中文知識信息領域,相比於傳統的各種知識庫,百度百科是一部內容開放、自由的網絡百科全書,其旨在創造一個涵蓋各領域知識的中文信息收集平臺,並與百度搜索、百度知道結合,從不同的層次上滿足用戶對信息的需求。如圖I所示,百度百科所含內容的基礎單位是詞條,一個詞條由6部分組成,包括百科名片、詞條正文、參考資料、開放分類、相關詞條、擴展閱讀,不同的組成部分從不同的角度對一個知識進行闡述。
發明內容
本發明的目的在於提供一種可以解決傳統的文本挖掘方法不足的一種基於百度百科的文本語義主題抽取方法。本發明一種基於百度百科的文本語義主題抽取方法,主要包括以下幾個步驟(I)將所有的百度百科詞條轉化成為一個百科詞庫前綴關係;(2)計算出所有百度百科詞條之間的語義關係,形成一個主題關係矩陣;(3)對於一段未知文本,利用百度百科詞庫前綴關係,進行快速詞條發現,找出所有可能涉及的詞條,形成候選詞條集合;
(4)把所有候選詞條對應的百度百科的開放分類作為文本T的候選語義主題;(5)通過主題關係矩陣,將上述候選語義主題轉化成為一張有向語義主題圖;(6)、根據主題關係矩陣對有向語義主題圖的權值進行調整;(7)、將有向語義主題圖轉化為無向語義主題圖後,劃分成若干連通區域;(8)、計算語義離散度,並根據語義離散度值來決定文本最終的語義主題。所述的步驟I具體為
設文本T = tl t2…tn由n個漢字組成,其中n > I, Ri = T[1…i]表示文本T的從第I到第i個字符串,該i > 1,這樣長度為n的文本T有n-1個非空前綴,分別為R2,R3,…Rn-I,文本T的前綴數組是由R1,R2,…Rn-I組成的n_l個字符串數組,記為PRE (T)={R2,R3,…Rn},令三元組a K =〈R,B,TS>表示字符串前綴R與百度百科詞庫中詞條的關係,B表示該前綴是否為一個完整詞條,TS表示一個詞條集合,且對於任意的T e TS,都有R G PRE⑴八(T^R);令詞庫C= {C1,C2…Cn},由n個詞條Cn組成,對百度百科詞庫中所有詞條的如綴都生成相應的如綴關係a,這些如綴關係組成的集合為詞庫如綴關係。所述的步驟2具體為定義百科詞條w的一個開放分類e為百科詞條w的一個語義主題;若百科詞條w的開放分類中包含語義主題e,則稱百科詞條w和語義主題e語義相關,反之稱百科詞條w與語義主題e語義不相關,若文本T中存在一個詞條w與語義主題e語義相關,則稱文本T和語義主題e也語義相關,反之稱文本T與語義主題e語義不相關;令E = {el,e2…en}為網絡文本T的語義主題空間,其中,ei表示第i個語義主題,n為語義主題空間E中的語義主題個數;定義主題布爾關係矩陣R :矩陣R = (ai,j)nXn是一張二維布爾關係,若ai,j =1,表示第i個開放分類作為一個百科詞條的開放分類中包含了第j個開放分類,即二者相關;定義m步主題布爾關係矩陣』設R為主題布爾關係矩陣,則
m個
R(m)為R的m步主題布爾關係矩陣,若a011',j = O^awijj = 1,表示第i個開
所個
放分類到第j個開放分類之間存在一條步長為m的關聯通路;定義主題布爾關係矩陣R的穩定矩陣設R(k)為k步主題布爾關係矩陣,若R(H) ^ R(k)且Vp > A都有R(k) = R(P),則稱k步主題布爾關係矩陣R(k)為主題布爾關係矩陣R的穩定矩陣;設R為主題布爾關係矩陣,n為語義主題空間中語義主題的個數,則必存在一個正整數k < n,使得R(k)為R的穩定矩陣;定義主題關係設R = (ai, j)nXn為主題布爾關係矩陣,R(k)為穩定主題布爾關係矩陣,主題關係矩陣定義為
,、 * \pm,= IAin <kQ*= ( , Pnxn^ y =|0,a(k),; = 0其中m、k均為正整數,P是一個取值在區間(0,I)的常係數;該穩定主題關係布爾矩陣R(k)表示的是語義主題之間是否有關,而語義主題關係表示的是語義主題之間量化的相關關係,若語義主題i與j之間步長越長,在主題關係中qy值越小,相關度越低;
利用百度百科所有詞條的開放分類作為候選語義主題,m步主題關係的求法步驟如下(I)初始化主題關係集合為空,令n為詞條集合TS中的主題關係個數,P為主題相關度值,循環取出詞條集合TS中的每一個詞條t,對應每一個詞條t中的開放分類O,把主題關係二元組加入到主題關係集合中;(2)主題關係生成令n為主題關係集合中的主題關係個數,對主題關係集合中的所有主題關係循環掃描,若在第k層上發現有主題關係未存在於主題關係集合中,則將其併入主題關係集合中,並設相關度值為P k,直到主題關係集合不再發生變化為止。所述的步驟3具體為
設文本T包括長度為n的字符串,T[i,j]表示文本T的從第i個字符到第j個字符串,記為Ci,j,若Ci,j是一個百科詞條,則其為文本T的候選詞條;令文本T字符串長度為n,從文本T的第一個字符開始循環掃描到最後一個字符,取出連續字符串S,如果字符串s在步驟I的詞庫前綴關係中未能找到,則進入下一重循環,否則將字符串s作為一個候選詞條,加入到候選詞條集合中,取文本T的下一個字符與該連續字符串s合併,繼續上述候選詞條的判斷步驟,直至文本T的最後一個字符。所述的步驟4具體為對於一段網絡文本T,按步驟3找出該文本T所有的候選詞條ts,把所有候選詞條的全部開放分類作為這段文本T的候選語義主題,對每一個候選語義主題都統記為
;=1其中,S^e)取值為I或0,取I時表示第j個詞條和語義主題e相關,反之取值0,ts表示文本T的所有候選詞條總數。所述的步驟5具體為把所有的候選語義主題e看作是一張有向圖的頂點,對於頂點e來說Te是它的權重,頂點之間是否有通路以及頂點之間的距離,由主題關係決定,如果兩頂點在主題關係矩陣中對應的相關度值q > 0,則兩個頂點之間有通路。所述的步驟6具體為設網絡文本T的K個語義主題分別為el,e2…ek,K個語義主題的統計值形成的一個向量記為A= (Tel,Te2,…Tek),令在m步主題關係Qw中這K個語義主題形成的子
集為一個矩陣設為,那麼可以對上述的統計值進行重新調整,記為A',A' = AxQm
e\,el...ek調整後的任意一個頂點的統計值就是以該點為中心的m步範圍之內的語義總和。所述的步驟7具體為將步驟6中調整後的有向語義主題圖轉化為無向語義主題圖,可以將其切分成若干連通區域Regl Reg2…Regn,同一個區域的兩個頂點有通路,不同區域的頂點之間則無通路;對於無向語義主題圖中的任意一個連通區域Regi,把其當作一個整體統計它在整個圖中的權重p,
權利要求
1.一種基於百度百科的文本語義主題抽取方法,其特徵在於包括以下幾個步驟 (1)將所有的百度百科詞條轉化成為一個百科詞庫前綴關係; (2)計算出所有百度百科詞條之間的語義關係,形成一個主題關係矩陣; (3)對於一段未知文本,利用百度百科詞庫前綴關係,進行快速詞條發現,找出所有可能涉及的詞條,形成候選詞條集合; (4)把所有候選詞條對應的百度百科的開放分類作為文本T的候選語義主題; (5)通過主題關係矩陣,將上述候選語義主題轉化成為一張有向語義主題圖; (6)、根據主題關係矩陣對有向語義主題圖的權值進行調整; (7)、將有向語義主題圖轉化為無向語義主題圖後,劃分成若干連通區域; (8)、計算語義離散度,並根據語義離散度值來決定文本最終的語義主題。
2.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟I具體為 設文本T = tl t2…tn由η個漢字組成,其中η > I, Ri = T[1…i]表示文本T的從第I到第i個字符串,該i > I,這樣長度為η的文本T有η — I個非空前綴,分別為R2,R3,…Rn-I,文本T的前綴數組是由R1,R2,…Rn-I組成的η-1個字符串數組,記為PRE(T)={R2,R3,…Rn},令三元組ακ =〈R,B,TS>表示字符串前綴R與百度百科詞庫中詞條的關係,B表示該前綴是否為一個完整詞條,TS表示一個詞條集合,且對於任意的T e TS,都有Re PRE⑴Λ (T^R);令詞庫C= {C1,C2…Cn},由η個詞條Cn組成,對百度百科詞庫中所有詞條的如綴都生成相應的如綴關係α,這些如綴關係組成的集合為詞庫如綴關係。
3.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟2具體為 定義百科詞條w的一個開放分類e為百科詞條w的一個語義主題;若百科詞條w的開放分類中包含語義主題e,則稱百科詞條w和語義主題e語義相關,反之稱百科詞條w與語義主題e語義不相關,若文本T中存在一個詞條w與語義主題e語義相關,則稱文本T和語義主題e也語義相關,反之稱文本T與語義主題e語義不相關; 令E= {el,e2-en}為網絡文本T的語義主題空間,其中,ei表示第i個語義主題,η為語義主題空間E中的語義主題個數; 定義主題布爾關係矩陣R :矩陣R = (ai, j)nXn是一張二維布爾關係,若ai, j = I,表示第i個開放分類作為一個百科詞條的開放分類中包含了第j個開放分類,即二者相關; 定義m步主題布爾關係矩陣
4.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟3具體為 設文本T包括長度為η的字符串,T [i,j]表示文本T的從第i個字符到第j個字符串,記為Ci,j,若Ci,j是一個百科詞條,則其為文本T的候選詞條; 令文本T字符串長度為n,從文本T的第一個字符開始循環掃描到最後一個字符,取出連續字符串S,如果字符串s在步驟I的詞庫前綴關係中未能找到,則進入下一重循環,否則將字符串s作為一個候選詞條,加入到候選詞條集合中,取文本T的下一個字符與該連續字符串s合併,繼續上述候選詞條的判斷步驟,直至文本T的最後一個字符。
5.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟4具體為 對於一段網絡文本T,按步驟3找出該文本T所有的候選詞條ts,把所有候選詞條的全部開放分類作為這段文本T的候選語義主題,對每一個候選語義主題都統記為
6.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟5具體為 把所有的候選語義主題e看作是一張有向圖的頂點,對於頂點e來說Te是它的權重,頂點之間是否有通路以及頂點之間的距離,由主題關係決定,如果兩頂點在主題關係矩陣中對應的相關度值q > 0,則兩個頂點之間有通路。
7.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟6具體為 設網絡文本T的K個語義主題分別為el,e2…ek,K個語義主題的統計值形成的一個向量記為A= (Tel,Te2,…Tek),令在m步主題關係Qw中這K個語義主題形成的子集為一個矩陣設為,那麼可以對上述的統計值進行重新調整,記為A',
8.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟7具體為 將步驟6中調整後的有向語義主題圖轉化為無向語義主題圖,可以將其切分成若干連通區域
9.根據權利要求I所述的一種基於百度百科的文本語義主題抽取方法,其特徵在於所述的步驟8具體為 設文本T的語義離散度f為
全文摘要
本發明一種基於百度百科的文本語義主題抽取方法,利用百度百科首先建立百科詞條前綴關係庫,並計算出整個詞條空間的語義關係,再利用前綴關係庫來對未知文本進行詞條發現與候選語義主題統計,並建立語義主題圖,依據主題關係矩陣對語義主題圖中各頂點進行權值調整,再根據語義主題圖的語義離散度來抽取最終語義主題,避開傳統通過單純的詞條統計方式,能在很大程度上解決基於詞條統計的文本主題方法準確率不高的問題。
文檔編號G06F17/27GK102662998SQ20121006810
公開日2012年9月12日 申請日期2012年3月14日 優先權日2012年3月14日
發明者陳葉旺 申請人:華僑大學