一種基於語義網絡的文本短語權重計算方法
2023-07-05 17:01:41 2
一種基於語義網絡的文本短語權重計算方法
【專利摘要】本發明公開一種基於語義網絡的文本短語權重計算方法。包括以下步驟:首先,去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點;然後,使用隨機遊走的方法,計算在有限步內從一個節點隨機遊走到達另外一個節點的概率,得到所有節點之間的概率;最終,去除一個節點,重新計算所有節點之間的概率,並計算兩者之差,這個差值便可以作為文本中此短語的權重。本發明使用了圖論和馬爾科夫鏈的理論,將文本轉化為圖並建模為馬爾科夫鏈進行分析,利用了短語在文檔中相對位置信息,提高了短語權重計算的準確性。本發明能夠針對實際文檔,有效的計算短語的權重,實現文檔的降噪功能,提高信噪比。
【專利說明】一種基於語義網絡的文本短語權重計算方法
【技術領域】
[0001]本發明屬於文本分類領域,涉及一種對文本中短語權重進行計算的方法。
【背景技術】
[0002]文本分類是數據挖掘領域的重要分支之一,然而如何在向量空間中表示一個文本,即如何對文中的短語進行加權調整,制約著文本分類的精度。由於實際的文檔具有很高的噪聲,單純的使用詞頻對文檔進行描述會使部分信息淹沒在噪聲之中。一種優秀的短語加權方法必須能夠有效提高文本的信噪比,實現文本的降噪功能。近年來,人們提出了許多短語權重構造函數,但主要基於向量空間法(Vector Space Model, VSM)。[0003]向量空間法的基本思想是使用詞袋模型表示文本,將語料庫中的每個短語作為向量空間中的一維,將文本視作向量空間的一個矢量。其特點簡單直觀且處理速度較快,但此方法在理論和實際應用中有著很大的局限。
[0004]近年來,不斷有學者提出新的短語權重構造方法。其中,基於語義網絡的短語權重計算方法能夠體現短語節點在語義網絡的連通性上影響,並能夠將此影響量化,作為短語在文中的權重。
[0005]基於語義網絡的短語權重計算方法能夠有效的濾除文本噪聲,提高文本分類的準確性與魯棒性。
【發明內容】
[0006]本發明的目的是克服現有技術的不足,提供一種基於語義網絡的文本短語權重計
算方法。
[0007]基於語義網絡的文本短語權重計算方法包含以下步驟:
[0008]I)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點;
[0009]2)使用隨機遊走的方法,計算語義網絡中在有限步長內從一個節點隨機遊走到另外一個節點的概率,並得到語義網絡的轉移矩陣^語義網絡的轉移矩陣η是一個多步轉移矩陣;
[0010]3)去除某一節點之後重新計算新的語義網絡對應的轉移矩陣π』 ;語義網絡的轉移矩陣η和重新計算後的語義網絡的轉移矩陣V的之差Λ Ji中的元素之和便可以表示去除的節點在語義網絡的連通性方面所起到的影響,即可表示這一節點所對應的短語在文本中的權重;
[0011]4)重複步驟3)直到處理完文本中所有短語,便可以得到文本中所有短語的權重。
[0012]所述的步驟I)為:
[0013](I)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點;
[0014](2)兩個短語之間的連接視作語義網絡的邊,邊的權重可以使用下式計算:
【權利要求】
1.一種基於語義網絡的文本短語權重計算方法,其特徵在於,包含以下步驟: 1)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點; 2)使用隨機遊走的方法,計算語義網絡中在有限步長內從一個節點隨機遊走到另外一個節點的概率,並得到語義網絡的轉移矩陣I語義網絡的轉移矩陣η是一個多步轉移矩陣; 3)去除某一節點之後重新計算新的語義網絡對應的轉移矩陣π』;語義網絡的轉移矩陣η和重新計算後的語義網絡的轉移矩陣V的之差Λ Ji中的元素之和便可以表示去除的節點在語義網絡的連通性方面所起到的影響,即可表示這一節點所對應的短語在文本中的權重; 4)重複步驟3)直到處理完文本中所有短語,便可以得到文本中所有短語的權重。
2.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟I)為: (1)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點; (2)兩個短語之間的連接視作語義網絡的邊,邊的權重可以使用下式計算:
3.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟2)為: (I)計算從一個節點出發在有限步內能夠到達另一個節點的概率:
4.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟3)計算語義網絡中去除的節點i在語義網絡的連通性方面所起到的影響為: (1)去除節點i的出邊,即從節點i出發進行概率轉移,只能轉移到自身; (2)計算新的語義網絡對應的轉移矩陣π』; (3)計算兩個矩陣的差值Δπ,ΔJi = J1-Ji 』,然後將Δ Ji的第i行和第i列置零,節點i在語義網絡連通性上的影響便可以表示為:
5.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟4)為: (1)重複步驟3)得到每一個節點對網絡連通性的影響; (2)將influence歸一化,便可以得到文本在短語上的概率分布,即每個短語在文本中的權重。
【文檔編號】G06F17/30GK103886062SQ201410099977
【公開日】2014年6月25日 申請日期:2014年3月18日 優先權日:2014年3月18日
【發明者】于慧敏, 孫孟孟 申請人:浙江大學