新四季網

一種基於語義網絡的文本短語權重計算方法

2023-07-05 17:01:41 2

一種基於語義網絡的文本短語權重計算方法
【專利摘要】本發明公開一種基於語義網絡的文本短語權重計算方法。包括以下步驟:首先,去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點;然後,使用隨機遊走的方法,計算在有限步內從一個節點隨機遊走到達另外一個節點的概率,得到所有節點之間的概率;最終,去除一個節點,重新計算所有節點之間的概率,並計算兩者之差,這個差值便可以作為文本中此短語的權重。本發明使用了圖論和馬爾科夫鏈的理論,將文本轉化為圖並建模為馬爾科夫鏈進行分析,利用了短語在文檔中相對位置信息,提高了短語權重計算的準確性。本發明能夠針對實際文檔,有效的計算短語的權重,實現文檔的降噪功能,提高信噪比。
【專利說明】一種基於語義網絡的文本短語權重計算方法
【技術領域】
[0001]本發明屬於文本分類領域,涉及一種對文本中短語權重進行計算的方法。
【背景技術】
[0002]文本分類是數據挖掘領域的重要分支之一,然而如何在向量空間中表示一個文本,即如何對文中的短語進行加權調整,制約著文本分類的精度。由於實際的文檔具有很高的噪聲,單純的使用詞頻對文檔進行描述會使部分信息淹沒在噪聲之中。一種優秀的短語加權方法必須能夠有效提高文本的信噪比,實現文本的降噪功能。近年來,人們提出了許多短語權重構造函數,但主要基於向量空間法(Vector Space Model, VSM)。[0003]向量空間法的基本思想是使用詞袋模型表示文本,將語料庫中的每個短語作為向量空間中的一維,將文本視作向量空間的一個矢量。其特點簡單直觀且處理速度較快,但此方法在理論和實際應用中有著很大的局限。
[0004]近年來,不斷有學者提出新的短語權重構造方法。其中,基於語義網絡的短語權重計算方法能夠體現短語節點在語義網絡的連通性上影響,並能夠將此影響量化,作為短語在文中的權重。
[0005]基於語義網絡的短語權重計算方法能夠有效的濾除文本噪聲,提高文本分類的準確性與魯棒性。

【發明內容】

[0006]本發明的目的是克服現有技術的不足,提供一種基於語義網絡的文本短語權重計
算方法。
[0007]基於語義網絡的文本短語權重計算方法包含以下步驟:
[0008]I)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點;
[0009]2)使用隨機遊走的方法,計算語義網絡中在有限步長內從一個節點隨機遊走到另外一個節點的概率,並得到語義網絡的轉移矩陣^語義網絡的轉移矩陣η是一個多步轉移矩陣;
[0010]3)去除某一節點之後重新計算新的語義網絡對應的轉移矩陣π』 ;語義網絡的轉移矩陣η和重新計算後的語義網絡的轉移矩陣V的之差Λ Ji中的元素之和便可以表示去除的節點在語義網絡的連通性方面所起到的影響,即可表示這一節點所對應的短語在文本中的權重;
[0011]4)重複步驟3)直到處理完文本中所有短語,便可以得到文本中所有短語的權重。
[0012]所述的步驟I)為:
[0013](I)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點;
[0014](2)兩個短語之間的連接視作語義網絡的邊,邊的權重可以使用下式計算:
【權利要求】
1.一種基於語義網絡的文本短語權重計算方法,其特徵在於,包含以下步驟: 1)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點; 2)使用隨機遊走的方法,計算語義網絡中在有限步長內從一個節點隨機遊走到另外一個節點的概率,並得到語義網絡的轉移矩陣I語義網絡的轉移矩陣η是一個多步轉移矩陣; 3)去除某一節點之後重新計算新的語義網絡對應的轉移矩陣π』;語義網絡的轉移矩陣η和重新計算後的語義網絡的轉移矩陣V的之差Λ Ji中的元素之和便可以表示去除的節點在語義網絡的連通性方面所起到的影響,即可表示這一節點所對應的短語在文本中的權重; 4)重複步驟3)直到處理完文本中所有短語,便可以得到文本中所有短語的權重。
2.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟I)為: (1)去除文本中的停止詞,根據選詞後的文本構建語義網絡,將文本中的短語視作語義網絡的一個節點; (2)兩個短語之間的連接視作語義網絡的邊,邊的權重可以使用下式計算:
3.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟2)為: (I)計算從一個節點出發在有限步內能夠到達另一個節點的概率:
4.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟3)計算語義網絡中去除的節點i在語義網絡的連通性方面所起到的影響為: (1)去除節點i的出邊,即從節點i出發進行概率轉移,只能轉移到自身; (2)計算新的語義網絡對應的轉移矩陣π』; (3)計算兩個矩陣的差值Δπ,ΔJi = J1-Ji 』,然後將Δ Ji的第i行和第i列置零,節點i在語義網絡連通性上的影響便可以表示為:
5.根據權利要求1所述的基於語義網絡的文本短語權重計算方法,其特徵在於,所述的步驟4)為: (1)重複步驟3)得到每一個節點對網絡連通性的影響; (2)將influence歸一化,便可以得到文本在短語上的概率分布,即每個短語在文本中的權重。
【文檔編號】G06F17/30GK103886062SQ201410099977
【公開日】2014年6月25日 申請日期:2014年3月18日 優先權日:2014年3月18日
【發明者】于慧敏, 孫孟孟 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀