新四季網

基於改進的小世界網絡模型實現文本特徵的提取方法與流程

2023-04-30 20:50:14 1


本發明涉及語義網絡技術領域,具體涉及基於改進的小世界網絡模型實現文本特徵的提取方法。



背景技術:

目前傳統的關鍵詞提取算法只注重文檔的表層統計特性(如詞頻、詞語位置、詞語長度等),忽略文檔的語義信息和結構信息,導致關鍵詞語義和結構信息的缺失。而現有基於詞語網絡的關鍵詞提取算法,雖然在一定程度上利用了文檔的結構信息,但語義信息的利用依然不足,並且網絡的構造過程過分依賴於分詞的粒度。信息增益方法只適合用來提取一個類別的文本特徵,而無法用於提取多個類別的文本特徵。互信息方法考慮了類別出現概率與集合出現概率之比,那麼會造成一個缺陷,那就是類別集合中文本的數量差異會很大程度上影響文本特徵提取的準確性。文本特徵指的是最能代表文本主旨的詞彙集合,文本特徵不僅可以很好的概括文本主要內容和主旨,而且可以降低文本處理的複雜程度。然而目前常用的文本特徵提取方法沒有考慮特徵詞彙的語義地位和其對文本主旨表達所做的貢獻,更重要的是,對數據歸一化的處理欠缺。為了滿足上述需求,本發明提供了一種基於改進的小世界網絡模型實現文本特徵的提取方法。



技術實現要素:

針對於常用的文本特徵提取方法沒有考慮特徵詞彙的語義地位和其對文本主旨表達所做貢獻的不足、數據歸一化處理的欠缺問題,本發明提供了一種基於改進的小世界網絡模型實現文本特徵的提取方法。

為了解決上述問題,本發明是通過以下技術方案實現的:

步驟1:初始化文本語料庫模塊,對文本w的進行中文分詞預處理。

步驟2:給步驟1中分詞結果的文本進行位置、詞性加權處理。

步驟3:得到的文本詞彙集合依據其語義相關度r(c1,c2)會出現聚合現象,構建詞彙語義網絡模型圖。

步驟4:根據圖中詞彙在整個語義網絡圖中的重要度構造兩函數參數w1(ci)、w2(ci),即可得詞彙在整個文本中的地位和貢獻度。

步驟5:根據步驟4中的兩參數構造目標函數g(w1(ci),w2(ci)new),根據其值提取文本特徵詞彙集合

本發明有益效果是:

1、此方法比傳統的詞頻-反文檔頻率方法得到的特徵詞彙集合的準確度更高。

2、克服了信息增益方法只適合用來提取一個類別的文本特徵的不足。

3、此算法具有更大的利用價值。

4、此方法精確地計算了特徵詞彙中不同詞彙對文本思想的貢獻度。

5、計算特徵詞彙中不同詞彙對文本思想的貢獻度具有更高的精確度。

6、為後續的文本相似度與文本聚類技術提供良好的理論基礎。

7、此方法著重在語義分析的角度來提取文本中的特徵詞彙,更符合人們的經驗值。

8、融合了統計學方法,又綜合了關鍵詞在文本中的貢獻度,構建的詞彙語義網絡模型圖準確度更高。

9、在詞彙語義網絡模型中提取關鍵詞,既考慮了鄰近節點的密度,又考慮鄰近節點邊的權重,關鍵詞的提取更好的符合經驗值。

9、數據處理更加規範,易於詞彙語義網絡模型的生成。

10、在關鍵詞的相關度計算過程中,設定了更加嚴苛的約束條件,構成的詞

匯語義網絡模型圖更加符合實際情況。

11、完整的數據處理,方便了文本特徵詞彙提取的過程,降低了結果出錯率。

附圖說明

圖1基於改進的小世界網絡模型實現文本特徵的提取方法的結構流程圖

圖2中文文本預處理過程流程圖

圖3n元語法分詞算法圖解

圖4詞彙語義網絡模型圖

具體實施方式

為了解決常用的文本特徵提取方法沒有考慮特徵詞彙的語義地位和其對文本主旨表達所做貢獻的問題、數據歸一化處理的欠缺問題,結合圖1-圖4對本發明進行了詳細說明,其具體實施步驟如下:

步驟1:初始化文本語料庫模塊,對文本w的進行中文分詞預處理,其具體描述過程如下:

綜合分詞和刪除停用詞技術,中文文本預處理過程流程圖如圖2。。

這裡分詞方法利用一種基於資訊理論中文自動分詞算法,其具體分詞和去停用詞步驟如下:

步驟1.1:利用停用表對文本進行去停用詞處理。

步驟1.2:根據《分詞詞典》找到待分詞句子中與詞典中匹配的詞,其具體描述如下:

把待分詞的漢字串完整的掃描一遍,在系統的詞典裡進行查找匹配,遇到字典裡有的詞就標識出來;如果詞典中不存在相關匹配,就簡單地分割出單字作為詞;直到漢字串為空。

步驟1.3:依據概率統計學,將待分詞句子拆分為網狀結構,即得n個可能組合的句子結構,把此結構每條順序節點依次規定為sm1m2m3m4m5e,其結構圖如圖3所示。

步驟1.4:基於資訊理論方法,給上述網狀結構每條邊賦予一定的權值,其具體計算過程如下:

根據《分詞詞典》匹配出的字典詞與未匹配的單個詞,第i條路徑包含詞的個數為ni。即n條路徑詞的個數集合為(n1,n2,…,nn)。

得min=min(n1,n2,…,nn)

在上述留下的剩下的(n-m)路徑中,求解每條相鄰路徑的權重大小。

在統計語料庫中,計算每個詞的信息量x(ci),再求解路徑相鄰詞的共現信

息量x(ci,ci+1)。既有下式:

x(ci)=|x(ci)1-x(ci)2|

上式x(ci)1為文本語料庫中詞ci的信息量,x(ci)2為含詞ci的文本信息量。

x(ci)1=-p(ci)1lnp(ci)1

上式p(ci)1為ci在文本語料庫中的概率,n為含詞ci的文本語料庫的個數。

x(ci)2=-p(ci)2lnp(ci)2

上式p(ci)2為含詞ci的文本數概率值,n為統計語料庫中文本總數。

同理x(ci,ci+1)=|x(ci,ci+1)1-x(ci,ci+1)2|

x(ci,ci+1)1為在文本語料庫中詞(ci,ci+1)的共現信息量,x(ci,ci+1)2為相鄰詞(ci,ci+1)共現的文本信息量。

同理x(ci,ci+1)1=-p(ci,ci+1)1lnp(ci,ci+1)1

上式p(ci,ci+1)1為在文本語料庫中詞(ci,ci+1)的共現概率,m為在文本庫中詞(ci,ci+1)共現的文本數量。

x(ci,ci+1)2=-p(ci,ci+1)2lnp(ci,ci+1)2

p(ci,ci+1)2為文本庫中相鄰詞(ci,ci+1)共現的文本數概率。

綜上可得每條相鄰路徑的權值為

w(ci,ci+1)=x(ci)+x(ci+1)-2x(ci,ci+1)

步驟1.5:找到權值最大的一條路徑,即為待分詞句子的分詞結果,其具體計算過程如下:

有n條路徑,每條路徑長度不一樣,假設路徑長度集合為(l1,l2,…,ln)。

假設經過取路徑中詞的數量最少操作,排除了m條路徑,m<n。即剩下(n-m)路徑,設其路徑長度集合為

則每條路徑權重為:

上式分別為第1,2到路徑邊的權重值,根據步驟1.4可以一一計算得出,為剩下(n-m)路徑中第sj條路徑的長度。

權值最大的一條路徑:

步驟2:給步驟1中分詞結果的文本進行位置、詞性加權處理,其具體描述如下:

αj代表位置權重,其賦值規則為:文本第一行是標題,賦予權值5;段首第一個詞等於「摘要」,則賦予權值3;段首第一個詞等於「關鍵字」或「關鍵詞」,則賦予權值5;段首第一個詞等於「結論」,賦予權值3;其它,每段首賦予權值1;

βk代表詞性權重,其賦值規則為:現代漢語語法中,一個句子主要由主語、謂語、賓語、定語和狀語等成分構成。從詞性的角度看,名詞一般擔當主語和賓語的角色,動詞一般擔當謂語的角色,形容詞和副詞一般擔當定語的角色。詞性的不同,造成了它們對文本或者句子的表示內容的能力的不一樣。根據調查統計得出名詞、動詞、形容詞、副詞的權重值依次為β1、β2、β3和β4,且β1>β2>β3>β4,其值可以由專家指出。

步驟3:得到的文本詞彙集合依據其語義相關度r(c1,c2)會出現聚合現象,構建詞彙語義網絡模型圖,其具體計算過程如下:

基於《知網》的詞彙相關度計算方法,文本特徵詞彙集合中的兩兩詞彙間相關度計算公式為:

上式ρ(icn)為兩詞彙本體概念共同的父節點密度,d(icn)為兩詞彙本體概念共同的父節點深度,ρmax(s)為義原網狀結構中對應父節點所在的樹狀結構中的最大節點密度值,dmax(s)為義原網狀結構中對應父節點所在的樹狀結構中的樹的度。n′=0為兩詞彙(c1,c2)間無特殊關係,n′>0為兩詞彙(c1,c2)間有特殊關係,a為由專家給定的特殊關係權重,a∈(0,1),α、β分別為對應的影響係數,α、β∈(0,1),這個可以由實驗測出,α+β=1。

聯合詞彙在文本中的重要度、基於統計方法,構造詞彙對文本影響函數y(ci),根據r1(c1,c2)的值,y(ci)需歸一化處理:

即為

ni為詞彙ci在文本中出現的頻數,為文本詞彙的總頻數,nk為在滿足下式約束條件下庫中含有詞彙ci的文本數,為庫中所有文本的數量。

約束條件為:

ni·j為第j文本中詞彙ci出現的頻數,為第j文本中所有詞彙出現的總頻數。

綜合y(ci)、r1(c1,c2),即可得語義相關度r(c1,c2)

ρ、σ分別為對應因子的影響係數,ρ、σ∈(0,1),ρ+σ=1,其指可以根據實驗測出,一般ρ>σ,同理w、w′,不一樣的是,也許w′≥w,這個要視具體情況而定。

利用上式構建詞彙語義網絡模型圖,如圖4。

步驟4:根據圖中詞彙在整個語義網絡圖中的重要度構造兩函數參數w1(ci)、w2(ci),即可得詞彙在整個文本中的地位和貢獻度,其具體計算過程如下:

特徵詞彙的分支越多,詞彙在整個文本中的地位和貢獻度越大,可以通過下式計算詞彙在整個語義網絡圖中的重要度;

為特徵詞彙ci直接子節點的個數,nt為整個語義網絡圖中總節點個數。

計算特徵詞彙相鄰邊的平均權重w2(ci)

r(ci,cm)為ci與相鄰詞彙cm的相關度值,l為鄰邊數。

根據w1(ci)值,需對w2(ci)進行歸一化處理,即

m′為詞彙語義網絡模型中節點的個數。

步驟5:根據步驟4中的兩參數構造目標函數g(w1(ci),w2(ci)new),根據其值提取文本特徵詞彙集合,其具體計算過程如下:

目標函數g(w1(ci),w2(ci)new):

τ為值的修正係數,這個可以由專家測試出最佳值。

設定目標函數滿足的條件:g(w1(ci),w2(ci)new)>ε。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀