新四季網

一種同義詞挖掘方法和裝置與流程

2023-12-01 05:22:21


本發明涉及信息處理技術領域,尤其涉及一種同義詞挖掘方法和裝置。



背景技術:

多詞同義和一詞多義是語言中廣泛存在的現象,例如「程序」既可以是「手續」的同義詞,也可以是「代碼」(在計算機領域)的同義詞,這就給自然語言處理帶來很大的困難。例如,智能問答知識庫中包括了多個知識點,當需要根據特徵詞進行知識點過濾時,輸入的特徵詞是否全面,對過濾結果的準確性和全面性都起著非常重要的作用。而當某特徵詞存在同義詞時,如果只輸入該特徵詞不考慮其同義詞,必然會影響過濾結果。所以,如何進行同義詞挖掘,以將挖掘的同義詞應用於所需的各個領域,成為本發明所要解決的技術問題。



技術實現要素:

鑑於上述問題,提出了本發明以便提供一種解決上述問題的同義詞挖掘方法和裝置。

依據本發明的一個方面,提供一種同義詞挖掘方法,包括:

對獲取的語料數據進行分詞處理,得到多個單獨詞;

計算所述單獨詞的詞向量;

根據所述詞向量對所述單獨詞進行聚類處理,得到同義詞集。

依據本發明的另一個方面,還提供一種同義詞挖掘裝置,包括:

分詞模塊,用於對獲取的語料數據進行分詞處理,得到多個單獨詞;

向量計算模塊,用於計算所述單獨詞的詞向量;

聚類處理模塊,用於根據所述詞向量對所述單獨詞進行聚類處理,得到同義詞集。

本發明有益效果如下:

本發明使用詞向量的方法來表徵詞的含義,然後,利用聚類算法對得到的詞向量進行語義聚類,能夠有效的實現廣義同義詞集的挖掘,為自然語言處理中解決同義詞挖掘的難題提供新的思路和方法。並且,當將挖掘的同義詞集應用於自然語言處理領域時,可以提高知識點過濾任務、關鍵詞提取任務、文本分類任務、語義聚類任務等的準確性。

上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,並且為了讓本發明的上述和其它目的、特徵和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。

附圖說明

通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對於本領域普通技術人員將變得清楚明了。附圖僅用於示出優選實施方式的目的,而並不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:

圖1為本發明第一實施例提供的一種同義詞挖掘方法的流程圖;

圖2為本發明第二實施例提供的一種同義詞挖掘方法的流程圖;

圖3為本發明第二實施例提供的一種同義詞挖掘方法的又一流程圖;

圖4為本發明第三實施例提供的一種同義詞挖掘裝置的結構框圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這裡闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,並且能夠將本公開的範圍完整的傳達給本領域的技術人員。

本發明實施例提出一種同義詞挖掘方法和裝置,本發明實施例考慮到詞的具體含義是和其上下文有密切的關係的,所以使用詞向量的方法來表徵其含義,然後,利用聚類算法對得到的詞向量進行語義聚類即可得到廣義同義詞集。較佳地,本發明實施例在得到廣義同義詞集後,還可通過編輯距離確定出同一同義詞集中的縮略語和完整詞之間的對應關係,得到縮略同義詞集。本發明為自然語言處理中解決同義詞挖掘的難題提供新的思路和方法。

下面通過幾個具體實施例對本發明的具體實施例過程進行詳盡的說明。

在本發明的第一實施例中,提供一種同義詞挖掘方法,如圖1所示,所述方法包括如下步驟:

步驟S101,對獲取的語料數據進行分詞處理,得到多個單獨詞;

在本發明實施例中,所述的語料數據可以但不限於為規範的新聞語料以及從網際網路爬取的語料數據等。

在本發明的一個具體實施例中,在進行分詞前,對所述語料數據進行預處理,所述預處理至少包括如下處理之一:

去除獲取的語料數據中無效格式的數據,並將剩餘語料數據的格式統一為文本格式,以及過濾掉語料數據中的禁用詞,所述禁用詞可以包括敏感詞和/或髒詞。

在本發明的又一具體實施例中,通過如下方式進行分詞處理:

將語料數據按照語料中的特定標點劃分為多句;

根據分詞詞典對各句數據進行分詞處理,得到各句數據中的單獨詞。

在實際應用中,上述特定標點可以是問號、嘆號、分號或句號,也就是說,可以將語料數據按照問號、嘆號、分號或句號劃分為多句。

在本發明的一個較佳實施例中,在將語料數據按照語料中的特定標點劃分為多句後,先通過新詞發現算法,獲取各句數據中的新詞,並根據獲取的新詞,更新分詞詞典,然後,根據更新後的分詞詞典對各句數據進行分詞處理,得到各句數據中的單獨詞。本實施例中,預先通過新詞發現算法進行新詞發現,更新分詞詞典,利用更新後的分詞詞典增加了分詞處理的準確性。

本發明實施例中,分詞處理可以採用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法中的一種或多種進行。新詞發現方法具體可以包括:互信息、共現概率、信息熵等方法。

需要說明的是,在本發明實施例中,進行預處理和分詞後得到的單獨詞儘量保持詞的順序不變,從而保證後續計算詞向量的準確性。

步驟S102,計算所述單獨詞的詞向量;

在本發明的一個具體實施例中,計算所述單獨詞的詞向量的方式包括:將各單獨詞順序輸入到設定的向量模型,獲取所述向量模型輸出的各所述單獨詞的詞向量。

在實際應用中,上述向量模型可以但不限於為:word2vector模型。

在本發明的又一具體實施例中,在計算所述單獨詞的詞向量之前或者之後,還可以進一步對單獨詞進行過濾處理,具體的:

獲取各單獨詞的詞性,並根據詞性對各單獨詞進行過濾,保留詞性為名詞的單獨詞;和/或,獲取各單獨詞的詞頻,根據詞頻對各單獨詞進行過濾,保留詞頻大於設定詞頻閾值的單獨詞。其中,詞頻是指單獨詞在語料數據中出現的頻率。利用詞頻和/或詞性特徵對單獨詞進行過濾可以降低維度。

步驟S103,根據所述詞向量對所述單獨詞進行聚類處理,得到同義詞集。

本發明實施例中,本領域技術人員可以根據自己的需要靈活選擇所需的聚類算法以進行聚類處理,例如,可以採用k-means聚類算法。

然而,本發明實施例中考慮到傳統的k-means算法中有幾大難題,其中K值的選擇就是其中之一,它通常是通過經驗來確定的。因此,傳統的k-means更適合於待聚類數據屬於較少類別(Kp,p為經驗值)且詞性為名詞(包括地名、人名、機構名等)的詞作為同義詞候選詞。

步驟S308,利用聚類算法對候選詞的詞向量聚類,得到同義詞集。具體的,將步驟S307得到的候選詞的詞向量輸入到聚類算法模型(例如第一實施例所述的改進的kmeans算法模型)中實現聚類,即得到廣義同義詞集。

步驟S309,針對每一個同義詞集,計算集合內兩兩詞之間的編輯距離,得到集合內為縮略詞和完整詞關係的詞對。

具體的,對每一個同義詞集內的詞分別計算兩兩之間的編輯距離,若小於閾值(閾值可以是小於1000的正數)則認為是縮略詞和完整詞對應關係,否則認為是廣義同義詞,例如:郵政編碼與郵編為縮略詞和完整詞對應關係,也屬於廣義同義詞;而夫人與妻子、自由遊與蝶泳均屬於廣義同義詞。

步驟S310,將具有相同詞的詞對(包括縮略詞和完整詞對應關係)進行合併,得到包含有縮略詞與完整詞對應關係的同義詞集。例如:兩個同義詞對「華師」和「華師大」、「華師大」和「華東師範大學」合併成一個包含「華師」「華師大」「華東師範大學」同義詞集。

步驟S311,結束。

綜上可知,利用本發明實施例所述方法,可直接對新數據進行廣義同義詞集和縮略詞與完整詞對應關係的挖掘。

在本發明的第三實施例中,提供一種同義詞挖掘裝置,如圖4所示,包括:

分詞模塊410,用於對獲取的語料數據進行分詞處理,得到多個單獨詞;

向量計算模塊420,用於計算所述單獨詞的詞向量;

聚類處理模塊430,用於根據所述詞向量對所述單獨詞進行聚類處理,得到同義詞集。

在本發明的一個可選實施例中,所述裝置還包括:

編輯距離計算模塊440,用於計算同一同義詞集中兩兩單獨詞之間的編輯距離,其中:編輯距離小於預設閾值的兩個單獨詞為縮略同義詞、編輯距離大於所述預設閾值的兩個單獨詞為非縮略同義詞。

合併模塊450,用於針對於同義詞集內,將包括相同單獨詞的縮略同義詞進行合併,得到縮略同義詞集。

可以針對每個同義詞集內,將包括相同單獨詞的縮略同義詞進行合併,得到縮略同義詞集。以得到語料中全部的縮略同義詞集。

基於上述結構框架及實施原理,下面給出在上述結構下的幾個具體及優選實施方式,用以細化和優化本發明所述裝置的功能,以使本發明方案的實施更方便,準確。具體涉及如下內容:

本發明實施例中,所述的語料數據可以但不限於為規範的新聞語料以及從網際網路爬取的語料數據等。

在本發明的一個具體實施例中,在進行分詞前,還通過預處理模塊460對所述語料數據進行預處理。

預處理模塊460,用於去除獲取的所述語料數據中無效格式的數據,並將剩餘語料數據的格式統一為文本格式,以及過濾掉禁用詞,所述禁用詞可以包括敏感詞和/或髒詞。

在本發明的又一具體實施例中,分詞模塊410通過如下方式進行分詞處理:

將語料數據按照語料中的特定標點劃分為多句,通過新詞發現算法,獲取各句數據中的新詞,並根據獲取的新詞,更新分詞詞典,根據更新後的分詞詞典對各句數據進行分詞處理,得到各句數據中的單獨詞。本實施例中,預先通過新詞發現算法進行新詞發現,更新分詞詞典,利用更新後的分詞詞典增加了分詞處理的準確性。

在實際應用中,上述特定標點可以是問號、嘆號、分號或句號,也就是說,可以將語料數據按照問號、嘆號、分號或句號劃分為多句。

進一步地,本發明實施例中,分詞處理可以採用字典雙向最大匹配法、viterbi方法、HMM方法和CRF方法中的一種或多種進行。新詞發現方法具體可以包括:互信息、共現概率、信息熵等方法。

需要說明的是,在本發明實施例中,進行預處理和分詞後得到的單獨詞儘量保持詞的順序不變,從而保證後續計算詞向量的準確性。

在本發明的又一具體實施例中,向量計算模塊420將各單獨詞順序輸入到設定的向量模型,獲取所述向量模型輸出的各所述單獨詞的詞向量。在實際應用中,上述向量模型可以但不限於為:word2vector模型。

在本發明的又一具體實施例中,在計算所述單獨詞的詞向量之前或者之後,還可以通過過濾模塊470進一步對單獨詞進行過濾處理,具體的:

過濾模塊470,用於獲取各單獨詞的詞性,並根據詞性對各單獨詞進行過濾,保留詞性為名詞的單獨詞;和/或,獲取各單獨詞的詞頻,根據詞頻對各單獨詞進行過濾,保留詞頻大於設定詞頻閾值的單獨詞。其中,詞頻是指單獨詞在語料數據中出現的頻率。利用詞頻和/或詞性特徵對單獨詞進行過濾可以降低維度。

進一步地,本發明實施例中,本領域技術人員可以根據自己的需要靈活選擇所需的聚類算法以進行聚類處理,例如,可以採用k-means聚類算法。

然而,本發明實施例中考慮到傳統的k-means算法中有幾大難題,其中K值的選擇就是其中之一,它通常是通過經驗來確定的。因此,傳統的k-means更適合於待聚類數據屬於較少類別(K<10)的情況。但是,本發明目的是進行同義詞的挖掘,不同領域同義詞的類別更是數以百或千計,所以,為了提高聚類的效率和適用性,在本發明的一個具體實施例中對傳統的k-means算法進行改進,改進的算法避免了K值的選擇難題,具有更好的適用性。

具體的,假定共有T個詞向量QT,則根據T個詞向量QT對各單獨詞進行聚類處理,聚類處理模塊430包括初始化單元和聚類集生成單元,包括:

初始化單元,用於初始化K值、中心點PK-1、以及聚類問題集{K,[PK-1]},其中,K表示聚類的類別數,K的初始值為1,中心點PK-1的初始值為P0,P0=Q1,Q1表示第一個單獨詞的詞向量,聚類問題集的初始值為{1,[Q1]};

聚類集生成單元,用於從第二個單獨詞的詞向量開始,依次對剩下的詞向量進行聚類,計算當前詞向量與每個聚類問題集的中心點的相似度,如果當前詞向量與某個聚類問題集的中心點的相似度大於或等於預設值,則將當前詞向量聚類到相應的聚類問題集中,保持K值不變,將相應的中心點更新為聚類問題集中所有詞向量的向量平均值,相應的聚類問題集為{K,[聚類問題集中所有詞向量的向量平均值]};如果當前詞向量與所有聚類問題集中的中心點的相似度均小於預設值,則令K=K+1,增加新的中心點,所述新的中心點的值為當前詞向量,並增加新的聚類問題集{K,[當前詞向量]}。

下面以對Q2聚類進行舉例說明:計算Q2與Q1的語義相似度I,若相似度I大於設定預設值(可根據需求靈活設定),則認為Q2和Q1屬於同一個類,此時K=1不變,P0更新為Q1和Q2的向量平均值,聚類的問題集為{1,[Q1,Q2]};若相似度I小於設定閾值,則Q2和Q1屬於不同的類,此時K=2,P0=Q1,P1=Q2,聚類的問題集為{1,[Q1]},{2,[Q2]}。

採用上述方法依次對剩餘其他問句進行聚類完成的同時可以得到K最終值。

可見,改進的k-means算法避免了傳統的k-means算法中K值選擇難的問題。該算法採用動態調整中心點的方法,它是對每個單獨詞的分類都會更新對應類的語義中心點,即各個類的中心點是所有屬於該類的平均。因此,各個類的中心點只有一個,可以提高效率;並且,待聚類單獨詞和各個類別之間的語義距離是計算該單獨詞和各個類別的語義中心點的距離,因此準確率較高。

進一步地,在本發明的一個較佳實施例中,所述裝置還包括:優化模塊480,該優化模塊480為了提高聚類處理的正確率,在得到同義詞集後,還可以計算聚類處理的準確率,當確定出聚類處理的準確率小於預定準確率閾值時,調整聚類處理所採用的聚類算法中的指定參數值,更或者是調整分詞詞典。在本發明實施例中,計算聚類處理的準確率時,可以依據給出的每個聚類處理是否正確的指示來確定聚類處理的準確率。

例如,如果聚類處理的準確率小於預定準確率閾值,則可能是由於聚類算法中設定的「預設值」設置的不準確,可以調整該預設值,也可能是在分詞時出現問題,導致相似度計算的不準確,此時可以調整分詞詞典,這些處理都可以使聚類處理更加準確。

進一步地,在本發明的一個具體實施例中,編輯距離計算模塊440,具體用於確定兩個單獨詞中由一個單獨詞到另一個單獨詞所需的編輯操作,根據預先設置的對一個字符的不同編輯操作與編輯距離值的對應關係,計算確定的各編輯操作對應的編輯距離值的和值,並以該和值作為兩個單獨詞之間的編輯距離。

綜上可知,本實施例所述裝置,使用詞向量的方法來表徵詞的含義,然後,利用聚類算法對得到的詞向量進行語義聚類,能夠有效的實現廣義同義詞集的挖掘,為自然語言處理中解決同義詞挖掘的難題提供新的思路和方法。並且,當將挖掘的同義詞集應用於自然語言處理領域時,可以提高知識點過濾任務、關鍵詞提取任務、文本分類任務、語義聚類任務等的準確性;

另外,本發明實施例在實現廣義同義詞集的挖掘後,還可以基於該廣義同義詞集進行縮略詞-完整詞對的挖掘,當將挖掘的具有縮略詞-完整詞對的同義詞集應用於自然語言處理領域時,可以進一步提高其相應任務的執行準確性。

本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關的硬體來完成,該程序可以存儲於一計算機可讀存儲介質中,存儲介質可以包括:ROM、RAM、磁碟或光碟等。

總之,以上所述僅為本發明的較佳實施例而已,並非用於限定本發明的保護範圍。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀