新四季網

一種基於融合序列特徵的命名實體識別方法

2023-04-26 07:26:33



1.本發明屬於自然語言處理技術領域,具體涉及一種基於融合序列特徵的命名實體識別方法。


背景技術:

2.近年來,隨著信息技術的快速發展,大量數據呈現出指數級的增長,每時每刻都有各種類型的數據產生,其中包括不同領域的文本數據。這些文本數據大多數以非結構化的形式存在,同時這些海量的非結構化數據中蘊藏著豐富的知識,如何從這些非結構化的文本數據中提取有價值的信息,成為了當前社會研究的熱點。
3.自然語言處理技術的快速發展促進解決這類問題。命名實體識別是自然語言處理中的一個重要基本任務,其目的就是在非結構化的文本數據中抽取出具有價值的命名實體,這些命名實體能夠幫助研究人員快速的找出文本數據中的關鍵信息,從而更好地理解句子的含義,同時命名實體識別也為後續的關係抽取、自動問答、知識圖譜等自然語言處理任務打下良好的基礎。
4.隨著深度學習的發展,傳統的命名實體識別方法逐漸被取代,基於深度學習的命名實體識別方法成為主流。目前,在命名實體識別領域中,主流的深度學習模型有雙向長短記憶網絡(bilstm)、膨脹卷積神經網絡(idcnn)等,但實體識別模型效果依賴於文本數據的特徵,由於文本數據中更多的是以字符為單位,所以深度學習模型在提取特徵時,往往都是以字符向量作為輸入特徵,但在現實中,不同領域的文本數據會有不同的特徵,比如某些領域的文本描述有特定的句式,現有的深度學習模型往往會忽視這些特徵,影響到實體識別效果的準確性。


技術實現要素:

5.本發明的目的在於針對上述問題,提出一種基於融合序列特徵的命名實體識別方法,可學習到更加豐富的語義信息,從而提升命名實體識別結果的準確性。
6.為實現上述目的,本發明所採取的技術方案為:
7.本發明提出的一種基於融合序列特徵的命名實體識別方法,包括如下步驟:
8.步驟1、獲取文本數據集並進行預處理,文本數據集包括若干個語句,預處理為採用bio標記方法對文本數據集中各語句的字符進行標記;
9.步驟2、為預處理後的文本數據集中的各語句構建對應的標籤序列,標籤序列表示如下:
10.sentence={(word1,type1),

,(wordi,typei),

,(wordn,typen)}
11.式中,wordi表示標記後的語句中的第i個字符,typei表示標記後的語句中的第i個字符所屬的實體類別,i=1~n,n為標記後的語句中的字符總數;
12.步驟3、將文本數據集中的每個語句和對應的標籤序列作為一個樣本存入訓練集;
13.步驟4、構建命名實體識別模型並利用訓練集進行訓練,獲得訓練好的命名實體識
別模型,命名實體識別模型包括依次連接的bert預訓練語言模型、計算模塊、判斷模塊、bilstm模型和條件隨機場,訓練過程如下:
14.步驟41、利用bert預訓練語言模型對訓練集中各樣本的字符進行特徵向量提取,獲得每個字符的字符特徵向量,並將對應樣本的全部字符特徵向量表示如下:
15.character_embedding={x1,

,xi,

,xn}
16.式中,xi表示樣本中的第i個字符的字符特徵向量;
17.步驟42、採用計算模塊計算出每個樣本的字符特徵向量的均值,並將均值作為對應樣本的序列特徵向量;
18.步驟43、採用判斷模塊判斷每個樣本中的各字符是否屬於命名實體,當屬於命名實體時,更新當前字符的字符特徵向量為原始的字符特徵向量與所在樣本的序列特徵向量之和,當不屬於命名實體時,保留當前字符的字符特徵向量為原始的字符特徵向量,不進行更新,獲得對應樣本的融合序列特徵;
19.步驟44、利用bilstm模型對各融合序列特徵的字符特徵向量進行特徵提取,得到對應的各字符的實體標籤概率集合,並將實體標籤概率集合輸入條件隨機場進行序列關係約束;
20.步驟45、判斷是否達到預設訓練次數,若是,結束訓練,獲得訓練好的命名實體識別模型,否則,返回執行步驟s41;
21.步驟5、將待識別語句輸入訓練好的命名實體識別模型,獲得命名實體識別結果。
22.優選地,bert預訓練語言模型的輸入向量包括字符的字向量、文本向量和位置向量。
23.優選地,語句的長度在128字以內。
24.與現有技術相比,本發明的有益效果為:
25.該方法通過構建命名實體識別模型,將bert預訓練語言模型、bilstm模型和條件隨機場相結合,同時採用計算模塊和判斷模塊獲得融合序列特徵,實現在現有技術中以字符為特徵的基礎上加入序列特徵,學習到了更加豐富的語義信息,如通過bert預訓練語言模型提取字符特徵向量,通過bilstm模型對融合序列特徵的字符特徵向量進行提取獲得對應字符的上下文信息,並基於條件隨機場對標籤的輸出進行約束,在輸出序列結果時可以降低邏輯上不合理的標籤序列的出現概率,從而提升命名實體識別結果的準確性。
附圖說明
26.圖1為本發明基於融合序列特徵的命名實體識別方法的流程圖;
27.圖2為本發明bert預訓練語言模型的輸入向量示意圖。
具體實施方式
28.下面將結合本技術實施例中的附圖,對本技術實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅是本技術一部分實施例,而不是全部的實施例。基於本技術中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本技術保護的範圍。
29.需要說明的是,除非另有定義,本文所使用的所有的技術和科學術語與屬於本申
請的技術領域的技術人員通常理解的含義相同。本文中在本技術的說明書中所使用的術語只是為了描述具體的實施例的目的,不是在於限制本技術。
30.如圖1-2所示,一種基於融合序列特徵的命名實體識別方法,包括如下步驟:
31.步驟1、獲取文本數據集並進行預處理,文本數據集包括若干個語句,預處理為採用bio標記方法對文本數據集中各語句的字符進行標記。
32.在一實施例中,語句的長度在128字以內。
33.其中,採用bio標記方法對文本數據集中各語句的字符進行標記,獲得的b、i、o三種實體類別,其中,b-表示該字是某一類命名實體的第一個字符,i-表示該字是某一類命名實體的中間字符,o表示該字不屬於任何一類命名實體。
34.步驟2、為預處理後的文本數據集中的各語句構建對應的標籤序列,標籤序列表示如下:
35.sentence={(word1,type1),

,(wordi,typei),

,(wordn,typen)}
36.式中,wordi表示標記後的語句中的第i個字符,typei表示標記後的語句中的第i個字符所屬的實體類別,i=1~n,n為標記後的語句中的字符總數。
37.步驟3、將文本數據集中的每個語句和對應的標籤序列作為一個樣本存入訓練集。
38.步驟4、構建命名實體識別模型並利用訓練集進行訓練,獲得訓練好的命名實體識別模型,命名實體識別模型包括依次連接的bert預訓練語言模型、計算模塊、判斷模塊、bilstm模型和條件隨機場,訓練過程如下:
39.步驟41、利用bert預訓練語言模型對訓練集中各樣本的字符進行特徵向量提取,獲得每個字符的字符特徵向量,並將對應樣本的全部字符特徵向量表示如下:
40.character_embedding={x1,

,xi,

,xn}
41.式中,xi表示樣本中的第i個字符的字符特徵向量;
42.步驟42、採用計算模塊計算出每個樣本的字符特徵向量的均值,並將均值作為對應樣本的序列特徵向量;
43.步驟43、採用判斷模塊判斷每個樣本中的各字符是否屬於命名實體,當屬於命名實體時,更新當前字符的字符特徵向量為原始的字符特徵向量與所在樣本的序列特徵向量之和,當不屬於命名實體時,保留當前字符的字符特徵向量為原始的字符特徵向量,不進行更新,獲得對應樣本的融合序列特徵;
44.步驟44、利用bilstm模型對各融合序列特徵的字符特徵向量進行特徵提取,得到對應的各字符的實體標籤概率集合,並將實體標籤概率集合輸入條件隨機場進行序列關係約束;
45.步驟45、判斷是否達到預設訓練次數,若是,結束訓練,獲得訓練好的命名實體識別模型,否則,返回執行步驟s41。
46.在一實施例中,bert預訓練語言模型的輸入向量包括字符的字向量、文本向量和位置向量。
47.如圖2所示,bert預訓練語言模型為現有技術,主要包含了transformer編碼機制和自注意力機制,輸入向量由字向量(token embeddings)、文本向量(segment embeddings)和位置向量(position embeddings)拼接組合而成,並在文本中分別插入一個[cls]和[sep]符號,作為語句的開頭和結尾。輸入向量經過transformer編碼機制和自注意
力機制後可以得到每個字符的768維的特徵向量(字符特徵向量),此特徵向量中包含了大量信息。
[0048]
採用判斷模塊判斷每個樣本中的各字符是否屬於命名實體,即b、i兩類實體類別,當屬於命名實體時,更新當前字符的字符特徵向量為原始的字符特徵向量與所在樣本的序列特徵向量之和,當不屬於命名實體時,保留當前字符的字符特徵向量為原始的字符特徵向量,不進行更新,獲得對應樣本的融合序列特徵。例如,一個樣本中的語句包括5個字符,其中第2、3個字符不屬於命名實體,即為o類實體類別,則該語句的融合序列特徵表示為:
[0049]
embedding={x1+x

,x2,x3,x4+x

,x5+x

}
[0050]
式中,x
1-x5依次表示該語句中的第1-5個字符的字符特徵向量(即為原始的字符特徵向量),x

表示該語句的序列特徵向量,x

只和語句中的命名實體進行向量融合。
[0051]
採用bilstm模型(雙向長短記憶網絡模型)對融合序列特徵的字符特徵向量進行進一步的特徵提取,bilstm模型中含有遺忘門、記憶門和輸出門,這三個門可以更好的幫助提取字符向量的上下文信息。經過bilstm模型後可以得到每個字符對應的實體標籤概率集合,接著把實體標籤概率集合再送入條件隨機場(crf)。條件隨機場作為判別式概率模型,可以通過特徵函數對序列關係加以約束。命名實體識別模型經過條件隨機場在輸出序列結果時可以降低邏輯上不合理的標籤序列的出現概率,確保每個字符的實體類別儘可能準確。
[0052]
步驟5、將待識別語句輸入訓練好的命名實體識別模型,獲得命名實體識別結果。
[0053]
該方法通過構建命名實體識別模型,將bert預訓練語言模型、bilstm模型和條件隨機場相結合,同時採用計算模塊和判斷模塊獲得融合序列特徵,實現在現有技術中以字符為特徵的基礎上加入序列特徵,學習到了更加豐富的語義信息,如通過bert預訓練語言模型提取字符特徵向量,通過bilstm模型對融合序列特徵的字符特徵向量進行提取獲得對應字符的上下文信息,並基於條件隨機場對標籤的輸出進行約束,在輸出序列結果時可以降低邏輯上不合理的標籤序列的出現概率,從而提升命名實體識別結果的準確性。
[0054]
以上所述實施例的各技術特徵可以進行任意的組合,為使描述簡潔,未對上述實施例中的各技術特徵所有可能的組合都進行描述,然而,只要這些技術特徵的組合不存在矛盾,都應當認為是本說明書記載的範圍。
[0055]
以上所述實施例僅表達了本技術描述較為具體和詳細的實施例,但並不能因此而理解為對申請專利範圍的限制。應當指出的是,對於本領域的普通技術人員來說,在不脫離本技術構思的前提下,還可以做出若干變形和改進,這些都屬於本技術的保護範圍。因此,本技術專利的保護範圍應以所附權利要求為準。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀