新四季網

一種中文命名實體識別歧義消解方法

2023-10-27 04:21:57 2

專利名稱:一種中文命名實體識別歧義消解方法
技術領域:
本發明屬於命名實體抽取領域,特別涉及一種中文命名實體識別歧義消解方法。
背景技術:
針對WEB海量的信息,如何快速有效地找到用戶解決問題所需要的知識。隨著網際網路技術的不斷發展,網際網路已經成為重要的信息源。面對海量的WEB信息,人們仍然面臨著知識匱乏的困境。目前絕大多數網頁是用HTML編寫的,而HTML中的標籤僅僅刻畫了數據的表達方式,並沒有刻畫數據的語義信息,這使得計算機很難理解Web上的信息。面對著海量的信息,人們只能通過搜尋引擎等工具執行基於關鍵字的查找,而搜尋引擎以網頁地址的超連結和網頁內容摘要的形式返回各種查詢結果。人們通過閱讀大量的WEB文檔來獲取想要的信息,而其中一些網頁地址連結根本就不是用戶需要的。雖然信息檢索技術的出現對解決WEB海量信息獲取問題起到了很大的作用,但是僅僅對文本進行關鍵詞檢索已經不能滿足人們很多的應用需求。因此作為信息檢索的一個分支,信息抽取技術得到了學術界的重視。信息抽取的目的是通過自然語言處理等方法將人們可讀的非結構化文本轉變為機器可讀的結構化文本,特別是從各種信息源中抽取到用戶感興趣的實體、事件以及實體之間的關係等。而從信息源中抽取出各種實體的技術稱為命名實體識別技術,命名實體識別技術是信息抽取研究的重要內容之一。命名實體是信息的主要載體,所以命名實體識別技術的好壞對信息抽取結果有著重要的影響。從廣義上理解,命名實體可以是某個特定領域中的專有知識,電影名稱,書名,人名,地名,組織機構名稱等專有名詞,可以概括為用戶想要獲取的各種關鍵信息;從狹義上理解命名實體是指人名,地名,組織機構名稱等專有名稱。命名實體的識別方法主要包括兩大類基於規則的方法和基於統計的方法。基於規則的方法是命名實體識別中最早使用的技術,命名實體識別依賴於知識庫和詞庫。知識庫是通過人工而建立的抽取規則庫,而詞庫通常包括常用姓氏、常用組織機構名稱的後綴, 常用地名的後綴等。採用這種方法的系統比較多,一般都是針對不同類型的命名實體識別使用不同的規則,但是隨著時間的發展,新的實體名稱大量湧現,需要人工不斷添加規則庫。此外,有些規則本身就是有一定的局限的,對於那些比較生僻的地名和人名還是無法進行正確識別的。相對基於規則的抽取技術,基於統計的方法利用完全或部分標註的語料進行訓練,語料的標註可以通過半自動的方法完成。因此較小規模的訓練可以在短時間以及接受人力代價的情況完成。同時,基於統計方法事先的系統只經過較少的改動就可以移植到新的領域中去,只需要利用新領域的語料重新訓練即可。目前廣泛應用於命名實體識別的統計方法主要有隱馬爾科夫模型(HMM),條件概率模型,最大熵模型(MEMM),條件隨機場模型(CRF)等。基於規則的方法需要人工參與,並且具有領域性,難於移植;而基於統計的方法適應性較好,只要少量的人工參與,但是需要大量的訓練數據時,需要花費大量的時間和存儲空間。所以比較理想的解決方法是結合兩種方法的優點,用於命名實體識別,這種方法是基於混合的命名實體識別方法,目前也得到了廣泛的應用。

發明內容
本發明提供了一種中文命名實體識別歧義消解方法。本發明採用的技術方案包括以下步驟。(1)通過特徵歸納的CRF算法選取有意義的特徵來減少特徵個數。(2)採用修正的Viterbi算法來從基於特徵歸納的CRF算法學習結果中選擇 N-BEST最佳標記序列,也就是選出觀測序列χ的N個概率最大的標記序列。(3)通過對這N個標記序列的比對,找出其中標記不一致的部分,並認為這部分之所以出現歧義切分是因為對實體邊界及其類型界定的不同,導致標記結果出現不一致,轉步驟4。如果一致,則不用進行歧義消解,直接得到最終的標記序列。(4)從N個最佳候選序列中找出不一致部分並找出其對應的觀測子序列^,採用基於改進的貪婪算法進行歧義消解。得到最終的標記序列。對於步驟1,其實現過程為(1)考慮一組最新提供的特徵,包括原子特徵和組合特徵。(2)只選擇那些將會大大提高似然概率的候選特徵,提高似然概率值不低於設定的閾值(threshold)。(3)訓練特徵的權重。(4)重複執行步驟(1)-03)直到選完所有的特徵。步驟( 在進行Viterbi算法選擇最佳標記序列之前,考慮了新加入特徵的效果, 從而定義新的概率模型,新的模型中加入了新的特徵函數g和新的權重μ,這樣概率模型就變為
權利要求
1.一種中文命名實體識別歧義消解方法,其特徵是該方法包括以下步驟(1)通過特徵歸納的CRF算法選取有意義的特徵來減少特徵個數;(2)採用修正的Viterbi算法來從基於特徵歸納的CRF算法學習結果中選擇N-BEST最佳標記序列,也就是選出觀測序列χ的N個概率最大的標記序列;(3)通過對這N個標記序列的比對,找出其中標記不一致的部分,並認為這部分之所以出現歧義切分是因為對實體邊界及其類型界定的不同,導致標記結果出現不一致,轉步驟 4 ;如果一致,則不用進行歧義消解,直接得到最終的標記序列;(4)從N個最佳候選序列中找出不一致部分並找出其對應的觀測子序列^cs,採用基於改進的貪婪算法進行歧義消解,得到最終的標記序列。
2.按照權利要求書1所述的中文命名實體識別歧義消解方法,其特徵在於步驟(1)實現過程為(1)考慮一組最新提供的特徵,包括原子特徵和組合特徵;(2)只選擇那些將會大大提高似然概率的候選特徵,提高似然概率值不低於設定的閾值(threshold);(3)訓練特徵的權重;(4)重複執行步驟(1)-(3)直到選完所有的特徵。
3.按照權利要求書1所述的中文命名實體識別歧義消解方法,其特徵在於步驟(2)在進行Viterbi算法選擇最佳標記序列之前,考慮了新加入特徵的效果,從而定義新的概率模型,新的模型中加入了新的特徵函數g和新的權重μ,這樣概率模型就變為
4.按照權利要求書1所述的中文命名實體識別歧義消解方法,其特徵在於步驟(4)基本原理是通過構建賦權無環有向圖G,然後求解權重最大的路徑,其具體實現具體步驟如下(1)將不一致觀測子序列Xs中字的個數記為Ls,則G的頂點的個數為Ls+1,一個個單字Ci的有序組合成構成G的邊{Eu},其中1彡i彡Ls,2彡j彡Ls+1,邊Eij表示字序列Ci. . . Cjm 組成的詞,也就是Eu實際上是一個詞,詞長為Lw = j-i,若i = j-Ι則表示字Ci單獨成詞,由G的定義可知,G中有向邊的個數為(4+ 4 ;(2)為每個詞構成的邊Eij賦權值Wij,其中Wij和詞Eij的出現頻率相關,顯然可知詞Eu 的詞長越長,其在文本中出現的頻率就會不大於比它詞長更短的詞,也就是短詞出現的頻率一定會大於等於包含該詞的長詞的詞頻,所以我們認為詞長影響著詞的權重Wu,設詞Eij 在測試數據中出現的頻率為Fu,那麼詞的權重Eu為Wlj =FijLmw其中m表示詞長的擴大級數;(3)採用貪婪算法求出G中最長的權重路徑P*,路徑Pk中詞邊所組成的字序列必須和 Xs完全一樣,建立的模型為P" = max Pk(4)組成路徑P*中的邊是Xs的最終切分結果,把這個切分結果和標註一致的部分進行整合,就得到觀測序列χ最終的切分結果。
全文摘要
一種中文命名實體識別歧義消解方法,屬於命名實體抽取領域,該方法包括以下步驟(1)首先本發明採用特徵歸納法來減少特徵個數,即通過訓練學習讓其分類器自動去選擇有意義的特徵。(2)在選取特徵後,通過Viterbi算法從CRF模型學習中選擇N-BEST最佳標記序列,也就是選出觀測序列的N個概率最大的標記序列。(3)考慮中文命名實體出現的頻率及其詞長,該方法採用改進的貪婪算法進行歧義消解,從而得到實體標記序列。
文檔編號G06F17/30GK102314507SQ20111026545
公開日2012年1月11日 申請日期2011年9月8日 優先權日2011年9月8日
發明者於珊, 施慧斌, 潘守慧, 王思遠, 王理, 鄧衛國 申請人:北京航空航天大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀