新四季網

基於上下文語義的外國人名自動識別控制方法

2023-05-19 02:08:11

專利名稱:基於上下文語義的外國人名自動識別控制方法
技術領域:
本發明涉及自然語言處理領域,具體地說是命名實體識別中的外國人名識別技術。
背景技術:
命名實體識別是自然語言處理中的熱點問題和基礎性工作,對自然語言處理具有極其重要的意義,並被應用到自然語言處理的許多領域,如信息檢索、信息抽取和機器翻譯等。命名實體一般包括人名、地名、組織機構名、日期、時間等。在各種命名實體識別中,人名識別一直處於重要地位,它的識別效果對中文分詞具有重要影響。中文人名包含中國人名和外國人名。目前對中國人名的研究較多並且取得了較好的效果,而對外國人名識別的 專門研究則相對較少,並且識別效果有待提高。本發明基於人名的上下文語義及外國人名的用字特徵對外國人名進行識別。本發明採用的方法可以分為兩個階段,即訓練階段和識別階段。在訓練階段,我們從訓練語料庫中提取人名的上下文信息詞,並且總結人名識別規則。在測試階段,我們利用人名識別規則及5個外國人名用字集合獲取候選人名,並且對於那些介於人名左右邊界詞之外的候選人名利用更加嚴格的限制條件一概率模型,對候選人名進行篩選。最後利用局部統計修正那些邊界識別錯誤的人名,並利用已經正確識別的人名召回未被識別的人名。

發明內容
針對現有技術中的缺陷,本發明提供一種在自然語言處理系統中基於上下文語義的外國人名自動識別的控制方法,其特徵在於,包括如下步驟a.分析待識別文本並獲取候選外國人名字串集;b.利用外國人名規則集對所述候選外國人名字串集進行修正和篩選獲取中間外國人名字串集;c.利用概率統計以及概率模型對所述中間外國人名字串集進行進一步篩選獲取已識別外國人名集;以及d.根據所述已識別外國人名集確認未被識別出的外國人名。優選地,所述步驟a之前包括如下步驟i.基於人工標註語料庫進行訓練生成外國人名規則集;優選地,所述步驟i.還包括如下步驟il.從所述人工標註語料庫中提取出包含外國人名的句子;i2.去除所述包含外國人名句子中的標註並將所述去除標註的句子作為臨時測試語料庫;i3.基於利用僅根據人名用字規則進行人名識別的外國人名識別系統從所述臨時測試語料庫中識別人名;i4.比較識別結果和原標註結果,總結出候選外國人名規則;以及i5.將所述規則添加到所述外國人名規則集。優選地,所述步驟i還包括如下步驟i6.判斷是否還能從所述臨時測試語料庫中總結新的外國人名規則若上述步驟i6的判斷結果為還有可以從所述臨時測試語料庫中總結的外國人名規則,則重複上述步驟i3至i5。優選地,所述步驟a還包括如下步驟al.對待識別文本進行分詞,並對所述詞語進行詞性元素標註;a2.篩選提取未進行標註的字串,並在所述未標記字串集中識別候選人名字串集。優選地,所述步驟a2還包括如下步驟a21.提取未標註字串,截取可能是外國譯名的字串作為新的未標註字串,這個新字串裡面的每一個字都屬於外國譯名用字集,並將新未標註字串中的第一個漢字作為第一漢字;a22.判斷所述第一漢字是否屬於外國人名首字用字集合;a23.若所述步驟a22判斷所述第一漢字不屬於所述外國人名首字用字集合,則將當前第一漢字在所述未標註字串中後一個漢字作為第一漢字並轉至所述步驟a21 ;a24.若所述步驟a22判斷所述第一漢字屬於所述外國人名首字用字集合,則將所述未標註字串的最後一個漢字作為第二漢字;a25.判斷所述第二漢字是否屬於外國人名尾子用字集合;a26.若所述步驟a25判斷所述第二漢字不屬於所述外國人名尾字用字集合,則將當前第二漢字在所述未標註字串中前一個漢字作為第二漢字並轉至所述步驟a25 ;a27.若所述步驟a22判斷所述第二漢字屬於所述外國人名尾字用字集合,則將所述未標註字串中的第一漢字至第二漢字中的字串作為候選外國人名字串;以及a28.重複上述步驟a21至a28直到識別完所有所述未標註字串集中的未標註字串,並形成所述候選外國人名字串集。
優選地,所述步驟c還包括如下步驟cl.提取並沒有在在所述待識別文本中處於左右邊界詞之間的所述候選外國人名字串,其中所述左邊界詞為經常出現在人名前的詞,所述右邊界詞為經常出現在人名後的詞;c2.使用概率模型計算所述步驟Cl中提取的所述候選外國人名字串為真正人名的概率,並根據第一閾值進行候選外國人名字串的篩選。優選地,所述步驟c2之後還包括如下步驟c3.利用局部統計校正邊界識別錯誤的經步驟c2篩選出的候選外國人名以及未經步驟c2篩選的候選外國人名。優選地,所述步驟d還包括如下步驟dl.將所述待識別文本中所述已識別外國人名集中外國人名相同但未被識別的外國人名確認為外國人名。優選地,所述詞性元素包括_普通詞;-右邊界詞;-左邊界詞;-既可以做左邊界又可以做右邊界的詞。根據本發明的另一發麵還提供一種在自然語言處理系統中基於上下文語義的外國人名自動識別的控制裝置,其特徵在於,包括如下模塊外國人名規則集生成模塊,其用於根據所述人工標註語料庫提取外國人名規則集;候選外國人名字串集生成模塊,其用於分析待識別文本並獲取候選外國人名字串集;規則修正模塊,其用於利用外國人名規則集對所述候選外國人名字串集進行修正和篩選;概率修正模塊,其用於利用概率統計以及概率模型進行進一步篩選獲取已識別外國人名集;以及召回模塊,其用於根據已識別的外國人名確定未被識別出的外國人名。根據本發明的另一發麵還提供一種在自然語言處理系統中基於上下文語義的外國人名自動識別的控制裝置,其特徵在於,執行如下步驟a.分析待識別文本並獲取候選外國人名字串集;b.利用外國人名規則集對所述候選外國人名字串集進行修正和篩選獲取中間外國人名字串集;c.利用概率統計以及概率模型對所述中間外國人名字串集進行進一步篩選獲取已識別外國人名集;以及d.根據所述已識別外國人名集確認未被識別出的外國人名。本發明通過對外國人名特徵的研究,結合統計學的概率模型,構建出外國人名自動識別系統。通過對文本信息進行分詞處理,基於外國人名的用字特徵及上下文的淺層語義關係,最後得到候選人名。藉助局部統計及利用已識別人名召回未識別人名最終得到系統的識別結果。本系統充分利用了人名的上下文特徵及外國人名的用字特徵,大大降低了由於分詞而產生的識別錯誤,較好的解決了其他命名實體識別為人名的情況,提高了識別效果。


通過閱讀參照以下附圖對外國人名識別的描述,本發明的其它特徵、目的和優點
將會變得更明顯圖I示出根據本發明的第一實施例的,所述基於上下文語義的外國人名自動識別方法的流程·
圖2示出根據本發明的第一實施例的,在根據待識別文本獲取候選外國人名字串集的流程圖;圖3示出根據本發明的第二實施例的,所述基於上下文語義的外國人名自動識別方法的結構示意圖;以及圖4示出根據本發明的第三實施例的,所述基於上下文語義的外國人名自動識別方法的訓練過程和識別過程的流程具體實施例方式通過閱讀參照以下附圖對外國人名識別的描述,本發明的其它特徵、目的和優點
將會變得更明顯圖I示出根據本發明的第一實施例的,所述基於上下文語義的外國人名自動識別方法的流程圖,具體地,本圖示出了 4個步驟,首選是步驟S201,分析待識別文本並獲取候選外國人名字串集。然後是步驟S202,利用外國人名規則集對所述候選外國人名字串集進行修正和篩選獲取第一中間外國人名字串集。步驟S202之後為步驟S203,利用概率統計以及概率模型對所述第一中間外國人名字串集進行進一步篩選獲取已識別外國人名集;以及d.根據所述已識別外國人名集確認未被識別出的外國人名。具體地,本領域技術人員理解,有三個重要因素可以影響本發明的外國人名識別效果,它們分別是人名的上下文特徵,外國人名的用字特徵以及中文詞集。此外,地名和組織機構名的特徵詞也會對識別效果產生影響。人名的上下文特徵對人名具有很強的指示作用。通常人名的上下文特徵是由人名的上下文信息詞來具體化體現的。在本發明中,我們將上下文關鍵詞分為兩種(I)經常出現在人名之前的詞,稱為左邊界詞;(2)經常出現於人名後邊的詞,稱為右邊界詞。還有一些邊界詞不僅可以出現於人名的前面,而且也經常出現在人名的後面,這種邊界詞既屬於左邊界詞也屬於右邊界詞。在我們的外國人名識系統中,總共收集了約8000個上下文信息詞,其中包含稱謂詞(總統),謂語動詞(出席),形容詞(勤奮的),連詞(和),副詞(已經),介詞(以)以及標點符號等。外國人名的用字雖然和中國人名大有不同,但是相對集中。我們通過對4. 57MB的外國人名辭典的分析,得到了 5類外國人名用字集合。a,外國人名用字集存儲可以用於外國人名的漢字(ACS)
b,外國人名首字集存儲可以用於外國人名首字的漢字(HCS)C,外國人名尾字集存儲可以用於外國人名尾字的漢字(TCS)d,只用於外國人名首字集存儲僅可以用於外國人名首字的漢字(UHCS)e,只用於外國人名尾字集存儲僅可以用於外國人名尾字的漢字(UTCS)由於其他的命名實體名稱(如地名、組織機構名)經常被識別為人名,因此我們收集了地名、組織機構名的特徵詞。比如「省」、「州」是地名的特徵詞,「大學」、「局」是組織機構名的特徵詞。
由於部分外國人名存在內部成詞或者外國人名和上下文成詞的現象,這些外國人名可能被分詞器錯誤的分割。為了解決這個問題,根據外國人名和普通詞的關係,我們將中文詞集中的詞分為三類,分別為標準中文詞集(SCWS),衝突詞集(CWS)以及關聯詞集(RffS)0A,標準中文詞集,存儲那些不可以用於外國人名的詞,這些詞將作為分詞的詞庫。B,衝突詞集,存儲那些可以用於外國人名的詞,但是這些詞本身並不構成外國人名。例如「開朗」是一個普通的中文詞,但它也可以構成外國人名的一部分,比如「米開朗琪羅」。如果我們將「開朗」存儲在標準中文詞集中,那麼經過分詞之後,「米開朗琪羅」將被分為「米開朗琪羅」,從而引起分詞錯誤。考慮到這一點,我們建立了衝突詞集。C,關聯詞集,存儲那些既可以作為外國人名,又可以作為其他實體名的詞,以及他們的關聯詞。比如「華盛頓」,它既可以指代美國的開國總統,也可以指代美國首府。當上下文中出現「首府」、「城市」、「白宮」等關聯詞時,我們就將其視為地名,而非人名。圖2示出根據本發明的第一實施例的,在根據待識別文本獲取候選外國人名字串集的流程圖。具體地,本圖示出了 11個步驟,首先是步驟S301,對待識別文本進行分詞以及詞性標註,具體地本領域技術人員理解,優選地,可以藉助SCWS (standard Chinese Word
Set)分詞詞庫進行簡單分詞並標註。更具體地,對於句子COCl......Ck-6Ck-5Ck-4Ck-3Ck-2
Ck-1 CkCk+1 Ck+2Ck+3Ck+4Ck+5Ck+6Ck+7Ck+8Ck+9Ck+10......Cn-lCn,分詞並標註之後變為
C0Cl/rnr..Ck-6/BnCk-5Ck-4Ck-3Ck-2Ck-l Ck/Av Ck+lCk+2 Ck+3/An Ck+4Ck+5/rmCk+6/CpCk+7Ck+8Ck+9Ck+10/Av…Cn-lCn/rm.其中「/rm」表不普通詞,所述普通詞屬於所述標準中文詞集,「/A*」表示右邊界詞,「/B*」表示左邊界詞,「/Cf」表示既可以做左邊界詞又可以做右邊界詞的詞。「/A*」 VB*" 「/Cf」中的表示該詞詞性,例如「/An」表示該詞為右邊界詞且該詞為名詞,又例如「/Αν」表示該詞為右邊界詞且該詞為動詞。之後為步驟S302,提取未標註字串集,藉助外國人名用字集(ACS)、外國人名首字集(HCS)以及外國人名尾字集(TCS)從未標註的字串(例如Ck-5Ck-4Ck-3Ck-2Ck-l,Ck+lCk+2以及Ck+7Ck+8),並形成未標註字串集合。所述未標註字串集生成後,執行步驟S303至步驟S311,從所述未標註字串中根據下述規則識別候選外國人名字串集從所述未標註字串集,假設任意漢字串C1C2……Ck……Cn,若對所有的Ci均有Ci屬於外國人名用字集合,那麼該漢字串即為潛在候選人名。然後利用首尾逼近策略,進一步確定潛在候選人名的邊界,得到候選人名字串。具體地,步驟S303,從所述未標註字串集中提取一未標註字串C1C2……Ck……Cn,並假設所述未標註字串的第一個漢字Cl為第一漢字Ct。之後為步驟S304,判斷所述第一漢字Ct是否屬於外國人名首字用字集合,若Ct不屬於外國人名首字用字集合,則執行步驟S305,將所述第一漢字Ct後一個字Ct+Ι作為第一漢字Ct並跳至步驟S304繼續判斷所述第一漢字Ct是否屬於外國人名首字用字集合;若Ct屬於外國人名首字用字集合,則執行步驟S306,潛在人名的首字位置確定,並將所述未標註字串中最後一個漢字作為第二漢字Cu。步驟S306後執行步驟S307,判斷所述第二漢字Cu是否屬於外國人名尾字用字集合,若所述第二漢字Cu不屬於外國人名尾字用字集合,則執行步驟S308,將所述第二漢字Cu前一個字Cu-I作為第二漢字Cu並跳至步驟S307繼續判斷所述第二漢字Cu是否屬於外國人名尾字用字集合;若Cu屬於外國人名尾字用字集合,則執行步驟S309,潛在人名的尾字位置確定,並將所述第一漢字至第二漢字的不少於兩個字的字串作為候選外國人名字串。步驟S309後執行步驟S310,判斷所述未標註字串集中所有的未標註字串是否識別完畢,若未識別完畢,則重複步驟S303至步驟S310 ;若識別完畢則執行步驟S311,根據所述未標註字串生成候選外國人名字串集。圖3示出根據本發明的第二實施例的,所述基於上下文語義的外國人名自動識別方法的結構示意圖。具體地,本圖示出了五個模塊,外國人名規則集生成模塊21,其用於根據所述人工標註語料庫提取外國人名規則集,所述外國人名規則集用於修正所述候選外國 人名字串集,例如如下規則
規則編號規則描述_規則I__連詞兩邊要麼全是人名,要麼全都不是人名。規則2如果候選人名中包含人名間隔符(「 ·」或者),__那麼候選人名極有可能是真正的人名。_規則3如果候選人名附近出現了 「他」、「她」等人稱代詞,_那麼它是真正人名的可能性將大大增強。_規則4如果候選人名的左側是一個人名左邊界詞,或者候_選人名位於句首,那麼候選人名的左邊界確定。_規則5如果候選人名的右側是一個人名右邊界詞,或者候_選人名位於句尾,那麼候選人名的右邊界確定。規則6 如果候選人名後的特徵字符串不用於指代人名,那_麼否定該候選人名。_外國人名規則集生成模塊21,總共總結了 16條規則,收集了 1323條包含外國人名的句子,總計包含1612個外國人名。候選外國人名字串集生成模塊22,用於分析待識別文本並獲取候選外國人名字串集。具體地,本領域技術人員理解,待識別文本通過分詞詞性標註來提取未標註字串集,並利用首尾逼近原則識別候選外國人名字串集。規則修正模塊23,用於利用外國人名規則集生成模塊21生成的外國人名規則集對所述候選外國人名字串集進行修正和篩選;概率修正模塊24,其用於利用概率統計以及概率模型進行進一步篩選獲取已識別外國人名集,具體地,當所述中間外國人名字串並沒有介於左右邊界詞中間時,首先經過使用概率模型計算所述步驟Cl中提取的所述候選外國人名字串為真正人名的概率,並根據第一閾值進行候選外國人名字串的篩選再和介於左右邊界詞中的中間外國人名字串一起進行利用局部統計校正邊界識別錯誤。召回模塊25,用於根據概率修正模塊24已識別的外國人名確定待識別文本中未被識別出的外國人名召回未識別的人名。利用已識別的人名去召回未識別的人名將得到相同的結果。。圖4示出根據本發明的第三實施例的,所述基於上下文語義的外國人名自動識別方法的訓練過程和識別過程的流程圖。首先是訓練階段,本發明利用兩個大規模的人工標註語料庫作為訓練語料庫,他們 分別是人民日報語料庫和LCMC(The Lancaster Corpus ofMandarin Chinese)語料庫。我們從訓練語料庫中提取出人名的上下文信息詞並總結出外國人名規則。獲取外國人名規則的基本步驟如下第一步,從語料庫中提取出包含外國人名的句子;第二步,去掉這些句子中的標註,將這些句子的集合作為臨時測試語料庫(TTC);第三步,利用初始的外國人名識別系統從TTC中識別人名(所謂初始的外國人名識別系統是指沒有添加規則校正,僅利用人名用字規律進行人名識別的系統);第四步,比較識別結果和原標註結果,總結出候選的外國人名規則;第五步,分別將這些候選外國人名規則添加到我們的系統中,比較添加每條規則後我們的系統所取得的正確率,將取得正確率最高的規則最終添加到我們的初始人名識別系統中。不斷重複第三步到第五步,直到沒有新的規則可以提高我們的系統的正確率為止。識別階段識別階段的主要步驟如下第一步,藉助SCWS進行分詞並標註。例如,對於句子COCl......Ck-6Ck_5Ck_4Ck
-3Ck-2Ck-1 CkCk+1 Ck+2Ck+3Ck+4Ck+5Ck+6Ck+7Ck+8Ck+9Ck+10......Cn-1 Cn,分詞並標註之
後變為C0Cl/rm…Ck-6/BnCk-5Ck-4Ck-3Ck-2Ck-l Ck/Av Ck+lCk+2 Ck+3/An Ck+4Ck+5/rmCk+6/Cp Ck+7Ck+8Ck+9Ck+10/Av…Cn-lCn/rm.其中 「/rm」 表示普通詞,「/A*」 表示右邊界詞,「/B*」表示左邊界詞,「/Cf」表示既可以做左邊界詞又可以做右邊界詞的詞。第二步,藉助ACS,HCS以及TCS從未標註的字串(例如Ck-5Ck-4Ck-3Ck-2Ck_l,Ck+lCk+2以及Ck+7Ck+8)中識別候選人名。首先藉助候選人名用字從未標註字符串中識別出潛在的候選人名。設任意漢字串C1C2……Ck……Cn,若對所有的Ci均有Ci屬於外國人名用字集合,那麼該漢字串即為潛在候選人名。然後利用首尾逼近策略,進一步確定潛在候選人名的邊界,得到候選人名字串,具體描述如下Step O :假設得到的潛在候選人名字串為C1C2……Ck……Cn,t — IStep I :若Ct屬於外國人名首字用字集合,則潛在人名的首字位置確定,t — η,轉Step 3 ;否則轉Step 2Step 2 :t — t+1,轉 Step I ;Step 3 :若Ct屬於外國人名尾字用字集合,則潛在人名的尾字位置確定,否則轉Step 4 ;Step 4 :t — t_l,轉 Step 3 ;Step 5 :若潛在人名長度大於2,則得到的潛在候選人名串是候選人名,否則不是。第三步,利用規則集對候選人名進行修正。若候選人名之後出現+數字的形式,否定該候選人名。若候選人名之中出現中國數字+量詞的形式,或者候選人名首字為量詞,候選人名之前是中國數字的形式,否定該候選人名。對於候選人名尾字為中國數字,候選人名之後是量詞的,去掉候選人名尾字,對剩餘的字符串進行候選人名的判斷。·若候選人名首字是人名間隔號,繼續向候選人名前向尋找可以用於人名首字的字,直到找到可以用於人名首字的字或者找到未標註字符串首部為止,若找到可用於人名首字的字,則該候選人名首字位置重定界到該字位置。若候選人名尾字是人名間隔號,繼續向候選人名後向尋找可以用於人名尾字的字,直到找到可以用於人名尾字的字或者找到未標註字符串尾部為止,若找到可用於人名尾字的字,則該候選人名尾字位置重定界到該字位置。若人名後面出現用於組織機構、地名等特徵詞的詞,否定該候選人名。若人名首字可以做介詞用字,例如「以」,而後又出現了與該介詞可以搭配的詞語,例如「為」,則候選人名左邊界重定界,以第二個字作為候選人名首字。若候選人名尾字及候選人名前面或者後面的漢字構成固定搭配對時,比如「當……時」,候選人名尾字是「時」,而候選人名前面出現了漢字「當」,則否定該候選人名。若候選人名之中出現了可以用於國家名首字的字,且該字後出現了諸如「軍」、「方」、「式」、「企」等漢字時,否定該候選人名。若人名首字是「所」,而人名中不包含「所羅門」,則否定該候選人名。若候選人名位於連詞的一側,而另一側不是候選人名,也不是人稱代詞,則否定該候選人名。若候選人名包含在人名衝突詞集中,則否定該候選人名。若候選人名包含在關聯詞集中,並且與其相關聯的詞不用於人名,則否定該候選人名。若存在多個候選人名連續出現,且用「、」隔開的情況,我們做如下判斷假設有η個「、」,並且「、」之間不包含上下文信息詞,我們用num表示識別的候選人名個數,若num> (n+l)/2,那麼「、」間隔的詞串全部都是候選人名,否則全部不是候選人名。如果「、」之間出現了組織機構名、地名等的特徵詞,則同樣否定全部用「、」間隔的候選人名。比如在句子 C1C2C3C4C5C6C7C8C9C10C11C12C13C14C15C16C17C18C19…Cn, C5, C8, C12,和C15是「、」,C3C4和C6C7被識別為候選人名,那麼η為4,num是2,由於num彡(n+1) /2不成立,所以否定「、」間隔的所有候選人名。若人名內部包含只用於人名首字或者只用於人名尾字的字,否定該候選人名。若候選人名附近出現了 「他」、「她」等人稱代詞,那麼它是真正人名的可能性將大大增強。若候選人名的左側是一個人名左邊界詞,或者候選人名位於句首,那麼候選人名的首字位置確定若候選人名的右側是一個人名右邊界詞,或者候選人名位於句尾,那麼候選人名的尾字位置確定。經過上述候選人名校正之後,如果候選人名位於左右邊界詞之間,則跳到第五步,否則跳到第四步。第四步,對於那些介於左右邊界詞之外的候選人名,我們使用概率模型計算它是真正人名的概率。我們使用pf,pm和pi分別表示候選人名字串可構成外國人名的首字、中字、尾字的概率。Pname表示候選人名是真正人名的概率。計算概率的公式如下
權利要求
1.一種在自然語言處理系統中基於上下文語義的外國人名自動識別的控制方法,其特徵在於,包括如下步驟 a.分析待識別文本並獲取候選外國人名字串集; b.利用外國人名規則集對所述候選外國人名字串集進行修正和篩選獲取中間外國人名字串集; c.利用概率模型對所述中間外國人名字串集進行進一步篩選獲取已識別外國人名集;以及 d.根據所述已識別外國人名集確認未被識別出的外國人名。
2.根據權利要求I所述的控制方法,其特徵在於,所述步驟a之前包括如下步驟 i.基於人工標註語料庫進行訓練生成外國人名規則集。
3.根據權利要求2所述的控制方法,其特徵在於,所述步驟i還包括如下步驟 11.從所述人工標註語料庫中提取出包含外國人名的句子; 12.去除所述包含外國人名句子中的標註並將所述去除標註的句子作為臨時測試語料庫; 3.基於利用僅根據人名用字規則進行人名識別的外國人名識別系統從所述臨時測試語料庫中識別人名; 4.比較識別結果和原標註結果,總結出候選外國人名規則;以及 5.將所述規則添加到所述外國人名規則集。
4.根據權利要求2或3所述的控制方法,其特徵在於,所述步驟i還包括如下步驟 6.判斷是否還能從所述臨時測試語料庫中總結新的外國人名規則; 7.若上述步驟i6的判斷結果為還有可以從所述臨時測試語料庫中總結的外國人名規則,則重複上述步驟i3至i5。
5.根據權利要求I至4所述的控制方法,其特徵在於,所述步驟a還包括如下步驟 al.對待識別文本進行分詞,並對所述詞語進行詞性元素標註; a2.篩選提取未進行標註的字串,並在所述未標記字串集中識別候選人名字串集。
6.根據權利要求5所述的控制方法,其特徵在於,所述步驟a2還包括如下步驟 a21.提取未標註字串,截取可能是外國譯名的字串作為新的未標註字串,這個字串裡面的每一個字都屬於外國譯名用字集,並將新未標註字串中的第一個漢字作為第一漢字; a22.判斷所述第一漢字是否屬於外國人名首字用字集合; a23.若所述步驟a22判斷所述第一漢字不屬於所述外國人名首字用字集合,則將當前第一漢字在所述未標註字串中後一個漢字作為第一漢字並轉至所述步驟a21 ; a24.若所述步驟a22判斷所述第一漢字屬於所述外國人名首字用字集合,則將所述未標註字串的最後一個漢字作為第二漢字; a25.判斷所述第二漢字是否屬於外國人名尾子用字集合; a26.若所述步驟a25判斷所述第二漢字不屬於所述外國人名尾字用字集合,則將當前第二漢字在所述未標註字串中前一個漢字作為第二漢字並轉至所述步驟a25 ; a27.若所述步驟a22判斷所述第二漢字屬於所述外國人名尾字用字集合,則將所述未標註字串中的第一漢字至第二漢字中的不少於兩個字的字串作為候選外國人名字串;a28.重複上述步驟a21至a28直到識別完所有所述未標註字串集中的未標註字串,並形成所述候選外國人名字串集。
7.根據權利要求I至6所述的控制方法,其特徵在於,所述步驟c還包括如下步驟 Cl.提取並沒有在在所述待識別文本中處於左右邊界詞之間的所述候選外國人名字串,其中所述左邊界詞為經常出現在人名前的詞,所述右邊界詞為經常出現在人名後的詞; c2.使用概率模型計算所述步驟Cl中提取的所述候選外國人名字串為真正人名的概率,並根據第一閾值進行候選外國人名字串的篩選。
8.根據權利要求I至7所述的控制方法,其特徵在於,所述步驟c2之後還包括如下步驟 c3.利用局部統計校正邊界識別錯誤的經步驟c2篩選出的候選外國人名以及未經步驟c2篩選的候選外國人名。
9.根據權利要求I至8所述的控制方法,其特徵在於,所述步驟d還包括如下步驟 dl.將所述待識別文本中所述已識別外國人名集中外國人名相同但未被識別的外國人名確認為外國人名。
10.根據權利要求I至9所述的控制方法,其特徵在於,所述詞性元素包括 -普通詞,所述普通詞為不能作為外國人名組成部分的詞; -右邊界詞,所述右邊界詞為經常出現在人名後的詞,; -左邊界詞,所述左邊界詞為經常出現在人名前的詞; -既可以做左邊界又可以做右邊界的詞。
11.一種在自然語言處理系統中基於上下文語義的外國人名自動識別的控制裝置,其特徵在於,包括如下模塊 外國人名規則集生成模塊,其用於根據所述人工標註語料庫提取外國人名規則集; 候選外國人名字串集生成模塊,其用於分析待識別文本並獲取候選外國人名字串集; 規則修正模塊,其用於利用外國人名規則集對所述候選外國人名字串集進行修正和篩選; 概率修正模塊,其用於利用概率模型進行進一步篩選獲取已識別外國人名集;以及 召回模塊,其用於根據已識別的外國人名確定未被識別出的外國人名。
全文摘要
本發明通過對外國人名特徵的研究,結合統計學的概率模型,提供一種在自然語言處理系統中基於上下文語義的外國人名自動識別的控制方法,其特徵在於,包括如下步驟a.分析待識別文本並獲取候選外國人名字串集;b.利用外國人名規則集對所述候選外國人名字串集進行修正和篩選獲取第一中間外國人名字串集;c.利用概率統計以及概率模型對所述第一中間外國人名字串集進行進一步篩選獲取已識別外國人名集;以及d.根據所述已識別外國人名集確認未被識別出的外國人名。本系統充分利用了人名的上下文特徵及外國人名的用字特徵,大大降低了由於分詞而產生的識別錯誤,較好的解決了其他命名實體識別為人名的情況,提高了識別效果。
文檔編號G06F17/27GK102955775SQ201210197238
公開日2013年3月6日 申請日期2012年6月14日 優先權日2012年6月14日
發明者王祖興, 呂釗, 顧君忠 申請人:華東師範大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀