融合分布式語義和句義特徵的人物關係抽取方法與流程
2023-08-13 11:39:46 1

本發明涉及一種從中文文本或中文文本集中自動抽取人物關係的方法,屬於計算機科學與信息抽取技術領域。
背景技術:
人物關係抽取是把分散在文本中的人物實體及人物之間的關係準確、快速的自動抽取,屬於信息抽取領域的研究內容。
信息抽取技術(IE,Information Extraction)要完成兩大研究任務:實體識別(EDR,Entity Detection and Recognition)和關係識別(RDR,Relation Detection and Recognition)。其中關係識別(也稱作「關係抽取」)就是從文本中抽取實體之間的存在的關係,而這些關係的類型是預先定義的。人物關係屬於實體關係中的一種,是指文本或文本集中所描述的兩個人物之間的關聯關係。對於人物關係抽取,主要解決:①獲取兩個人物之間的關係屬性(關係屬性抽取);②計算兩個人物之間的關聯程度(關係強度計算)。除此之外,對於分散在文本和文本集中的人物關係的組織方式和展示形式也是需要考慮的問題。
人物關係抽取方法主要有兩類:基於模式識別的方法和基於機器學習的方法。
1.基於模式識別的方法:
1)早期的基於模式識別的人物關係抽取方法:基於模式識別的方法是通過詞法、句法等方面的特徵,構建識別所需的知識庫(或稱作規則庫),採用該知識庫來進行模式的匹配,達到關係抽取的目的。對於基於模式識別的人物關係抽取方法,最困難的步驟是人物關係模式(人物關係規則庫)的建立。這些人物關係模式的建立需要依靠語言學家,社會學家對抽取任務所涉及領域的語料進行細緻深入的分析,窮舉各種可能的人物關係編制人物關係模式。這種方法編制周期太長,應用成本很高。
2)對早期方法的改進方法:針對早期的純手工編織人物關係模式的問題,後來的學者們提出了一些解決方法。
a)如Appelt等人提出的FASTUS抽取系統中,通過引入「宏」的概念將各種領域依賴規則以一種具有擴展性、通用性的方式表達。用戶只需要修改相應「宏」中的參數設置,就可以快速配置好特定領域任務的關係模式規則;所謂宏,就是一些命令組織在一起,作為一個單獨命令完成一個特定任務。
b)Roman等人提出的Proteus抽取系統採用了基於樣本泛化的人物關係抽取模式構建方法,這種方法通過對編制的人物關係模式進行泛化,從而使模式能適用更廣領域的人物關係抽取;
c)Aone等人構建的REES系統(Large-Scale Relation and Event Extraction System)中通過構造包含100多種人物關係模式的知識庫來進行關係抽取。
d)此外,在中文方面,國內也有一些學者採用模式識別的方法用於抽取人物關係,如姜吉發等人為了減輕模式編制人員的勞動量提出了一種自舉的二元關係和二元關係模式獲取方法——BRPAM,該方法可以通過自舉已有的二元關係擴充知識庫(人物關係規則庫),依據該放法,姜吉發他們設計了一個能夠從自由文本中進行二元關係抽取的IE系統BRPAM2Texts;鄧擘等人將詞彙語義匹配引入到了關係模式匹配中,提出了一種全新的關係抽取的方法。這種方法由於引入了詞彙的語義特性,使得人物關係抽取的結果更符合客觀的邏輯,準確率有了一定的提高,對於不同領域的人物關係可以藉助相關領域的詞典實現人物關係抽取。
以上基於模式識別的人物關係抽取方法仍然存在開發成本高昂,適用性低的不足。
2.基於機器學習的方法:
基於機器學習的人物關係抽取方法是通過機器學習算法,在人工標引語料的基礎上構造分類器,然後將其應用在領域語料人物關係的類別判斷過程中。目前使用比較多的機器學習算法有MBL算法和SVM算法。如:
a)Zhang等人構建的中文命名實體及關係抽取系統就是採用MBL算法從訓練數據中構建分類規則,抽取過程中基於該規則進行實體和關係的抽取;
b)Zhang和車萬翔等則採用SVM算法進行關係抽取規則的學習;何婷婷等人提出了利用少量人工選取的實體關係作為種子(初始關係),通過自學習的方式不斷擴充關係種子集合,來抽取實體關係的方法;
c)劉路等人則提出了一種基於SVM正、反例訓練的實體關係抽取方法。
基於機器學習的方法已經比較成熟,但是仍存在問題,例如,在語料不夠豐富的情況下,特徵詞的覆蓋力度不夠,影響分類效果;特徵選擇對於機器學習算法至關重要,而特徵選擇沒有充分利用句義特徵信息和分布式信息,導致特徵分析不夠深入,分類效果不優。
技術實現要素:
針對機器學習算法的特徵選擇困難和特徵分析不夠深入,導致分類效果差的問題,本發明提出了一種融合分布式語義和句義特徵的人物關係抽取方法,提高了從中文文本或中文文本集中自動抽取人物關係的效果。
本發明的技術方案包括如下內容:
首先利用統計詞頻特徵及Bootstrapping算法,分別在少量有標記的語料和大量無標記的語料中訓練得到關係特徵詞典,然後通過元素距離最優化規則構造語句的三元組實例,融合詞法層及句義特徵構造三元組特徵空間,最後對三元組進行是非二元判定,利用置信度最大化原則得到人物關係類別。本發明實現了特徵關係詞典的自動生成,將傳統的關係多分類問題轉化為三元組是非二元判定問題,更加適應傳統的機器學習分類算法,且利用句義特徵,提升了關係分類的準確率,如圖1所示。
步驟1,關係特徵詞典自動生成;
將人物關係抽取看作分類任務,本發明定義八大類人物關係,包括師從關係、家庭關係、上下級關係、競爭關係、朋友關係、愛戀關係、乾親關係、看護關係和其他關係。關係特徵詞表徵著描述人物之間的雙向關係,對人物之間關係屬性的判別至關重要,以下介紹本專利提出的自動生成關係特徵詞典算法的具體流程。
步驟1.1,經過文本預處理,對帶標籤的語料進行訓練,得到初始種子詞集,具體流程如下:
步驟1.1.1,首先利用中科院計算所的分詞工具ICTCLAS2013、BFS實驗室的漢語句義結構模型自動構建系統ACSM(Automatic Chinese Sentential Semantic Model)和工具scikit-learn對語料進行預處理,分別得到分詞、詞性標註、人名實體識別、每個詞的TF-IDF值及句義結構分析結果。然後去除停用詞,對帶標籤的語料進行訓練,得到初始種子詞集。
其中,句義結構模型(CSM)是對句義中的成分以及成分之間組合關係的結構化、形式化表示,將抽象的句義表示成計算機可處理的結構化數據,目的是幫助計算機從深層的語義角度去理解漢語句子。通過該模型將抽象的句義形式化表達為成分之間的數理結構,讓計算機能夠識別和處理漢語句義。
句義結構模型的要素有:句義類型、話題、述題、語義格、謂詞項、漢語時間系統、時空範圍信息、成分組合關係等。針對上述要素,句義結構模型被劃分為4個層次:句型層、描述層、對象層和細節層,其基本形式如圖2(見附圖)所示。
通過句義結構模型分析得到的句子結構信息和語義信息,抽取能夠表述句子語義的特徵,這些特徵能夠表達人物實體重要信息。句義特徵構造是利用句義成分之間的組合關係,具體是在句義結構模型自動構建的基礎上依次查詢語義格(表1)對應的項作為特徵詞,並根據語義格的依存關係(參考附圖2)構造不同組合方式形成具有更精確語義表達能力的特徵詞組。
表1語義格類型說明
步驟1.1.2,將帶標記的語料按所含關係類別Ci(0<iFmin(w)且M>Mmin的詞與種子詞集合併作為新的種子詞集,其中,Fmin(w)表示最少句子個數,設為5個,Mmin是設置的最小權重。
步驟1.2.4,重複步驟1.2.2、1.2.3直到沒有新的滿足條件的詞產生為止,通過上述步驟自動生成了所有類別的關係特徵詞典。
步驟2,三元組特徵空間構造,在一個句子中出現的關係特徵詞以及關係詞所反映的關係屬性可能屬於該句子中出現的兩個人物之間,例如「作為劉翔的教練,孫海平對13秒08的成績很滿意」其中「教練」反映出「姚明」和「孫海平」之間的「師徒關係」。定義為一個關係三元組實例,這樣可以對關係屬性歸屬進行是非二元判定,將多分類問題轉化為二分類問題。
步驟2.1,抽取每一句中的人名實體,得到該句的人名列表,將列表中所有的人名兩兩搭配,形成配對關係。
步驟2.2,利用步驟1生成的關係特徵詞典,得到語句中的關係特徵詞表,依次加入配對關係,窮舉構成三元組實例,對於每一個i、j、k,滿足0<i<=n,0<j<=n,0<k<=m。
步驟2.3,利用深度學習中的word2vec方法,計算特徵詞表和人名列表中每個元素的詞向量,得到每個特徵詞的詞向量W_Veck,和每個人名的詞向量NameVeci。
步驟2.4,利用字串匹配的方法,分別獲取三元組實例中三元素在句子中位置,對於每種組合,結合之間的語義信息,利用公式(4)計算三元組實例間的距離d。
其中,pos(Namei)表示Namei在句子中字符位置,dis(pos(Namei),表示兩個人物實體的相隔詞數,dis(pos(Namei),pos(Wk))表示關係詞k與實體i的相隔詞數,dim(NameVeci,NameVecj)表示兩個詞向量之間的相似度,兩個詞語的語義越相近時,dim(NameVeci,NameVecj)就越大,反之越小,這個公式結合了分布式語義信息和句義特徵的特點,使距離d更能代表三元組實例的位置信息,標點按5個字符計算,選擇使d取最小時的組合表示三元組實例的位置信息。
步驟2.5,若位置信息中dis>dismin,d>dmin(dmin表示可接受的最小距離閾值),則排除該三元組實例,得到最終的三元組實例結果,依據位置信息構造相應的特徵向量。
步驟3,三元組是非二元判定;
通過C4.5訓練出來的決策樹中,對於每一個判定為「真」的結果都會有相應的置信度係數P+,該置信度就是被判定為「是」的備選關係組合的置信度,可以用於對存在衝突的關係組合結果進行篩選。每一個三元組實例若被判定為「真」,將置信度P+作為其權值,比較兩個人物實體所在的所有三元組,將使權值取得最大的關係屬性作為人物實體最終的人物關係判定結果。
有益效果
相比於基於機器學習的方法,本發明採用的具有識別速度快、準確率高的特點。
相比於基於模式識別的方法,本發明實用性更廣,具有更好的擴展性。
與基於模式識別的方法相比,本發明採用的技術具有更小的計算消耗,不僅適用於桌面計算機,也適用於手機、平板電腦等移動計算平臺。
與基於語義模式人物關係抽取方法相比,本發明的句義特徵具有更優的深層分析效果從而保證了更高的識別準確率。
附圖說明
圖1為本發明的人物關係抽取算法原理圖;
圖2為句義結構模型基本形式結構圖;
圖3為利用C4.5訓練得到的人物關係組合是非二元判定的決策樹實例(部分);
圖4關係特徵詞典自動生成算法參數選擇實驗結果對比圖;
具體實施方式
為了更好的說明本發明的目的和優點,下面結合附圖和實施例對本發明方法的實施方式做進一步詳細說明。
數據源是BFS熱門人物檢索語料,包括「姚明」、「劉翔」、「周杰倫」、「詹姆斯」、「成龍」、「科比」、「謝霆鋒」,標註語料總計1540篇文本,存在至少兩個人名的語句2389個,未標註語句10000個。數據源的描述如表1所示,通過人工統計得到人物實體數。
表1人物關係抽取實驗數據源
為了驗證人物關係抽取方法,進行了三個實驗:
(1)參數選擇實驗:選擇初始種子詞抽取過程及Bootstrapping算法中最佳的閾值K與M的組合方式,其中,K和M分別是初始種子詞關聯程度和候選種子詞權重的閾值。
(2)關係特徵詞典對比實驗:將自動抽取的詞典與已被採用的人工編寫的詞典進行對比,驗證自動抽取的詞典具有更強的拓展性及與關係類別的匹配程度。
(3)人物關係抽取效果實驗:用於檢驗本專利提出的人物關係抽取算法的準確性、全面性,並與其它關係抽取算法進行比較。
下面將對上述測試流程逐一進行說明,所有測試均在同一臺計算機上完成,具體配置為:Intel雙核CPU(主頻3.0G),4.00G內存,Windows7作業系統。
對於參數選擇和所抽取的人物關係,我們同樣選取準確率、召回率和F值進行評價,計算方法與公式(5)~(7)相同,其中的參數意義有所變化:
a)表示被抽取出的正確的人物關係屬性的數目;
b)表示被抽取出的錯誤的人物關係屬性的數目;
c)表示沒有被抽取出的人物關係屬性的數目。
對於關係特徵詞典對比實驗,採用專家打分策略,通過兩位長期從事自然語言處理的研究人員依據詞與關係類別的匹配程度,將每一個詞從-3分到+3分區間內選擇整數分值進行打分,-3分代表非常不匹配,+3分代表非常匹配,統計得到總得分及平均得分指標。
實驗中分詞採用中科院計算所提供的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)作為詞法分析的工具。ICTCLAS的人名識別準確率達到98%以上(973評測),直接利用這個功能識別人物對象。
為了進行三元組實例是非二元分類模型訓練以及判定,選用22種詞法層及句義特徵組合構造特徵空間,在此空間上用向量表示每一個三元組實例,訓練分類模型並進行測試,這些特徵如表2所示。
表2構造三元組實例特徵空間的特徵
1.參數選擇實驗
利用網格法,選擇的參數K值表示初始種子詞的關鍵程度最小閾值指標,選擇的參數M值為Bootstrapping算法抽取中的最小打分閾值。首先對K值與M值進行歸一化,分別從0.1到0.9以0.05為間隔變動,對F值進行粗略觀察,發現K值在0.4~0.6區間,M值在0.5~0.7區間內變動時,效果較好。然後用網格法在上述區間進行細緻選擇,得到最優參數組合。
實驗中K以0.02為間隔在0.4~0.6的區間變動,M以0.02為間隔在0.5~0.64的區間變動,其中M1=0.5。橫坐標為K值,縱坐標為F值。參數選擇實驗的結果如附圖4所示,由此可知,K取0.52,M取0.54時,關係特徵詞典最為合適。
2.關係特徵詞典對比實驗
用參數選擇實驗所述的最優參數組合得到自動生成的關係特徵詞典,並與馮揚博士在其人物關係抽取系統中所使用的人工編寫的詞典進行對比。統計詞典中的總詞數,並利用專家打分策略,對比分值分析兩個詞典的效果。
關係特徵詞典對比實驗的結果如表3所示。
表2關係特徵詞典對比實驗結果
由表3可知,相較於人工編寫的詞典,自動生成算法得到的詞典在詞總量上擴展77.6%,並在各個正分的範圍內詞數量均有較大幅度的提升。總得分提高152分,表現出更高的綜合質量,而平均分略有下降,這是由於人工編寫的詞典中的每個詞是主觀抽取的,可理解性更強。由上可以得出,在不明顯降低每一個詞的匹配程度的情況下,大幅提升了詞典的覆蓋程度及總體質量。
3.人物關係抽取實驗
首先通過2389個標註語句進行C4.5人物關係判定的模型訓練;然後進行自動的人物關係抽取;最後以人工統計得到的標準關係三元組為標準,計算準確率、召回率和F值。
進行總體效果實驗對比時,首先利用分布式語義信息結合句義特徵訓練模型並進行測試,得到本專利算法最終效果,最後分別採用基於語義模式的實體關係抽取算法、基於SVM的實體關係抽取算法、以及基於正反例訓練的SVM命名實體關係抽取算法針對相同的數據源進行人物關係抽取,其中第一種算法是基於模式識別的算法,其他兩種是基於機器學習的算法。
人物關係抽取效果實驗的結果如表4所示。
表錯誤!文檔中沒有指定樣式的文字。人物關係抽取效果實驗結果
由表4可知,利用分布式語義信息結合句義特徵的方法效果較好。這是由於分布式語義信息,較準確地表達了詞序、詞性等信息。結合具有強區分性的句義特徵信息大大提高了特徵空間的表達能力,這在對比實驗中也得到體現,該算法的綜合指標F值達到83.8%,優於其他關係抽取算法。
通過與現有的優良算法進行對比,可以發現本專利算法的效果要明顯優於基於模式識別的實體關係抽取方法,並且也好於一般基於機器學習的實體關係抽取算法在人物關係抽取上的應用。原因如下:第一,實現特徵關係詞典的自動化生成,並且基於改進Bootstrapping算法拓展了特徵關係詞的覆蓋範圍,對三元組判別召回率的提升產生積極影響;第二,將傳統的關係多分類問題轉化為三元組是非二元判定問題,更加適應傳統的機器學習分類算法;第三,利用句義結構模型,對樣本進行更深入的分析,標識三元組的不同語義成分及結構特點,作為強特徵有力地約束三元組實例信息,在準確率方面的提升效果是明顯的。