新四季網

一種中文實體間語義關係抽取方法

2023-10-27 04:55:32

專利名稱:一種中文實體間語義關係抽取方法
技術領域:
本發明屬於文本處理技術領域,尤其涉及一種中文實體間語義關係抽取方法。
背景技術:
命名實體間語義關係抽取(可簡稱為實體關係抽取或關係抽取)是信息抽取中的一個重要研究內容,其任務是從自然語言文本中提取出兩個命名實體之間所存在的語義關係,例如短語「美國總統柯林頓的平壤之行」中的兩個實體「柯林頓」(PER-人物)和「平壤」(GPE-地理政治實體)之間存在的物理位置關係(PHYS. Located)。命名實體間語義關係抽取作為一項應用基礎性研究,對內容理解、問題回答、自動文摘、以及信息過濾等自然語言處理應用都具有重要的意義。

實體間語義關係抽取通常採用指導性的機器學習方法,按關係實例的表達形式可分為基於特徵向量的方法和基於核函數的方法。在基於特徵向量的實體關係抽取方法中,將關係實例轉換成分類器可接受的包含詞彙、句法或語義特徵的特徵向量。該方法儘管速度很快,也很有效,然而由於實體間語義關係表達的複雜性和可變性,其關係抽取的性能較低。在基於核函數的實體關係抽取方法中,直接以結構樹為處理對象,計算各個結構樹之間的相似度,再使用支持核函數的分類器進行關係抽取。由於該方法可以充分利用結構化特徵,理論上可探索隱含的高維特徵空間,因此,雖然它訓練和預測的速度較慢,人們仍然希望通過對核函數的進一步研究和應用來提高關係抽取的性能。申請人:經過研究發現詞彙語義信息在關係抽取中具有重要的作用。詞彙不同但語義相近的兩個詞語,在兩個不同的句子中可以表明相同的語義關係,例如,中文關係實例「他的妻子」和「她的丈夫」都屬於家庭關係(PER-SOC. Family),其中實體「他」和「她」、「妻子」和「丈夫」是兩個不同的詞彙,但是卻具有相近的語義。因此,如何利用詞彙語義信息提高中文實體間語義關係抽取的性能,並儘量簡化計算過程、降低計算量,從而降低系統開銷是本領域技術人員亟待解決的問題。

發明內容
有鑑於此,本發明的目的在於提供一種中文實體間語義關係抽取的方法,利用詞彙語義信息提高關係抽取的性能,並儘量降低計算量,從而降低系統開銷。為實現上述目的,本發明提供如下技術方案一種中文實體間語義關係抽取方法,用於在包含兩個中文實體的自然語句中抽取實體間的語義關係,所述方法包括對自然語句進行句法分析,確定所述自然語句的完全句法樹;在所述完全句法樹中提取所述兩個中文實體之間的最短路徑包含樹;在所述最短路徑包含樹中提取距離第二中文實體最近的路徑動詞,所述第二中文實體為兩個中文實體中在所述自然語句出現位置靠後的中文實體;分別獲取所述兩個中文實體和路徑動詞的語義信息;
按照預設規則將獲取的三個語義信息加入所述最短路徑包含樹的根節點下,確定擴展後的最短路徑包含樹為所述自然語句的關係樹;利用預存的分類模型對所述關係樹進行關係分類。優選的,在上述方法中,在所述最短路徑包含樹中提取距離第二中文實體最近的路徑動詞,具體包括在所述最短路徑包含樹中確定所述第二中文實體所處的結點;從所述第二中文實體所處結點開始,在所述第二中文實體所處結點的上層結點中查找標籤為「VP」的結點;查找所述標籤為「VP」的結點的子節點;當所述標籤為「VP」的結點的子結點的標籤為「VV」或「VE」時,獲取所述標籤為 「VV」或「VE」的結點的子結點處的詞彙作為所述路徑動詞。優選的,在上述方法中,所述分別查找所述兩個中文實體和路徑動詞的語義信息,具體包括利用預存的詞語與基本義原的映射表,分別查找與所述兩個中文實體和路徑動詞對應的基本義原;當查找到與所述兩個中文實體和路徑動詞對應的基本義原時,將查找到的基本義原作為語義信息;當詞語具有多個基本義原時,所述映射表中僅包含所述詞語與其第一基本義原的映射關係。優選的,在上述方法中,當未在所述映射表中查找到與中文實體對應的基本義原時,所述方法還包括對所述未查找到基本義原的中文實體進行分詞處理,獲得多個新的中文子實體;利用所述映射表,查找與所述多個新的中文子實體中出現位置最靠後的中文子實體對應的基本義原;將查找到的中文子實體的基本義原作為所述未查找到基本義原的中文實體的語
義信息。優選的,在上述方法中,當未查找到與所述位置最靠後的中文子實體對應的基本義原時,將所述未查找到基本義原的中文實體的語義信息賦值為「NULL」。優選的,在上述方法中,所述分別查找所述兩個中文實體和路徑動詞的語義信息,具體包括利用預存的詞語與語義編碼的映射表,分別查找與所述兩個中文實體和路徑動詞對應的語義編碼;當查找到與所述兩個中文實體和路徑動詞對應的語義編碼時,在所述語義編碼中從其高位截取預設位數的字符,將截取出的預設位數的字符作為語義信息;當詞語包括多個語義編碼時,所述映射表僅包含所述詞語與其第一語義編碼的映身寸關係。優選的,在上述方法中,當在所述映射表中未查找到與中文實體對應的語義編碼時,所述方法還包括對所述未查找到語義編碼的中文實體進行分詞處理,獲得多個新的中文子實體;
利用所述映射表,查找與所述多個新的中文子實體中出現位置最靠後的中文子實體對應的語義編碼;在查找到的中文子實體的語義編碼中,從其高位截取預設位數的字符,將截取出的預設位數的字符作為所述未查找到語義編碼的中文實體的語義信息。優選的,在上述方法中,當未查找到與所述位置最靠後的中文子實體對應的語義編碼時,將所述未查找到語義編碼的中文實體的語義信息賦值為「NULL」。優選的,在上述方法中,所述按照預設規則將獲取的三個語義信息加入所述最短路徑包含樹的根節點下,具體包括在所述最短路徑包含樹的根結點下添加三個標識結點,所述三個標識結點分別用於標識其子結點處的詞彙為第一中文實體的語義信息、第二中文實體的語義信息和路徑動 詞的語義信息,所述第一中文實體為所述兩個中文實體中在所述自然語句出現位置靠前的中文實體;將所述三個語義信息分別寫入與其相應的標誌結點的子結點處。由此可見,本發明的有益效果為本發明公開的中文實體間語義關係抽取方法,將中文實體和路徑動詞的語義信息提取出來,然後將其加入包含中文實體對的最短路徑包含樹中形成關係樹。該關係樹包含了豐富的結構化信息和詞彙語義信息,其通用性較好,因此同僅包含句法樹的結構化信息相比,關係抽取的精度和召回率都得到了提高,總體性能較好;同時,由於詞彙的語義信息(如語義編碼或基本義原)是在一定程度上對詞彙進行泛化,因此得到的關係樹能夠識別訓練語料中不存在但語義信息相同的關係實例,也就是減少了需要標註的訓練語料的數量,減輕了基於機器學習的關係抽取方法對大規模語料庫的依賴程度;最後,同採用詞彙語義相似度的其它核函數方法相比,本發明只需要將中文實體和路徑動詞的語義信息加入到句法樹的根結點下即可,不需要計算詞彙兩兩之間的語義相似度,從而避免了由此而帶來的計算量繁重的缺點。


為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖I為本發明公開的中文實體間語義關係抽取方法的流程圖;圖2為本發明中在完全句法樹中提取兩個中文實體之間的最短路徑包含樹的流程圖;圖3為本發明中提取路徑動詞的流程圖;圖4為本發明中獲取語義信息的一個流程圖;圖5為本發明中獲取語義信息的另一個流程圖;圖6為本發明中利用語義信息擴展最短路徑包含樹的流程圖;圖7為本發明中一個自然語句的完全句法樹;圖8為從圖7所示完全句法樹提取出的兩個中文實體之間的最短路徑包含樹;圖9為利用語義信息擴展後的關係樹的一個示意圖10為利用語義信息擴展後的關係樹的另一個示意圖。
具體實施例方式為了描述清楚起見,對下文中出現的英文縮寫和術語進行說明。句法樹Syntactic Parse Tree,是指自然語言句子的不同成分之間(如詞彙、詞性、短語和子句等)所存在的層次結構關係;關係樹Relation Tree,在句法樹中能表達實體關係實例的結構化信息的部分;最短路徑包含樹Shortest Path-enclosed Tree, SPT,在句法 樹中,連接兩個實體間的最短路徑及其所包含的部分,也稱為SPT樹;準確率Prec i s ion,是指系統識別出的實體間關係實例中正確的關係實例所佔的百分比;召回率Recall,是指系統識別出的正確的實體間關係實例佔所有關係實例的百分比;Fl性能Fl-measure,是指準確率和召回率的平均值,計算公式為F1=2*P*R/(P+R);PCFG !Probabilistic Context-Free Grammar,概率上下文無關文法;MLE Maxi mum Likely Estimation,最大似然估計。為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。本發明公開了一種中文實體間語義關係抽取方法,利用該方法在包含兩個中文實體的自然語句中抽取實體間的語義關係,可以提高關係抽取的性能,同時與其他核函數方法相比,可以降低計算量,從而降低系統開銷。其原理如下在自然語句中提取兩個中文實體和位於這兩個中文實體之間的路徑動詞,之後獲取兩個中文實體和路徑動詞的語義信息,將獲取到的語義信息加入到從完全句法樹中提取出的最短路徑包含樹中,最終得到一個泛化能力較強的關係樹,然後利用基於樹核函數的機器學習方法來抽取兩個中文實體之間的語義關係。下面結合具體實施例對本發明公開的方法進行說明。參見圖1,圖I為本發明公開的一種中文實體間語義關係抽取方法的流程圖。包括步驟SI :對自然語句進行句法分析,確定該自然語句的完全句法樹。在中文語料中提取一個自然語句,該自然語句包含兩個中文實體。自然語句中兩個中文實體的位置是不同的,為了表述方便起見,將兩個中文實體中在自然語句中出現位置靠前的中文實體記為第一中文實體,將兩個中文實體中在自然語句中出現位置靠後的中文實體記為第二中文實體。利用一種句法分析方法對該自然語句進行句法分析,得到該自然語句的完全句法樹。本發明中採用概率上下文無關文法(Probabilistic Context-FreeGrammar, PCFG)的句法分析方法來獲得自然語句的完全句法樹。其基本思想是,一棵句法樹的概率是由其包含的產生式概率決定的,產生式的概率與其出現的上下文無關,而且可以從訓練語料庫中採用最大似然估計(Maximum Likely Estimation, MLE)的方法估算出來。所謂產生式,是指在句法樹中由父結點推導出子結點的規則,如圖7中產生式IP — NP VP表示結點IP (句子)可推導為NP (名詞短語)和VP (動詞短語)。每個自然語句可以有不同的句法樹,每個句法樹的概率都不相同,因此可以選取後驗概率最大的句法樹作為正確結果,即
權利要求
1.一種中文實體間語義關係抽取方法,其特徵在於,用於在包含兩個中文實體的自然語句中抽取實體間的語義關係,所述方法包括 對自然語句進行句法分析,確定所述自然語句的完全句法樹; 在所述完全句法樹中提取所述兩個中文實體之間的最短路徑包含樹; 在所述最短路徑包含樹中提取距離第二中文實體最近的路徑動詞,所述第二中文實體為兩個中文實體中在所述自然語句出現位置靠後的中文實體; 分別獲取所述兩個中文實體和路徑動詞的語義信息; 按照預設規則將獲取的三個語義信息加入所述最短路徑包含樹的根節點下,確定擴展後的最短路徑包含樹為所述自然語句的關係樹; 利用預存的分類模型對所述關係樹進行關係分類。
2.根據權利要求I所述的方法,其特徵在於,在所述最短路徑包含樹中提取距離第二中文實體最近的路徑動詞,具體包括 在所述最短路徑包含樹中確定所述第二中文實體所處的結點; 從所述第二中文實體所處結點開始,在所述第二中文實體所處結點的上層結點中查找標籤為「VP」的結點; 查找所述標籤為「VP」的結點的子節點; 當所述標籤為「VP」的結點的子結點的標籤為「VV」或「VE」時,獲取所述標籤為「VV」或「VE」的結點的子結點處的詞彙作為所述路徑動詞。
3.根據權利要求I或2所述的方法,其特徵在於,所述分別查找所述兩個中文實體和路徑動詞的語義信息,具體包括 利用預存的詞語與基本義原的映射表,分別查找與所述兩個中文實體和路徑動詞對應的基本義原; 當查找到與所述兩個中文實體和路徑動詞對應的基本義原時,將查找到的基本義原作為語義信息; 當詞語具有多個基本義原時,所述映射表中僅包含所述詞語與其第一基本義原的映射關係。
4.根據權利要求3所述的方法,其特徵在於,當未在所述映射表中查找到與中文實體對應的基本義原時,所述方法還包括 對所述未查找到基本義原的中文實體進行分詞處理,獲得多個新的中文子實體; 利用所述映射表,查找與所述多個新的中文子實體中出現位置最靠後的中文子實體對應的基本義原; 將查找到的中文子實體的基本義原作為所述未查找到基本義原的中文實體的語義信肩、O
5.根據權利要求4所述的方法,其特徵在於,當未查找到與所述位置最靠後的中文子實體對應的基本義原時,將所述未查找到基本義原的中文實體的語義信息賦值為「NULL」。
6.根據權利要求I或2所述的方法,其特徵在於,所述分別查找所述兩個中文實體和路徑動詞的語義信息,具體包括 利用預存的詞語與語義編碼的映射表,分別查找與所述兩個中文實體和路徑動詞對應的語義編碼;當查找到與所述兩個中文實體和路徑動詞對應的語義編碼時,在所述語義編碼中從其高位截取預設位數的字符,將截取出的預設位數的字符作為語義信息; 當詞語包括多個語義編碼時,所述映射表僅包含所述詞語與其第一語義編碼的映射關係。
7.根據權利要求6所述的方法,其特徵在於,當在所述映射表中未查找到與中文實體對應的語義編碼時,所述方法還包括 對所述未查找到語義編碼的中文實體進行分詞處理,獲得多個新的中文子實體; 利用所述映射表,查找與所述多個新的中文子實體中出現位置最靠後的中文子實體對應的語義編碼; 在查找到的中文子實體的語義編碼中,從其高位截取預設位數的字符,將截取出的預設位數的字符作為所述未查找到語義編碼的中文實體的語義信息。
8.根據權利要求7所述的方法,其特徵在於,當未查找到與所述位置最靠後的中文子實體對應的語義編碼時,將所述未查找到語義編碼的中文實體的語義信息賦值為「NULL」。
9.根據權利要求I所述的方法,其特徵在於,所述按照預設規則將獲取的三個語義信息加入所述最短路徑包含樹的根節點下,具體包括 在所述最短路徑包含樹的根結點下添加三個標識結點,所述三個標識結點分別用於標識其子結點處的詞彙為第一中文實體的語義信息、第二中文實體的語義信息和路徑動詞的語義信息,所述第一中文實體為所述兩個中文實體中在所述自然語句出現位置靠前的中文實體; 將所述三個語義信息分別寫入與其相應的標誌結點的子結點處。
全文摘要
本發明公開了一種中文實體間語義關係抽取方法,包括對自然語句進行句法分析,確定自然語句的完全句法樹;在完全句法樹中提取兩個中文實體之間的最短路徑包含樹;在最短路徑包含樹中提取距離第二中文實體最近的路徑動詞;分別獲取兩個中文實體和路徑動詞的語義信息;按照預設規則將獲取的三個語義信息加入最短路徑包含樹的根節點下,確定擴展後的最短路徑包含樹為自然語句的關係樹;利用預存的分類模型對關係樹進行關係分類。本發明公開的中文實體間語義關係抽取方法,關係樹包含了豐富的結構化信息和詞彙語義信息、具有較好的通用性,語義關係抽取的總體性能較好,並且減輕了對大規模語料庫的依賴程度,同時系統的計算量較低。
文檔編號G06F17/27GK102799577SQ20121029443
公開日2012年11月28日 申請日期2012年8月17日 優先權日2012年8月17日
發明者錢龍華, 劉丹丹, 周國棟 申請人:蘇州大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀