新四季網

一種基於依存樹的中文實體關係挖掘的控制裝置的製作方法

2023-10-27 04:53:02 1

專利名稱:一種基於依存樹的中文實體關係挖掘的控制裝置的製作方法
技術領域:
本發明涉及網絡挖掘、信息抽取、命名實體關係挖掘、漢語語義語法、句子結構分析、模式匹配、機器學習、最短路徑算法等技術領域,具體地說是一種基於代表句子結構語義的依存樹的弱監督性網絡中文命名實體關係挖掘系統。
背景技術:
隨著計算機的普及以及網際網路的迅猛發展,網絡資源日益增長,內容覆蓋面的越來越廣泛。人們在日常生活對網絡資源的使用越來越頻繁,需求也越來越高,不再是簡簡單單的關鍵詞匹配。面對無結構的、層次複雜、信息繁複的網絡數據,人們希望能快速準確的獲得自己所需的數據。因此,面對海量信息,通過信息抽取技術從浩瀚的中文信息海洋中自動尋找用戶所需求的信息則顯得至關重要。它能將將無結構化的信息轉換為結構化或者半結構化信息的過程目前大部分信息抽取系統是從文本中抽取特定的實體信息,包括時間、機構、地點等網際網路上不僅蘊含了大量的實體信息,還蘊含著實體之間關係的信息。·目前,已經有很多研究員從事了這方面的工作,並取得了不錯的進展,而面對海量的網絡數據,比較成熟的有如DIPRE, TextRunner和snowball等,也有許多專家針對他們進行進一步改進。但這些系統,往往都沒有考慮句子的語法結構,因而並不是很適用於語法詞法結構鬆散且句子複雜的中文語料中。在中文的命名實體關係挖掘中,做得比較好的有哈工大的基於網絡挖掘的實體關係自動獲取系統。但它也沒有更多的考慮中文句子的結構。本文所提出的關係挖掘方法恰恰彌補了這個缺點,代表利用中文的句法結構的依存樹,對中文實體的關係對作出更好的定位,並利用依存樹結構,提出了一種包含語法結構和實體上下文信息的模板形式,並將模板的挖掘和模板的匹配進行自動化,有效的適用於中文的網絡數據,並能抽取出高準確率的命名實體關係元組。

發明內容
針對現有技術中的缺陷,本發明的目的是提供一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制裝置,其特徵在於,包括如下裝置輸入裝置,其用於輸入種子元組;模板生成裝置,其基於依存樹解析根據輸入的種子元組生成與所述元組相適應的元組模板;模板匹配裝置,其基於依存樹解析以及上述元組模板生成裝置生成的元組模板生成中間元組並將所述中間元組作為種子元組輸入上述元組模板生成裝置;以及輸出裝置,其用於輸出所有中間元組作為新元組集合。根據本發明的一個方面,提供一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制方法,其特徵在於,包括如下步驟a.輸入種子元組;b.基於依存樹解析根據輸入的種子元組生成與所述元組相適應的元組模板;c.基於依存樹解析以及上述步驟c生成的元組模板生成中間元組;d.輸出中間元組並將所述中間元組加入新元組集合,將所述中間元組作為所述種子元組;e.重複執行上述步驟a至上述步驟d,至所述元組模板或者所述中間元組不能生成;以及f.生成新元組集合。
根據本發明的另一個方面,還提供一種基於依存樹的網絡中文命名實體關係挖掘系統,包括伺服器端以及客戶端,其特徵在於,所述模板生成器針對中文句子無結構繁複的特點引入語法依存樹以增加模板的語法結構和上下文信息,並根據依存樹結構定製了一種新的模板;所述模板匹配器根據所述模板的結構提出了一種新的模板匹配方法,要求在依存樹結構和所述元組的實體類型兩方面都完全匹配。優選地,所述模板生成器生成的模板的結構如下pattern — pattern, pattern|element ;element — abbreviated_relation_name(governor, dependent);governor — word | (el. tag) 11 (e2. tag) 2 ; dependent — word | (el. tag) 11 (e2. tag) 2。其中,所述pattern是指所述模板,所述element指所述依存樹中連接兩個節點的邊,所述abbreviated_relation_name是指所述依存樹中邊的具體語義含義,所述word句子中被切詞之後的一個詞,所述el. tag指所述種子元組中第一個實體的實體類型,同樣的,所述e2. tag指所述種子元組中第二個實體的實體類型,所述I和2分別指向該實體在所述種子元組中的位置。優選地,所述模板生成器包含以下模塊實體和關係的最小子樹定位模塊,用於根據所述種子元組定位確定所述種子元組中兩個實體和關係詞的位置,並使用最短路徑算法的Dijkstra算法獲得連接所述種子元組中兩個實體和關係詞最小子樹。最小子樹擴展模塊,用於擴展所述最小子樹,增加模板的信息量;模板生成模塊,用於將模板的所述依存樹結構轉化為權利要求書2的所述模板的形式。優選地,依據由所述依存樹解析模塊獲得的所述依存樹的結構,確定所述種子元組中兩個實體和關係詞的位置,多次使用最短路徑算法的Di jkstra算法獲得所述種子元組中的兩個實體之間的最短路徑和一個實體與關係詞的最短路徑,再結合這兩類路徑確定一棵連接所述種子元組中兩個實體和關係詞最小子樹。所述依存樹之間的邊的長度可以依據不同所述abbreviated_relation_name表達的意義的重要性來定義。優選地,可以依據需要,定義所述依存樹擴展的節點和邊的類型。優選地,所述模板生成器包含以下模塊候選元組抽取模塊,用於根據將所述依存樹解析模塊獲得的所述依存樹和所述模板相比較,獲得候選元組。候選元組實體類型驗證模塊,用於根據抽取出所述候選元組的所述模板中所述種子元組的實體類型——權利要求書2中所述模板結構的所述el. tag和所述e2. tag,確認候選元組的正確性,過濾不符合實體類型的候選元組;優選地,所述候選元組抽取模塊將所述依存樹解析模塊獲得的所述依存樹中的所
述unit和所述模板中的所述element--比較匹配,如果除了所述(el. tag) I和所述(e2.
tag) 2之外的所有信息都能完全匹配,取出所述unit。最終如果所述依存樹中的所述unit能夠完全匹配到所有的所述模板中的所述element,則根據所述模板中的所述(el. tag) I和所述(e2. tag)2的位置,取出兩個實體,和所述模板中的關係詞共同構成一個所述候選組,並將其放入所述候選集中。根據本發明的一個方面,提供一種基於依存樹的弱監督性網絡中文命名實體關係挖掘系統,包括模板生成器和模板匹配器,其中,所述模板生成器用於根據輸入的種子元組,從網絡中抽取出相關的描述種子元組的句子,並根據這些句子的依存樹結構從中抽取出相應的模板,其中所述種子元組包括兩個命名實體以及他們之間的關係;所述模板匹配器用於根據所述模板生成器生成的模板,利用模板匹配的方法,從網絡中抽取出符合該模板的新的命名實體對元組,其中所述新的命名實體對元組,其結構與所述種子元組一致。本發明通過系統輸入的種子元組,經過模板生成器,得到模板,並利用模板,匹配網絡數據得到新元組,接著再利用新的元組獲取更多的模板,抽取出更多的元組,並依次循環迭代,直至所述模板生成器抽取出新的模板,或者所述模板匹配器找不到新的元組。


通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特徵、目的和優點將會變得更明顯 圖I示出根據本發明的一個具體實施方式
的,一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制裝置的結構示意圖;圖2示出根據本發明的第一實施例的,一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制方法的流程圖;圖3示出根據本發明的一個具體實施方式
的,一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制方法根據共現句構成的依存樹示意圖;圖4示出根據本發明的一個具體實施方式
的,一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制方法的生成最小樹的流程圖;以及圖5示出根據本發明的一個具體實施方式
的,一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制方法的生成中間元組的流程圖。
具體實施例方式本發明公開了一種基於依存樹的弱監督性網絡中文命名實體關係挖掘系統,可利用幾個所述種子元組,獲得高準確率的含有語法結構和上下文信息的模板和新的元組。通常語句中的依存關係可以用樹形圖來表示。表示依存關係的樹形圖,叫做依存樹(dependency tree)。這種依存樹是機器翻譯中句子結構的一種形式描述方式。依存樹中的結點之間的關係,主要有支配關係和如於關係兩種。針對這樣的信息抽取系統,使用該系統用戶可以獲得更多有效,有結構的命名實體關係信息。用戶會希望得到比較正確的信息,儘量避免檢索結果的錯誤問題,但可以容忍檢索結果少。因此本系統接收包含兩個命名實體及其關係詞的種子元組,針對中文句子無結構繁複的特點和現有的弱監督性方法的優點,引入句子語法依存樹以提高模板的匹配程度,通過依存樹來得到含有句子語法結構和實體對的語境信息的模板並根據所得到的模板,抽取更多的相似的語句,以獲得更多的新元組。為配合依存樹結構,本系統提出了一種新的模板結構,並根據該模板結構提出了符合模板特點的模板匹配方法。本系統結合了現有的弱監督性方法的優點和依存樹可以充分表達句子結構和上下文關聯信息的優點,實現了在海量網絡數據上進行中文實體挖掘的系統。只需要少量的種子元組,本系統即可循環迭代的持續獲得網絡中的命名實體關係元組,並且易於擴展成不同的關係類別。本發明可以以任何手工輸入的種子元組開始,獲得更多更正確的新元組和模板。下面以種子元組(歐巴馬,美國,總統)為例,結合附圖對本發明作進一步說明。圖I示出根據本發明的一個具體實施方式
的,一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制裝置的結構示意圖;圖I為本發明總體流程圖。具體地,系統在輸入模塊I中接收所述種子元組作為輸入以觸發系統,所述種子元組包括兩個命名實體及其關係詞,然後所述種子元組經過模塊2所述模板生成器生成預定義格式的模板,並將其作為模塊9所述模板匹配器的輸入,抽取出新的元組,進而將元組返回給模塊2所述模板生成器以達到循環迭代的效果。同時將抽取出新的元組輸出放入模塊13新元組模塊。然後更為具體地,所述模板生成器包括一個模塊3元組共現句抽取模塊。在本實施例中,所述元組共現句抽取模塊根據所述種子元組的命名實體對和關係詞利用搜尋引擎在網絡數據中搜索含有所述種子元組的命名實體對和關係詞的句子。一個模塊4依存樹解析模塊。在 本實施例中,所述依存樹解析模塊利用現有的中文句子語法依存樹的解析工具,生成由所述抽取共現句模塊獲得的所述元組共現句。其中,所述依存樹的結構有一系列節點和邊組成,且每一條邊都定義了節點之間的語法關係,其形式化的表達式如下,tree — tree, tree | unit ;unit 一 abbreviated—relation—name(governor,dependent);governor 一 phrase—location ;dependent — phrase-location。其中,所述unit是指所述依存樹中連接兩個節點的邊。所述governor和所述dependent是指所述依存樹中的節點。所述abbreviated—relation—name是指所述依存樹中邊的具體語義含義。所述phrase是指句子中被切詞之後的一個詞,所述location是指所述phrase在句子中的位置。其中依存樹的邊的具體含義的中英文對照,如asp,dep,dobj,cc,nn等的具體意思。本發明優選地使用的邊的關係含義釆用的是史丹福大學解析器的標準。具體的邊的含義如下
權利要求
1.一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制裝置,其特徵在於,包括如下裝置 輸入裝置,其用於輸入種子元組; 模板生成裝置,其基於依存樹解析根據輸入的種子元組生成與所述元組相適應的元組模板; 模板匹配裝置,其基於依存樹解析以及上述元組模板生成裝置生成的元組模板生成中間元組並將所述中間元組作為種子元組輸入上述元組模板生成裝置;以及輸出裝置,其用於輸出所有中間元組作為新元組集合。
2.根據權利要求I所述的控制裝置,其特徵在於,所述依存樹結構包括 -連接兩節點的邊,由該邊連接的兩個節點的關係、該邊發出的節點以及該邊指向的節點描述; -邊發出的節點,由該節點在其所在句子中的位置描述;以及 _邊指向的節點,由該節點在其所在句子中的位置描述。
3.根據權利要求I所述的控制裝置,其特徵在於,所述種子元組與所述中間元組至少包括實體一,實體二以及所述實體一和實體二的關係詞。
4.根據權利要求I至3任一項所述的控制裝置,其特徵在於,所述模板生成裝置包括 最小子樹確定裝置,其用於根據所述種子元組獲取共現句生成的依存樹中,確定連接所述種子元組中實體以及關係詞的最小子樹; 最小子樹擴展裝置,其用於根據預定擴展規則對所述最小子樹進行擴展; 最小子樹結構抽取裝置,其用於抽取所述擴展後的最小子樹的結構;以及 元組模板生成裝置,其用於根據上述擴展後最小子樹的結構生成元組模板。
5.根據權利要求4所述的控制裝置,其特徵在於,所述最小子樹確定裝置包括 元組共現句抽取裝置,其用於根據所述種子元組中的元素抽取共現句集合; 第一依存樹解析裝置,其用於對所述共現句集合中每一個共現句生成一個依存樹,並對每一個依存樹進行解析,獲取所述依存樹的結構;以及 最小子樹生成裝置,其用於根據所述依存樹解析裝置獲取的每一個依存樹結構生成連接所述種子元組的實體及其關係詞的最小子樹。
6.根據權利要求4所述的控制方法,其特徵在於,所述最小子樹擴展裝置將預先定義所述依存樹擴展的節點和邊的類型作為所述預定擴展規則。
7.根據權利要求5所述的控制方法,其特徵在於,所述共現句的獲取由所述種子元組的實體及其關係作為搜索關鍵詞的搜索結果中的標題以及摘要生成。
8.根據權利要求4至8任一項所述的控制方法,所述最小子樹確定裝置使用最短路徑算法獲取所述種子元組中的兩個實體之間的最短路徑和一個實體與關係詞的最短路徑,再 結合這兩類路徑確定一棵連接所述種子元組中兩個實體和關係詞最小子樹。
9.根據權利要求8所述的控制方法,所述依存樹的邊的長度依據不同節點間關係的重要性預先定義。
10.根據權利要求I至9任一項所述的控制方法,其特徵在於,所述元組模板由以下元素描述 -實體關係,由實體關係的具體含義、實體一以及實體二所描述;-實體一,由與其相適應地所述種子元組中實體類型以及該實體類型在所述種子元組中的位置描述;以及 -實體二,由與其相適應地所述種子元組中實體類型以及該實體類型在所述種子元組中的位置描述。
11.根據權利要求I至10任一項所述的控制方法,其特徵在於,所述模板匹配裝置包含以下裝置 模板共現句抽取裝置,其用於根據所述元組模板中的詞作為搜索關鍵詞,獲取包含所述元組模板中所有詞的模板共現句集合; 第二依存樹解析裝置,其用於對所述元組模板共現句集合中每一個共現句生成一個依存樹,並對每一個依存樹進行解析,獲取所述依存樹的結構; 候選元組抽取裝置,用於根據將所述第二依存樹解析模塊獲得的所述依存樹和所述模板相比較,獲得候選元組;以及 候選元組實體類型驗證模塊,用於根據抽取出所述候選元組的所述模板中所述種子元組的實體類型,確認候選元組的正確性,過濾不符合實體類型的候選元組,生成中間元組。
12.—種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制方法,其特徵在於,包括如下步驟 a.輸入種子元組; b.基於依存樹解析根據輸入的種子元組生成與所述元組相適應的元組模板; c.基於依存樹解析以及上述步驟c生成的元組模板生成中間元組; d.輸出中間元組並將所述中間元組加入新元組集合,將所述中間元組作為所述種子元組; e.重複執行上述步驟a至上述步驟d,至所述元組模板或者所述中間元組不能生成;以及 f.生成新元組集合。
全文摘要
本發明提供一種在數據挖掘系統中基於依存樹的中文實體關係挖掘的控制裝置,其特徵在於,包括如下裝置輸入裝置,其用於輸入種子元組;模板生成裝置,其基於依存樹解析根據輸入的種子元組生成與所述元組相適應的元組模板;模板匹配裝置,其基於依存樹解析以及上述元組模板生成裝置生成的元組模板生成中間元組並將所述中間元組作為種子元組輸入上述元組模板生成裝置;以及輸出裝置,其用於輸出所有中間元組作為新元組集合。
文檔編號G06F17/30GK102968431SQ201210349668
公開日2013年3月13日 申請日期2012年9月18日 優先權日2012年9月18日
發明者鄭珊珊, 林欣 申請人:華東師範大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀