新四季網

一種自然語言句子的語義關係樹的構造和比較方法

2023-07-05 18:20:16

專利名稱:一種自然語言句子的語義關係樹的構造和比較方法
技術領域:
本發明涉及一種對自然語言的語義關係進行分析的方法,尤其涉及語義關 系樹的構造及其比較的方法,屬於計算語言學中的自然語言處理領域。
背景技術:
在許多自然語言理解系統中,不但要識別文本中的實體,而且還要根據上 下文確定和抽取這些實體之間的各種語義關係,即進行實體間語義關係抽取 (簡稱語義關係抽取或關係抽取)。通常,實體關係的類型是預先定義的,例 如某人是否在某地。實體間語義關係的抽取不僅是信息抽取中的重要環節,而 且在問答系統、知識獲取和自然語言接口等應用中也非常重要。
語義關係抽取要藉助多種自然語言理解技術,對文本中的句子進行分析處
理後才能完成;同時,語義關係抽取也依賴於機器學習方法。採用機器學習方 法來實現語義關係抽取時,往往將它轉換成一個關係分類問題,即分類器把已 經標註的語料庫作為訓練集,採用一定的分類方法產生分類模型,然後利用分 類模型從未知文本中找出相應的語義關係。
根據語義關係實例表示方法的不同,基於機器學習的關係抽取分為基於特 徵的機器學習方法和基於核函數的機器學習方法。基於特徵的機器學習方法通 過獲取各種有效的詞法、語法、語義等特徵,並把它們有效地集成起來,從而 產生描述實體對象關係的各種周部特徵和簡單的全局特徵。基於核函數的方法 可以充分利用(序列化數據中的)長距離特徵和(結構樹中的)結構化特徵, 直接計算兩個特徵向量甚至兩個對象(如語法結構樹)之間的相似度來進行分 類,這使得基於核函數的方法理論上可探索隱含的髙維特徵空間。
基於核函數的語義關係抽取的主要問題包括(1)有效的機器學習方法,
即如何利用更有效的機器學習方法來提髙關係抽取的性能和效率;(2)語義關 系樹的自動獲取,即如何根據語言學知識,從句法樹中自動獲取語義關係樹(3) 樹核函數的構造,即如何有效比較一對語義關係樹之間的相似度。目前對第一個方面的研究已取得很多成熟的方法,如最大熵、條件隨機場和支撐向量機等 分類器。而對於其它兩個方面的研究還處於初步階段,要使抽取出的語義關係 樹既涵蓋關鍵的結構化句法信息,又要減少不必要的噪音,同時,語義關係的 比較方法(即樹核函數的構造)要更好地體現語義關係抽取所需的各種結構化 句法信息,這些都具有一定的難度。

發明內容
本發明目的是本發明的目的是提供一種通過考慮上下文相關信息,從句法 樹中產生和比較語義關係樹的方法,來解決語義關係抽取的性能問題。通過使 用本發明所提供的方法,可構造一個基於機器學習的關係抽取系統,達到提髙 關係抽取性能的目的。
為達到上述目的,本發明採用的技術方案是 一種自然語言句子的語義關 系樹的構造方法,對於句子中待建立語義關係樹的兩個實體,採用下列構造方 法
(1) 釆用語法分析器產生與句子相對應的句法樹;
(2) 在句法樹中確定兩個實體的位置,方法是,依據兩個實體的外延範圍在 句法樹中從詞彙結點向上尋找,直到發現一個共同結點,即把它確定為實體在 句法樹中的位置;
(3) 在句法樹中找出連接兩實體的最短路徑,分別從兩個實體結點出發,向 上搜索,並記錄經過的路徑,直到發現一個最近的共同祖先結點,此時搜索過 程中記錄下的連接兩實體的路徑即為最短路徑;
(4) 在語義關係樹中,保留最短路徑及其所包含的部分,裁剪掉其餘部分, 最後得到的最小的語義關係樹即為最短路徑包含樹;
(5) 確定句法樹中兩實體之間存在的結構類別,如果兩個實體之間用一個逗 號分隔,則為半結構化;如果第二個實體是以介詞短語形式修飾第一個實體, 則為PP附屬結構如果第二個實體的外延包含了第一個實體,則為嵌入式結 構;如果兩個實體作為名詞短語緊接在一起,則為描述性結構;除此之外的所 有結構均視作謂詞連結結構;
(6) 如果兩實體之間的結構類型不是謂詞結構,則最短路徑包含樹即為我們所需要的語義關係樹;
如果兩實體之間的結構類型是謂詞連結結構,則擴展與謂詞相關的上下文 信息,得到上下文相關的路徑包含樹,其方法是,首先從最短路徑包含樹的根 節點開始向上移動直到找到一個以謂詞為中心詞的節點,然後沿著以該謂詞為 中心詞的路徑找到該謂詞,這樣被最短路徑包含樹和該謂詞查找路徑所涵蓋的 子樹即我們要找的動態語義關係樹。
一種自然語言句子的語義關係樹的比較方法,對採用上述方法獲得的兩棵 語義關係樹T1和T2,採用下列方法進行比較
(1) 列出樹Tl和T2中除葉結點以外的所有結點列表Ll和L2;
(2) 對於結點列表之間的任意兩個結點nl和n2,再連同它們的父結點和祖 父結點包括在內,用第(3)、 (4)步的方法進行比較,然後將所有的比較結果累加 起來,得到最後的結果;
(3) 如果以nl和n2為根節點的上下文無關產生式不具有相似性,則返回 結果0;否則轉下步,所述兩個產生式的相似性,是指它們有相同或可替換的 頭節點;其中,產生式指的是當前結點及其兒子結點,例如動詞組塊VP包括 兩個兒子結點(VV和NP),則此VP的上下文無關產生式為VP-〉VV+NP:頭節點 即兒子結點;
(4) 如果nl和n2是詞性標記,則返回結果X ,入的取值為0 1,以0. 4
為優選;否則轉下步。
(5) 分別找出nl和n2的子結點列表,如果列表不完全一致,則轉第6步, 否則按照順序兩兩配對比較,比較方法同第(3)、(4)步,最後把結果相乘並返回;
(6) 找出nl和n2的子結點列表進行模糊匹配時插入刪除的可選樹節點數 ttlnsDels,和相似樹節點的替換樹節點數ftSubs,然後按照順序對相似樹節點 兩兩配對比較,比較方法同第(3)、 (4)步,最後把結果相乘,然後再乘以X X2#Subs, X 1和X2分別為0.6和0.4,最後結果再返回;
步驟(2)中獲得的最後結果值即為兩棵語義關係樹的相似度。 由於上述技術方案運用,本發明與現有技術相比具有下列優點 1.本發明方法提出了語義關係樹的構造和比較新方法,主要用於解決語 義關係抽取的性能問題,通過使用本發明提出的方法獲得的語義關係樹,既能涵蓋關鍵的結構化句法信息,又能減少不必要的噪音同時在比較語義關係樹 的時候,既結合上下文信息,也能實現模糊匹配,因而可以有效地提髙關係抽 取的性能;其中,對於大部分(70%)以上的兩個實體之間的語義關係,我們 採用結構簡潔而髙效的SPT (最短路徑包含樹)作為關係實例的表達方式,對 於其餘具有謂詞結構的實體關係,擴展對語義關係具有關鍵作用的謂詞連接部
分,因而能在基本不影響關係抽取速度的前提下,提髙關係抽取的性能。
2.語義關係樹的比較是通過計算兩棵語義關係樹之間的公共子樹來實現 的,目的是衡量兩棵樹所代表的兩個關係實例之間的相似性,本發明在比較的 時候考慮了上下文相關性,即子樹結點的父結點和祖父結點,使結果更能體現 語義關係的內在本質,同時由於採用了模糊比較,比較結果更具有普遍性。


圖1是實施例句法樹中兩實體之間可能存在的不同結構類別及相應的語 義關係樹示意圖2是實施例中兩個具有相同關係的實例圖。
具體實施方式
下面結合附圖及實施例對本發明作進一步描述 實施例自然語言句子的語義關係樹的構造。 本實施例中涉及的概念的說明
句法樹(Parse Tree):由語法分析器對文本中的某一個句子進行語法分析 後得到的語法結構樹,其結點類型包含詞彙、詞性、短語、子句和句子等類型。
最短路徑包含樹(SPT, Shortest Path-enclosed Tree):在句法樹中,連 接兩個實體間的最短路徑及其所包含的部分,也稱為SPT樹。
上下文有關路徑包含樹(CSPT, Context-Sensitive Path-enclosed Tree): 在最短路徑包含樹的基礎上,在句法樹的範圍內,擴展與實體語義關係相關的 上下文信息,特別是謂詞連結部分,從而形成CSPT樹。
SPT和實體間的結構類型
附圖1表示了句法樹中兩實體之間可能存在的不同結構類別及相應的語義關係樹。我們將實體間可能存在的不同結構分為五種類型,分別是
嵌入式結構第二個實體的外延包含了第一個實體的外延,例如最短路徑 包含樹"John,s wife"對應的子樹足夠確定圖1 (a)句子"John,s wife found a good job…"中"John,,和"John,s wife,,之間的夫妻關係。
PP附屬結構PP (Preposition Phrase),即介詞短語。第二個實體作為 介詞短語修飾第一個實體,例如最短路徑包含樹"Gates of Microsoft"對應的子 樹足夠確定圖1 (b)句子"Gates of Microsoft announced..."中"Gates of Microsoft"和"Microsoft"之間的僱用關係。
半結構化兩個實體之間按照某種固定的半結構關係相連接。如在圖1(c) 句子"Jane, ABC news, California"中,實體"Jane"和"ABC news"兩個實 體之間的僱用關係可由最短路徑包含樹"Jane, ABC news"確定。
描述性結構第一個實體和第二個實體之間是同位語關係,且對實體進行 地一步地說明。如在圖1 (d)句子"His mother Lebanese landed at..."中, 實體"His mother"和"Lebanese"之間的國籍關係可由最短路徑包含樹"His mother Lebanese"所確定。
謂詞結構兩個實體之間的關係需要句子中的謂詞才能確定。如圖1 (e) 中的句子"John and Mary got married…",實體"John"和"Mary"之間存 在著夫妻關係,而最短路徑包含樹"John and Mary"卻無法確定這種關係, 其原因是最短路徑包含樹省略了所有的上下文信息,而有很大一部分實體語義 關係需要藉助於上下文信息才能確定。因此我們要把包含謂詞的上下文相關路 徑包含樹作為實體關係的表示方式,即圖1 (e)中的實線部分所包含的內容。 語義關係樹的構造方法
假如一個句子中的實體已經被識別出來了,為了抽取實體之間的語義關 系,可以採用下列步驟來構造包含兩個實體之間的語義關係樹
(1) 採用語法分析器產生與句子相對應的句法樹,有很多成熟且性能優異的 英文和中文語法分析器可以使用,如英文中的Charniak和Collins語法分析 器;
(2) 在句法樹中確定兩個實體的位置,這可以依據兩個實體的外延範圍(如 實體開始的單詞和實體結束的單詞)在句法樹中從詞彙結點(即葉結點)向上
8尋找,直到發現一個共同結點,即把它確定為實體在句法樹中的位置
(3) 在句法樹中找出連接兩實體的最短路徑,分別從兩個實體結點出發,向 上搜索,並記錄經過的路徑,直到發現一個最近的共同祖先結點,此時搜索過 程中記錄下的連接兩實體的路徑即為最短路徑;
(4) 確定SPT作為最小的語義關係樹,保留最短路徑及其所包含的部分,裁 剪掉其餘部分,最後得到的樹即為最短路徑包含樹;
(5) 確定句法樹中兩實體之間存在的結構類別,如果兩個實體之間用一個逗 號分隔,則為半結構化;如果第二個實體是以PP形式修飾第一個實體,則為 PP附屬結構;如果第二個實體的外延包含了第一個實體,則這嵌入式結構; 如果兩個實體作為NP (名詞短語)緊接在一起,則為描述性結構;除此之外 的所有結構均視作謂詞連結結構。
(6) 如果兩實體之間的結構類型不是謂詞結構,則SPT樹即為我們所需要 的語義關係樹;
如果兩實體之間的結構類型是謂詞連結結構,則擴展與謂詞相關的上下文 信息,得到上下文相關的路徑包含樹。首先從SPT的根節點開始向上移動直 到找到一個以謂詞為中心詞的節點,然後沿著以該謂詞為中心詞的路徑找到該 謂詞,這樣被SPT和該謂詞查找路徑所涵蓋的子樹即我們要找的動態語義關 系樹(若找不到以謂詞為中心詞的節點,則不對SPT進行擴充)。
在此,我們只對謂詞連結結構類進行擴展,這是因為我們的觀察顯示謂詞 連結結構類相對應的語義關係樹在句法結構上變化很大,有70。/。以上的實例 需要SPT以外的信息,而其他類90。/。以上的實例採用SPT作為語義關係樹就 夠了。
語義關係樹的比較
語義關係樹是離散結構,往往採用巻積樹核的方法比較其相似度,我們首 先說明標準的巻積樹函數比較方法,然後再提出我們的改進方法,即考慮上下 文信息和實現模糊匹配,最後總結出我們的比較方法。
1、採用巻積樹核函數的方法
巻積核函數能通過子結構捕獲某個結構中的結構化信息。標準巻積樹核函 數通過列舉兩棵樹之間的公共子樹數目來計算相似度其中Nj代表樹Tj中的節點集合,而A("""2)評價以nl和n2為根節點
的子樹的相似度,並可計算如下
1>如果以nl和n2為根節點的上下文無關產生式(上下文無關文法規 則)不準確匹配,則返回0:否則轉2。
2>如果巧和"2是詞性標記,則返回A化,"!)^A;否則轉3。
3>重複計算A","2)如下
崎"o
"1 (2) 其中#^(")表示節點"的子樹個數,"(",^是節點"的第k個子樹,
義(0<^<1)是一個衰退因子,用於在不同大小的子樹間取得平衡,可設為0.4。
上述巻積樹核函數存在兩個關鍵問題一是它所枚舉的子樹都是上下文無 關的,即沒有考慮到子樹外的上下文信息;二是它只允許子樹的準確匹配,不
允許模糊匹配,即計算""i,"》時,給定兩子樹根節點對應的上下文無關產生式 必須相同,這減低了它們的表現能力。 2、考慮上下文相關性的方法
為了考慮語義關係樹中的上下文相關信息,我們考慮了從子樹根節點到整 樹根節點之間的路徑,即把子樹的祖先信息引入巻積樹核函數中的子樹,通過 修改公式(1),實現一個上下文有關的巻積樹核函數
《ctk卯],羽)=J>. s A("( [1],"; [2])
',;[21siV([21 (1,)
其中
子樹的上下文相關性是通過根節點路徑實現的,M[力表示樹T[jl中長度 為i (最大為m)的根節點路徑集合。W[/^""2…"')[刀表示^W中的一個
根節點路徑,它考慮了"!j]的i-l祖先節點";m。這裡""iW是"J力的父節點,
而是T[j中相應上下文無關子樹的根節點。A("([l],"([2])評價以和"f[2]為根節點路徑的上下文有關子樹的相似
度。w'是根節點路徑長度為i的兩棵上下文有關子樹之間相似度的權值。顯然,
公式(l')通過平滑技術既考慮了上下文無關子樹的相似度,又考慮了根節點 路徑最長為m的各個上下文有關子樹的相似度。實際使用中,m可設為3,而 wl, w2, w3分別設為0.7, 0.2, 0.1。 3、採用模糊匹配的方法
標準巻積樹核函數隻允許準確匹配,為了引入模糊匹配以更好地計算兩棵
語義關係樹之間的相似度,我們重新計算^"1'[1],"1'[2])如下
1>如果以"""和"([2]為根節點路徑的上下文有關產生式(上下文有關文 法規則)不能準確或模糊匹配,則返回0:否則轉2。請注意,這裡為了確保 匹配的兩個產生式的相似性,它們必須有相同或相似(可替換)的頭節點。
2>如果"i["和"i[2]是詞性標記,則返回A("(W,"!'[2]卜A;否則轉3。 3>重複計算A("^],"([2])如下
A("〖[1],"〖[2]) = A.久〖'"韭".義f由.fl (1 + A(cWW [1]," c//0〖[2],"))
"1 (2,)
其中WnsDels是兩子樹根節點對應的產生式進行模糊匹配時插入刪除的
可選樹節點數,弁Subs是相似樹節點(如單數名詞和複數名詞)的替換樹節點
數,並可以通過動態編程確定,^ddid)和^d"2^)分別是它們的折扣因子, 分別設為0.6和0.4; 4力是":[1]和":P]之間的最佳模糊匹配子序列,長度為
# ,且[幾w)是x([刀的第k個孩子。
顯然,採用模糊匹配的巻積樹核函數是對標準巻積樹核函數的擴充當把 公式(r)中的m和w'均設定為1,並且公式(2')不允許模糊匹配時,我
們的樹核函數就簡化為標準的巻積樹核函數。與標準樹核函數相比,採用模糊 匹配的樹核函數不僅列舉了無祖先信息的上下文無關子樹和有祖先信息的上 下文有關子樹,而且允許子樹之間的模糊匹配。
最後,我們考慮一下上述釆用模糊匹配的巻積樹核函數的計算複雜度。雖
11然採用模糊匹配的樹核函數是以增加上下文有關的子樹和模糊匹配為代價的, 不過代價並不大,與標準的巻積樹核函數相比,它僅稍微增加計算負擔。這是 因為
對絕大多數的上下文無關子樹對而言,A"[iL",m^。 僅當一對上下文有關子樹有相同的根節點路徑(即"wxra)並且
AC"'[1],"J2])^0時,採用模糊匹配的巻積樹核函數才須計算它們的相似度。 4、語義關係樹的比較方法
在標準巻積樹核函數的基礎上,結合上下文相關性和模糊匹配,我們得到 如下的給定兩棵語義關係樹Tl和T2之間的比較方法,比較的結果是兩棵樹 之間相同子樹的數目
(1) 列出樹Tl和T2中除葉結點以外的所有結點列表Ll和L2;
(2) 對於結點列表之間的任意兩個結點Hi和ii2,再連同它們的父結點和祖 父結點包括在內,用步驟(3)、 (4)的方法進行比較,然後將所有的比較結果累加 起來,得到最後的結果。
(3) 如果以nl和n2為根節點的上下文無關產生式(上下文無關文法規 則)不能準確或模糊匹配(即具有相似性),則返回結果0;否則轉下步。這 裡兩個產生式的相似性,是指它們必須有相同或相似(可替換)的頭節點。
(4) 如果nl和n2是詞性標記,則返回結果X (可設為0.4);否則轉下步。
(5) 分別找出nl和n2的子結點列表,如果列表不完全一致,則轉第6步, 否則按照順序兩兩配對比較,比較方法同步驟(3)、(4),最後把結果相乘並返回。
(6) 找出nl和n2的子結點列表進行模糊匹配時插入刪除的可選樹節點數 弁InsDels,和相似樹節點(如單數名詞和複數名詞)的替換樹節點數弁Subs, 然後按照順序對相似樹節點兩兩配對比較,比較方法同步驟(3)、 (4),最後把結
果相乘,然後再乘以入l"nsDe"X2"ubs(入l和入2的具體值由交叉實驗方法獲
得,分別為0.6和0.4),最後結果再返回。
為了方便描述,我們假定有如下兩句應用實例,其中斜體表示的是實體 (1) "meantime , fl/rfes to israeli prime附/w/s/er ehud barak say israel is
willing to cooperate with a u.s .,,(2) "tf/rfey to president say he has proposed a middle east summit
in egypt as early,,
假設句子的實體已經被正確地識別出來,現在要判斷實體之間是否存在某
種語義關係,以下分別是對以上兩實例的語義樹構造過程 對實例1進行語義樹構造
(1) 對句子l用句法分析器進行語法分析,得到句法樹Tl,如圖2中的(a) 所示;
(2) 確定實體aides和minister在句法樹中的位置,並在相應位置插入結 點"E1"和"E2";
(3) 找出El和E2兩個實體之間的最短路徑,為"E1-NP-NP-PP-E2";最 短路徑所包含的部分即為SPT,如圖中用虛線表示的部分;
(4) 確定句法樹中El和E2兩個實體之間的結構類別,很顯然,為PP附 屬結構,因此SPT就是我們所需要的語義關係樹;
對實體2進行語義樹構造
(1) 對句子2用句法分析器進行語法分析,得到句法樹T2,如圖2中的(b) 所示;
(2) 確定實體aides和Clinton在句法樹中的位置,並在相應位置插入結點 "El,,和"E2";
(3) 找出El和E2兩個實體之間的最短路徑,為"E1-NP-NP-PP-E2";最 短路徑所包含的部分即為SPT,如圖中用虛線表示的部分;
(4) 確定句法樹中El和E2兩個實體之間的結構類別,很顯然,為PP附 屬結構,因此SPT就是我們所需要的語義關係樹。
以上是構建語義關係樹的具體實施過程。根據如上構建的兩根語義關係 樹,以下描述計算兩語義樹相似度的具體實施過程
接下來,比較找出來的兩棵語義關係樹,其過程為
(1) 列出兩棵SPT樹中的所有結點,如Tl的SPT中包含("NP", "PP", "NN", "NNS", "NNP"…),T2的SPT中包含("NP", "PP", "NN", "NNS", "TO",...),對任意兩個結點之間進行比較,並把比較結果進行累加。
(2) 如結點"NN+President"和"JJ+Israel"之間,上下文無關產生式不相似,則返回結果0;
(3) 如Tl中的結點"TO + to"和T2中的結點"TO + to",兩者完全匹 配,則都是詞性結點,因而返回比較結果入(即0.4):
(4) 如Tl中的結點"NP+NN E2"和T2中的結點"NP+JJ JJ E2", 它們是相似結點。兩者相比,刪除和插入的結點數為3,因此在E2結點之間 比較完之後的結果還要乘以A J (即0.63)。
(5) 對於Tl中的結點"E2+NNP"和T2中的結點"E2+NN",它們之 間相似性,因為一個是專用名詞,另一個是普通名詞。相似的結點數為l,因 此要在子結點"NNP+Clintoii"和"NP+minister"之間比較結果的基礎上再 乘以入2、即0.41),然後再返回。
(6) 最後得出這兩棵樹的相似度為0.5 (保留l位小數)。 下表中的數據是在ACE RDC 2003/2004語料庫進行語義關係大類抽取時
的抽取性能(F指數)和運行時間(分),其中括號內的數據是ACE 2003,括 中與內的數據是ACE2004,從中可以看出
語義關係樹及其比較方法F指數時間(分)
最短路徑包含樹(基準)69.8119(34)
+謂詞路徑的上下文擴展71.5108(31)
+上下文相關的樹比較方法72.6(75.119(34)
+樹的模糊匹配方法73.7185(49)
加入上下文擴展信息後,不但關係抽取性能提髙了,而且運行時間也縮短
了,說明用該方法構造語義關係樹是有效的;
採用上下文相關和模糊匹配方法後,抽取性能得到了進一步的提髙,不過 運行時間也變長了,因此它們相當於在延長時間的前提下提髙性能。
1權利要求
1. 一種自然語言句子的語義關係樹的構造方法,其特徵在於,對於句子中待建立語義關係樹的兩個實體,採用下列構造方法(1)採用語法分析器產生與句子相對應的句法樹;(2)在句法樹中確定兩個實體的位置,方法是,依據兩個實體的外延範圍在句法樹中從詞彙結點向上尋找,直到發現一個共同結點,即把它確定為實體在句法樹中的位置;(3)在句法樹中找出連接兩實體的最短路徑,分別從兩個實體結點出發,向上搜索,並記錄經過的路徑,直到發現一個最近的共同祖先結點,此時搜索過程中記錄下的連接兩實體的路徑即為最短路徑;(4)在語義關係樹中,保留最短路徑及其所包含的部分,裁剪掉其餘部分,最後得到的最小的語義關係樹即為最短路徑包含樹;(5)確定句法樹中兩實體之間存在的結構類別,如果兩個實體之間用一個逗號分隔,則為半結構化;如果第二個實體是以介詞短語形式修飾第一個實體,則為PP附屬結構;如果第二個實體的外延包含了第一個實體,則為嵌入式結構;如果兩個實體作為名詞短語緊接在一起,則為描述性結構;除此之外的所有結構均視作謂詞連結結構;(6)如果兩實體之間的結構類型不是謂詞結構,則最短路徑包含樹即為我們所需要的語義關係樹;如果兩實體之間的結構類型是謂詞連結結構,則擴展與謂詞相關的上下文信息,得到上下文相關的路徑包含樹,其方法是,首先從最短路徑包含樹的根節點開始向上移動直到找到一個以謂詞為中心詞的節點,然後沿著以該謂詞為中心詞的路徑找到該謂詞,這樣被最短路徑包含樹和該謂詞查找路徑所涵蓋的子樹即我們要找的動態語義關係樹。
2. —種自然語言句子的語義關係樹的比較方法,其特徵在於對採用權 利要求1所述方法獲得的兩棵語義關係樹Tl和T2,採用下列方法進行比較(1) 列出樹Tl和T2中除葉結點以外的所有結點列表Ll和L2;(2) 對於結點列表之間的任意兩個結點nl和n2,再連同它們的父結點和祖 父結點包括在內,用第(3)、 (4)步的方法進行比較,然後將所有的比較結果累加 起來,得到最後的結果;(3) 如果以nl和n2為根節點的上下文無關產生式不具有相似性,則返回 結果0;否則轉下步,所述兩個產生式的相似性,是指它們有相同或可替換的 頭節點;(4) 如果nl和n2是詞性標記,則返回結果入,A的取值為0 1;否則轉 下步。(5) 分別找出nl和n2的子結點列表,如果列表不完全一致,則轉第6步, 否則按照順序兩兩配對比較,比較方法同第(3)、(4)步,最後把結果相乘並返回;(6) 找出nl和n2的子結點列表進行模糊匹配時插入刪除的可選樹節點數 ftlnsDels,和相似樹節點的替換樹節點數ftSubs,然後按照順序對相似樹節點 兩兩配對比較,比較方法同第(3)、 (4)步,最後把結果相乘,然後再乘以A l" sDsls 入2-su",入1和X 2分別為0.6和0.4,最後結果再返回;步驟(2)中獲得的最後結果值即為兩棵語義關係樹的相似度。
3.根據權利要求2所述自然語言句子的語義關係樹的比較方法,其特徵 在於A的取值為0.4。
全文摘要
本發明公開了一種自然語言句子的語義關係樹的構造方法,其特徵在於,對於句子中待建立語義關係樹的兩個實體,首先構建最短路徑包含樹;如果兩實體之間的結構類型不是謂詞結構,則最短路徑包含樹即為所需的語義關係樹;如果兩實體之間的結構類型是謂詞連結結構,則擴展與謂詞相關的上下文信息,得到上下文相關的路徑包含樹,作為語義關係樹。本發明的方法獲得的語義關係樹,既能涵蓋關鍵的結構化句法信息,又能減少不必要的噪音,能在基本不影響關係抽取速度的前提下,提高關係抽取的性能;採用該語義關係樹進行比較,結果更具有普遍性。
文檔編號G06F17/27GK101446944SQ20081024360
公開日2009年6月3日 申請日期2008年12月10日 優先權日2008年12月10日
發明者周國棟, 芳 孔, 朱巧明, 李軍輝, 李培峰, 王紅玲, 錢培德, 錢龍華 申請人:蘇州大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀