一種漢語框架網標註時框架排歧方法及裝置的製作方法
2023-09-16 09:41:00
專利名稱:一種漢語框架網標註時框架排歧方法及裝置的製作方法
技術領域:
本發明涉及中文信息處理技術和語義處理技術領域,特別涉及一種漢語框架網標註漢語句子時的框架排歧的方法及裝置。
背景技術:
隨著中文信息處理技術的不斷發展,越來越多的研究人員逐漸從對詞法、句法方面的研究過渡到語義方面。漢語框架網(Chinese FrameNet)就是中文語義的探索性研究之一。利用漢語框架網對一個中文句子進行標時,經常遇到一個目標詞可以充當多個不同框架的詞元這種問題,這是由於中文詞彙的多義現象所致。上述情況導致用戶在利用漢語框架網進行中文句子分析時,很難選擇合適的框架。現有技術中雖然提出了框架排歧的概念,即根據上下文語境與各個侯選框架所表示場景的一致程度,為目標詞選擇一個合適的框架。但是針對以上提到的漢語框架排歧問題,至今還沒有一種有效的解決辦法。
發明內容
本發明實施例提供一種漢語框架網標註漢語句子時的框架排歧方法及裝置,用於解決現有技術中沒有合適的方法實現漢語框架排歧的問題。一種漢語框架網標註漢語句子時框架排歧的方法,當應用漢語框架網標註待識別句子的框架信息時,包括選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。根據上述方法本發明還提供一種漢語框架網標註時框架排歧的裝置,包括訓練語料選擇模塊,用於當應用漢語框架網標註待識別句子的框架信息時,選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;依存句法分析模塊,用於對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;
標註模型生成模塊,用於選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;待識別框架句子處理模塊,用於對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。應用本發明實施例所提供的方法進行框架排歧時,首先,引入了句子的依存句法關係,由於語義上的歧義在許多情況下可以通過句法信息來區分,因此依存句法關係非常有利於框架排歧的處理。其次,運用了 T-CRF模型。T-CRF模型可以與句子的依存句法關係結合,更加合理地利用句子的依存句法關係。
圖1為本發明實施例一種漢語框架網標註時框架排歧方法的流程圖;圖2為現有技術中舉例句子進行依存分析的結果示例圖;圖3為本發明實施例中處理待識別的句子具體實現流程圖;圖4為本發明實施例中得到合適標註模型的方法流程圖;圖5為本發明實施例一種漢語框架網標註時框架排歧裝置的結構圖;圖6為本發明實施例中標註模型生成模塊的結構圖。
具體實施例方式本發明實施例提供一種語義消岐的方法,具體包括選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。如圖1所示,本發明實施例提供一種漢語框架網標註漢語句子時框架排歧的方法,當應用漢語框架網標註待識別句子的框架信息時,具體實現方法包括步驟步驟101,選擇訓練語料。本發明實施例所提供的方法運用了機器學習方法,因此需要訓練語料來訓練機器學習模型。訓練語料必須包含待識別句子中出現的所有目標詞能夠激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息。如,動詞「是」一共可以激起兩個框架[等同]框架和[屬性]框架。因此,如果待識別句子中出現了 「是」這個目標詞,那麼訓練語料中必須得有「是」 激起[等同]框架的實例,同時也得有「是」激起[屬性]框架的實例。訓練語料可以選擇經過漢語框架網標註的特定的語料來充當,也可以直接選擇漢語框架網的句子庫作為訓練語料。其中選擇漢語框架網的句子庫作為訓練語料更方便、更合理。因為漢語框架網的句子庫有以下幾個特點規模大、語料有代表性、語言現象豐富、標註完整無誤。步驟102,對訓練語料中的句子實例進行依存句法分析,得到每個句子實例的依存句法關係。本發明方法需要運用句子的依存句法關係,因此需要對訓練語料進行依存句法分析。依存句法分析一般通過運用現成的工具來實現。圖2則為句子「錢其琛表示同意斯卡爾法羅總統的看法」進行依存分析的結果示例圖。選擇依存分析圖中的特定依存關係是標註模型完成標註的主要依據。步驟103,選擇樹結構條件隨機場(T-CRF,tree-structured conditional random field),模型作為框架排歧任務的標註模型。條件隨機場(CRF)是處理序列標註任務的最先進的方法。樹結構條件隨機場 (T-CRF)是一種特殊的CRF模型,它能夠對層次結構中的依存關係進行建模,句子的依存圖即可用T-CRF來建模。T-CRF的圖形結構為一棵樹,它主要包括三種結點關係父-子,子-父,兄弟。本發明中僅考慮前兩種關係,而忽略兄弟關係,因為在一個句子的依存句法樹中,同一層次各結點之間的依存關係非常弱。基上以上考慮,本發明中,T-CRF模型中各種概率分配如下=+ α +
Z (X) VeFF ^λJj(V^iyXx)
JG = ^kgk{v,y{v),x,v\y{V))S 二 Σσ^;(ν,Χν),χ,ν*,Χν*))
ι
上面的F、G、S分別代表當前結點的特徵、當前結點父結點的特徵、當前結點子結點的特徵。T-CRF模型中的觀察序列χ對應於句子中的一個詞,而標註序列y對應於這個詞激起框架的框架名稱。因此,如果一個詞為句子中的目標詞,對應的y為激起框架的名稱,若不然,對應的y則為NULL。CRF模型的原理是使標註序列在觀察序列上的條件概率最大。步驟104,利用句子實例的詞法信息、依存句法關係和框架語義信息進行T-CRF標註模型的訓練,得到特定參數的標註模型。步驟105,對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係。如圖3所示,本步驟的實現步驟具體包括步驟301,針對待識別句子,進行分詞、詞性標註。步驟302,針對待識別句子,進行依存句法分析,得到待識別句子的依存句法關係。步驟106,將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模
6型進行處理,得到句子中目標詞的所屬框架。此步驟中的輸入為待識別的句子中的詞、詞性和句子特定依存關係,與步驟104 的輸入相比,僅差「當前詞所屬框架」 一列。「當前詞所屬框架」是標註模型的輸出信息。如圖4所示,本發明實施例步驟104的具體實現,包括以下步驟步驟401,選擇所述標註模型的訓練特徵,該訓練特徵用於確定在訓練所述標註模型時,從句子實例的詞法信息、依存句法關係和框架語義信息中提取的具體參數。所述訓練特徵主要考慮兩種類型,訓練語料中的詞性標註信息特徵和依存句法關係特徵訓練語料中的詞性標註信息包括最基本的詞、詞性、詞與詞性的組合;依存結構樹(即依存句法關係)中的特徵包括當前詞的父結點、當前詞的子結點、結點間的關係,本發明中主要包括主謂關係(簡稱SBV)、動賓關係(簡稱V0B)、狀中結構(簡稱ADV)、定中關係(簡稱ATT)。步驟402,根據所述訓練特徵從所述訓練語料各句子實例的詞法信息、依存句法關係和框架語義信息中提取具體參數對所述標註模型進行訓練,得到特定參數的標註模型; 使該特定參數的標註模型根據待識別句子詞法信息和依存句法確定框架語義信息。本實施例所選擇的訓練特徵包括當前詞、當前詞詞性、當前詞父結點、當前詞與父結點的依存關係、SBV子結點、VOB子結點、ADV子結點、ATT子結點、當前詞所屬框架。如「錢其琛表示同意斯卡爾法羅總統的看法」作為訓練語料時,最終得到本步驟的輸入如表1所示,表中的每一列依次對應於所述選擇的特徵
權利要求
1.一種漢語框架網標註漢語句子時框架排歧的方法,其特徵在於,包括當應用漢語框架網標註待識別句子的框架信息時,選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義 fn息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。
2.如權利要求1所述的方法,其特徵在於,所述訓練語料為經過漢語框架網標註的語料。
3.如權利要求1所述的方法,其特徵在於,利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型,包括選擇所述標註模型的訓練特徵,該訓練特徵用於確定在訓練所述標註模型時,從句子實例的詞法信息、依存句法關係和框架語義信息中提取的具體參數;根據所述訓練特徵從所述訓練語料各句子實例的詞法信息、依存句法關係和框架語義信息中提取具體參數對所述標註模型進行訓練,得到特定參數的標註模型;使該特定參數的標註模型根據待識別句子詞法信息和依存句法關係確定框架語義信息。
4.如權利要求3所述的方法,其特徵在於,利用所述訓練語料的詞法信息、依存句法關係和框架語義信息訓練所述標註模型之前,還進一步包括根據選擇的特徵從訓練語料中提取詞法信息、依存句法關係和框架語義信息的具體參數,並將選擇的訓練特徵和提取的具體參數設置為二維表格式作為所述標註模型的輸入, 其中,所選擇的特徵作為二維表的列,訓練語料中的每個詞都生成二維表的一行。
5.如權利要求3或4所述的方法,其特徵在於,所述訓練特徵包括當前詞、當前詞詞性、當前詞父結點、當前詞與父結點的依存關係、主謂關係SBV子結點、動賓關係VOB子結點、狀中結構ADV子結點、定中關係ATT子結點、當前詞所屬框架。
6.一種漢語框架網標註漢語句子時框架排歧的裝置,其特徵在於,包括訓練語料選擇模塊,用於當應用漢語框架網標註待識別句子的框架信息時,選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;依存句法分析模塊,用於對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;標註模型生成模塊,用於選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;待識別框架句子處理模塊,用於對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。
7.如權利要求6所述的裝置,其特徵在於,所述標註模型生成模塊包括訓練特徵選擇單元,用於選擇所述標註模型的訓練特徵,該訓練特徵用於確定在訓練所述標註模型時,從句子實例的詞法信息、依存句法關係和框架語義信息中提取的具體參數;訓練單元,用於根據所述訓練特徵從所述訓練語料各句子實例的詞法信息、依存句法關係和框架語義信息中提取具體參數,對所述標註模型進行訓練,得到特定參數的標註模型;使該特定參數的標註模型根據待識別句子詞法信息和依存句法關係確定框架語義信肩、ο
8.如權利要求7所述的裝置,其特徵在於,所述標註模型生成模塊還包括輸入數據生成單元,用於將選擇的訓練特徵和具體參數設置為二維表格式作為所述標註模型的輸入,其中,所述訓練特徵作為二維表的列,訓練語料中的每個詞都生成二維表的一行。
全文摘要
本發明公開了一種漢語框架網標註漢語句子時的框架排歧方法及裝置,該方法包括選擇訓練語料,對訓練語料中的句子進行依存句法分析;將框架排歧任務作為標註任務,選擇樹結構條件隨機場模型為標註模型,並為建立的標註模型選擇特徵;根據所述選擇的特徵利用訓練語料對所述標註模型進行訓練,得到合適的標註模型;將待識別句子的詞性標註信息以及依存句法關係提交訓練後的標註模型,得到待識別句子中目標詞的所屬框架。
文檔編號G06F17/27GK102375808SQ20101026437
公開日2012年3月14日 申請日期2010年8月20日 優先權日2010年8月20日
發明者劉海靜, 李雙紅, 李茹, 高俊傑 申請人:山西大學