新四季網

一種漢語框架網標註時框架排歧方法及裝置的製作方法

2023-09-16 09:41:00

專利名稱:一種漢語框架網標註時框架排歧方法及裝置的製作方法
技術領域:
本發明涉及中文信息處理技術和語義處理技術領域,特別涉及一種漢語框架網標註漢語句子時的框架排歧的方法及裝置。
背景技術:
隨著中文信息處理技術的不斷發展,越來越多的研究人員逐漸從對詞法、句法方面的研究過渡到語義方面。漢語框架網(Chinese FrameNet)就是中文語義的探索性研究之一。利用漢語框架網對一個中文句子進行標時,經常遇到一個目標詞可以充當多個不同框架的詞元這種問題,這是由於中文詞彙的多義現象所致。上述情況導致用戶在利用漢語框架網進行中文句子分析時,很難選擇合適的框架。現有技術中雖然提出了框架排歧的概念,即根據上下文語境與各個侯選框架所表示場景的一致程度,為目標詞選擇一個合適的框架。但是針對以上提到的漢語框架排歧問題,至今還沒有一種有效的解決辦法。

發明內容
本發明實施例提供一種漢語框架網標註漢語句子時的框架排歧方法及裝置,用於解決現有技術中沒有合適的方法實現漢語框架排歧的問題。一種漢語框架網標註漢語句子時框架排歧的方法,當應用漢語框架網標註待識別句子的框架信息時,包括選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。根據上述方法本發明還提供一種漢語框架網標註時框架排歧的裝置,包括訓練語料選擇模塊,用於當應用漢語框架網標註待識別句子的框架信息時,選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;依存句法分析模塊,用於對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;
標註模型生成模塊,用於選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;待識別框架句子處理模塊,用於對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。應用本發明實施例所提供的方法進行框架排歧時,首先,引入了句子的依存句法關係,由於語義上的歧義在許多情況下可以通過句法信息來區分,因此依存句法關係非常有利於框架排歧的處理。其次,運用了 T-CRF模型。T-CRF模型可以與句子的依存句法關係結合,更加合理地利用句子的依存句法關係。


圖1為本發明實施例一種漢語框架網標註時框架排歧方法的流程圖;圖2為現有技術中舉例句子進行依存分析的結果示例圖;圖3為本發明實施例中處理待識別的句子具體實現流程圖;圖4為本發明實施例中得到合適標註模型的方法流程圖;圖5為本發明實施例一種漢語框架網標註時框架排歧裝置的結構圖;圖6為本發明實施例中標註模型生成模塊的結構圖。
具體實施例方式本發明實施例提供一種語義消岐的方法,具體包括選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。如圖1所示,本發明實施例提供一種漢語框架網標註漢語句子時框架排歧的方法,當應用漢語框架網標註待識別句子的框架信息時,具體實現方法包括步驟步驟101,選擇訓練語料。本發明實施例所提供的方法運用了機器學習方法,因此需要訓練語料來訓練機器學習模型。訓練語料必須包含待識別句子中出現的所有目標詞能夠激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息。如,動詞「是」一共可以激起兩個框架[等同]框架和[屬性]框架。因此,如果待識別句子中出現了 「是」這個目標詞,那麼訓練語料中必須得有「是」 激起[等同]框架的實例,同時也得有「是」激起[屬性]框架的實例。訓練語料可以選擇經過漢語框架網標註的特定的語料來充當,也可以直接選擇漢語框架網的句子庫作為訓練語料。其中選擇漢語框架網的句子庫作為訓練語料更方便、更合理。因為漢語框架網的句子庫有以下幾個特點規模大、語料有代表性、語言現象豐富、標註完整無誤。步驟102,對訓練語料中的句子實例進行依存句法分析,得到每個句子實例的依存句法關係。本發明方法需要運用句子的依存句法關係,因此需要對訓練語料進行依存句法分析。依存句法分析一般通過運用現成的工具來實現。圖2則為句子「錢其琛表示同意斯卡爾法羅總統的看法」進行依存分析的結果示例圖。選擇依存分析圖中的特定依存關係是標註模型完成標註的主要依據。步驟103,選擇樹結構條件隨機場(T-CRF,tree-structured conditional random field),模型作為框架排歧任務的標註模型。條件隨機場(CRF)是處理序列標註任務的最先進的方法。樹結構條件隨機場 (T-CRF)是一種特殊的CRF模型,它能夠對層次結構中的依存關係進行建模,句子的依存圖即可用T-CRF來建模。T-CRF的圖形結構為一棵樹,它主要包括三種結點關係父-子,子-父,兄弟。本發明中僅考慮前兩種關係,而忽略兄弟關係,因為在一個句子的依存句法樹中,同一層次各結點之間的依存關係非常弱。基上以上考慮,本發明中,T-CRF模型中各種概率分配如下=+ α +
Z (X) VeFF ^λJj(V^iyXx)
JG = ^kgk{v,y{v),x,v\y{V))S 二 Σσ^;(ν,Χν),χ,ν*,Χν*))
ι
上面的F、G、S分別代表當前結點的特徵、當前結點父結點的特徵、當前結點子結點的特徵。T-CRF模型中的觀察序列χ對應於句子中的一個詞,而標註序列y對應於這個詞激起框架的框架名稱。因此,如果一個詞為句子中的目標詞,對應的y為激起框架的名稱,若不然,對應的y則為NULL。CRF模型的原理是使標註序列在觀察序列上的條件概率最大。步驟104,利用句子實例的詞法信息、依存句法關係和框架語義信息進行T-CRF標註模型的訓練,得到特定參數的標註模型。步驟105,對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係。如圖3所示,本步驟的實現步驟具體包括步驟301,針對待識別句子,進行分詞、詞性標註。步驟302,針對待識別句子,進行依存句法分析,得到待識別句子的依存句法關係。步驟106,將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模
6型進行處理,得到句子中目標詞的所屬框架。此步驟中的輸入為待識別的句子中的詞、詞性和句子特定依存關係,與步驟104 的輸入相比,僅差「當前詞所屬框架」 一列。「當前詞所屬框架」是標註模型的輸出信息。如圖4所示,本發明實施例步驟104的具體實現,包括以下步驟步驟401,選擇所述標註模型的訓練特徵,該訓練特徵用於確定在訓練所述標註模型時,從句子實例的詞法信息、依存句法關係和框架語義信息中提取的具體參數。所述訓練特徵主要考慮兩種類型,訓練語料中的詞性標註信息特徵和依存句法關係特徵訓練語料中的詞性標註信息包括最基本的詞、詞性、詞與詞性的組合;依存結構樹(即依存句法關係)中的特徵包括當前詞的父結點、當前詞的子結點、結點間的關係,本發明中主要包括主謂關係(簡稱SBV)、動賓關係(簡稱V0B)、狀中結構(簡稱ADV)、定中關係(簡稱ATT)。步驟402,根據所述訓練特徵從所述訓練語料各句子實例的詞法信息、依存句法關係和框架語義信息中提取具體參數對所述標註模型進行訓練,得到特定參數的標註模型; 使該特定參數的標註模型根據待識別句子詞法信息和依存句法確定框架語義信息。本實施例所選擇的訓練特徵包括當前詞、當前詞詞性、當前詞父結點、當前詞與父結點的依存關係、SBV子結點、VOB子結點、ADV子結點、ATT子結點、當前詞所屬框架。如「錢其琛表示同意斯卡爾法羅總統的看法」作為訓練語料時,最終得到本步驟的輸入如表1所示,表中的每一列依次對應於所述選擇的特徵
權利要求
1.一種漢語框架網標註漢語句子時框架排歧的方法,其特徵在於,包括當應用漢語框架網標註待識別句子的框架信息時,選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義 fn息;對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。
2.如權利要求1所述的方法,其特徵在於,所述訓練語料為經過漢語框架網標註的語料。
3.如權利要求1所述的方法,其特徵在於,利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型,包括選擇所述標註模型的訓練特徵,該訓練特徵用於確定在訓練所述標註模型時,從句子實例的詞法信息、依存句法關係和框架語義信息中提取的具體參數;根據所述訓練特徵從所述訓練語料各句子實例的詞法信息、依存句法關係和框架語義信息中提取具體參數對所述標註模型進行訓練,得到特定參數的標註模型;使該特定參數的標註模型根據待識別句子詞法信息和依存句法關係確定框架語義信息。
4.如權利要求3所述的方法,其特徵在於,利用所述訓練語料的詞法信息、依存句法關係和框架語義信息訓練所述標註模型之前,還進一步包括根據選擇的特徵從訓練語料中提取詞法信息、依存句法關係和框架語義信息的具體參數,並將選擇的訓練特徵和提取的具體參數設置為二維表格式作為所述標註模型的輸入, 其中,所選擇的特徵作為二維表的列,訓練語料中的每個詞都生成二維表的一行。
5.如權利要求3或4所述的方法,其特徵在於,所述訓練特徵包括當前詞、當前詞詞性、當前詞父結點、當前詞與父結點的依存關係、主謂關係SBV子結點、動賓關係VOB子結點、狀中結構ADV子結點、定中關係ATT子結點、當前詞所屬框架。
6.一種漢語框架網標註漢語句子時框架排歧的裝置,其特徵在於,包括訓練語料選擇模塊,用於當應用漢語框架網標註待識別句子的框架信息時,選擇訓練語料,該訓練語料包含待識別句子中出現的目標詞激起的所有框架的句子實例,並且包括每個句子實例的框架語義信息;依存句法分析模塊,用於對所述句子實例進行依存句法分析,得到每個句子實例的依存句法關係;標註模型生成模塊,用於選擇樹結構條件隨機場T-CRF模型作為框架排歧任務的標註模型,並利用所述句子實例的詞法信息、依存句法關係和框架語義信息進行標註模型的訓練,得到特定參數的標註模型;待識別框架句子處理模塊,用於對待識別句子進行分詞、詞性標註及依存句法分析,得到待識別句子的詞法信息和依存句法關係;將待識別句子的詞法信息和依存句法關係提交所述特定參數的標註模型,得到待識別句子中目標詞的所屬框架。
7.如權利要求6所述的裝置,其特徵在於,所述標註模型生成模塊包括訓練特徵選擇單元,用於選擇所述標註模型的訓練特徵,該訓練特徵用於確定在訓練所述標註模型時,從句子實例的詞法信息、依存句法關係和框架語義信息中提取的具體參數;訓練單元,用於根據所述訓練特徵從所述訓練語料各句子實例的詞法信息、依存句法關係和框架語義信息中提取具體參數,對所述標註模型進行訓練,得到特定參數的標註模型;使該特定參數的標註模型根據待識別句子詞法信息和依存句法關係確定框架語義信肩、ο
8.如權利要求7所述的裝置,其特徵在於,所述標註模型生成模塊還包括輸入數據生成單元,用於將選擇的訓練特徵和具體參數設置為二維表格式作為所述標註模型的輸入,其中,所述訓練特徵作為二維表的列,訓練語料中的每個詞都生成二維表的一行。
全文摘要
本發明公開了一種漢語框架網標註漢語句子時的框架排歧方法及裝置,該方法包括選擇訓練語料,對訓練語料中的句子進行依存句法分析;將框架排歧任務作為標註任務,選擇樹結構條件隨機場模型為標註模型,並為建立的標註模型選擇特徵;根據所述選擇的特徵利用訓練語料對所述標註模型進行訓練,得到合適的標註模型;將待識別句子的詞性標註信息以及依存句法關係提交訓練後的標註模型,得到待識別句子中目標詞的所屬框架。
文檔編號G06F17/27GK102375808SQ20101026437
公開日2012年3月14日 申請日期2010年8月20日 優先權日2010年8月20日
發明者劉海靜, 李雙紅, 李茹, 高俊傑 申請人:山西大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀