新四季網

藏語實體知識信息抽取方法

2023-10-27 04:59:22 5

藏語實體知識信息抽取方法
【專利摘要】本發明涉及一種藏語實體知識信息抽取方法,所述方法包括:從藏漢文本語料信息中,抽取藏漢可比語料信息;從所述藏漢可比語料信息中,抽取出實體等價對;從所述實體等價對中,抽取出藏漢跨語言實體關係;從所述的藏漢跨語言實體關係中,抽取出藏語「實體-屬性-值」三元組;將所述三元組存儲到藏語實體知識語義資源庫。本發明在一定程度上解決了藏語訓練語料匱乏的問題,將促進不同語言之間的知識共享,為藏漢跨語言知識問答、信息檢索、機器翻譯等領域研究提供支撐。
【專利說明】藏語實體知識信息抽取方法

【技術領域】
[0001]本發明涉及一種藏語實體知識信息抽取方法,尤其涉及一種基於自然標註的藏漢跨語言實體知識信息抽取方法。

【背景技術】
[0002]Web內容的爆炸式增長,使得對Web的社會網絡研究已經不再局限於對Web結構的分析,而是轉向以Web內容為研究對象的分析,其中知識圖譜成為大數據時代自然語言處理領域的一個研究熱點。知識圖譜以結點代表實體或者概念,邊代表實體或者概念之間的各種語義關係,其中實體知識信息的抽取是主要研究內容之一。
[0003]實體知識信息抽取,要解決的重點問題是實體及其屬性關係的抽取。基於機器學習的實體間語義關係抽取要求具有一定規模的訓練語料,而語料庫的人工標註需要花費大量的時間和人力。因此,利用已有的自然標註數據,自動挖掘海量、真實的文本信息,通過資源豐富的源語言幫助欠資源的目標語言,獲取目標語言的相關知識,是解決目標語言信息處理問題的一個方案。
[0004]在網絡來源信息中,約有21%的中文文章含有「實體一屬性一值」的三元組關係信息盒,而目前的藏語文章中缺少信息盒。在信息盒缺失以及藏語標註語料非常少的情況下,無法獲取大規模的訓練語料以實現藏語實體知識信息的抽取。此外,儘管藏語的顯示輸出技術、編碼技術、輸入技術、文字處理技術、網頁製作技術等相對來說已比較成熟,然而與漢語、英語等語言的信息處理研究相比仍差距較大,主要表現在詞法、句法分析及其相關應用方面。例如,藏語尚缺乏實用的命名實體識別系統,在句子和篇章級的信息處理研究方面還處於起步階段。因此,無法直接將英、漢實體屬性及關係抽取中相對成熟的方法應用於藏語。在這種情況下,藏語實體知識信息的獲取更多依靠人工的方式,無法實現大規模數據的處理及知識獲取。


【發明內容】

[0005]本發明的目的是針對現有技術的缺陷,提供一種藏語實體知識信息抽取方法,可以利用現有的藏漢文本語料資源,以及相對豐富的漢語結構化、半結構化資源,挖掘藏語的實體知識信息,實現大規模數據的處理及知識信息的獲取。
[0006]為實現上述目的,本發明提供了一種藏語實體知識信息抽取方法,所述方法包括:從藏漢文本語料信息中,抽取藏漢可比語料信息;從所述藏漢可比語料信息中,抽取出實體等價對;從所述實體等價對中,抽取出藏漢跨語言實體關係;從所述的藏漢跨語言實體關係中,抽取出藏語「實體-屬性-值」三元組;將所述三元組存儲到藏語實體知識語義資源庫。
[0007]本發明基於自然標註下藏漢語言文本的特點,利用相對豐富的漢語資源,研究與解決跨語言環境下的藏漢可比語料獲取、藏漢實體映射、半監督學習的實體關係及屬性值抽取等關鍵技術,實現藏語實體知識信息的挖掘。該發明在一定程度上解決了藏語訓練語料匱乏的問題,將促進不同語言之間的知識共享,為藏語知識圖譜構建打下基礎,為藏漢跨語言知識問答、信息檢索、機器翻譯等領域研究提供支撐。

【專利附圖】

【附圖說明】
[0008]圖1為本發明提供的藏語實體知識信息抽取方法流程圖;
[0009]圖2為本發明藏語實體知識信息抽取方法雙語網頁可比語料信息的相似特徵示意圖;
[0010]圖3為本發明藏語實體知識信息抽取方法利用跨語言關聯獲取可比語料信息示意圖;
[0011]圖4為本發明藏語實體知識信息抽取方法藏語實體關係模板構建示意圖。

【具體實施方式】
[0012]下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
[0013]圖1是本實施例提供的藏語實體知識信息抽取方法流程圖,如圖1所示,本發明的藏語實體知識信息抽取方法包括:
[0014]步驟S101,抽取藏漢可比語料信息。
[0015]根據不同網絡環境中藏漢文本語料存在形式的差異,採取不同的方法。
[0016]具體地,對於網絡環境中大量存在的僅僅是網頁級別的平行,或者是跨網平行的沒有直接跨語言的內部連結的藏漢文本語料,構建基於雙語網頁的多特徵藏漢可比預料獲取模型。由於這些文本語料的標題、作者、媒體和發布時間等相關信息已經被標註,同一網絡事件具有實時性、一致性等特點,使得雙語網頁的文本語料具有較多的相似特徵。如圖2所示。通過對文本語料進行分詞,結合數字、網頁結構、事件發生時間、網頁內容量、標題、關鍵詞等特徵,計算相似度,建立藏漢可比語料獲取模型。
[0017]對於存在直接跨語言內部連結的藏漢文本語料,直接通過跨語言連結功能實現關聯,獲取藏漢可比語料,如圖3所示。
[0018]步驟S102,抽取藏漢實體等價對。
[0019]根據不同網絡環境中藏漢可比語料存在形式的差異,採取不同的方法。
[0020]網絡中存在著大量自然標註的藏漢實體對,構成了一一對應的藏漢實體等價對,如表I所示。採用基於自然標註的藏漢實體等價對構建方法。具體地,通過搜尋引擎在網絡中挖掘所有具有一一對應特性的自然標註資源,構建藏漢實體等價對。
[0021]表I自然標註的藏漢實體等價對實例
[0022]

【權利要求】
1.一種藏語實體知識信息抽取方法,其特徵在於,所述方法包括: 從藏漢文本語料信息中,抽取藏漢可比語料信息; 從所述藏漢可比語料信息中,抽取出實體等價對; 從所述實體等價對中,抽取出藏漢跨語言實體關係; 從所述的藏漢跨語言實體關係中,抽取出藏語「實體-屬性-值」三元組; 將所述三元組存儲到藏語實體知識語義資源庫。
2.根據權利要求1所述的從藏漢文本語料中,抽取藏漢可比語料信息的方法,其特徵在於,所述抽取藏漢可比語料信息具體為,利用藏漢雙語網頁對應的網頁信息構建多特徵藏漢可比語料獲取模型,或者對網絡信息進行跨語言連結關聯處理,從而獲取到所述藏漢可比語料信息。
3.根據權利要求2所述的多特徵藏漢可比語料獲取模型的構建方法,其特徵在於,所述多特徵藏漢可比語料獲取模型具體為,通過對所述的藏漢文本語料進行分詞處理,獲取藏漢可比語料相似特徵,構建多特徵藏漢可比語料獲取模型。
4.根據權利要求1所述的從所述藏漢可比語料信息中抽取出實體等價對的方法,其特徵在於,所述抽取出實體等價對具體為,從自然標註的網頁信息中抽取出實體等價對,或者利用平行句對最大字連續交集模型抽取出實體等價對。
5.根據權利要求4所述的平行句對最大字連續交集模型的建立方法,其特徵在於,建立平行句對最大字連續交集模型,具體為; 對所述藏漢可比語料信息進行藏漢雙語分詞處理,獲取藏漢平行句對; 對所述藏漢平行句對建立漢語命名實體倒排索引表; 在所述倒排索引表中每個所述的漢語命名實體對應的藏漢平行句對集合中,計算兩個藏語句對的最大字連續交集,所述的最大字連續交集即為所述漢語命名實體對應的藏語等價對。
6.根據權利要求1所述的從所述實體等價對中抽取出藏漢跨語言實體關係的方法,其特徵在於,所述抽取出藏漢跨語言實體關係具體為,通過分析藏語淺層語義結構構建實體關係模板,利用半監督學習法抽取實體關係。
7.根據權利要求6所述的分析藏語淺層語義結構構建實體關係模板的方法,其特徵在於,所述構建實體關係模板具體為,利用藏語格標記的句法語義作用和動詞信息分析藏語句子淺層結構,構建藏語實體和屬性值的關係模板。
8.根據權利要求7所述的實體關係模板的構建方法,其特徵在於,在所述構建實體關係模板之後,還包括:通過層次聚類過濾和泛化所述關係模板。
9.根據權利要求6所述的利用半監督學習法抽取實體關係的方法,其特徵在於,所述利用半監督學習法抽取實體關係具體為: 以包含兩個及以上所述命名實體的句子作為樣本,採用向量空間模型計算特徵的相似度; 利用所述相似度信息,構建實體對近鄰圖,在所述近鄰圖上進行標記的傳遞,直到收斂,推導出未標記實體對的關係。
【文檔編號】G06F17/30GK104133848SQ201410310710
【公開日】2014年11月5日 申請日期:2014年7月1日 優先權日:2014年7月1日
【發明者】孫媛 申請人:中央民族大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀