藏語實體知識信息抽取方法
2023-10-27 04:59:22 5
藏語實體知識信息抽取方法
【專利摘要】本發明涉及一種藏語實體知識信息抽取方法,所述方法包括:從藏漢文本語料信息中,抽取藏漢可比語料信息;從所述藏漢可比語料信息中,抽取出實體等價對;從所述實體等價對中,抽取出藏漢跨語言實體關係;從所述的藏漢跨語言實體關係中,抽取出藏語「實體-屬性-值」三元組;將所述三元組存儲到藏語實體知識語義資源庫。本發明在一定程度上解決了藏語訓練語料匱乏的問題,將促進不同語言之間的知識共享,為藏漢跨語言知識問答、信息檢索、機器翻譯等領域研究提供支撐。
【專利說明】藏語實體知識信息抽取方法
【技術領域】
[0001]本發明涉及一種藏語實體知識信息抽取方法,尤其涉及一種基於自然標註的藏漢跨語言實體知識信息抽取方法。
【背景技術】
[0002]Web內容的爆炸式增長,使得對Web的社會網絡研究已經不再局限於對Web結構的分析,而是轉向以Web內容為研究對象的分析,其中知識圖譜成為大數據時代自然語言處理領域的一個研究熱點。知識圖譜以結點代表實體或者概念,邊代表實體或者概念之間的各種語義關係,其中實體知識信息的抽取是主要研究內容之一。
[0003]實體知識信息抽取,要解決的重點問題是實體及其屬性關係的抽取。基於機器學習的實體間語義關係抽取要求具有一定規模的訓練語料,而語料庫的人工標註需要花費大量的時間和人力。因此,利用已有的自然標註數據,自動挖掘海量、真實的文本信息,通過資源豐富的源語言幫助欠資源的目標語言,獲取目標語言的相關知識,是解決目標語言信息處理問題的一個方案。
[0004]在網絡來源信息中,約有21%的中文文章含有「實體一屬性一值」的三元組關係信息盒,而目前的藏語文章中缺少信息盒。在信息盒缺失以及藏語標註語料非常少的情況下,無法獲取大規模的訓練語料以實現藏語實體知識信息的抽取。此外,儘管藏語的顯示輸出技術、編碼技術、輸入技術、文字處理技術、網頁製作技術等相對來說已比較成熟,然而與漢語、英語等語言的信息處理研究相比仍差距較大,主要表現在詞法、句法分析及其相關應用方面。例如,藏語尚缺乏實用的命名實體識別系統,在句子和篇章級的信息處理研究方面還處於起步階段。因此,無法直接將英、漢實體屬性及關係抽取中相對成熟的方法應用於藏語。在這種情況下,藏語實體知識信息的獲取更多依靠人工的方式,無法實現大規模數據的處理及知識獲取。
【發明內容】
[0005]本發明的目的是針對現有技術的缺陷,提供一種藏語實體知識信息抽取方法,可以利用現有的藏漢文本語料資源,以及相對豐富的漢語結構化、半結構化資源,挖掘藏語的實體知識信息,實現大規模數據的處理及知識信息的獲取。
[0006]為實現上述目的,本發明提供了一種藏語實體知識信息抽取方法,所述方法包括:從藏漢文本語料信息中,抽取藏漢可比語料信息;從所述藏漢可比語料信息中,抽取出實體等價對;從所述實體等價對中,抽取出藏漢跨語言實體關係;從所述的藏漢跨語言實體關係中,抽取出藏語「實體-屬性-值」三元組;將所述三元組存儲到藏語實體知識語義資源庫。
[0007]本發明基於自然標註下藏漢語言文本的特點,利用相對豐富的漢語資源,研究與解決跨語言環境下的藏漢可比語料獲取、藏漢實體映射、半監督學習的實體關係及屬性值抽取等關鍵技術,實現藏語實體知識信息的挖掘。該發明在一定程度上解決了藏語訓練語料匱乏的問題,將促進不同語言之間的知識共享,為藏語知識圖譜構建打下基礎,為藏漢跨語言知識問答、信息檢索、機器翻譯等領域研究提供支撐。
【專利附圖】
【附圖說明】
[0008]圖1為本發明提供的藏語實體知識信息抽取方法流程圖;
[0009]圖2為本發明藏語實體知識信息抽取方法雙語網頁可比語料信息的相似特徵示意圖;
[0010]圖3為本發明藏語實體知識信息抽取方法利用跨語言關聯獲取可比語料信息示意圖;
[0011]圖4為本發明藏語實體知識信息抽取方法藏語實體關係模板構建示意圖。
【具體實施方式】
[0012]下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
[0013]圖1是本實施例提供的藏語實體知識信息抽取方法流程圖,如圖1所示,本發明的藏語實體知識信息抽取方法包括:
[0014]步驟S101,抽取藏漢可比語料信息。
[0015]根據不同網絡環境中藏漢文本語料存在形式的差異,採取不同的方法。
[0016]具體地,對於網絡環境中大量存在的僅僅是網頁級別的平行,或者是跨網平行的沒有直接跨語言的內部連結的藏漢文本語料,構建基於雙語網頁的多特徵藏漢可比預料獲取模型。由於這些文本語料的標題、作者、媒體和發布時間等相關信息已經被標註,同一網絡事件具有實時性、一致性等特點,使得雙語網頁的文本語料具有較多的相似特徵。如圖2所示。通過對文本語料進行分詞,結合數字、網頁結構、事件發生時間、網頁內容量、標題、關鍵詞等特徵,計算相似度,建立藏漢可比語料獲取模型。
[0017]對於存在直接跨語言內部連結的藏漢文本語料,直接通過跨語言連結功能實現關聯,獲取藏漢可比語料,如圖3所示。
[0018]步驟S102,抽取藏漢實體等價對。
[0019]根據不同網絡環境中藏漢可比語料存在形式的差異,採取不同的方法。
[0020]網絡中存在著大量自然標註的藏漢實體對,構成了一一對應的藏漢實體等價對,如表I所示。採用基於自然標註的藏漢實體等價對構建方法。具體地,通過搜尋引擎在網絡中挖掘所有具有一一對應特性的自然標註資源,構建藏漢實體等價對。
[0021]表I自然標註的藏漢實體等價對實例
[0022]
【權利要求】
1.一種藏語實體知識信息抽取方法,其特徵在於,所述方法包括: 從藏漢文本語料信息中,抽取藏漢可比語料信息; 從所述藏漢可比語料信息中,抽取出實體等價對; 從所述實體等價對中,抽取出藏漢跨語言實體關係; 從所述的藏漢跨語言實體關係中,抽取出藏語「實體-屬性-值」三元組; 將所述三元組存儲到藏語實體知識語義資源庫。
2.根據權利要求1所述的從藏漢文本語料中,抽取藏漢可比語料信息的方法,其特徵在於,所述抽取藏漢可比語料信息具體為,利用藏漢雙語網頁對應的網頁信息構建多特徵藏漢可比語料獲取模型,或者對網絡信息進行跨語言連結關聯處理,從而獲取到所述藏漢可比語料信息。
3.根據權利要求2所述的多特徵藏漢可比語料獲取模型的構建方法,其特徵在於,所述多特徵藏漢可比語料獲取模型具體為,通過對所述的藏漢文本語料進行分詞處理,獲取藏漢可比語料相似特徵,構建多特徵藏漢可比語料獲取模型。
4.根據權利要求1所述的從所述藏漢可比語料信息中抽取出實體等價對的方法,其特徵在於,所述抽取出實體等價對具體為,從自然標註的網頁信息中抽取出實體等價對,或者利用平行句對最大字連續交集模型抽取出實體等價對。
5.根據權利要求4所述的平行句對最大字連續交集模型的建立方法,其特徵在於,建立平行句對最大字連續交集模型,具體為; 對所述藏漢可比語料信息進行藏漢雙語分詞處理,獲取藏漢平行句對; 對所述藏漢平行句對建立漢語命名實體倒排索引表; 在所述倒排索引表中每個所述的漢語命名實體對應的藏漢平行句對集合中,計算兩個藏語句對的最大字連續交集,所述的最大字連續交集即為所述漢語命名實體對應的藏語等價對。
6.根據權利要求1所述的從所述實體等價對中抽取出藏漢跨語言實體關係的方法,其特徵在於,所述抽取出藏漢跨語言實體關係具體為,通過分析藏語淺層語義結構構建實體關係模板,利用半監督學習法抽取實體關係。
7.根據權利要求6所述的分析藏語淺層語義結構構建實體關係模板的方法,其特徵在於,所述構建實體關係模板具體為,利用藏語格標記的句法語義作用和動詞信息分析藏語句子淺層結構,構建藏語實體和屬性值的關係模板。
8.根據權利要求7所述的實體關係模板的構建方法,其特徵在於,在所述構建實體關係模板之後,還包括:通過層次聚類過濾和泛化所述關係模板。
9.根據權利要求6所述的利用半監督學習法抽取實體關係的方法,其特徵在於,所述利用半監督學習法抽取實體關係具體為: 以包含兩個及以上所述命名實體的句子作為樣本,採用向量空間模型計算特徵的相似度; 利用所述相似度信息,構建實體對近鄰圖,在所述近鄰圖上進行標記的傳遞,直到收斂,推導出未標記實體對的關係。
【文檔編號】G06F17/30GK104133848SQ201410310710
【公開日】2014年11月5日 申請日期:2014年7月1日 優先權日:2014年7月1日
【發明者】孫媛 申請人:中央民族大學