一種自然語言語義信息統一編碼方法
2023-04-22 19:02:41 2
專利名稱:一種自然語言語義信息統一編碼方法
技術領域:
本發明涉及一種自然語言語義信息統一編碼方法,更確切地說是涉及一種採用自然語言語義約定客觀規律實現的適合於計算機自然語言處理的語義統一編碼的方法。
背景技術:
從信息處理基礎技術角度講,圖象信息、聲音信息數字編碼技術已經使人類能夠利用計算機技術對圖象信息、聲音信息進行快捷準確的全球化傳遞。自然語言的字符集統一編碼Unicode已經可以實現對各種自然語言符號的快捷準確的全球化傳遞。但是,自然語言之所以稱為自然語言,是因為它的形成基於每個人均擁有的一種基本權利自由創造語言符號和自由約定符號語義。因此,對自然語言進行語義信息編碼,尤其是不同自然語言的語義信息進行統一編碼始終未能實現。
但是,人類進行自然語言符號語義約定具有有以下客觀規律遞歸約定規律各種自然語言任意詞彙的語義,包括固定搭配短語和句子的語義,均可用其常用詞彙的語義進行語義遞歸約定。(比如,朗曼英語詞典用一千多常用詞彙的語義對任意詞彙進行語義約定。)並且,一種自然語言的常用詞彙語義,可以對任意其他語言的詞彙進行語義約定。(比如,用常用詞彙撰寫各種雙語詞典。)
循環約定規律各種自然語言基本詞彙的語義約定規律為循環約定。(比如「好表示使人滿意,壞的反義詞」。「父親兒子的爸爸。」)並且,基本詞彙與非基本詞彙之間也可進行語義循環約定。(比如美漂亮、美麗、好看、中看)根據以上自然語言語義約定客觀規律,我們可以做出如下推論所有自然語言的必要語義信息,是其常用符號語義的遞歸函數。
對各種自然語言常用符號語義概念的編碼結果,可對任意自然語言句子和符號的語義信息進行遞推統一編碼。
發明內容
根據以上原理,實現本發明的技術方案是這樣的一種自然語言語義信息統一編碼方法,其特徵包括以下步驟A、取任意自然語言的語法概念遞歸集進行語法信息統一編碼;B、對各種自染語言常用詞彙符號的語義項用本語言其他常用符號以句子形式進行語義描述,對多義符號的不同義項,分別進行語義循描述,並根據常用詞彙符號語義項的描述結果,對不同語言常用符號語義項匹配成功者給出一級語義統一編碼;C、建立擴展統一編碼模板,取自然語言其它詞彙符號,根據其不同語義項添入擴展統一編碼模板的位置獲得二級語義統一編碼;D、凡是不能添入一級語義統一編碼的語義擴展統一編碼模板的其他自然語言詞彙符號,或者用已進行一、二級語義統一編碼的相關語義項以句子形式進行語義描述得到三級語義編碼,或者通過添入語義擴展編碼模板得到三級語義編碼;E、對組成固定搭配短語、固定搭配句子的自然語言符號,用已進行一、二級語義統一編碼的詞彙及相關語義項,加語法概念交集以句子形式進行語義描述,實現四級語義統一編碼。
F、用不同自然語言的詞彙符號調用該詞彙符號的所有語義項及語義統一編碼結果,自動生成不同語言的語法統一編碼詞典、詞彙語義統一編碼詞典、固定搭配短語、固定搭配句子統一編碼辭典。
G、任意自然語言新增詞彙符號或對已有符號新加義項,由用戶調用語法統一編碼詞典、詞彙語義統一編碼詞典、固定搭配短語、固定搭配句子統一編碼辭典的符號及相關語義項進行語義描述,以獲得語義統一編碼。
所述步驟A的任意自然語言的語法概念遞歸統一編碼方法包括所述的編碼對象至少包括語法詞彙、詞彙變形、詞彙排序;所述的語法概念遞歸集至少包括句法成分、時態、語態及語體;所述的語法概念句法遞歸集成分至少包括主句、子句、主語、主語修飾、主語補充、謂詞、謂詞修飾、謂詞補充、賓語、賓語修飾、賓語補充、插入語;並且所述的子句句法成分、有句法結構的插入語的句法成分與主句句法成分相同。
所述步驟A的取任意自然語言的語法概念進行語義遞歸統一編碼方法還包括定語和狀語遞歸為修飾或補充成分進行句法成分編碼;實際為賓語的形式主語作為賓語進行句法成分編碼;需要強調的句子成分均通過在相應成分區加用強調符進行編碼。
所述步驟B的不同自然語言詞彙的語義項內容包括 同義詞、反義詞、語義描述、詞性、上位語義、應用舉例,或者上述內容的某一部分。比如漢語表層符號「好」的語義編碼對象之一包括「同義詞佳、不錯/反義詞壞/語義描述使人滿意的/詞性名詞、形容詞/上位語義評價。舉例表現很好」;其中句子連詞和可插入其他內容的短語採用專用標識進行語義編碼。
所述步驟B的不同自然語言詞彙的語義統一編碼對象中的上位語義是指語義的種屬關係分類。比如漢語表層符號「好」的語義編碼對象之一「同義詞佳、不錯/反義詞壞」和漢語表層符號「壞」的語義編碼對象之一「反義詞好」的上位語義均為評價。
所述步驟B的對不同自然語言常用符號語義項匹配成功者給出一級語義統一編碼還包括對不同自然語言常用符號語義項不能對齊者,在缺少對應符號方用常用符號以句子形式進行語義描述,以實現不同語言常用詞彙語義的強制性對齊。
所述步驟C的擴展統一編碼模板內容至少包括縱向坐標為近義程度+1、近義程度+2、近義程度-1、近義程度-2,橫向坐標為通用語、書面語、口語、俚語、專用語、成語。
所述步驟C的取各自語言其它詞彙符號,通過添入語義擴展統一編碼模板的位置獲得二級語義統一編碼還包括語義相同、詞性不同的符號,保留符號原形並給出詞性標註,對「特指」、「特用」詞彙符號後面所用詞語,必須是已獲得語義項統一編碼的詞彙符號;並且對多義詞不同義項,分別進行語義二級編碼。
所述步驟C的取各自語言其它詞彙符號,通過添入擴展統一編碼模板的位置獲得二級語義統一編碼結果是指在一級編碼結果後加上二級編碼結果。或者再加上「特指....」的一、二級語義編碼結果。
比如,漢語詞彙符號「佳」的二級語義編碼結果之一為在一級編碼對象(同義詞佳/不錯/;反義詞壞;釋義使人滿意的)的編碼結果基礎上,加上語體坐標「書面語」的編碼結果。
所述步驟D中取各種自然語言其它非常用詞彙符號的三級語義擴展統一編碼結果是指,由三級語義統一編碼結果加上描述其語義的一、二級統一編碼,或者再加上「舅父」的語義擴展統一編碼結果,再加上「特指....」的一、二級語義編碼結果構成。
具體實施例方式
下面結合實施例和附圖進一步說明本發明的技術方案
圖1是詞彙符號一級語義統一編碼及擴展統一編碼示意2是詞彙符號三級語義統一編碼及擴展統一編碼示意3是句法成分統一編碼模板示意圖實施例1參見圖1,所述步驟B的實施例如圖1所示,漢語符號「好」的語義項之一「使人滿意的」和英語符號」good」的語義項之一Having the right qualities的語義統一編碼結果為A3/a1。
漢語詞彙符號「地道」的語義項之一的二級語義統一編碼結果由一級統一編碼結果與擴展統一編碼結果相加,為A3B1/B3b3.n.adj。
英語符號nice的語義項之一的二級語義統一編碼結果由一級統一編碼結果與擴展統一編碼結果相加,為A3a1/B1b1.n.adj。
實施例2所述步驟B、C的實施例如果漢語符號「座」是常用符號,其語義項之一「量詞,專用於較大的固定物體」在英語中沒有語義對應符號,則用英語的常用詞彙及先觀語義項進行語義描述「quantifier/of large and solid thing」,以實現不同語言常用符號語義的強制性對齊。
實施例3參見圖2,
所述步驟D的實施例漢語符號「舅父」的三級語義統一編碼結果由「叔叔」的三級語義統一編碼結果加上描述其語義的一、二級統一編碼,再加上「舅父」的擴展統一編碼結果,為C11c21(描述其語義的一、二級統一編碼)B2b1.n,再加上 「特指....」的一級語義編碼結果構成。
實施例4所述步驟E的實施例漢語固定搭配短語「綠竹依依」的語義描述結果「形容竹子的美態」的語義統一編碼,由已進行一二級語義統一編碼的詞彙加義項以及通用語法進行語義描述。
實施例5參見圖3,設主句統一編碼為#A、子句統一編碼為#B、主語統一編碼為*1-1、主語修飾統一編碼為*1-2、主語補充統一編碼為*1-3、謂詞統一編碼為*2-1、謂詞修飾統一編碼為*2-2、謂詞補充統一編碼為*2-3、賓語統一編碼為*3-1、賓語修飾統一編碼為*3-2、賓語補充統一編碼為*3-3。
漢語例句「我昨天好不容易才弄到了誰也弄不到的那張光碟。」的整句語義統一編碼結果為#A*1-1(漢字符號「我」的語義項統一編碼結果)/#A*2-2(漢字符號「好不容易」、「才」的語義項統一編碼結果)/#A*2-1(漢字符號「弄到」的語義項統一編碼結果、漢字符號「了」的「過去時態」統一編碼結果)/#A*2-3(漢字符號「昨天」的語義項統一編碼結果)/#A*3-2#B*1-1(漢字符號「誰」的語義項統一編碼結果)/#A*3-2#B*2-2(漢字符號「也」的語義項統一編碼結果)/#A*3-2#B*2-1(漢字符號「不能、得到」的語義項統一編碼結果)/#A*3-2(漢字符號「那」的語義項統一編碼結果)/#A*3-1(漢字符號「光碟」的語義項統一編碼結果)。
實施例6參見圖3,所述步驟A的實施例如果上述漢語例句改為「誰也弄不到的那張光碟我昨天好不容易弄到了。」則在賓語區加用強調符(!)的統一編碼。
實施例7所述步驟G的實施例漢語句子「你有吃飯嗎?」的實際語義是「你已經吃過飯了嗎?」。如果漢語符號「有」的已進行統一編碼義項中沒有「時態已經」,則用戶則調用已進行語義統一編碼的詞彙符號「時態已經」進行語義描述,以獲得語義統一編碼。
實施例8所述步驟F中詞彙語義統一編碼詞典的實施例漢語表層符號好(Unicode編碼)義項1同義詞佳、不錯/反義詞壞/語義描述使人滿意的/詞性/上位語義(語義統一編碼)義項2同義詞讚許、同意....../詞性/上位語義(語義統一編碼)義項3同義詞友愛、和睦....../詞性/上位語義(語義統一編碼)義項4同義詞容易......./詞性/上位語義(語義統一編碼)義項5同義詞非常、相當....../詞性/上位語義(語義統一編碼)實施例9所述步驟C的句子之間的連詞,如「既然你不喜歡我,那麼我也不喜歡你」中的句子連詞「既然......那麼」,用專用符號進行語義信息統一編碼;如*{既然}你不喜歡我,*{那麼}我也不喜歡你。
實施例10所述步驟C的可插入其他符號的短語,如「在我們遇到的所有問題中,」的可插入其他符號的固定搭配短語「在......中」,在獲得語義項統一編碼後,用專用符號進行語義信息統一編碼。如「*[在→我們遇到的所有問題←中]*」。
發明意義本發明的意義在於1、利用自然語言符號語義約定的遞歸、循環規律,可用兩為數以內的不同符號的組合結果,實現對任意自然語言文本的語義信息統一編碼。
2、用戶可以通過自己熟悉的任意自然語言進行人機互動,利用計算機技術實現對任意自然語言文本的語義信息統一編碼。
3、對任意自然語言文本的語義信息統一編碼結果,可利用計算機技術自動轉換為與原文語義相同的各種其他自然語言文本和譯文語義約定結果,從而實現保證語義信息傳遞質量的多語通用機器翻譯。
4、自然語言語義信息統一編碼技術對各種基於計算機技術的自然語言信息處理,比如知識傳播、合同籤訂、語言教學、文本檢索、文本分類、自動文摘技術的發展,都可起到十分重要的推動作用。
權利要求
1.一種自然語言語義信息統一編碼方法,其特徵在於A、取任意自然語言的語法概念遞歸集進行語法信息統一編碼;B、對各種自然語言常用詞彙符號的語義項,用其他常用符號以句子形式進行語義描述,對多義符號的不同義項,分別進行語義描述,並根據常用詞彙符號語義項的描述結果,對不同語言語義項匹配成功者給出一級語義統一編碼;C、建立語義擴展統一編碼模板,取各種自然語言非常用詞彙符號,通過添入擴展統一編碼模板的位置獲得二級語義統一編碼,並且特指對象、特用於某種情況的詞彙符號加上特指、特用對象描述。D、凡是不能添入一級語義編碼語義擴展統一編碼模板的自然語言其他詞彙符號及符號語義項,或用已進行一、二級語義編碼的詞彙符號及相關語義項以句子形式進行語義描述,或通過添入三級編碼語義擴展編碼模板,以獲得三級語義編碼;E、對固定搭配短語、固定搭配句子,用已進行一、二級語義編碼的詞彙符號及相關語義項加語法概念交集進行語義描述,實現四級語義統一編碼。F、用不同自然語言的詞彙符號調用該詞符號的所有已獲得語義統一編碼的語義項,自動生成不同語言的語法統一編碼詞典、詞彙語義統一編碼詞典、固定搭配短語、固定搭配句子統一編碼辭典。G、任意自然語言用戶自主新增詞彙符號或對已有符號新加語義項,均通過調用語法統一編碼詞典、詞彙語義統一編碼詞典、固定搭配短語、固定搭配句子統一編碼辭典的符號及相關語義項進行語義描述,獲得語義統一編碼。
2.根據權利要求1所述的方法,其特徵在於,所述步驟C的語義擴展統一編碼模板內容至少包括縱向坐標為近義程度+1、近義程度+2、近義程度-1、近義程度-2,橫向坐標為通用語、書面語、口語、俚語、專用語、成語。
3.根據權利要求1所述的方法,其特徵在於,所述步驟A的取任意自然語言的語法概念遞歸集進行統一編碼方法還包括所述的編碼對象包括語法詞彙、詞彙變形、詞彙排序等各種形式表達的語法概念;所述的語法概念遞歸集至少包括句法成分、時態、語態、語體;所述的語法概念遞歸集句法成分至少包括主句、子句、主語、主語修飾、主語補充、謂詞、謂詞修飾、謂詞補充、賓語、賓語修飾、賓語補充、插入語;並且所述的子句句法成分、有句法結構的插入語的句法成分與主句句法成分結構相同。
4.根據權利要求1所述的方法,其特徵在於,所述步驟A的取任意自然語言的語法概念遞歸集進行統一編碼方法還包括定語和狀語遞歸為修飾或補充成分進行句法成分編碼;實際為賓語的形式主語作為賓語進行句法成分編碼;需要強調的句子成分均通過在相應句子成分成分區加用強調符進行統一編碼。
5.根據權利要求1所述的方法,其特徵在於,所述步驟B的對不同語言詞彙符號語義項匹配成功者給出一級語義統一編碼方法還包括當不同自然語言常用符號的語義項不能對齊時,則在缺少對應符號方用該自然語言常用符號及相關語義項以句子形式進行語義描述,以保證各種自然語言常用詞彙符號的語義項對齊,並獲得相同的語義統一編碼。
6.根據權利要求1所述的方法,其特徵在於,所述步驟B的語義項內容包括同義詞、反義詞、語義描述、詞性、上位語義、應用舉例;並且是上述內容的某一部分。
7.根據權利要求1所述的方法,其特徵在於,所述步驟C的取各自語言其它詞彙符號,通過添入擴展統一編碼模板的位置獲得二級語義統一編碼的方法還包括語義相同、詞性不同的符號,保留符號原形並給出詞性標註,對「特指」、「特用」詞彙符號後面所用詞語必須是已被語義統一編碼的詞彙符號以及相關語義項。
8.根據權利要求1所述的方法,其特徵在於,所述步驟C的取各種自然語言其它詞彙符號,通過添入擴展統一編碼模板的位置獲得二級語義統一編碼結果,由一級編碼結果、語義擴展編碼結果,「特指....」的一、二級語義編碼結果構成。
9.根據權利要求1所述的方法,其特徵在於,所述步驟D中取各種自然語言其它非常用詞彙符號的三級語義擴展統一編碼結果,由三級語義統一編碼結果、描述其語義的一、二級統一編碼結果、語義擴展統一編碼結果,特指、專用於....」的一、二級語義編碼結果構成。
10.根據權利要求1和2所述的方法,其特徵還在於,對句子連詞和可插入其他內容的短語採用專用標識進行語義編碼。
全文摘要
本發明涉及一種採用自然語言語義約定客觀規律實現各種自然語言語義信息統一編碼的方法。此方法可使用戶通過採用自己熟悉的任意自然語言進行人機互動,實現對任意自然語言文本的語義信息統一編碼。其語義信息統一編碼結果,可利用計算機技術自動轉換為保證語義信息傳遞質量的各種譯文,並且對各種自然語言處理技術,比如知識傳播、合同籤訂、語言教學、文本檢索、自動文摘技術的發展可起到十分重要的推動作用。
文檔編號G06F17/28GK1417707SQ0215370
公開日2003年5月14日 申請日期2002年12月2日 優先權日2002年12月2日
發明者劉莎 申請人:劉莎