複雜上下文相關處理技術的製作方法
2023-12-02 14:19:16 2
專利名稱:複雜上下文相關處理技術的製作方法
技術領域:
本發明涉及機器翻譯中的複雜上下文相關處理技術,屬於機器翻譯技術領域。
複雜上下文相關處理是解決機器翻譯中多義問題的主要手段。目前,絕大多數機譯系統都迴避了複雜上下文相關處理問題,而涉及上下文相關處理的一些理論,基本上也是無法實現的。
同樣,在基於規則的機器翻譯系統中,也很難處理複雜上下文相關問題。大多數機譯系統只處理複雜相關問題中的最簡單的情況,還有一些系統採用了程序包的方法,通過滾雪球的辦法不斷增加子程序來解決上下文相關問題。但從根本上說,它們並不能滿足複雜上下文相關問題的處理,原因是效率太低,而且就事論事,遇到一種情況就加入一個子程序,給程序維護增加很大難度。另外,在子程序太多時,很難區分不同情況,帶來了程序應用方面的模糊性。
因此,如何實現複雜上下文相關處理,便成為當前國內外機譯研究的重要課題。
本發明的目的旨在提供一種複雜上下文相關處理技術,該技術可將全局問題局部化處理,既提高了區分多義的處理能力,又簡化了複雜上下文相關的處理。
下面首先給出複雜上下文相關定義複雜上下文相關可定義為一個結構成分(或意段)的特徵的選擇與其左部和/或右部某一位置的結構成分(和/或意段)的特性有關,具體可分為以下幾種情況(1)Property(A)-context(L,B) Property(B)成分A的特性與左部特定位置L的成分B的特性相關。
(2)Property(A)-context(XL,B) Property(B)成分A的特性與左部任意位置XL的成分B的特性相關。
(3)Property(A)-context(R,B) Property(B)成分A的特性與右部特定位置R的成分B的特性相關。
(4)Property(A)-context(XR,B) Property(B)成分A的特性與右部任意位置XR的成分B的特性相關。
上述情況中,B的特性只是臨時用來決定A在句子中應表現的特性,而不決定B本身在句子中出現的特性。
本發明是通過如下方法實現的(一)把上述與規則頭部模式和詞條有關的上下文相關信息以函數的形式分別定義在規則和詞條中。
(1)在規則中建立上下文相關函數,規則的形式為頭部-上下文相關函數,右部,轉換體
其中頭部為被歸約成分,右部為當前歸約結果,轉換體對應於該次歸約的轉換體,上下文相關函數為若干個上下文相關函數。
(2)在字典中建立上下文相關函數,字典中每個單詞的形式為入口單詞 特徵集合1 上下文相關函數11 譯文11特徵集合1 上下文相關函數12 譯文12特徵集合2 上下文相關函數21 譯文21(二)上下文相關函數既定義了上下文相關信息,同時它也是嵌入規則和詞條數據中的一種操作。其中,上下文相關信息包含了當前頭部模式(或詞條)在當前歸約結果下與其相關的成分特性及其位置。
在規則中定義了上下文相關信息後,複雜上下文相關問題即可通過在不同規則中調用上下文相關函數來解決。由於不同規則應用時頭部模式不同,而且調用上下文相關函數的參數也不同,因而上下文相關函數在不同時刻執行的效果也就不同,自然就區別了不同情況。
上下文相關函數被執行時,根據調用參數的要求在當前歸約模式中查找所需成分及其特性;若查找範圍還未歸約,則先調用系統翻譯處理機制本身對當前模式中相應內容進行歸約,然後再查找所需成分及其特性,上下文相關條件成立,才對規則頭部進行歸約。
(三)詞條中的上下文相關處理與規則類似。
本發明採用數據與操作一體化的技術,在規則和字典嵌入上下文相關信息及上下文相關操作,使上下文相關處理情況的判定只局限於其所對應的當前模式有關的情況,從而減少了操作的模糊性。這樣就實現了全局問題局部化處理,既提高了區分多義的處理能力,又簡化了複雜上下文相關的處理,有效地解決了複雜上下文相關處理這一難題。
以下結合附圖和發明實例對本發明作詳細描述。
圖1是本發明的算法流程圖;圖2和圖3均為歸約過程中生成的結構樹。
本發明是使用普通計算機實現的,其步驟為一.在規則和字典中嵌入上下文相關信息及上下文相關操作1.在規則中建立上下文相關函數規則的形式為頭部-上下文相關函數,右部,轉換體.
其中頭部為被歸約成分,右部為當前歸約結果,轉換體對應於該次歸約的轉換體。上下文相關函數為若干個函數,函數具體形式如下SEARCH(DIRECTION,RANGE,COMPONENT)其中,SEARCH表示查找相應成分,DIRECTION為L或R,分別表示向左或向右搜索,RANGE為左部或右部的某一特定範圍,表示搜索範圍,COMPONENT為相關成分及其所應具備的特性。
2.在字典中建立上下文相關函數字典中每個單詞的形式為入口單詞 特徵集合1 上下文相關函數11譯文11特徵集合1 上下文相關函數1n譯文1n特徵集合2 上下文相關函數21譯文21單詞可具有不同的特徵集合。在具有相同特徵集但不同的上下文情況下,可能有不同的譯文。
詞條中的上下文相關函數和規則中的上下文相關函數形式完全一樣。
二.對每一條規則,首先進行頭部匹配,若匹配成功,則執行下述算法流程(參見圖1)(1)置當前SEARCH函數下標為0。
(2)當前SEARCH函數下標加1。若該下標對應SEARCH為空,則本次匹配成功結束。否則,轉步驟(3)。
(3)若該SEARCH函數規定的查找範圍已歸約成功,則在此範圍內判定規定的查找成分是否存在;否則執行(4)。
若規定的查找成分存在,則轉(2);否則,本次匹配失敗結束。
(4)若該SEARCH函數規定的查找範圍還未歸約成功,則調用翻譯處理機制對該段進行超前分析,即對該段提前進行歸約。
(5)在超前分析的結果內,判定規定的查找成分是否存在。若該條件測試成功,則轉(2);若該條件測試不成功,本次匹配失敗結束。
三.詞條中的上下文相關處理與規則類似。
下面舉例說明本發明算法的執行過程。
將句子「We know this computer.」和「We call this computer.」翻譯成中文。這兩句中均出現單詞this,但其用法不同。假設現有字典詞條1weNP 「我們」詞條2know VP(V1) 「知道」詞條3call VP(V2) 「稱...為」詞條4this Q 「這」詞條5computer NP(臺) 「計算機」
現有規則規則1Q NP(臺)-Search(L,(1,1),VP(V1)),NP,Q臺NP規則2Q-Search(L,(1,1),VP(V2)),NP,Q.
規則3NP VP(V1) NP-,S,NP VP NP.
規則4NP VP(V2) NP NP-,S,NP VP NP NP其中,V1表示單賓語動詞,V2表示雙賓語動詞,NP表示名詞短語,VP表示動詞短語,Q表示限定詞,S表示句子。
對第一個句子進行如下歸約(1)使用詞條1、2、4、5將句子歸約為NP VP(V1)Q NP(臺).
(2)對於意段Q NP(臺),其左邊為VP(V1),規則1的上下文條件可滿足,因而使用規則1將Q NP(臺)歸約為NP。得到句子歸約結果為NP VP(V1)NP。
(3)使用規則3將NP VP(V1)NP歸約為S。
歸約過程中生成的結構樹如圖2所示。
根據規則1和3以及詞條1、2、4、5,該句的譯文為「我們知道這臺計算機」。
對第二個句子進行如下歸約(1)使用詞條1、3、4、5將句子歸約為NP VP(V2)Q NP(臺).
(2)對於意段Q,其左邊為VP(V2),規則2的上下文條件可滿足,因而使用規則2將Q歸約為NP。得到句子歸約結果為NP VP(V2)NP NP(臺)。
(3)使用規則4將NP VP(V2)NP NP(臺)歸約為S。
歸約過程中生成的結構樹如圖3所示。
根據規則2和4以及詞條1、3、4、5,該句的譯文為「我們稱這為計算機」。
由此可以看出this在不同的上下文環境下其用法也不相同。
權利要求
1.一種使用計算機進行的複雜上下文相關處理技術,其步驟為(一)把與規則頭部模式和詞條有關的上下文相關信息以函數的形式分別定義在規則和詞條中(1)在規則中建立上下文相關函數規則的形式為頭部-上下文相關函數,右部,轉換體其中頭部為被歸約成分,右部為當前歸約結果,轉換體對應於該次歸約的轉換體,上下文相關函數為若干個上下文相關函數,(2)在字典中建立上下文相關函數字典中每個單詞的形式為入口單詞 特徵集合1 上下文相關函數11 譯文11特徵集合1 上下文相關函數12 譯文12特徵集合2 上下文相關函數21 譯文21(二)對每一條規則,首先進行頭部匹配,若匹配成功,則執行句中上下文相關函數,根據上下文相關函數中調用參數的要求在當前歸約模式中查找所需成分及其特性,若查找範圍還未歸約,則先調用系統翻譯處理機制本身對當前模式中相應內容進行歸約,然後再查找所需成分及其特性,上下文相關條件成立,才對規則頭部進行歸約;(三)詞條中的上下文相關處理與規則類似。
全文摘要
本發明技術的步驟為:1.在規則和字典中嵌入上下文相關信息及上下文相關操作,規則的形式為:→,,;字典中每個單詞的形式為:入口單詞,特徵集合,上下文相關函數,譯文;2.對每一條規則,首先進行頭部匹配,若匹配成功,則執行規則中的上下文相關函數,以判定當前頭部模式的上下文相關條件是否成立,若成立才對當前模式中內容進行歸約;3.與規則類似,進行詞條中的上下文相關處理。本發明採用數據與操作一體化的技術,有效地解決了複雜上下文相關處理這一難題。
文檔編號G06F17/28GK1180203SQ9711194
公開日1998年4月29日 申請日期1997年7月2日 優先權日1997年7月2日
發明者陳肇雄 申請人:陳肇雄