用於形成機器翻譯的語義單元及其表示庫的方法及其系統的製作方法
2023-05-10 04:07:36 4
專利名稱:用於形成機器翻譯的語義單元及其表示庫的方法及其系統的製作方法
技術領域:
本發明涉及機器翻譯,更具體的,涉及基於語義的機器翻譯的語義單 元及其表示庫的形成方法和系統。
背景技術:
隨著世界交流的劇增,利用計算機技術在不同自然語言之間進行自動 翻譯成為非常重要的問題。但是由於自然語言的多樣性及多語種之間存在 複雜的對應關係,現有的機器翻譯的準確率較低、通順度較差,經常存在 語無倫次、正錯混雜的情況,使數以萬計人工翻譯公司無法使用。
而機器翻譯中的語義單元及其表示庫的質量直接關係到機器翻譯的譯 文的質量。現有的方法提取出的語義單元及其表示庫存在不必要的臃腫及 歧義的語義單元及其表示的問題,致使機器翻譯的譯文也出現語無倫次的 質量問題。
發明內容
針對現有技術存在的問題,本發明提供了 一種用於形成基於語義語言 的自然語言機器翻譯的語義單元及其表示庫的方法和系統。
根據本發明的一個方面,提供了 一種形成用於基於語義語言的自然語
言機器翻譯的語義單元及其表示庫的方法,包括提取指定受限領域的語 義單元及其雙語或者多語語義單元及其表示;創建所述指定受限領域的語 義單元及其表示子庫;以及將所述多個指定受限領域的語義單元及其表示 子庫合併到原來的語義單元及其表示庫,從而形成新的無重複、無可棄、 無非正常歧義的語義單元及其表示庫。
根據本發明的另一方面,提供了一種用於形成基於語義語言的自然語
4言機器翻譯的語義單元及其表示庫的系統,包括用於提取指定受限領域 的語義單元及其雙語或者多語語義單元及其表示的裝置;用於創建所述指 定受限領域的語義單元及其表示子庫的裝置;以及用於將所述多個指定受 限領域的語義單元及其表示子庫合併到原來的語義單元及其表示庫,以形 成新的語義單元及其表示庫的裝置。
通過參考附圖對本方面的實施例進行詳細描述,本發明的優點和特點 將顯而易見,其中
圖1為根據本發明的實施例的用於形成基於語義的機器翻譯的語義單 元及其表示庫的方法的流程圖2A和2B為根據本發明的實施例的指定受P艮領域的語義單元及其表 示庫中記載語義單元及其表示的數據表的示例,其中圖2A為提取的經過 加注處理的語義單元及其表示庫中記載語義單元及其表示的示例,而圖2B 為還經過去可棄化和去重複處理的記載語義單元及其表示的示例;
圖3為根據本發明的實施例的形成新的語義單元及其表示庫的步驟的 流程圖;以及
圖4為根據本發明的實施例的用於形成基於語義的機器翻譯的語義單 元及其表示庫的系統的示意圖。
具體實施例方式
下面結合附圖,來對本發明的實施例進行詳細描述。
為了清楚的描述本發明的概念,首先對本發明涉及的術語和概念進行
語義單元在自然語言中,表達一個意思的單元稱為語義單元,如"工 程師"。
語義單元及其表示在任何一種具體的自然語言中的表達一個意思的 單元(語義單元)稱為該語義單元在該具體自然語言中的語義單元及其表示。例如工程師的漢語表示為"工程師,,,英語表示為"engineer"。
句義具體的自然語言的一個句子的意義,稱為句義。例如"我是學
生,,。句義由語義單元組成,例如,"我是學生"由"我,,、"學生"、 "是職稱(〈N[人〉,〈N[職稱〉)"這幾個語義單元組成。而〈N[人〉、〈N[職
稱> 分別是有關人的名詞和有關職稱的名詞,它們是兩個參數,需要被替
換為與該參數類型相同的語義單元。
句義表達式句義可以用將參數全部替換的複合語義單元來表達,即
是職稱(, ),其中, 分別是語義單元及其表示"我"
和"學生"對應的語義單元。
語義語言由全部的語義單元組成, 一個具體的自然語言可以看作語義
語言的一個表示。
可棄語義單元可以由其它語義單元通過代入形成的語義單元,例如 上面的是職稱(, )。與其相對的非可棄語義單元為基本語義單 元。
歧義指不同語義單元在某個自然語言上具有相同的語義單元及其表 示。歧義包括真歧義和非正常歧義,非正常歧義指本來不是真歧義,而是 加上場所、領域、情景或者類型標註後就變為非歧義。因此,對於非正常 歧義必須加上領域標註以使其為非歧義。
圖1為根據本發明的實施例的用於形成基於語義的機器翻譯的語義單 元及其表示庫的方法的流程圖。如圖1所示,首先在步驟S100,對指定受 限領域的雙語或者多語的句子或者術語進行提取,得到多個語義單元及其 雙語或者多語語義單元及其表示。在該步驟中,要基於指定的受限場所、 領域、情景或者類型,提取完備的確定內容的語義單元及其雙語或者多語 表示,具體可以操作如下
*在指定的受限場所、領域、情景或者類型中,逐句處理雙語或者多 語句子。
*提取該句儘量多的語義單元及其雙語或者多語表示。 *驗證該句所提取的語義單元及其表示是否完備。
6*如果不完備繼續提取該句的語義單元及其表示。
在進行語義單元及其表示庫的形成過程中,可以採取各種本領域熟知 的方法將雙語或多語的句子或者術語輸入到計算機中,為簡單起見,這裡 不對輸入過程做詳細描述。
下面結合圖2A和2B來對語義單元及其表示庫的形成過程進行詳細描 述。首先指定受限領域(例如走遍美國中的一個情景),並以句子為單位 進行提取處理。例如,如圖2A所示,對"This notebook is Tom's.(這筆 記本是湯姆的。)"進行處理,根據語義單元及其表示庫,對該句進行語 義分析,提取出儘可能多的語義單元及其表示,在此是4個語義單元及其 表示,即"1 (〈N〉[物],[人所有),,、"2([物),,、"3"(其對應 英語語義單元及其表示"notebook")和"4"(其對應英語語義單元及其 表示"Tom's"),並對其進行加注受限領域處理,通常情況下這些受限 領域不出現在語義單元及其表示庫中,僅僅當發生非正常歧義時,才作為 區分標誌出現在語義單元及其表示庫中。在表示庫中的所有的語義單元及 其表示都是有類型的,例如,"notebook"的類型是"〈N〉[物"、"Tom's" 的類型是"[人所有"。
還可以對"That book is Peter's.(那書是彼得的。)"、"This book is not mine.(這書不是我的。),,、"Tom is a doctor.(湯姆是醫生。)" 和"This mine is a gold mine.(這礦是金礦。)"均按照上述原理進行提 取語義單元及其表示並進行加注處理,得到如圖2A所示的20個語義單元。
然後驗證該句是否將語義單元及其表示提取完備,如果沒有提取完, 則繼續進行提取處理,直到該句中全部語義單元及其表示都提取完畢;如 果已經提取完,則接下來對該句產生的語義單元及其表示進行處理,消去 該句全部可棄語義單元及其表示,這樣就只留下了基本語義單元及其表示。 在該過程中,驗證該句所提取的語義單元及其表示是否完備是通過一個反 向的過程來實現,即將這些語義單元的表示代入來檢驗是否可以形成該句 子,如果是,則說明提取的語義單元及其表示是完備的。
在本發明的實施例中,還可以進行非正常處理。例如,當出現不同語義單元對某個自然語言具有相同的語義單元及其表示時,可以採用對該語 義單元進行加注場所、領域、情境或類型的區分標誌,從而消除非正常歧 義的可能性,因此可以得到更完善的語義單元及其表示庫。
當全部句子和術語處理完成後,在步驟S110,可以創建指定受限領域
的語義單元及其表示子庫。在該形成子庫的步驟中,需要對得到的子庫進 行消去全部可棄的語義單元及其表示和消去全部重複的語義單元及其表示
的處理,具體可以如下操作
*逐句消去句中全部重複的語義單元及其表示。
*逐句消去句中全部可棄的語義單元及其表示。
*通過排序然後消去子庫中全部重複的語義單元及其表示和全部可 棄語義單元及其表示。
這樣可以獲得指定受限領域的完備的、無重複的、無可棄的語義單元 及其表示子庫。本領域技術人員可以理解,該完備是相對而言,指定受限 領域的語義單元及其表示子庫的語義單元及其表示越提取得完備,則就會 更好的消除歧義等語無倫次、正錯交雜的情況。
如圖2B所示,對圖2A所示的數據進行上述處理,即經過去重複處理 去掉2個語義單元 "1 ([物,[人所有)"中的一個、去掉3個語 義單元"2(," 中的兩個、去掉2個語義單元"3"(即"book") 中的一個。然後,再對非正常歧義的語義單元進行處理(即加進行注場所、 領域、情境或類型的區分標誌的操作),例如對於"mine",其受限領 域分別為"日常生活"和"礦",類型分別為'、NH人所有]"和"[物]")。 處理後的16個語義單元如圖2B所示。
應該理解,創建的語義單元及其表示子庫為記錄語義單元知識的數據 庫,其可以具有多種變化,而不限於圖2A和2B所示的形式。
經過與上述類似的操作,可以創建多個不同的指定受限領域的語義單 元及其表示的完備的、無重複的、無可棄子庫。
下面返回圖l所示的用於形成基於語義的機器翻譯的語義單元及其表 示庫的方法的流程圖。接下來,在步驟S120,將得到的多個指定的受限領
8域的完備的、無重複、無可棄的語義單元及其表示子庫合併到原來的語義 單元及其表示庫中,以形成新的語義單元及其表示庫。
在該步驟中,要對合併了多個受限領域的語義單元及其表示子庫的新 的語義單元及其表示庫,進行與上述去重複、去可棄、和去非正常歧義處 理類似的處理,得到一個完備的、無重複、無可棄、無非正常歧義的語義
單元及其表示庫。同樣,這裡的"完備"AA相對而言的,其可以經過足 夠多的提取過程而近似達到。這樣,可以逐步形成增加場所、領域和情境 以及確定內容範圍的雙語或者多語的語義單元及其表示庫,下面將詳細描 述。
圖3為根據本發明的實施例的形成新的語義單元及其表示庫的步驟的 流程圖。如圖3所示,在步驟S310,原來的語義單元及其表示庫對受限領 域的語義單元及其表示子庫進行合併,並且進行去重複處理。
在步驟S320,對該庫中的語義單元及其表示進行去去可棄處理,從而 得到基本語義單元及其表示。
在步驟S330,檢測是否需要進行非正常歧義處理,如果是,則對語義 單元及其表示加注場所、領域或情境等區分標誌,將非正常歧義正確化。
在步驟S340,判斷受限領域語義單元及其表示子庫是否為空,如果是, 則形成新的完備的、無可棄的、無重複的、無非正常歧義的語義單元及其 表示庫,如果否,則繼續進行合併,直到形成包括全部指定的受限領域的 語義單元及其表示子庫的新的語義單元及其表示庫。
可以根據該新的語義單元及其表示庫,對原文進行語義分析和語 開,並且輸出譯文。該過程在與本發明為同一申請人的授權公告日為2005 年11月9日的中國專利ZL.01131689.6中有詳細描述,現將其內容結合在 此作為參考,這裡不再贅述。
在本發明的實施例中,通過使用具有受P艮領域的語義單元及其表示庫, 可以克服譯文中可能存在的歧義甚至錯誤的情況,提高了翻譯的準確率。
在同一個發明構思下,圖4示出了才艮據本發明的另外的實施例的用於 形成基於語義的機器翻譯的語義單元及其表示庫的系統的示意圖。如圖4所示,語義單元及其表示庫形成系統40包括輸入裝置401、提取裝置402、 子庫創建裝置403、合併裝置404以及存儲裝置405,其中提取裝置402 用於對從輸入裝置401輸入的指定受限領域的雙語或多語句子或術語進行 提取,以獲得語義單元及其表示,可選擇的,提取裝置402也可以對存儲 在系統中的指定受限領域的雙語或多語句子或術語進行提取;子庫創建裝 置403根據提取裝置402的結果來創建指定受限領域的語義單元及其表示 子庫;合併裝置404用於將多個指定受P艮領域的語義單元及其表示子庫合 併到原來的語義單元及其表示庫,以形成新的語義單元及其表示庫並將其 存儲在存儲裝置405中。
在本發明的實施例中,提取裝置402被配置來逐句提取指定場所或者 領域或者情景的指定受限領域的確定內容的語義單元及其雙語或者多語表 示,並可以將其存儲在存儲裝置405中。
提取裝置402進一步包括用於控制來逐句注釋句子的裝置和用於提取 該句語義單元及其雙語或者多語表示的裝置。
在本發明的實施例中,子庫創建裝置403 4皮配置來對提取的語義單元 及其表示進行去重複和去可棄處理,以形成雙語或者多語語義單元及其表 示子庫,並可以將該子庫存儲在存儲裝置405中。
子庫創建裝置403進一步包括用於逐句消去句中可棄的語義單元及
其表示的裝置;用於逐句消去句中重複的語義單元及其表示的裝置;以及
用於消去所述子庫中可棄的語義單元及其表示和重複的語義單元及其表示 的裝置。
合併裝置404被配置來對多個受限領域的語義單元及其表示子庫進行 合併以形成新的語義單元及其表示庫,其還被配置來進行去重複、去可棄、 和去非正常歧義處理。
本實施例的語義單元及其表示庫形成系統40在操作上實現圖1所示的 實施例的用於形成基於語義的機器翻譯的語義單元及其表示庫的方法。
本領域技術人員可以理解,上述語義單元及其表示庫形成系統及其組 件可以由諸如超大M^莫集成電路或門陣列、諸如邏輯晶片、電晶體等的半
10導體、或者諸如現場可編程門陣列、可編程邏輯設備等的可編程硬體設備 的硬體電路實現,也可以用由各種類型的處理器執行的軟體實現,也可以 由上述硬體電路和軟體的結合實現。
雖然以上結合具體實施方式
對本發明的形成用於基於語義語言的自然 語言機器翻譯的語義單元及其表示庫的方法及其系統進行了詳細描述,但 本發明並不限於此,在不脫離本發明的範圍的情況下,可以對本發明進行 多種變換、替換和修改。
權利要求
1. 一種用於形成基於語義語言的自然語言機器翻譯的語義單元及其表示庫的方法,包括提取指定受限領域的語義單元及其雙語或者多語語義單元及其表示;創建所述指定受限領域的語義單元及其表示子庫;以及將所述多個指定受限領域的語義單元及其表示子庫合併到原來的語義單元及其表示庫,從而形成新的語義單元及其表示庫。
2. 根據權利要求l的形成語義單元及其表示庫的方法,其中 所述的提取語義單元及其雙語或者多語語義單元及其表示包括提取指定場所或者領域或者情景的指定受限領域確定內容的語義單元及其雙語或 者多語表示;所述的創建語義單元及其表示子庫包括對所述語義單元及其表示進行 去重複和去可棄處理,以形成雙語或者多語語義單元及其表示子庫。
3. 根據權利要求2的形成語義單元及其表示庫的方法,其中所述的提 取指定受限領域的確定內容的語義單元及其雙語或者多語表示步驟進一步 包括控制逐句來注釋句子;以及提取該句語義單元及其雙語或者多語表示。
4. 根據權利要求2的形成語義單元及其表示庫的方法,其中所述的對 語義單元及其表示進行去重複和去可棄處理的步驟進一步包括逐句消去句中重複的語義單元及其表示; 逐句消去句中可棄的語義單元及其表示;以及 消去所述子庫中重複的語義單元及其表示和可棄語義單元及其表示。
5. 根據權利要求l的形成語義單元及其表示庫的方法,其中還包括 對所述合併了多個受限領域的語義單元及其表示子庫的新的語義單元及其表示庫,進行去重複、去可棄、和去非正常歧義處理。
6. —種用於形成基於語義語言的自然語言機器翻譯的語義單元及其表示庫的系統,包括用於提取指定受P艮領域的語義單元及其雙語或者多語語義單元及其表 示的裝置;用於創建所述指定受限領域的語義單元及其表示子庫的裝置;以及 用於將所述多個指定受P艮領域的語義單元及其表示子庫合併到原來的 語義單元及其表示庫,以形成新的語義單元及其表示庫的裝置。
7. 根據權利要求6所述的系統,其中所述用於提取語義單元及其雙語或者多語語義單元及其表示的裝置被 配置來提取指定場所或者領域或者情景的指定受限領域的確定內容的語義 單元及其雙語或者多語表示;以及所述用於創建語義單元及其表示子庫的裝置被配置來對所述語義單元 及其表示進^f亍去重複和去可棄處理,以形成雙語或者多語語義單元及其表 示子庫。
8. 根據權利要求6所述的系統,其中所述用於提取指定受限領域的確 定內容的語義單元及其雙語或者多語表示的裝置進一步包括用於控制來逐句注釋句子的裝置;以及用於提取該句語義單元及其雙語或者多語表示的裝置。
9. 根據權利要求7的系統,其中所述用於創建語義單元及其表示子庫 的裝置進一步包括用於逐句消去句中重複的語義單元及其表示的裝置; 用於逐句消去句中可棄的語義單元及其表示的裝置;以及 用於消去所述子庫中重複的語義單元及其表示和可棄的語義單元及其 表示的裝置。
10. 根據權利要求6的系統,其中用於合併多個受限領域的語義單元 及其表示子庫以形成新的語義單元及其表示庫的裝置被配置來進行去重 復、去可棄、和去非正常歧義處理。
全文摘要
本發明涉及一種用於形成基於語義語言的自然語言機器翻譯的語義單元及其表示庫的方法和系統。所述方法包括提取指定受限領域的語義單元及其雙語或者多語語義單元及其表示;創建所述指定受限領域的語義單元及其表示子庫;以及將所述多個指定受限領域的語義單元及其表示子庫合併到原來的語義單元及其表示庫,從而形成新的語義單元及其表示庫。通過基於指定的受限領域的語義單元及其表示庫來進行機器翻譯,可以消除歧義,改善譯文的語無倫次、正錯交雜狀況,從而提高譯文的可接受程度。
文檔編號G06F17/28GK101452447SQ200710197070
公開日2009年6月10日 申請日期2007年12月6日 優先權日2007年12月6日
發明者玥 胡, 高小宇, 高慶獅 申請人:北京科技大學