一種提高翻譯效率的系統及方法
2023-06-14 14:55:16
專利名稱:一種提高翻譯效率的系統及方法
技術領域:
本發明涉及一種提高翻譯效率的系統及方法。
背景技術:
隨著國際化趨勢的日益加劇,國際間交流越來越頻繁,有大量的文件需要翻譯,翻譯量越來越大,需要大量的人力和時間。尤其是其中大量存在、頻繁出現的地名、人名、數字、長度、重量等變量信息,極易出現翻譯錯誤,而且不容易校對出來。如何實現翻譯的自動化,以降低人力的消耗,減小翻譯人員的工作量,同時提高翻譯的質量,是一個急待解決的問題。
發明內容
為了降低人力的消耗,減小翻譯人員的工作量,本發明提供一種提高翻譯效率的系統。
本發明的技術方案如下本發明提供一種提高翻譯效率的系統,包括變量信息識別資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊。
變量信息識別資料庫中包含有用於變量識別的數據記錄;變量規則資料庫包含有大量帶有變量信息的句子的譯文和翻譯規則;雙語對照資料庫中包含有大量信息的雙語對照數據記錄;變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,若譯句不存在,提示譯句不存在並結束對該句的翻譯(可改由人工翻譯後再繼續後續步驟),若譯句存在,則輸出變量信息替換成定義的格式的譯句並進行後邊的步驟;變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;結果輸出模塊輸出完整的譯句。
所述的變量是指表示常用信息的符號,比如表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的符號。相應的,所述的變量信息識別資料庫中包含的用於變量識別的數據記錄,是指表示常用信息,比如地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息,的數據記錄。
所述的變量規則資料庫包含有大量帶有變量信息的句子的譯文,是指經過對已經翻譯過的雙語對的綜合分析,找到其中的共同點,然後將可變部分進行類型替換而形成規則記錄。變量規則資料庫中的主要欄位有原文格式化信息,譯文格式化信息。
所述的雙語對照資料庫中包含有大量信息的雙語對照數據記錄,是指用於翻譯時使用的電子詞典,詞典中含有大部分常用單詞及其詞義。
所述的變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,是指將待識別內容放到識別資料庫中去比較,找出待識別內容中包含的在識別資料庫中存在的所有類型,按照出現的前後順序進行排列。被識別為變量的原始內容稱為原始變量。
所述的格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,是指根據識別模塊輸出的變量信息列表對待識別內容進行格式化,生成一條與待識別內容相對應的格式化信息。
所述的格式化信息,是指保留識別模塊未識別的內容,將已經識別出來的內容按照種類和順序進行排列而成的與待識別內容相似的內容。
所述的對比模塊將變量信息替換成定義的格式的句子,格式化模塊輸出的變量信息替換成定義的格式的句子(格式化原文)在變量規則資料庫中進行比對,輸出變量信息替換成定義的格式的譯句(格式化譯文),是指將格式化模塊輸出的格式化信息到變量規則資料庫中進行查找,找到與格式化信息完全一樣的記錄,得到這條記錄的譯文格式化信息。若在資料庫中不存在對應的規則記錄,則提示譯文不存在並放棄對該句的翻譯。
所述的變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,是指分析對比模塊輸出的譯文格式化信息中的變量,按照種類和順序替換為待識別內容中的對應種類和順序的原始變量。替換後的內容為準譯句。
所述的翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,是指對準譯句中的變量進行翻譯,然後將翻譯的結果替換回去。
本發明還提供使用上述提高翻譯效率的系統的方法,包括步驟如下(1)變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;(2)格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;(3)對比模塊將變量信息替換成定義的格式的句子拼接模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,找到與格式化信息相同的規則記錄,得到這條記錄的譯文格式化信息並繼續後邊的步驟,若資料庫中不存在匹配的規則記錄,則提示譯文不存在,放棄對該句的翻譯(可改由人工翻譯後再繼續後續步驟);(4)變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;(5)翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;(6)結果輸出模塊輸出完整的譯句。
本發明實現的效果如下利用本發明提供的提高翻譯效率的系統,可以實現翻譯的自動化,尤其是文檔中大量存在的常用變量的自動化翻譯,可以降低人力的消耗,減小翻譯人員的工作量,同時保證了翻譯的質量。
採用本發明提供的提高翻譯效率的系統,通過將待譯句子進行轉換後格式化句,提高了待譯句子在變量規則資料庫中匹配到相應記錄的機率,並同時對待譯句按照既定的規則進行了語序調整,再對其中發生變化的變量進行簡單的翻譯即可,從而提高了翻譯效率。
附圖1提高翻譯效率的系統結構示意圖;附圖2提高翻譯效率的方法流程示意圖;附圖3提高翻譯效率的方法流程框圖;附圖4實施例示例用文檔;附圖5變量識別模塊輸出的變量信息定義列表;附圖6格式化模塊輸出的變量信息替換成定義的格式的句子;附圖7對比模塊得到的譯文格式化信息;附圖8變量替換模塊替換後的信息;附圖9翻譯模塊對變量進行翻譯後的信息;附圖10結果輸出模塊輸出的譯句。
具體實施例方式
本實施例提供一種提高翻譯效率的系統,如圖1所示,包括變量信息資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊。
變量信息識別資料庫中包含有用於變量識別的數據記錄;變量規則資料庫包含有大量帶有變量信息的句子的譯文和翻譯規則;雙語對照資料庫中包含有大量信息的雙語對照數據記錄;變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,得到這條記錄的譯文格式化信息並繼續後邊的步驟,若資料庫中不存在匹配的規則記錄,則提示譯文不存在,放棄對該句的翻譯(可改由人工翻譯後再繼續後續步驟);變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;結果輸出模塊輸出完整的譯句。
所述的變量是指表示常用信息的符號,比如表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的符號。相應的,所述的變量信息識別資料庫中包含的用於變量識別的數據記錄,是指表示常用信息,比如地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息,的數據記錄。
所述的變量規則資料庫包含有大量帶有變量信息的句子的譯文,是指經過對已經翻譯過的雙語對的綜合分析,找到其中的共同點,然後將可變部分進行類型替換而形成規則記錄。變量規則資料庫中的主要欄位有原文格式化信息,譯文格式化信息。
所述的雙語對照資料庫中包含有大量信息的雙語對照數據記錄,是指用於翻譯時使用的電子詞典,詞典中含有大部分常用單詞及其詞義。
所述的變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,是指將待識別內容放到識別資料庫中去比較,找出待識別內容中包含的在識別資料庫中存在的所有類型,按照出現的前後順序進行排列。被識別為變量的原始內容稱為原始變量。
所述的格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,是指根據識別模塊輸出的變量信息列表對待識別內容進行格式化,生成一條與待識別內容相對應的格式化信息。
所述的格式化信息,是指保留識別模塊未識別的內容,將已經識別出來的內容按照種類和順序進行排列而成的與待識別內容相似的內容。
所述的對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,輸出變量信息替換成定義的格式的譯句,是指將格式化模塊輸出的格式化信息到變量規則資料庫中進行查找,找到與格式化信息完全一樣的記錄,得到這條記錄的譯文格式化信息。
所述的變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,是指分析對比模塊輸出的譯文格式化信息中的變量,按照種類和順序替換為待識別內容中的對應種類和順序的原始變量。替換後的內容為準譯句。
所述的翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,是指對準譯句中的變量進行翻譯,然後將翻譯的結果替換回去。
以圖4所示文檔為例,本實施例使用上述提高翻譯效率的系統的優選方法,如圖2和圖3所示,包括步驟如下(1)變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,如圖5所示。
13901234567、[email protected]為原始變量;TEL1、EMAIL1為種類,後面的1為順序號。
(2)格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,如圖6所示;(3)對比模塊將變量信息替換成定義的格式的句子拼接模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,找到與格式化信息相同的規則記錄,得到這條記錄的譯文格式化信息,如圖7所示;(4)變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,如圖8所示;(5)翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,即翻譯[]中的兩處信息,如圖9所示;(6)結果輸出模塊輸出完整的譯句,如圖10所示。
應當指出,以上所述具體實施方式
可以使本領域的技術人員更全面地理解本發明,但不以任何方式限制本發明。因此,儘管本說明書參照附圖和實施例對本發明已進行了詳細的說明,但是,本領域技術人員應當理解,仍然可以對本發明進行修改或者等同替換;而一切不脫離本發明的精神和範圍的技術方案及其改進,其均應涵蓋在本發明專利的保護範圍當中。
權利要求
1.一種提高翻譯效率的系統,包括變量信息識別資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊,其中,變量信息識別資料庫中包含有用於變量識別的數據記錄;變量規則資料庫包含有大量帶有變量信息的句子及其譯文和翻譯規則;雙語對照資料庫中包含有大量信息的雙語對照數據記錄;變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,若匹配的規則不存在,提示譯句不存在,若匹配的規則存在,則輸出變量信息替換成定義的格式的譯句;變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;結果輸出模塊輸出完整的譯句。
2.根據權利要求1所述提高翻譯效率的系統,其特徵在於,所述的變量是指表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的符號;所述的變量信息識別資料庫中包含的用於變量識別的數據記錄,是指表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的數據記錄。
3.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的變量規則資料庫包含有大量帶有變量信息的句子的譯文,是指經過對已經翻譯過的雙語對的綜合分析,找到其中的共同點,然後將可變部分進行類型替換而形成規則記錄。
4.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的雙語對照資料庫中包含有大量信息的雙語對照數據記錄,是指用於翻譯時使用的電子詞典,詞典中含有大部分常用單詞及其詞義。
5.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,是指將待識別內容放到識別資料庫中去比較,找出待識別內容中包含的在識別資料庫中存在的所有類型,按照出現的前後順序進行排列。
6.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,是指根據識別模塊輸出的變量信息列表對待識別內容進行格式化,生成一條與待識別內容相對應的格式化信息。
7.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的格式化信息,是指保留識別模塊未識別的內容,將已經識別出來的內容按照種類和順序進行排列而成的與待識別內容相似的內容。
8.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,輸出變量信息替換成定義的格式的譯句,是指將格式化模塊輸出的格式化信息到變量規則資料庫中進行查找,找到與格式化信息完全一樣的記錄,得到這條記錄的譯文格式化信息。
9.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,是指分析對比模塊輸出的譯文格式化信息中的變量,按照種類和順序替換為待識別內容中的對應種類和順序的原始變量。替換後的內容為準譯句。
10.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,是指對準譯句中的變量進行翻譯,然後將翻譯的結果替換回去。
11.使用權利要求1-10任意一項所述提高翻譯效率的系統的方法,包括步驟如下(1)變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;(2)格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;(3)對比模塊將變量信息替換成定義的格式的句子拼接模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,找到與格式化信息相同的規則記錄,得到這條記錄的譯文格式化信息並繼續後邊的步驟,若資料庫中不存在匹配的規則記錄,則提示譯文不存在,放棄對該句的翻譯;(4)變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;(5)翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;(6)結果輸出模塊輸出完整的譯句。
全文摘要
本發明涉及一種提高翻譯效率的系統及方法。本發明提供一種提高翻譯效率的系統,包括變量信息識別資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊,本發明還提供使用上述提高翻譯效率的系統的方法。利用本發明提供的提高翻譯效率的系統,可以實現翻譯的自動化,尤其是文檔中大量存在的常用變量的自動化翻譯。
文檔編號G06F17/30GK101034394SQ20071008668
公開日2007年9月12日 申請日期2007年3月30日 優先權日2007年3月30日
發明者何戰濤 申請人:傳神聯合(北京)信息技術有限公司