新四季網

一種提高翻譯效率的系統及方法

2023-06-14 14:55:16

專利名稱:一種提高翻譯效率的系統及方法
技術領域:
本發明涉及一種提高翻譯效率的系統及方法。
背景技術:
隨著國際化趨勢的日益加劇,國際間交流越來越頻繁,有大量的文件需要翻譯,翻譯量越來越大,需要大量的人力和時間。尤其是其中大量存在、頻繁出現的地名、人名、數字、長度、重量等變量信息,極易出現翻譯錯誤,而且不容易校對出來。如何實現翻譯的自動化,以降低人力的消耗,減小翻譯人員的工作量,同時提高翻譯的質量,是一個急待解決的問題。

發明內容
為了降低人力的消耗,減小翻譯人員的工作量,本發明提供一種提高翻譯效率的系統。
本發明的技術方案如下本發明提供一種提高翻譯效率的系統,包括變量信息識別資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊。
變量信息識別資料庫中包含有用於變量識別的數據記錄;變量規則資料庫包含有大量帶有變量信息的句子的譯文和翻譯規則;雙語對照資料庫中包含有大量信息的雙語對照數據記錄;變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,若譯句不存在,提示譯句不存在並結束對該句的翻譯(可改由人工翻譯後再繼續後續步驟),若譯句存在,則輸出變量信息替換成定義的格式的譯句並進行後邊的步驟;變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;結果輸出模塊輸出完整的譯句。
所述的變量是指表示常用信息的符號,比如表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的符號。相應的,所述的變量信息識別資料庫中包含的用於變量識別的數據記錄,是指表示常用信息,比如地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息,的數據記錄。
所述的變量規則資料庫包含有大量帶有變量信息的句子的譯文,是指經過對已經翻譯過的雙語對的綜合分析,找到其中的共同點,然後將可變部分進行類型替換而形成規則記錄。變量規則資料庫中的主要欄位有原文格式化信息,譯文格式化信息。
所述的雙語對照資料庫中包含有大量信息的雙語對照數據記錄,是指用於翻譯時使用的電子詞典,詞典中含有大部分常用單詞及其詞義。
所述的變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,是指將待識別內容放到識別資料庫中去比較,找出待識別內容中包含的在識別資料庫中存在的所有類型,按照出現的前後順序進行排列。被識別為變量的原始內容稱為原始變量。
所述的格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,是指根據識別模塊輸出的變量信息列表對待識別內容進行格式化,生成一條與待識別內容相對應的格式化信息。
所述的格式化信息,是指保留識別模塊未識別的內容,將已經識別出來的內容按照種類和順序進行排列而成的與待識別內容相似的內容。
所述的對比模塊將變量信息替換成定義的格式的句子,格式化模塊輸出的變量信息替換成定義的格式的句子(格式化原文)在變量規則資料庫中進行比對,輸出變量信息替換成定義的格式的譯句(格式化譯文),是指將格式化模塊輸出的格式化信息到變量規則資料庫中進行查找,找到與格式化信息完全一樣的記錄,得到這條記錄的譯文格式化信息。若在資料庫中不存在對應的規則記錄,則提示譯文不存在並放棄對該句的翻譯。
所述的變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,是指分析對比模塊輸出的譯文格式化信息中的變量,按照種類和順序替換為待識別內容中的對應種類和順序的原始變量。替換後的內容為準譯句。
所述的翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,是指對準譯句中的變量進行翻譯,然後將翻譯的結果替換回去。
本發明還提供使用上述提高翻譯效率的系統的方法,包括步驟如下(1)變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;(2)格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;(3)對比模塊將變量信息替換成定義的格式的句子拼接模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,找到與格式化信息相同的規則記錄,得到這條記錄的譯文格式化信息並繼續後邊的步驟,若資料庫中不存在匹配的規則記錄,則提示譯文不存在,放棄對該句的翻譯(可改由人工翻譯後再繼續後續步驟);(4)變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;(5)翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;(6)結果輸出模塊輸出完整的譯句。
本發明實現的效果如下利用本發明提供的提高翻譯效率的系統,可以實現翻譯的自動化,尤其是文檔中大量存在的常用變量的自動化翻譯,可以降低人力的消耗,減小翻譯人員的工作量,同時保證了翻譯的質量。
採用本發明提供的提高翻譯效率的系統,通過將待譯句子進行轉換後格式化句,提高了待譯句子在變量規則資料庫中匹配到相應記錄的機率,並同時對待譯句按照既定的規則進行了語序調整,再對其中發生變化的變量進行簡單的翻譯即可,從而提高了翻譯效率。


附圖1提高翻譯效率的系統結構示意圖;附圖2提高翻譯效率的方法流程示意圖;附圖3提高翻譯效率的方法流程框圖;附圖4實施例示例用文檔;附圖5變量識別模塊輸出的變量信息定義列表;附圖6格式化模塊輸出的變量信息替換成定義的格式的句子;附圖7對比模塊得到的譯文格式化信息;附圖8變量替換模塊替換後的信息;附圖9翻譯模塊對變量進行翻譯後的信息;附圖10結果輸出模塊輸出的譯句。
具體實施例方式
本實施例提供一種提高翻譯效率的系統,如圖1所示,包括變量信息資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊。
變量信息識別資料庫中包含有用於變量識別的數據記錄;變量規則資料庫包含有大量帶有變量信息的句子的譯文和翻譯規則;雙語對照資料庫中包含有大量信息的雙語對照數據記錄;變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,得到這條記錄的譯文格式化信息並繼續後邊的步驟,若資料庫中不存在匹配的規則記錄,則提示譯文不存在,放棄對該句的翻譯(可改由人工翻譯後再繼續後續步驟);變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;結果輸出模塊輸出完整的譯句。
所述的變量是指表示常用信息的符號,比如表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的符號。相應的,所述的變量信息識別資料庫中包含的用於變量識別的數據記錄,是指表示常用信息,比如地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息,的數據記錄。
所述的變量規則資料庫包含有大量帶有變量信息的句子的譯文,是指經過對已經翻譯過的雙語對的綜合分析,找到其中的共同點,然後將可變部分進行類型替換而形成規則記錄。變量規則資料庫中的主要欄位有原文格式化信息,譯文格式化信息。
所述的雙語對照資料庫中包含有大量信息的雙語對照數據記錄,是指用於翻譯時使用的電子詞典,詞典中含有大部分常用單詞及其詞義。
所述的變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,是指將待識別內容放到識別資料庫中去比較,找出待識別內容中包含的在識別資料庫中存在的所有類型,按照出現的前後順序進行排列。被識別為變量的原始內容稱為原始變量。
所述的格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,是指根據識別模塊輸出的變量信息列表對待識別內容進行格式化,生成一條與待識別內容相對應的格式化信息。
所述的格式化信息,是指保留識別模塊未識別的內容,將已經識別出來的內容按照種類和順序進行排列而成的與待識別內容相似的內容。
所述的對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,輸出變量信息替換成定義的格式的譯句,是指將格式化模塊輸出的格式化信息到變量規則資料庫中進行查找,找到與格式化信息完全一樣的記錄,得到這條記錄的譯文格式化信息。
所述的變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,是指分析對比模塊輸出的譯文格式化信息中的變量,按照種類和順序替換為待識別內容中的對應種類和順序的原始變量。替換後的內容為準譯句。
所述的翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,是指對準譯句中的變量進行翻譯,然後將翻譯的結果替換回去。
以圖4所示文檔為例,本實施例使用上述提高翻譯效率的系統的優選方法,如圖2和圖3所示,包括步驟如下(1)變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,如圖5所示。
13901234567、[email protected]為原始變量;TEL1、EMAIL1為種類,後面的1為順序號。
(2)格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,如圖6所示;(3)對比模塊將變量信息替換成定義的格式的句子拼接模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,找到與格式化信息相同的規則記錄,得到這條記錄的譯文格式化信息,如圖7所示;(4)變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,如圖8所示;(5)翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,即翻譯[]中的兩處信息,如圖9所示;(6)結果輸出模塊輸出完整的譯句,如圖10所示。
應當指出,以上所述具體實施方式
可以使本領域的技術人員更全面地理解本發明,但不以任何方式限制本發明。因此,儘管本說明書參照附圖和實施例對本發明已進行了詳細的說明,但是,本領域技術人員應當理解,仍然可以對本發明進行修改或者等同替換;而一切不脫離本發明的精神和範圍的技術方案及其改進,其均應涵蓋在本發明專利的保護範圍當中。
權利要求
1.一種提高翻譯效率的系統,包括變量信息識別資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊,其中,變量信息識別資料庫中包含有用於變量識別的數據記錄;變量規則資料庫包含有大量帶有變量信息的句子及其譯文和翻譯規則;雙語對照資料庫中包含有大量信息的雙語對照數據記錄;變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,若匹配的規則不存在,提示譯句不存在,若匹配的規則存在,則輸出變量信息替換成定義的格式的譯句;變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;結果輸出模塊輸出完整的譯句。
2.根據權利要求1所述提高翻譯效率的系統,其特徵在於,所述的變量是指表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的符號;所述的變量信息識別資料庫中包含的用於變量識別的數據記錄,是指表示地址、數字、電話、信箱、尺寸、重量、日期、時間、長度、溫度、面積、體積和貨幣信息的數據記錄。
3.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的變量規則資料庫包含有大量帶有變量信息的句子的譯文,是指經過對已經翻譯過的雙語對的綜合分析,找到其中的共同點,然後將可變部分進行類型替換而形成規則記錄。
4.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的雙語對照資料庫中包含有大量信息的雙語對照數據記錄,是指用於翻譯時使用的電子詞典,詞典中含有大部分常用單詞及其詞義。
5.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表,是指將待識別內容放到識別資料庫中去比較,找出待識別內容中包含的在識別資料庫中存在的所有類型,按照出現的前後順序進行排列。
6.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子,是指根據識別模塊輸出的變量信息列表對待識別內容進行格式化,生成一條與待識別內容相對應的格式化信息。
7.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的格式化信息,是指保留識別模塊未識別的內容,將已經識別出來的內容按照種類和順序進行排列而成的與待識別內容相似的內容。
8.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的對比模塊將變量信息替換成定義的格式的句子格式化模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,輸出變量信息替換成定義的格式的譯句,是指將格式化模塊輸出的格式化信息到變量規則資料庫中進行查找,找到與格式化信息完全一樣的記錄,得到這條記錄的譯文格式化信息。
9.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量,是指分析對比模塊輸出的譯文格式化信息中的變量,按照種類和順序替換為待識別內容中的對應種類和順序的原始變量。替換後的內容為準譯句。
10.根據權利要求2所述提高翻譯效率的系統,其特徵在於,所述的翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯,是指對準譯句中的變量進行翻譯,然後將翻譯的結果替換回去。
11.使用權利要求1-10任意一項所述提高翻譯效率的系統的方法,包括步驟如下(1)變量識別模塊調用信息識別資料庫中的數據記錄識別出語句中的變量信息,輸出變量信息定義列表;(2)格式化模塊利用變量識別模塊輸出的變量信息定義列表,將待譯句中的變量信息替換成定義的格式,輸出變量信息替換成定義的格式的句子;(3)對比模塊將變量信息替換成定義的格式的句子拼接模塊輸出的變量信息替換成定義的格式的句子在變量規則資料庫中進行比對,找到與格式化信息相同的規則記錄,得到這條記錄的譯文格式化信息並繼續後邊的步驟,若資料庫中不存在匹配的規則記錄,則提示譯文不存在,放棄對該句的翻譯;(4)變量替換模塊根據變量識別模塊輸出的變量信息定義列表,對對比模塊輸出的變量信息替換成定義的格式的譯句中的定義格式替換為對應的變量;(5)翻譯模塊調用雙語對照資料庫的數據,將定義格式已經替換為對應的變量的譯句中的變量進行翻譯;(6)結果輸出模塊輸出完整的譯句。
全文摘要
本發明涉及一種提高翻譯效率的系統及方法。本發明提供一種提高翻譯效率的系統,包括變量信息識別資料庫、變量規則資料庫、雙語對照資料庫、變量識別模塊、格式化模塊、對比模塊、變量替換模塊、翻譯模塊和結果輸出模塊,本發明還提供使用上述提高翻譯效率的系統的方法。利用本發明提供的提高翻譯效率的系統,可以實現翻譯的自動化,尤其是文檔中大量存在的常用變量的自動化翻譯。
文檔編號G06F17/30GK101034394SQ20071008668
公開日2007年9月12日 申請日期2007年3月30日 優先權日2007年3月30日
發明者何戰濤 申請人:傳神聯合(北京)信息技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀