面向統計機器翻譯的訓練語料質量評價及選取方法
2023-12-02 14:12:46 1
專利名稱:面向統計機器翻譯的訓練語料質量評價及選取方法
技術領域:
本發明涉及一種統計機器翻譯技術,具體的說是一種面向統計機器翻譯的訓練語料質量評價及選取方法。
背景技術:
統計機器翻譯(Statistical Machine Translation, SMT)系統的訓練需要大規模的雙語平行語料的支持,語料的質量和數量會對機器翻譯系統的性能帶來很大的影響。一般來說,訓練語料規模的增加有助於獲得穩定的模型參數並提高SMT系統的翻譯性能。但是語料規模越大,系統的執行代價就越高,訓練和解碼需要的時間也越長。另外,更大規模的語料也就意味著可能存在更多的噪聲數據,會在一定程度上影響到系統訓練的可靠性。
姚樹傑等人(2010)曾提出了一種基於句對質量和覆蓋度的統計機器翻譯訓練語料選取的方法,他們通過綜合考慮覆蓋度和句對質量兩方面的因素,從已有的平行語料中獲取高質量小規模訓練子集,以達到同使用全部訓練語料相當的翻譯性能。在姚樹傑等人提出的模型中,有五個質量評價特徵,各個特徵的權重採用人工設定經驗值的方法得到。人工的方法需要大量的實驗支撐,耗時耗力,並且在特徵數量增加的時候,變得非常不可用。
發明內容
針對基於句對質量和覆蓋度的統計機器翻譯技術中的質量評價特徵採用人工設定經驗值的方法得到,耗時耗力,並且在特徵數量增加時變得非常不可用等不足之處,本發明要解決的技術問題是提供一種可自動生成特徵權重,能夠提供更豐富的句對質量評價特徵的面向統計機器翻譯的訓練語料質量評價及選取方法。為解決上述技術問題,本發明採用的技術方案是本發明面向統計機器翻譯的訓練語料質量評價及選取方法包括以下步驟權重自動獲取採用小規模語料對權重自動獲取模型進行訓練,以得到特徵的權重和分類臨界值;句對質量評價將上述權重和分類臨界值與原始大規模平行語料一起做為輸入,由句對質量評價線性模型對大規模平行語料進行分類,生成各個語料子集;高質量語料子集選取在上述各個語料子集的基礎上,考慮覆蓋度的影響,選取高質量語料做為統計機器翻譯系統的訓練數據。所述句對質量評價線性模型為
權利要求
1.一種面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於包括以下步驟 權重自動獲取 採用小規模語料對權重自動獲取模型進行訓練,以得到特徵的權重和分類臨界值;句對質量評價將上述權重和分類臨界值與原始大規模平行語料一起做為輸入,由句對質量評價線性模型對大規模平行語料進行分類,生成各個語料子集; 高質量語料子集選取在上述各個語料子集的基礎上,考慮覆蓋度的影響,選取高質量語料做為統計機器翻譯系統的訓練數據。
2.按權利要求I所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於所述句對質量評價線性模型為
3.按權利要求I所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於所述高質量句對為 句對中源語句和目標語句都是流暢的句子,且源語句和目標語句的互譯程度高。
4.按權利要求I所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於句對質量評價特徵包括高質量翻譯短語特徵和基於實詞的質量評價特徵,其中 高質量翻譯短語 在高質量短語翻譯表中,查找提取的短語對是否存在,其特徵公式如下
5.按權利要求4所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於所述句對質量評價特徵還包括基於IBM model I的翻譯概率的質量評價特徵、基於IBM model I的最大化翻譯概率(MTP)的質量評價特徵、基於詞彙化翻譯概率(LexicalWeighting,LW)的質量評價特徵、基於詞典的質量評價特徵、基於短語表染色機制的質量評價特徵和基於語言模型的質量評價特徵,其中 基於IBM model I的最大化翻譯概率(MTP)的質量評價特徵通過以下公式實現
6.按權利要求5所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於詞Wi在N元語言模型下的概率P (Wi I &__,..., <)通過以下公式得到
7.按權利要求I所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於 在權重自動獲取步驟中,採用小規模語料對權重自動獲取模型進行訓練通過Pranking算法實現,通過訓練數據自動調整各個特徵的權重,訓練集中的每組數據執行調整過程後,得到新的權重向量與臨界值向量,做為下一組數據計算的初始值;當多組訓練數據全部執行完成後,所得的權重向量與臨界值向量即為最終結果。
8.按權利要求I所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於所述考慮基於句對質量和覆蓋度的語料選取包括以下步驟 使用句對質量評價模型將訓練語料分為質量高低不同的k個等級,k為Pranking算法訓練數據標註的等級數; 採用翻譯短語對作為覆蓋度的度量標準,一個句子對覆蓋度的貢獻,是其中包含的不同的未知翻譯短語對的個數; 選取數據首先從質量等級最高的數據中選取句對,當全部剩餘句對已經無法增加訓練子集的覆蓋度時,再從質量次之的等級中選取;當高質量句對的覆蓋度貢獻值小於設定的閾值a時,優先考慮從質量較低集合中選取覆蓋度貢獻大的句對,同時,將高質量的未被選取句對的覆蓋度加上一個常數b,與質量較低的數據一同參選; 在選取數據時,從包含詞對齊信息的句對中抽取出翻譯短語對,以句子包含的翻譯短語對的數量作為各個句子的初始覆蓋度貢獻值; 訓練語料子集對應的短語對集合每增加一個新的短語對,則相應的所有包含該短語對的句子的覆蓋度貢獻減I ; 每次從語料中選取覆蓋度貢獻最大的句子加入語料子集中,然後更新所有未被選取的句子的覆蓋度貢獻值; 迭代進行此過程,直至選取的子集達到目標規模。
9.按權利要求8所述的面向統計機器翻譯的訓練語料質量評價及選取方法,其特徵在於所述考慮覆蓋度的影響選取高質量語料還包括特徵評價結果縮放步驟 對基於IBM model I的最大化翻譯概率的質量評價特徵fMTP、基於IBMmodel I翻譯概率的質量評價特徵,BM、基於語言模型的質量評價特徵φ!Λ!以及基於語言模型的質量評價特徵fLW的結果進行縮放,採用公式(14)將[O,-⑴]區間縮放至[O,I]區間
全文摘要
本發明涉及一種面向統計機器翻譯的訓練語料質量評價及選取方法,步驟為權重自動獲取採用小規模語料對權重自動獲取模型進行訓練,以得到特徵的權重和分類臨界值;句對質量評價將上述權重和分類臨界值與原始大規模平行語料一起做為輸入,由句對質量評價線性模型對大規模平行語料進行分類,生成各個語料子集;高質量語料子集選取在上述各個語料子集的基礎上,考慮覆蓋度的影響,選取高質量語料做為統計機器翻譯系統的訓練數據。本發明提出更豐富的句對質量評價特徵,實現了特徵權重的自動學習,當子集規模達到30%時性能可能夠達到100%甚至更好;可以對任意輸入的句對劃分其所屬的等級,可以為高質量語料數據選取等任務提供幫助。
文檔編號G06F17/28GK102945232SQ20121046917
公開日2013年2月27日 申請日期2012年11月16日 優先權日2012年11月16日
發明者朱靖波, 張 浩, 肖桐, 李強 申請人:瀋陽雅譯網絡技術有限公司