語言翻譯質量審核方法
2023-07-26 15:04:56 1
專利名稱:語言翻譯質量審核方法
技術領域:
本發明涉及一種語言翻譯質量的審核方法,特別是一種基於電腦程式設計的自 動化、標準化的對語言翻譯質量進行審核評估,甚至修改的語言審核方法,屬於語言學及計 算機科學技術領域。
背景技術:
目前機器翻譯的方法多樣,其中應用較為普遍的是骨架依存樹和塊組方法。它們 的核心都是分解句子結構及語義相似度計算。區別在於前者的結構單位是謂語中心詞及其 支配成分構成的整體,後者是功能性的語塊,象主語塊、謂語塊等。機器翻譯輸出的目標語是基於源語骨架或語塊結構的語義對應。其前提是源語與 目標語的句法結構相同或相近,也就是不同語種語言的共性問題。探索性地提出句子的骨 架和語塊便於電腦程式設計,易於實現。但骨架和塊組的建構方法用於不同語種之間的 語言轉換仍有局限性。源語與目標語的個性問題,即差異性的句法和文法暫被忽略,或未就 此提出系統完整的解決方案及實現方法。目前,仍然需要大量人工來進行翻譯及審核工作, 就是為了解決語言的個性問題。然而,這種通過人工進行翻譯、審核的工作方式,不僅消耗 大量人力資源,而且對翻譯及審核的質量難以保證。鑑於此,我們有必要設計一種基於電腦程式能夠自動完成語言翻譯質量審核工 作的程序,並且基於該電腦程式的語言翻譯質量審核工作是具有一致性審核質量保證 的。
發明內容
本發明的發明目的在於提供一種基於電腦程式設計的自動化、標準化的對語言 翻譯質量進行審核評估的審核方法。本發明的發明目的是通過下述技術方案予以實現的語言翻譯質量審核方法,其特徵在於包括步驟如下(1)對所有源語和目標語標註範疇標識;(2)對所有標註範疇標識後的源語和目標語拆分其範疇樹圖;(3)根據所述源語生成參照句;(4)對所述參照句和目標語進行語義相似度比較,根據各句子間的語義相似度值 進行句子配對,以使目標語與其所翻譯的對應源語相配對;(5)基於可信賴的語言翻譯工具,對所有源語進行翻譯,生成翻譯比對庫;(6)將目標語與所配對的參照句進行語句差異度評估,得到目標語對參照句的語 句差異度評估值E1;(7)將翻譯比對庫中各個翻譯句與所配對的參照句進行語句差異度評估,得到翻 譯比對庫對參照句的語句差異度評估值集合{E2};(8)判斷所述E1是否屬於{E2},如果屬於則認為該目標語的翻譯是可信賴的,如果不屬於則認為該目標語的翻譯是不可信賴的。在所述步驟(8)後還包括有對錯誤翻譯的句子進行修改的步驟(9)當該目標語的翻譯被判斷為不可信賴後,從翻譯比對庫中任意選取一句對應 翻譯句替換該目標語,以對該錯誤翻譯進行修改。在所述步驟(8)後還包括有對錯誤翻譯的句子進行修改的步驟(9』)當該目標語的翻譯被判斷為不可信賴後,從翻譯比對庫中選取翻譯比對庫對 參照句的語義差異度集合{E2}中與目標語對參照句的語義差異度E1最接近的一句對應翻 譯句替換該目標語,以對該錯誤翻譯進行修改。所述步驟(4)包括如下具體步驟(41)依據語義差異度計算公式依次計算目標語各句相對於參照句各句的語義差 異度A1 ;所述語義差異度計算公式為A1 (Sn, S' m) = Σ Cxsn* δ XSn*DDx(Sn,S' m);其中,AjSmS' m)表示目標語中第XS句相對於參照句中第S' m句的語義差異 度,DDx(Sn, S' m)表示目標語中第Sn句相對於參照句中第S' m句中第X對範疇標識之 間的詞彙語義變化幅度,S xs 表示在該對範疇標識中該目標語的範疇標識在該目標語句子 中的重要性權重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語句子的 範疇樹圖中的範疇層數權重值;(42)依據語義差異度計算公式依次計算參照句各句相對於目標語各句的語義差 異度A2 ;所述語義差異度計算公式為A2 (S' m, Sn) =Σ CYS, m* δ YS, m*DDY(S' m,Sn);其中,A2(S' m,Sn)表示參照句中第S' m句相對於目標語中第Sn句的語義差異 度,DDy(S' m, Sn)表示參照句中第S' m句相對於目標語中第Sn句中第Y對範疇標識之 間的詞彙語義變化幅度,Sys, 111表示在該對範疇標識對中該參照句的範疇標識在該參照句 句子中的重要性權重值,CYS, m表示在該對範疇標識對中該參照句的範疇標識在該參照句句 子的範疇樹圖中的範疇層數權重值;(43)根據步驟(41)和(42)所計算出的語義差異度ApA2,按照公式A (Sn,S' m)= (A1 (Sn, S' m)+A2(S' m,Sn))/2計算目標語與參照句之間的平均語義差異度A(Sn,S' m);(44)從目標語中第一句開始選取參照句中與該句平均語義差異度最低的一句建 立配對關係;(45)目標語中的後續句子依次從參照句中與前一句進行配對的句子開始查找與 該句平均語義差異度最低的一句建立配對關係,直至目標語結束,完成從目標語到參照句 的句子配對過程。所述步驟(3)的參照句生成過程具體如下(3)所述源語根據步驟(1)所標註的範疇標識,基於詞典進行詞彙的直接替換,從 而生成參照句。所述步驟(6)包括如下具體步驟(61)依據語義差異度計算公式依次計算目標語各句相對於所配對的參照句的語 義差異度Aei ;所述語義差異度計算公式為Aei (Sn,S' m) =Σ CXSn*SXSn*DDx(Sn,S' m);其中,AE1(Sn,S' m)表示目標語中句子Sn相對於參照句中所配對句子S' m的語 義差異度,DDx(Sn,S' m)表示目標語中句子Sn相對於參照句中句子S' m中第X對範疇 標識之間的詞彙語義變化幅度,S xsn表示在該對範疇標識中該目標語的範疇標識在該目標
6語句子中的重要性權重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語 句子的範疇樹圖中的範疇層數權重值;(62)依據句式差異度計算公式依次計算目標語各句相對 於所配對的參照句的句式差異度Bei ;所述句式差異度計算公式為 Bm(SrhSm) = JjCxsn *δΧ8η *{Wx5n Wxs,m -Cxs.m\);其中,BE1(Sn,S' m)表示目標語中句子Sn相對於參照句中所配對句子S' m的句 式差異度,S xs 表示在該對範疇標識中該目標語的範疇標識在該目標語句子中的重要性權 重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語句子的範疇樹圖中的 範疇層數權重值,Cxs, m表示在該對範疇標識對中該參照句的範疇標識在該源語句子的範疇 樹圖中的範疇層數權重值,^a ^ym表示將目標語中句子Sn相對於參照句中句子S' m 中第X對範疇標識之間的範疇標識進行異或計算;(63)根據步驟(61)、(62)所計算的語義差異度Aei (Sn,S' m)和句式差異度 Bei (Sn, S' m),得到目標語對參照句的語句差異度評估值EjSmS' m) = (Aei (Sn, S' m), Bei (Sn, S' m)) ο所述步驟(7)包括如下具體步驟(71)依據語義差異度計算公式依次計算翻譯比對庫中各個翻譯句相對於所 配對的參照句的語義差異度{AE2};所述語義差異度計算公式為{AE2(S1,S' m)}= { Σ Cxsl*Sxsl*DDx(Sl,S' m)};其中,{AE2(S1,S' m)}表示翻譯比對庫中句子Sl相對於參照句中所配對句子 S' m的語義差異度,DDX(S1,S' m)表示翻譯比對庫中句子Sl相對於參照句中句子S' m 中第X對範疇標識之間的詞彙語義變化幅度,δ XS1表示在該對範疇標識中該翻譯比對庫中 的範疇標識在其句子中的重要性權重值,Cxsl表示在該對範疇標識對中該翻譯比對庫中的 範疇標識在其句子的範疇樹圖中的範疇層數權重值;(72)依據句式差異度計算公式依次計算翻譯比對庫中各個翻譯 句相對於所配對的參照句的句式差異度{BE2};所述句式差異度計算公式為 {BE2(Sl,Sm)} = [JjCxsi *δΧ81 HWxst^JVxsim +\Cxsl -Cxs,^)];其中,{BE2(S1,S' m)}表示翻譯比對庫中句子Sl相對於參照句中所配對句子 S' m的句式差異度,Sxsl表示在該對範疇標識中該翻譯比對庫中的範疇標識在其句子中 的重要性權重值,Cxsl表示在該對範疇標識對中該翻譯比對庫中的範疇標識在其句子的範 疇樹圖中的範疇層數權重值,Cxs, m表示在該對範疇標識對中該參照句的範疇標識在該源語 句子的範疇樹圖中的範疇層數權重值, ·《表示將翻譯比對庫中句子Sl相對於參照 句中句子S' m中第X對範疇標識之間的範疇標識進行異或計算;(73)根據步驟(71)、(72)所計算的語義差異度{AE2(S1,S' m)}和句式差異度 {BE2(S1,S' m)},得到翻譯比對庫對參照句的語句差異度評估值集合{E2(S1,S' m)}= {(AE2(S1,S' m),Be2(Si,S' m))}。所述步驟(8)的判斷過程具體如下(81)人為給出語義差異度的允許變化範圍值dA和句式差異度的允許變化範圍值 dB ;(82)判斷目標語的語義差異度Aei (Sn, S' m)是否在翻譯比對庫的語義差異度變
化範圍{AE2(S1,S' m) 士dA}之內;(83)判斷目標語的句式差異度Bei (Sn,S' m)是否在翻譯比對庫的句式差異度變 化範圍{BE2(S1,S' m) 士dB}之內;(84)根據步驟(82)、(83)的判斷結果判斷該目標語的翻譯是否是可信賴的,如 果步驟(82)、(83)均判斷在變化範圍之內,則認為該目標語的翻譯是可信賴的,如果步驟 (82)、(83)有任一步驟不被判斷在變化範圍之內,則認為該目標語的翻譯是不可信賴的。在所述步驟(4)和步驟(5)之間還包括如下句子處理步驟(al)計算所述參照句中各個以範疇標識為單位的詞彙與相配對目標語組中各個 以範疇標識為單位的詞彙語義變化幅度DD ;(a2)根據該詞彙語義變化幅度DD將參照句中各個以範疇標識為單位的詞彙按照 相匹配的目標語組中的句子進行劃分;(a3)將劃分後的詞彙按照既有語法規則組織成新的獨立句子;(a4)將所組織的新的獨立句子作為新的參照句與相配對的目標語建立配對關係。在所述步驟(4)和步驟(5)之間還包括如下句子處理步驟(bl)將所述與目標句相匹配的多句源語中各個以範疇標識為單位的詞彙按照語 法規則組織成新的獨立句子;(b2)將所組織的新的獨立句子作為新的參照句與相配對的目標語建立配對關係。本發明的有益效果是該語言翻譯質量審核方法通過判斷目標語與參照句的語義 差異度是否在翻譯比對庫中各翻譯句與參照句的語義差異度的範圍之內,進而判斷該翻譯 是否值得信賴。這樣的審核方法自動化和標準化程度高,是理想的翻譯質量審核方法。
圖1為語言翻譯質量審核方法的流程圖;圖2為句子配對方法流程圖;圖3為目標語與參照句進行語句差異度評估的計算流程圖;圖4為翻譯比對庫對參照句的語句差異度評估值的計算流程圖;圖5(A)為源語的範疇樹圖;圖5(B)為目標語的範疇樹圖。
具體實施例方式下面結合附圖和實施例對本發明作進一步描述。如前所述,本發明是鑑於現有語言翻譯質量審核工作主要有賴於人工工作方式, 消耗大量人力資源,且翻譯審核的質量難以保證,設計了一種基於電腦程式設計的自動 化、標準化的對語言翻譯質量進行審核評估的審核方法。該審核方法的設計思想是對被翻譯的源語基於現有可信賴的眾多翻譯方法翻譯 形成一翻譯比對庫。分別將該翻譯比對庫中的各翻譯句和待審核的目標語與根據源語生成 的參照句進行基於範疇標識為基礎結構的語義比較,計算出相應的語義差異度。比較目標 語與參照句的語義差異度是否在翻譯比對庫中各翻譯句與參照句的語義差異度的範圍之 內。如果在該範圍之內,則可認為該待審核的目標語是可信賴的翻譯,如果不在該範圍之內,則認為該待審核的目標語是不可信賴的翻譯。實施例一基於上述設計思想,參照圖1所示本發明審核方法的流程圖,本發明所設計的語 言翻譯質量審核方法的具體步驟如下(1)對所有源語和目標語標註範疇標識;這裡,所謂源語是指被翻譯的原始文章,而所謂目標語是指待審核的翻譯後文章。如前所述,本發明所進行句子間的語義差異度比較是以範疇語法中的範疇標識為 結構基礎進行的。所謂範疇語法是1958年由數學家蘭姆貝克(J. Lambek)在《句子結構的 數學》中提出的一種句法類型演算理論。它是通過將一個句子中的各個成分以不同的符號 進行表示,進而通過該符號串辨識該句子自然語言結構的演算理論。而範疇標識正是範疇 語法中用以表示句法功用的符號。例如,S指句子,N指主語或賓語,S/N指不及物謂語,(S/ N)/N指及物謂語等。由於,範疇語法是從句子自然語言結構上對句子結構進行劃分的,因此 該語法規則不限於某種具體的語言語法。在語言翻譯審核過程中,正可以以這種範疇語法 劃分規則作為進行語義比較的結構基礎。另外,由於範疇語法現已是語言學中一種成熟的語法理論,基於該語法規則進行 範疇標識標註的方法有很多。因此,在此就不再對範疇標識的標註方法做進一步詳述。(2)對所有標註範疇標識後的源語和目標語拆分其範疇樹圖;參見圖5,所謂範疇樹圖是範疇類型有窮個演算步驟的圖示。儘管圖示方法不一, 但一般與樹圖同形。不同圖示方法的主要區別在於層次方向的規定。有的自下而上為從具 體到概括,有的則反向。這裡採用的是越上層概括性越強,越下層具體性越強的方向。(3)根據所述源語生成參照句;所謂參照句是以源語所標註的範疇標識為結構基礎,對各個範疇標識進行直接語 言翻譯所生成的句子。該參照句的主要目的是作為目標語和翻譯比對庫中的各個翻譯句進 行比較的參考依據。(4)對所述參照句和目標語進行語義相似度比較,根據各句子間的語義相似度值 進行句子配對,以使目標語與其所翻譯的對應源語相配對;這一步驟主要是通過句子間的語義相似度比較,確定目標文章中各個句子與源文 章中各個句子間的對應關係,以自動實現目標語與其所翻譯的對應源語的配對。(5)基於可信賴的語言翻譯工具,對所有源語進行翻譯,生成翻譯比對庫;所述翻譯比對庫是通過已知可信賴的語言翻譯工具對源語進行翻譯的句子集合。 通過這種方法生成的翻譯比對庫可以作為本發明翻譯質量審核方法進行翻譯質量審核的 比對依據,用以確定翻譯質量的可信範圍。這裡,所謂的可信賴的語言翻譯工具可以是任意 現有可信賴的翻譯手法或既有應用程式,其規模範圍可以由人為設定。在此就不再對其具 體實現形式做進一步限定。(6)將目標語與所配對的參照句進行語句差異度評估,得到目標語對參照句的語 句差異度評估值E1;(7)將翻譯比對庫中各個翻譯句與所配對的參照句進行語句差異度評估,得到翻 譯比對庫對參照句的語句差異度評估值集合{E2};這裡,由於翻譯比對庫是通過多種不同可信賴的翻譯工具翻譯生成的翻譯句的集合,因此其與參照句進行語句差異度評估的結果也是一個集合。(8)判斷所述E1是否屬於{E2},如果屬於則認為該目標語的翻譯是可信賴的,如果 不屬於則認為該目標語的翻譯是不可信賴的。通過上述具體步驟,本發明所設計的語言翻譯質量審核方法通過分別計算目標語 及可信賴的翻譯比對庫相對於作為參考的參照句的語句差異度評估,並進行相應比較判 斷,可以完成任意語言之間的翻譯質量審核工作。並且,該翻譯質量審核方法是基於計算機 程序設計的,實現了自動化、標準化的審核過程。在前述步驟的基礎上,本發明還可以進一步包括有對錯誤翻譯的句子進行修改的 步驟,具體如下(9)當該目標語的翻譯被判斷為不可信賴後,從翻譯比對庫中任意選取一句對應 翻譯句替換該目標語,以對該錯誤翻譯進行修改。通過該步驟可以使此審核方法在對翻譯文章的質量進行審核的同時,還對其中錯 誤的翻譯進行修改。為了使得所替換的翻譯句與原目標語的翻譯儘量貼合,該步驟(9)還 可以採用下述步驟(9』)當該目標語的翻譯被判斷為不可信賴後,從翻譯比對庫中選取翻譯比對庫對 參照句的語義差異度集合{E2}中與目標語對參照句的語義差異度E1最接近的一句對應翻 譯句替換該目標語,以對該錯誤翻譯進行修改。實施例二 本實施例是在實施例一的基礎上,對所述步驟(4)中的句子配對方法作進一步限 定。如圖2所示,所述步驟(4)包括如下具體步驟(41)依據語義差異度計算公式依次計算目標語各句相對於參照句各句的語義差 異度A1 ;所述語義差異度計算公式為A1 (Sn, S' m) = Σ Cxsn* δ XSn*DDx(Sn,S' m);其中,AjSmS' m)表示目標語中第Sn句相對於參照句中第S' m句的語義差異 度,DDx(Sn, S' m)表示目標語中第Sn句相對於參照句中第S' m句中第X對範疇標識之 間的詞彙語義變化幅度,S xs 表示在該對範疇標識中該目標語的範疇標識在該目標語句子 中的重要性權重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語句子的 範疇樹圖中的範疇層數權重值。用戶還可根據文體等需要增加其他的權重因素。應當說明的是,該DDx(Sn,S' m)目標語中第Sn句相對於參照句中第S' m句中 第X對範疇標識之間的詞彙語義變化幅度,是兩個句子之間任意一對主要以範疇標識為基 礎的配對詞彙或詞組之間的語義變化幅度。而兩個詞彙或詞組之間的語義變化幅度是可以 基於現有語言學的詞彙詞義比較資料庫以及語法檢查技術給出的,即為現有技術。本發明 只是藉助於這一現有資料庫進行的再利用,在此就不再對該資料庫的構成作進一步描述。δ XSn範疇標識在句子中的重要性權重值。由於每個範疇標識在句子中的重要性並 不相同。而進行翻譯時,這些重要範疇標識的翻譯準確性對整個句子的翻譯質量起到更大 的作用。因此,我們在進行語義差異度計算時引入了這部分的權重值。而這裡範疇標識在 句子中的重要性權重值可以按範疇類別主要對應的自然語句成分權重值而規定,也非本發 明的設計重點。Cxsn範疇標識在句子的範疇樹圖中的範疇層數權重值。如前步驟(2)所述,一個句 子可以依範疇標識拆分為範疇樹圖。在該範疇樹圖較上層次的範疇標識在句子中也較為重
10要,而在範疇樹圖較下層次的範疇標識在句子中也較為次要。該範疇層數權重值通常用分 數形式表示,例如在共有a層範疇標識的句子的第b層的範疇標識(a ^ b),其範疇層數權 重值為(a-b+l)/a。另外,應當指出所述語義差異度計算公式的值是有方向性的,即目標語相對於參 照句的語義差異度,是以目標語為基礎進行比較的。其公式中的Cxsn、Sxsn都是基於該範疇 標識對中在目標語中的範疇標識在目標語中的權重值決定的。(42)依據語義差異度計算公式依次計算參照句各句相對於目標語各句的語義差 異度A2 ;所述語義差異度計算公式為A2 (S' m, Sn) =Σ CYS, m* δ YS, m*DDY(S' m,Sn);其中,A2(S' m,Sn)表示參照句中第S' m句相對於目標語中第Sn句的語義差異 度,DDy (S' m, Sn)表示參照句中第S' m句相對於目標語中第Sn句中第Y對範疇標識之 間的詞彙語義變化幅度,Sys, 111表示在該對範疇標識對中該參照句的範疇標識在該參照句 句子中的重要性權重值,CYS, m表示在該對範疇標識對中該參照句的範疇標識在該參照句句 子的範疇樹圖中的範疇層數權重值。(43)根據步驟(41)和(42)所計算出的語義差異度ApA2,按照公式A (Sn,S' m)= (A1 (Sn, S' m)+A2(S' m,Sn))/2計算目標語與參照句之間的平均語義差異度A(Sn,S' m);該A(Sn,S' m)表示目標語中第Sn句與參照句中第S' m句的平均語義差異度。(44)從目標語中第一句開始選取參照句中與該句平均語義差異度最低的一句建 立配對關係;這裡,如果目標語的第一句並非與參照句的第一句建立配對關係,則將參照句中 建立配對關係之前的句子指向空句,即認為漏翻這些句子。(45)目標語中的後續句子依次從參照句中與前一句進行配對的句子開始查找與 該句平均語義差異度最低的一句建立配對關係,直至目標語結束,完成從目標語到參照句 的句子配對過程。實施例三本實施例是在實施例一的基礎上,對所述步驟(3)中的參照句的生成過程作進一 步限定。所述步驟(3)的參照句生成過程具體如下(3)所述源語根據步驟(1)所標註的範疇標識,基於詞典進行詞彙的直接替換,從 而生成參照句。這裡,源語以其範疇標識標註的最小集合進行詞彙或詞組的直接替換。如果遇到 同義詞或近義詞則直接將一組同義詞或近義詞同時對該範疇標識進行替換。如前所述,這 裡所生成的參照句只是作為目標語和翻譯比對庫中的各個翻譯句進行比較的參考依據,因 此在其生成過程中並不需要參考任何語言的語法規則,只要直接進行詞彙替換即可。實施例四本實施例是在實施例一的基礎上,對所述步驟(6)、(7)中目標語及翻譯比對庫與 所配對的參照句進行語句差異度評估的過程作進一步限定。該語句差異度的評估主要包括 兩部分,一部分為語義差異度計算,另一部分為句式差異度計算。對於語句差異度的評估是 基於這兩方面所做的綜合比較,具體如下如圖3所示,所述步驟(6)包括如下具體步驟(61)依據語義差異度計算公式依次計算目標語各句相對於所配對的參照句的語義差異度Aei ;所述語義差異度計算公式為Aei (Sn,S' m) =Σ CXSn*SXSn*DDx(Sn,S' m);其中,AE1(Sn,S' m)表示目標語中句子Sn相對於參照句中所配對句子S' m的語 義差異度,DDx(Sn,S' m)表示目標語中句子Sn相對於參照句中句子S' m中第X對範疇 標識之間的詞彙語義變化幅度,δ xsn表示在該對範疇標識中該目標語的範疇標識在該目標 語句子中的重要性權重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語 句子的範疇樹圖中的範疇層數權重值。(62)依據句式差異度計算公式依次計算目標語各句相對 於所配對的參照句的句式差異度Bei ;所述句式差異度計算公式為 BEl(Sn,Sm) = JjCxsn *δΧ3η H^xsn Wxs,m -Cxs,m\);其中,BE1(Sn,S' m)表示目標語中句子Sn相對於參照句中所配對句子S' m的句 式差異度,S xs 表示在該對範疇標識中該目標語的範疇標識在該目標語句子中的重要性權 重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語句子的範疇樹圖中的 範疇層數權重值,Cxs, m表示在該對範疇標識對中該參照句的範疇標識在該源語句子的範疇 樹圖中的範疇層數權重值,^s 巧表示將目標語中句子Sn相對於參照句中句子S' m 中第X對範疇標識之間的範疇標識進行異或計算,即該對範疇標識相同為0,不相同為1。用 戶還可根據文體需要增加其他的權重因素。從上面所述句式差異度計算公式可以看出,句式差異度計算主要是通過對應範疇 標識的本身屬性比較和其所在句子的範疇樹圖中的範疇層數差異比較進行綜合判斷的,並 輔以該範疇標識重要性和範疇層數的權重值加權。不難看出,通過這樣的句式差異度計算 公式計算,其計算結果越小說明其句式的相似度越大。(63)根據步驟(61)、(62)所計算的語義差異度Aei (Sn,S' m)和句式差異度 Bei (Sn, S' m),得到目標語對參照句的語句差異度評估值EjSmS' m) = (Aei (Sn, S' m), Bei (Sn, S' m)) ο這裡,該語句差異度評估值E1 (Sn,S' m)為由語義差異度Aei (Sn,S' m)和句式差 異度BE1(Sn,S' m)共同構成的二元參數。如圖4所示,所述步驟(7)包括如下具體步驟(71)依據語義差異度計算公式依次計算翻譯比對庫中各個翻譯句相對於所 配對的參照句的語義差異度{AE2};所述語義差異度計算公式為{AE2(S1, 其中,{AE2(S1,S' m)}表示翻譯比對庫中句子Sl相對於參照句中所配對句子 S' m的語義差異度,DDy(Si,S' m)表示翻譯比對庫中句子Sl相對於參照句中句子S' m 中第X對範疇標識之間的詞彙語義變化幅度,δ XS1表示在該對範疇標識中該翻譯比對庫中 的範疇標識在其句子中的重要性權重值,Cxsl表示在該對範疇標識對中該翻譯比對庫中的 範疇標識在其句子的範疇樹圖中的範疇層數權重值。(72)依據句式差異度計算公式依次計算翻譯比對庫中各個翻譯 句相對於所配對的參照句的句式差異度{BE2};所述句式差異度計算公式為 {BE2 其中,{BE2(S1,S' m)}表示翻譯比對庫中句子Sl相對於參照句中所配對句子 S' m的句式差異度,Sxsl表示在該對範疇標識中該翻譯比對庫中的範疇標識在其句子中的重要性權重值,Cxsl表示在該對範疇標識對中該翻譯比對庫中的範疇標識在其句子的範 疇樹圖中的範疇層數權重值,Cxs, m表示在該對範疇標識對中該參照句的範疇標識在該源語 句子的範疇樹圖中的範疇層數權重值, ^sim表示將翻譯比對庫中句子Sl相對於參照 句中句子S' m中第X對範疇標識之間的範疇標識進行異或計算,即該對範疇標識相同為 0,不相同為1。(73)根據步驟(71)、(72)所計算的語義差異度{AE2(S1,S' m)}和句式差異度 {BE2(S1,S' m)},得到翻譯比對庫對參照句的語句差異度評估值集合{E2(S1,S' m)}= {(AE2(S1,S' m),Be2(Si,S' m))}。這裡,該語句差異度評估值集合{E2 (Si,S' m)}為由語義差異度{AE2(S1,S' m)} 和句式差異度{BE2(S1,S' m)}共同構成的二元參數集合。實施例五本實施例是在實施例四的基礎上,對所述步驟(8)中的判斷過程作進一步限定。 所述步驟(8)的判斷過程具體如下(81)有人為給出語義差異度的允許變化範圍值《和句式差異度的允許變化範圍 值dB;(82)判斷目標語的語義差異度Aei (Sn,S' m)是否在翻譯比對庫的語義差異度變 化範圍{AE2(S1,S' m) 士dA}之內;(83)判斷目標語的句式差異度Bei (Sn,S' m)是否在翻譯比對庫的句式差異度變 化範圍{BE2(S1,S' m) 士dB}之內;(84)根據步驟(82)、(83)的判斷結果判斷該目標語的翻譯是否是可信賴的,如 果步驟(82)、(83)均判斷在變化範圍之內,則認為該目標語的翻譯是可信賴的,如果步驟 (82)、(83)有任一步驟不被判斷在變化範圍之內,則認為該目標語的翻譯是不可信賴的。上述判斷原則還可以用邏輯計算式表示為
此計算式結果為 1,則
認為該目標語的翻譯是可信賴的,計算是結果為0,則認為該目標語的翻譯是不可信賴的。在翻譯過程中,由於語言習慣不同,可能會出現一句翻譯成多句,或是多句被翻譯 成一句的情況。針對這種並非一一對應翻譯的情況,本發明設計了一下幾種處理方法。實施例六針對步驟(4)句子配對後出現一句源語與多句目標語相配對的情況,本實施例在 第一實施例的基礎上,在所述步驟(4)和步驟(5)之間還包括如下句子處理步驟(al)計算所述參照句中各個以範疇標識為單位的詞彙與相配對目標語組中各個 以範疇標識為單位的詞彙語義變化幅度DD ;這裡所述詞彙語義變化幅度DD與前面所述語義差異度計算公式中的詞彙語義變 化幅度相同,在此就不再重複介紹。(a2)根據該詞彙語義變化幅度DD將參照句中各個以範疇標識為單位的詞彙按照 相匹配的目標語組中的句子進行劃分;(a3)將劃分後的詞彙按照既有語法規則組織成新的獨立句子;這裡,基於現有的語言學方法將一些散亂的詞彙按照語法規則組織成符合語法規 則的完整句子是可以實現的。在這裡我們就不再介紹其實現方法。
(a4)將所組織的新的獨立句子作為新的參照句與相配對的目標語建立配對關係。通過上述步驟,我們將源語長句拆分成若干句與目標句相配對的參照句,從而建 立了參照句與目標句之間的一一對應關係,以方便進行比較審核。應當指出,後續步驟(5) 的翻譯比對庫生成過程中也將已上述所新組織成的獨立句子為標準,生成翻譯比對庫。實施例七針對步驟(4)句子配對後出現多句源語與一句目標語相配對的情況,本實施例在 第一實施例的基礎上,在所述步驟(4)和步驟(5)之間還包括如下句子處理步驟(bl)將所述與目標句相匹配的多句源語中各個以範疇標識為單位的詞彙按照語 法規則組織成新的獨立句子;(b2)將所組織的新的獨立句子作為新的參照句與相配對的目標語建立配對關係。通過上述步驟,我們將多句源語合併成一句與目標句相配對的參照句,從而建立 了參照句與目標句之間的一一對應關係,以方便進行比較審核。應當指出,後續步驟(5)的 翻譯比對庫生成過程中也將以上述所新組織成的獨立句子為標準,生成翻譯比對庫。下面以兩個具體翻譯審核實例對上述語言翻譯質量審核方法做進一步說明。實例一iM^iM^MjCMi^^] :Neither the United States nor China is contentto rest on our achievements.(選自美國總統歐巴馬2009年11月16日在上海與中國青年 的對話)。該源語的中文目標語為無論美國還是中國,是休息的內容,我們的成就。步驟(1)我們對英文源語和目標語標註範疇標識源語範疇標識Neither the United States nor China is content to
S/SNS/S N S/N (S/N)/(S/N) S/S
rest on our achievements.
(S/N)/N N/NN
目標語範疇標識Mffl,是 休息的內容,我們的成就。S/S N S/S N (S/N) /N N/N N N/N N在範疇標識中S指句子。N指名稱,對應自然語言中的名詞,語法成分中的主語和賓語。
S/N 一般對應自然語言中的不及物動詞。(S/N) /N 一般對應自然語言中的及物動詞。S/S在形式語言中的定義是「具有句中造句功能的範疇,象『必要地』、『可能 地,以及其他模態運算符(modal operator)都屬於這類範疇」(第134頁,《Logic in Linguistics)),牛津大學出版社1977年首次出版,作者Jens Allwood等)。例句中如果沒 有neither. ·· nor,那麼'the US andChina are content to rest on our achievements' 是一個完整的句子S。在S中加了 neither. . . nor以後,句義增加了,又形成一個句子S,但 S是一個句子的屬性未變,因此具備這類功能的詞彙記做S/S。例句中以to開頭的不定式補語to rest on our achievement修飾content。如
14果刪掉此不定式補語,則剩餘部分仍是完整句子,因此在拆分不定式短語前,將to的標識 記做S/S。S/SS具有將兩句連為一句的功能,一般對應自然語言中連接句子的連詞等虛詞。(S/N) / (S/N)指修飾不及物動詞,但未改變動詞的不及物屬性的範疇。例如源語句 中的content修飾偏向不及物動詞屬性的表語is(其功能和詞義類似於feel)。其偏向不 及物動詞的屬性使其和前面的N組成句子,因此is的功用是S/N。而在is後加了 content 後,句義增加了,而is偏向不及物動詞屬性不變,仍是S/N,因此具備這類功能的詞彙記做 (S/N)/(S/N)。Ν/Ν—般對應指自然語言中修飾名稱的形容詞、名詞等。範疇標識中的連接符可以從右上向左下「/」偏,表示前面的詞彙修飾後面的詞彙。 也可記做從左上向右下偏「 \ 」,表示後面的詞彙修飾前面的詞彙。步驟(2)將上述標註範疇標識後的源語和目標語分別拆分為如圖5 (A)、(B)所示 的範疇樹圖。其中,圖5(A)為源語的範疇樹圖,圖5(B)為目標語的範疇樹圖。步驟(3)根據步驟(1)所標註的範疇標識,基於詞典對源語生成參照句為既不 美國I也不I中國I是I滿足I [ 0,於]I依賴I我們的I成就。(注
表示to可以不翻,也可譯為「於」,譯項的詞義範圍涵蓋自0至「於」 的詞義區間。)步驟(4)根據目標語相對於參照句的語義差異度A1計算公式A1 (Sn,S' m)= Σ Cxsn* δ ^DDx(Sn,S' m),計算語義差異度 A1 = 0. 796。根據參照句相對於目標語的語義差異度A2計算公式A2(S 『 m, Sn)= Σ CYS, m* δ YS, m*DDY(S' m,Sn),計算語義差異度 A2 = 0. 957。據此得出目標語與源語之間的配對關係。由於此例子為一對一翻譯,所以不存在 具體配對關係問題。步驟(5)基於可信賴的語言翻譯工具,對所有源語進行翻譯,生成翻譯比對庫為1)美國I (和)I中國I (都不)I滿足(於)I [ 0,依賴)I我們的成就。2)(無論)ι美國ι (還是)I中國I (對)I
,(1.518,1. 792]} 0依據句式差異度計算公式 {BE2(Sl,Sm)} = (ZCxsl *Sxs, *(Wxsl Wxs.m -C^.m|)}依次計算翻譯比對庫中各個翻 譯句相對於所配對的參照句的句式差異度{BE2}為{(1.673,1.710], (1.503,1. 532]} 0 從而得到翻譯比對庫對參照句的語句差異度評估值集合{E2(S1,S' m)} = {(AE2(S1, S' m),Be2 (Si,S' m))} = {((1.371,1.660], (1. 673,1. 710]), ((1. 518,1. 792], (1.503, 1. 532])}。步驟(8)由於
E1* (0· 796,2.683),{E2}為{((1· 371,1· 660],(1.673,1.710]), ((1· 518,1. 792],(1. 503,1. 532])},E1不屬於{Ej,由此判斷目標語不可信賴。這樣我們就根據本發明所設計的語言翻譯質量審核方法對上述實例的翻譯質量 完成了自動化、標準化程度高的審核工作。綜上所述,本發明所設計的語言翻譯質量審核方法對被翻譯的源語基於現有可信 賴的眾多翻譯方法翻譯形成一翻譯比對庫。分別將該翻譯比對庫中的各翻譯句和待審核的 目標語與根據源語生成的參照句進行基於範疇標識為基礎結構的語義比較,計算出相應的 語義差異度。並判斷目標語與參照句的語義差異度是否在翻譯比對庫中各翻譯句與參照句 的語義差異度的範圍之內,進而判斷該翻譯是否值得信賴,並提供對錯誤翻譯的修改。這樣 的審核方法自動化和標準化程度高,很好的解決了現有技術中存在的問題。本領域一般技 術人員在此設計思想之下所作任何不具有創造性的改造均應視為在本發明的保護範圍之 內。
權利要求
語言翻譯質量審核方法,其特徵在於包括步驟如下(1)對所有源語和目標語標註範疇標識;(2)對所有標註範疇標識後的源語和目標語拆分其範疇樹圖;(3)根據所述源語生成參照句;(4)對所述參照句和目標語進行語義相似度比較,根據各句子間的語義相似度值進行句子配對,以使目標語與其所翻譯的對應源語相配對;(5)基於可信賴的語言翻譯工具,對所有源語進行翻譯,生成翻譯比對庫;(6)將目標語與所配對的參照句進行語句差異度評估,得到目標語對參照句的語句差異度評估值E1;(7)將翻譯比對庫中各個翻譯句與所配對的參照句進行語句差異度評估,得到翻譯比對庫對參照句的語句差異度評估值集合{E2};(8)判斷所述E1是否屬於{E2},如果屬於則認為該目標語的翻譯是可信賴的,如果不屬於則認為該目標語的翻譯是不可信賴的。
2.如權利要求1所述的語言翻譯質量審核方法,其特徵在於在所述步驟(8)後還包 括有對錯誤翻譯的句子進行修改的步驟(9)當該目標語的翻譯被判斷為不可信賴後,從翻譯比對庫中任意選取一句對應翻譯 句替換該目標語,以對該錯誤翻譯進行修改。
3.如權利要求1所述的語言翻譯質量審核方法,其特徵在於在所述步驟(8)後還包 括有對錯誤翻譯的句子進行修改的步驟(9』)當該目標語的翻譯被判斷為不可信賴後,從翻譯比對庫中選取翻譯比對庫對參照 句的語義差異度集合{E2}中與目標語對參照句的語義差異度E1最接近的一句對應翻譯句 替換該目標語,以對該錯誤翻譯進行修改。
4.如權利要求1所述的語言翻譯質量審核方法,其特徵在於所述步驟(4)包括如下 具體步驟(41)依據語義差異度計算公式依次計算目標語各句相對於參照句各句的語義差異度 A1 ;所述語義差異度計算公式為 A1 (Sn, S' m) = Σ Cxsn* δ XSn*DDx(Sn,S' m);其中,AjSmS' m)表示目標語中第Sn句相對於參照句中第S' m句的語義差異度, DDx(Sn, S' m)表示目標語中第Sn句相對於參照句中第S' m句中第X對範疇標識之間的 詞彙語義變化幅度,S xs 表示在該對範疇標識中該目標語的範疇標識在該目標語句子中的 重要性權重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語句子的範疇 樹圖中的範疇層數權重值;(42)依據語義差異度計算公式依次計算參照句各句相對於目標語各句的語義差異度 A2 ;所述語義差異度計算公式為 A2 (S' m,Sn) = Σ Cys, m* δ YS, m*DDY(S' m,Sn);其中,A2(S' m,Sn)表示參照句中第S' m句相對於目標語中第Sn句的語義差異度, DDy(S' m, Sn)表示參照句中第S' m句相對於目標語中第Sn句中第Y對範疇標識之間的 詞彙語義變化幅度,5Ys, m表示在該對範疇標識對中該參照句的範疇標識在該參照句句子 中的重要性權重值,Cys, 111表示在該對範疇標識對中該參照句的範疇標識在該參照句句子的 範疇樹圖中的範疇層數權重值;(43)根據步驟(41)和(42)所計算出的語義差異度~、A2,按照公式A(Sn,S'm)=(A1 (Sn, S' m)+A2(S' m,Sn))/2計算目標語與參照句之間的平均語義差異度A(Sn,S' m);(44)從目標語中第一句開始選取參照句中與該句平均語義差異度最低的一句建立配 對關係;(45)目標語中的後續句子依次從參照句中與前一句進行配對的句子開始查找與該句 平均語義差異度最低的一句建立配對關係,直至目標語結束,完成從目標語到參照句的句 子配對過程。
5.如權利要求1所述的語言翻譯質量審核方法,其特徵在於所述步驟(3)的參照句 生成過程具體如下(3)所述源語根據步驟(1)所標註的範疇標識,基於詞典進行詞彙的直接替換,從而生 成參照句。
6.如權利要求1所述的語言翻譯質量審核方法,其特徵在於所述步驟(6)包括如下 具體步驟(61)依據語義差異度計算公式依次計算目標語各句相對於所配對的參照句的語義差 異度Aei ;所述語義差異度計算公式為Aei (Sn,S' m) =Σ CXSn*SXSn*DDx(Sn,S' m);其中,AE1(Sn,S' m)表示目標語中句子Sn相對於參照句中所配對句子S' m的語義差 異度,DDx(Sn,S' m)表示目標語中句子Sn相對於參照句中句子S' m中第X對範疇標識 之間的詞彙語義變化幅度,δ xsn表示在該對範疇標識中該目標語的範疇標識在該目標語句 子中的重要性權重值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語句子 的範疇樹圖中的範疇層數權重值;(62)依據句式差異度計算公式依次計算目標語各句相對於 所配對的參照句的句式差異度Bei ;所述句式差異度計算公式為 Bm (Sn, S m) = ^ Cxsn * δ施 * (Wxsn θ Wxs,m + - C^m |);其中,BE1(Sn,S' m)表示目標語中句子Sn相對於參照句中所配對句子S' m的句式 差異度,δ xsn表示在該對範疇標識中該目標語的範疇標識在該目標語句子中的重要性權重 值,Cxsn表示在該對範疇標識對中該目標語的範疇標識在該目標語句子的範疇樹圖中的範 疇層數權重值,Cxs, m表示在該對範疇標識對中該參照句的範疇標識在該源語句子的範疇樹 圖中的範疇層數權重值,^sn ^ym表示將目標語中句子Sn相對於參照句中句子S' m中 第X對範疇標識之間的範疇標識進行異或計算;(63)根據步驟(61)、(62)所計算的語義差異度Aei(Sn,S' m)和句式差異度Bei (Sn, S' m),得到目標語對參照句的語句差異度評估值EjSmS' m) = (Aei (Sn, S' m), Bei (Sn, S' m))。
7.如權利要求1所述的語言翻譯質量審核方法,其特徵在於所述步驟(7)包括如下 具體步驟(71)依據語義差異度計算公式依次計算翻譯比對庫中各個翻譯句相對於所配 對的參照句的語義差異度{AE2};所述語義差異度計算公式為{AE2(S1,S' m)}= { Σ Cxsl*Sxsl*DDx(Sl,S' m)};其中,{AE2(S1,S' m)}表示翻譯比對庫中句子Sl相對於參照句中所配對句子S' m的 語義差異度,DDX(S1,S' m)表示翻譯比對庫中句子Sl相對於參照句中句子S' m中第X對 範疇標識之間的詞彙語義變化幅度,δ XS1表示在該對範疇標識中該翻譯比對庫中的範疇標識在其句子中的重要性權重值,Cxsl表示在該對範疇標識對中該翻譯比對庫中的範疇標識 在其句子的範疇樹圖中的範疇層數權重值;(72)依據句式差異度計算公式依次計算翻譯比對庫中各個翻譯句 相對於所配對的參照句的句式差異度{BE2};所述句式差異度計算公式為 {BE2(Sl,Sm)} = (^Cxsl *Sxsl HWxsl Wxs,m +|C觀-Cxs,m\)};其中,{BE2(S1,S' m)}表示翻譯比對庫中句子Sl相對於參照句中所配對句子S' m的 句式差異度,δ XS1表示在該對範疇標識中該翻譯比對庫中的範疇標識在其句子中的重要性 權重值,Cxsl表示在該對範疇標識對中該翻譯比對庫中的範疇標識在其句子的範疇樹圖中 的範疇層數權重值,Cxs, 111表示在該對範疇標識對中該參照句的範疇標識在該源語句子的範 疇樹圖中的範疇層數權重值,『皿 表示將翻譯比對庫中句子Sl相對於參照句中句子 S' m中第X對範疇標識之間的範疇標識進行異或計算;(73)根據步驟(71)、(72)所計算的語義差異度{AE2(S1,S'm)}和句式差異度{BE2(S1, S' m)},得到翻譯比對庫對參照句的語句差異度評估值集合{E2(S1,Sm)} = {(AE2(S1, S' m),Be2 (Si,S' m))}。
8.如權利要求6和7所述的語言翻譯質量審核方法,其特徵在於所述步驟(8)的判 斷過程具體如下(81)人為給出語義差異度的允許變化範圍值dA和句式差異度的允許變化範圍值dB;(82)判斷目標語的語義差異度Aei(Sn,S' m)是否在翻譯比對庫的語義差異度變化範 圍{AB2(S1,S' m) 士dA}之內;(83)判斷目標語的句式差異度Bei(Sn,S' m)是否在翻譯比對庫的句式差異度變化範 圍{BE2(S1,S' m) 士dB}之內;(84)根據步驟(82)、(83)的判斷結果判斷該目標語的翻譯是否是可信賴的,如果步 驟(82)、(83)均判斷在變化範圍之內,則認為該目標語的翻譯是可信賴的,如果步驟(82)、 (83)有任一步驟不被判斷在變化範圍之內,則認為該目標語的翻譯是不可信賴的。
9.如權利要求1所述的語言翻譯質量審核方法,其特徵在於在所述步驟(4)和步驟 (5)之間還包括如下句子處理步驟(al)計算所述參照句中各個以範疇標識為單位的詞彙與相配對目標語組中各個以範 疇標識為單位的詞彙語義變化幅度DD ;(a2)根據該詞彙語義變化幅度DD將參照句中各個以範疇標識為單位的詞彙按照相匹 配的目標語組中的句子進行劃分;(a3)將劃分後的詞彙按照既有語法規則組織成新的獨立句子;(a4)將所組織的新的獨立句子作為新的參照句與相配對的目標語建立配對關係。
10.如權利要求1所述的語言翻譯質量審核方法,其特徵在於在所述步驟(4)和步驟 (5)之間還包括如下句子處理步驟(bl)將所述與目標句相匹配的多句源語中各個以範疇標識為單位的詞彙按照語法規 則組織成新的獨立句子;(b2)將所組織的新的獨立句子作為新的參照句與相配對的目標語建立配對關係。
全文摘要
本發明提供了一種語言翻譯質量審核方法,該審核方法對被翻譯的源語基於現有可信賴的眾多翻譯方法翻譯形成一翻譯比對庫。分別將該翻譯比對庫中的各翻譯句和待審核的目標語與根據源語生成的參照句進行基於範疇標識為基礎結構的語義比較,計算出相應的語義差異度。並判斷目標語與參照句的語義差異度是否在翻譯比對庫中各翻譯句與參照句的語義差異度的範圍之內,進而判斷該翻譯是否值得信賴,並提供對錯誤翻譯的修改。這樣的審核方法自動化和標準化程度高,是理想的翻譯質量審核方法。
文檔編號G06F17/28GK101923540SQ20101023427
公開日2010年12月22日 申請日期2010年7月20日 優先權日2010年7月20日
發明者陳潔 申請人:陳潔