多語言智能預處理實時統計機器翻譯系統的預處理模塊的製作方法
2023-09-21 00:58:10

本發明涉及人工智慧機器翻譯技術領域,具體來說,涉及一種多語言智能預處理實時統計機器翻譯系統的預處理模塊。
背景技術:
機器翻譯是利用計算機對人類自然語言進行自動翻譯的技術,是利用計算機把一種自然語言轉換成另一種自然語言的過程,而且兩種自然語言在意義上應該是等價的。
目前,一種比較成熟而且主流的機器翻譯方法是基於統計的方法,該方法的優點在於幾乎不需要人工撰寫翻譯規則,所有的翻譯信息都是自動地從語料中學習而獲得,因此該方法最大程度地發揮了計算機高速運算的特點,極大地降低了人工成本。
基於統計模型的機器翻譯技術從平行語料庫中學習從一種語言a到另一種語言b的短語翻譯。在翻譯新的句子時,把輸入語言a的句子分解成若干短語,根據學習來的短語(a語言)-短語(b語言)的共現概率,把語言a的句子翻譯成語言b的句子。整個學習、翻譯過程完全根據統計模型。
目前機器翻譯的預處理模塊功能不並完善,大多是在接收模塊接收之後進行簡單的錯別字判斷、標點預測之後即由翻譯模塊進行訓練和翻譯,這樣不僅增加了機器翻譯的難度,而且對於小概率詞語,翻譯模塊可能會出現翻譯不準確的問題。
技術實現要素:
針對相關技術中的上述技術問題,本發明提出一種一種多語言智能預處理實時統計機器翻譯系統的預處理模塊,能夠克服現有技術的上述不足。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種多語言智能預處理實時統計機器翻譯系統的預處理模塊,所述預處理模塊包括文本預處理模塊和語音識別結果預處理模塊,所述文本預處理模塊用於對文本輸入的語言進行單詞規範化操作、類別識別標註及語塊語序調整;所述語音識別結果預處理模塊用於對語音進行單詞規範化操作和標點預測。
進一步的,所述文本預處理模塊包括單詞規範化子模塊,所述單詞規範化子模塊用於使待翻譯語言在詞語層面上更加接近目標語言。
優選的,當待翻譯語言為中文,翻譯目標語言是英語時,文本預處理模塊對中文進行分詞,並在詞語間插入空格。
優選的,當待翻譯語言為德語,翻譯目標語言是英語時,文本預處理模塊對德語中的複合詞進行拆分,並增加德語與英語句子中詞語一對一的對應關係。
進一步的,所述文本預處理模塊還包括類別識別標註子模塊,所述類別識別標註子模塊用於對待翻譯語言文本中的數字、日期、時間、url分別標註為$number,$date,$hour和$www,並預先將類別中的內容翻譯成目標語言。
進一步的,所述文本預處理模塊還包括語塊語序調整子模塊,所述語塊語序調整子模塊用於對待翻譯語言的句子進行語法分析,然後依據自動學習的規則對待翻譯語言的語塊順序進行調整,使得待翻譯語言的語序更加接近目標語言的語序。
優選的,所述的語法分析包括短語的自動識別和/或語法樹的生成。
優選的,所述待翻譯語言的句子經過語塊語序調整子模塊調整語序後以最優語序輸出,或者把若干個較優語序以字格形式輸出。
進一步的,所述的語音識別結果預處理模塊包括單詞規範化子模塊,所述單詞規範化子模塊用於使待翻譯語言句子中的詞語顆粒更加接近目標語言的詞語。
優選的,所述的語音識別結果預處理模塊還包括標點預測子模塊,所述標點預測子模塊用於根據上下文和詞語間的停頓判斷語音識別輸出中句號的位置。
本發明的有益效果:本發明的預處理模塊能夠對待翻譯的文本語言進行單詞規範化操作、類別識別標註以及語塊語序調整等基本操作,方便後續翻譯模塊對待翻譯語言文本的翻譯;或者對語音語言進行單詞規範化操作或者對語音流中的標點進行預測等預處理,方便後續機器翻譯模塊的翻譯;本發明預處理模塊對小概率詞語進行標註並優先翻譯,能夠提高對小概率詞語翻譯的準確性。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是根據本發明實施例所述的文本預處理模塊的流程圖;
圖2是根據本發明實施例所述的語音識別結果預處理模塊的流程圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬於本發明保護的範圍。
如圖1-2所示,根據本發明實施例所述的一種多語言智能預處理實時統計機器翻譯系統的預處理模塊,所述預處理模塊包括文本預處理模塊和語音識別結果預處理模塊,所述文本預處理模塊用於對文本輸入的語言進行單詞規範化操作、類別識別標註及語塊語序調整;所述語音識別結果預處理模塊用於對語音進行單詞規範化操作和標點預測。其中,所述文本預處理模塊包括單詞規範化子模塊、類別識別標註子模塊和語塊語序調整子模塊,所述單詞規範化子模塊用於使待翻譯語言在詞語層面上更加接近目標語言;所述類別識別標註子模塊用於對待翻譯語言文本中的數字、日期、時間、url分別標註為$number,$date,$hour和$www,並預先將類別中的內容翻譯成目標語言;所述語塊語序調整子模塊用於對待翻譯語言的句子進行語法分析,然後依據自動學習的規則對待翻譯語言的語塊順序進行調整,使得待翻譯語言的語序更加接近目標語言的語序。所述的語音識別結果預處理模塊包括單詞規範化子模塊和,標點預測子模塊;所述單詞規範化子模塊用於使待翻譯語言句子中的詞語顆粒更加接近目標語言的詞語;所述標點預測子模塊用於根據上下文和詞語間的停頓判斷語音識別輸出中句號的位置。
在一具體實施例中,當待翻譯語言為中文,翻譯目標語言是英語時,文本預處理模塊對中文進行分詞,並在詞語間插入空格。
在一具體實施例中,當待翻譯語言為德語,翻譯目標語言是英語時,文本預處理模塊對德語中的複合詞進行拆分,並增加德語與英語句子中詞語一對一的對應關係。
在一具體實施例中,所述的語法分析包括短語的自動識別和/或語法樹的生成。
在一具體實施例中,所述待翻譯語言的句子經過語塊語序調整子模塊調整語序後的句子以最優語序輸出,或者把若干個較優語序以字格形式輸出。
為了方便理解本發明的上述技術方案,以下通過具體使用方式上對本發明的上述技術方案進行詳細說明。
在具體使用時,本發明的預處理模塊用於對待翻譯語言進行若干操作,使其更加接近翻譯目標語言,以便後續的機器翻譯模塊取得更好地翻譯質量。預處理模塊包括文本預處理模塊和語音識別結果預處理模塊,文本預處理模塊主要由三部分組成,如附圖中圖1所示。b.1單詞規範化子模塊使得待翻譯語言a在詞語層面上更加接近翻譯目標語言b:比如進行中-英翻譯時,中文要進行分詞,在詞語間插入空格,進行德-英翻譯時,要對德語中的複合詞進行拆分,增加德英句子中詞語一對一的對應關係;b.2類別識別標註子模塊把源語言a中的小概率詞語,例如數字、日期、時間、url分別標註為對應的類別$number,$date,$hour和$www,類別內的內容由規則預先翻譯成目標語言b,後續的機器翻譯模塊不再對其進行翻譯。b.3語塊語序調整子模塊首先對源語言a的句子進行語法分析:進行短語的自動識別或語法樹生成,然後依據自動學習的規則(基於短語的)對源語言的語塊順序進行調整,使得源語言的語序更加接近目標語言,經過語塊語序調整子模塊調整語序後的句子可以以最優語序輸出,也可以把若干個較優語序以字格(lattice)形式輸出,該模塊為一個可選的模塊,根據源語言是否具備性能良好的語法分析器等來決定是否開啟該模塊。語音識別結果預處理模塊由兩部分組成,如附圖中圖2所示。b.4單詞規範化子模塊和b.1單詞規範化子模塊相似,也是在源語言的詞語層面上使待翻譯語言a的語言句子中的詞語顆粒更加接近翻譯目標語言b的詞語;b.5標點預測子模塊根據上下文和詞語間的停頓預測語音識別輸出中的句號位置,該子模塊為一可選模塊,主要用於比較接近書面語的語音識別翻譯中,例如用於對演講的翻譯。
其中,b.2類別識別標註子模塊是基於雙語的半自動類別識別和翻譯。所謂半自動是指在雙語中在源語言上以人工的方式定義出需要識別的類別;然後根據平衡語料庫和詞語比對(wordalignment)自動學習出在另一種語言中對應需要的類別和類別的翻譯。以英中翻譯為例,首先在英文上定義出需要識別的類別$number,$date,$hour,$www,每個類別的內容可以包含若干的詞。然後在中文上識別出所有的數字,標記為$bnumber,識別出和全球資訊網相關的詞www,http,.com等,標記為$bwww,此處的$bnumber和$bwww為中文中類別的核心,在此核心的基礎上,還要包含進前後的詞語,才能構成最終和英文中類別相對應的中文類別,包涵哪些前後詞語,我們通過詞語比對(wordalignment)自動抽取,在詞語比對中和英文類別邊界詞相對應的中文詞,也可能是中文類別的邊界詞語,確定了中文類別的邊界詞語,抽取出來的中文類別內容,也就隱含了對應的英文類別的中文翻譯,我們從中學習英文類別到中文類別的翻譯規則。例如:
$number{2個}→$number{2}
$number{2成}→$number{20%}
$number{第2}→$number{2nd}
改種方法提取出的規則更佳符合數據的實際情況,降低了人工定義的規則在實際應用中產生的錯誤,和傳統在兩種語言上分別定義類別和規則相比,提高了效率;而且也不要求規則制定人同時熟悉兩種語言;還大大降低了在兩種語言上的規則的不匹配率,從而提高了機器翻譯質量。
b.3語塊語序調整子模塊在統計翻譯系統中語序調整方面加入了語法的限制。當一種語言翻譯成另一種語言時,由於語法的不同,表達習慣的不同,詞語表達的順序經常有所差別,在完成翻譯時,除了要把詞語或短語翻譯成另一種語言,還要把翻譯的短語放到合適的位置。在統計翻譯系統中,其基本單位-短語-是任意詞串,並不要求其符合語法結構,這導致挪動的語塊再拼接起來經常產生很奇怪的翻譯,本發明在預處理階段通過淺層句法分析引入了符合語法規則的短語的信息,在後續的短語位置挪動步驟,只把符合語法約束的短語進行挪動,從而提高了翻譯結果的正確性和流暢度。
其具體步驟為:
對源語言進行淺層句法分析,生成np(名詞短語)、vp(動詞短語)、pp(介詞短語)等語法信息;
通過詞語比對(wordalignment)學習詞序調整規則,並每條規則的概率,學習到的規則,例如:
dnpnpvp–>dnpnpvp(0.89)
dnpnpvp–>npdnpvp(0.11)
即短語序列dnpnpvp短語順序不變的概率為0.89,變為npdnpvp的概率為0.11;
應用這些規則到源語言輸入句子上,不同的規則組合應用產生不同短語序列變化,所有的這些變化以字格(lattice)形式表示出來,根據規則的概率,計算出字格中的每條路徑的概率,從而找出最優路徑,或將整個字格網絡作為後續機器翻譯模塊的新的輸入。
綜上所述,藉助於本發明的上述技術方案,本發明的預處理模塊能夠對待翻譯的文本語言進行單詞規範化操作、類別識別標註以及語塊語序調整等基本操作,方便後續翻譯模塊對待翻譯語言文本的翻譯;或者對語音語言進行單詞規範化操作或者對語音流中的標點進行預測等預處理,方便後續機器翻譯模塊的翻譯;本發明預處理模塊對小概率詞語進行標註並優先翻譯,能夠提高對小概率詞語翻譯的準確性。
以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。