機器翻譯中抽取調序模板的方法及系統的製作方法

2023-12-02 14:03:16 8

專利名稱：：機器翻譯中抽取調序模板的方法及系統的製作方法
技術領域：
：本發明涉及機器翻譯領域，尤其涉及機器翻譯中抽取調序模板的方法及系統。
背景技術：
：翻譯模板是機器翻譯中常用的指導翻譯的知識表示形式，描述從源語言翻譯到目標語言時所需遵循的對應關係。翻譯模板為源語言端和目標語言端的常量和變量組成的字符串，而且源語言和目標語言字符串的各部分一一對應。—個漢語_英語的簡單翻譯模板舉例今天X。Xtoday.模板中的常量即指語言片段，也稱終結符，如上例中的"今天"，對應"today";"。"對應"."。變量即指用"X"代表的部分，也稱非終結符。非終結符為在抽取過程中對終結符序列進行替換得到。由於源語言和目標語言的順序通常不一致，翻譯模板又分為順序模板和調序模板兩類。順序模板中的所有對應部分在源語言和目標語言中順序一致，而調序模板則描述了源語言和目標語言翻譯對順序不一致的情況。翻譯模板可以由手工構建，也可以從雙語語料中自動抽取。由於手工構建的模板成本較高，而且匹配時容易發生衝突，在現有技術的機器翻譯系統中一般使用從雙語語料中自動抽取方法抽取翻譯模板。儘管自動抽取翻譯模板成本低，容易在機器翻譯系統中使用，但是由於翻譯模板的非終結符通過替換多種終結符序列得到，造成自動抽取模板的數量巨大，現有技術中為了保證機器翻譯系統的效率，通常對抽取翻譯模板具有多種限制，例如，對抽取翻譯模板的句子部分的長度限制，對翻譯模板源語言端和目標語言端長度的限制等。在機器翻譯中，調序問題是指由於源語言和目標語言詞序通常不一致，需要在翻譯過程中對目標語言進行重排序的問題。它是機器翻譯的核心問題之一，因為好的機器翻譯結果必須具有正確的目標語言順序。在使用自動抽取模板的統計機器翻譯系統中，調序通常通過匹配調序模板實現。但是，現有技術中機器翻譯系統中使用的翻譯模板由於抽取過程的種種限制，不能準確，完整地描述重排序現象；在機器翻譯過程中，由於計算翻譯模板調序代價巨大，在沒有合適的翻譯模板使用時，默認按照順序方式翻譯，從而造成錯誤調序。所以，現有的調序模板自動抽取方法存在調序模板對於翻譯中調序現象覆蓋低的問題。
發明內容為解決上述問題，本發明提供了機器翻譯中抽取調序模板的方法及系統，能夠消除現有技術中對抽取翻譯模板的限制，並能夠提取出多種調序模板以增加調序模板對於翻譯中調序現象的覆蓋率。本發明公開了一種機器翻譯中抽取調序模板的方法，包括步驟l，輸入雙語對齊語料，對所述雙語對齊語料中的源語言部分進行分詞和詞性標註；步驟2，對雙語對齊語料中每一個雙語句對，進行調序分析，抽取出調序實例；步驟3，對於每個所述調序實例，根據所述調序實例中的詞對在源語言和目標語言中位置，將所述調序實例劃分為兩部分，對於每個部分，根據詞性標註確定變量部分，將所述變量部分替換為變量。所述步驟2進一步為，步驟21，對每一個雙語句對，將所述雙語句對中滿足條件的句塊對抽取為調序實例；所述條件為所述句塊對滿足詞語對齊一致性，所述句塊對包括兩個相鄰的子句塊對，並且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反，且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。所述步驟3進一步為，步驟31，對於每個所述調序實例，根據調序實例中詞對在源語言和目標語言中的位置確定調序的分界，從所述分界處將所述調序實例劃分為兩部分；步驟32，對於每個部分，根據詞性標註在所述部分的源語言部分中查找滿足條件的句段，選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分，以所述句段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部分，將源語言部分和目標語言部分的變量部分替換為變量，以形成調序模板；所述條件為句段的第一個詞和最後一個詞為實詞，並且所述句段和所述句段在所述部分的目標語言部分中的對應句段滿足詞語對齊一致性。所述步驟21還包括，步驟41，對每一個雙語句對，根據雙語句對的調序實例間的包含關係，將所述調序實例組成樹狀結構。所述步驟3後還包括，步驟51，如果變量部分包含調序實例，將所述變量部分替換為所述變量實例對應的調序模板。所述步驟3後還包括步驟61，對雙語對齊語料應用最大似然估計法，計算每個詞對的翻譯概率，根據所述詞對的翻譯概率計算所述調序模板的詞彙化概率。所述步驟3後還包括步驟71，對每個所述調序模板，在所述雙語對齊語料中匹配所述調序模板的源語言部分和目標語言部分，獲得匹配次數和完全匹配次數；步驟72，根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言的翻譯概率。本發明還公開了一種機器翻譯中抽取調序模板的系統，包括語料處理模塊，用於輸入雙語對齊語料，對所述雙語對齊語料中的源語言部分進行分詞和詞性標註；調序實例抽取模塊，用於對雙語對齊語料中每一個雙語句對，進行調序分析，抽取出調序實例；調序模板生成模塊，用於對於每個所述調序實例，根據所述調序實例中的詞對在源語言和目標語言中位置，將所述調序實例劃分為兩部分，對於每個部分，根據詞性標註確定變量部分，將所述變量部分替換為變量。所述調序實例抽取模塊進一步用於對每一個雙語句對，將所述雙語句對中滿足條件的句塊對抽取為調序實例；所述條件為所述句塊對滿足詞語對齊一致性，所述句塊對包括兩個相鄰的子句塊對，並且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反，且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。所述調序模板生成模塊進一步用於對於每個所述調序實例，根據調序實例中詞對在源語言和目標語言中的位置確定調序的分界，從所述分界處將所述調序實例劃分為兩部分；對於每個部分，根據詞性標註在所述部分的源語言部分中查找滿足條件的句段，選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分，以所述句段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部分，將源語言部分和目標語言部分的變量部分替換為變量，以形成調序模板；所述條件為句段的第一個詞和最後一個詞為實詞，並且所述句段和所述句段在所述部分的目標語言部分中的對應句段滿足詞語對齊一致性。所述調序實例抽取模塊還用於對每一個雙語句對，根據雙語句對的調序實例間的包含關係，將所述調序實例組成樹狀結構。所述調序模板生成模塊還用於在變量部分包含調序實例時，將所述變量部分替換為所述變量實例對應的調序模板。所述系統還包括概率生成模塊，用於對雙語對齊語料應用最大似然估計法，計算每個詞對的翻譯概率，根據所述詞對的翻譯概率計算所述調序模板的詞彙化概率。所述系統還包括概率生成模塊，用於對每個所述調序模板，在所述雙語對齊語料中匹配所述調序模板的源語言部分和目標語言部分，獲得匹配次數和完全匹配次數；根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言的翻譯概率。本發明的有益效果在於，在調序模板抽取時沒有長度限制，同時只抽取具有調序作用的模板，保證了抽取的效率；調序模板抽取允許調序模板的源語言部分含有兩個以上的變量或連續變量，相比於現有技術的模板抽取，減少了限制，增加了調序模板的可泛化程度。圖1是本發明抽取調序模板的方法的流程圖2是本發明抽取調序模板的方法具體實施方式的流程圖；圖3是本發明抽取調序模板的系統的結構圖。具體實施例方式下面結合附圖，對本發明做進一步的詳細描述。—種機器翻譯中抽取調序模板的方法的流程如圖1所示。步驟S100，輸入雙語對齊語料，對雙語對齊語料中的源語言部分進行分詞和詞性標註。雙語對齊語料為已經經過自動對齊的雙語語料。步驟S200，對每一個雙語句對，進行調序分析，抽取出調序實例。調序實例是源語言和目標語言順序不一致的句塊對，並且調序實例滿足詞語對齊一致性。詞語對齊一致性是指句塊對中源語言部分的每個詞對應的目標語言的詞都在句塊對的目標語言部分中，目標語言部分的每個詞對應的源語言的詞都在句塊對的源語言部分，並且目標語言部分中未包含的目標語言的詞對應的源語言的詞沒有在源語言部分中出現，源語言部分中未包含的源語言的詞對應的目標語言的詞沒有在目標語言部分中出現。步驟S300，對於每個調序實例，根據詞對在源語言和目標語言中位置，將該調序實例劃分為兩部分，對於每個部分，根據詞性標註確定變量部分，將所述變量部分替換為變量，以獲得調序模板。—較佳的方法中，所述步驟S200進一步為，步驟S210，對每一個雙語句對，將該雙語句對中滿足條件的句塊對抽取為調序實例。所述條件為句塊對滿足詞語對齊一致性，並且句塊對包括兩個相鄰的子句塊對，所述兩個子句塊對滿足詞語對齊一致性，並且它們的源語言部分在句塊對的源語言部分的順序與所述兩個子句塊對的目標語言部分在句塊對的目標語言部分的順序相反，且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。句塊對源語言部分的兩個子部分和該子部分按詞對齊確定的句塊對目標語言部分的對應的子部分組成子句塊對。所述延伸兩個子句塊為將子句塊對中的源語言部分在所述雙語句對中的源語言部分中延伸，由於延伸的源語言部分有按詞對齊確定的目標語言部分，子句塊對的目標語言部分也要延伸上述的目標語言部分。例如，圖2中雙語句對"和談後確定邦交的政策"禾P"decidepolicyofdiplomaticrelationshipafternegotiation"中，句塊對"邦交的政策，，禾口"policyofdiplomaticrelationship",該句塊對的對應一個子句塊對為"邦交"禾口"diplomaticrelationship",將該子句塊對延伸，"邦交"延伸為"確定邦交"，由於"確定"對應的目標語言部分是，，decide，，，"diplomaticrelationship"對應延伸為"decide..diplomaticrelationship，，。由於，，decide，，禾口，，diplomaticrelationship，，之間有其他的目標語言部分，不能得到滿足詞語對齊一致性的新子句塊對。詞對齊為按源語言和目的語言單詞間的詞義確定的對應關係。一較佳的方法中，所述步驟S300進一步為，步驟S310，對於每個調序實例，根據詞對在源語言和目標語言中的對齊位置確定調序的分界，從分界處將調序實例劃分為兩部分。步驟S320，對於每個部分，根據詞性標註在源語言部分中查找滿足條件的句段，選擇滿足條件的句段中最長的句段作為該部分的源語言部分的變量部分，該句段根據詞對齊確定的在該部分的目標語言部分中對應的句段為該部分的目標語言部分的變量部分，將源語言部分和目標語言部分的變量部分替換為變量，以形成調序模板。所述條件為句段的第一個詞和最後一個詞為實詞，並且該句段和該句段對應的目標語言部分的句段滿足詞語對齊一致性。—較佳的方法中，所述步驟S210還包括，步驟S211，對每一個雙語句對，根據雙語句對的調序實例間的包含關係，將一個雙語句對的調序實例組成樹狀結構。—較佳的方法中，所述步驟S300還包括，步驟S310，如果變量部分包含調序實例，將該變量部分替換為所述變量實例對應的調序模板，以形成一個新增的調序模板。—較佳的方法中，所述步驟S300後還包括，步驟S400，對雙語對齊語料應用最大似然估計法，計算每個詞對的翻譯概率，根據該詞對的翻譯概率計算每個調序模板的詞彙化概率。—較佳的方法中，所述步驟S300後還包括，步驟S500，對每個調序模板，在雙語對齊語料中匹配該調序模板的源語言部分和目標語言部分，獲得匹配次數和完全匹配次數；根據所述匹配次數和完全匹配次數計算該調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言的翻譯概率。本發明抽取調序模板的方法具體實施方式的流程如下所述。步驟S601，輸入雙語對齊語料，對雙語對齊語料中的源語言部分進行分詞和詞性標註。本具體實施方式中用自動對齊方法對雙語平行語料進行詞語對齊，並且用源語言的詞性標註器對雙語對齊語料中源語言的語句進行詞性標註。對源語言進行分詞，詞性標註可以在分詞之後進行，也可以和分詞過程同時進行。本具體實施方式抽取出的模板中，源語言部分的詞帶有詞性標註的結果。步驟S602，對每一個雙語句對，將該雙語句對中滿足條件的部分抽取為調序實例。所述條件為所述步驟S210中條件。本實施方式中為所述部分在源語言中包括兩個相鄰的子部分，每一子部分在目標語言中的順序與在源語言中的順序相反，並且不能通過延伸所述的兩子部分中的任一部分增長所述部分。對每一個符合條件的調序實例進行分析，由於調序實例可能有重疊，可以將其表示為樹狀結構。從最短的調序實例開始，到最長的調序實例，依次抽取有調序作用的模板，然後抽取反映層次信息的模板。步驟S603，對於每個調序實例，根據詞對在源語言和目標語言中的位置確定調序的分界，從分界處將調序實例劃分為兩部分。步驟S604，對於每個部分，根據詞性標註在源語言部分中查找滿足條件源語言部分的句段，選擇滿足條件的句段中最長的句段作為該部分的源語言部分的變量部分，該句段在該部分的目標語言部分中對應的句段為該部分的目標語言部分的變量部分，將源語言部分和目標語言部分的變量部分替換為變量，以形成調序模板。所述條件為句段源語言部分的第一個詞和最後一個詞為實詞，並且該句段它和該句段它對應的目標語言部分的句段滿足詞語對齊一致性。在賓州樹庫的中文標記集中，本具體實施方式中定義{NN，JJ，VV，NR，CD，DT，PN}作為實詞標記集，它們代表的是語言中有實際意義的詞；其他標記被定義為功能詞集，它們代表的是語言中用於連接等句法作用的詞。NN為名詞，JJ為形容詞，VV為動詞，NR為專有名詞，CD為數詞，DT為冠詞，PN為代詞。在模板抽取中，以多個詞組成的短語中的首詞和尾詞作為邊界詞。該些詞有語言學上的意義，多種機器翻譯系統用於決定重排序的特徵。在本具體實施方式中，根據語言學的特徵，限定邊界詞必須有特定的詞性標記，能夠使抽取出的模板在語言學上有意義。抽取調序模板時規定變量部分首尾詞的詞性標記必須屬於實詞標記，為一種啟發式規則，它的目的是使抽取的模板儘量符合句法的限制，減少無意義模板的數量。同時，本具體實施方式中對於每個調序實例，根據其調序情況將其分成兩部分，對每個部分的源語言部分，根據詞性標記和詞語對齊情況，找出可以泛化的最長部分，將其泛化為一個變量。步驟S605，對於每個調序模板，如果該調序模板的變量部分對應包含調序實例，將該變量部分替換為所述變量實例對應的調序模板，以形成一個新增的調序模板。如果翻譯模板中的一個變量部分中含有調序實例，可以抽取表達語言層次信息的模板。通過替換方式，可以用較短調序實例抽取出的調序模板替換較長調序實例抽取的調序模板的一部分，得到新的調序模板。新的調序模板包含更多的上下文信息，是一種更準確的調序模板。步驟S606，對雙語對齊語料應用最大似然估計法，計算每個詞對的翻譯概率，根據該詞對的翻譯概率計算每個調序模板的詞彙化概率。根據雙語對齊語料，用最大似然估計法可以估計出每個詞對的翻譯概率P(fjIei)，根據基於短語的統計機器翻譯中現有的公式一，計算目標語言翻譯到源語言的概率formulaseeoriginaldocumentpage10公式一計算出調序模板的從目標語言到源語言的詞化概率，其中a表示詞語對齊，i，j表示詞在模板中的位置，非終結符對的翻譯概率pklxl=1。將公式一中的f和e調換，i和j調換，得到調序模板的源語言翻譯到目標語言的詞彙化概率。步驟S607，對每個調序模板，在雙語對齊語料中匹配該調序模板的源語言部分和目標語言部分，獲得匹配次數和完全匹配次數；根據該匹配次數和完全匹配次數計算該調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言的翻譯概率。從目標語言翻譯到源語言的翻譯概率根據現有技術中的最大似然估計法來計算外"71"—2>0柳"/',6)公式二/,Count(f，e)表示源語言部分為f，目標語言部分為e的共現次數。共現次數指在雙語對齊語料中，該源語言部分和目標語言部分互為翻譯的次數。f'指目標語言部分為e時，源語言部分的變量。公式二中分母部分的求和是求所有目標語言部分為e，源語言部分為任意翻譯的出現次數。由於本具體實施方式中只抽取了調序模板，公式二中所有目標語言部分為e的調序模板出現次數Z②""""，e)無法計算。不需要抽取所有的調序模板來取得該統計值，只需要計算抽取出的調序模板的翻譯概率，只需獲得該些調序模板的源語言部分和目標語言部分的出現次數，就可以計算該些調序模板的翻譯概率。翻譯模板的兩個方向的翻譯概率和詞彙化概率是基於短語的統計機器翻譯系統的重要特徵。抽取出的翻譯模板以及它的四個概率可以應用在基於短語的統計機器翻譯系統上。由於本發明中抽取出的模板的變量部分帶有首尾詞詞性標註信息，在統計機器翻譯系統中進行應用時可以通過匹配詞性標註來進行應用。本發明抽取出的模板可以應用在基於短語的統計機器翻譯系統上，特別適用於基於層次短語的統計機器翻譯系統。本發明機器翻譯中抽取調序模板的方法的實施例如下所述。—個有調序現象的雙語平行句，源語言為漢語，目的語言為英語，"和談後確定邦交的政策，，對應"decidethepolicyofdiplomaticrelationshipafternegotiation，，。步驟S701，輸入雙語對齊語料，對雙語對齊語料中的源語言部分進行分詞和詞性標註，獲得雙語句對如圖2所示。其中，漢語部分為源語言部分，英語部分為目標語言部分，漢語部分每個詞'7"後的部分為詞性標註符號。連線代表詞語對齊的結果。步驟S701，對調序現象的分析，抽取出調序模板。在該雙語句對中，存在調序現象，表現在詞語對齊結果上是連線有交叉的部分。調序實例是源語言和目標語言順序不一致的塊，取最長的部分。在該雙語句對中，調序實例為調序實例1{和談後}(及其翻譯afternegotiation)和{確定邦交的政策}(及其番羽譯decidethepolicyofdiplomaticrelationship)調序實例2{邦交}(及其翻譯diplomaticrelationship)和{的政策}(及其翻譯thepolicyof)其中調序實例2是調序實例1的一個部分，即調序實例2和調序實例1重疊。從最短的調序實例開始抽取調序模板，在該實施例中同調序實例2開始抽取。由於"邦交"和"政策"都是首尾詞有實詞標註的源語言塊，可以將該兩部分分別用變量代替，同時將相應的翻譯用變量代替，抽取出調序模板"X1的X2"，翻譯到"X2ofXl"。同樣，從調序實例1中抽取出調序模板"X1後X2"，翻譯到"X2afterXl"。由於該調序模板"X1後X2"所在調序實例的變量部分中包含調序實例2，所以用調序實例2的調序模板替換調序實例1的調序模板的對應變量部分，得到反映層次信息的調序模板"X1後確定X2的X3"及其翻譯"decideX3ofX2afterXl"。抽取出的調序模板按抽取順序排列如下tableseeoriginaldocumentpage12步驟S703，計算調序模板的詞彙化概率和翻譯概率。抽取出調序模板後，根據每個調序模板的詞對齊情況，計算詞彙化概率。由公式一計算，利用每個詞及其翻譯對的目標語言端到源語言端的概率計算出調序模板目標語言端到源語言端的概率，利用每個詞及其翻譯對的源語言端到目標語言端的概率計算出調序模板目標語言端到源語言端的概率。例如模板"X1的X2"及其翻譯"X2ofXl"中，"的"對齊到"of"，設p(的|of)=0.4，p(X|X)=l，則該模板目標語言端到源語言端的詞彙化概率就是p(XlX)Xp(的of)Xp味)=0.4。對每個抽取的模板，在雙語平行語料中分別匹配它的源語言端和目標語言端，計算出現次數，由此計算兩個方向的翻譯概率。由公式二計算，用模板在語料中出現次數除以源語言端在語料中出現次數得到模板從源語言翻譯到目標語言的翻譯概率，用模板在語料中出現次數除以目標語言端在語料中出現次數得到模板從目標語言翻譯到源語言的翻譯概率。例如"X1的X2"在語料中出現5次，模板"X1的X2"及其翻譯"X2ofXl"在語料中共同出現(在同一個句子中互為翻譯)的次數是2次，則該模板("XI的X2"和"X2ofXI")的從源語言翻譯到目標語言的翻譯概率是2/5。這些抽取出的調序模板及其四個概率，以及變量部分的首尾詞詞性限制，可以應用在使用翻譯模板的統計機器翻譯系統中。上面是對本發明的具有調序作用模板的抽取過程及其可能應用的具體說明。利用FBIS，FBIS為一個包含新聞語料的數據集，大約23萬平行句對；數據集作為抽取調序模板的雙語平行語料，在NIST(美國國家標準技術研究院舉辦的機器翻譯評測)各測試集上的實驗結果表明，加入該些具有調序作用的模板提高了機器翻譯結果中單詞順序的準確性，利用統計機器翻譯系統通用評價標準BLEU(—種基於詞匹配準確度的評價標準)值做評價，在各測試集上機器翻譯的質量都有提高，在NIST05上從28.02提高到28.48，在NIST08上從19.75提高到20.44，比不加入這些調序模板的統計機器翻譯系統有提高，而且是統計意義上顯著的提高。本發明機器翻譯中抽取調序模板的系統，包括語料處理模塊100，用於輸入雙語對齊語料，對所述雙語對齊語料中的源語言部分進行分詞和詞性標註。調序實例抽取模塊200，用於對雙語對齊語料中每一個雙語句對，進行調序分析，抽取出調序實例。調序模板生成模塊300，用於對於每個所述調序實例，根據所述調序實例中的詞對在源語言和目標語言中位置，將所述調序實例劃分為兩部分，對於每個部分，根據詞性標註確定變量部分，將所述變量部分替換為變量。較佳的，所述調序實例抽取模塊200進一步用於對每一個雙語句對，將所述雙語句對中滿足條件的句塊對抽取為調序實例。所述條件為所述句塊對滿足詞語對齊一致性，所述句塊對包括兩個相鄰的子句塊對，並且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反，且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。較佳的，所述調序模板生成模塊300進一步用於對於每個所述調序實例，根據調序實例中詞對在源語言和目標語言中的位置確定調序的分界，從所述分界處將所述調序實例劃分為兩部分；對於每個部分，根據詞性標註在所述部分的源語言部分中查找滿足條件的句段，選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分，以所述句段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部分，將源語言部分和目標語言部分的變量部分替換為變量，以形成調序模板。所述條件為句段的第一個詞和最後一個詞為實詞，並且所述句段和所述句段在所述部分的目標語言部分中的對應句段滿足詞語對齊一致性。較佳的，所述調序實例抽取模塊200還用於對每一個雙語句對，根據雙語句對的調序實例間的包含關係，將所述調序實例組成樹狀結構。較佳的，所述調序模板生成模塊300還用於在變量部分包含調序實例時，將所述變量部分替換為所述變量實例對應的調序模板。較佳的，所述系統還包括概率生成模塊，用於對雙語對齊語料應用最大似然估計法，計算每個詞對的翻譯概率，根據所述詞對的翻譯概率計算所述調序模板的詞彙化概率。較佳的，所述系統還包括概率生成模塊，用於對每個所述調序模板，在所述雙語對齊語料中匹配所述調序模板的源語言部分和目標語言部分，獲得匹配次數和完全匹配次數；根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言的翻譯概率。本領域的技術人員在不脫離權利要求書確定的本發明的精神和範圍的條件下，還可以對以上內容進行各種各樣的修改。因此本發明的範圍並不僅限於以上的說明，而是由權利要求書的範圍來確定的。1權利要求一種機器翻譯中抽取調序模板的方法，其特徵在於，包括步驟1，輸入雙語對齊語料，對所述雙語對齊語料中的源語言部分進行分詞和詞性標註；步驟2，對雙語對齊語料中每一個雙語句對，進行調序分析，抽取出調序實例；步驟3，對於每個所述調序實例，根據所述調序實例中的詞對在源語言和目標語言中位置，將所述調序實例劃分為兩部分，對於每個部分，根據詞性標註確定變量部分，將所述變量部分替換為變量。2.如權利要求1所述的機器翻譯中抽取調序模板的方法，其特徵在於，所述步驟2進一步為，步驟21，對每一個雙語句對，將所述雙語句對中滿足條件的句塊對抽取為調序實例；所述條件為所述句塊對滿足詞語對齊一致性，所述句塊對包括兩個相鄰的子句塊對，並且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反，且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。3.如權利要求2所述的機器翻譯中抽取調序模板的方法，其特徵在於，所述步驟3進一步為，步驟31，對於每個所述調序實例，根據調序實例中詞對在源語言和目標語言中的位置確定調序的分界，從所述分界處將所述調序實例劃分為兩部分；步驟32，對於每個部分，根據詞性標註在所述部分的源語言部分中查找滿足條件的句段，選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分，以所述句段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部分，將源語言部分和目標語言部分的變量部分替換為變量，以形成調序模板；所述條件為句段的第一個詞和最後一個詞為實詞，並且所述句段和所述句段在所述部分的目標語言部分中的對應句段滿足詞語對齊一致性。4.如權利要求2所述的機器翻譯中抽取調序模板的方法，其特徵在於，所述步驟21還包括，步驟41，對每一個雙語句對，根據雙語句對的調序實例間的包含關係，將所述調序實例組成樹狀結構。5.如權利要求4所述的機器翻譯中抽取調序模板的方法，其特徵在於，所述步驟3後還包括，步驟51，如果變量部分包含調序實例，將所述變量部分替換為所述變量實例對應的調序模板。6.如權利要求1所述的機器翻譯中抽取調序模板的方法，其特徵在於，所述步驟3後還包括步驟61，對雙語對齊語料應用最大似然估計法，計算每個詞對的翻譯概率，根據所述詞對的翻譯概率計算所述調序模板的詞彙化概率。7.如權利要求1所述的機器翻譯中抽取調序模板的方法，其特徵在於，所述步驟3後還包括步驟71，對每個所述調序模板，在所述雙語對齊語料中匹配所述調序模板的源語言部分和目標語言部分，獲得匹配次數和完全匹配次數；步驟72，根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言的翻譯概率。8.—種機器翻譯中抽取調序模板的系統，其特徵在於，包括語料處理模塊，用於輸入雙語對齊語料，對所述雙語對齊語料中的源語言部分進行分詞和詞性標註；調序實例抽取模塊，用於對雙語對齊語料中每一個雙語句對，進行調序分析，抽取出調序實例；調序模板生成模塊，用於對於每個所述調序實例，根據所述調序實例中的詞對在源語言和目標語言中位置，將所述調序實例劃分為兩部分，對於每個部分，根據詞性標註確定變量部分，將所述變量部分替換為變量。9.如權利要求8所述的機器翻譯中抽取調序模板的系統，其特徵在於，所述調序實例抽取模塊進一步用於對每一個雙語句對，將所述雙語句對中滿足條件的句塊對抽取為調序實例；所述條件為所述句塊對滿足詞語對齊一致性，所述句塊對包括兩個相鄰的子句塊對，並且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反，且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。10.如權利要求9所述的機器翻譯中抽取調序模板的系統，其特徵在於，所述調序模板生成模塊進一步用於對於每個所述調序實例，根據調序實例中詞對在源語言和目標語言中的位置確定調序的分界，從所述分界處將所述調序實例劃分為兩部分；對於每個部分，根據詞性標註在所述部分的源語言部分中查找滿足條件的句段，選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分，以所述句段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部分，將源語言部分和目標語言部分的變量部分替換為變量，以形成調序模板；所述條件為句段的第一個詞和最後一個詞為實詞，並且所述句段和所述句段在所述部分的目標語言部分中的對應句段滿足詞語對齊一致性。11.如權利要求9所述的機器翻譯中抽取調序模板的系統，其特徵在於，所述調序實例抽取模塊還用於對每一個雙語句對，根據雙語句對的調序實例間的包含關係，將所述調序實例組成樹狀結構。12.如權利要求11所述的機器翻譯中抽取調序模板的系統，其特徵在於，所述調序模板生成模塊還用於在變量部分包含調序實例時，將所述變量部分替換為所述變量實例對應的調序模板。13.如權利要求8所述的機器翻譯中抽取調序模板的系統，其特徵在於所述系統還包括概率生成模塊，用於對雙語對齊語料應用最大似然估計法，計算每個詞對的翻譯概率，根據所述詞對的翻譯概率計算所述調序模板的詞彙化概率。14.如權利要求8所述的機器翻譯中抽取調序模板的系統，其特徵在於，所述系統還包括概率生成模塊，用於對每個所述調序模板，在所述雙語對齊語料中匹配所述調序模板的源語言部分和目標語言部分，獲得匹配次數和完全匹配次數；根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言的翻譯概率。全文摘要本發明涉及機器翻譯中抽取調序模板的方法及系統，方法包括步驟1，輸入雙語對齊語料，對所述雙語對齊語料中的源語言部分進行分詞和詞性標註；步驟2，對雙語對齊語料中每一個雙語句對，進行調序分析，抽取出調序實例；步驟3，對於每個所述調序實例，根據所述調序實例中的詞對在源語言和目標語言中位置，將所述調序實例劃分為兩部分，對於每個部分，根據詞性標註確定變量部分，將所述變量部分替換為變量。本發明能夠消除現有技術中對抽取翻譯模板的限制，並能夠提取出多種調序模板以增加調序模板對於翻譯中調序現象的覆蓋率。文檔編號G06F17/28GK101706777SQ200910237390公開日2010年5月12日申請日期2009年11月10日優先權日2009年11月10日發明者蔡舒申請人:中國科學院計算技術研究所

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

機器翻譯中抽取調序模板的方法及系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法