獲得語言模型概率及構建語言模型的方法和裝置的製作方法

2023-09-18 15:27:10 6

專利名稱：獲得語言模型概率及構建語言模型的方法和裝置的製作方法
技術領域：
本發明涉及信息處理技術，具體地，涉及為句子獲得語言模型概率的方法和裝置、構建語言模型的方法和裝置以及應用了這些方法和裝置的基於語料庫的機器翻譯方法和系統。
背景技術：
統計機器翻譯是主要的基於語料庫的機器自動翻譯技術之一。在該技術中，通常會用到多種概率模型。語言模型是統計機器翻譯技術中最主要的概率模型之一。所謂語言模型，是用於為一個句子(或詞序列)計算出一個概率值，以表明該句子(或詞序列)的流利度的模型。也就是說，語言模型用於為一個句子(或詞序列)計算出能夠表示該句子(或詞序列)在所屬語言中的出現概率、即是否常用的概率值。在統計機器翻譯技術中，通過利用語言模型來計算候選譯文的出現概率(以下稱為「語言模型概率」)，可以幫助譯文選擇。因為語言模型概率越高，表明該譯文越常用，越符合所屬語言的習慣，這樣，通過使用語言模型概率評價候選譯文的流利度，能夠確保譯文生成質量。在現有的統計機器翻譯技術中，語言模型通常利用馬爾科夫模型從單語文本語料中訓練得到。根據馬爾可夫模型，對於一個包含N個詞的句子E=丨e2,…，eN}, 按照下式(1)來獲得其語言模型概率ρ (E)
NP(E) = Piei ，e2，…』，e,^ ) (1)
(=1其中，p(ei|ei，e2,…，ei_2，ei_i)是單詞ei的概率，該概率表示單詞4出現在前面的i-Ι個單詞e1; e2，…，e,_2，之後的概率。但是，由於在根據上式(1)計算句子的語言模型概率時的訓練數據稀疏的原因，在實際的計算過程中，通常以馬爾科夫模型為理論基礎，使用平滑的ngram模型來近似地得到語言模型概率。根據平滑的ngram模型，對於上述包含N個詞的句子E = {e1 e2,…，eN},按照下式(2)來近似地獲得其語言模型概率ρ (E):
Np(E) Y[ p{et , 』…』 ,^1) (2)
/=1其中，每個單詞&的概率p(ei|ei_n+1，ei_n+2，…，ei_2，不再依賴於出現在ei 前面的所有i-1個單詞，而僅是依賴於出現在其前面的n-1個單詞。一般地，η取2 5。通常，單詞組「ei_n+1，ei_n+2，…，，eM, e,」稱為一個ngram。在此情況下，概率 Pte1Ie1 -n+1， ei-n+2 『 ···' ei-2' )也稱為是 ngram n+1，n+2，...，q{-2，C^1，Qi 白勺概率。下面以具體例子來詳細描述根據平滑的ngram模型計算語言模型概率的過程。例如，假定待計算的句子是"this is your seat.",並且設定η = 3，則根據上式(2)，該句子的語言模型概率由組成該句子的5個單詞「this」、「is」、"your"、「seat」禾口「.」的各自的概率 ρ (this)、p(is|this)、ρ (your|this, is)、p(seat|is, your)和 p(.|your, seat)的乘積得到，即ρ (this is your seat.) = ρ (this) Xp(is|this) Xρ (your|this, is) Xp (seat|is, your) Xp (.Iyour, seat)其中，概率p(is|this)表示「is」出現在「this」之後的概率，該概率可以預先通過從單語文本語料中統計「is」和「this is」的出現頻率而計算得到。在此，單詞組
"this, is」稱為一個 2-gram(或 bigram)。此外，概率 ρ (your|this，is)表示「your」出現在「this is」之後的概率，同樣，該概率也可以預先通過從單語文本語料中統計「this is your」和「this is」的出現頻率而計算得到。在此，單詞組"this, is, your」稱為一個 3-gram (或 trigram)。對於才既率 ρ (this)、p(seat|is, your)禾口 ρ (.|your, seat)而言，也是同樣的。從以上可以看出，在基於平滑的ngnim模型構建用於為句子獲得語言模型概率的語言模型(後面稱為「標準語言模型」)時，由於訓練語料中的詞彙已經是確定的了，所以，語言模型中所訓練出的ngram的詞彙也是確定的。從而在利用所構建的語言模型為句子獲得語言模型概率時，只能從語言模型中確定的ngram中查找相應的ngram及其概率，來直接用於計算。這樣，就會存在句子中的詞序列有可能與語言模型中使用的詞彙表不一致的問題。例如，複合詞通常被看作一個詞，但是統計機器翻譯系統在根據翻譯模型為句子生成候選譯文時，有可能會將一個複合詞分離地翻譯為幾個單獨的詞。另一方面，由於語言模型的詞彙表並不會將一個複合詞看作是由幾個單獨的詞組成的，所以語言模型中並不會包含這幾個單獨的詞的ngram的概率。這樣，統計機器翻譯系統可能會轉而為該復合詞生成一個不準確、但出現概率較高的對應譯文。從而，導致所生成的譯文的流利度和忠實度下降。這種複合詞不一致的問題，對於漢語、日語等需要劃分單詞的語言來說，是一種常見的問題。這種問題，主要是因為機器翻譯系統在翻譯過程中的分詞結果的不一致而造成的。下面用具體的例子來進行說明。假設待翻譯的句子是「This is my airplane ticket.」。採用基於短語的統計機器翻
譯系統。假設在該統計機器翻譯系統的雙語短語表中，與上面的待翻譯句子匹配的雙語短語如表1所示。表 1
This is my airplane ticket .這是我的飛機
___ 的票也就是說，對於上面的待翻譯句子「This is my airplane ticket.」，統計機器翻譯系統只能夠從表1所列出的短語中組合得到其譯文。但是，由於在上述雙語短語表中，對於複合詞「飛機票」，不包含雙語短語「airplane ticket|飛機票」，而僅包含「airplanej 飛機」和「ticket|票，的票」，因此，基於該短語表，統計機器翻譯系統只能夠將
「airplane ticket」拆開，通過合併兩個短語「airplane|飛機」和「ticket|票，的票」來得至Ij 「airplane ticket」的對應譯文。這樣，根據表1，統計機器翻譯系統可能得到的譯文包括Tl 這是我的飛機票。T2 這是我的飛機的票。基於上式⑵，譯文Tl的語言模型概率的計算可以表示為ρ (這是我的飛機票。)=ρ(這)Xp(是I這)Xp(我I這，是)Xp(的I是，我)Xp(飛機I我，的)Xp(票 I的，飛機)Xp(。I飛機，票)譯文T2的語言模型概率的計算可以表示為ρ (這是我的飛機的票。)=ρ(這)Xp(是I這)Xp(我I這，是)Xp(的I是，我)Xp(飛機I我，的)Xp(的 I的，飛機)Xp(票ι飛機，的)Χρ(。ι的，票)雖然譯文Tl的質量優於T2，但是對於譯文Tl而言，複合詞「飛機票」是由「飛機」和「票」組合而成的詞序列(表示為「(飛機)(票)」)，而「飛機票」在標
準語言模型的詞彙表中是一個詞，而並不會看作是由「飛機」和「票」組合而成的詞序列，所以在標準語言模型的詞彙表中，並不會統計出包含了該詞序列「(飛機)(票)」的 ngnim的出現概率。從而，在計算譯文Tl的語言模型概率時，包含了詞序列「(飛機) (票)」的ngnim的概率(例如ρ (票|的，飛機))將是一個非常低的值。相對於此，對於譯文Τ2而言，由於「飛機的票」本身就不是一個詞，而可以看作是由「飛機」、「的」和「票」組合而成的詞序列「(飛機)(的)(票)」，所以語言模型的詞彙表中包含該詞序列的ngram的概率不會很低，而高於譯文Tl中「(飛機) (票)」的情況。這樣，所計算出的譯文T2的語言模型概率將高於譯文Tl。從而，統計機器翻譯系統最終將選擇譯文T2作為上述待翻譯句子的最終譯文。可以看出，在現有的標準語言模型中，由於並不考慮候選譯文中的複合詞與語言模型的詞彙表不一致的情況，所以存在著由於候選譯文中的複合詞被拆分而導致語言模型概率的計算不準確的問題，進而存在著使統計機器翻譯系統也不能夠有效地根據語言模型概率生成高質量的譯文的問題。

發明內容
本發明正是鑑於上述現有技術中的問題而提出的，其目的在於提供一種為句子獲得語言模型概率的方法和裝置、構建語言模型的方法和裝置以及應用了這些方法和裝置的基於語料庫的機器翻譯方法和系統，以便通過改變標準語言模型中對句子中與語言模型概率的計算有關的各個詞及其概率的確定方式，來確保在語言模型概率的計算中復合詞不被拆分，從而準確地體現句子的流利度。根據本發明的一個方面，提供一種為句子獲得語言模型概率的方法，包括通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率；以及基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。根據本發明的另一個方面，提供一種構建語言模型的方法，包括構建語言模型，該語言模型通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率，進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。優選地，上述句子的語言模型概率通過求取所確定的與該句子的語言模型概率的計算有關的各個詞的概率的乘積而獲得。

優選地，確定與該句子的語言模型概率的計算有關的各個詞及其概率的步驟根據下式實現ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 『 ...， ei-2， ei-l)『…，P (ei+...+ei+j|ei-n+1， Qi-n+2 『…，『 ei-l)其中，e',是針對單詞^確定的、與句子的語言模型概率的計算有關的詞， ps(e' ,Ie1, e2,…，是該詞 e'工的概率，Pfe1Ie1-^1, e^,…，e^, 是單詞 e,的概率，p(ei+e1+1|ei_n+1，ei_n+2，…，ei_2，ed是單詞&與其後面的單詞e1+1所組成的組合詞 ei+e1+1的概率，p(ei+...+e1+」ei_n，ei_n+1，…，ei_2，是單詞e,與其後面的j個單詞所組成的組合詞e,+...+ 的概率。優選地，基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率根據下式實現Ps^) = JlPAeiKe2,...^)
/=/'+J其中，ps(E)表示包含N個詞{e1; e2,…，eN}的句子E的語言模型概率。根據本發明的又一個方面，提供一種基於語料庫的機器翻譯方法，包括利用上述的為句子獲得語言模型概率的方法，為針對待翻譯的句子生成的多個候選譯文，分別獲得語言模型概率；以及參考上述多個候選譯文的語言模型概率，從該多個候選譯文中選擇出上述待翻譯的句子的最終譯文。根據本發明的再一個方面，提供一種為句子獲得語言模型概率的裝置，包括詞及其概率確定單元，其通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率；以及語言模型概率計算單元，其基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。優選地，上述詞及其概率確定單元基於預先從單語文本語料中統計出的多個單詞組及其概率，對於上述句子中的各個單詞，確定該單詞以及該單詞與其後面的單詞所組成的所有可能的組合詞中概率最高的那一個詞，以將該詞及其概率作為與該句子的語言模型概率的計算有關的詞及其概率，並且將該所確定的詞後面的單詞作為下一個要進行與該句子的語言模型概率的計算有關的詞及其概率的確定的當前單詞。優選地，上述詞及其概率確定單元對於上述句子中的各個單詞，通過在該單詞的基礎上逐個單詞地向後擴充來嘗試將該單詞與後面的單詞構成組合詞，並且在確定這樣構成的組合詞的概率不再增高時停止，來確定該單詞及其所有可能的組合詞中概率最高的那一個詞。優選地，上述詞及其概率確定單元根據下式，確定與該句子的語言模型概率的計算有關的各個詞及其概率 ps (e' , Ie1, e2, e^) = Max(p(e1|e1_n+1, e^, e^, eM), ρ (ε,+e^Ie1-^1,
ei-n+2 『…，ei-2， ei-l)『…，P (ei+...+ei+j|ei-n+1， Qi-n+2 『…，『 ei-l)其中，e',是針對單詞^確定的、與句子的語言模型概率的計算有關的詞， ps(e' ,Ie1, e2,…，是該詞 e'工的概率，Pfe1Ie1-^1, e^,…，e^, 是單詞 e,的概率，p(ei+e1+1|ei_n+1，ei_n+2，…，ei_2，ed是單詞&與其後面的單詞e1+1所組成的組合詞 ei+e1+1的概率，p(ei+...+e1+」ei_n，ei_n+1，…，ei_2，是單詞e,與其後面的j個單詞所組成的組合詞e,+...+ 的概率；並且上述語言模型概率計算單元根據下式，獲得句子的語言模型概率Ps(E) = JjMeiKe2,...^)
i=i+j其中，ps(E)表示包含N個詞{e1; e2,…，eN}的句子的語言模型概率。根據本發明的再一個方面，提供一種構建語言模型的裝置，包括模型構建單元，其構建語言模型，該語言模型通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率，進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。優選地，上述模型構建單元所構建的語言模型基於預先從單語文本語料中統計出的多個單詞組及其概率，對於上述句子中的各個單詞，確定在該單詞以及該單詞與其後面的單詞所組成的所有可能的組合詞中概率最高的那一個詞，以將該詞及其概率作為與該句子的語言模型概率的計算有關的詞及其概率，並且將該所確定的詞後面的單詞作為下一個要進行與該句子的語言模型概率的計算有關的詞及其概率的確定的當前單詞。優選地，上述模型構建單元所構建的語言模型對於上述句子中的各個單詞，通過在該單詞的基礎上逐個單詞地向後擴充來嘗試將該單詞與後面的單詞構成組合詞，並且在確定這樣構成的組合詞的概率不再增高時停止，來確定該單詞及其所有可能的組合詞中概率最高的那一個詞。優選地，上述模型構建單元所構建的語言模型根據下式，確定與該句子的語言模型概率的計算有關的各個詞及其概率ps (e' Je1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 『 ...， ei-2， ei-l)『…，P (ei+...+ei+j|ei-n+1， ei-n+2， ...， ei-2， ei-l)其中，e',是針對單詞^確定的、與句子的語言模型概率的計算有關的詞， ps(e' ,Ie1, e2,…，是該詞 e'工的概率，Pfe1Ie1-^1, e^,…，e^, 是單詞 e,的概率，p(ei+e1+1|ei_n+1，ei_n+2，…，ei_2，ed是單詞&與其後面的單詞e1+1所組成的組合詞 ei+e1+1的概率，p(ei+...+e1+」ei_n，ei_n+1，...ei_2，是單詞e,與其後面的j個單詞所組成的組合詞e,+...+ 的概率，並且根據下式，獲得該句子的語言模型概率P.XE)=
i=i+J其中，ps(E)表示包含N個詞{e1; e2,…，eN}的句子的語言模型概率。
優選地，單詞的概率是該單詞與句子中該單詞前面的單詞所組成的單詞組的概率，組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成的單詞組的概率。根據本發明的再一個方面，提供一種基於語料庫的機器翻譯系統，包括上述的為句子獲得語言模型概率的裝置或利用上述的構建語言模型的裝置構建的語言模型；以及譯文生成單元，其為待翻譯的句子生成多個候選譯文，並且利用上述為句子獲得語言模型概率的裝置或語言模型，分別為該多個候選譯文獲得語言模型概率，並且參考該多個候選譯文的語言模型概率，從該多個候選譯文中選擇出上述待翻譯的句子的最終譯文。

相信通過以下結合附圖對本發明具體實施方式
的說明，能夠使人們更好地了解本發明上述的特點、優點和目的。圖1是根據本發明實施例的為句子獲得語言模型概率的方法的流程圖；圖2是圖1的步驟105中確定與句子的語言模型概率的計算有關的各個詞及其概率的過程的流程圖；圖3是根據本發明實施例的構建語言模型的方法的流程圖；圖4是根據本發明實施例的基於語料庫的機器翻譯方法的流程圖；圖5是根據本發明實施例的為句子獲得語言模型概率的裝置的方框圖；圖6是根據本發明實施例的構建語言模型的裝置的方框圖；以及圖7是根據本發明實施例的基於語料庫的機器翻譯系統的方框圖。
具體實施例方式本發明提出一種新的語言模型的概念，該語言模型在現有的標準語言模型的基礎上，考慮了通常被作為一個詞來使用的複合詞在候選譯文與語言模型中不一致的問題，改變了句子中與語言模型概率的計算有關的各個詞及其概率的確定方式。具體地，該語言模型，對於句子中的各個單詞，嘗試是否能夠將其與後面的單詞組成通常被作為一個詞使用的組合詞，並且在能夠組合的情況下基於這樣的組合詞的概率、而不是上述單詞的概率來計算句子的語言模型概率，以便確保在語言模型概率的計算中複合詞不被拆分。在此，所謂複合詞，是一個寬泛的概念，指所有由多個詞組合而成、在所屬語言中通常被作為一個詞來使用的詞。在本發明所提出的該新的語言模型的概念的基礎上，下面結合附圖對本發明的各個優選實施例進行詳細說明。圖1是根據本發明實施例的為句子獲得語言模型概率的方法的流程圖。如圖1所示，該方法首先在步驟105，為要進行語言模型概率的計算的句子，對於其中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率。該步驟基於預先從單語文本語料中統計出的多個單詞組及其概率來實現。在此，所謂單詞組，是由多個單詞組成、代表該多個單詞有可能在句子中按順序出現的組。在一個實施例中，與平滑的ngram模型對應地，這裡所述的單詞組指ngram。此外，單詞組的概率表示該單詞組中的最後一個單詞出現在該單詞組中其前面的所有單詞之後的概率。單詞組的概率也可以稱為是該單詞組中的最後一個單詞的、與該單詞組中其前面的單詞有關的概率。也就是說，在本步驟中，對於句子中的各個單詞，不僅要像標準語言模型那樣考慮該單詞與其前面的單詞的組合，而且還要考慮其與後面的單詞的組合。具體地，在本步驟中，對於句子中的各個單詞，根據預先從單語文本語料中統計出的多個單詞組及其概率，確定該單詞和該單詞與其後面的單詞所組成的所有可能的組合詞中概率最高的那一個詞，作為與該句子的語言模型概率的計算有關的詞，使其概率用於該句子的語言模型概率的計算。在一個實施例中，在本步驟中，在平滑的ngram模型的基礎上，對於包含N個詞丨ei，e2,…，eN}的句子E，針對其中的各個當前單詞基於下式(3)嘗試將其與後面的單詞組成組合詞，來確定與該當前單詞e,有關、進而與該句子的語言模型概率的計算有關的詞e',及其概率仇…'Je1, e2,…，eM)ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1, 6i-n+2' ...， ^i-l)『…，P +ei+jl^-n+i， Ci-^2, ...， Qh2, Chi) (3)其中，p(ei|ei_n+1，ei_n+2，...，ei_2，h)是當前單詞ei的概率，也即該單詞&與其前面的n-1個單詞所組成的單詞組(ei_n+1，ei_n+2，…，ei_2，eM, e)(後面稱為原始單詞組，相當於平滑的ngram模型中的ngram)的概率，類似地，ρ(ei+e1+1|ei_n+1，e^,…， ei_2，eM)是當前單詞ei與其後面的單詞e1+1所組成的組合詞ei+e1+1的概率，也即該組合詞與其前面的n-1個單詞所組成的單詞組(ei_n，ei_n+1，…，ei_2，eM, ei; e1+1)(後面稱為組合單詞組)的概率，p(ei+...+e1+」ei_n，ei_n+1，…，ei_2，是當前單詞e,與其後面的j個單詞所組成的組合詞e,+...+ 的概率，也即該組合詞與其前面的n-1個單詞所組成的組合單詞組(『， ei-n+l 『…，ei-2，ei-1，ei，…，ei+j/ 的概率。可以看出，與當前單詞ei有關、進而與該句子的語言模型概率的計算有關的詞 e',是當前單詞ei及其所有可能的組合詞壚…+ 中概率最高的那一個詞。也就是說，在本實施例中，在確定與句子的語言模型概率的計算有關的各個詞及其概率時，對於句子中的各個單詞，除了要考慮在標準語言模型中直接應用的該單詞的概率之外，還嘗試在該當前單詞的基礎上組合其後面的單詞，即構成組合詞，並且確定該當前單詞和所有可能的組合詞中概率最高的那一個詞，使該詞及其概率作為與該句子的語言模型概率的計算有關的詞及其概率。並且，可以理解，在針對當前單詞確定了該單詞和其所有可能的組合詞中概率最高的那一個詞之後，該所確定的詞後面的單詞將成為下一個要進行與該句子的語言模型概率的計算有關的詞的確定的當前單詞。關於該步驟，將在後面結合圖2進行詳細描述。在步驟110，對於上述句子，基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。在一個實施例中，在本步驟中，求取所確定的與該句子的語言模型概率的計算有關的各個詞的概率的乘積，來獲得該句子的語言模型概率。
具體地，在上述平滑的ngram模型的情況下，在上式(3)的基礎上，按照下式 (4)來求取所確定的與該句子的語言模型概率的計算有關的各個詞的概率的乘積，來獲得該句子的語言模型概率。
權利要求
1.一種為句子獲得語言模型概率的方法，包括通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率；以及基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。
2.—種構建語言模型的方法，包括構建語言模型，該語言模型通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率，進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。
3.根據權利要求1或2所述的方法，其中上述確定與該句子的語言模型概率的計算有關的各個詞及其概率的步驟進一步包括基於預先從單語文本語料中統計出的多個單詞組及其概率，對於上述句子中的各個單詞，確定該單詞以及該單詞與其後面的單詞所組成的所有可能的組合詞中概率最高的那一個詞，以將該詞及其概率作為與該句子的語言模型概率的計算有關的詞及其概率。
4.根據權利要求3所述的方法，其中在對於上述句子中的各個單詞確定了該單詞及其所有可能的組合詞中概率最高的那一個詞之後，該所確定的詞後面的單詞將成為下一個要進行與該句子的語言模型概率的計算有關的詞及其概率的確定的當前單詞。
5.根據權利要求3所述的方法，其中單詞的概率是該單詞與句子中該單詞前面的單詞所組成的單詞組的概率，組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成的單詞組的概率。
6.根據權利要求3所述的方法，其中對於上述句子中的各個單詞，確定該單詞以及該單詞與其後面的單詞所組成的所有可能的組合詞中概率最高的那一個詞進一步包括通過在該單詞的基礎上逐個單詞地向後擴充來嘗試將該單詞與其後面的單詞構成組合詞，並且在確定這樣構成的組合詞的概率不再增高時停止，來確定該單詞及其所有可能的組合詞中概率最高的那一個詞。
7.一種基於語料庫的機器翻譯方法，包括利用權利要求1所述的為句子獲得語言模型概率的方法，為針對待翻譯的句子生成的多個候選譯文，分別獲得語言模型概率；以及參考上述多個候選譯文的語言模型概率，從該多個候選譯文中選擇出上述待翻譯的句子的最終譯文。
8.—種為句子獲得語言模型概率的裝置，包括詞及其概率確定單元，其通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率；以及語言模型概率計算單元，其基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。
9.一種構建語言模型的裝置，包括模型構建單元，其構建語言模型，該語言模型通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率，進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。
10. 一種基於語料庫的機器翻譯系統，包括權利要求8所述的為句子獲得語言模型概率的裝置或利用權利要求9所述的構建語言模型的裝置構建的語言模型；以及譯文生成單元，其為待翻譯的句子生成多個候選譯文，並且利用上述為句子獲得語言模型概率的裝置或語言模型，分別為該多個候選譯文獲得語言模型概率，並且參考該多個候選譯文的語言模型概率，從該多個候選譯文中選擇出上述待翻譯的句子的最終譯文。
全文摘要
本發明提供一種為句子獲得語言模型概率的方法和裝置、構建語言模型的方法和裝置以及基於語料庫的機器翻譯方法和系統。該為句子獲得語言模型概率的方法，包括通過對於句子中的各個單詞，嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞，而確定與該句子的語言模型概率的計算有關的各個詞及其概率；以及基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率，獲得該句子的語言模型概率。在本發明中，通過嘗試將句子中的各個單詞與其後面的單詞組合，能夠確保在語言模型概率的計算中複合詞不被拆分，從而為句子獲得準確的語言模型概率，準確地體現句子的質量。
文檔編號G06F17/28GK102023970SQ20091017751
公開日2011年4月20日申請日期2009年9月14日優先權日2009年9月14日
發明者劉佔一, 王海峰申請人:株式會社東芝

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

獲得語言模型概率及構建語言模型的方法和裝置的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法