新四季網

獲得語言模型概率及構建語言模型的方法和裝置的製作方法

2023-09-18 15:27:10

專利名稱:獲得語言模型概率及構建語言模型的方法和裝置的製作方法
技術領域:
本發明涉及信息處理技術,具體地,涉及為句子獲得語言模型概率的方法和裝 置、構建語言模型的方法和裝置以及應用了這些方法和裝置的基於語料庫的機器翻譯方 法和系統。
背景技術:
統計機器翻譯是主要的基於語料庫的機器自動翻譯技術之一。在該技術中,通 常會用到多種概率模型。語言模型是統計機器翻譯技術中最主要的概率模型之一。所謂 語言模型,是用於為一個句子(或詞序列)計算出一個概率值,以表明該句子(或詞序 列)的流利度的模型。也就是說,語言模型用於為一個句子(或詞序列)計算出能夠表 示該句子(或詞序列)在所屬語言中的出現概率、即是否常用的概率值。在統計機器翻譯技術中,通過利用語言模型來計算候選譯文的出現概率(以下 稱為「語言模型概率」),可以幫助譯文選擇。因為語言模型概率越高,表明該譯文越 常用,越符合所屬語言的習慣,這樣,通過使用語言模型概率評價候選譯文的流利度, 能夠確保譯文生成質量。在現有的統計機器翻譯技術中,語言模型通常利用馬爾科夫模型從單語文本語 料中訓練得到。根據馬爾可夫模型,對於一個包含N個詞的句子E=丨e2,…,eN}, 按照下式(1)來獲得其語言模型概率ρ (E)
NP(E) = Piei ,e2,…』 ,e,^ ) (1)
(=1其中,p(ei|ei,e2,…,ei_2,ei_i)是單詞ei的概率,該概率表示單詞4出現在前 面的i-Ι個單詞e1; e2,…,e,_2,之後的概率。但是,由於在根據上式(1)計算句子的語言模型概率時的訓練數據稀疏的原 因,在實際的計算過程中,通常以馬爾科夫模型為理論基礎,使用平滑的ngram模型來 近似地得到語言模型概率。根據平滑的ngram模型,對於上述包含N個詞的句子E = {e1 e2,…,eN},按照下式(2)來近似地獲得其語言模型概率ρ (E):
Np(E) Y[ p{et , 』…』 ,^1) (2)
/=1其中,每個單詞&的概率p(ei|ei_n+1,ei_n+2,…,ei_2,不再依賴於出現在ei 前面的所有i-1個單詞,而僅是依賴於出現在其前面的n-1個單詞。一般地,η取2 5。通常,單詞組「ei_n+1,ei_n+2,…,,eM, e,」稱為一個ngram。在此情況下,概 率 Pte1Ie1 -n+1, ei-n+2 『 ···' ei-2' )也稱為是 ngram n+1,n+2,...,q{-2,C^1,Qi 白勺 概率。下面以具體例子來詳細描述根據平滑的ngram模型計算語言模型概率的過程。例如,假定待計算的句子是"this is your seat.",並且設定η = 3,則根據上 式(2),該句子的語言模型概率由組成該句子的5個單詞「this」、「is」、"your"、「seat」 禾口 「.」 的各自的概率 ρ (this)、p(is|this)、ρ (your|this, is)、p(seat|is, your)和 p(.|your, seat)的乘積得到,即ρ (this is your seat.) = ρ (this) Xp(is|this) Xρ (your|this, is) Xp (seat|is, your) Xp (.Iyour, seat)其中,概率p(is|this)表示「is」出現在「this」之後的概率 ,該概率可以預先 通過從單語文本語料中統計「is」和「this is」的出現頻率而計算得到。在此,單詞組
"this, is」 稱為一個 2-gram(或 bigram)。此外,概率 ρ (your|this,is)表示 「your」 出 現在「this is」之後的概率,同樣,該概率也可以預先通過從單語文本語料中統計「this is your」和「this is」的出現頻率而計算得到。在此,單詞組"this, is, your」稱為一 個 3-gram (或 trigram)。對於才既率 ρ (this)、p(seat|is, your)禾口 ρ (.|your, seat)而言,也 是同樣的。從以上可以看出,在基於平滑的ngnim模型構建用於為句子獲得語言模型概率 的語言模型(後面稱為「標準語言模型」)時,由於訓練語料中的詞彙已經是確定的了, 所以,語言模型中所訓練出的ngram的詞彙也是確定的。從而在利用所構建的語言模型 為句子獲得語言模型概率時,只能從語言模型中確定的ngram中查找相應的ngram及其概 率,來直接用於計算。這樣,就會存在句子中的詞序列有可能與語言模型中使用的詞彙表不一致的問 題。例如,複合詞通常被看作一個詞,但是統計機器翻譯系統在根據翻譯模型為句子生 成候選譯文時,有可能會將一個複合詞分離地翻譯為幾個單獨的詞。另一方面,由於語 言模型的詞彙表並不會將一個複合詞看作是由幾個單獨的詞組成的,所以語言模型中並 不會包含這幾個單獨的詞的ngram的概率。這樣,統計機器翻譯系統可能會轉而為該復 合詞生成一個不準確、但出現概率較高的對應譯文。從而,導致所生成的譯文的流利度 和忠實度下降。這種複合詞不一致的問題,對於漢語、日語等需要劃分單詞的語言來說,是一 種常見的問題。這種問題,主要是因為機器翻譯系統在翻譯過程中的分詞結果的不一致 而造成的。下面用具體的例子來進行說明。假設待翻譯的句子是「This is my airplane ticket.」。採用基於短語的統計機器翻
譯系統。假設在該統計機器翻譯系統的雙語短語表中,與上面的待翻譯句子匹配的雙語 短語如表1所示。表 1
This is my airplane ticket .這是我的 飛機
___ 的票也就是說,對於上面的待翻譯句子「This is my airplane ticket.」,統計機器翻譯 系統只能夠從表1所列出的短語中組合得到其譯文。但是,由於在上述雙語短語表中, 對於複合詞「飛機票」,不包含雙語短語「airplane ticket|飛機票」,而僅包含「airplanej 飛機」和「ticket|票,的票」,因此,基於該短語表,統計機器翻譯系統只能夠將
「airplane ticket」拆開,通過合併兩個短語「airplane|飛機」和「ticket|票,的票」來得至Ij 「airplane ticket」 的對應譯文。這樣,根 據表1,統計機器翻譯系統可能得到的譯文包括Tl 這是我的飛機票。T2 這是我的飛機的票。基於上式⑵,譯文Tl的語言模型概率的計算可以表示為ρ (這是我的飛機票。)=ρ(這)Xp(是I這)Xp(我I這,是)Xp(的I是,我)Xp(飛機I我,的)Xp(票 I的,飛機)Xp(。I飛機,票)譯文T2的語言模型概率的計算可以表示為ρ (這是我的飛機的票。)=ρ(這)Xp(是I這)Xp(我I這,是)Xp(的I是,我)Xp(飛機I我,的)Xp(的 I的,飛機)Xp(票ι飛機,的)Χρ(。ι的,票)雖然譯文Tl的質量優於T2,但是對於譯文Tl而言,複合詞「飛機票」是由 「飛機」和「票」組合而成的詞序列(表示為「(飛機)(票)」),而「飛機票」在標
準語言模型的詞彙表中是一個詞,而並不會看作是由「飛機」和「票」組合而成的詞序 列,所以在標準語言模型的詞彙表中,並不會統計出包含了該詞序列「(飛機)(票)」的 ngnim的出現概率。從而,在計算譯文Tl的語言模型概率時,包含了詞序列「(飛機) (票)」的ngnim的概率(例如ρ (票|的,飛機))將是一個非常低的值。相對於此,對於譯文Τ2而言,由於「飛機的票」本身就不是一個詞,而可以看 作是由「飛機」、「的」和「票」組合而成的詞序列「(飛機)(的)(票)」,所以語 言模型的詞彙表中包含該詞序列的ngram的概率不會很低,而高於譯文Tl中「(飛機) (票)」的情況。這樣,所計算出的譯文T2的語言模型概率將高於譯文Tl。從而,統計機器翻譯系統最終將選擇譯文T2作為上述待翻譯句子的最終譯文。可以看出,在現有的標準語言模型中,由於並不考慮候選譯文中的複合詞與語 言模型的詞彙表不一致的情況,所以存在著由於候選譯文中的複合詞被拆分而導致語言 模型概率的計算不準確的問題,進而存在著使統計機器翻譯系統也不能夠有效地根據語 言模型概率生成高質量的譯文的問題。

發明內容
本發明正是鑑於上述現有技術中的問題而提出的,其目的在於提供一種為句子 獲得語言模型概率的方法和裝置、構建語言模型的方法和裝置以及應用了這些方法和裝 置的基於語料庫的機器翻譯方法和系統,以便通過改變標準語言模型中對句子中與語言 模型概率的計算有關的各個詞及其概率的確定方式,來確保在語言模型概率的計算中復 合詞不被拆分,從而準確地體現句子的流利度。根據本發明的一個方面,提供一種為句子獲得語言模型概率的方法,包括通 過對於句子中的各個單詞,嘗試將其與後面的單詞組成通常被作為一個詞使用的組合 詞,而確定與該句子的語言模型概率的計算有關的各個詞及其概率;以及基於所確定的 與該句子的語言模型概率的計算有關的各個詞及其概率,獲得該句子的語言模型概率。根據本發明的另一個方面,提供一種構建語言模型的方法,包括構建語言模型,該語言模型通過對於句子中的各個單詞,嘗試將其與後面的單詞組成通常被作為 一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關的各個詞及其概率, 進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率,獲得該句子 的語言模型概率。優選地,上述句子的語言模型概率通過求取所確定的與該句子的語言模型概率 的計算有關的各個詞的概率的乘積而獲得。

優選地,確定與該句子的語言模型概率的計算有關的各個詞及其概率的步驟根 據下式實現ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 『 ..., ei-2, ei-l)『…,P (ei+...+ei+j|ei-n+1, Qi-n+2 『…,『 ei-l)其中,e',是針對單詞^確定的、與句子的語言模型概率的計算有關的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其後面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是單詞e,與其後面的j個單詞所組成 的組合詞e,+...+ 的概率。優選地,基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概 率,獲得該句子的語言模型概率根據下式實現Ps^) = JlPAeiKe2,...^)
/=/'+J其中,ps(E)表示包含N個詞{e1; e2,…,eN}的句子E的語言模型概率。根據本發明的又一個方面,提供一種基於語料庫的機器翻譯方法,包括利用 上述的為句子獲得語言模型概率的方法,為針對待翻譯的句子生成的多個候選譯文,分 別獲得語言模型概率;以及參考上述多個候選譯文的語言模型概率,從該多個候選譯文 中選擇出上述待翻譯的句子的最終譯文。根據本發明的再一個方面,提供一種為句子獲得語言模型概率的裝置,包括 詞及其概率確定單元,其通過對於句子中的各個單詞,嘗試將其與後面的單詞組成通常 被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關的各個詞及其 概率;以及語言模型概率計算單元,其基於所確定的與該句子的語言模型概率的計算有 關的各個詞及其概率,獲得該句子的語言模型概率。優選地,上述詞及其概率確定單元基於預先從單語文本語料中統計出的多個單 詞組及其概率,對於上述句子中的各個單詞,確定該單詞以及該單詞與其後面的單詞所 組成的所有可能的組合詞中概率最高的那一個詞,以將該詞及其概率作為與該句子的語 言模型概率的計算有關的詞及其概率,並且將該所確定的詞後面的單詞作為下一個要進 行與該句子的語言模型概率的計算有關的詞及其概率的確定的當前單詞。優選地,上述詞及其概率確定單元對於上述句子中的各個單詞,通過在該單詞 的基礎上逐個單詞地向後擴充來嘗試將該單詞與後面的單詞構成組合詞,並且在確定這 樣構成的組合詞的概率不再增高時停止,來確定該單詞及其所有可能的組合詞中概率最 高的那一個詞。優選地,上述詞及其概率確定單元根據下式,確定與該句子的語言模型概率的計算有關的各個詞及其概率 ps (e' , Ie1, e2, e^) = Max(p(e1|e1_n+1, e^, e^, eM), ρ (ε,+e^Ie1-^1,
ei-n+2 『…,ei-2, ei-l)『…,P (ei+...+ei+j|ei-n+1, Qi-n+2 『…,『 ei-l)其中,e',是針對單詞^確定的、與句子的語言模型概率的計算有關的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其後面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是單詞e,與其後面的j個單詞所組成 的組合詞e,+...+ 的概率;並且上述語言模型概率計算單元根據下式,獲得句子的語言模型概率Ps(E) = JjMeiKe2,...^)
i=i+j其中,ps(E)表示包含N個詞{e1; e2,…,eN}的句子的語言模型概率。根據本發明的再一個方面,提供一種構建語言模型的裝置,包括模型構建單 元,其構建語言模型,該語言模型通過對於句子中的各個單詞,嘗試將其與後面的單 詞組成通常被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關的 各個詞及其概率,進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其 概率,獲得該句子的語言模型概率。優選地,上述模型構建單元所構建的語言模型基於預先從單語文本語料中統計 出的多個單詞組及其概率,對於上述句子中的各個單詞,確定在該單詞以及該單詞與其 後面的單詞所組成的所有可能的組合詞中概率最高的那一個詞,以將該詞及其概率作為 與該句子的語言模型概率的計算有關的詞及其概率,並且將該所確定的詞後面的單詞作 為下一個要進行與該句子的語言模型概率的計算有關的詞及其概率的確定的當前單詞。優選地,上述模型構建單元所構建的語言模型對於上述句子中的各個單詞,通 過在該單詞的基礎上逐個單詞地向後擴充來嘗試將該單詞與後面的單詞構成組合詞,並 且在確定這樣構成的組合詞的概率不再增高時停止,來確定該單詞及其所有可能的組合 詞中概率最高的那一個詞。優選地,上述模型構建單元所構建的語言模型根據下式,確定與該句子的語言 模型概率的計算有關的各個詞及其概率ps (e' Je1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1,
ei-n+2 『 ..., ei-2, ei-l)『…,P (ei+...+ei+j|ei-n+1, ei-n+2, ..., ei-2, ei-l)其中,e',是針對單詞^確定的、與句子的語言模型概率的計算有關的詞, ps(e' ,Ie1, e2,…,是該詞 e'工的概率,Pfe1Ie1-^1, e^,…,e^, 是單詞 e,的 概率,p(ei+e1+1|ei_n+1,ei_n+2,…,ei_2,ed是單詞&與其後面的單詞e1+1所組成的組合詞 ei+e1+1的概率,p(ei+...+e1+」ei_n,ei_n+1,...ei_2,是單詞e,與其後面的j個單詞所組成的 組合詞e,+...+ 的概率,並且根據下式,獲得該句子的語言模型概率P.XE)=
i=i+J其中,ps(E)表示包含N個詞{e1; e2,…,eN}的句子的語言模型概率。
優選地,單詞的概率是該單詞與句子中該單詞前面的單詞所組成的單詞組的概 率,組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成的單詞組的概率。根據本發明的再一個方面,提供一種基於語料庫的機器翻譯系統,包括上述 的為句子獲得語言模型概率的裝置或利用上述的構建語言模型的裝置構建的語言模型; 以及譯文生成單元,其為待翻譯的句子生成多個候選譯文,並且利用上述為句子獲得語 言模型概率的裝置或語言模型,分別為該多個候選譯文獲得語言模型概率,並且參考該 多個候選譯文的語言模型概率,從該多個候選譯文中選擇出上述待翻 譯的句子的最終譯 文。


相信通過以下結合附圖對本發明具體實施方式
的說明,能夠使人們更好地了解 本發明上述的特點、優點和目的。圖1是根據本發明實施例的為句子獲得語言模型概率的方法的流程圖;圖2是圖1的步驟105中確定與句子的語言模型概率的計算有關的各個詞及其概 率的過程的流程圖;圖3是根據本發明實施例的構建語言模型的方法的流程圖;圖4是根據本發明實施例的基於語料庫的機器翻譯方法的流程圖;圖5是根據本發明實施例的為句子獲得語言模型概率的裝置的方框圖;圖6是根據本發明實施例的構建語言模型的裝置的方框圖;以及圖7是根據本發明實施例的基於語料庫的機器翻譯系統的方框圖。
具體實施例方式本發明提出一種新的語言模型的概念,該語言模型在現有的標準語言模型的基 礎上,考慮了通常被作為一個詞來使用的複合詞在候選譯文與語言模型中不一致的問 題,改變了句子中與語言模型概率的計算有關的各個詞及其概率的確定方式。具體地, 該語言模型,對於句子中的各個單詞,嘗試是否能夠將其與後面的單詞組成通常被作為 一個詞使用的組合詞,並且在能夠組合的情況下基於這樣的組合詞的概率、而不是上述 單詞的概率來計算句子的語言模型概率,以便確保在語言模型概率的計算中複合詞不被 拆分。在此,所謂複合詞,是一個寬泛的概念,指所有由多個詞組合而成、在所屬語 言中通常被作為一個詞來使用的詞。在本發明所提出的該新的語言模型的概念的基礎上,下面結合附圖對本發明的 各個優選實施例進行詳細說明。圖1是根據本發明實施例的為句子獲得語言模型概率的方法的流程圖。如圖1所示,該方法首先在步驟105,為要進行語言模型概率的計算的句子,對 於其中的各個單詞,嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞,而確 定與該句子的語言模型概率的計算有關的各個詞及其概率。該步驟基於預先從單語文本語料中統計出的多個單詞組及其概率來實現。在 此,所謂單詞組,是由多個單詞組成、代表該多個單詞有可能在句子中按順序出現的組。在一個實施例中,與平滑的ngram模型對應地,這裡所述的單詞組指ngram。此外,單詞組的概率表示該單詞組中的最後一個單詞出現在該單詞組中其前面 的所有單詞之後的概率。單詞組的概率也可以稱為是該單詞組中的最後一個單詞的、與 該單詞組中其前面的單詞有關的概率。也就是說,在本步驟中,對於句子中的各個單詞,不僅要像標準語言模型那樣 考慮該單詞與其前面的單詞的組合,而且還要考慮其與後面的單詞的組合。具體地,在本步驟中,對於句子中的各個單詞,根據預先從單語文本語料中統 計出的多個單詞組及其概率,確定該單詞和該單詞與其後面的單詞所組成的所有可能的 組合詞中概率最高的那 一個詞,作為與該句子的語言模型概率的計算有關的詞,使其概 率用於該句子的語言模型概率的計算。在一個實施例中,在本步驟中,在平滑的ngram模型的基礎上,對於包含N個 詞丨ei,e2,…,eN}的句子E,針對其中的各個當前單詞基於下式(3)嘗試將其與後 面的單詞組成組合詞,來確定與該當前單詞e,有關、進而與該句子的語言模型概率的計 算有關的詞e',及其概率仇…'Je1, e2,…,eM)ps (e' ,Ie1, e2, ej = Max(p(e1|e1_n+1, e^, e^, , ρ (ε,+e^Ie1-^1, 6i-n+2' ..., ^i-l)『…,P +ei+jl^-n+i, Ci-^2, ..., Qh2, Chi) (3)其中,p(ei|ei_n+1,ei_n+2,...,ei_2,h)是當前單詞ei的概率,也即該單詞&與 其前面的n-1個單詞所組成的單詞組(ei_n+1,ei_n+2,…,ei_2,eM, e)(後面稱為原始單 詞組,相當於平滑的ngram模型中的ngram)的概率,類似地,ρ(ei+e1+1|ei_n+1,e^,…, ei_2,eM)是當前單詞ei與其後面的單詞e1+1所組成的組合詞ei+e1+1的概率,也即該組合詞 與其前面的n-1個單詞所組成的單詞組(ei_n,ei_n+1,…,ei_2,eM, ei; e1+1)(後面稱為組 合單詞組)的概率,p(ei+...+e1+」ei_n,ei_n+1,…,ei_2,是當前單詞e,與其後面的j個單 詞所組成的組合詞e,+...+ 的概率,也即該組合詞與其前面的n-1個單詞所組成的組合單 詞組(『, ei-n+l 『…,ei-2,ei-1,ei,…,ei+j/ 的概率。可以看出,與當前單詞ei有關、進而與該句子的語言模型概率的計算有關的詞 e',是當前單詞ei及其所有可能的組合詞壚…+ 中概率最高的那一個詞。也就是說,在本實施例中,在確定與句子的語言模型概率的計算有關的各個詞 及其概率時,對於句子中的各個單詞,除了要考慮在標準語言模型中直接應用的該單詞 的概率之外,還嘗試在該當前單詞的基礎上組合其後面的單詞,即構成組合詞,並且確 定該當前單詞和所有可能的組合詞中概率最高的那一個詞,使該詞及其概率作為與該句 子的語言模型概率的計算有關的詞及其概率。並且,可以理解,在針對當前單詞確定了該單詞和其所有可能的組合詞中概率 最高的那一個詞之後,該所確定的詞後面的單詞將成為下一個要進行與該句子的語言模 型概率的計算有關的詞的確定的當前單詞。關於該步驟,將在後面結合圖2進行詳細描述。在步驟110,對於上述句子,基於所確定的與該句子的語言模型概率的計算有關 的各個詞及其概率,獲得該句子的語言模型概率。在一個實施例中,在本步驟中,求取所確定的與該句子的語言模型概率的計算 有關的各個詞的概率的乘積,來獲得該句子的語言模型概率。
具體地,在上述平滑的ngram模型的情況下,在上式(3)的基礎上,按照下式 (4)來求取所確定的與該句子的語言模型概率的計算有關的各個詞的概率的乘積,來獲得 該句子的語言模型概率。
權利要求
1.一種為句子獲得語言模型概率的方法,包括通過對於句子中的各個單詞,嘗試將其與後面的單詞組成通常被作為一個詞使用的 組合詞,而確定與該句子的語言模型概率的計算有關的各個詞及其概率;以及基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率,獲得該句子 的語言模型概率。
2.—種構建語言模型的方法,包括構建語言模型,該語言模型通過對於句子中的各個單詞,嘗試將其與後面的單詞組成通常被作為一個詞使用的 組合詞,而確定與該句子的語言模型概率的計算有關的各個詞及其概率,進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率,獲得該句子 的語言模型概率。
3.根據權利要求1或2所述的方法,其中上述確定與該句子的語言模型概率的計算有 關的各個詞及其概率的步驟進一步包括基於預先從單語文本語料中統計出的多個單詞組及其概率,對於上述句子中的各個 單詞,確定該單詞以及該單詞與其後面的單詞所組成的所有可能的組合詞中概率最高的 那一個詞,以將該詞及其概率作為與該句子的語言模型概率的計算有關的詞及其概率。
4.根據權利要求3所述的方法,其中在對於上述句子中的各個單詞確定了該單詞及其 所有可能的組合詞中概率最高的那一個詞之後,該所確定的詞後面的單詞將成為下一個 要進行與該句子的語言模型概率的計算有關的詞及其概率的確定的當前單詞。
5.根據權利要求3所述的方法,其中單詞的概率是該單詞與句子中該單詞前面的單詞 所組成的單詞組的概率,組合詞的概率是該組合詞與句子中該組合詞前面的單詞所組成 的單詞組的概率。
6.根據權利要求3所述的方法,其中對於上述句子中的各個單詞,確定該單詞以及該 單詞與其後面的單詞所組成的所有可能的組合詞中概率最高的那一個詞進一步包括通過在該單詞的基礎上逐個單詞地向後擴充來嘗試將該單詞與其後面的單詞構成組 合詞,並且在確定這樣構成的組合詞的概率不再增高時停止,來確定該單詞及其所有可 能的組合詞中概率最高的那一個詞。
7.一種基於語料庫的機器翻譯方法,包括利用權利要求1所述的為句子獲得語言模型概率的方法,為針對待翻譯的句子生成 的多個候選譯文,分別獲得語言模型概率;以及參考上述多個候選譯文的語言模型概率,從該多個候選譯文中選擇出上述待翻譯的 句子的最終譯文。
8.—種為句子獲得語言模型概率的裝置,包括詞及其概率確定單元,其通過對於句子中的各個單詞,嘗試將其與後面的單詞組成 通常被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關的各個詞 及其概率;以及語言模型概率計算單元,其基於所確定的與該句子的語言模型概率的計算有關的各 個詞及其概率,獲得該句子的語言模型概率。
9.一種構建語言模型的裝置,包括模型構建單元,其構建語言模型,該語言模型通過對於句子中的各個單詞,嘗試將其與後面的單詞組成通常被作為一個詞使用的 組合詞,而確定與該句子的語言模型概率的計算有關的各個詞及其概率,進而基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率,獲得該句子 的語言模型概率。
10. 一種基於語料庫的機器翻譯系統,包括權利要求8所述的為句子獲得語言模型概率的裝置或利用權利要求9所述的構建語言 模型的裝置構建的語言模型;以及譯文生成單元,其為待翻譯的句子生成多個候選譯文,並且利用上述為句子獲得語 言模型概率的裝置或語言模型,分別為該多個候選譯文獲得語言模型概率,並且參考該 多個候選譯文的語言模型概率,從該多個候選譯文中選擇出上述待翻譯的句子的最終譯 文。
全文摘要
本發明提供一種為句子獲得語言模型概率的方法和裝置、構建語言模型的方法和裝置以及基於語料庫的機器翻譯方法和系統。該為句子獲得語言模型概率的方法,包括通過對於句子中的各個單詞,嘗試將其與後面的單詞組成通常被作為一個詞使用的組合詞,而確定與該句子的語言模型概率的計算有關的各個詞及其概率;以及基於所確定的與該句子的語言模型概率的計算有關的各個詞及其概率,獲得該句子的語言模型概率。在本發明中,通過嘗試將句子中的各個單詞與其後面的單詞組合,能夠確保在語言模型概率的計算中複合詞不被拆分,從而為句子獲得準確的語言模型概率,準確地體現句子的質量。
文檔編號G06F17/28GK102023970SQ20091017751
公開日2011年4月20日 申請日期2009年9月14日 優先權日2009年9月14日
發明者劉佔一, 王海峰 申請人:株式會社東芝

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀