新四季網

用於消除語言轉換中的多個讀法的歧義的方法

2023-04-29 01:19:11 3

專利名稱:用於消除語言轉換中的多個讀法的歧義的方法
技術領域:
本發明涉及語言轉換,尤其涉及消除語言轉換中的多個讀法的歧義。
背景技術:
例如N元語法模型的統計語言模型通常用以通過使用概率分布將概率Pr (W)指配給一序列字W來將一種語言轉換或翻譯成另一種語言。這些語言模型通常是從一大堆文本 (稱作語料庫)訓練且,一般地,俘獲每一個字的出現頻率和/或語料庫內的兩個或兩個以上字的每一序列。按照慣例,通過訓練語言模型而不管語言模型在每一特定上下文中的用法和/或讀法來考慮語料庫中的特定字的出現。雖然語料庫中的大多數字且一般地各自與一種意義相關聯且可能地與一個以上正確發音相關聯,但是某些字是以完全相同方式書寫而具有不同意義和發音/讀法(即,同形異音異義詞)。舉例來說,英文語言中的同形異音異義詞的實例為「desert」,其在一種上下文和用法/發音中意味「拋棄」且在另一種上下文和用法/發音中意味「乾燥的荒蕪陸地區域」。因此,通過考慮字「desert」的頻率而不管字 「desert」在語料庫中的用法的上下文,常規語言模型最可能看漏第一種含義(「拋棄」)和第二種含義(「乾燥的荒蕪陸地區域」)的字的使用頻率的任何差別。
拼音是使用羅馬字母表抄錄中國國語的標準方法。在拼音音譯中,將中文字符的語音發音/讀法映射到由羅馬字母組成的音節。拼音通常用以經由轉換系統將中文字符輸入到計算機中。這種系統常常並有統計語言模型以改進轉換準確度。某些中文字符具有多個發音/讀法(即,同形異音異義中文字符)。然而,並不區別同形異音異義詞的不同發音 /讀法的常規語言模型有時可產生用於與同形異音異義中文字符相關聯的拼音的不合需要的中文轉換候選者。發明內容
本發明的一個實施例涉及一種方法。所述方法包括在包括存儲器和一個或一個以上處理器的裝置處接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表示;以及使用區別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。
本發明的另一實施例涉及一種電子裝置。所述電子裝置包括輸入接收單元,其經配置以接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表示;以及耦合到所述輸入接收單元的轉換單元,所述轉換單元經配置以使用區別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。


在以下詳細描述和附隨圖式中揭示本發明的各種實施例。
圖I為用於語言轉換的系統的實施例的圖。
圖2為展示經配置以將輸入數據轉換成目標符號表示的輸出的裝置的實施例的圖。
圖3為展示執行語言轉換的程序的實施例的流程圖。
圖4A展示在語料庫中發現的一序列文本的實例。
圖4B展示存儲於從語料庫訓練的語言模型處的一些數據的實例,圖4A的文本是從所述語料庫發現。
圖5為展示用於建立已加以注釋的語料庫的系統的實施例的圖,所述已加以注釋的語料庫待用以訓練待用於語言轉換的語言模型。
圖6為展示用於對語言模型加以注釋並使用語言模型的程序的實施例的流程圖。
圖7A為展示句子702和句子704的實例,句子702呈現於不包含關於同形異音異義字符的注釋的語料庫中,句子704呈現於確實包含關於同形異音異義字符的注釋的語料庫中。
圖7B為展示句子710和句子712的實例,句子710呈現於不包含關於同形異音異義字符的注釋的語料庫中,句子712呈現於確實包含關於同形異音異義字符的注釋的語料庫中。
圖8A展示使用未加以注釋以用於同形異音異義字符的中文字符語料庫(「不具有注釋的語料庫」)的實例。
圖SB展示使用已加以注釋以用於同形異音異義字符的中文字符語料庫(「具有注釋的語料庫」)的實例。
圖9為展示語言轉換的程序的實施例的流程圖。
圖10為展示用於將拼音轉換成中文字符的程序的實施例的流程圖。
具體實施方式
本發明可以眾多方式來實施,眾多方式包含呈現以下各者的形式程序;設備;系統;物質組成;體現於計算機可讀存儲媒體上的電腦程式產品;和/或處理器,例如,經配置以執行存儲於耦合到處理器的存儲器上的和/或由耦合到處理器的存儲器提供的指令的處理器。在此說明書中,這些實施方案或本發明可採用的任何其它形式可被稱作技術。一般地說,可在本發明的範圍內變更所揭示程序的步驟的次序。除非另外陳述,否則,例如描述為經配置以執行任務的處理器或存儲器的組件可實施為經暫時配置以在給定時間執行任務的一般組件或經製造以執行任務的特定組件。如本文中所使用,術語「處理器」指代經配置以處理數據(例如,電腦程式指令)的一個或一個以上裝置、電路和/或處理芯。
下文連同說明本發明的原理的隨附圖一起提供本發明的一個或一個以上實施例的詳細描述。結合這些實施例描述本發明,但本發明不限於任何實施例。本發明的範圍僅通過權利要求書來限制且本發明包括眾多替代例、修改和等效物。在以下描述中闡述眾多特定細節以便提供對本發明的透徹理解。提供這些細節以用於實例的目的且可在無這些特定細節中的一些特定細節或全部的情況下根據權利要求書實踐本發明。為了清晰的目的, 未詳細描述與本發明有關的技術領域中已知的技術材料,以使得不會不必要地使本發明難理解。
揭示使用語言模型的方法,所述語言模型是針對已加以注釋以區別與某些字符相關聯的不同讀法的語料庫訓練。在一些實施例中,呈現於與一個以上讀法/發音/用法/ 含義相關聯的語料庫中的字符的例子是用適合於字符的彼例子的讀法/發音/用法/含義加以注釋。在一些實施例中,使用針對此已加以注釋的語料庫訓練的語言模型將拼音轉換成中文字符。
圖I為用於語言轉換的系統的實施例的圖。在實例中,系統100包含裝置102、網絡104,和轉換伺服器106。網絡104可包含各種高速數據和/或電信網絡。
裝置102經配置以接收輸入數據。在一些實施例中,輸入數據可包含輸入文本(例如,羅馬字母表)。舉例來說,輸入數據可包含拼音。雖然將裝置102展示為iPhone ,但裝置102的其它實例可為桌上型計算機、膝上型計算機(例如,MacBook )、智慧型電話、移動裝置、平板裝置(例如,iPad 或iPad 2 ),以及任何其它類型的計算裝置。裝置102經配置以包含輸入區域,在輸入區域中,可由裝置102來俘獲/接收鍵打和/或手寫的字符。 這種輸入區域的實例包含觸控螢幕鍵盤(例如,平板和/或行動電話裝置的觸控螢幕鍵盤)、實體鍵盤、軌跡墊(例如,Apple的Magic Trackpad,或MacBook Pro的內置式軌跡墊)、電子書寫表面,以及觸控板。在各種實施例中,用戶可通過與裝置102的輸入區域互動(例如, 通過鍵打到實體和/或觸控螢幕鍵盤中)在裝置102處選擇輸入。在一些實施例中,裝置102 包含顯示區域,在顯示區域中,可顯示從轉換伺服器106接收的輸出。
在一些實施例中,裝置102經配置以經由網絡104將所接收輸入發送到轉換伺服器106以供轉換伺服器106將所接收輸入轉換成目標符號表不的輸出(例如,一組字符)。 在一些實施例中,裝置102包含與執行類似轉換相關聯的邏輯、代碼和/或所存儲數據,且因此可執行輸入數據到目標符號表示的輸出的轉換,而無需經由網絡104將數據傳輸到遠程轉換伺服器106。
轉換伺服器106經配置以接收數據並將數據轉換成另一種形式(例如,目標符號表示的字符)。舉例來說,目標符號表示可為中文字符。在一些實施例中,轉換伺服器106 可包含語言模型(例如,從中文字符的語料庫訓練的)和/或資料庫,所述資料庫用以存儲輸入數據的文本與目標符號表示的字符集之間的關聯(例如,輸入數據到目標符號表示詞典)。在一些實施例中,轉換伺服器106的輸出可包含來自輸入的轉換候選者。舉例來說, 用於輸出的轉換候選者可為從語言模型和輸入拼音確定的某數目個統計上最可能的(即, 很可能的)中文字符。在一些實施例中,將轉換伺服器106的輸出發送回到裝置102且在裝置102處顯示輸出(例如,供用戶檢視和/或關於所顯示信息作出進一步選擇)。
圖2為展示經配置以將輸入數據轉換成目標符號表示的輸出的裝置的實施例的圖。在一些實施例中,可使用圖2的實例來實施系統100的裝置102。在一些實施例中,如圖2中所說明的裝置局部地包含轉換伺服器106的一個或一個以上功能性,以使得其可執行轉換而無需經由網絡將數據傳輸到遠程伺服器。實例中的裝置的所展示組件(例如,顯示器202、轉換引擎206、詞典204、語言模型208,和輸入區域210)可使用硬體和軟體中的一者或兩者來實施。在一些實施例中,裝置可具有比實例中所展示的彼等組件多或少的組件。
輸入區域210經配置以俘獲/接收第一符號表示的一組字符。如上文所敘述,輸入區域210的實例包含觸控螢幕鍵盤(例如,平板和/或行動電話裝置的觸控螢幕鍵盤)、實體鍵盤、軌跡墊(例如,Apple的Magic Trackpad,或MacBook Pro的內置式軌跡墊)、與語音辨識/轉換/抄錄功能相關聯的接收器(例如,麥克風)、電子書寫表面,以及觸控板。在一些實施例中,輸入區域210經配置以從羅馬字母表(例如,a、b、c,……等等)接收一個或一個以上文本字符。舉例來說,輸入區域210可接收拼音,拼音為用於以羅馬字母表音譯中國國語的系統。用戶可(例如)將拼音輸入到裝置的輸入區域210中,以使得裝置呈現用戶可選擇以在裝置上以中文「鍵打」的中文轉換候選者。在一些實施例中,輸入區域210 將輸入字符存儲為其對應文本編碼對應物。文本編碼方案的實例包含ASCII、Big5、UTF-8、 UTF-16、HKSCS、GB18030 和 JIS X 0213。
轉換引擎206經配置以使用 從輸入區域210所接收的輸入且確定目標符號表示的轉換候選者。在一些實施例中,目標符號表示可包含中文字符。在一些實施例中,轉換引擎206經配置以在轉換輸入之前對輸入執行預處理。舉例來說,如果輸入為拼音,那麼轉換引擎206可將拼音解析成對應於單音節的一個或一個以上字符群組,以準備用於將每一單音節映射到中文轉換候選者,這是因為典型地,每一中文字符是以單音節形式來讀法/發音。轉換引擎206經配置以存取詞典204和語言模型208。詞典204可包含用以存儲輸入數據的字符集與目標符號表示的字符集之間的映射/關聯的一個或一個以上資料庫。語言模型208可為針對目標符號表示的文本的語料庫訓練的N元語法模型。在一些實施例中, 對用以訓練語言模型208的語料庫加以注釋,以區別目標符號表示的同形異音異義字符的不同讀法。舉例來說,轉換引擎206可首先使用詞典204將輸入數據的已解析拼音映射到一或多個潛在中文字符轉換,且接著從語言模型208中檢索對應於彼等潛在中文字符轉換的統計信息,以確定候選轉換的哪些組合為最可能的。可接著在顯示器202處顯示字符的最可能組合(例如,供用戶檢視和/或互動)。顯示器202的實例可包含可俘獲來自用戶的互動的觸控螢幕,或無法俘獲用戶互動的其它類型的顯示器。
舉例來說,如果輸入為拼音「nihao」,那麼轉換引擎206可首先將輸入解析成兩個單音節字符群組「ni」和「hao」。因為中文字符當中存在許多同音異義詞(即,發音相同但具有不同意義的字),所以輸入拼音內的每一單音節群組可潛在地通過詞典204映射到若干個可能的中文字符(每一個此字符可以對應單音節拼音群組的語音發音讀法)。接著,轉換引擎206可檢索與中文字符中的每一者和/或其組合有關的統計信息,以確定具有最高概率的字符組合為用戶意欲的字符組合。
圖3為展示執行語言轉換的程序的實施例的流程圖。在一些實施例中,可在系統處實施程序300,所述系統構建語言模型且也使用所構建語言模型執行語言轉換。
在302處,接收文本的語料庫。文本的語料庫可包含大的和結構化文本集(例如, 從各種源搜集)。可以數字方式存儲和處理文本的語料庫。典型地,語料庫含有單一語言文本和/或具有類似於待針對語料庫訓練的語言模型的輸入的形式。舉例來說,為了訓練用於拼音到中文字符轉換的語言模型,語料庫可包含呈中文字符形式的文本。
在304處,使用語料庫訓練語言模型。在一些實施例中,可使用語言模型化工具 (例如,IRST語言模型工具箱)來從語料庫訓練和構建語言模型。舉例來說,語言模型化工具可針對在語料庫中發現的字符中的每一者和/或字符的每一序列產生N元語法概率。 舉例來說,可為在語料庫中發現的字符的每一序列(例如,長度為2個或3個或3個以上字符)指配出現概率。分析字符序列,以使得稍後可藉助於通過鄰近/周圍字符供應的上下文辨識用於序列內的字符的上下文(例如,在語言轉換階段期間)。因此,對於從未呈現於語料庫中或很少呈現(例如,歸因於印刷上錯誤或缺少意義)的一序列字符,針對彼等序列產生的概率為零或極低(以指示其表示輸入數據之後所隱藏的用戶的所要意圖的不可能性)。所得語言模型至少包含到在語料庫(模型是針對語料庫訓練)中發現的一個或一個以上字符(例如,或表示彼等字符的基礎符號)的序列的概率的一組指配。返回到中文字符的語料庫的實例,所得語言模型將包含指配給在語料庫中發現的一個或一個以上中文字符的序列的概率。
在306處,使用語言模型執行語言轉換。舉例來說,語言模型可供轉換引擎(例如, 轉換引擎206)或轉換伺服器(例如,轉換伺服器106)使用,以將一種形式(例如,語音或文本)的輸入轉換成第二種形式(例如,目標符號表示)的一個或一個以上輸出。在一些實施例中,輸入數據映射到一個正確輸出(例如,鍵入輸入的用戶所要的輸出)。更準確的語言模型可針對給定輸入數據檢索待從輸入數據轉換的潛在輸出,所述潛在輸出更可能包含用戶所要的一個輸出。舉例來說,可將輸入數據(例如,正確拼寫的拼音)映射(例如,使用詞典)到一個或一個以上字符(例如,中文字符),通過語言模型來維持關於所述一個或一個以上字符(例如,中文字符)的統計信息(例如,概率)。接著使用已檢索的概率來確定潛在地映射到輸入的字符中的哪些字符更可能為準確映射。在一些實施例中,語言模型包含用以匹配輸入與輸出的其它統計工具,例如,從輸入數據到目標符號表示的字符級和/ 或字級和/或句子(例如,句子的開頭和句子的結尾)和/或短語級解析度。
圖4A和4B為說明語言模型的建立和使用中的一些步驟的實例。
圖4A展示在語料庫中發現的文本序列的實例。如實例中所使用,字符(例如,A、 F、S,……等等)中的每一者可用以表示任何語言的字符或字;僅出於示範性目的而選擇大寫字母開頭的羅馬字母。舉例來說,圖4A中所展示的字符中的每一者可表示呈現於中文字符語料庫中的中文字符。可在訓練語言模型期間將語料庫的文本分成N元語法(例如, 長度為N個字符的字符序列)。子序列或N元語法402 (包含「A 」)、404(包含叩3 D」) 和406(包含「W G S J」)為在語料庫中發現的序列的一些實例,所述序列可在構建語言模型的N元語法概率產生和/或訓練階段中加以使用。舉例來說,可通過語言模型化工具和 /或語言模型的設計者來選擇待針對特定語言模型產生的N元語法概率所針對的序列的字符長度。
圖4B展示存儲於從語料庫訓練的語言模型處的一些數據的實例,圖4A的文本是從所述語料庫發現。如實例中所展示,計算並存儲(例如,在表條目中)在語料庫中發現的各種序列(具有變化的長度)的概率(對應於其相應字符序列)。舉例來說,408表示示範性表中的條目,其指示通過語言模型指配的關於序列「A F」在語料庫中的出現的N元語法概率(0.0324)。在一些實施例中,除圖4B中所展示的示範性數據之外,語言模型也可包含其它類型的信息(例如,輸入數據到目標符號表示詞典、字、若干字符的單位,以及像名稱和地點的信息類別)。
在一些實施例中,可使用語言模型來轉換輸入數據(例如,與第一符號或其它表不有關的一組字符),以產生輸出數據(例如,形成與目標符號表不有關的一個或一個以上轉換候選者的一組字符)。舉例來說,可使用語言模型經由輸入裝置將拼音文本輸入轉換成對應中文字符。剖析輸入拼音字符序列,以確定可映射到一個或一個以上潛在中文字符的音節(例如,通過語言模型或某一其它技術),且這些中文字符的相應概率可用以確定充當來自輸入拼音的所要映射的更可能的中文字符轉換。
一般地,雖然字符的常規語料庫可包含某些注釋(例如,語音標記的部分),但其典型地並不包含關於以下各者的注釋字符的讀法/發音/用法/含義(有時在本文中被稱作僅「讀法」),或針對字符所用於的上下文的特定讀法/發音/用法/含義(如果存在與字符相關聯的一個以上可能的讀法/發音/用法/含義)。舉例來說,中文字符的常規語料庫並不典型地包含關於讀法/發音/含義/拼音對應物的注釋。換句話說,常規中文字符語料庫並不區別同形異音異義中文字符的多個讀法,其中每一讀法適合於不同上下文。舉例來說,在語料庫的一部分中的上下文可使用第一種含義(讀法/發音/拼音對應物)的同形異音異義字符,而在相同語料庫的另一部分上的上下文可使用不同於第一種含義的第二種含義的同形異音異義字符(讀法/發音/拼音對應物)。然而,在語料庫中無注釋的情況下,為了區別同形異音異義字符的兩個(或兩個以上)含義,接著將僅針對彼同形異音異義字符(包括多個讀法),基於字符呈現於語料庫中的任何時間而執行N元語法概率產生, 而不是針對彼同形異音異義字符的每一個讀法,基於彼同形異音異義字符的特定讀法呈現於語料庫中的每一時間而確定單獨的含義特定概率。作為未能區別常規語料庫中的某些字符的可能的多個讀法的結果,在將數據輸入轉換成包含同形異音異義字符的輸出中,使用這種語料庫訓練的語言模型可能較不準確。揭示消除語言模型中的字符的不同讀法之間的歧義的方法,如下文將論述。
圖5為展示用於建立已加以注釋的語料庫的系統的實施例的圖,所述已加以注釋的語料庫待用以訓練待用於語言轉換的語言模型。在各種實施例中,語料庫的注釋促進區別用以指示語料庫中的第一讀法/發音/拼音/含義的同形異音異義詞的一種用法與用以指示語料庫中的第二讀法/發音/拼音/含義的相同同形異音異義詞的另一種用法。網絡 508可包含各種高速數據和/或電信網絡。在一些實施例中,語言模型訓練引擎510、語料庫512和語言模型514可實施為轉換伺服器(例如,轉換伺服器106)的部分。
在一些實施例中,語言模型訓練引擎510經由網絡508從(例如)由第三方託管的伺服器檢索文本源502、504和506。在一些實施例中,語言模型訓練引擎510在不使用網絡508的情況下接收文本(例如,通過經由本地存儲器或源獲得文本)。在一些實施例中,語言模型訓練引擎510經配置以將所檢索和/或所接收文本存儲於語料庫512處。語料庫512是由從各種源提取的文本形成,各種源例如文本源502、文本源504和文本源506。 在一些實施例中,語料庫512處所搜集的文本主要包含一種語言的文本。舉例來說,語料庫 512的文本可主要呈中文字符形式。文本源502、504和506的實例包含報紙、網站、書籍、 期刊、社會媒體(例如,Facebook 、Twitter ),和雜誌。舉例來說,從文本源502、504和 506收集的文本可總共大約800百萬個中文字符。而且,舉例來說,中文字符的語料庫可包含8000個不同字符,其中大約50個字符為同形異音異義字符。在一些實施例中,在無語料庫512的注釋的情況下,通過語料庫512中的一個相異符號表示從文本源提取的每一相異字符,且將多次從文本源提取的相同字符存儲為對應於彼字符的符號的多個例子。
在一些實施例中,語言模型訓練引擎510經配置以接收語料庫512中的對字符的手動注釋。在一些實施例中,語言模型514的系統管理員和/或設計者(例如,人類用戶)掃描語料庫512的文本以尋找同形異音異義字符,且基於用戶對同形異音異義字符所用於的上下文的理解(例如,基於字符所用於的句子和/或周圍文本),對同形異音異義字符的彼例子加以注釋以指示其適當讀法/發音/拼音/含義。舉例來說,為了執行這種注釋,可用語料庫512中的新符號(例如,文本編碼)替換特定讀法(兩個或兩個以上可能讀法中的) 的同形異音異義字符的例子,所述新符號可區別於表示存在於語料庫512中的所有其它字符的符號,且也可區別於與彼相同同形異音異義字符的另一讀法相關聯的另一個符號。換句話說,語料庫512中具有一讀法的同形異音異義字符將與語料庫512中的第一符號相關聯,且具有第二讀法的相同同形異音異義字符將與語料庫512中的第二符號相關聯。因此, 當同形異音異義字符用於與第一讀法相關聯的上下文中時,將字符的彼例子存儲為語料庫 512中的第一符號,且當同形異音異義字符用於與第二讀法相關聯的上下文中時,將字符的彼例子存儲為第二符號。由於注釋,同形異音異義字符將不再在整個語料庫512中呈現為相同符號的各種例子,而是同形異音異義字符的每一不同讀法將由語料庫中的相異符號替換。因此,舉例來說,與三個可能讀法相關聯的同形異音異義字符可在整個語料庫512中呈現為已加以注釋的語料庫中的三個不同符號的各種例子。在一些實施例中,雖然一個以上符號可表示語料庫中的同形異音異義字符,但彼等符號中的每一者仍與相同同形異音異義字符相關聯。
舉例來說,在用於英文字的這種已加以注釋的語料庫中,「desert」為具有兩個可能讀法的同形異音異義字/字符一種讀法為動詞,意味「拋棄」,所述讀法與一種意義相關聯,且一種讀法為名詞,意味「乾燥的 荒蕪陸地區域」,所述讀法與不同意義相關聯。在對語料庫加以注釋之前,在語料庫的文本中的「desert」的呈現將與用於「desert」的符號相關聯。但在注釋之後,語料庫中的「desert」的呈現將取決於用於「desert」的兩種意義中的哪一種意義適合於「desert」的彼例子呈現於文本中的上下文而與用於動詞或名詞的符號相關聯。
在一些實施例中,通過用以編碼用於所有出現的符號的原始符號來表示字的可能讀法或符號或符號序列中的一者,且僅對與一個或一個以上其它可能讀法相關聯的例子加以注釋。在前述實例中,舉例來說,將不對以與desert^(動詞,意味「拋棄」)相關聯的方式使用的「desert」加以注釋,但對於以deSert_n(名詞,意味「乾燥的荒蕪陸地區域」)含義使用的「desert」的例子,將用對應於deSert_n (意味「乾燥的荒蕪陸地區域」)的新近定義的符號替換用以編碼「desert」的符號。隨後,在訓練語言模型中,將未加以注釋的 「desert」的出現理解為與desert_v(意味「拋棄」)相關聯,而將desert_n(意味「乾燥的荒蕪陸地區域」)的出現理解為指代第二讀法。
在一些實施例中,用戶手動地對語料庫512的文本的子集加以注釋,且以類似方式(例如,基於通過手動注釋建立的注釋模式)自動地對語料庫512的剩餘部分加以注釋 (例如,使用呈軟體和/或硬體形式的機器獲悉技術)。舉例來說,自動程序可使用從手動注釋獲悉的模式來識別用於同形異音異義字符的第一上下文以及在彼上下文中的彼字符的對應適當讀法,且對語料庫中的字符的彼例子加以注釋為與字符的彼特定讀法相關聯(例如,通過將與語料庫中的同形異音異義字符相關聯的符號替換為相異於表示彼字符的另一讀法的符號且相異於表示語料庫512中的另一字符的符號的符號)。
用以在對語料庫512加以注釋之後考慮語料庫512的一種方式是符號集變得擴展;而在所揭示注釋之前,同形異音異義字符映射到用以以機器可理解方式表示字符的一機器可讀值(例如,統一代碼碼點或其它值),在所揭示注釋之後,同形異音異義字符映射到用於已加以注釋的語料庫512中的一個以上機器可讀值,其中與同形異音異義字符相關聯的每一機器可讀值表示同形異音異義字符的特定讀法。
在一些實施例中,使用(例如)語言模型化工具(例如,IRST語言模型工具箱)針對已加以注釋的語料庫512訓練語言模型514。舉例來說,語言模型化工具可產生關於字符(或其符號)和字符序列的N元語法概率,包含針對已加以注釋的語料庫512的同形異音異義字符的多個讀法添加的新符號。
在一些實施例中,轉換引擎(例如,圖2的轉換引擎206)經配置以接收輸入數據, 以使用針對讀法已加以注釋的語料庫訓練的語言模型(例如,語言模型514),產生目標符號表示中的一個或一個以上轉換候選者。舉例來說,假定輸入數據與拼音相關聯,且語言模型514與中文字符相關聯。接著,使用針對語言模型514中的字符/符號和其序列所產生的概率,轉換引擎206可產生一個或一個以上中文字符作為輸出,所述一個或一個以上中文字符相對來說更可能匹配給定拼音輸入且特別避免過高估計以下情形的可能性通過使用提供同形異音異義字符的特定讀法所特有的概率的模型,意欲特定同形異音異義字符。
圖6為展示用於對語言模型加以注釋並使用語言模型的程序的實施例的流程圖。 在一些實施例中,可至少部分使用系統500來實施程序600。
在602處,接收對與語料庫相關聯的文本子集的注釋的一個或一個以上手動輸入,其中對於與一個以上讀法相關聯的字符的例子,對注釋的手動輸入至少部分基於與例子相關聯的上下文而指示字符的適當讀法。
舉例來說,用戶可讀完語料庫的文本的子集以定位同形異音異義字符/字的例子。在尋找到同形異音異義字符/字的例子後,用戶便可基於字符的例子所呈現於的上下文(例如,字符所呈現於的句子,環繞彼字符的字符)以及用戶對彼上下文中的字符的用法的了解,確定用於字符的彼例子的適當讀法並對適當讀法加以注釋。很少有適合於語料庫中的字符的例子的同形異音異義字符的一個以上讀法(如果有的話)。因而,僅需要針對語料庫中的同形異音異義字符的每一個例子的一個確定的讀法。可將針對同形異音異義字符的例子的此確定的適當讀法鍵入到轉換引擎中作為注釋且也將適當讀法存儲於語料庫中。 在一些實施例中,可將與同形異音異義詞的例子相關聯的用以指示同形異音異義詞的特定讀法的注釋存儲為語料庫中的新符號(例如,不同於用以表示語料庫中的任何其它字符的符號且也不同於用以表不相同同形異音異義字符的另一讀法的符號的符號,例如,先前未指配的統一代碼值或專用使用區域字符),所述新符號替換表示字符的原始例子的語料庫中的符號(例如,文本編碼)。在一些實施例中,與同形異音異義詞的例子相關聯的用以指示同形異音異義詞的特定讀法的注釋可為添加到符號的表示語料庫中的字符的彼例子的標籤。在一些實施例中,語料庫可包含從各種源獲得的文本(大部分為一種語言)。
因為手動地對整個語料庫(其可包含成千上萬個文本)加以注釋將是不足的,所以可針對語料庫的小子集執行手動注釋,且可使用自動化程序對語料庫的剩餘部分加以注釋,如下文所描述。
在604處,至少部分基於對注釋的所接收的一個或一個以上手動輸入,自動地對與語料庫相關聯的文本的未加以手動地注釋的至少一部分加以注釋。
在一些實施例中,可使用自動化程序將注釋添加到尚未手動地加以注釋的語料庫的整個剩餘部分中的同形異音異義字符的例子的各種不同讀法。舉例來說,可用軟體建立自動化程序,所述軟體使用機器獲悉技術和602處的手動注釋輸入。
在606處,使用已加以注釋的語料庫訓練語言模型。
在一些實施例中,已加以注釋的語料庫包含相異符號,以表示在對語料庫加以注釋之前出現於語料庫中的同形異音異義字符的每一個例子的不同讀法。在一些實施例中, 通過對在已加以注釋的語料庫中發現的字符/字和其序列執行N元語法概率產生,針對已加以注釋的語料庫建立語言模型並訓練語言模型。在一些實施例中,也可針對在語料庫內發現的句子的開頭和結尾訓練語言模型。所得語言模型將包含與同形異音異義字符的每一讀法相關聯的概率。
舉例來說,假定在已加以注釋的語料庫中,通過符號「word_readingl」或「word_ reading2」來表示貫穿文本的同形異音異義「字」的出現。因而,針對已加以注釋的語料庫訓練的語言模型將包含包含字符/符號「word_readingl」或「word_reading2」的概率(例如,可使用Pr (word_readingl)來表示與一元語法「wording_readingl」相關聯的概率,且可使用Pr (word_reading2)來表示與一元語法「word_reading2」相關聯的概率;也可產生與N元語法相關聯的概率,例如Pr (wordN, wordN-1,…,word_readingl)和 Pr(wordN, wordN-Ι,…,word_reading2))。
舉例來說,對於具有兩個讀法的同形異音異義字「desert」,可針對每一讀法確定單獨概率。舉例來說,可針對「desert_v」 (例如,Pr (desert_v) >Pr (he, would, desert_v)、Pr (soldier, said, he, would, desert_v))確定用於與一元語法、二元語法、......N元語法相關聯的概率,且可針對「desert_n」 (例如,Pr (desert_n)、Pr (crossed, through, a, desert_n)、Pr (camel, crossed, through, a, desert_n))石角定用於與一元語法、二元語法、......N 元語法相關聯的概率。通過採用序列(長度比一個字符長)的概率,可使用這些概率來消除字符的歧義以確定字符可呈現 於的適當上下文。
圖7A和7B為中文語料庫中的文本的實例,已對所述中文語料庫加以注釋以區別同形異音異義中文字符的不同讀法。雖然在這些實例中展示中文字符的語料庫,但語料庫可改為包含不同語言(例如,日文)的字符。
圖7A為展示句子702和句子704的實例,句子702呈現於不包含關於同形異音異義字符的注釋的語料庫中,句子704呈現於確實包含關於同形異音異義字符的注釋的語料庫中。在句子702中,同形異音異義字符706 ( 「長」)為與以下至少兩個不同讀法/發音/ 拼音/含義相關聯的同形異音異義字符「zhang」和「chang」。舉例來說,當朗讀為「zhang」 時,「長」的意義意味「首領或領導者」。舉例來說,當朗讀為「chang」時,「長」的意義意味 「長」。句子702的英文翻譯(在不包含關於同形異音異義字符的注釋的語料庫中)為「he is one ofthe candidates running for mayor. 」。因而,在句子 702 中,字符 706 ( 「長,,) 是以與「zhang」的讀法/拼音相關聯的含義使用。在不包含關於同形異音異義字符的注釋的語料庫中,句子702中的字符706( 「長」)的呈現將映射到語料庫中的一個符號(例如,使用「長」的某一形式的文本編碼)。然而,在執行注釋之後,句子702變成句子704,句子704將呈現於確實包含關於同形異音異義字符的注釋的語料庫中。在句子704中,字符 (「長」)現在由語料庫中的表示讀法708( 「長_zhang」)的符號替換(例如,使用新近針對「長_zhang」建立的某一形式的文本編碼或先前未用於呈現於語料庫中的任何其它字符的文本編碼)。
圖7B為展示句子710和句子712的實例,句子710呈現於不包含關於同形異音異義字符的注釋的語料庫中,句子712呈現於確實包含關於同形異音異義字符的注釋的語料庫中。在不包含關於同形異音異義字符的注釋的語料庫中的句子710的英文翻譯為「Ihave been here for a long time already·」。因而,在句子 710 中,字符 706 ( 「長」)是以與 「chang」的讀法/拼音相關聯的含義使用。在不包含關於同形異音異義字符的注釋的語料庫中,句子710中的同形異音異義字符706( 「長」)的呈現將映射到語料庫中的一個符號 (例如,使用「長」的某一形式的文本編碼)。然而,在執行注釋之後,句子710變成句子712, 句子712將呈現於確實包含關於同形異音異義字符的注釋的語料庫中。在句子712中,字符(「長」)現在由語料庫中的表示讀法716( 「長_chang」)的符號替換(例如,使用新近針對「*_chang 」建立的某一形式的文本編碼或先前未用於呈現於語料庫中的任何其它字符的文本編碼)。
圖8A和SB說明在將拼音輸入轉換成某一形式的中文字符輸出中使用未加以注釋以用於同形異音異義字符的語料庫和已加以注釋以用於同形異音異義字符的語料庫的實例。雖然在這些實例中展示中文字符的語料庫,但語料庫可改為包含不同語言(例如,日文)的字符。在圖7A和7B的實例中,可在裝置(例如,裝置102)的輸入區域處接收拼音輸入。
在實例中,同形異音異義字符「長」與兩個潛在讀法/拼音「chang」和「zhang」相關聯。
圖8A展示使用未加以注釋以用於同形異音異義字符的中文字符語料庫(「不具有注釋的語料庫」)的實例。在此實例中,不管是輸入拼音「chang」還是「zhang」,對不具有注釋的語料庫訓練的語言模型將(例如,在拼音映射到「長」的潛在中文轉換候選者之後) 檢索與「長」相關聯的概率,例如,一元語法「長」的概率(Pr(長))。儘管如此,也可檢索與包含「長」的一序列字符(例如,N元語法,其中N>1)相關聯的概率(例如,Pr (市,長))。 因此,在提供統計信息以區分使用「zhang」的讀法/含義(意味「首領」)的「長」和使用 「chang」的讀法/含義(意味「長」)的「長」的短語和/或句子中,語言模型可能較不準確。
假定(例如)「zhang」的讀法/含義的「長」在語料庫中遠不如也與「zhang」的拼音相關聯的其它中文字符(例如,章、掌)常用。然而,對語料庫訓練的所得語言模型將相同概率歸因於「長」(例如,對應於包含「長」的N元語法),而不管「長」在語料庫內以多少種含義使用。因為指配給「長」的概率可包含語料庫中的「chang」的讀法/含義的「長」 的至少一些用途,所以語言模型中的「長」的概率相對於與映射到拼音「chang」的其它中文轉換候選者相關聯的概率來說可能不正確地較高,此情形可導致語言轉換中的總的較低準確度。
圖SB展示使用已加以注釋以用於同形異音異義字符的中文字符語料庫(「具有注釋的語料庫」)的實例。在此實例中,對於拼音輸入「chang」(例如,在拼音映射到「長」 的潛在中文轉換候選者之後),語言模型將檢索與字符的彼讀法相關聯的概率,例如,「長_ chang」的一元語法的概率(Pr (長_chang))。儘管如此,也可檢索與包含「長_chang」的一序列字符(例如,N元語法,其中N>1)相關聯的概率(例如,Pr (市,長_chang))。類似地, 對於拼音輸入「zhang」,語言模型將檢索與字符的彼讀法相關聯的概率,例如,一元語法「長_zhang」的概率(例如,Pr (長_zhang))。由於對語言模型訓練所針對的語料庫加以注釋, 因此可將概率歸因於相同同形異音異義詞的每一不同讀法,此情形可允許更準確的轉換。
返回到先前實例,其中假定「zhang」的讀法/含義的「長」在語料庫中遠不如也與拼音「zhang」相關聯的其它中文字符(例如,章、掌)常用,現在在針對具有注釋的語料庫訓練語言模型之後,存在可歸因於「長」的不同讀法(「chang」和「zhang」)的單獨概率。 現在,指配給「長_zhang」的概率將不包含在語料庫內的「chang」含義的「長」的任何用途, 且類似地,指配給「長_chang」的概率將不包含在語料庫內的「zhang」含義的「長」的任何用途。因而,語言模型中的「長」的概率相對於與映射到拼音「zhang」或「chang」的其它中文轉換候選者相關聯的概率來說將更準確,此情形將導致語言轉換中的總的較高準確度。
圖9為展示語言轉換的程序的實施例的流程圖。在一些實施例中,可至少部分對系統100實施程序900。在一些實施例中,可至少部分在裝置102處實施程序900。
在902處,接收待轉換成一組字符的輸入數據,所述組字符包括輸入數據在目標符號系統中的符號表示。在一些實施例中,在裝置(例如,裝置102)處接收輸入數據,轉換將在所述裝置處發生。在一些實施例中,將輸入數據發送到將執行轉換的遠程伺服器(例如,轉換伺服器106)。在一些實施例中,輸入數據包括輸入文本(例如,羅馬字母表的輸入文本)。舉例來說,輸入數據可為一組拼音。
在904處,在轉換輸入數據所來自的目標符號表示中產生一個或一個以上轉換候選者。在一些實施例中,目標符號表示包括中文字符。在一些實施例中,輸入數據或其子集映射到目標符號表不的一個或一個以上可能字符(例如,轉換候選者)。舉例來說,假定輸入數據與語音讀法相關聯,目標符號表示的多個字符可映射到與輸入數據的字符群組相關聯的一個讀法。在一些實施例中,使用呈到目標符號表示的字符(或其集合)的輸入數據的形式的字符詞典(或其集合),以基於所接收輸入數據而確定轉換候選者。在一些實施例中,輸入數據可映射到為目標符號表示的同形異音異義字符的轉換候選者,這是因為(例如)輸入數據或其一部分形成與彼字符相關聯的讀法中的一者。
在906處,使用區別目標符號系統的字符的第一讀法與第二讀法的語言模型,以確定同形異音異義字符應用以表示輸入數據的對應部分的概率。在各種實施例中,所使用語言模型是針對已加以注釋以用於同形異音異義字符的語料庫訓練(例如,使用程序600 的至少部分)。因此,訓練語言模型以區別在已加以注釋的語料庫中發現的同形異音異義字符的不同讀法。在一些實施例中,語言模型使同形異音異義字符的每一讀法與一個或一個以上概率的集合相關聯(例如,與一元語法、二元語法、三元語法等等相關聯,包含彼讀法)。舉例來說,在評估轉換候選者中,轉換候選者的相關聯的概率(例如,一元語法、二元語法、三元語法等等)供語言使用以確定轉換候選者中的哪些轉換候選者具有最高相對概率(例如,對於給定上下文/基於鄰近或周圍字符)。具有相對較高概率的轉換候選者更可能為所要轉換輸出。舉例來說,如果轉換候選者中的一者為同形異音異義字符(例如,因為輸入數據的至少一部分形成與彼字符相關聯的讀法中的一者),那麼在評估彼轉換候選者中,檢索與同形異音異義字符的彼特定讀法(例如,一元語法、二元語法、三元語法等等,包含彼特定讀法)相關聯的概率且使用所述概率與與其它轉換候選者相關聯的概率相比較。
圖10為展示用於將拼音轉換成中文字符的程序的實施例的流程圖。在一些實施例中,可使用系統100來實施程序1000。在一些實施例中,可使用程序1000來實施程序900(例如,904和906)。
在1002處,將與拼音相關聯的輸入字符集解析成一個或一個以上字符群組,其中每一字符群組待轉換成一中文字符。在一些實施例中,在裝置(例如,裝置102)的輸入區域處接收與拼音相關聯的字符集。在一些實施例中,將輸入拼音轉換成一個或一個以上中文字符。在一些實施例中,正確地拼寫輸入拼音(例如,羅馬字母串,字母中的至少一些字母之間具有或不具有一個或一個以上空間)。通常,每一中文字符通常為單音節的且因此映射到朗讀為單音節的拼音輸入中的鄰近字母群組。因此,在可將輸入拼音映射到中文轉換候選者之前,在一些實施例中,必須將輸入拼音解析成朗讀為單音節的字母群組。
舉例來說,假定輸入拼音為「shizhang」。輸入包含兩個音節(「shi」和「zhang」) 且因此將輸入解析成兩個單音節字母群組「shi」和「zhang」。
在1004處,確定對應於一個或一個以上拼音群組中的每一者的一個或一個以上中文轉換候選者。在中文語言中,存在若干同音中文字符,所述同音中文字符為以相同方式朗讀/發音但意義不同的字符。同音字符將與相同拼音相關聯。在將拼音轉換成中文字符的程序中,可針對每一單音節拼音群組識別若干同音字符(例如,具有相同或不同音調)。 然而,僅一個字符為用於拼音群組的所要轉換。可通過使用語言模型獲得此所要字符,所述語言模型使相關聯於每一中文轉換候選者的一個或一個以上概率相關聯以確定哪些一個或一個以上轉換候選者與最聞概率相關聯。
繼續先前實例,舉例來說,用於「shi 」的中文轉換候選者包含「是」、「市」和「十」。 舉例來說,用於「zhang」的中文轉換候選者包含「章」、「掌」和「長」。
在1006處,確定一拼音字符群組是否與同形異音異義中文字符的一讀法相關聯; 在確定拼音群組與相關聯於同形異音異義字符的第一讀法相關聯的情況下,檢索與彼第一讀法相關聯的信息。在一些實施例中,確定所解析的單音節拼音群組中的一者或一個以上者是否與同形異音異義字符的一讀法相關聯。如果確定此種群組,那麼檢索與同形異音異義字符的彼讀法相關聯的概率且使用所述概率(例如,通過針對已加以注釋以區別同形異音異義中文字符的不同讀法的語料庫訓練的語言模型)來評估對應中文轉換候選者。
繼續先前實例,可確定拼音「zhang」與同形異音異義字符「長」的一讀法相關聯且因此在評估用於「shi」和「zhang」的中文轉換候選者中,可檢索與「*_zhang」相關聯的概率(例如,Pr (長_zhang))。此外,假定輸入「shizhang」用以形成一個短語(包括兩個中文字符),那麼評估與「shi」和「zhang」的中文轉換候選者的各種組合相關聯的概率 (例如,Pr (是,章);Pr (是,掌);Pr (是,長_zhang) ;Pr (市,章);Pr (市,掌);Pr (市,長 _zhang) ;Pr (十,章);Pr (十,掌);Pr (十,長 _zhang) ;Pr (十,章);Pr (十,掌);Pr (十, *_zhang)),以確定具有最高概率的組合。假定語料庫已加以適當地注釋且語言模型已得到適當訓練,那麼關於與中文轉換候選者的可能組合相關聯的概率,Pr (市,長_zhang)的值應為最大的(例如,因為中文字符的剩餘組合無意義和/或並不常呈現於已加以注釋的語料庫中)。因而,在此實例中,「市長」(意味英文的「mayor」)為用於「shizhang」輸入的輸出中文轉換。在語料庫未加以注釋以區別同形異音異義中文字符的不同讀法的情況下, 那麼Pr (市,長)的值(如從未加以注釋的語料庫確定)可能不與Pr (市,長_zhang)的值一般高(且因此,可能不會選擇「市長」作為輸出中文轉換),這是因為(例如)用於所有讀法(「chang」和「zhang」)中的「長」更通常地呈現為貼近未加以注釋的語料庫中的除「市」之外的中文字符。
儘管為了理解的清晰的目的稍詳細地描述了前述實施例,但本發明不限於所提供的細節。存在實施本發明的許多替代方式。所揭示實施例為說明性的且並非限制性的。
權利要求
1.一種方法,其包括 在包括存儲器和一個或一個以上處理器的裝置處 接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表不;以及 使用區別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。
2.根據權利要求I所述的方法,其進一步包括 在待將所述輸入數據轉換到的所述目標符號系統中產生一個或一個以上轉換候選者。
3.根據權利要求I到2中任一權利要求所述的方法,其中所述輸入數據包括以拼音書寫的輸入文本。
4.根據權利要求I到3中任一權利要求所述的方法,其中所述輸入數據包括以羅馬字母表的字符書寫的輸入文本。
5.根據權利要求I到4中任一權利要求所述的方法,其中將所述輸入數據解析成一個或一個以上單音節字符群組。
6.根據權利要求I到5中任一權利要求所述的方法,其中所述目標符號系統包含中文字符。
7.根據權利要求I到6中任一權利要求所述的方法,其中使用已加以注釋以區別所述同形異音異義字符的所述第一讀法與所述同形異音異義字符的所述第二讀法的語料庫來訓練所述語言模型,且其中對於所述同形異音異義字符的所述第一讀法和所述第二讀法中的至少一者,建立對應新符號或其經編碼表示並將所述對應新符號或其經編碼表示添加到所述已加以注釋的語料庫。
8.根據權利要求I到7中任一權利要求所述的方法,其進一步包括 接收對與語料庫相關聯的文本子集的注釋的一個或一個以上手動輸入,其中對於相應同形異音異義字符的例子,對注釋的每一所述手動輸入至少部分基於與所述例子相關聯的上下文而指示所述相應同形異音異義字符的相應適當讀法,其中每一所述注釋與相關聯於所述相應同形異音異義字符的相應符號相關聯;以及 至少部分基於對注釋的所述所接收的一個或一個以上手動輸入,自動地對與所述語料庫相關聯的所述文本的未加以手動地注釋的至少一部分加以注釋。
9.根據權利要求I到8中任一權利要求所述的方法,其中訓練所述語言模型以使對應於所述同形異音異義字符的所述第一讀法的第一概率與對應於所述同形異音異義字符的所述第二讀法的第二概率相關聯。
10.根據權利要求I到9中任一權利要求所述的方法,其中訓練所述語言模型以使對應於第一字符序列的第一概率與對應於第二字符序列的第二概率相關聯,所述第一字符序列包含所述同形異音異義字符的所述第一讀法,所述第二字符序列包含所述同形異音異義字符的所述第二讀法,其中所述第一序列與所述第二序列各自包含兩個或兩個以上字符。
11.一種電子裝置,其包括 輸入接收單元,其經配置以接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表不;以及 耦合到所述輸入接收單元的轉換單元,所述轉換單元經配置以使用區別所述目標符號系統的同形異音異義字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符表示所述輸入數據的對應部分的相應概率。
12.根據權利要求11所述的電子裝置,其中所述轉換單元經進一步配置以在待將所述輸入數據轉換到的所述目標符號系統中產生一個或一個以上轉換候選者。
13.根據權利要求11到12中任一權利要求所述的電子裝置,其中所述輸入數據包括以拼音書寫的輸入文本。
14.根據權利要求11到13中任一權利要求所述的電子裝置,其中所述輸入數據包括以羅馬字母表的字符書寫的輸入文本。
15.根據權利要求11到14中任一權利要求所述的電子裝置,其中所述輸入數據被解析成一個或一個以上單音節字符群組。
16.根據權利要求11到15中任一權利要求所述的電子裝置,其中所述目標符號系統包含中文字符。
17.根據權利要求11到16中任一權利要求所述的電子裝置,其中所述語言模型是使用已加以注釋以區別所述同形異音異義字符的所述第一讀法與所述同形異音異義字符的所述第二讀法的語料庫來訓練,且其中對於所述同形異音異義字符的所述第一讀法和所述第二讀法中的至少一者,建立對應新符號或其經編碼表示並將所述對應新符號或其經編碼表示添加到所述已加以注釋的語料庫。
18.根據權利要求11到17中任一權利要求所述的電子裝置,其進一步包括 語言模型訓練單元,其經配置以 接收對與語料庫相關聯的文本子集的注釋的一個或一個以上手動輸入,其中對於相應同形異音異義字符的例子,對注釋的每一所述手動輸入至少部分基於與所述例子相關聯的上下文而指示所述相應同形異音異義字符的相應適當讀法,其中每一所述注釋與相關聯於所述相應同形異音異義字符的相應符號相關聯;以及 至少部分基於對注釋的所述所接收的一個或一個以上手動輸入,自動地對與所述語料庫相關聯的所述文本的未加以手動地注釋的至少一部分加以注釋。
19.根據權利要求11到18中任一權利要求所述的電子裝置,其中所述語言模型經訓練以使對應於所述同形異音異義字符的所述第一讀法的第一概率與對應於所述同形異音異義字符的所述第二讀法的第二概率相關聯。
20.根據權利要求11到19中任一權利要求所述的電子裝置,其中所述語言模型經訓練以使對應於第一字符序列的第一概率與對應於第二字符序列的第二概率相關聯,所述第一字符序列包含所述同形異音異義字符的所述第一讀法,所述第二字符序列包含所述同形異音異義字符的所述第二讀法,其中所述第一序列與所述第二序列各自包含兩個或兩個以上字符。
全文摘要
本發明揭示消除語言轉換中的多個讀法的歧義的方法,所述方法包含接收待轉換成一組字符的輸入數據,所述組字符包括所述輸入數據在目標符號系統中的符號表示;以及使用區別所述目標符號系統的字符的第一讀法與第二讀法的語言模型,以確定所述同形異音異義字符應用以表示所述輸入數據的對應部分的概率。
文檔編號G06F17/28GK102982021SQ20121028734
公開日2013年3月20日 申請日期2012年8月13日 優先權日2011年8月11日
發明者布倫特·D·拉梅爾斯, 戴王·K·奈克, 道格拉斯·R·戴維森, 亞內斯·G·A·多爾芬, 樸佳 申請人:蘋果公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀