語音識別方法和裝置以及記錄介質的製作方法
2023-06-07 12:49:01
專利名稱:語音識別方法和裝置以及記錄介質的製作方法
技術領域:
本發明涉及一種語音識別方法和裝置以及記錄介質,特別涉及一種語音識別方法和裝置以及記錄介質,其中,甚至在語音包含具有不穩定聲學特徵值的詞時,語音識別也可以用更少量的資源獲得更高的準確度。
背景技術:
圖1示出典型的傳統語音識別裝置。
由用戶發出的語音輸入到麥克風1,麥克風1然後將所輸入語音轉換為作為電信號的語音信號。這些語音信號輸入到A/D(analog/digital,模擬/數字)轉換器2,A/D轉換器2然後對作為模擬信號從麥克風1輸出的語音信號進行採樣和量化,以將這些信號轉換為作為數位訊號的語音數據。這些語音數據發送到特徵值提取單元3。
特徵值提取單元3對來自A/D轉換器2的語音數據以合適的所選幀進行逐幀的聲學處理,以提取特徵值,如MFCC(Mel Frequency CepstrumCoeffient,嘜頻率倒譜係數),並將所提取的值發送到匹配單元4。另外,特徵值提取單元3能夠提取其他特徵值,如頻譜、線性預測係數或線譜對。
使用來自特徵值提取單元3的特徵值,匹配單元4在必要時參考聲學模型資料庫5、詞典資料庫6和文法資料庫7,根據例如連續分布(HIGHMOLECULAR MATERIALS,高分子材料)對輸入到麥克風1的語音(輸入語音)進行語音識別。
也就是,聲學模型資料庫5存儲表示聲學特性,如正在識別語音的語言中的每個音素或音節,的聲學模型。由於在此語音識別基於連續分布高分子材料方法,因此所使用的聲學模型是高分子材料(隱馬爾科夫模型)。詞典資料庫6記錄表明正在識別的每個詞(詞彙)的發音信息(音素信息)的詞典。文法資料庫7存儲表明登記在詞典資料庫6的詞典中的詞如何相互連接的文法規則集(語言模型)。例如,基於上下文無關文法(Context Free Grammar,CFG)或統計詞連接概率(N-文法)可以用作該文法規則集。
匹配單元4參考詞典資料庫6的詞典,連接存儲在聲學模型資料庫5中的聲學模型,以構造詞的聲學模型(詞模型)。匹配單元4還參考存儲在文法資料庫7中的文法規則,連接幾個詞模型,並且使用如此連接的詞模型,根據連續分布高分子材料方法,基於特徵值,識別輸入到麥克風1的語音。也就是,匹配單元4檢測具有由特徵值提取單元3輸出的時間序列的特徵值觀察的最大分值(可能性)的詞模型序列,並且作為語音識別結果輸出與詞模型序列對應的詞序列。
具體地說,匹配單元4為與所連接詞模型對應的詞序列累計各個特徵值的出現概率。這些累計值就是分值,並且分值最大的詞序列作為詞識別結果進行輸出。
分值一般通過全面評估由存儲在聲學模型資料庫5中的聲學模型給予的聲學分值和由存儲在文法資料庫7中的文法規則集給予的語言模型進行計算。
也就是,例如,根據由特徵值提取單元3輸出的特徵值序列的觀察概率(出現概率),從形成詞模型的聲學模型,逐詞地,應用高分子材料方法,計算聲學模型。如果應用兩詞文法,語言分值根據當前考慮詞和其直接前面詞的連接(耦合)概率進行查找。語言識別結果根據通過全面評估每個詞的聲學分值和語言分值獲得的最終分值進行最終確定。
具體地說,如果,對於由N個詞構成的詞序列中的第k詞Wk,詞Wk的聲學分值表示為A(Wk)並且語言分值表示為L(Wk),那麼該詞序列的最終值S根據方程(1)進行計算S=O(A(Wk)+Ck(Wk))------(1)]]>其中 表示當k從1改變到N時取和,並且Ck表示應用到詞Wk的語言分值L(Wk)的加權。
匹配單元4實現查找最大化方程1所示的最終分值的N和查找詞序列W1,W2,…,WN的匹配處理。這些詞序列W1,W2,…,WN作為詞識別結果進行輸出。
上述處理的結果是,如果用戶念出,例如「ニユ一ヨ一クに行きたいです」(「我想去紐約」,念作「new york ni ikitai desu」),圖1的語音識別設備給予各個詞,如「ニユ一ヨ一ク」(「紐約」,念作「new york」)、「に」(「到」,念作「ni」)、「行きたい」(「想去」,念作「ikitai」)和「です」(念作「desu」)聲學和語言分值。如果通過全面評估獲得的最終分值最大,詞序列「ニユ一ヨ一ク」、「に」、「行きたい」、「です」作為語音識別結果進行輸出。
需要注意的是,如果在上述情況下,五個詞「ニユ一ヨ一ク」、「に」、「行きたい」和「です」登記在詞典資料庫6的詞典中,可由這五個詞形成的五詞序列存在55種可能性。因此,在簡單考慮的情況下,匹配單元4將不得不評估這55種詞序列,以確定該詞序列最匹配由用戶作出的發音,即該詞序列的最終分值最大。如果登記在詞典中的詞數增加,詞序列的可能數目對應於所登記詞的增加數目的數目,等於詞數的詞數次方,從而要評估的詞序列數目過大。
而且,由於包含在發音中的詞數未知,因此不僅由五詞構成的詞序列,而且由一、二…詞構成的詞序列都需要進行評估。因此,要評估的詞序列的數目進一步增加。因此,一個關鍵任務是,從計算量和要使用的存儲器容量的觀點,有效確定超大詞序列中最可能是語音識別結果的一個。
在用於改善計算量和存儲器容量的效率的方法中,存在當在查找聲學分值的過程中所發現的聲學分值低於預設閥值時剪除分值計算的聲學剪除方法,和根據語言分值剪除作為分值計算目標的詞的語言學剪除方法。
採用這種剪除方法,分值計算的目標根據預設判決標準,如給予每個詞的,在上述計算過程中的聲學分值,或語言分值進行剪除,以減小計算量。然而,如果判決標準太嚴格,甚至語音識別的正確結果也被剪除而導致識別錯誤。因此,如果應用剪除方法,剪除需要以預設的裕量執行,從而防止剪除語音識別的正確結果。這樣,要大幅減少計算量就很困難。
如果,在查找聲學分值中,發現要計算所有詞的聲學分值,處理量將增大。基於這種考慮,提出一種使用多個詞共同的聲學分值計算的特定部分的方法。已知有一種作為這種共有方法的方法,從首音素到最後一個共同音素使用詞典中具有相同首音素的這些詞共同的聲學模型,並且從在最後一個共同音素之後的音素使用單個語音模型,以構造單一樹結構網絡,並使用該網絡查找聲學分值。具體地說,對於詞「秋田」(「秋天田野」,念作「akita」)和「曙」(「黎明」,念作「akebono」),「秋田」的音素信息為[akita]並且「曙」的音素信息為[akebono],「秋田」的聲學分值和「曙」可以從第一音素直到第二音素a,k進行共同計算。對於詞「秋田」的剩餘音素k、i、t和a和詞「曙」的剩餘音素e、b、o、n和o,聲學分值進行獨立計算。
因此,採用這種方法,聲學分值的處理量可以大量減少。
採用這種方法,不可能確定正在從聲學分值進行共同計算的共同詞部分計算其聲學模型的詞。在上述詞「秋田」和「曙」的示例中,如果為第一和第二音素a和k計算聲學分值,就不可能識別正在計算其聲學模型的詞是「秋田」還是「曙」。
在這種情況下,對於「秋田」,當開始第三音素的聲學分值計算時,正在處理的詞可以識別作「秋田」。類似地,對於「曙」,當開始第三音素的聲學分值計算時,正在處理的詞可以識別作「曙」。
因此,如果共同使用一部分聲學分值計算,每個詞不能在計算詞的聲學分值的開始進行識別,因此不能考慮該詞的語言分值。因此,在開始計算詞的聲學分值之前使用上述語言學剪除方法是困難的,並且將做不必要的計算。
而且,如果共同使用一部分聲學分值計算,形成詞典中的全部詞的上述樹結構網絡,因此需要大存儲器容量用來維護該網絡。
為改善存儲器容量和處理量的效率,已知有一種初步選擇要計算其聲學分值的詞,而不計算詞典中全部詞的聲學分值,並且僅為初選詞計算聲學分值的方法。
用於初步選擇的方法參見,例如,L.R.Bahl,S.V.De Gennaro,P.S.Gopalakrishnan和R.L.Mercer,「一種用於大詞彙量語言識別的快速近似聲學匹配(A Fast Approximate Acoustic match for large Vocabulary SpeechRecognition)」、IEEE學報語言和音頻會議論文集,卷1,頁59-67,1993。
該初步選擇使用更簡單的聲學模型或精確度不特別高的文法規則集進行執行。也就是,對詞典中的所有詞執行初步選擇,從而,如果初步選擇使用精確度高的聲學模型或文法規則集,則需要大量的資源,如處理量或存儲器容量用來保持實時操作。採用這種初步選擇,如果要處理大詞彙量,使用簡化聲學模型或文法規則集,以更少量資源執行高速處理是可能的。
在其中應用初步選擇的語音識別裝置中,如果僅為初選詞執行匹配處理是足夠的,從而,甚至在使用精確度高的聲學模型或文法規則集的情況下,匹配處理可以用少量資源進行快速執行。因此,執行初步選擇的語音識別裝置在大詞彙量語音識別中特別有用。
同時,在為給定詞完成採用特徵值序列的匹配處理時找到可能為真的結束點之後,從與此時變為起始點的結束點對應的時間點使用特徵值序列,執行初步選擇。也就是,在包含在連續語音中的詞之間的邊界尚未最終確定的時間點執行初步選擇。
因此,如果在初步選擇中使用的特徵值序列的起始端點或結束端點偏離當前討論詞的起始端點或結束端點,使用包含直接前於或直接後於當前討論詞的詞的特徵值的特徵值序列或缺少當前討論詞的起始端或結束端部分的特徵值的特徵值序列,也就是,使用可稱之為聲學不穩定特徵值序列,執行這種初步選擇。
因此,在初步選擇中,採用簡單的語音模型,可能發生沒有選擇包含在語音中的特定詞。這種選擇錯誤可能發生在具有更少量音素的詞中,如日語中的助詞或助動詞或英語中的冠詞或介詞。
如果在初步選擇中沒有選擇正確詞,對該詞不執行匹配處理,從而語音識別結果發生錯誤。
存在放寬詞選擇的聲學或語言學判決標準以增加所選詞的數目,和採用精確度高的聲學模型或文法規則集這些方法。
然而,如果,在初步選擇中,放寬詞選擇的聲學或語言學判決標準,概率不特別高的大量詞將作為語音識別結果成為匹配處理的目標,因此大大增加比初步選擇單位詞負載更重的匹配處理所需的資源。
另一方面,如果在初步選擇中使用精確度高的聲學模型或文法規則集,初步選擇所需的資源將大大增加。
發明公開因此本發明的一個目的是提供一種語音識別在精確度上可以得到提高,而必要資源儘可能地避免增加的語音識別裝置。
本發明的語音識別裝置包括選擇裝置,用於根據使用特徵值計算的第一測度,從一組詞中選擇一個或更多第一詞進行語音識別處理,並且根據不同於第一測度的第二測度選擇一個或更多第二詞;和分值計算裝置,用於計算由選擇裝置選擇的第一和第二詞的分值。
選擇裝置可以,用語音部分作為第二測度,選擇語音部分滿足預設條件的詞作為第二詞。選擇裝置可以,用語音部分作為第二測度,選擇語音部分滿足預設條件的詞作為第二詞。選擇裝置可以,用語音部分作為第二測度,選擇語音部分滿足預設條件的詞作為第二詞。選擇裝置可以進一步包括用於存儲語音識別結果的存儲裝置。在這種情況下,選擇裝置以存儲裝置中的存儲狀態作為第二測度,選擇包含在存儲在存儲裝置中的語音識別結果中的詞作為第二詞。
本發明的語音識別裝置可以進一步包括用於提供對語音識別結果進行糾正的輸入的輸入裝置。存儲裝置存儲由來自輸入裝置的輸入進行糾正的語音識別結果。選擇裝置使用語音特徵值計算分值,以根據分值選擇第一詞。
本發明的語音識別方法包括選擇步驟,根據使用特徵值計算的第一測度,從一組詞中選擇一個或更多第一詞進行語音識別處理,並且根據不同於第一測度的第二測度選擇一個或更多第二詞;和分值計算步驟,計算由選擇步驟選擇的第一和第二詞的分值。
本發明的記錄介質包括一個包含如下步驟的程序選擇步驟,根據使用特徵值計算的第一測度,從一組詞中選擇一個或更多第一詞進行語音識別處理,並且根據不同於第一測度的第二測度選擇一個或更多第二詞;和分值計算步驟,計算由選擇步驟選擇的第一和第二詞的分值。
在本發明的語音識別方法和裝置以及記錄介質中,根據使用特徵值計算的第一測度,從一組詞中選擇一個或更多第一詞進行語音識別處理,並且根據不同於第一測度的第二測度選擇一個或更多第二詞。計算如此選擇的第一和第二詞的分值。
附圖簡述圖1是示出典型的傳統語音識別裝置的方框圖;圖2是示出本發明語音識別裝置的一個實施例的方框圖;圖3示出詞連接信息;圖4是示出語音識別裝置的處理的流程圖;圖5是示出本發明語音識別裝置的另一實施例的方框圖;圖6是示出語音識別裝置的處理的流程圖;圖7是示出實施本發明的典型計算機的方框圖。
實現本發明的最佳方式圖2示出本發明語音識別裝置的一個實施例。圖2中,與圖1所示裝置對應的部分用相同參考號進行描述,並且不作具體說明。
由用戶發出的語音的特徵值序列,由特徵值提取單元3輸出,以幀為單位發送到控制器11,控制器11然後將來自特徵值提取單元3的特徵值發送到特徵值存儲單元12。
控制器11參考存儲在詞連接信息存儲單元16中的詞連接信息。控制器11根據聲學或語言學分值生成詞連接信息,表示由執行類似於由圖1的匹配單元4執行的匹配處理的匹配單元14獲得的匹配處理結果,以根據如此生成的詞連接信息更新存儲在詞連接信息存儲單元16中的內容。而且,根據存儲在詞連接信息存儲單元16中的詞連接信息,控制器11最後確定並輸出最終語音識別結果。
特徵值存儲單元12存儲從控制器11向其發送的特徵值序列,直到獲得用戶語音識別結果。同時,控制器11將由特徵值提取單元3輸出的特徵值的獲得時間點(在此稱作提取時間點,參照語音域的起始時間點)隨同特徵值一起發送到特徵值存儲單元12。特徵值存儲單元12存儲特徵值和提取時間點。存儲在特徵值存儲單元12中的特徵值和提取時間點可以在必要時由詞初選單元13和匹配單元14作參考。
響應來自匹配單元14的請求,詞初選單元13在必要時參考詞連接信息存儲單元16、聲學模型資料庫17A、詞典資料庫18A和文法資料庫19A,使用存儲在特徵值存儲單元12中的特徵值,執行詞的初步選擇,選擇一個或多個在匹配單元14中匹配處理的詞。
匹配單元14在必要時參考詞連接信息存儲單元16、聲學模型資料庫17B、詞典資料庫18B和文法資料庫19B,在控制器11的控制下使用存儲在特徵值存儲單元12中的特徵值,執行對來自詞初選單元13作為詞初選處理的結果獲得的詞的匹配處理。
詞連接信息存儲單元16存儲從控制器11提供的詞連接信息,直到獲得用戶語音識別結果。
需要注意的是,詞連接信息表示代表最終語音識別結果的詞序列的成分詞的關係(連接或聯合),並且包括每個詞的聲學分值和語言分值和與各個詞相關聯的語音部分的起始端和結束端的時間點。
圖3通過圖示出存儲在詞連接信息存儲單元16中的詞連接信息。
在圖3的實施例中,作為詞連接信息的圖結構由表示詞的弧(arc)(圖3中用相互連接○標記的線段表示)和表示詞間邊界的節點(圖3中用○標記表示)構成。
節點具有表示與節點關聯的特徵值的提取時間點的時間信息。由於提取時間點是由特徵值提取單元3輸出的特徵值獲得時間點,由於語音域的起始時間點為0,因此與語音域起始對應的節點Node1的時間信息即第一詞的引導端為0。注意,節點表示弧的起始端或結束端,起始端節點或結束端節點的時間信息分別是與該節點關聯的詞的發音起始端和結束端。
圖3中,從左向右的方向表示時間流逝,從而,對於給定弧的左端和右端節點,左節點和右節點分別表示起始和結束端節點。
弧具有聲學分值和與其關聯的詞的分值。作為語音識別結果候選者的詞序列通過順序連接結束端節點為起始端節點的弧形成。
也就是,在控制器11中,與最可能是語音識別結果的詞對應的弧連接到表示語音域起始端的節點Node1。在圖3的實施例中,與「今日」(「今天」,念作「kyou」)對應的弧Arc1、與「いい」(「好」,念作「ii」)對應的弧Arc6和弧Arc11「天氣」(「天氣」,念作「tenki」)進行連接。根據在匹配單元14中找到的聲學分值和語言分值確定給定詞是否為一個可能是語音識別結果的詞。
採用類似方式,對於結束端節點Node2,作為與「今日」對應的弧Arc1的結束端,結束端節點Node7,作為與「いい」對應的弧Arc6的結束端,和結束端節點Node12,作為與「天氣」對應的弧Arc11的結束端,與可能詞對應的弧以上述方式進行連接。
通過上述的弧連接,以語音域的起始點作為起始點,由弧和節點構成的一個或更多路徑從左向右形成。如果全部路逕到達語音域的結束端(圖3中的時間T),從語音域的起始端到結束端形成的多個弧的聲學和語言分值在控制器11中進行累計,以得到最終分值。最終確定與形成具有最大最終分值的路徑的弧對應的詞序列,並且作為語音識別結果進行輸出。
具體地參照圖3,如果來自通過與「今日」對應的弧Arc1的節點Node1、節點Node2、與「は」(「是」,念作「wa」)對應的弧Arc2、節點Node3、與「いい」對應的弧Arc3、節點Node4、與「天氣」對應的弧Arc4、節點Node5、與「ですわ」(「不是嗎?」,念作「desune」)對應的弧Arc5和節點Node6的路徑獲得最大最終分值,詞序列「今日」、「は」、「いい」、「天氣」和「ですわ」作為語音識別結果進行輸出。
在上述情況下,弧與語音域中的全部節點進行連接,以形成從語音域的起始端擴展到結束端的路徑。然而,如果在路徑形成的過程中構造的路徑被發現不適合作為語音識別結果,路徑形成過程可以在該時間點進行剪除,也就是,從該時間點沒有弧進行連接。
根據上述路徑形成規則,給定弧的結束端點成為一個或多個下一連接弧的起始節點,從而,基本上,路徑以擴展樹的分枝和葉子的方式進行形成。作為一種例外情況,存在這樣一種情況,一個弧的結束端與另一弧的結束端重合,也就是,其中弧的結束端節點與另一弧的結束端節點相同。
例如,如果使用兩詞文法作為文法規則,從不同節點擴展的兩個弧表示相同詞,並且該詞的發音結束時間相同,則這兩個弧的端點相互重合。
圖3中,從作為起始端的節點Node7擴展的弧Arc7和從作為起始端的節點Node13擴展的弧Arc13都與「天氣」相關聯,並且具有相同的語音發音結束時間點,從而這些弧具有作為相同結束端的共同節點Node8。
雖然這些節點可以不是相同共用節點,考慮到內存容量效率,這些節點最好是相同節點Node8。
雖然圖3中使用兩詞文法作為文法規則,但是,例如,如果使用例如三詞文法,也可以使用共同節點。
存儲在詞連接信息存儲單元16中的詞連接信息可以在必要時由詞初選單元13和匹配單元14進行參考。
參照圖2,聲學模型資料庫17A、17B基本存儲參照圖1的聲學模型資料庫5進行說明的聲學模型。
然而,聲學模型資料庫17B存儲對圖1的聲學模型資料庫5進行說明的聲學模型。也就是,如果,在聲學模型資料庫17A中,僅存儲一個不依賴於音素或音節的前邊或後邊上下文的模式聲學模型,在聲學模型資料庫17B中不僅存儲不依賴於前邊或後邊上下文的聲學模型,還存儲依賴於跨越多個詞的上下文的聲學模型或依賴於詞內上下文的聲學模型。
基本上,詞典18A、18B存儲參照圖1的詞典資料庫16進行說明的詞典。
也就是,相同詞集登記在文法資料庫18A和18B的詞典中。然而,詞典資料庫18B的詞典在其中存儲高精度音素信息,該信息能夠以比用詞典資料庫18A的詞典可能的更高精度進行處理。也就是,如果單一音素信息(讀取)存儲在詞典資料庫18A的詞典中,在詞典資料庫18A的詞典中為每個詞存儲多種音素信息。
具體地說,對於詞「お早う」(「早上好」,念作「ohayou」),單一音素信息「おはよう」(「早上好」,念作「ohayou」)存儲在詞典資料庫18A的詞典中,而在詞典資料庫18B的詞典中,「おはよ一」(「早上好」,念作「ohayou-」)或「おはよ」(「早上好」,念作「ohayo」)作為音素信息進行登記。
文法資料庫19A、19B基本存儲參照圖1的文法資料庫7進行說明的文法規則。
然而,文法資料庫19B存儲在精確度上比在文法資料庫19A中存儲的文法規則更高的高精確度文法規則。也就是,如果文法資料庫19A存儲來自單詞文法(詞出現概率)的文法規則,文法資料庫19B存儲兩詞文法(考慮與直接前面詞的關係的詞出現概率)、三詞文法(考慮與直接前面詞和第二前面詞的關係的詞出現概率)和上下文無關文法。
如上所述,每個音素和音節的單一聲學模式存儲在聲學模型資料庫17A中,而每個音素和音節的多個聲學模式存儲在聲學模型資料庫17B中。在詞典資料庫18A中,為每個詞存儲單一音素信息,而在詞典資料庫18B中,存儲多個聲學模型模式。在文法資料庫19A中,簡單文法規則存儲在在文法資料庫19A中,而在文法資料庫19B中,存儲更高精確度的文法規則。
因此,詞初選單元13,參考聲學模型資料庫17A、詞典資料庫18A和文法資料庫19A,能夠迅速查找大量詞的聲學和語言分值,雖然不是很準確。另一方面,匹配單元14,參考聲學模型資料庫17B、詞典資料庫18B和文法資料庫19B,能夠以更高準確度快速查找可容忍大量詞的聲學和語言分值。
雖然聲學模型資料庫17A和17B對存儲其中的聲學模型的精確度進行區分,但是存儲其中的聲學模型也可以是相同的。類似地,詞典資料庫18A、18B的詞典的存儲器內容也可以是相同的。
參照圖4的流程圖,說明圖2所示的語音識別裝置的語音識別處理。
當用戶發出語音,如此發音的語音由麥克風1和A/D轉換器2轉換為數字語音數據,然後將其發送到特徵值提取單元3。特徵值提取單元3然後從向其提供的語音數據順序提取語音特徵值,以將所提取特徵值發送到控制器11。
控制器11通過某種或其它技術識別語音域,並且,在語音域中,將從特徵值提取單元3提供的特徵值序列隨同每個特徵值的提取時間一起發送到特徵值存儲單元12,以存儲在其中。
在語音域開始之後的步驟S1,控制器11生成表示語音域起始的節點(下面稱作初始節點),並且將所生成節點發送到詞連接信息存儲單元16,以存儲在其中。也就是,控制器11在步驟S1使圖3的節點Node1存儲在詞連接信息存儲單元16中。
而且,控制器11在語音域起始之後的步驟S1生成表示語音域開始的節點(下面稱作初始節點),並且將所生成節點發送到詞連接信息存儲單元16,以存儲在其中。也就是,控制器11使圖3的節點Node1在步驟S1存儲在詞連接信息存儲單元16中。
控制器11繼續到步驟S2,並且參照詞連接信息存儲單元16的詞連接信息,驗證是否存在任何中間節點。
也就是,在詞連接信息中,如圖3所示,如上所述,弧連接到結束端節點,形成從語音域起始端向結束端擴展的路徑。在步驟S2,結束端節點中尚未連接弧並且尚未到達語音期間的結束端的節點,如圖3中的節點Node8、節點Node10節點Node11,都作為中間節點進行提取以確定是否存在這種中間節點。
如上所述,語音域通過某種技術進行識別,而與結束端節點對應的時間點可以通過參考結束端節點的綁定時間信息進行識別。因此,尚未連接弧的結束端節點是否為沒有到達語音域結束端的中間節點可以通過比較語音域的最後時間點和結束端節點的時間信息進行驗證。
如果,在步驟S2,確認存在任何中間節點,控制器11繼續到步驟S3,選擇詞連接信息中的一個中間節點作為將詞確定為連接到該節點的弧的節點。該節點在下面有時稱作當前考慮節點。
也就是,如果在詞連接信息中只存在一個中間節點,控制器11選擇那個中間節點作為當前考慮節點。具體地說,控制器11參考多個中間節點的時間信息,並且選擇由時間信息表示的具有最舊時間的節點,也就是,靠語音域起始端的節點,或由時間信息表示的具有最新時間的節點,也就是,離語音域結束端最近的節點,作為當前考慮節點。控制器11還累計形成從起始節點到多個中間節點的路徑的弧具有的聲學分值和語言分值,並且將形成累計值最大或最小的路徑的結束端的中間節點選作當前考慮節點。
控制器11將一個命令輸出到匹配單元14,使得以當前考慮節點的時間信息作為開始時間點執行匹配處理。該命令在下面有時稱作匹配處理命令。
一旦從控制器11接收到匹配處理命令,匹配單元14就將當前考慮節點及其時間信息發送到詞初選單元13,以請求它執行詞初選處理。控制器11然後繼續到步驟S4。
一旦從匹配單元14接收到詞初選處理的請求,詞初選單元13就在步驟S4執行詞初選處理,在登記在詞典資料庫18A的詞典中的詞中選擇連接到當前考慮節點的弧的候選詞。
也就是,詞初選單元13從當前考慮節點的時間信息識別在計算語音和聲學分值時使用的特徵值序列的開始時間,同時自開始時間起根據所需從特徵值存儲單元12讀出特徵值序列。詞初選單元13通過連接聲學模型資料庫17A的聲學模型形成登記在詞典資料庫18A中的每個詞的詞模型,以使用從特徵值存儲單元12讀出的特徵值序列根據詞模型計算聲學分值。
詞初選單元13根據存儲在文法資料庫19A中的文法規則計算與每個詞模型對應的詞的語言分值。也就是,詞初選單元13根據,例如,單詞文法查找每個詞的語言分值。
詞初選單元13可以參考詞連接信息,使用依賴於當前討論詞(與其結束端為當前考慮節點的弧對應的詞)的直接前面詞的跨詞(cross word)模型執行每個詞聲學分值的計算。需要注意的是採用跨詞模型比不採用跨詞模型,聲學分值的計算量更大。
在詞初選單元13中,每個詞語言分值的計算可以根據描述當前討論詞與直接前面詞連接的概率的兩詞文法進行。然而,如果語言分值根據兩詞文法(bigram)或甚至三詞文法(trigram)進行計算,這比使用單詞文法進行計算,計算機量更大。
當詞初選單元13如上所述查找每個詞的聲學和語言分值時,它查找表示全面評估聲學分值和語言分值的分值(下面稱作詞分值)作為第一測度,以將其上限L值發送到匹配單元14作為要進行匹配處理的詞。
而且,詞初選單元13在步驟S4根據不同於反映聲學分值的詞分值的測度選擇一個或更多登記在詞典資料庫18A中的詞,以將所選詞發送到匹配單元14。
也就是,詞初選單元13,不考慮其聲學分值,選擇登記在詞典資料庫18A中且發音時間比較短的那些詞,如音素和音節數目少於預設值的詞,例如英語中的介詞或冠詞和日語中的助詞或助動詞,以將所選詞發送到匹配單元14。在這種情況下,發音時間短的詞有必要成為匹配處理的目標。
如上所述在詞初選單元13中根據與聲學分值無關的特定測度選擇的詞稱作特定詞。
一旦接收到根據詞分值從詞初選單元13選擇的L個詞和根據與詞分值無關的預設條件(測度)選擇的特定詞,匹配單元14就在步驟S5執行對這些詞的匹配處理。
也就是,匹配單元14從當前考慮節點的時間信息識別在計算聲學和語言分值時使用的特徵值序列的開始時間,以從開始時間讀出必要的特徵值序列。而且匹配單元14參考詞典資料庫18B,識別來自詞初選單元13的詞的音素信息,並且從聲學模型資料庫17A讀出與音素信息相關聯的音素模型,以形成連接詞模型。
匹配單元14根據如上形成的詞模型,使用從特徵值存儲單元12讀出的特徵值序列,計算來自詞初選單元13的詞的聲學分值。匹配單元14可以參考詞連接信息,根據跨詞問題執行詞的聲學分值的計算。
而且,匹配單元14參考文法資料庫19B,計算來自詞初選單元13的詞的語言分值。也就是,匹配單元14參考例如詞連接信息,根據來自三詞文法的概率,識別來自詞初選單元13的詞的第一前面詞和第二前面詞,以查找來自詞初選單元13的詞的語言分值。
匹配單元14為來自詞初選單元13的全部L個詞和特定詞查找聲學和語言分值,然後繼續到步驟S6。全部L個詞和特定詞統稱為所選詞。在步驟S6,根據全面評估聲學和語言分值為每個所選詞查找詞分值,同時根據詞分值更新存儲在詞連接信息存儲單元16中的詞連接信息。
也就是,在步驟S6,匹配單元14為所選詞查找詞分值,並且將該詞分值與預設閥值進行比較,以從所選詞剪除作為到當前考慮節點的連接弧的詞。匹配單元14發送剪除之後留下的詞和當前考慮詞的聲學和語言分值和結束時間。
詞的結束端時間從在計算聲學分值時使用的特徵值的提取時間點進行識別。如果獲得多個極可能為結束時間的提取時間點,將剪除之後留下的詞與結束時間和相應語言和聲學分值一起發送到控制器11。
同時,詞的結束時間從在計算聲學分值時使用的特徵值的提取時間點進行識別。如果獲得多個極可能為結束時間的提取時間點,一組結束時間與相關聲學和語言分值為當前討論詞發送到控制器11。
一旦接收到從匹配單元14提供的詞的聲學和語言分值和結束時間,控制器11用存儲在詞連接信息存儲單元16中的詞連接信息(圖3)中的當前考慮節點,為來自匹配單元14的每個詞擴展弧,以將弧連接到與結束點位置對應的結束端節點。控制器11還給予這些弧相關詞與聲學和語言分值,以給予每個弧的結束端節點相應結束時間作為時間信息。控制器11然後返回到步驟S2,重複如上所述的類似處理。
由於詞連接信息根據匹配單元14的處理結果進行順序更新,因此對於詞初選單元13和匹配單元14,能夠通過利用最近詞連接信息執行處理。
同時,如果可能,控制器11在更新詞連接信息中提供結束端節點的共同使用。
另一方面,如果在步驟S2確定不存在中間節點,控制器11繼續到步驟S7,參考詞連接信息,為由詞連接信息形成的每條路徑累計詞分值,以查找最終分值。控制器11輸出與形成具有最大最終分值的路徑的弧對應的詞序列作為用戶發音的語音識別結果,以完成處理。
如上所述,詞初選單元13根據包括從聲學特徵值計算的聲學分值的詞分值選擇最可能是語音識別結果的詞,同時根據與從聲學特徵值計算的聲學分值無關的測度,選擇具有少量音素且具有不穩定聲學特徵值的詞,如日語中的助詞或助動詞或英語中的冠詞或介詞。這些詞在匹配單元14中進行匹配處理,從而防止在詞初選單元13中不選擇具有不穩定聲學特徵值的詞所導致的語音識別精確度的惡化。
由於在詞初選單元13中沒有減小詞選擇時的剪除範圍,也沒有使用更高精確度的聲學模型或文法規則,因此最小化由詞初選單元13處理所需的資源以改善準確的語音識別是可能的。
而且,由於具有少量音素和不穩定聲學特徵值的詞有必要進行匹配處理,因此只是具有大量音素從而更加穩定的聲學特徵值可以根據包括聲學分值的詞分值在詞初選單元13中進行選擇。在詞初選單元13中,即使使用更加簡單的聲學模型或文法規則,在詞初選單元13中也不會發生沒有選擇正確詞的問題,這樣,在減少在詞初選單元13中處理所需的資源的同時,語音識別準確度也可以得到提高。
如果根據包括聲學分值的詞分值在詞初選單元13中選擇的詞只是具有大量音素且聲學特徵值相對穩定的詞,即使減少根據聲學和語言分值選擇的詞數,也不會發生沒有選擇正確詞的問題,這樣,在減少在匹配單元14中處理所需的資源的同時,語音識別準確度也可以得到提高。
在上述實施例中,詞初選單元13根據發音時間的測度,選擇具有更短髮音時間的詞,而不管其聲學分值,以防止詞初選單元13沒有選擇具有不穩定聲學特徵值的詞而造成語音識別準確度的惡化。作為替換,可以使詞初選單元13隻根據與聲學分值無關的測度,即與語音特徵值無關的測度,如語言分值,選擇詞,而不同於根據詞分值選擇的詞。在這種情況下,類似地,在減少資源的同時提高語音識別準確度是可能的。
也就是,可以使詞初選單元13隻根據從來自統計詞連接概率(N-文法)的文法規則獲得的語言分值,選擇可能與向著達到當前考慮節點的路徑的當前考慮節點的(n-1)詞序列相連接的詞。由於在這種情況下不考慮從特徵值計算的聲學分值選擇詞,因此可能防止由於沒有選擇因為不穩定聲學特徵值而使其聲學分值減小並且因此使其詞分值減小的詞而造成的語音識別準確度的惡化。
由於語言分值的計算處理量能比聲學分值的計算處理量小很多,因此防止資源的增加是可能的。
僅基於從來自統計詞連接概率的文法規則獲得的語言分值的詞選擇可以通過獲取存儲在文法資料庫19A中的文法規則容易地完成。
圖5示出本發明語音識別裝置的另一實施例。與圖2共同的部分用相同參考號進行描述,並且不作具體說明。也就是,除識別結果存儲單元21是在圖5的裝置中新提供的之外,圖5的語音識別裝置與圖2的相同。
識別結果存儲單元21適用於輸入由控制器11輸出的語音識別結果。識別結果存儲單元21存儲語音識別結果。同時,識別結果存儲單元21具有對應於一個或更多語音識別結果的記錄容量,並且設計為,當其中已存儲與記錄容量對應的語音識別結果數量時,後面提供的識別結果將以覆寫最舊存儲值的方式進行存儲。因此,最近語音識別結果的滯後性存儲在識別結果存儲單元21中。詞初選單元13能夠參考存儲在識別結果存儲單元21中的最近語音識別結果的滯後性。
參照圖6的流程圖,說明圖5的語音識別裝置的語音識別處理。
在步驟S11到S17,圖5的語音識別裝置基本上執行與圖4的步驟S1到S7類似的處理。
在步驟S17,控制器11輸出與形成具有最大最終分值的路徑的弧對應的詞序列作為用戶發音的語音識別結果。控制器11然後繼續到步驟S18,其中語音識別結果發送到識別結果存儲單元21,以存儲在其中,結束處理。
然而,在步驟S14,詞初選單元13執行下面詞初選處理。
在圖4的步驟S4,詞初選單元13,從特徵值存儲單元12讀出自當前考慮節點時間信息中的開始時間以來必要的特徵值序列,並且使用從特徵值存儲單元12讀出的特徵值序列,計算登記在詞典資料庫18A中的各個詞的聲學分值,同時根據存儲在文法資料庫19A中的文法規則計算其語言分值,以查找與全面評估聲學和語言分值對應的詞分值(第一測度)。詞初選單元13將詞分值排在前L位的詞發送到匹配單元14,作為要進行匹配處理的詞。
詞初選單元13根據存儲在識別結果存儲單元21中的測度(第二測度)選擇一個或更多登記在詞典資料庫18A中的詞,以將所選詞發送到匹配單元14。
經驗上,在大多數情況下用戶會再次念過去語音中包括的詞。因此,圖5的詞初選單元13從詞典資料庫18A選擇與存儲在識別結果存儲單元21中的語音識別結果相同的詞作為特定詞,並且將如此選擇的詞發送到匹配單元14,作為要進行匹配處理的詞。
一旦從詞初選單元13接收到根據詞分值選擇的L個詞和根據與詞分值無關的預設條件(測度)選擇的特定詞,在此該測度存儲在識別結果存儲單元21中,匹配單元14就在步驟S5執行對如此接收的詞的匹配處理。
在這種情況下,詞初選單元13根據與聲學分值無關的測度選擇詞,從而由於例如環境噪聲或電路噪聲造成的語音特徵值出現顯著變化、和沒有由其中反映從該特徵值計算的聲學分值的詞分值被選擇的詞,可以在不採用高精確度聲學模型的情況下準備進行匹配處理,從而允許用更少資源提高語音識別準確度。
同時,語音識別裝置可以進一步包括當執行用於糾正語音識別結果的輸入處理時由用戶操作的輸入單元22,如鍵盤。如果,在這種情況下,用戶操作輸入單元22,以對由控制器11輸出的語音識別結果進行糾正,控制器11可以配置為,使語音識別的糾正結果存儲在識別結果存儲單元21中,取代或結合只由用戶輸出的語音識別結果。在上述情況下,這使語音識別準確度能夠用少量資源進行提高。
上述處理操作序列可以通過硬體或軟體進行執行。在後一情況下,形成軟體的程序安裝在例如通用計算機上。
圖7示出其中安裝上述操作序列的典型計算機。
程序可以記錄在計算機中的記錄介質的硬碟105或ROM103的出口。
程序可以暫時性或永久性存儲或記錄在可移動記錄介質111,如軟盤、CD-ROM(Compact Disc Read-Only Memory,高密盤-只讀存儲器)、MO(Magneto-optical,光磁)盤、DVD(Digital Versatile Disc,數字多用途盤)、磁碟或半導體存儲器中。這種可移動記錄介質可以作為成為打包軟體進行供應。
需要注意的是,代替從上述可移動記錄介質111安裝在計算機上,程序可以從下載站點,通過用於數字衛星廣播的人造衛星的無線電通道,或者通過網絡,如LAN(Local Area Network,區域網)或網際網路的電纜傳輸到計算機,在這些情況下,計算機可以由通信單元108接收如此傳輸的程序,以將該程序安裝在計算機的硬碟105上。
計算機在其中包括CPU(central processing unit,中央處理器)102,輸入/輸出接口110通過總線101與之連接。如果通過輸入/輸出接口110輸入一個命令,如由用戶操作由鍵盤、滑鼠或麥克風形成的輸入單元107,CPU102執行存儲在ROM(read-only memory,只讀存儲器)103中的程序。作為替換,CPU102載入存儲在硬碟105中的程序,或從裝載在驅動器109上的可移動記錄介質111讀出並安裝在硬碟105上以在RAM(random access memory,隨機訪問存儲器)104上執行的程序。這使CPU102能夠執行符合上述流程圖或由上述方框圖結構執行的處理的處理。CPU102在必要時從由LCD(Liquid Crystal Display,液晶顯示器)或揚聲器形成的輸出單元106通過輸入/輸出接口110輸出處理結果,將從發送器108發送處理結果,或將處理結果記錄在硬碟105上。
需要注意的是,由計算機執行的,用於執行各種處理操作的程序的處理步驟可以用並行或基於對象執行,而沒有必要按照流程圖中的時間順序執行各個步驟。
該程序還可以用一臺計算機,或用多臺計算機以分布的方式進行處理。該程序還可以傳輸到遠端控制器,並且執行。
如上所述,詞初選單元13根據使用特徵值計算的詞分值從登記在詞典資料庫18A中的一組詞中選擇詞,同時還根據一個測度、可能在語言上與緊接前面識別的詞相連的詞或包含在語音識別過去結果中的詞,選擇具有短髮音時間的詞,以對如此選擇的詞進行匹配處理。因此,可以在初步詞選擇處理中避免出現沒有選擇預設詞,而沒有必要使用聲學模型。結果是可以避免出現語音識別準確度的惡化,並且儘可能地避免必要資源的增加。
而且,要進行匹配處理的詞根據不同於詞分值的測度(不受語音特徵值影響,與使用特徵值計算的聲學分值無關的測度)進行選擇,從而,甚至在嘈雜的環境中,要進行匹配的詞可以不受噪聲的影響進行選擇,以提供語音識別裝置的噪聲抵抗力。
由於在詞初選單元13中預選要在匹配單元14中進行分值計算的詞,因此匹配單元14為各個詞的分值計算可以為每個詞獨立執行,而不形成具有共同聲學分值計算部分的樹結構網絡。如果,在這種情況下,各個詞的分值計算在匹配單元14中以分時的方式執行,能夠減少對更小值的計算所需的存儲器容量。
由於匹配單元14的分值計算可以時間上獨立地執行,從而,通過審慎地使用分值計算所需的存儲器容量,能夠將所需存儲器容量降到一個更低值。
在這種情況下,當為給定詞開始分值計算時,能夠識別詞,從而,在分值計算的早期,能夠應用語言分值執行剪除,這樣可以消除由於詞識別不合理導致的計算浪費。
圖2或圖5所示的語音識別裝置可以應用於使用語音檢索資料庫、驅動各種設備、向各種設備輸入數據或語音對話系統。更具體地說,語音識別裝置可以應用在用於響應使用語音的地點名稱查詢確定地圖信息的資料庫檢索系統、響應語音命令對包裹進行分類的工業機器人、通過語音輸入代替鍵盤輸入創建文本的聽寫系統和由機器人與用戶進行交談的對話系統中。
在詞初選單元13中,根據音素數目或語音部分選擇的特定詞可以登記在詞典中,其它詞除外。
在上述實施例中,詞初選單元13根據詞分值(它是對聲學和語言分值的全面評估)選擇L個詞。然而能夠僅根據聲學分值選擇L個詞。
如果要進行匹配處理的詞根據與其中反映聲學分值的詞分值不同的測度進行選擇,可以使用多個測度作為這種測度,從而具有短髮音時間的詞和包含在語音識別過去結果中的詞可以成為要進行匹配處理的詞。
工業應用性從要進行語音識別處理的一組詞中,根據使用特徵值計算的第一測度選擇一個或更多第一詞,同時根據不同於第一測度的第二測度選擇一個或更多第二詞,並且對如此選擇的第一和第二詞計算分值。因此,由於根據第一測度沒有選擇第二詞而造成語音識別準確度的惡化是沒有危險的。
權利要求
1.一種語音識別裝置,其中計算反映輸入語音的語音識別結果的聲學可能性的分值,並且根據該分值識別語音,包括提取裝置,用於提取所述語音的特徵值;選擇裝置,用於根據使用所述特徵值計算的第一測度,從一組詞中選擇一個或更多第一詞進行語音識別處理,並且根據不同於所述第一測度的第二測度選擇一個或更多第二詞;分值計算裝置,用於計算由所述選擇裝置選擇的所述第一和第二詞的所述分值;最終確定裝置,用於根據所述分值最終確定一個詞串作為所述語音的識別結果。
2.如權利要求1所述的語音識別裝置,其中,所述選擇裝置,以音素數作為所述第二測度,選擇音素數滿足預設條件的詞作為所述第二詞。
3.如權利要求1所述的語音識別裝置,其中,所述選擇裝置,以語音部分作為所述第二測度,選擇語音部分滿足預設條件的詞作為所述第二詞。
4.如權利要求1所述的語音識別裝置,其中,所述選擇裝置,以語言學可能性作為所述第二測度,選擇語言學可能性滿足預設條件的詞作為所述第二詞。
5.如權利要求1所述的語音識別裝置,進一步包括存儲裝置,用於存儲語音識別結果;其中,所述選擇裝置,以所述存儲裝置中的存儲狀態作為所述第二測度,選擇包含於存儲在所述存儲裝置中的語音識別結果中的詞作為所述第二詞。
6.如權利要求5所述的語音識別裝置,進一步包括輸入裝置,用於提供對語音識別結果進行糾正的輸入;其中所述存儲裝置存儲通過來自所述輸入裝置的輸入進行糾正的語音識別結果。
7.如權利要求1所述的語音識別裝置,其中,所述選擇裝置使用語音的特徵值計算所述分值,以基於所述分值選擇所述第一詞。
8.一種語音識別方法,其中計算反映輸入語音的語音識別結果的聲學可能性的分值,並且根據該分值識別語音,包括提取步驟,提取所述語音的特徵值;選擇步驟,根據使用所述特徵值計算的第一測度,從一組詞中選擇一個或更多第一詞進行語音識別處理,並且根據不同於所述第一測度的第二測度選擇一個或更多第二詞;分值計算步驟,計算由所述選擇步驟選擇的所述第一和第二詞的所述分值最終確定步驟,根據所述分值最終確定一個詞串作為所述語音的識別結果。
9.一種記錄介質,在其上記錄一個用於使計算機執行語音識別處理的程序,其中,計算反映輸入語音的語音識別結果的聲學可能性的分值,並且根據該分值識別語音,包括提取步驟,提取所述語音的特徵值;選擇步驟,根據使用所述特徵值計算的第一測度,從一組詞中選擇一個或更多第一詞進行語音識別處理,並且根據不同於所述第一測度的第二測度選擇一個或更多第二詞;分值計算步驟,計算由所述選擇裝置選擇的所述第一和第二詞的所述分值;最終確定步驟,根據所述分值最終確定一個詞串作為所述語音的識別結果。
全文摘要
一種提高語音識別準確度並且避免增加資源的語音識別裝置。根據聲學分值和語言學分值選擇可能為語音識別結果的詞,同時還根據不是聲學分值的測度,如「音素數目少」、「特定語音部分」、「包含在語音識別過去結果中」和「語言學分值高於預設值」,選擇詞。並且對如此選擇的詞進行匹配處理。
文檔編號G10L15/00GK1365488SQ01800736
公開日2002年8月21日 申請日期2001年2月16日 優先權日2000年2月28日
發明者淺野康治, 南野活樹, 小川浩明, 赫爾穆特·勒克 申請人:索尼公司