新四季網

用於自動語音識別的方法和裝置的製作方法

2023-10-17 22:39:34 1

專利名稱:用於自動語音識別的方法和裝置的製作方法
技術領域:
本發明提供用於自動語音識別的方法和裝置。
背景技術:
自動語音識別(ASR)系統採用音頻信號作為輸入,並通常將輸入信號與聲學模型(AM)的已知聲音(音素)和聲音序列(軌跡)相比較,以辨識似乎匹配聲音的口語序列的單詞。在辨識了對應輸入音頻信號的一個或者多個單詞後,所辨識的匹配單詞的文本或者其它機器可讀形式由ASR返回到諸如交互式語音應答(IVR)電話應用程式的應用程式。可隨每個顯然匹配的單詞返回置信度分值,該置信度分值基於引入的語音片斷與和ASR系統的聲學模型中的音素相關聯的平均概率分布的緊密度。可以返回多個可能的單詞及其各自的置信度分值,用於選擇或者進一步的分析。
典型的自動語音識別(ASR)系統需要單個用戶(與說話者有關的)或者多個用戶(與說話者無關的)的相當大的訓練數據,以使ASR系統的識別引擎能夠學習將聲音輸入與語言的相應的聲音(音素標籤)相關聯。當在實際的應用中使用時,諸如自動電話服務,ASR系統辨識的聲音序列也必須匹配特定應用語法,其預先定義了所期望的單詞和短語。如果ASR系統訓練了足夠的數據,並且如果語法覆蓋所有可能的單詞和短語,那麼識別精度會很高。然而,特定語言中的單個聲音可能很容易混淆,諸如英語中的「F」和「S」。這樣的聲音經常出現在應用語法的單詞中。在這種情況下,識別精度會降低。
在大多數自動服務中,通常的做法是使用ASR詢問用戶,以確認ASR結果是否正確。如果沒有返回結果,則可要求呼叫者重複沒有被識別的單詞。例如,呼叫者可說出他們想要聯繫的人的名字「Stephen James」。如果合成語音響應包括不同的名字,諸如「您是說『Peter Jones』嗎?」,則呼叫者不可能注意。不得不重複他們的輸入也可能使呼叫者厭煩。即使確認僅僅是「Yes」或「No」,ASR系統也可能混淆這兩個單詞,特別是因為諸如「您是說Stephen James嗎?」的用戶提示可用「yeah」、「OK」、「correct」或者「nope」、「nah」等回答。

發明內容
本發明的第一個方面提供一種用於控制自動語音識別(ASR)系統的操作的方法。在與用戶對話期間,ASR系統生成用戶提示,以從用戶引出所需要的輸入。將輸入音頻信號內的聲音與聲學模型內的音素進行比較,以辨識候選匹配音素。對各個候選匹配音素計算識別置信度分值,並評估識別置信度分值,以辨識一個或者多個具有預先定義的識別置信度特徵的候選匹配音素(例如,識別具有高或者低可信度分值的候選音素)。該方法包括選擇用於引出隨後的用戶輸入的用戶提示,其中所述選擇取決於所辨識的一個或者多個音素的識別置信度特徵。
在本說明書中的典型的ASR系統包括語音識別引擎和應用程式,並可以包括如下所述的其它組件。在本說明書中的用戶提示是提供給用戶以引出用戶輸入的提示。例如,通過播放音頻提示(諸如存儲的音頻片斷或者動態生成的模擬語音消息)或者在計算機屏幕上顯示文本向用戶提出問題。每個用戶提示都鼓勵用戶說話,例如以從選項菜單中進行選擇或者指定用戶需要的人員或者服務。
在本發明的第一個實施例中,將被辨識為可能匹配輸入聲音信號的聲音的音素序列與語音識別語法(諸如IVR應用的特定應用語法)中的單詞進行比較,以辨識候選匹配單詞。在似乎匹配應用語法中的單詞的音素序列中,將各個音素的置信度分值相結合以形成用於評估最可能單詞匹配的累積置信度分值。在一個實施例中,如果所匹配的單詞內的任何一個音素的識別置信度分值都低於所定的閾值(低置信度),則修改隨後生成的用戶提示以設法解決該問題。
在另一個實施例中,具有預先定義的識別置信度特徵的候選匹配音素的辨識包括辨識具有高於所定的閾值的識別置信度(高置信度)的音素,提示用戶輸入高置信度音素以避免或者克服語音識別問題。
因此,置信度分值能夠用於確定ASR系統不能高置信度地識別語言的哪個領域。因為特定音素的置信度分值可與引出口語輸入的提示相關聯地評估和記錄,所以置信度分值還可以顯示哪個用戶提示導致低識別置信度分值。其後,用於生成用戶提示的過程考慮每個音素的置信度分值以及每個單詞(即音素序列)的置信度分值,以改編其用戶提示用於改進的語音識別。可以為了目標語音識別訓練而選擇用戶提示-生成引起具有低識別置信度分值的音素的輸入的提示。可選擇地,可以選擇用戶提示以鼓勵用戶輸入除了難於識別的單詞之外的單詞或者短語-試圖通過引起用戶輸入可選擇的單詞避免具有低識別置信度的音素。
在呼叫者和ASR系統之間的多次交互中,對於第一應用操作要求第一個用戶輸入,對於第二應用操作要求隨後的用戶輸入。根據本發明的一個方法評估與在第一個用戶輸入中的聲音和在ASR系統的聲學模型中的音素之間的顯然的匹配相關聯的置信度分值,然後,響應置信度分值而控制與隨後要求的用戶輸入相關聯的用戶提示的應用生成。第一和第二應用操作可以是應用程式的任何兩個不同的操作,諸如從分層菜單中連續選擇的步驟,其中第一個和隨後的用戶輸入用於指示從菜單中的選擇。
如上所述,一個實施例選擇期望鼓勵輸入之前被辨識為具有低識別置信度分值的音素的用戶提示-對目標識別訓練製作ASR系統生成的用戶提示。在一般用戶與ASR系統交互期間,用戶提示的選擇可動態地實現,無需專門的特定呼叫者的訓練期間。對於在呼叫者和ASR系統之間的功能交互的每個連續的步驟,可以修改用戶提示。因為允許呼叫者進行下一個連續的步驟,因此該方法可以比如果要求呼叫者重複先前的輸入的情況更有效也更少地阻擾呼叫者。一種解決方案引起呼叫者輸入,該輸入將包括低置信度音素的單詞與一個或者多個之前以高置信度識別的單詞相結合。
上面還提到本發明的一個實施例,其中ASR系統選擇期望鼓勵輸入具有高置信度匹配分值的單詞或者阻止輸入具有低置信度匹配分值的單詞的用戶提示。例如,ASR系統中的應用程式可以通過選擇用戶提示響應來自ASR系統的識別引擎的低置信度識別分值,其中該用戶提示作為所要求的用戶輸入,指明之前以低置信度識別的單詞的同義詞或者其它可選擇的單詞。例如,如果呼叫者的「Yes/No」輸入難於識別(低置信度匹配分值),那麼可以提示呼叫者說「Correct」代替「Yes」,而保持該用戶提示的其它部分不變。
可以實現用戶提示的其它定製。在另一個例子中,低置信度分值可以引發用更明確的條件指令(諸如「如果條件A,則說『Yes please』,如果條件B,則說『No』」)代替用戶提示(諸如「如果條件A,則說『Yes』」或者「你需要哪種服務?」),以引起來自呼叫者的更明確的響應。上述用戶提示的選擇、修改和定製在這裡都被稱為用戶提示的「選擇」。
在另一個實施例中,識別語法可被重構或者識別引擎可被優化以響應所評估的識別性能。應用語法的這些變化可以基於在一段時期內對多個呼叫者所評估的音素置信度分值。因此,可以實現本發明以獲取有關實際和潛在的聲音混淆的信息,並可以使用該信息修改和改編ASR系統的性能。置信度分值模式可以用於生成用於改變聲學模型(通過上述目標訓練)或者使用同義詞詞典改變應用語法的建議。
本發明的第二個方面提供一種自動語音識別(ASR)系統,其包括應用程式和語音識別引擎,其中語音識別引擎包括用於評估與在輸入聲音和聲學模型中的音素之間的顯然的匹配相關聯的識別置信度分值的程序代碼。響應該置信度分值,ASR系統控制用戶提示的生成,用於影響用戶對應用程式的輸入。優選地,應用程式是語音-響應應用程式,其基於識別引擎的識別置信度計算選擇用戶提示,但是語音識別引擎可以輸出文本單詞,其作為文本是到應用程式的輸入。
在一個實施例中,ASR系統包括聲音前端(AFE),用於接收來自輸入裝置的音頻信號,消除噪音,辨識包含語音的部分音頻信號,並確定所辨識的語音的部分的參數。語音識別引擎接收來自AFE的輸入,並將所接收的輸入與關於應用語法(主要單詞的資料庫)和基類池(baseform pool)(包括已知方式的口語單詞或者單詞序列的音素的資料庫)的聲學模型進行比較。識別引擎輸出包括在聲學模型的狀態之間的候選匹配軌跡、來自對應每個候選軌跡的應用語法的一個或多個單詞以及所計算的音素和軌跡的置信度分值的結果。
本發明的另一個方面包括一種用於計算在ASR系統的聲學模型內的聲音之間的混淆度的方法。在兩個音素之間的混淆度基於在與聲學模型中的聲音相關聯的各個概率分布之間的距離。較小的距離被解釋成意味著兩個聲音比距離更大的聲音更容易混淆。例如,考慮概率分布的變化,固有混淆度的計算可以基於在聲學模型中的任何兩個聲音的平均概率分布之間的歐幾裡得距離。
諸如上述的所計算的固有混淆度可以結合動態計算的識別置信度分值(例如,基於引入的聲音片斷與聲學模型中的聲音的平均概率分布的緊密度)。當詢問應用語法以確定在語法中是否有可混淆的單詞時,可以使用上述結果,其中語法與一組候選匹配音素有關。固有混淆度與動態計算的置信度分值的結合可以提供改進的識別置信度的評估,並改進用戶提示的選擇以增強識別。
本發明的實施例可用於修改應用語法中的單詞,以避免語法中的單詞之間可能的混淆。在聲學模型中的聲音之間的固有混淆度的計算可乘以運行時間識別置信度分值,以辨識識別困難,然後,在語法中有疑問的單詞(在應用環境中很容易混淆的單詞)可以用不可能混淆的同義詞替換。
上述方法可以使用諸如在ASR系統中的電腦程式代碼實現。這樣的程序代碼可以作為一組包括記錄在記錄介質上的程序代碼的一個或者多個電腦程式產品或者模塊可用。


作為例子,本發明的實施例在下面參照附圖詳細地說明,其中
圖1是諸如在本領域中已知的自動語音識別系統的示意性表示;圖2A和2B表示經過聲學模型的狀態和狀態轉換的軌跡;圖3是根據本發明的實施例的自動語音識別系統的示意性表示;圖4和5示出根據本發明的示例性實施例的兩個方法的步驟;圖6示出來自在呼叫者和根據本發明的實施例的自動語音識別系統之間的示例性對話的摘錄。
具體實施例方式
自動語音識別的概述如圖1所示的自動語音識別(ASR)系統包括輸入裝置100,諸如傳統的麥克風或者電話聽筒,接收來自輸入裝置的輸入的聲音前端(AFE)101,接收來自AFE的輸入的語音識別引擎102,和連接到語音識別引擎的語音-響應應用程式103。應用程式103定義一組將作為在用戶和ASR系統之間的交互的一部分執行的邏輯步驟。應用程式103通常通過用戶提示辨識用戶需要什麼輸入。用戶提示可以是顯示在屏幕上的文本字符串或者是向用戶播放的音頻片斷。語音-響應應用程式使用語音識別引擎的結果以基於輸入執行動作。
作為簡單的說明,下面的說明涉及可能的帳戶餘額查詢應用。用戶必須輸入其帳號,並要求ASR系統從資料庫中取回相關信息(帳戶餘額)。在呼叫者和ASR系統之間的交互中的事件序列可以表示如下1.呼叫者訪問ASR系統以請求服務;2.ASR系統提示呼叫者輸入帳號(「請說出您的帳號」);3.呼叫者說出帳號(「12345」);4.ASR系統從上面的步驟中取出音頻輸入,並使用識別引擎轉換成文本;5.ASR系統回放所識別的帳號,並請求確認(「您說的是12345。如果正確,請說Yes。如果不正確,請說No」);6.呼叫者確認(在該情況下為「Yes」);
7.ASR系統使用帳號12345訪問資料庫並取回帳戶餘額;8.ASR系統向呼叫者輸出所取回的信息(「帳號12345的帳戶餘額為100英鎊」)。
為了輸出信息,如在步驟2、5和8,ASR系統可以具有預先錄製的音頻片斷或者可以使用文本轉換語音合成。對於在步驟3和6中的用戶輸入,機器使用識別引擎,具有包括可能的輸入數字和yes/no確認單詞的語法。這些語法包括所有可能的輸入,這些輸入被應用程式開發者認為是對提示的可能響應。因此在本例中,數字語法將包含所有從0到9的數字,以允許用戶以任何順序說出任何數字。yes/no確認語法通常不僅包括「yes」和「no」,還包括諸如「yep」、「yeah」、「ok」、「correct」、「right」、「nah」、「nop」等變形,以及諸如「please」和「thank you」的可選單詞。在一些實施例中,可以手工地「加權」特定的術語。這意味著一個或者多個單詞可以在語法中被標記為比其它單詞更有可能,以便它們被首選為識別結果。
再次參照圖1,輸入裝置100負責捕獲音頻信號,並把該信號轉換為用於機器處理的數位訊號。輸入裝置100可以遠離ASR系統的其它組件。從輸入裝置100接收到的數位化信號被提供給ASR系統的聲音前端(AFE)101。AFE負責1.預處理音頻信號以消除噪音;2.確定音頻信號的哪一部分包含有效的語音;3.確定由識別器匹配的信號的連續部分的參數。
對於確定參數,AFE提取信號的一部分(例如100毫秒的片段),應用海明窗(Hamming window),生成平滑的譜表示(定義該部分的多項式表示的個數的數組)。該個數的數組被傳送到識別引擎的識別過程,該識別引擎根據聲學模型(AM)處理該數組。接著,AFE返回從該信號中提取下一個部分,可能交迭,並重複上述步驟直到整個音頻信號都被處理。
如已知的傳統的ASR系統的識別引擎,識別引擎102從聲音前端(AFE)101接收輸入,並處理這些輸入—應用關於應用語法105和相關的基類池104的聲學模型(AM)。應用語法105通常是特定應用的「袖珍詞典」和「短語集」,並包括應用程式開發者認為用戶可作為輸入用於語音啟動應用的單詞。理論上,應用語法可以是完整的語言詞典,包括一般的變形,但是大多數應用要求實時響應,所以當前大小有限的應用語法是標準。基類池104包括採用已知的音素髮音(聲音的較小可辨識單位)的存儲器形式的發音詞典,其中音素可包括在應用語法內的輸入單詞或者短語中。
識別引擎試圖將輸入音頻信號中的聲音與聲學模型中的音素進行匹配,以辨識在對應輸入音頻信號的聲音的音素之間可能的「軌跡」(即在聲學模型中的狀態和狀態轉換的序列)。每個音素被映射到一組狀態和在聲學模型的狀態之間的轉換,每個軌跡包括一個或者多個音素。
聲學模型通常是隱馬爾可夫模型(HMM),儘管也已知其它技術。圖2是在隱馬爾可夫模式中的某些軌跡的簡化表示。語言中的每個聲音可表示為在模型的狀態之間的軌跡,儘管可以有幾個軌跡,其是代表同一個聲音的每一個候選。每個狀態是多維高斯概率分布,其中,維數是固定的,並與用於描述來自AFE處理的多項式的術語的個數有關。在狀態之間的轉換(包括到同一狀態的「零轉換」)也是高斯概率分布,它是指當前狀態可從前一個狀態到達的可能性。參考圖2A和2B,下面更詳細地說明識別處理。
在圖2A中示出的簡化軌跡代表單個聲音的開始、中間和結尾,如在單詞「yes」中說「Y」201。當在識別引擎102接收到來自AFE 101的連續部分時,將它們與每個狀態202進行比較,以辨識最有可能匹配各個部分的狀態。如果在當前狀態發現好的匹配,那麼查詢零轉換概率。如果不同的狀態是好的匹配,那麼查詢在當前狀態和下一個狀態之間的轉換概率。當依次處理音頻輸入的各部分時,「軌跡」204經過HMM。當軌跡逐漸經過狀態202和轉換203時,對該軌跡計算累積概率。實際上,幾乎不會有單個軌跡。因此可以發現對於同一個音頻信號有多個軌跡經過HMM。如果考慮多個候選軌跡,如果累積概率低於預置的閾值,則可以捨棄(刪除)各個軌跡。在HMM或者HMM的一部分的最後一個狀態,剩餘的軌跡(那些還沒有被「刪除」的軌跡)作為最終的檢驗反過來驗證。
圖2B是通過兩個可選擇的軌跡從一個音素標籤移動到下一個音素標籤的簡化表示。因為輸入音頻信號可以成功地匹配兩者之中的任一個,所以與「yes」中的音素「Y」205有關的成功的軌跡和「jelly」中的音素「J」206的可選擇的軌跡進行競爭。這兩個可能性,「Y」和「J」,都被暫時保留。讓我們假定,當信號繼續被處理時,輸入信號的下一部分似乎可能被辨識為「yes」或者「jelly」中的音素「EH」207。那麼,檢驗來自軌跡的前一部分的被經過的轉換208。在這一點,如果相關的轉換概率低,那麼可能只根據聲音捨棄候選音素205或者206中的一個。
一旦到達信號的結尾,並且沒有更多的來自AFE的音頻部分,那麼返回一個或多個最佳匹配軌跡以及在軌跡被經過時所計算的累積概率。軌跡代表潛在的音素序列。回到圖1,識別引擎102使用兩個額外的輸入以處理音頻信號特定應用語法105和在這裡被稱為基類池104的發音詞典104。
在典型的基於音素的識別器中,AM包含與特定自然語言的所有聲音的各部分(諸如開始、中間和結尾)有關的狀態和轉換。高斯分布在覆蓋儘可能多的說話者的所有可能的組合中的所有可能的聲音的音頻數據上「訓練」。例如,該訓練步驟可包括在所有參加訓練組的說話者和在訓練組中表示的所有上下文中比較和總結音素「Y」的觀測變形。
因此,在理論上,識別引擎可以識別該語言的任何有效的聲音序列。由於這會導致軌跡的擴散,因此定義特定應用語法和相關的基類池以加快和支持識別。語法中的條目用於辨識並因此限定將被識別的單詞。使用域和特定應用語法是常見的,儘管對於自然語言可能有一般和複雜的語法。前面所定義的語法包括對於給定應用所有允許的單詞和短語(即應用認為是有意義的輸入的單詞和短語)。對於銀行應用(諸如前面所給出的例子),允許的單詞和短語可限於數字和yes/no變形,因此,該應用語法不包括其它諸如正確的姓名或文學術語的單詞。一旦對應用定義了語法,那麼在代表語法中單詞的所有可能的發音的編輯期間生成基類池。這些發音-基類—是可被匹配的有效聲音序列組。如上所述,語法中的條目包括將被識別的單詞組。例如,如果語法僅僅包括單詞「Yes」、「No」和「Correct」,那麼只有這些單詞可以產生積極的結果。基類池中的條目定義了可在聲學模型中潛在地經過的軌跡。對於語法中的每一個單詞,從基類池中取回軌跡以限制將在匹配步驟中保留的軌跡的數量。因此,語法和基類池被協同用於限制AM內的整個搜索空間。在運行時間,它們被用於限制和/或「刪除」經過AM的狀態的軌跡。
一旦已從AM返回一個或多個候選軌跡,那麼依照語法檢驗這些軌跡。如果序列由語法中的一個或者多個單詞表示,那麼返回音素序列和一個或多個匹配單詞作為結果。在第一個例子中,當輸入音頻被識別為包括軌跡Y-EH-S,並具有從對該軌跡所計算的累積概率得到的置信度分值(例如0.60的概率,這裡被稱為60%的置信度分值)時,返回單個結果。該單個結果包括拼字正確的修正版本「Yes」、以及按順序排列的基類Y、EH、S和置信度分值。可選擇地,如果語法包括多個潛在匹配輸入聲音的單詞,那麼可以返回諸如下面例子的N個最好的列表(僅是示意性的)Y-EH-S60%YesY-EH-L-OW 20%YellowY-OH-TD 15%YachtJ-EH-L-I-Y3% JellyN-OW 2% No上面的列表包括1個最好的和N-1個最接近的匹配從輸入音頻信號中提取的語音的單詞,它們是通過應用使用在基類池和語法中定義的聲音和單詞的AM發現的。通常,基類、各個匹配單詞的拼字正確的修正版本和相關的置信度分值在每個結果中返回。
因此,識別引擎計算與每個所辨識的軌跡相關聯的置信度分值-基於聲音匹配緊密度以及也可能的語音上下文。識別引擎或者辨識在對應軌跡的應用語法中的單個單詞,其中該軌跡在所辨識的軌跡中具有最高的置信度分值,或者記錄一組軌跡的置信度分值。不管是否返回單個結果或者多個結果(所謂的「N個最好的列表」),應用可以使用置信度分值確定是否接受結果。例如,高置信度分值可被認為證明接受結果,無需單獨的確認步驟,而低置信度分值可以通過回送和再次請求用戶輸入或者請求所辨識的匹配的確認響應。
具有自適應的提示生成的自動語音識別系統下面參照圖3說明ASR系統,其中對於第一個用戶輸入的候選匹配音素,由識別引擎102計算識別置信度分值。識別置信度分值用於控制選擇隨後的用戶提示,隨後的用戶提示與用戶和ASR系統的交互中的隨後的步驟相關聯。本發明也能夠更新應用語法和聲學模型,作為替換導致低置信度識別分值的用戶提示的結果。例如,如果「Yes」與低置信度分值有關,那麼單詞「Yes」可替換為「Yes please」並相應地修改語法。所計算的識別置信度分值可以顯示哪個輸入聲音不能高置信度地識別。如下所述,本發明不同的實施例以不同的方式使用該信息。
在本發明的第一個ASR程序實施例中,識別引擎使用特定音素識別置信度分值以辨識似乎需要額外識別訓練的音素。當用語音-響應應用程式生成隨後的用戶交互步驟的用戶提示時,ASR程序生成引起輸入包含確定需要額外訓練的音素的單詞的提示。
在可選的實施例中,ASR程序生成期望通過鼓勵輸入除了被識別為低置信度匹配的單詞以外的單詞避免或者減少潛在的混淆的提示。
如下所述,應用語法可以動態地修改以響應用戶提示的選擇或者定製,儘管應用程式開發者可從一開始就在語法中包括潛在的替換單詞。
圖3示出根據本發明的實施例的自動語音識別(ASR)系統的組件。如圖1的例子,圖3的ASR系統包括聲音前端(AFE)101和查閱應用語法105和基類池104的識別引擎(RE)102。圖3的ASR系統還具有在圖1的已知ASR系統中沒有的額外組件,包括被修改的提示資料庫106和下面所述的其它組件。已知的ASR系統存儲用於向用戶提供結果或者指示需要輸入的音頻文件或者文本。如下所述,提示資料庫106還包括潛在的混淆度和它們應當如何被處理的指示器。提示資料庫106被應用程式103訪問以自動地選擇用戶提示(選擇在用戶提示中包含的全部提示或單詞)。下面參照圖4和5更詳細地說明提示資料庫106的使用。
在現有的複雜的自然語言系統中,對話管理者工作的一部分是選擇適當的提示,而本發明可以實現為使識別引擎102選擇用戶提示。
當開發語音-響應應用程式時,開發者對語法105進行編碼,基類池104從特定應用語法中獲得。獲得基類或者發音的過程取決於處理來自訓練數據的結果。如下所述,還生成同音詞表107(單詞表,其中單詞拼寫彼此不同但是發音相同,因此容易混淆)1.基於原始的AM,對每一個音素,通過與每一個其它音素進行比較來計算歐幾裡得距離量度。因此,對於Y,有包括多個條目的數據組,這些條目顯示在聲音術語中Y與其它每個音素有多相近。這就是原始混淆度指標高分值(較大的距離)意味著兩個音素不可能被混淆(例如「O」和「B」);低分值(較小的距離)意味著兩個音素在聲音上相似,從而潛在地可混淆(例如「P」和「B」,或者「S」和「F」)。
下面說明第一個示例性的用於計算兩個不同的聲音z和y的狀態x之間的歐幾裡得距離的方法。令xaz1表示對於聲音z狀態a的第一個參數的平均值,xay1表示對於聲音y狀態a的第一個參數的平均值。它們之間的歐幾裡得距離被定義為(xaz1-xay1)2.]]>對於如在典型的識別引擎102的HMM網絡中的多維高斯分布,對於x,該計算從1執行到M,其中M表示用於代表給定的聲音的狀態的數量。每個狀態的歐幾裡得距離為(xazc-xayc)2,]]>其中c從1到N,N表示所使用的狀態的數量。
知道該平均值周圍的變化和這兩個平均值之間的向量的方向允許擴展和改進混淆指示器。如果擴展該方法,則最佳距離量度為((xazcazc)-(xaycayc2))2.]]>2.另外,對於每個音素計算「音素混淆度指標」,例如低於音素軌跡的每個音素的給定閾值的混淆度指標的平均值。在這裡,該音素混淆度指標被稱為音素的固有混淆度量度。
3.採用特定應用基類池(與應用語法有關的音素軌跡的資料庫),原始混淆度指標用於計算應用語法的每個單詞的累積混淆度指標,它表示兩個或者多個單詞可能被混淆的程度。每對單詞的累積混淆度指標被存儲在同音詞表107中。
在該階段,可以突出可能的混淆,並在配置之前改變應用語法和相關的應用提示,以使上述單詞之間的累積混淆度指標被優化。然而,這裡所述的ASR系統推遲突出可能的混淆的步驟,直到在運行時間分析語音,使得在應用語法中的單詞之間的固有混淆度可與運行時間識別置信度分值相關。下面參照圖3,4和5更詳細地說明ASR系統的組件和運行時間操作。
由於自動語音識別系統的輸入裝置和聲音前端的操作在本領域是眾所周知的(AFE如上所述),因此圖4所示的方法的步驟序列從由識別引擎102接收預處理的、參數化的音頻數據的片斷開始(步驟300)。識別引擎102把輸入音頻片斷與聲學模型進行比較,以辨識候選匹配音素(模型中的狀態序列)和候選音素序列(稱為聲學模型中的軌跡),這些序列可能表示用戶所說的聲音(步驟301)。接著,識別引擎將候選軌跡與應用語法105進行比較,試圖辨識語法中匹配用戶所說的聲音的單詞(步驟302)。識別引擎102使用輸入音頻與平均概率分布的緊密度以計算每個候選匹配音素和單詞的置信度分值,其中平均概率分布與每個候選軌跡的聲學模型的各個音素有關(步驟303)。
當進行了識別嘗試後,對於在一個或多個所匹配的軌跡中的每個單獨的音素,將置信度分值收集在音素置信度表108中(步驟303)。音素置信度表108包含所識別的音素、相關的置信度分值、每個音素的固有混淆度量度和每個所識別的單詞的累積混淆度指標。這些將用於評估結果,如下所述。另外,當在一個時期上重複測量時,各個音素的這些量度的趨勢存儲在置信度趨勢資料庫中,也將在下面說明,但沒有在圖中示出。
在如下所述的評估結果中,對特定應用和特定用戶分別計算的混淆度指標和運行時間值都被保留—使得通用的混淆量度可動態地修改成實際的配置環境。
當單詞識別結果變得可用時,來自音素置信度表的固有混淆度條目被應用於所計算的單詞的識別置信度值,以提供額外的結果欄位連同軌跡(基類)和每個音素置信度分值。該額外的結果欄位在這裡被稱為運行時間混淆量度。在一個實施例中,在運行時間(此時識別引擎被啟動)計算的識別置信度分值與預先計算的固有音素混淆度指標相乘。這樣,如果後兩者的值指示高級別的混淆度,那麼置信度值將與固有(即通用語言)指標和累積(即特定應用)指標成比例地減小。
為了說明的目的,提供下面的例子·令(a)為特定識別嘗試的置信度分值(例如70%);·令(b)為結果中的所有聲音與聲學模型中的其它聲音比較的固有混淆度(例如25%,如果結果中的語音很容易混淆)。
·另外,令(c)為結果中的一個或多個特定單詞與語法中的其它所有單詞比較的累積混淆度(例如值80%,如果我們預測這個單詞或這些單詞不容易與語法中的其它單詞混淆,即使各個聲音可能混淆)。
·已經離線計算值(b)和(c)。把它們相乘,我們得到20%。
·將置信度分值(a)乘以這個20%的結果,得到14%的運行時間置信度量度。
如果固有混淆度較高(如0.75),那麼運行時間混淆量度也會比較高(在本例中是0.42)。可選擇地,如果累積混淆度指標較低(如0.50),那麼運行時間混淆量度也會變得更低(在本例中是0.0875)。因此,可能值的範圍不需要線性地相關。然而,低運行時間混淆量度不過意味著結果會導致潛在的混淆和不能識別。
如上所述,當評估識別置信度和可能的混淆時,計算和使用三個值每個說話者、特定環境運行時間識別置信度;固有的每個音素混淆度;單詞的累積混淆度指標。這三個值中的每一個值都表示對識別的不同影響。置信度分值表示識別引擎如何在當前條件下對當前說話者執行。固有的每個音素混淆度指標表示正被發音的一個或多個聲音是如何清楚(在特定語言中)。累積混淆度指標表示固有混淆度對於該特定的應用是如何重要。如果其它的都相等,而累積混淆度指標儘可能高,那麼系統被優化。
結合了固有混淆度值和運行時間置信度的運行時間混淆量度由語音-響應應用程式以下述的一種方式使用。
低置信度音素的目標訓練在第一個實施例中,改編用戶輸入提示,以試圖引出包括之前以低識別置信度識別的音素的用戶輸入。許多可選的用戶提示存儲在提示資料庫106中,並與應用程式相關聯。這些可選的提示每一個都基於所接收的用戶輸入和所計算的識別置信度值由提示選擇器110選擇,在該示意性實施例中,提示選擇器110在識別引擎中實現。連同至少某些用戶提示一起存儲的是指向基類池104中的音素的指針,這些音素被期望包括在由用戶響應各個提示而說出的單詞中。當音素被識別為具有低運行時間混淆量度時,由提示選擇器進行的隨後的用戶提示的選擇(在ASR系統和當前呼叫者之間的交互期間)傾向於與指向基類池中的音素的指針一起存儲的提示。這鼓勵用戶再次輸入音素,在呼叫者和ASR系統之間產生的會話中啟動目標識別訓練。
讓我們假定會話在用戶和ASR系統之間進行,應用程式正在執行操作以響應用戶的輸入語音。代替總是獨立地生成用戶提示的應用程式103(如在許多已知系統中的),應用程式通過響應由識別引擎102輸出的結果而調用提示選擇器程序110(或者提示選擇器可在識別引擎102中實現)以響應某些用戶輸入(步驟310)。提示選擇器查閱提示資料庫106以辨識一組可選的用戶提示,從這些提示中選擇下一個用戶提示(步驟311)。提示選擇器還查閱音素置信度表108以辨識之前以低置信度識別的音素,這些音素與那組可選的用戶提示有關,並查閱同音詞表以辨識可造成混淆問題的所有單詞。接著,提示選擇器選擇期望鼓勵輸入一個或者多個之前以低置信度識別的音素的用戶提示(步驟312)。接著,所選擇的用戶提示被返回到應用程式。現在可以用下面兩種方式之一使用輸入或者直接用在支持改編的識別引擎中以提供實時訓練數據,或者與相關的識別結果分開地記錄用於離線處理。在任何一種情況下,都期望隨著時間過去額外的訓練數據能幫助提高識別成功性,從而提高運行時間置信度量度。
如果提示用戶輸入包括至少一個高識別置信度音素和一個或多個需要訓練的低識別置信度音素的單詞或者短語,那麼目標識別訓練最有效。任何額外的提示輸入(諸如提示輸入「Yes please」代替「Yes」)都將有助於識別訓練,因為有更多的數據分析。從一組可選的用戶提示中選擇可以包括選擇引起用戶說話以響應問題的單詞或者短語,所選擇的單詞或者短語用於生成特定用戶的定製對話。例如,由ASR系統問的標準問題可以是「如果您希望知道開放時間,說短語」,在提示資料庫中保存的可選的用戶提示可以是諸如「Yes」、「Yes please」、「Correct」、「開放時間」等的短語。提示選擇器可選擇「Yes please」響應之前具有低識別分值的識別「Yes」,因為這允許對單詞「Yes」中的音素的目標識別訓練。因為已知兩個之前以高識別置信度產生的聲音,所以識別引擎更可能向當前的應用程式返回成功的結果。其次,因為已知這些聲音和產生低分值的聲音,所以更容易辨識音頻輸入的哪一部分需要進行訓練。
低置信度音素的替換在第二個實施例中,如圖5所示,包含固有混淆的音素並因此具有低運行時間混淆量度的單詞被替換。辨識了低運行時間混淆量度後,對混淆的單詞或者短語查詢同音詞詞典109以查找可能的同音詞(步驟320)。同音詞詞典包含用於替換包含低置信度音素的單詞的單詞,如果還沒有被包括該替換單詞,那麼將其加入語法105,並且可被加權以比原始的單詞更有可能。當生成隨後的用戶提示時,該替換單詞與相關的提示文本或者音頻文件相結合,以生成期望鼓勵輸入替換單詞的用戶提示(步驟330)。因此,替換同音詞被加入提示文本或者音頻文件,以生成修改的用戶提示。如果需要,可以更新提示資料庫106。
作為例子,以下說明涉及上文的yes/no確認例子。原始的應用提示包括單詞「…如果您希望聽到我們的開放時間,請說『Yes』。否則,請說『No』」。
如果單詞Yes以低運行時間混淆量度返回,那麼從同義詞詞典109中取回諸如「Correct」的可選單詞,並用於修改該提示,使得修改後的提示包括單詞「…請說『Correct』…」。如果需要,單詞Correct也可以加入語法105,並被加權高於原始單詞Yes;新的提示單詞可存儲在提示資料庫106中。
在上例中,在呼叫者和ASR程序之間的未來交互中,當應用程式到達yes/no確認步驟時,用「…說Correct…」提示該用戶,該用戶更可能用這個提示的單詞響應而不是「Yes」,從而減小了不能識別的可能性。
也可以定期地更新上述置信度趨勢資料庫。該置信度趨勢資料庫可周期地進行查詢,以突出在無論哪種上下文中都導致低識別成功率的音素。結果,在AM中可以引發動態改編。如在現有技術中已知的,改編包括獲取運行時間聲音數據,不僅進行正常的處理(參見圖1和上面的說明),還使用運行時間聲音數據額外地加權高斯分布(重新訓練)。這可以隨著時間實現改進的匹配,但是在不管問題出現在HMM的哪個部分就使用處理方面,處理是「盲目的」。在這裡所述的系統中,獲取實際的性能信息,這可以採用更有目標的方式引發改編。在一個實施例中,除了用戶提示的動態改編外,性能信息可以用於根據需要為系統管理員生成單獨的重新訓練報告,以進行檢查和處理。
圖6示出在呼叫者和ASR系統之間的交互。ASR系統包括提示選擇器和存儲替換的用戶提示的用戶提示資料庫。在圖6的左邊示出時間線。交互從呼叫者呼叫ASR系統的電話號碼以確定有關正在電影院放映的電影的信息開始。在這裡所述的例子中,ASR系統通過詢問「請問哪個電影院?」響應呼叫者。呼叫者通過確認電影院響應,例如「南安普敦的劇場」。接著,ASR系統分析口語輸入以辨識可能匹配的音素和單詞,並根據所匹配的軌跡的累積概率確定識別置信度分值。當識別置信度分值低於預置閾值時,通過從提示資料庫中選擇可選的單詞或者短語響應這個識別困難。
在第一個ASR系統中,如果輸入單詞或者短語以低置信度識別,則隨後的用戶提示的生成包括從一組可選的用戶提示中選擇用戶提示,該選擇基於哪些用戶提示與被識別為具有低置信度識別的音素相關聯。為了使用語音識別訓練的任何額外的機會,ASR系統選擇與低置信度相關聯的用戶提示。
在實現本發明的可選的ASR系統中,如果輸入單詞或者短語以低置信度識別,那麼不使用可能用同樣的輸入單詞或者短語響應的隨後的用戶提示,而代之以不會引起同樣的響應的用戶提示。選擇替換的用戶提示,以期望對該替換的用戶提示的口語響應比有問題的輸入語音以更高的置信度識別。這樣,使用替換的提示可以對特定呼叫者在特定時間和特定環境中動態地生成定製的對話。在一個例子中,替換的提示引起用戶非常明確的響應(諸如「謝謝。為了聽有關X的信息,說『YES PLEASE』」)。隨後的呼叫者的響應也可以被分析,所計算的置信度分值和如果需要的置信度分值可用於影響隨後的用戶提示的生成。調整隨後的用戶提示以響應與用戶輸入的識別有關的置信度分值的步驟可以根據需要重複多次,諸如直到語音識別程序達到充分的識別置信度以允許更自由形態的輸入,或者直到會話結束。
工業應用性和優點自動語音識別系統日益用於許多行業中以提高工作者的效率或生產力,諸如使工作者從普通的呼叫處理中解脫出來,並在某些情況下減少呼叫者的等待時間。例如,ASR系統可以實現另外需要大量的人員處理呼入的呼叫的功能,包括回答可以很容易自動化的瑣細問題。ASR系統可以實現菜單選擇操作以指導呼叫者到所記錄的信息或者到組織中適當的人員或者部門。
如上所述,置信度分值可以顯示自動語音識別系統很難識別語言的哪些領域。識別問題和識別置信度分值的評估可以是特定呼叫者的,因為某些用戶提示可僅對某些特定的呼叫者導致低置信度識別,或者可以是特定環境的,例如在背景噪音下某些用戶輸入更容易失真。評估了識別置信度分值後,可以調整用戶提示以鼓勵呼叫者使用期望以較高置信度分值識別的單詞,或者在呼叫者和語音識別系統之間的功能性對話的上下文中提供訓練機會。然後,識別置信度可以用對呼叫者最小的不便提高,因為用戶提示的調整和任何重新訓練可無需專門的識別訓練期間和潛在地無需呼叫者重複其輸入實現。呼叫者通常要求其電話呼叫很快獲得所希望的結果,特別是當向自動語音識別系統說話時。
為了響應所評估的識別性能,用戶提示的選擇或定製可以動態地進行。識別語法可以根據性能進行修改,識別引擎的聲學模型可以被優化以提高未來的性能。
考慮已知的同音詞可以提供額外的檢驗用於與基類池一起使用,以確定哪些聲音固有地易混淆。這與實際所測量的音素置信度分值相結合以辨識需要修改的提示。
在上述示例性實施例中,提示選擇器被描述為識別引擎的組件,具有連接到識別引擎的應用程式以調用提示選擇器的功能。在另一個實施例中,提示選擇器在語音-響應應用程式中實現,但是查閱由識別引擎填充的識別置信度表。在其它實施例中,識別引擎和提示資料庫可以連接到傳統的語音識別應用程式,並且從該應用程式來看,用戶提示選擇操作可透明地執行。
權利要求
1.一種用於控制自動語音識別(ASR)系統的操作的方法,包括以下步驟將輸入音頻信號中的聲音與聲學模型中的音素進行比較,以辨識候選匹配音素;對各個候選匹配音素計算識別置信度分值;評估所述識別置信度分值,以辨識至少一個具有預定識別置信度特徵的候選匹配音素;以及選擇用於引出隨後的用戶輸入的用戶提示,其中所述選擇取決於所辨識的至少一個音素和所辨識的至少一個音素的識別置信度特徵。
2.如權利要求1所述的方法,用在ASR系統中,其中對於所述ASR系統的第一操作要求第一個用戶輸入,對於所述ASR系統的第二操作要求隨後的用戶輸入,所述方法包括以下步驟評估作為所述第一個用戶輸入中的聲音的候選匹配音素的音素的識別置信度分值;以及選擇所述ASR系統的第二操作所要求的隨後的用戶輸入的用戶提示,其中所述選擇取決於對所述第一個用戶輸入中的聲音的候選匹配音素評估的識別置信度分值。
3.如權利要求2所述的方法,其中,所述選擇步驟包括選擇至少一個用戶提示以鼓勵輸入被識別為具有低置信度識別分值的音素。
4.如權利要求3所述的方法,還包括以下步驟將隨後的輸入音頻信號中的聲音與聲學模型中的音素進行比較,以辨識候選匹配音素;對所述候選匹配音素計算識別置信度分值;以及更新識別置信度分值,其聯繫所述第一個用戶輸入的識別置信度分值和隨後的用戶輸入的識別置信度分值。
5.如權利要求3所述的方法,其中,所述選擇步驟包括將被識別為具有低識別置信度分值的具有可選的用戶提示列表的音素與所期望的與所述可選的用戶提示相關聯的輸入音素進行比較,以選擇與所期望的輸入音素相關聯的輸入提示,其中所期望的輸入音素被識別為具有相對高的與其它音素混淆的可能性。
6.如權利要求1所述的方法,其中,所述選擇步驟包括選擇至少一個用戶提示以阻止輸入被識別為具有低置信度識別分值的音素。
7.如權利要求6所述的方法,其中,所述選擇步驟包括選擇引起輸入被識別為具有低置信度識別分值的音素的同義詞的用戶提示。
8.如權利要求1所述的方法,還包括以下步驟在音素和其它音素之間計算固有的混淆可能性;其中,評估置信度分值的步驟包括將所計算的識別置信度分值與所計算的固有的混淆可能性相結合,然後將結合的結果與預先定義的識別置信度特徵進行比較。
9.如權利要求8所述的方法,其中,計算固有的混淆可能性的步驟包括計算在聲學模型的第一狀態和所述模型的其它狀態之間的距離,所述第一狀態對應第一個聲音,所述其它狀態對應一組最接近所述第一狀態的狀態。
10.如權利要求1所述的方法,其中,修改應用語法以響應所計算的識別置信度分值。
11.如權利要求10所述的方法,其中,所述修改應用語法包括以下步驟辨識在與低於預先定義的閾值分值的置信度識別分值相關聯的應用語法中的單詞;以及用同義詞替換所述應用語法中所辨識的單詞。
12.如權利要求11所述的方法,在執行所述替換步驟之前,還包括以下步驟檢驗在所述同義詞與所述語法中的其它單詞之間的固有混淆度是否低於閾值。
13.一種自動語音識別系統,包括語音-響應應用程式和語音識別引擎,所述語音識別系統包括用於將輸入音頻信號與聲學模型中的音素進行比較以辨識候選匹配音素的程序代碼;用於對每個所述候選匹配音素計算識別置信度分值的程序代碼;用於評估所述候選匹配音素的識別置信度分值以辨識至少一個具有預先定義的識別置信度特徵的音素的程序代碼;以及用於響應所辨識的至少一個音素和響應所辨識的至少一個音素的識別置信度特徵,選擇用戶提示以引出隨後的用戶輸入的程序代碼。
全文摘要
一種自動語音識別(ASR)系統,包括語音-響應應用程式和語音識別引擎。ASR系統生成用戶提示以引出某些口語輸入,當口語輸入被識別時,語音-響應應用程式執行操作。識別引擎將輸入音頻信號中的聲音與聲學模型中的音素進行比較,以辨識候選匹配音素。對每個候選匹配音素計算識別置信度分值,置信度分值用於幫助辨識一個或者多個可能的匹配音素序列,該序列似乎匹配語音-響應應用程式的語法中的單詞。根據預先定義的置信度分值標準(例如,低於「低置信度」閾值的辨識分值)評估每個音素的置信度分值,評估的結果用於影響隨後的用戶提示的選擇。一種這樣的系統使用置信度分值選擇用於目標識別訓練的提示-鼓勵輸入被識別為具有低置信度識別分值的音素。另一個系統選擇提示以阻止輸入不容易被識別的聲音。
文檔編號G10L15/08GK1783213SQ20051011490
公開日2006年6月7日 申請日期2005年11月11日 優先權日2004年12月1日
發明者B·J·皮克林, T·D·波爾特尼, B·T·斯塔尼福德, M·惠特伯恩 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀