利用快速語音識別搜索過程的採樣音頻內容的處理的製作方法

2023-06-12 07:11:56 1

專利名稱：利用快速語音識別搜索過程的採樣音頻內容的處理的製作方法
技術領域：
本發明一般涉及一種語音識別過程，並且更具體地涉及語音識別搜索過程。
背景技術：
語音識別包括努力的已知領域。某些語音識別過程利用語音識別搜索處理諸如但不限於所謂的基於隱馬爾可夫模型的語音識別過程。這通常包括統計模型的使用，該統計模型輸出符號或數量的序列，其中語音實質上被視為關於統稱為狀態的隨機過程的馬爾可夫模型。示
例性隱馬爾可夫模型可能輸出，例如，39-維實值向量的序列，大約每IO毫秒輸出這些向量中的一個。
這樣的向量可能包括，例如，通過採取採樣語音的短時窗的傅立葉變換和使用餘弦變換對頻譜進行解相關而獲得的倒譜係數，然後為這些目的而取第一 (最重要的)係數。對於每個狀態，隱馬爾可夫模型方法傾向於具有被稱為對角線或充分協方差高斯混合的統計分布，該統計分布將表徵每個被觀察的向量的相應似然性。
在許多現有技術方法中，常規的語音識別搜索需要在單詞、子詞和上述的狀態之間的邊界應當在一定規則基礎上(通常採樣音頻內容的每一幀)被搜索。儘管實際上是最佳和最有力的方法，但是這種逐幀方法來搜索單詞、子詞和狀態邊界也需要相當大的計算資源。這只需要增加所支持詞彙的深度和豐富度。結果，使用語音識別搜索過程的語音識別過程可能需要龐大的計算資源。
例如，考慮其中每個幀僅表示大約IO毫秒的音頻內容的應用裝置。對於支持識別例如50,000單詞的語音識別過程，然後必須針對每個這樣的幀搜索並比較與這50,000單詞的每個相對應的識別數據。單獨這個就需要相當大的計算量。這些需求只有當考慮這樣的過程也需要針對帶有每個這樣的幀的子詞進行相應的搜索時才漸漸變得更嚴重。
結果，這樣的方法，雖然常常成功的執行最佳的語音識別，但是也常常計算上太過於貧乏而不能在這樣的計算開銷完全不可用的應用裝置中工作好。例如，諸如蜂窩電話等的小型可攜式無線通信設備代表這樣的應用裝置。可用的計算能力以及相應的功率容量限制都可能嚴重限制這樣的方法的實際使用。

特別當結合附圖研究時，通過提供涉及使用下面詳述中描述的語音識別搜索過程的採樣音頻內容處理的方法和裝置至少部分地滿足了以上需要，在附圖中-
圖1包括如依照本發明的各種實施例配置的流程圖；圖2包括如依照本發明的各種實施例配置的流程圖；圖3包括如依照本發明的各種實施例配置的示意狀態表示圖；以
及
圖4包括如依照本發明的各種實施例配置的框圖。
本領域的技術人員將理解，圖中的元素出於簡單和清楚的目的而被圖示並且不一定按比例繪製。例如，圖中一些元素的尺寸和/或相對位置相對於其它要素可能被放大以幫助提髙對本發明的各種實施例的理解。而且，為了使本發明的這些不同實施例便於更順利地査看，常常並不圖示在商業上可行的實施例中有用或必需的常見但公知的元素。將進一步理解，某些動作和/或步驟可以以發生的特定順序來描述或圖示，而本領域的技術人員將理解關於序列這樣的特異性實際上並不是必需的。還將理解，除了在這裡另外闡述特定含義之外，在這裡使用的術語和表達具有與這樣的術語和表達關於它們查詢和研究的相應的各自領域相一致的通常含義。
具體實施例方式
一般說來，按照這些不同實施例，一個實施例提供了採樣音頻內容的多個幀，並且然後使用語音識別搜索過程來處理所述多個幀，語音識別搜索過程包括至少部分地確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。這與現有實踐對比鮮明，當然，因為現有技術通常需要系統地搜索針對子詞邊界的每個幀，而沒有考慮實際上是
否應當進行這樣的搜索。這些教導還將容易地提供(accommodate)確定是否在逐幀基礎上搜索包含在每個幀中的每個單詞邊界。
這些教導很容易結合針對每個這樣的幀的子詞隱馬爾可夫模型狀態信息的使用來應用。通過一個方法，該過程可以包括在逐幀基礎上提供針對潛在的子詞隱馬爾可夫模型的每個狀態的似然值並且選擇這些值中的最大值。接著，可以作為帶有結果值的預定波束寬度值的函數來處理該最大值，然後，將結果值和與該潛在的子詞隱馬爾可夫模型的退出狀態相對應的似然值相比較。接下來我們可以至少部分地作為該比較結果的函數來確定是否搜索包含在特定幀裡的每個子詞邊界(或，如果需要，每個單詞邊界)。
如此配置，當使用這樣的語音識別搜索過程而同時避免大量的計算行為時，這些教導如我們通常所期待地允許相對精確和高質量的語音識別處理。特別地，在很多情況下按照以上教導處理的給定幀看起來將不太可能事實上包含所感興趣的邊界，在這種情況下，這樣的幀在這點上可以簡單跳過。也就是說，語音識別搜索過程可以簡單跳過這樣的幀並且不搜索如包含在該幀中的每個子詞邊界(和/或單詞邊界)。這進而允許僅僅具有適度的容量和/或能力的給定處理平臺仍常常成功地執行具有成功結果的語音識別搜索過程。
在對下面的詳細描述進行透徹回顧和研究之後，這些和其它益處可以變得更清楚。現在參考附圖，並且特別參考圖1，與這些教導相一
致的示例性方法100首先提供101採樣音頻內容的多個幀，並且然後提供用於使用語音識別搜索過程處理102那些幀，該語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。有各種已知的過程，通過這些過程可以捕獲和提供這樣的幀，並且在這點上其他過程在未來有可能被開發。因為這些教導在這點上對於任何特定方法的選擇不是過度敏感，為簡潔和保持敘述重點起見，將不提供關於這樣的幀的提供的進一步細節，在這裡保存以注意這樣的幀通常只對應於相對短的時間段，諸如但不限於IO毫秒。
上面提到的語音識別搜索過程可以包括諸如可以適合於滿足給定的應用裝置的需要的過程。為了提供說明性示例並且通過限制的方式的目的，這裡將假定該語音識別搜索過程包括基於隱馬爾可夫模型的語音識別過程。因此，所描述的確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界的步驟將包括至少部分地作為每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索每個子詞邊界。這樣的隱馬爾可夫模型狀態信息可以包括，例如，每個幀的潛在的隱馬爾可夫模型的多個狀態中的每個狀態的似然信息。
這裡存在可以滿足這樣的步驟的各種方法。如在這點上只是一個說明性示例而不是通過限制的方式，圖2表示過程200，過程200提供用於提供201潛在隱馬爾科夫模型的多個狀態中的每個狀態的似然值，並且然後選擇202狀態似然值的最大值以提供合成的選擇的似然值。然後，作為預定波束寬度值的函數來處理203該選擇的似然值(例如，通過從所選擇的似然值減去預定波束寬度值)以提供己處理的似然值，然後將己處理的似然值和與該潛在隱馬爾可夫模型的特定狀態(諸如退出狀態)相對應的似然值相比較204，從而提供合成比較結果。然後，過程200提供用於至少部分地作為該比較結果的函數來確定205是否搜索包含在該幀中的每個子詞邊界。現在參考圖3，現在將提供一些具體的說明性示例。在該示例中，如對應於採樣音頻內容的給定的這樣的幀，在時間T有三個可能的狀態300。這三個可能的狀態這裡被表示為開始狀態C 301、退出狀態A303和中間狀態B 302。每個這樣的狀態300具有相應的似然值(例如，狀態A 303具有似然值X，而狀態C301具有似然值Z)。存在各種已知方法來確定這樣的似然值；因此，在這點上在這裡將不提供另外的細節。為了這些示例的目的，將假定預定的波束寬度3。如可能表徵給定應用裝置，當然可以採用其它值以適合各種需要和/或機會。
示例1
在該示例中，狀態A 303值為1，狀態B 302值為2，並且狀態C301值為6。依照這些教導，選擇了最大狀態值(在該示例中，它是6)，並且然後，從中減去預定的波束寬度值。在這種情況下，這將包括從6減去3，留下3作為已處理的似然值。然後，將該已處理的似然值與潛在的狀態300中的特定一個相比較；在這種情況下，在該示例中，退出狀態A 303值為1。在該示例中，該比較包括確定特定潛在狀態的值是否小於已處理的似然值。在該示例中，然後，查詢變成確定1小於3。當然，後者實際上表示真命題。因此，針對這個幀很可能可以得出結論子詞轉換不太可能發生，並且可以合理地跳過針對該幀的子詞邊界的搜索。如果單詞邊界發生在該子詞邊界處，則隨後可以跳過單詞邊界的搜索。這進而將導致大大減少計算需求。
示例2
在該示例中，三個狀態300中的每個值為4。因此，最大似然值是4並且減去預定波束寬度值3以產生已處理的似然值l。因此，在該示例中的比較表明，退出狀態A 303的似然值(在該示例中，值為4)大於已處理的似然值l。因此，可以得出合理的結論子詞轉換實際上可能發生。這進而導致確定搜索包含在該特定幀中的每個子詞邊界。如果單詞邊界發生在該子詞邊界，則隨後可以進行單詞邊界的搜索。本領域技術人員將認識並理解，這些教導因此提供了一種高效、簡單的方法以關於給定幀是否值得在為了評估感興趣的子詞邊界的包括方面消耗計算資源作出合理的確定。支持這樣的決策過程的開銷計算需求相對適度並且通過這些過程的使用和實施來實現的可觀的節餘更重要。
這些相同的教導也可以結合確定是否在逐幀基礎上(代替或結合諸如針對子詞邊界所描述的確定)搜索在每個幀中的每個單詞邊界(如相對於每個子詞邊界)而應用。
本領域技術人員將理解，使用任何各種各樣的可用和/或容易配置的平臺很容易實現上述過程，包括如本領域已知的部分或完全可編程的平臺或如可以期望用於某些應用的專用平臺。現在參考圖4，現在將提供這樣的平臺的說明性方法。
在該示例中，實現裝置400包括可操作的耦合到處理器402的輸入401。輸入401可以被配置和布置成提供採樣音頻內容的多個幀。再次，存在本領域技術人員將容易地知道並且可用的可以完成這個任務的各種已知途徑。處理器402進而可以包括專用或者部分或完全可編程的平臺，該平臺被配置和布置成(經由，例如，相應的編程)實現在此已闡述的選擇的教導。特別地，該處理器402可以被配置和布置成使用音頻識別搜索過程來處理輸入的多個幀，該音頻識別搜索過程至少部分地包含前述關於是否在逐幀基礎上搜索包含在多個幀的每個幀中每個子詞邊界的確定。
語音識別搜索過程可以包括處理器402的整體部分，或者，如果需要，可以包括例如存儲在可用存儲器等上的軟體程序403。在任何情況下，如上所述，如果需要，該語音識別搜索過程都可以容易地包括基於隱馬爾可夫模型的語音識別過程。本領域技術人員將認識並理解，這樣的裝置400可以包括由圖4所示的圖示建議的多個物理上不同的元件。然而，也可以查看包括邏輯視圖的該圖示，其中一個或多個這些元件可以經由共享平臺被啟用和實現。還將理解，這樣的共享平臺可以包括如本領域已知的完整或至少部分可編程的平臺。
如此配置，僅具有適度的處理能力的實現平臺(諸如蜂窩電話等)仍可以通過做出這些關於是否測試和採樣音頻內容的哪個幀測試子詞和/或單詞邊界的這些選擇性確定來進行強大的語音識別搜索過程的高度槓桿使用。描述的方法相對容易實現並且用以通常已經可用的高度槓桿信息(例如，每個幀的各種可能狀態的似然值)。這些教導也容易縮放以滿足與給定應用裝置相對應的需要和/或機會。例如，這些教導可以很容易應用於與提供超過三個可能狀態的語音識別搜索過程配套的使用中。
本領域熟練技術人員將認識到，在不背離被發明的精神和範圍的情況下，可以對上述實施例做出各種修改、變化以及組合，並且這樣的修改、替代和組合應當被視為處於發明概念的範圍內。
權利要求
1.一種方法，包括提供採樣音頻內容的多個幀；使用語音識別搜索過程來處理所述多個幀，所述語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
2. 根據權利要求l所述的方法，其中，使用語音識別搜索過程包括使用基於隱馬爾可夫模型的語音識別過程。
3. 根據權利要求2所述的方法，其中，確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界包括至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數，確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
4. 根據權利要求3所述的方法，其中，所述隱馬爾可夫模型狀態信息包括針對每個幀的潛在隱馬爾可夫模型的多個狀態中的每個狀態的似然信息。
5. 根據權利要求4所述的方法，其中，至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界包括至少部分地並且針對每個幀針對潛在隱馬爾可夫模型的多個狀態中的每個狀態提供似然值；選擇所述似然值中的最大似然值，以提供選擇的似然值；作為預定波束寬度值的函數來處理所選擇的似然值，以提供已處理的似然值；將已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態相對應的似然值相比較，以提供比較結果；至少部分地作為所述比較結果的函數，確定是否搜索包含在該幀中的每個子詞邊界。
6. 根據權利要求5所述的方法，其中，作為預定波束寬度值的函數來處理所選擇的似然值以提供已處理的似然值包括從所選擇的似然值減去所述預定波束寬度值以提供所述已處理的似然值。
7. 根據權利要求l所述的方法，其中，使用語音識別搜索過程來處理所述多個幀進一步至少部分地包括基於是否已經搜索了包括給定單詞的最後的子詞的相應子詞邊界的知識，確定是否在逐幀基礎上搜索包含在每個幀中的每個單詞邊界。
8. —種裝置，包括輸入，所述輸入被配置和布置成接收採樣音頻內容的多個幀；處理器裝置，所述處理器裝置可操作地耦合到所述輸入，用於使用語音識別搜索過程來處理所述多個幀，所述語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
9. 根據權利要求8所述的裝置，其中，所述處理器裝置通過使用基於隱馬爾可夫模型的語音識別過程來使用語音識別搜索過程。
10. 根據權利要求9所述的裝置，其中，通過至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界，所述處理器裝置確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
11. 根據權利要求IO所述的裝置，其中，所述隱馬爾可夫模型狀態信息包括針對每個幀的潛在隱馬爾可夫模型的多個狀態中的每個狀態的似然信息。
12. 根據權利要求ll所述的裝置，其中，所述處理器裝置通過至少部分地並且針對每個幀的以下操作至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界針對潛在隱馬爾可夫模型的多個狀態中的每個狀態提供似然值；選擇所述似然值中的最大似然值，以提供選擇的似然值；作為預定波束寬度值的函數來處理所選擇的似然值，以提供已處理的似然值；將所述已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態相對應的似然值相比較，以提供比較結果；至少部分地作為所述比較結果的函數，確定是否搜索包含在該幀中的每個子詞邊界。
13. 根據權利要求12所述的裝置，其中，作為預定波束寬度值的函數來處理所選擇的似然值以提供已處理的似然值包括從所選擇的似然值減去所述預定波束寬度值以提供所述已處理的似然值。
14. 一種裝置，包括輸入，所述輸入被配置和布置成提供採樣音頻內容的多個幀；處理器，所述處理器可操作地耦合到所述輸入並且被配置和布置成使用語音識別搜索過程來處理所述多個幀，所述語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
15. 根據權利要求14所述的裝置，其中，所述處理器進一步被配置和布置成通過使用基於隱馬爾可夫模型的語音識別過程來使用語音識別搜索過程。
16. 根據權利要求15所述的裝置，其中，所述處理器進一步被配置和布置成通過至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界，確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
17. 根據權利要求16所述的裝置，其中，所述隱馬爾可夫模型狀態信息包括針對每個幀的潛在隱馬爾可夫模型的多個狀態中的每個狀態的似然信息。
18. 根據權利要求17所述的裝置，其中，所述處理器進一步被配置和布置成通過至少部分地並且針對每個幀的以下操作至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界針對潛在隱馬爾可夫模型的多個狀態中的每個狀態提供似然值；選擇所述似然值中的最大似然值，以提供選擇的似然值；作為預定波束寬度值的函數來處理所選擇的似然值，以提供已處理的似然值；將所述已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態相對應的似然值相比較，以提供比較結果；至少部分地作為所述比較結果的函數，確定是否搜索包含在該幀中的每個子詞邊界。
19. 根據權利要求18所述的裝置，其中，作為預定波束寬度值的函數來處理所選擇的似然值以提供已處理的似然值包括從所選擇的似然值減去所述預定波束寬度值以提供所述已處理的似然值。
20. 根據權利要求14所述的裝置，其中，所述處理器進一步被配置和布置成基於是否已經搜索了包括給定單詞的最後的子詞的相應子詞邊界的知識，至少部分地通過確定是否在逐幀基礎上搜索包含在每個幀中的每個單詞邊界，使用語音識別搜索過程來處理所述多個幀。
全文摘要
本發明提供(101)了採樣音頻內容的多個幀，並且然後使用語音識別搜索過程來處理(102)所述多個幀，所述語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。這些教導也將很容易提供確定是否在逐幀基礎上搜索包含在每個幀中的每個單詞邊界。
文檔編號G10L15/00GK101595522SQ200780048579
公開日2009年12月2日申請日期2007年11月5日優先權日2006年12月29日
發明者程燕鳴申請人:摩託羅拉公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

利用快速語音識別搜索過程的採樣音頻內容的處理的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法