新四季網

利用快速語音識別搜索過程的採樣音頻內容的處理的製作方法

2023-06-12 07:11:56

專利名稱:利用快速語音識別搜索過程的採樣音頻內容的處理的製作方法
技術領域:
本發明一般涉及一種語音識別過程,並且更具體地涉及語音識別搜索過程。
背景技術:
語音識別包括努力的已知領域。某些語音識別過程利用語音識別搜索處理諸如但不限於所謂的基於隱馬爾可夫模型的語音識別過程。這通常包括統計模型的使用,該統計模型輸出符號或數量的序列,其中語音實質上被視為關於統稱為狀態的隨機過程的馬爾可夫模型。示
例性隱馬爾可夫模型可能輸出,例如,39-維實值向量的序列,大約每IO毫秒輸出這些向量中的一個。
這樣的向量可能包括,例如,通過採取採樣語音的短時窗的傅立葉變換和使用餘弦變換對頻譜進行解相關而獲得的倒譜係數,然後為這些目的而取第一 (最重要的)係數。對於每個狀態,隱馬爾可夫模型方法傾向於具有被稱為對角線或充分協方差高斯混合的統計分布,該統計分布將表徵每個被觀察的向量的相應似然性。
在許多現有技術方法中,常規的語音識別搜索需要在單詞、子詞和上述的狀態之間的邊界應當在一定規則基礎上(通常採樣音頻內容的每一幀)被搜索。儘管實際上是最佳和最有力的方法,但是這種逐幀方法來搜索單詞、子詞和狀態邊界也需要相當大的計算資源。這只需要增加所支持詞彙的深度和豐富度。結果,使用語音識別搜索過程的語音識別過程可能需要龐大的計算資源。
例如,考慮其中每個幀僅表示大約IO毫秒的音頻內容的應用裝置。對於支持識別例如50,000單詞的語音識別過程,然後必須針對每個這樣的幀搜索並比較與這50,000單詞的每個相對應的識別數據。單獨這個就需要相當大的計算量。這些需求只有當考慮這樣的過程也需要針對帶有每個這樣的幀的子詞進行相應的搜索時才漸漸變得更嚴重。
結果,這樣的方法,雖然常常成功的執行最佳的語音識別,但是也常常計算上太過於貧乏而不能在這樣的計算開銷完全不可用的應用裝置中工作好。例如,諸如蜂窩電話等的小型可攜式無線通信設備代表這樣的應用裝置。可用的計算能力以及相應的功率容量限制都可能嚴重限制這樣的方法的實際使用。


特別當結合附圖研究時,通過提供涉及使用下面詳述中描述的語音識別搜索過程的採樣音頻內容處理的方法和裝置至少部分地滿足了以上需要,在附圖中-
圖1包括如依照本發明的各種實施例配置的流程圖;圖2包括如依照本發明的各種實施例配置的流程圖;圖3包括如依照本發明的各種實施例配置的示意狀態表示圖;以

圖4包括如依照本發明的各種實施例配置的框圖。
本領域的技術人員將理解,圖中的元素出於簡單和清楚的目的而被圖示並且不一定按比例繪製。例如,圖中一些元素的尺寸和/或相對位置相對於其它要素可能被放大以幫助提髙對本發明的各種實施例的理解。而且,為了使本發明的這些不同實施例便於更順利地査看,常常並不圖示在商業上可行的實施例中有用或必需的常見但公知的元素。將進一步理解,某些動作和/或步驟可以以發生的特定順序來描述或圖示,而本領域的技術人員將理解關於序列這樣的特異性實際上並不是必需的。還將理解,除了在這裡另外闡述特定含義之外,在這裡使用的術語和表達具有與這樣的術語和表達關於它們查詢和研究的相應的各自領域相一致的通常含義。
具體實施例方式
一般說來,按照這些不同實施例, 一個實施例提供了採樣音頻內容的多個幀,並且然後使用語音識別搜索過程來處理所述多個幀,語音識別搜索過程包括至少部分地確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。這與現有實踐對比鮮明,當然,因為現有技術通常需要系統地搜索針對子詞邊界的每個幀,而沒有考慮實際上是
否應當進行這樣的搜索。這些教導還將容易地提供(accommodate)確定是否在逐幀基礎上搜索包含在每個幀中的每個單詞邊界。
這些教導很容易結合針對每個這樣的幀的子詞隱馬爾可夫模型狀態信息的使用來應用。通過一個方法,該過程可以包括在逐幀基礎上提供針對潛在的子詞隱馬爾可夫模型的每個狀態的似然值並且選擇這些值中的最大值。接著,可以作為帶有結果值的預定波束寬度值的函數來處理該最大值,然後,將結果值和與該潛在的子詞隱馬爾可夫模型的退出狀態相對應的似然值相比較。接下來我們可以至少部分地作為該比較結果的函數來確定是否搜索包含在特定幀裡的每個子詞邊界(或,如果需要,每個單詞邊界)。
如此配置,當使用這樣的語音識別搜索過程而同時避免大量的計算行為時,這些教導如我們通常所期待地允許相對精確和高質量的語音識別處理。特別地,在很多情況下按照以上教導處理的給定幀看起來將不太可能事實上包含所感興趣的邊界,在這種情況下,這樣的幀在這點上可以簡單跳過。也就是說,語音識別搜索過程可以簡單跳過這樣的幀並且不搜索如包含在該幀中的每個子詞邊界(和/或單詞邊界)。這進而允許僅僅具有適度的容量和/或能力的給定處理平臺仍常常成功地執行具有成功結果的語音識別搜索過程。
在對下面的詳細描述進行透徹回顧和研究之後,這些和其它益處可以變得更清楚。現在參考附圖,並且特別參考圖1,與這些教導相一
致的示例性方法100首先提供101採樣音頻內容的多個幀,並且然後提供用於使用語音識別搜索過程處理102那些幀,該語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。有各種已知的過程,通過這些過程可以捕獲和提供這樣的幀,並且在這點上其他過程在未來有可能被開發。因為這些教導在這點上對於任何特定方法的選擇不是過度敏感,為簡潔和保持敘述重點起見,將不提供關於這樣的幀的提供的進一步細節,在這裡保存以注意這樣的幀通常只對應於相對短的時間段,諸如但不限於IO毫秒。
上面提到的語音識別搜索過程可以包括諸如可以適合於滿足給定的應用裝置的需要的過程。為了提供說明性示例並且通過限制的方式的目的,這裡將假定該語音識別搜索過程包括基於隱馬爾可夫模型的語音識別過程。因此,所描述的確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界的步驟將包括至少部分地作為每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索每個子詞邊界。這樣的隱馬爾可夫模型狀態信息可以包括,例如,每個幀的潛在的隱馬爾可夫模型的多個狀態中的每個狀態的似然信息。
這裡存在可以滿足這樣的步驟的各種方法。如在這點上只是一個說明性示例而不是通過限制的方式,圖2表示過程200,過程200提供用於提供201潛在隱馬爾科夫模型的多個狀態中的每個狀態的似然值,並且然後選擇202狀態似然值的最大值以提供合成的選擇的似然值。然後,作為預定波束寬度值的函數來處理203該選擇的似然值(例如,通過從所選擇的似然值減去預定波束寬度值)以提供己處理的似然值,然後將己處理的似然值和與該潛在隱馬爾可夫模型的特定狀態(諸如退出狀態)相對應的似然值相比較204,從而提供合成比較結果。然後,過程200提供用於至少部分地作為該比較結果的函數來確定205是否搜索包含在該幀中的每個子詞邊界。現在參考圖3,現在將提供一些具體的說明性示例。在該示例中,如對應於採樣音頻內容的給定的這樣的幀,在時間T有三個可能的狀態300。這三個可能的狀態這裡被表示為開始狀態C 301、退出狀態A303和中間狀態B 302。每個這樣的狀態300具有相應的似然值(例如,狀態A 303具有似然值X,而狀態C301具有似然值Z)。存在各種已知方法來確定這樣的似然值;因此,在這點上在這裡將不提供另外的細節。為了這些示例的目的,將假定預定的波束寬度3。如可能表徵給定應用裝置,當然可以採用其它值以適合各種需要和/或機會。
示例1
在該示例中,狀態A 303值為1,狀態B 302值為2,並且狀態C301值為6。依照這些教導,選擇了最大狀態值(在該示例中,它是6),並且然後,從中減去預定的波束寬度值。在這種情況下,這將包括從6減去3,留下3作為已處理的似然值。然後,將該已處理的似然值與潛在的狀態300中的特定一個相比較;在這種情況下,在該示例中,退出狀態A 303值為1。在該示例中,該比較包括確定特定潛在狀態的值是否小於已處理的似然值。在該示例中,然後,查詢變成確定1小於3。當然,後者實際上表示真命題。因此,針對這個幀很可能可以得出結論子詞轉換不太可能發生,並且可以合理地跳過針對該幀的子詞邊界的搜索。如果單詞邊界發生在該子詞邊界處,則隨後可以跳過單詞邊界的搜索。這進而將導致大大減少計算需求。
示例2
在該示例中,三個狀態300中的每個值為4。因此,最大似然值是4並且減去預定波束寬度值3以產生已處理的似然值l。因此,在該示例中的比較表明,退出狀態A 303的似然值(在該示例中,值為4)大於已處理的似然值l。因此,可以得出合理的結論子詞轉換實際上可能發生。這進而導致確定搜索包含在該特定幀中的每個子詞邊界。如果單詞邊界發生在該子詞邊界,則隨後可以進行單詞邊界的搜索。本領域技術人員將認識並理解,這些教導因此提供了一種高效、簡單的方法以關於給定幀是否值得在為了評估感興趣的子詞邊界的包括方面消耗計算資源作出合理的確定。支持這樣的決策過程的開銷計算需求相對適度並且通過這些過程的使用和實施來實現的可觀的節餘更重要。
這些相同的教導也可以結合確定是否在逐幀基礎上(代替或結合諸如針對子詞邊界所描述的確定)搜索在每個幀中的每個單詞邊界(如相對於每個子詞邊界)而應用。
本領域技術人員將理解,使用任何各種各樣的可用和/或容易配置的平臺很容易實現上述過程,包括如本領域已知的部分或完全可編程的平臺或如可以期望用於某些應用的專用平臺。現在參考圖4,現在將提供這樣的平臺的說明性方法。
在該示例中,實現裝置400包括可操作的耦合到處理器402的輸入401。輸入401可以被配置和布置成提供採樣音頻內容的多個幀。再次,存在本領域技術人員將容易地知道並且可用的可以完成這個任務的各種已知途徑。處理器402進而可以包括專用或者部分或完全可編程的平臺,該平臺被配置和布置成(經由,例如,相應的編程)實現在此已闡述的選擇的教導。特別地,該處理器402可以被配置和布置成使用音頻識別搜索過程來處理輸入的多個幀,該音頻識別搜索過程至少部分地包含前述關於是否在逐幀基礎上搜索包含在多個幀的每個幀中每個子詞邊界的確定。
語音識別搜索過程可以包括處理器402的整體部分,或者,如果需要,可以包括例如存儲在可用存儲器等上的軟體程序403。在任何情況下,如上所述,如果需要,該語音識別搜索過程都可以容易地包括基於隱馬爾可夫模型的語音識別過程。本領域技術人員將認識並理解,這樣的裝置400可以包括由圖4所示的圖示建議的多個物理上不同的元件。然而,也可以查看包括邏輯視圖的該圖示,其中一個或多個這些元件可以經由共享平臺被啟用和實現。還將理解,這樣的共享平臺可以包括如本領域已知的完整或至少部分可編程的平臺。
如此配置,僅具有適度的處理能力的實現平臺(諸如蜂窩電話等)仍可以通過做出這些關於是否測試和採樣音頻內容的哪個幀測試子詞和/或單詞邊界的這些選擇性確定來進行強大的語音識別搜索過程的高度槓桿使用。描述的方法相對容易實現並且用以通常已經可用的高度槓桿信息(例如,每個幀的各種可能狀態的似然值)。這些教導也容易縮放以滿足與給定應用裝置相對應的需要和/或機會。例如,這些教導可以很容易應用於與提供超過三個可能狀態的語音識別搜索過程配套的使用中。
本領域熟練技術人員將認識到,在不背離被發明的精神和範圍的情況下,可以對上述實施例做出各種修改、變化以及組合,並且這樣的修改、替代和組合應當被視為處於發明概念的範圍內。
權利要求
1.一種方法,包括提供採樣音頻內容的多個幀;使用語音識別搜索過程來處理所述多個幀,所述語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
2. 根據權利要求l所述的方法,其中,使用語音識別搜索過程包 括使用基於隱馬爾可夫模型的語音識別過程。
3. 根據權利要求2所述的方法,其中,確定是否在逐幀基礎上搜 索包含在每個幀中的每個子詞邊界包括至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數,確定是否在逐幀基礎上搜索包含 在每個幀中的每個子詞邊界。
4. 根據權利要求3所述的方法,其中,所述隱馬爾可夫模型狀態 信息包括針對每個幀的潛在隱馬爾可夫模型的多個狀態中的每個狀態 的似然信息。
5. 根據權利要求4所述的方法,其中,至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包 含在每個幀中的每個子詞邊界包括至少部分地並且針對每個幀針對潛在隱馬爾可夫模型的多個狀態中的每個狀態提供似然值; 選擇所述似然值中的最大似然值,以提供選擇的似然值; 作為預定波束寬度值的函數來處理所選擇的似然值,以提供已處 理的似然值;將已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態相對 應的似然值相比較,以提供比較結果;至少部分地作為所述比較結果的函數,確定是否搜索包含在該幀中的每個子詞邊界。
6. 根據權利要求5所述的方法,其中,作為預定波束寬度值的函數來處理所選擇的似然值以提供已處理的似然值包括從所選擇的似 然值減去所述預定波束寬度值以提供所述已處理的似然值。
7. 根據權利要求l所述的方法,其中,使用語音識別搜索過程來 處理所述多個幀進一步至少部分地包括基於是否已經搜索了包括給 定單詞的最後的子詞的相應子詞邊界的知識,確定是否在逐幀基礎上 搜索包含在每個幀中的每個單詞邊界。
8. —種裝置,包括輸入,所述輸入被配置和布置成接收採樣音頻內容的多個幀; 處理器裝置,所述處理器裝置可操作地耦合到所述輸入,用於使 用語音識別搜索過程來處理所述多個幀,所述語音識別搜索過程至少 部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊 界。
9. 根據權利要求8所述的裝置,其中,所述處理器裝置通過使用基於隱馬爾可夫模型的語音識別過程來使用語音識別搜索過程。
10. 根據權利要求9所述的裝置,其中,通過至少部分地作為針 對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上 搜索包含在每個幀中的每個子詞邊界,所述處理器裝置確定是否在逐 幀基礎上搜索包含在每個幀中的每個子詞邊界。
11. 根據權利要求IO所述的裝置,其中,所述隱馬爾可夫模型狀 態信息包括針對每個幀的潛在隱馬爾可夫模型的多個狀態中的每個狀 態的似然信息。
12. 根據權利要求ll所述的裝置,其中,所述處理器裝置通過至 少部分地並且針對每個幀的以下操作至少部分地作為針對每個幀的隱 馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界針對潛在隱馬爾可夫模型的多個狀態中的每個狀態提供似然值; 選擇所述似然值中的最大似然值,以提供選擇的似然值; 作為預定波束寬度值的函數來處理所選擇的似然值,以提供已處 理的似然值;將所述已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態 相對應的似然值相比較,以提供比較結果;至少部分地作為所述比較結果的函數,確定是否搜索包含在該幀 中的每個子詞邊界。
13. 根據權利要求12所述的裝置,其中,作為預定波束寬度值的 函數來處理所選擇的似然值以提供已處理的似然值包括從所選擇的 似然值減去所述預定波束寬度值以提供所述已處理的似然值。
14. 一種裝置,包括輸入,所述輸入被配置和布置成提供採樣音頻內容的多個幀; 處理器,所述處理器可操作地耦合到所述輸入並且被配置和布置 成使用語音識別搜索過程來處理所述多個幀,所述語音識別搜索過程 至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子 詞邊界。
15. 根據權利要求14所述的裝置,其中,所述處理器進一步被配 置和布置成通過使用基於隱馬爾可夫模型的語音識別過程來使用語 音識別搜索過程。
16. 根據權利要求15所述的裝置,其中,所述處理器進一步被配 置和布置成通過至少部分地作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞 邊界,確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。
17. 根據權利要求16所述的裝置,其中,所述隱馬爾可夫模型狀 態信息包括針對每個幀的潛在隱馬爾可夫模型的多個狀態中的每個狀 態的似然信息。
18. 根據權利要求17所述的裝置,其中,所述處理器進一步被配 置和布置成通過至少部分地並且針對每個幀的以下操作至少部分地 作為針對每個幀的隱馬爾可夫模型狀態信息的函數來確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界針對潛在隱馬爾可夫模型的多個狀態中的每個狀態提供似然值; 選擇所述似然值中的最大似然值,以提供選擇的似然值; 作為預定波束寬度值的函數來處理所選擇的似然值,以提供已處 理的似然值;將所述已處理的似然值和與所述潛在隱馬爾可夫模型的特定狀態 相對應的似然值相比較,以提供比較結果;至少部分地作為所述比較結果的函數,確定是否搜索包含在該幀 中的每個子詞邊界。
19. 根據權利要求18所述的裝置,其中,作為預定波束寬度值的 函數來處理所選擇的似然值以提供已處理的似然值包括從所選擇的 似然值減去所述預定波束寬度值以提供所述已處理的似然值。
20. 根據權利要求14所述的裝置,其中,所述處理器進一步被配 置和布置成基於是否已經搜索了包括給定單詞的最後的子詞的相應 子詞邊界的知識,至少部分地通過確定是否在逐幀基礎上搜索包含在 每個幀中的每個單詞邊界,使用語音識別搜索過程來處理所述多個幀。
全文摘要
本發明提供(101)了採樣音頻內容的多個幀,並且然後使用語音識別搜索過程來處理(102)所述多個幀,所述語音識別搜索過程至少部分地包括確定是否在逐幀基礎上搜索包含在每個幀中的每個子詞邊界。這些教導也將很容易提供確定是否在逐幀基礎上搜索包含在每個幀中的每個單詞邊界。
文檔編號G10L15/00GK101595522SQ200780048579
公開日2009年12月2日 申請日期2007年11月5日 優先權日2006年12月29日
發明者程燕鳴 申請人:摩託羅拉公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀