語音識別方法和裝置製造方法
2023-10-17 05:26:14 1
語音識別方法和裝置製造方法
【專利摘要】本發明提出一種語音識別方法和裝置,該語音識別方法包括採集用戶輸入的語音信息;對所述語音信息進行特徵提取,得到特徵信息;根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。該方法能夠不依賴網絡實現語音識別。
【專利說明】語音識別方法和裝置
【技術領域】
[0001]本發明涉及智能處理【技術領域】,尤其涉及一種語音識別方法和裝置。
【背景技術】
[0002]語音識別是信息【技術領域】重要的技術之一,語音識別的目標是使機器聽懂人的自然語言,由識別後的語音作為控制信號可以應用在不同的領域。
[0003]目前,語音識別通常採用在線方式,用戶輸入的語音信息由網絡傳入雲端,經雲端的伺服器進行識別並將結果傳回給用戶。
[0004]但是,這種在線方式需要依賴網絡。
【發明內容】
[0005]本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
[0006]為此,本發明的一個目的在於提出一種語音識別方法,該方法可以不依賴網絡實現語音識別。
[0007]本發明的另一個目的在於提出一種語音識別裝置。
[0008]為達到上述目的,本發明第一方面實施例提出的語音識別方法,包括:採集用戶輸入的語音信息;對所述語音信息進行特徵提取,得到特徵信息;根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。
[0009]本發明第一方面實施例提出的語音識別方法,通過離線的方式進行語音識別,可以不需要依賴網絡實現語音識別,方便用戶使用。並且,通過對聲學模型進行預先數據壓縮,可以使得聲學模型適應於行動裝置中,以實現在行動裝置離線完成語音識別。
[0010]為達到上述目的,本發明第二方面實施例提出的語音識別裝置,包括:採集模塊,用於採集用戶輸入的語音信息;提取模塊,用於對所述語音信息進行特徵提取,得到特徵信息;解碼模塊,用於根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。
[0011]本發明第二方面實施例提出的語音識別裝置,通過離線的方式進行語音識別,可以不需要依賴網絡實現語音識別,方便用戶使用。並且,通過對聲學模型進行預先數據壓縮,可以使得聲學模型適應於行動裝置中,以實現在行動裝置離線完成語音識別。
[0012]為達到上述目的,本發明第三方面實施例提出的行動裝置,包括:殼體、處理器、存儲器、電路板和電源電路,其中,電路板安置在殼體圍成的空間內部,處理器和存儲器設置在電路板上;電源電路,用於為行動裝置的各個電路或器件供電;存儲器用於存儲可執行程序代碼;處理器通過讀取存儲器中存儲的可執行程序代碼來運行與可執行程序代碼對應的程序,以用於執行以下步驟:採集用戶輸入的語音信息;對所述語音信息進行特徵提取,得到特徵信息;根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。[0013]本發明第三方面實施例提出的行動裝置,通過離線的方式進行語音識別,可以不需要依賴網絡實現語音識別,方便用戶使用。並且,通過對聲學模型進行預先數據壓縮,可以使得聲學模型適應於行動裝置中,以實現在行動裝置離線完成語音識別。
[0014]本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【專利附圖】
【附圖說明】
[0015]本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0016]圖1為本發明一實施例提出的語音識別方法的流程示意圖;
[0017]圖2為本發明實施例中離線方式的語音識別的流程示意圖;
[0018]圖3為本發明另一實施例提出的語音識別方法的流程示意圖;
[0019]圖4為本發明實施例中過濾特徵信息的示意圖;
[0020]圖5為本發明實施例中利用聲學模型進行處理的流程示意圖;
[0021]圖6為本發明另一實施例提出的語音識別裝置的結構示意圖;
[0022]圖7為本發明另一實施例提出的語音識別裝置的結構示意圖。
【具體實施方式】
[0023]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用於解釋本發明,而不能理解為對本發明的限制。相反,本發明的實施例包括落入所附加權利要求書的精神和內涵範圍內的所有變化、修改和等同物。
[0024]圖1為本發明一實施例提出的語音識別方法的流程示意圖,該方法包括:
[0025]Sll:行動裝置採集用戶輸入的語音信息;
[0026]其中,行動裝置可以為手機、平板電腦等。
[0027]相關技術中,行動裝置接收到用戶輸入的語音信息後,會通過網絡發送給雲端的伺服器,由伺服器進行識別並返回識別結果。
[0028]而本實施例中,為了避免語音識別受限於網絡,可以由行動裝置自身完成語音識另IJ,實現離線方式的語音識別。
[0029]S12:行動裝置對用戶輸入的語音信息進行特徵提取,得到特徵信息。
[0030]其中,參見圖2,可以首先將用戶輸入的模擬語音信息轉換為數字語音信息。之後,可以根據語音激活檢測(Voice Activity Detector, VAD)確定語音起始點和終止點,再進行特徵提取。
[0031]S13:行動裝置根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。
[0032]其中,如圖2所示,解碼步驟往往佔據著絕大部分的時間。解碼器通過對聲學模型的匹配和語言模型的處理來實現語音特徵值和文本字串的對應關係,其中聲學模型又比語言模型複雜得多。因此,對聲學模型的優化會給整個語音識別系統的效率帶來大量收益。本實施例通過對聲學模型進行數據壓縮,以避免龐大的聲學模型難以運行在行動裝置中。
[0033]本實施例通過離線的方式進行語音識別,可以不需要依賴網絡實現語音識別,方便用戶使用。並且,通過對聲學模型進行預先數據壓縮,可以使得聲學模型適應於行動裝置中,以實現在行動裝置離線完成語音識別。
[0034]圖3為本發明另一實施例提出的語音識別方法的流程示意圖,該方法包括:
[0035]S31:行動裝置採集用戶輸入的語音信息。
[0036]S32:行動裝置對語音信息進行特徵提取,得到特徵信息。
[0037]S33:行動裝置對特徵信息進行過濾處理,得到過濾後的特徵信息。
[0038]其中,如圖4所示,在一段語音信息中,由於字與字之間的停頓,帶來很多無用的信息。本實施例通過過濾掉這些無用信息,以保證輸入到解碼器中的特徵信息緊湊有效。
[0039]過濾處理包括但不限於跳幀等。
[0040]S34:行動裝置根據數據壓縮後的聲學模型,對輸入的過濾後的特徵信息進行計算,得到聲學模型打分。
[0041]具體的,利用聲學模型進行處理的流程可以參見圖5,包括:
[0042]S51:對輸入數據進行數據壓縮。
[0043]其中,輸入數據是指過濾後的特徵信息。
[0044]S52:利用數據壓縮過的聲學模型,對數據壓縮後的輸入數據進行並行計算,得到輸出數據,其中,輸出數據是數據壓縮的聲學模型打分。
[0045]其中,對輸入數據進行數據壓縮的算法與聲學模型的數據壓縮算法一致,以進行相應匹配。
[0046]本實施例中的優化可以包括數據結構優化和計算模式優化,其中,數據結構優化是指對輸入數據以及聲學模型都進行了壓縮。計算模式優化是指採用並行運算。
[0047]在解碼器模塊中,本實施例採用了數據壓縮方法,使本來非常龐大的聲學模型壓縮到適合在行動裝置中使用的規模,同時能夠保證整體識別率沒有下降。此外,由於整個解碼過程中的操作數均是壓縮過的數據,所以,雖然相比於一般的解碼過程,本實施例多了數據壓縮和數據解壓的過程,但是得益於壓縮過的數據量比原數據量小一個量級,而且輸入壓縮和輸出解壓的計算量遠小於模型打分的計算,因此,整體解碼時間大大短於沒有壓縮數據的解碼。
[0048]本實施例在對數據進行壓縮的同時,也充分發掘了數據計算的並行性。在對大量輸入數據進行解碼時,不同的輸入數據在進行計算時完全沒有數據依賴,而且同一數據的計算中也存在毫無關聯的數個步驟,因此本實施例採用各種並行手段,包括但不限於數據並行、指令並行、線程並行等,對整個解碼過程進行並行優化,取得了巨大的時間收益。
[0049]在採用以上兩種優化手段之後,解碼時間在整體識別時間中的佔比由原來的95%以上縮減到了 20%以下,加速達到150倍以上;模型規模也縮減到原來的15%。這一指標完全適合應用於行動裝置中。
[0050]S53:對輸出數據進行解壓縮,得到聲學模型打分。
[0051]在得到聲學模型打分後,還可以獲取語言模型打分,最後根據聲學模型打分和語言模型打分,得到識別後的語音信息。即,本實施例的方法還包括:
[0052]S35:行動裝置對經過聲學模型匹配後的數據進行語言模型打分,得到語言模型打分。
[0053]其中,經過聲學模型處理後,可以得到聲學模型中每個字對應的得分,之後根據每個字對應的得分,可以對相應的字進行語言模型打分。
[0054]由於語言模型相對於聲學模型簡單很多,因此,可以將目前伺服器採用的語言模型應用到行動裝置中,採用目前的語言模型處理流程。
[0055]S36:行動裝置根據聲學模型打分和語言模型打分,得到結合後的打分。
[0056]最終模型的打分由聲學模型的得分和語言模型的得分相結合得到,該方式包括但不限於加權求和:
[0057]score = Wam.Scoream 十 Wlm.Scorelm
[0058]其中,score為最終得分,Wam和Wlm分別是聲學模型和語言模型的權重,Scoream和Scorelm分別為聲學模型和語言模型的打分。
[0059]S37:行動裝置將最高的結合後的打分對應的文字片斷,確定為語音識別後得到的文字片斷。
[0060]本實施例可以在行動裝置上實現離線語音識別,可以應用在地圖導航、手機輸入等軟體中,使得用戶不需要手動輸入信息,直接採用語音完成相應控制,提升用戶體驗。本實施例通過對解碼部分的聲學模型進行計算以及數據的優化,既能夠保證識別率,又能將佔用的系統資源控制在一個合理的範圍內,十分適合部署在行動裝置上。
[0061]圖6為本發明另一實施例提出的語音識別裝置的結構示意圖,該裝置60包括採集模塊61、提取模塊62和解碼模塊63。
[0062]採集模塊61用於採集用戶輸入的語音信息;
[0063]其中,該裝置可以具體為行動裝置,行動裝置可以為手機、平板電腦等。
[0064]相關技術中,行動裝置接收到用戶輸入的語音信息後,會通過網絡發送給雲端的伺服器,由伺服器進行識別並返回識別結果。
[0065]而本實施例中,為了避免語音識別受限於網絡,可以由行動裝置自身完成語音識另IJ,實現離線方式的語音識別。
[0066]提取模塊62用於對所述語音信息進行特徵提取,得到特徵信息;
[0067]其中,可以首先將用戶輸入的模擬語音信息轉換為數字語音信息。之後,可以根據語音激活檢測(Voice Activity Detector, VAD)確定語音起始點和終止點,再進行特徵提取。
[0068]解碼模塊63用於根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。
[0069]其中,解碼步驟往往佔據著絕大部分的時間。解碼器通過對聲學模型的匹配和語言模型的處理來實現語音特徵值和文本字串的對應關係,其中聲學模型又比語言模型複雜得多。因此,對聲學模型的優化會給整個語音識別系統的效率帶來大量收益。本實施例通過對聲學模型進行數據壓縮,以避免龐大的聲學模型難以運行在行動裝置中。
[0070]本實施例通過離線的方式進行語音識別,可以不需要依賴網絡實現語音識別,方便用戶使用。並且,通過對聲學模型進行預先數據壓縮,可以使得聲學模型適應於行動裝置中,以實現在行動裝置離線完成語音識別。
[0071]圖7為本發明另一實施例提出的語音識別裝置的結構示意圖,該裝置60還包括過濾模塊64。
[0072]過濾模塊64用於對所述特徵信息進行過濾,得到過濾後的特徵信息,以對所述過濾後的特徵信息進行解碼。
[0073]其中,如圖3所示,在一段語音信息中,由於字與字之間的停頓,帶來很多無用的信息。本實施例通過過濾掉這些無用信息,以保證輸入到解碼器中的特徵信息緊湊有效。
[0074]一個實施例中,所述過濾模塊64具體用於:對所述特徵信息進行跳幀提取。
[0075]—個實施例中,所述解碼模塊63具體用於:
[0076]對所述特徵信息進行數據壓縮,根據所述數據壓縮過的聲學模型,對數據壓縮後的特徵信息進行計算,得到聲學模型打分;
[0077]根據語言模塊,對聲學模型打分後的數據進行運算,得到語言模型打分;
[0078]根據所述聲學模型打分和所述語言模型打分,得到識別後的語音信息。
[0079]—個實施例中,所述解碼模塊63對數據壓縮後的特徵信息進行計算,包括:
[0080]對數據壓縮後的特徵信息進行並行運算。
[0081]一個實施例中,所述解碼模塊63進行的並行運算具體包括如下項中的至少一項:
[0082]數據並行運算、指令並行運算、線程並行運算。
[0083]其中,對輸入數據進行數據壓縮的算法與聲學模型的數據壓縮算法一致,以進行相應匹配。
[0084]本實施例中的優化可以包括數據結構優化和計算模式優化,其中,數據結構優化是指對輸入數據以及聲學模型都進行了壓縮。計算模式優化是指採用並行運算。
[0085]在解碼器模塊中,本實施例採用了數據壓縮方法,使本來非常龐大的聲學模型壓縮到適合在行動裝置中使用的規模,同時能夠保證整體識別率沒有下降。此外,由於整個解碼過程中的操作數均是壓縮過的數據,所以,雖然相比於一般的解碼過程,本實施例多了數據壓縮和數據解壓的過程,但是得益於壓縮過的數據量比原數據量小一個量級,而且輸入壓縮和輸出解壓的計算量遠小於模型打分的計算,因此,整體解碼時間大大短於沒有壓縮數據的解碼。
[0086]本實施例在對數據進行壓縮的同時,也充分發掘了數據計算的並行性。在對大量輸入數據進行解碼時,不同的輸入數據在進行計算時完全沒有數據依賴,而且同一數據的計算中也存在毫無關聯的數個步驟,因此本實施例採用各種並行手段,包括但不限於數據並行、指令並行、線程並行等,對整個解碼過程進行並行優化,取得了巨大的時間收益。
[0087]在採用以上兩種優化手段之後,解碼時間在整體識別時間中的佔比由原來的95%以上縮減到了 20%以下,加速達到150倍以上;模型規模也縮減到原來的15%。這一指標完全適合應用於行動裝置中。
[0088]在得到聲學模型打分後,還可以獲取語言模型打分,最後根據聲學模型打分和語言模型打分,得到識別後的語音信息。
[0089]最終模型的打分由聲學模型的得分和語言模型的得分相結合得到,該方式包括但不限於加權求和:
[0090]score = Wam.scoream+fflm.Scorelm
[0091]其中,score為最終得分,Wam和Wlm分別是聲學模型和語言模型的權重,Scoream和Scorelm分別為聲學模型和語言模型的打分。[0092]其中,可以將最高的結合後的打分對應的文字片斷,確定為語音識別後得到的文字片斷。
[0093]本實施例可以在行動裝置上實現離線語音識別,可以應用在地圖導航、手機輸入等軟體中,使得用戶不需要手動輸入信息,直接採用語音完成相應控制,提升用戶體驗。本實施例通過對解碼部分的聲學模型進行計算以及數據的優化,既能夠保證識別率,又能將佔用的系統資源控制在一個合理的範圍內,十分適合部署在行動裝置上。
[0094]本發明實施例還提供了一種行動裝置,該行動裝置包括殼體、處理器、存儲器、電路板和電源電路,其中,電路板安置在殼體圍成的空間內部,處理器和存儲器設置在電路板上;電源電路,用於為行動裝置的各個電路或器件供電;存儲器用於存儲可執行程序代碼;處理器通過讀取存儲器中存儲的可執行程序代碼來運行與可執行程序代碼對應的程序,以用於執行以下步驟:
[0095]SlT:採集用戶輸入的語音信息;
[0096]其中,行動裝置可以為手機、平板電腦等。
[0097]相關技術中,行動裝置接收到用戶輸入的語音信息後,會通過網絡發送給雲端的伺服器,由伺服器進行識別並返回識別結果。
[0098]而本實施例中,為了避免語音識別受限於網絡,可以由行動裝置自身完成語音識另IJ,實現離線方式的語音識別。
[0099]S12』:對用戶輸入的語音信息進行特徵提取,得到特徵信息。
[0100]其中,可以首先將用戶輸入的模擬語音信息轉換為數字語音信息。之後,可以根據語音激活檢測(Voice Activity Detector, VAD)確定語音起始點和終止點,再進行特徵提取。
[0101]S13』:根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。
[0102]其中,解碼步驟往往佔據著絕大部分的時間。解碼器通過對聲學模型的匹配和語言模型的處理來實現語音特徵值和文本字串的對應關係,其中聲學模型又比語言模型複雜得多。因此,對聲學模型的優化會給整個語音識別系統的效率帶來大量收益。本實施例通過對聲學模型進行數據壓縮,以避免龐大的聲學模型難以運行在行動裝置中。
[0103]本實施例通過離線的方式進行語音識別,可以不需要依賴網絡實現語音識別,方便用戶使用。
[0104]另一實施例中,處理器通過讀取存儲器中存儲的可執行程序代碼來運行與可執行程序代碼對應的程序,以用於執行以下步驟:
[0105]S31』:採集用戶輸入的語音信息。
[0106]S32』:對語音信息進行特徵提取,得到特徵信息。
[0107]S33』:對特徵信息進行過濾處理,得到過濾後的特徵信息。
[0108]其中,如圖4所示,在一段語音信息中,由於字與字之間的停頓,帶來很多無用的信息。本實施例通過過濾掉這些無用信息,以保證輸入到解碼器中的特徵信息緊湊有效。
[0109]過濾處理包括但不限於跳幀等。
[0110]S34』:根據數據壓縮後的聲學模型,對輸入的過濾後的特徵信息進行計算,得到聲學模型打分。[0111]具體的,得到聲學模型打分的流程可以包括:
[0112]S51』:對輸入數據進行數據壓縮。
[0113]其中,輸入數據是指過濾後的特徵信息。
[0114]S52』:利用數據壓縮過的聲學模型,對數據壓縮後的輸入數據進行並行計算,得到輸出數據,其中,輸出數據是數據壓縮的聲學模型打分。
[0115]其中,對輸入數據進行數據壓縮的算法與聲學模型的數據壓縮算法一致,以進行相應匹配。
[0116]本實施例中的優化可以包括數據結構優化和計算模式優化,其中,數據結構優化是指對輸入數據以及聲學模型都進行了壓縮。計算模式優化是指採用並行運算。
[0117]在解碼器模塊中,本實施例採用了數據壓縮方法,使本來非常龐大的聲學模型壓縮到適合在行動裝置中使用的規模,同時能夠保證整體識別率沒有下降。此外,由於整個解碼過程中的操作數均是壓縮過的數據,所以,雖然相比於一般的解碼過程,本實施例多了數據壓縮和數據解壓的過程,但是得益於壓縮過的數據量比原數據量小一個量級,而且輸入壓縮和輸出解壓的計算量遠小於模型打分的計算,因此,整體解碼時間大大短於沒有壓縮數據的解碼。
[0118]本實施例在對數據進行壓縮的同時,也充分發掘了數據計算的並行性。在對大量輸入數據進行解碼時,不同的輸入數據在進行計算時完全沒有數據依賴,而且同一數據的計算中也存在毫無關聯的數個步驟,因此本實施例採用各種並行手段,包括但不限於數據並行、指令並行、線程並行等,對整個解碼過程進行並行優化,取得了巨大的時間收益。
[0119]在採用以上兩種優化手段之後,解碼時間在整體識別時間中的佔比由原來的95%以上縮減到了 20%以下,加速達到150倍以上;模型規模也縮減到原來的15%。這一指標完全適合應用於行動裝置中。
[0120]S53』:對輸出數據進行解壓縮,得到聲學模型打分。
[0121]在得到聲學模型打分後,還可以獲取語言模型打分,最後根據聲學模型打分和語言模型打分,得到識別後的語音信息。即,本實施例的方法還包括:
[0122]S35』:對經過聲學模型匹配後的數據進行語言模型打分,得到語言模型打分。
[0123]其中,經過聲學模型處理後,可以得到聲學模型中每個字對應的得分,之後根據每個字對應的得分,可以對相應的字進行語言模型打分。
[0124]由於語言模型相對於聲學模型簡單很多,因此,可以將目前伺服器採用的語言模型應用到行動裝置中,採用目前的語言模型處理流程。
[0125]S36』:根據聲學模型打分和語言模型打分,得到結合後的打分。
[0126]最終模型的打分由聲學模型的得分和語言模型的得分相結合得到,該方式包括但不限於加權求和:
[0127]score = Wam.scoream+fflm.Scorelm
[0128]其中,score為最終得分,Wam和Wlm分別是聲學模型和語言模型的權重,Scoream和Scorelm分別為聲學模型和語言模型的打分。
[0129]S37』:將最高的結合後的打分對應的文字片斷,確定為語音識別後得到的文字片斷。
[0130]本實施例可以在行動裝置上實現離線語音識別,可以應用在地圖導航、手機輸入等軟體中,使得用戶不需要手動輸入信息,直接採用語音完成相應控制,提升用戶體驗。本實施例通過對解碼部分的聲學模型進行計算以及數據的優化,既能夠保證識別率,又能將佔用的系統資源控制在一個合理的範圍內,十分適合部署在行動裝置上。
[0131]需要說明的是,在本發明的描述中,術語「第一」、「第二」等僅用於描述目的,而不能理解為指示或暗示相對重要性。此外,在本發明的描述中,除非另有說明,「多個」的含義是兩個或兩個以上。
[0132]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用於實現特定邏輯功能或過程的步驟的可執行指令的代碼的模塊、片段或部分,並且本發明的優選實施方式的範圍包括另外的實現,其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執行功能,這應被本發明的實施例所屬【技術領域】的技術人員所理解。
[0133]應當理解,本發明的各部分可以用硬體、軟體、固件或它們的組合來實現。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執行系統執行的軟體或固件來實現。例如,如果用硬體來實現,和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現:具有用於對數據信號實現邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現場可編程門陣列(FPGA)等。
[0134]本【技術領域】的普通技術人員可以理解實現上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬體完成,所述的程序可以存儲於一種計算機可讀存儲介質中,該程序在執行時,包括方法實施例的步驟之一或其組合。
[0135]此外,在本發明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以採用硬體的形式實現,也可以採用軟體功能模塊的形式實現。所述集成的模塊如果以軟體功能模塊的形式實現並作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。
[0136]上述提到的存儲介質可以是只讀存儲器,磁碟或光碟等。
[0137]在本說明書的描述中,參考術語「一個實施例」、「一些實施例」、「示例」、「具體示例」、或「一些示例」等的描述意指結合該實施例或示例描述的具體特徵、結構、材料或者特點包含於本發明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特徵、結構、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結合。
[0138]儘管上面已經示出和描述了本發明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發明的限制,本領域的普通技術人員在本發明的範圍內可以對上述實施例進行變化、修改、替換和變型。
【權利要求】
1.一種語音識別方法,其特徵在於,包括: 採集用戶輸入的語音信息; 對所述語音信息進行特徵提取,得到特徵信息; 根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。
2.根據權利要求1所述的方法,其特徵在於,所述得到特徵信息之後,所述方法還包括: 對所述特徵信息進 行過濾,得到過濾後的特徵信息,以對所述過濾後的特徵信息進行解碼。
3.根據權利要求2所述的方法,其特徵在於,所述對所述特徵信息進行過濾,包括: 對所述特徵信息進行跳幀提取。
4.根據權利要求1至3任一項所述的方法,其特徵在於,所述根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,包括: 對所述特徵信息進行數據壓縮,根據所述數據壓縮過的聲學模型,對數據壓縮後的特徵信息進行計算,得到聲學模型打分; 根據語言模塊,對聲學模型打分後的數據進行運算,得到語言模型打分; 根據所述聲學模型打分和所述語言模型打分,得到識別後的語音信息。
5.根據權利要求4所述的方法,其特徵在於,所述對數據壓縮後的特徵信息進行計算,包括: 對數據壓縮後的特徵信息進行並行運算。
6.根據權利要求5所述的方法,其特徵在於,所述並行運算包括如下項中的至少一項: 數據並行運算、指令並行運算、線程並行運算。
7.一種語言識別裝置,其特徵在於,包括: 採集模塊,用於採集用戶輸入的語音信息; 提取模塊,用於對所述語音信息進行特徵提取,得到特徵信息; 解碼模塊,用於根據預先獲取的聲學模型和語言模型,對所述特徵信息進行解碼,得到識別後的語音信息,其中,所述聲學模型為預先進行數據壓縮後得到的。
8.根據權利要求7所述的裝置,其特徵在於,還包括: 過濾模塊,用於對所述特徵信息進行過濾,得到過濾後的特徵信息,以對所述過濾後的特徵信息進行解碼。
9.根據權利要求8所述的裝置,其特徵在於,所述過濾單元具體用於: 對所述特徵信息進行跳幀提取。
10.根據權利要求7至9任一項所述的裝置,其特徵在於,所述解碼模塊具體用於: 對所述特徵信息進行數據壓縮,根據所述數據壓縮過的聲學模型,對數據壓縮後的特徵信息進行計算,得到聲學模型打分; 根據語言模塊,對聲學模型打分後的數據進行運算,得到語言模型打分; 根據所述聲學模型打分和所述語言模型打分,得到識別後的語音信息。
11.根據權利要求10所述的裝置,其特徵在於,所述解碼模塊對數據壓縮後的特徵信息進行計算,包括:對數據壓縮後的特徵信息進行並行運算。
12.根據權利要求11所述的裝置,其特徵在於,所述解碼模塊進行的並行運算具體包括如下項中的至少一項: 數據並行運算、指令並行運算、線程並行運算。
【文檔編號】G10L15/06GK103915092SQ201410129541
【公開日】2014年7月9日 申請日期:2014年4月1日 優先權日:2014年4月1日
【發明者】李博, 王志謙, 胡娜, 穆向禹, 賈磊, 魏偉 申請人:百度在線網絡技術(北京)有限公司