一種面向特定人群的語音識別方法
2023-05-03 23:03:16 1
專利名稱:一種面向特定人群的語音識別方法
技術領域:
本發明涉及語音信號處理與識別技術領域,尤其涉及一種面向特定目標人群的語 音識別方法。
背景技術:
語音識別,是機器通過識別和理解過程把人類的語音信號轉變為相應的文本或命 令的技術,即將語音信號逐字逐句的翻譯為相應的書面語言,或對語音所包含的要求和命 令做出正確的響應。隨著科學的發展和計算機的普及,人們對與計算機的交流方式提出了 更高的要求。這促進了語音識別技術的發展,並使之成為語音處理領域中的一個重要研究 方向。語音識別具有廣闊的應用前景,其發展、成熟和實用化將推動許多產業的迅速發展, 包括計算機、辦公室自動化、通信、國防、機器人等等。目前,在實驗室環境下,語音識別系統 的識別率已經達到了很高的水平。但是由於受現實環境噪聲的影響,語音識別系統的識別 率較實驗室環境大幅度下降,語言識別系統的實用性受到了很大的影響。語音識別中最重要的技術基本集中在語音特徵提取和模式匹配兩個環節。在漢語 語音識別系統中,主要採用以下三種特徵提取方法基於LPC的倒譜參數(LPCC)分析法該方法的典型代表是基於Durbin或 Levinson迭代算法求解「維納-霍夫方程」獲得LPC預測係數為基礎,進而得到的LPC的倒 譜參數(LPCC)。基於Mel係數的Mel頻標倒譜係數(MPCC)分析法該方法基於FFT頻譜餘弦變換 為基礎,根據Mel曲線將語音信號頻譜分為若干個頻帶,每個頻帶的能量經FFT變換對應一 組MFCC參數。基於現代處理技術的小波變換係數分析法該方法將語音信號與一個在時域和頻 域均具有良好局部化性質的小波函數族進行積分(小波變換),從而把信號分解成一組位 於不同頻率和時段內的分量,即選擇小波函數為某類平滑函數的一階導數,從而獲得語音 特徵參數。小波變換法則是一種新興的理論工具,與經典的LPCC和MPCC方法相比,小波變 換法有著計算量小、複雜程度低、識別效果好等許多優點,是未來語音識別技術發展的一個 方向。為解決語音識別的另一個技術難題-模式匹配,Rabiner等人在20世紀80年代 將隱馬爾可夫(HMM)模型引入語音識別領域。該算法以HMM模型為基本建模模型,運用統 計學習理論對發音的基本音素建立對應的聲學模型,統計學習各個音素之間的概率轉移關 系,再結合語義分析進行內容識別。通過大量的語音庫,就能夠獲得一個穩健的統計模型, 能夠適應實際語音中的各種突發情況。目前絕大多數基於PC的系統都採用此方法。伴隨著科技進步和全球信息交流的日益擴大,嵌入式設備產品的市場規模得到了 迅猛的發展。3G手機、GPS導航設備等移動通信終端和MP3、電子詞典等可攜式消費電子產 品的日益普及,使語音合成、語音識別、手寫輸入技術在嵌入式中的應用成了最具吸引力的 功能,具有語音識別功能的嵌入式系統有助於提高人機互動的效率,增強人對智能化設備的控制,具有廣闊的市場應用前景,可廣泛應用於語音導航、語音撥號、智能家電和玩具的 語音控制等領域。目前主流的語音識別技術是基於統計模式識別的理論,由於算法複雜,運算量大, 一般由PC機來完成,這無疑限制了它在便攜嵌入式設備中的運用。嵌入式語音識別技術並 不能簡單地將PC機通用的語音識別技術應用到嵌入式系統,它受到嵌入式處理器的處理 能力、存儲資源、應用環境及成本等方面的嚴格限制和制約,迫切需要在噪聲處理、語音特 徵提取算法以及語音識別算法等方面做出改進,提出適用於嵌入式平臺的語音識別方法。
發明內容
本發明的目的在於提供一種基於嵌入式系統平臺的、面向特定人群的語音識別方 法,該方法根據目標人群發音的統計特點對前端處理以及離散小波變換環節的參數進行選 擇,採用離散小波變換提取頻譜特徵,並採用離散馬爾可夫模型對語音信號進行識別,從而 大大降低了運算量和待處理的信息量,進而在嵌入式平臺上實現了採用隱馬爾可夫模型的 語音識別技術。由於人的年齡不同,聲帶長度、體積、肌張力及神經傳導速度都有一定的差異。研 究表明,年齡會對嗓音造成顯著性影響,兒童、成人與老人的嗓音具有明顯的差別。針對發 音者的年齡劃分目標人群,不同目標人群的聲學參數,如基調頻率、頻率微擾、振幅微擾及 聲門噪聲等均不同,其發音的不同語音元素(如元音、清音、濁輔音等)的頻率分布範圍也 存在差異,這就為本發明中根據不同目標群體的音頻特點採用不同的前端處理中加窗分幀 參數和不同的離散小波變換頻段進行語音信號的特徵提取提供了理論依據。一種面向特定目標人群的語音識別方法,包括(1)對語音信號採樣,將語音信號由模擬信號轉換至數位訊號;由於語音信號的能量絕大部分集中在4kHz以下的頻段內,本發明採用8kHz的採 樣信號對語音信號進行採樣並量化,將其換至數位訊號。(2)對數字語音信號進行前端處理;所述的前端處理包括預加重、加窗分幀和端點檢測。所述的預加重是對語音信號作+6dB/倍頻程的高頻提升,提升語音信號的高頻部 分,使信號的頻譜變得寬坦,以減少低頻幹擾分量的影響,便於進行頻譜分析或聲道分析。所述的加窗分幀採用窗函數平滑地在語音信號上滑動,將語音信號劃分為若干語 音幀幀。為了使劃分出的語音幀更能反映出發音者的語音特徵,對語音信號進行加窗分幀 處理時考慮目標人群語音信號的基調周期。例如,小孩的基調頻率在300 400Hz,而成年 女人的基調頻率在150 250Hz,成年男人的基調頻率在100 150Hz等。基調周期與基調 頻率成倒數關係,不同目標人群的基調周期也必然不同。本發明中每個語音幀的幀長大於目標人群語音信號的基調周期的兩倍,幀移為幀 長的一半,幀速根據幀長的數值來確定,它們兩者互為倒數。所述的端點檢測是在噪聲環境下將語音信息和非語音信息區分開來,從而避免一 些誤判,可以有效地提高識別率。以每一個語音幀的幀能量與幀過零率的乘積作為端點檢 測的指標量。在語音開始後,一旦有某一個語音幀的幀能量與幀過零率乘積超過預設的閾 值,就認為有效語音開始。在有效語音開始後,當連續的幾個語音幀的幀能量與幀過零率乘
(3)根據目標人群的發音特點對經過前端處理後的語音信號進行特徵提取;特徵提取階段是語音識別的重要階段,特徵提取的實質是對經過預處理的語音信 號經過某種變換,去掉冗餘部分,把代表語音信號本質的特徵參數抽取剝離出來,它是在語 音信號經過端點檢測提取出有用的語音數據後再進行。正確合理地選擇特徵參數不僅對 語音識別系統的識別率至關重要,同時對系統的實時性能也有很大的影響。本發明利用離 散小波變換(DWT)特有的奇異特徵提取和時變濾波功能,用小波變換代替傅立葉變換,把 小波變換引入梅爾頻率倒譜參數(MFCC參數)的提取,使語音詞彙的識別做到更準確、更快 速。對語音信號進行特徵提取,得到特徵參數的過程為1.將每個語音幀進行離散小波變換,將其劃分為若干個頻帶,求出每個頻帶的小 波分解係數,小波變換的頻帶特徵頻率由目標人群語音頻譜中語音元素的頻率分布決定。 語音元素包括元音、清音、濁輔音等。一般清音的頻率高於元音、濁輔音的頻率。但是,不同 年齡目標人群的語音頻譜中這些語音元素的頻率分布是不同的。按照不同年齡目標人群的 語音頻譜中語音元素的頻率分布將語音信號劃分為不同的頻帶,這樣對語音信號進行靈活 性的頻帶劃分處理,可提高語音識別的識別率;2.將上述若干個頻帶上分解出的小波係數分別作FFT變換,再通過一級量化後, 根據它們各自的頻帶關係通過頻譜拼接,生成完整的語音頻譜,求取語音頻譜的能量;3.將語音頻譜能量通過梅爾濾波器組,得到經過梅爾濾波器組後的輸出;4.對上述濾波器組的輸出求取對數,轉換為對數頻譜,再將對數頻譜經過離散餘 弦變換得到語音信號的特徵參數。(4)採用離散隱馬爾可夫模型對特徵提取後的語音信號做語音識別;首先基於標準語音庫中的樣本數據對離散隱馬爾可夫模型進行訓練,當模型收斂 到一個預設的閾值或者訓練一定次數之後,即終止訓練過程,然後採用訓練好的離散隱馬 爾可夫模型對語音信號進行識別。本發明針對目標人群發音頻譜特性對前端處理和特徵提取模塊的參數進行優化, 確保處理後的信號更能反映語音的本質特徵,增強了語音識別結果的可靠性。而且本發明 中利用離散小波變換提取頻譜特徵,進而採用基於離散馬爾可夫模型的語音識別程序對語 音信號進行識別,可以在提高語音頻譜特徵提取效果的同時大大的降低運算量和信息的處 理量,為在處理能力、存儲資源以及成本均受到限制的嵌入式平臺上實現隱馬爾可夫模型 的語音在線識別創造了有利的條件,具有良好的應用前景。本發明的技術效果如下(1)針對不同目標人群的語音頻譜特徵,選取合適的前端處理以及離散小波變換 特徵參數,提高了信號提取的有效性;(2)利用離散小波變換提取頻譜特徵,並在嵌入式平臺上實現了基於離散隱馬爾 可夫模型HMM識別算法,提高了識別準確率而又避免了大計算量;(3)該方法通過科學的算法模型,結合嵌入式語音識別技術的優化設計,解決了語 音識別技術在嵌入式平臺上應用的困難,從而實現了在微型化系統中實現語音識別功能的方案。
圖1為本發明流程示意圖;圖2為本發明對語音信號進行前端處理的模塊化示意圖。
具體實施例方式下面以年齡大於60歲的老年人作為目標人群為例,詳細介紹本發明語音識別方 法的過程。參見圖1,一種面向特定目標人群的語音識別方法,包括Si、對語音信號採樣,將語音信號由模擬信號轉換至數位訊號;由於數位訊號處理技術的成熟和方便,在信號處理領域,一般將模擬信號轉換至 數位訊號進行處理。語音信號是時間和幅度都連續變化的一維模擬信號,首先要對語音信 號進行採樣和模/數轉換,將它變成時間和幅度上均離散化的數位訊號,再對其進行處理。根據奈奎斯特採樣定律,當採樣頻率大於信號最高頻率的兩倍時,才能保證採樣 過程不會丟失原始信息,而且能從採樣信號中準確的重構出原始信號的波形。由於語音信 號的能量絕大部分集中在4kHz以下的頻段內,因此對語音信號的採樣頻率設定為8kHz。為了抑制混疊幹擾(包括高、低頻噪聲),在採樣前先對語音信號進行預濾波處 理首先採用低通濾波器濾除語音信號中超過採樣頻率一半的部分,即濾除頻率高於4kHz 的部分;然後採用高通濾波器抑制40Hz以下的低頻噪聲。為簡化系統結構,可採用一個帶 通濾波器對語音信號進行濾波處理,將頻率大於4kHz的信號以及40Hz以下的信號均予以 濾除。進行預濾波處理後,再採用預設的採樣頻率8kHz進行對語音信號採樣。S2、對數字語音信號進行前端處理;如圖2所示,前端處理包括三個分步驟201、預加重受聲門激勵和口鼻輻射的影響,語音信號的高頻端按6dB/倍頻程跌落,為此在對 語音信號進行分析之前需要對語音信號作+6dB/倍頻程的高頻提升,這個高頻提升的過程 稱之為預加重。通過對語音信號進行預加重處理可以使語音信號的頻譜變得平坦,以便於 頻譜分析或聲道參數分析。採用一階數字濾波器實現對語音信號的預加重處理,一階數字 濾波器可用如下的系統函數表示H(ζ) = 1-0. 94X Z^1(I)202、加窗分幀語音信號的時域特性是非平穩、時變的,但通過加窗分幀的「短時」處理將其分為 若干個短時信號,每個短時信號稱為一個語音幀,在每一個語音幀內可以認為語音信號是 平穩、非時變的。分幀處理中窗口序列的長度N(即幀長)將起決定性的作用。窗長N選得 太大,語音信號波形的振幅變化細節看不出來;窗長N選得太小,語音信號不能被足夠的平 均化。一般窗長至少應大於兩個基音周期,才能獲得較好的估計效果。對於目標人群為 老年人來講,其語音的基調頻率主要集中在60-320ΗΖ之間,即基音周期在15ms左右。因此 本實施例中,選取窗長為40ms,一個語音幀內的信號點為320個(8KHz的採樣頻率),幀速
權利要求
一種面向特定目標人群的語音識別方法,其特徵在於,包括(1)對語音信號進行採樣,將語音信號由模擬信號轉換至數位訊號;(2)對語音信號進行前端處理;(3)提取語音信號的特徵參數;(4)採用離散隱馬爾可夫模型對語音信號進行識別。
2.如權利要求1所述的語音識別方法,其特徵在於,對語音信號進行採樣的採樣信號 為 8kHz。
3.如權利要求1所述的語音識別方法,其特徵在於,所述的對語音信號進行前端處理 包括預加重、加窗分幀和端點檢測。
4.如權利要求3所述的語音識別方法,其特徵在於,所述的預加重為對語音信號作 +6dB/倍頻程的高頻提升。
5.如權利要求3所述的語音識別方法,其特徵在於,所述的加窗分幀操作中採用的幀 長大於目標人群語音頻譜中基調周期的兩倍,幀移為幀長的一半。
6.如權利要求1所述的語音識別方法,其特徵在於,所述的提取語音信號的特徵參數 包括a、對語音信號進行離散小波變換,將語音信號劃分為若干個頻帶,計算每個頻帶上的 小波分解係數,頻帶的劃分基於目標人群頻譜中語音元素的頻率分布;b、將各個頻帶上的小波係數分別作快速傅立葉變換,再通過一級量化後,將所有頻帶 上的頻譜拼接成完整的語音頻譜,計算完整語音頻譜的頻譜能量;C、將完整語音頻譜的頻譜能量通過梅爾濾波器組,計算梅爾濾波器組的輸出;d、對梅爾濾波器組的輸出進行對數變換和離散餘弦變換得到語音信號的特徵參數。
全文摘要
本發明公開了一種面向特定人群的語音識別方法,首先對語音信號採樣,將其從模擬信號轉換至數位訊號,然後對數字語音信號進行預加重、加窗分幀和端點檢測的前端處理,接著採用離散小波變換對語音信號做特徵提取,最後採用經樣本訓練後的離散隱馬爾可夫模型對特徵提取後的語音信號做語音識別。在對語音信號的前端處理和特徵提取過程中充分考慮不同目標人群的頻譜特徵和發音特點對語音信息提取的過程進行優化,可簡化處理過程和信息提取過程,從而在保證識別精度的同時,大大降低了識別過程中的計算量和信息存儲量,實現了在嵌入式平臺上的語音識別。
文檔編號G10L15/14GK101944359SQ20101023422
公開日2011年1月12日 申請日期2010年7月23日 優先權日2010年7月23日
發明者劉偉, 熊偉, 熊俱揚, 熊鑫, 王飛浪, 謝偉良, 陳鑫娜, 陳鵬 申請人:杭州網豆數位技術有限公司