一種基於隱馬爾可夫模型的汽車聲音識別方法
2023-08-13 09:18:01
專利名稱:一種基於隱馬爾可夫模型的汽車聲音識別方法
一種基於隱馬爾可夫模型的汽車聲音識別方法
技術領域:
本發明涉及一種音頻處理和模式識別技術領域,尤其涉及一種基於隱馬爾可夫模 型的汽車聲音識別方法。
背景技術:
HMM(隱馬爾可夫模型)是馬爾可夫鏈的一種,它的狀態不能直接觀察到,但能通 過觀測向量序列觀察到,每個觀測向量都是通過某些概率密度分布表現為各種狀態,每一 個觀測向量是由一個具有響應概率密度分布的狀態序列產生。所以,隱馬爾可夫模型是一 個雙重隨機過程具有一定狀態數的隱馬爾可夫鏈和顯示隨機函數集。自20世紀80 年代以來,HMM被應用於語音識別,取得重大成功。到了 90年代,HMM還被引入計算機文字 識別和移動通信核心技術「多用戶的檢測」。近年來,HMM在生物信息科學、故障診斷等領域 也開始得到應用。隨著人們生活水平的不斷提高,車輛在不斷的增多,很多小區和單位對車輛的管 理都不是很有條理,現有技術一般都是人為的對車輛進行管理,在此提出利用識別車輛聲 音的方法來更好的管理車輛,該方法嵌入到門禁系統中,可以統計識別不同車輛進出數據。 車輛音頻信號與語音信號一樣都是隨時間變化的,即使是同一輛車在不同時刻不同地點產 生的音頻信號都是不同的,這表明車輛音頻信號的不確定性,它只具有統計的確定性,為描 述這種音頻信號隨時間變化的特性,採用狀態的概念是比較恰當的,音頻信號特徵的變化 表現為從一個狀態到另一個狀態的轉移,特徵從一個狀態到另一個狀態只是以一定的概率 轉移。因此,用隱馬爾可夫模型可以很好的表示這一轉移過程。車輛聲音識別的過程首先 用美爾倒譜(MFCC)算法提取車輛聲音的特徵參數,其中MFCC是在Mel度頻率域提取出來 的倒譜參數。Mel標度描述了人耳對頻率感知的非線性特徵,它與頻率的關係可近似表示為 Mel (f) = 2595*log(l+f/700)其中f為頻率,單位是Hz。同時MFCC分析著眼於人耳的聽 覺機理,依據聽覺實驗的結果來分析聲音的頻譜,獲得了較高的識別率和較好的噪聲魯棒 性。MFCC的計算是先把信號變換到頻域得到線性頻譜,再經過一組的Mel濾波器組,得到 能夠模擬人耳聽覺特性的非線性頻譜,然後取對數變換,壓縮音譜的動態範圍,最後作DCT 變換。
發明內容本發明要解決的技術問題,在於提供一種基於隱馬爾可夫模型的汽車聲音識別方 法,通過車輛聲音識別方法準確識別不同車輛,便於車輛管理,可應用於小區或單位的門禁 系統等場景,具有極好的應用前景。本發明是這樣實現的一種基於隱馬爾可夫模型的汽車聲音識別方法,其特徵在 於包括以下步驟步驟10、基本預處理將採集的車輛音頻信號進行歸一化,再將音頻信號中的數 據劃分成N個幀,並對每個幀進行加海明窗濾波;
權利要求
一種基於隱馬爾可夫模型的汽車聲音識別方法,其特徵在於包括以下步驟步驟10、基本預處理將採集的車輛音頻信號進行歸一化,再將音頻信號中的數據劃分成N個幀,並對每個幀進行加海明窗濾波;步驟20、去噪處理將音頻信號在頻域中根據公式 | S^ w ( )|= [ | Y w ( )| a- b| N^ w ( )| a] 1a 算出純淨信號的功率譜,其中Yw(ω)表示帶噪信號功率,表示噪聲功率,表示純淨信號的功率譜,其中w是下標表示經過加窗處理後的信號,a為譜減功率修正係數,b為譜減噪聲係數,獲得純淨信號的功率譜通過相位恢復後再採用逆傅立葉變換來恢復時域信號;步驟30、對每個幀計算MFCC係數,獲得車輛聲音12維特徵參數,再根據公式 d ( n )= 1 i=-k k i 2 i=-k kic ( n + i ), ( n = 3,4 , . . . T - 2 ) 計算幀間差分係數,其中c和d都表示一幀聲音參數,T表示總幀數;k為常數,將差分係數追加至原12維的MFCC係數末尾,並去除所有幀的首兩幀和末兩幀係數,得到24維的車輛聲音特徵參數;步驟40、用HMM模型對所有的汽車聲音樣本一一進行建模,將HMM模型參數(N,π,A,B)初始化,其中狀態數N取整數1到4,初始概率π為[1 0 0 0],狀態轉移概率A取為根據混合高斯函數求出參數B,B是狀態輸出觀測值的概率,其中N是高斯概率密度函數,O是聲音的特徵係數幀即觀察序列,μ、U、c、分別是均值、方差、以及權重係數,M是每個狀態包含的高斯混元個數,先對觀察序列的參數分成N段,然後用K均值聚類算法初始化各狀態的混合高斯概率密度函數中的均值、方差和權係數;步驟50、初始化模型參數後,並設置迭代次數,用Viterbi算法計算HMM輸出所有訓練聲音觀測序列的概率P(O/λ),並累加得到∑1中,再用Baum Welch算法對模型參數進行重估,得到再用Viterbi算法計算HMM輸出所有訓練聲音觀測序列的概率並累加得到∑2,將∑1和∑2結果進行比較,判斷差值是否小於預設閾值?是,則無需進行重估計算,將作為計算結果輸出,否則將作為新的初值代入P(O/λ)中的λ做新一輪運算,將所有汽車聲音的樣本進行如上處理後導入到參考模板庫中;步驟60、進行識別先對待測車輛音頻信號進行預處理,求出24維MFCC特徵參數,即所述的觀察值序列,然後利用viterbi算法求參考模板庫中各個HMM模型輸出該觀測序列的概率P(O/λ),其中P(O/λ)最大的HMM模型所對應的汽車聲音樣本即為識別結果。FDA0000028643560000012.tif,FDA0000028643560000013.tif,FDA0000028643560000014.tif,FDA0000028643560000016.tif,FDA0000028643560000017.tif,FDA0000028643560000021.tif,FDA0000028643560000022.tif,FDA0000028643560000023.tif,FDA0000028643560000024.tif
2.根據權利要求1所述的一種基於隱馬爾可夫模型的汽車聲音識別方法,其特徵在 於所述的步驟40中分段,其分段方法包括如下步驟 步驟401、根據公式
全文摘要
本發明提供一種基於隱馬爾可夫模型的汽車聲音識別方法,先對車輛聲音數據進行歸一化、分幀、加窗、去噪等預處理,然後利用美爾倒譜(MFCC)算法提取車輛聲音的特徵參數;再利用隱馬爾科夫模型算法(HMM)對每一部車輛聲音樣本進行訓練,並建立相應的模型,加入模板庫;將待識別車輛聲音經預處理、求取MFCC特徵係數後,與模板庫中的所有樣本一一匹配,得到最佳匹配值所對應的樣本即為識別結果。本發明通過車輛聲音識別方法準確識別不同車輛,便於車輛管理,可應用於小區或單位的門禁系統等場景,具有極好的應用前景。
文檔編號G10L21/02GK101980336SQ201010510428
公開日2011年2月23日 申請日期2010年10月18日 優先權日2010年10月18日
發明者王子亮, 陳錚 申請人:福州星網視易信息系統有限公司