一種基於神經網絡的高斯混合模型的噪聲分類方法
2023-08-09 18:15:51 2
專利名稱:一種基於神經網絡的高斯混合模型的噪聲分類方法
技術領域:
本發明涉及一種說話人識別方法,特別涉及一種基於神經網絡的高斯混合模型的噪聲分類方法。
背景技術:
降低各類城市環境噪聲是現代化城市環境保護的重要指標之一,直接影響到城市形象。城市環境噪音監測系統是城市必不可少的公用設施。噪音監測系統的應用,可提高環境保護的硬體水平,增強城市環境保護的可靠性和可控性。根據在城市不同點的不間斷監測,能實時發現違反噪音分貝的現象,提高環境保護的工作效率。在噪聲分類的方法上,基於高斯混合模型(GMM)方法越來越受到重視,由於它具有識別率高,訓練簡單,訓練數據量要求不大等優點,已經成為目前主流的噪聲分類方法。 由於高斯混合模型(GMM)具有很好的表示數據的分布的能力,只要有足夠多的項,足夠多的訓練數據,GMM就能夠逼近任何分布模型。但是,實際使用GMM時存在幾個問題。首先,GMM沒有利用語音的時間信息,訓練和識別的結果與特徵向量的輸入順序無關;其次,在GMM訓練時,我們總是假設特徵向量互相是獨立的,這明顯不合理;另外,由於我們在選擇GMM模型時,混合項數目的選取也沒有好的指導原則,要取得好的結果就要求高斯混合項足夠多。神經網絡在噪聲分類方面也佔有重要的位置,多層感知器、射線基網絡和自聯想神經網絡等已經成功應用於噪聲分類,它充分利用了特徵向量序列的時序信息,對特徵向量進行學習和變換,使變換後的特徵向量以某種方式(通常為極小最小二乘法)逼近目標向量。但是目前GMM和自聯想神經網絡(AANN)只是單獨用於噪聲分類,還沒有出現結合二者各自的優點,從而更好地提高噪聲分類效果的方法出現。
發明內容
本發明的目的就在於解決現有技術的缺陷,提出了一種基於神經網絡的高斯混合模型的噪聲分類方法。本發明的技術方案是一種基於神經網絡的高斯混合模型的噪聲分類方法,其包括以下步驟(I)預處理與特徵提取;首先,使用了基於能量和過零率的方法進行靜音檢測,並對噪聲信號進行預加重,分幀,並進行線性預測(LPC)分析,然後從得到的LPC係數中求出倒譜係數作為噪聲分類的特徵向量。(2)訓練;訓練時,將提取出的特徵向量經過延遲後作為AANN的輸入,AANN學習特徵向量的結構,提取特徵向量序列的時間信息。然後把學習結果以殘差特徵向量的形式提供給GMM,採用最大期望(EM)準則進行GMM模型訓練,並且利用帶慣性的向後反演方法更新AANN網絡的權係數。具體訓練過程如下 (2-1)確定GMM模型和AANN結構
一個M階GMM的概率密度函數是由M個高斯概率密度函數加權求和得到的,可以用如下形式表示
Λ/ρ{χ,\λ)-YjP^i(Xi)
/=I上式中XtSD維特徵向量,這裡D= 13;bi(xt)是成員密度函數,其為均值矢量為Ui,協方差矩陣為Σ i的高斯函數;b, (X1) = J _.......-TTexp -Ux,- u,)' X;1 ( )
(2^) —|L,|L 乙J
KiPi是混合權值混合權值滿足條件Σ A = 1。完整的GMM模型參數如下
/ = 1λ = {(Pi, Ui, Σ i), i = I, 2, . . . , Μ}AANN網絡已成功應用於多種應用,如數據壓縮,非線性主成分分析,數值逼近等
坐寸ο(2-2)設定收斂條件和最大迭代次數;具體而言,收斂條件為相鄰兩次GMM係數與AANN權係數的歐式距離小於O. 0001,最大迭代次數通常不大於100。(2-3)隨機確定初始迭代的AANN和GMM模型參數;ΑΑΝΝ的初始係數設定為由計算機產生的偽隨機數,GMM的初始混合係數可以取為1/M,M為GMM的混合項數,GMM初始均值和方差由AANN的殘差向量經過LBG (Linde,Buzo, Gray)方法產生M個聚合類,分別計算這M個聚合類的均值和方差獲得。(2-4)把特徵向量X (η)輸入AANN網絡,將通過AANN之前的特徵向量χ (η)與AANN的輸出特徵向量ο(η)相減,得到所有的殘差向量;(2-5)採用EM方法修正GMM模型的參數;設殘差向量為rt,首先計算類別後驗概率W k,又)=^、然後更新混合權值K ,均值矢量^和協方差矩陣乞。
— I NP, =—
r -U1-
Σ,=Wir',2)
「 Σ,ν(ζυ)χ'2 —2Σ, --U1
Σ,=,^ι^λ)(2-6)利用修正後的GMM模型各個高斯分布的權係數,均值向量和方差,把殘差帶入,得到一個似然概率,利用帶慣性的向後反演方法修正AANN參數;AANN網絡參數通過使下式中的函數極大化得到
Nω* = arg max ]~[ p((x, - ο,) | i)
⑴ /=I其中ot為神經網絡輸出,Xt為輸入的特徵矢量。
對上式取對數後再取負,得到
權利要求
1. 一種基於神經網絡的高斯混合模型的噪聲分類方法,其包括以下步驟 1.預處理與特徵提取; 首先,使用了基於能量和過零率的方法進行靜音檢測,並對噪聲信號進行預加重,分幀,並進行線性預測(LPC)分析,然後從得到的LPC係數中求出倒譜係數作為噪聲分類的特徵向量。
·2.訓練; 訓練時,將提取出的特徵向量經過延遲後作為自聯想神經網絡(AANN)的輸入,AANN學習特徵向量的結構,提取特徵向量序列的時間信息。然後把學習結果以殘差特徵向量的形式提供給高斯混合模型(GMM),採用最大期望(EM)準則進行GMM模型訓練,並且利用帶慣性的向後反演方法更新AANN網絡的權係數。具體訓練過程如下 (2-1)確定GMM模型和AANN結構 ー個M階GMM的概率密度函數是由M個高斯概率密度函數加權求和得到的,可以用如下形式表示
全文摘要
本發明公開了一種基於神經網絡的高斯混合模型的噪聲分類方法,利用本方法可以使得噪聲分類識別率有所提高。本發明訓練時,將提取出的特徵向量經過延遲後作為自聯想神經網絡(AANN)的輸入,利用AANN學習特徵向量的結構,提取特徵向量序列的時間信息。然後把學習結果以殘差特徵向量的形式提供給高斯混合模型(GMM),採用最大期望(EM)準則進行GMM模型訓練,並且利用帶慣性的向後反演方法更新AANN網絡的權係數。本發明充分利用了AANN利GMM各自的優點,使得整個噪聲分類系統識別率大大提高。
文檔編號G10L15/02GK102693724SQ20111006903
公開日2012年9月26日 申請日期2011年3月22日 優先權日2011年3月22日
發明者唐加能, 姚健東, 姜志鵬, 張燕, 李國華, 蔡群, 陳存寶, 黃豔 申請人:張燕