基於語音生成模型的變分貝葉斯語音增強方法
2023-05-21 18:34:21 2
專利名稱:基於語音生成模型的變分貝葉斯語音增強方法
技術領域:
本發明涉及一種基於語音生成模型的變分貝葉斯語音增強方法,可廣泛應用於語音通訊和語音識別等方面,屬於語音信號處理領域。
背景技術:
實際的語音採集設備和語音採集環境下不能得到純淨的語音,語音會被各種背景噪聲汙染,因此在語音通訊和語音識別等應用中,將語音增強作為一個預處理環節是很重要的,增強後的語音可以更好的保證後續語音處理的準確性。
為提高語音質量,現有的語音增強方法主要有以下幾種第一種方法是閾值法,其基本原理認為信號中幅值絕對值較小的部分主要是噪聲,通過一種線性或者非線性壓縮函數進一步壓縮這部分信號達到語音增強的目的。此算法的主要缺點是壓縮噪聲的同時也壓縮了很多有用的語音信息。
第二種方法是譜減法,假設噪聲是平穩的或者是慢時變的加性噪聲,並且假設語音信號和噪聲是相互獨立的條件下,從含噪語音的功率譜中減去噪聲的功率譜,從而得到較為純淨的語音頻譜。但是,這個方法有一個眾所周知的缺點就是增強後的語音信號中存在稱為「音樂」噪聲的不自然音,進而使人耳主觀感覺不舒服。
第三種方法是基於語音生成模型的增強算法,這種算法由於「純淨」語音模型的參數無法準確估計,所以只能採用從含噪信號中直接估計模型參數,如果模型估計不準確,增強後語音可懂度變差。因此從含噪聲的語音中準確的估計模型參數和模型階數是這一方法的關鍵。Gannot等(S.Gannot,D.Burshteinand E.Weinstein,Iterative and Sequential Kalman Filter-Based Speech EnhancementAlgorithms,IEEE Trans.Speech and Audio Processing,vol.6,No.4,July l998,pp.373-385.)提出一種基於卡爾曼濾波的增強算法,用最大似然法估計語音生成模型參數,但是這種方法不能估計模型階數,只能用其他方法或者先驗知識來確定模型階數,並且參數初始值的估計對結果影響很大。Vermaak等(J.Vermaak,C.Andrieu,A.Doucet and S.J.Godsill,Partical Methods for Bayesian Modeling andEnhancement of Speech Signals,IEEE Trans.Speech and Audio Processing,Vol.10,No.3,2002,pp.173-185.)提出用馬爾可夫鏈蒙特卡羅方法估計語音生成模型參數,用卡爾曼濾波器估計純淨的語音信號。但是,這種方法也不能估計模型階數,並且計算量很大,不適用於很多場合。
發明內容
本發明的目的在於針對現有技術的不足,提出一種基於語音生成模型的變分貝葉斯語音增強方法,能夠自動選擇語音生成模型的階數,並且能避免參數估計過程中產生過擬合現象,使模型的估計更準確,語音增強的效果更好。
為實現這一目的,本發明採用的技術方案考慮到變分貝葉斯方法是最近幾年發展起來的一種貝葉斯近似方法,其原理是用未知變量和參數的近似後驗分布來逼近它們的真實分布,使貝葉斯方法能解析實現,它能學習模型結構和模型參數。因此,本發明充分利用變分貝葉斯方法在學習參數過程中避免過擬合的優點和模型選擇的能力,來準確估計語音生成模型的參數和階數,以更好的達到語音增強的目的。本發明首先建立含噪語音模型和語音生成模型的狀態空間方程,然後表達含噪過程和語音生成過程的概率分布。根據變分貝葉斯方法,用近似後驗分布來逼近語音生成模型的參數和純淨語音信號的概率分布。最後,得到這些近似後驗分布的參數的更新等式,循環迭代更新等式直到算法收斂。自動模型選擇是將語音生成模型的階數作為變分貝葉斯方法的代價函數的自變量,最小的代價函數值對應的階數,即是最優的模型階數。由這個最優的階數計算得到的語音信號是最佳的結果。
本發明的基於語音生成模型的變分貝葉斯語音增強方法主要包括以下幾個步驟1、將含噪語音信號表達為純淨語音信號和噪聲相加的形式,建立含噪語音模型,用一個自回歸過程來表示語音生成模型,並建立含噪語音模型和語音生成模型對應的狀態空間方程。
2、選定含噪語音模型的噪聲為高斯分布,語音生成模型的驅動噪聲也為高斯分布,根據這兩個高斯分布及含噪語音模型和語音生成模型對應的狀態空間方程,得出狀態向量和觀測向量的概率分布,由先驗知識確定語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布。
3、根據變分貝葉斯方法的代價函數,並根據狀態向量和觀測向量的概率分布,以及語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布,用變分期望最大化算法求出狀態向量、語音生成模型的權重係數和所有高斯分布的逆方差的近似後驗分布。
4、用變分卡爾曼平滑算法估計狀態向量的近似後驗分布參數的更新等式,通過變分期望最大化算法的變分最大化來推導語音生成模型的權重係數和所有高斯分布逆方差的近似後驗分布參數的更新等式。
5、在預先確定的語音生成模型階數範圍內選擇一個初始階數值,將含噪語音信號和初始階數值帶入由步驟4推導的參數更新等式中,反覆迭代計算代價函數,直到代價函數從一步到下一步的變化的絕對值不大於某個事先確定的閾值,將此時的代價函數及與之對應的狀態向量的近似後驗分布參數保存。
6、在預先確定的語音生成模型階數範圍內依次改變模型階數的值,用新的階數值代替步驟5中的初始階數值,重複步驟5,得到一組與各模型階數對應的代價函數和狀態向量的近似後驗分布參數。
7、在得到的所有代價函數中,最小的代價函數對應的階數就是最優的模型階數,由這個最優模型階數所對應的狀態向量的近似後驗分布參數計算得到的語音信號就是最優的結果。
本發明充分利用變分貝葉斯學習模型參數和結構的優點,更加準確地估計語音生成模型的參數和階數,提高了語音增強效果。
本發明提出的基於語音生成模型的變分貝葉斯語音增強方法,可廣泛應用於語音通訊和語音識別等方面,具有相當的實用價值。
具體實施例方式
為了更好地理解本發明的技術方案,以下作進一步的詳細描述。
1.含噪語音信號xt表達為純淨語音信號st和噪聲nt相加的形式,建立含噪語音模型如下xt=st+nt(1)下標t是時間。語音生成模型用一個自回歸過程來表示st=wVTsVt(p)+et---(2)]]>wV=w1,w2LwpT]]>是自回歸模型的權重係數,sVt(p)=[st-1,L,st-p]]]>是和t時刻語音值有關的過去的p個值,p是模型的階數。et是自回歸模型的驅動噪聲。根據上述的含噪語音模型(1)和語音生成模型(2),建立狀態空間方程如下sVt=AsVt-1+Bet---(3)]]>xt=CsVt+nt---(4)]]>sVt@stst-1Lst-p+1T]]>是p維的狀態向量,含噪語音信號xt是觀測向量,A@wVTI[p-1]0p-11]]>是p×p的狀態轉移矩陣,B=CT@[10L0]T,I[p-1]是(p-1)×(p-1)單位陣。
2.噪聲nt選為高斯分布,表示為p(nt)=G(nt|0,γ)。自回歸模型的驅動噪聲et也選為高斯分布,表示為p(et)=G(et|0,β)。G(y|a,b)表示隨機變量y滿足均值為a,逆方差為b的高斯分布。根據(3),狀態向量 的概率分布如下式p(sVt|sVt-1,wV,)=G(sVt|AsVt-1,)---(5)]]>根據(4),觀測向量的概率分布可以被寫作p(xt|sVt,)=G(xt|st,)---(6)]]>自回歸模型的權重係數服從一個零均值的高斯先驗分布p(wV|)=G(wV|0,I[p])---(7)]]>
所有高斯分布的逆方差服從Gamma先驗分布p(α|H)=Gamma(δ|b(α),c(α))(8)p(β|H)=Gamma(β|b(β),c(β))(9)p(γ|H)=Gamma(γ|b(γ),c(γ))(10)3.用X表示觀測向量的集合{x1,x2,…,xT},用S表示狀態向量的集合 用θ表示語音生成模型的權重係數和所有高斯分布的逆方差的集合 變分貝葉斯方法的原理就是用一個近似後驗分布Q(S,θ)來逼近p(S,θ|X),在實際中用的代價函數是CKL=logQ(S,)p(X,S,)Q=logQ(S)Qp(X,S,)Q---(11)]]>·Q表示在概率分布Q(·)下的期望。根據變分貝葉斯方法的代價函數(11),並根據狀態向量和觀測向量的概率分布(5)-(6),以及語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布(7)-(10),用變分期望最大化算法可以得到狀態向量、語音生成模型的權重係數和所有高斯分布的逆方差的近似後驗分布如下Q(sVt)=G(sVt|mVt(s),Vt(s))---(12)]]>Q(wV)=G(wV|V(w),(w))---(13)]]>Q(α)=Gamma(α|b(α),c(α))(14)Q(β)=Gamma(β|b(β),c(β))(15)Q(γ)=Gamma(γ|b(γ),c(γ))(16)4.用變分卡爾曼平滑算法求狀態向量的近似後驗分布(12)中的參數。一個序列集合{xt0,xt0+1,L,xt1}用{x}t0t1來表示,首先定義條件期望mVt|=E(sVt|{x}1)]]>和條件協方差矩陣Vt|=Var(sVt|{x}1),]]>初始值mV0|0=mV0]]>和V0|0=V0,對t=1,L,T,以下是卡爾曼濾波前向遞歸過程mVt|t-1=AmVt-1|t-1---(17)]]>Vt|t-1=AVt-1|t-1AT+P (18)Kt=Vt|t-1CT(CVt|t-1CT+(Q)-1)-1---(19)]]>mVt|t=mVt|t-1+Kt(xt-CmVt|t-1)---(20)]]>Vt|t=Vt|t-1-KtCVt|t-1(21)這裡A@wVQTI[p-1]0p-11,P=01p-10p-1p,]]>β=(〈β〉Q)-1,p(sVt|{x}1t)=G(sVt|mVt|t,Vt|t)]]>是狀態向量 的卡爾曼濾波分布。繼續進行卡爾曼平滑算法,用對應的卡爾曼濾波值初始化 和VT|T,對t=T-1,L,0,接著進行後向遞歸過程如下Qt=Vt|tATVt+1|t-1---(22)]]>mVt|T=mVt|t+Qt(mVt+1|T-mVt+1|t)---(23)]]>Vt|T=Vt|t+Qt(Vt+1|T-Vt+1|t)QtT---(24)]]>因此,我們得到Q(sVt)=G(sVt|mVt(s),Vt(s))]]>參數的更新等式為mVt(s)=mVt|T]]>和Vt(s)=[Vt|T]-1.]]>用變分期望最大化算法的變分最大化推導語音生成模型的權重係數和所有高斯分布逆方差的近似後驗分布參數的更新等式如下(w)=I[p]Q+t=1TsVt(p)sVt(p)TQ---(25)]]>V(w)=[(w)]-1[t=1TstsVt(p)Q]---(26)]]>c=c+p2---(27)]]>b=b+12wVTwVQ---(28)]]>
c=c+T2---(29)]]>b=b+12(st-wVTsVt(p))2Q---(30)]]>c=c+T2---(31)]]>b=b+12t=1T(xt-st)2Q---(32)]]>5.在預先確定的語音生成模型階數範圍內選擇一個初始階數值P1,將實際的含噪信號xt和初始階數值p1帶入由步驟4推導的參數的更新等式(17)-(32)中,反覆迭代計算(11)式的代價函數,直到代價函數從一步到下一步的變化的絕對值不大於某個事先確定的閾值停止,將此時的代價函數及與之對應的狀態向量的近似後驗分布參數 保存;6.在預先確定的語音生成模型階數範圍內依次改變模型階數的值,用新的階數值p代替步驟5中的初始階數值P1,重複步驟5,得到一組與各模型階數對應的代價函數和狀態向量的近似後驗分布參數;7.在得到的所有代價函數中,最小的代價函數對應的p值就是最優的模型階數,由這個最優模型階數所對應的狀態向量的近似後驗分布參數 計算得到的語音信號s^t=CmVt(s)]]>就是最好的結果。
權利要求
1.一種基於語音生成模型的變分貝葉斯語音增強方法,其特徵在於包括如下具體步驟1)將含噪語音信號表達為純淨語音信號和噪聲相加的形式,建立含噪語音模型,用一個自回歸過程來表示語音生成模型,並建立含噪語音模型和語音生成模型對應的狀態空間方程;2)選定含噪語音模型的噪聲為高斯分布,語音生成模型的驅動噪聲也為高斯分布,根據這兩個高斯分布及含噪語音模型和語音生成模型對應的狀態空間方程,得出狀態向量和觀測向量的概率分布,由先驗知識確定語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布;3)根據變分貝葉斯方法的代價函數,並根據狀態向量和觀測向量的概率分布,以及語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布,用變分期望最大化算法求出狀態向量、語音生成模型的權重係數和所有高斯分布的逆方差的近似後驗分布;4)用變分卡爾曼平滑算法估計狀態向量的近似後驗分布參數的更新等式,通過變分期望最大化算法的變分最大化來推導語音生成模型的權重係數和所有高斯分布逆方差的近似後驗分布參數的更新等式;5)在預先確定的語音生成模型階數範圍內選擇一個初始階數值,將含噪語音信號和初始階數值帶入由步驟4)推導的參數更新等式中,反覆迭代計算代價函數,直到代價函數從一步到下一步的變化的絕對值不大於某個事先確定的閾值,將此時的代價函數及與之對應的狀態向量的近似後驗分布參數保存;6)在預先確定的語音生成模型階數範圍內依次改變模型階數的值,用新的階數值代替步驟5)中的初始階數值,重複步驟5),得到一組與各模型階數對應的代價函數和狀態向量的近似後驗分布參數;7)在得到的所有代價函數中,最小的代價函數對應的階數就是最優的模型階數,由這個最優模型階數所對應的狀態向量的近似後驗分布參數計算得到的語音信號就是最優的結果。
全文摘要
本發明涉及一種基於語音生成模型的變分貝葉斯語音增強方法,首先建立含噪語音模型和語音生成模型的狀態空間方程,然後表達含噪過程和語音生成過程的概率分布。根據變分貝葉斯方法,用近似後驗分布來逼近語音生成模型的參數和純淨語音的概率分布,最後,得到這些近似後驗分布的參數更新等式,循環迭代更新等式直到算法收斂。自動模型選擇是將語音生成模型的階數作為變分貝葉斯方法的代價函數的自變量,最小的代價函數值對應的階數,即是最優的模型階數,由這個最優階數計算得到的語音信號即最佳結果。本發明充分利用變分貝葉斯學習模型參數和結構的優點,能準確地估計語音生成模型的參數和階數,提高了語音增強效果。
文檔編號G10L15/20GK1870136SQ20061002833
公開日2006年11月29日 申請日期2006年6月29日 優先權日2006年6月29日
發明者黃青華, 楊傑, 薛雲峰 申請人:上海交通大學