新四季網

基於語音生成模型的變分貝葉斯語音增強方法

2023-05-21 18:34:21 2

專利名稱:基於語音生成模型的變分貝葉斯語音增強方法
技術領域:
本發明涉及一種基於語音生成模型的變分貝葉斯語音增強方法,可廣泛應用於語音通訊和語音識別等方面,屬於語音信號處理領域。
背景技術:
實際的語音採集設備和語音採集環境下不能得到純淨的語音,語音會被各種背景噪聲汙染,因此在語音通訊和語音識別等應用中,將語音增強作為一個預處理環節是很重要的,增強後的語音可以更好的保證後續語音處理的準確性。
為提高語音質量,現有的語音增強方法主要有以下幾種第一種方法是閾值法,其基本原理認為信號中幅值絕對值較小的部分主要是噪聲,通過一種線性或者非線性壓縮函數進一步壓縮這部分信號達到語音增強的目的。此算法的主要缺點是壓縮噪聲的同時也壓縮了很多有用的語音信息。
第二種方法是譜減法,假設噪聲是平穩的或者是慢時變的加性噪聲,並且假設語音信號和噪聲是相互獨立的條件下,從含噪語音的功率譜中減去噪聲的功率譜,從而得到較為純淨的語音頻譜。但是,這個方法有一個眾所周知的缺點就是增強後的語音信號中存在稱為「音樂」噪聲的不自然音,進而使人耳主觀感覺不舒服。
第三種方法是基於語音生成模型的增強算法,這種算法由於「純淨」語音模型的參數無法準確估計,所以只能採用從含噪信號中直接估計模型參數,如果模型估計不準確,增強後語音可懂度變差。因此從含噪聲的語音中準確的估計模型參數和模型階數是這一方法的關鍵。Gannot等(S.Gannot,D.Burshteinand E.Weinstein,Iterative and Sequential Kalman Filter-Based Speech EnhancementAlgorithms,IEEE Trans.Speech and Audio Processing,vol.6,No.4,July l998,pp.373-385.)提出一種基於卡爾曼濾波的增強算法,用最大似然法估計語音生成模型參數,但是這種方法不能估計模型階數,只能用其他方法或者先驗知識來確定模型階數,並且參數初始值的估計對結果影響很大。Vermaak等(J.Vermaak,C.Andrieu,A.Doucet and S.J.Godsill,Partical Methods for Bayesian Modeling andEnhancement of Speech Signals,IEEE Trans.Speech and Audio Processing,Vol.10,No.3,2002,pp.173-185.)提出用馬爾可夫鏈蒙特卡羅方法估計語音生成模型參數,用卡爾曼濾波器估計純淨的語音信號。但是,這種方法也不能估計模型階數,並且計算量很大,不適用於很多場合。

發明內容
本發明的目的在於針對現有技術的不足,提出一種基於語音生成模型的變分貝葉斯語音增強方法,能夠自動選擇語音生成模型的階數,並且能避免參數估計過程中產生過擬合現象,使模型的估計更準確,語音增強的效果更好。
為實現這一目的,本發明採用的技術方案考慮到變分貝葉斯方法是最近幾年發展起來的一種貝葉斯近似方法,其原理是用未知變量和參數的近似後驗分布來逼近它們的真實分布,使貝葉斯方法能解析實現,它能學習模型結構和模型參數。因此,本發明充分利用變分貝葉斯方法在學習參數過程中避免過擬合的優點和模型選擇的能力,來準確估計語音生成模型的參數和階數,以更好的達到語音增強的目的。本發明首先建立含噪語音模型和語音生成模型的狀態空間方程,然後表達含噪過程和語音生成過程的概率分布。根據變分貝葉斯方法,用近似後驗分布來逼近語音生成模型的參數和純淨語音信號的概率分布。最後,得到這些近似後驗分布的參數的更新等式,循環迭代更新等式直到算法收斂。自動模型選擇是將語音生成模型的階數作為變分貝葉斯方法的代價函數的自變量,最小的代價函數值對應的階數,即是最優的模型階數。由這個最優的階數計算得到的語音信號是最佳的結果。
本發明的基於語音生成模型的變分貝葉斯語音增強方法主要包括以下幾個步驟1、將含噪語音信號表達為純淨語音信號和噪聲相加的形式,建立含噪語音模型,用一個自回歸過程來表示語音生成模型,並建立含噪語音模型和語音生成模型對應的狀態空間方程。
2、選定含噪語音模型的噪聲為高斯分布,語音生成模型的驅動噪聲也為高斯分布,根據這兩個高斯分布及含噪語音模型和語音生成模型對應的狀態空間方程,得出狀態向量和觀測向量的概率分布,由先驗知識確定語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布。
3、根據變分貝葉斯方法的代價函數,並根據狀態向量和觀測向量的概率分布,以及語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布,用變分期望最大化算法求出狀態向量、語音生成模型的權重係數和所有高斯分布的逆方差的近似後驗分布。
4、用變分卡爾曼平滑算法估計狀態向量的近似後驗分布參數的更新等式,通過變分期望最大化算法的變分最大化來推導語音生成模型的權重係數和所有高斯分布逆方差的近似後驗分布參數的更新等式。
5、在預先確定的語音生成模型階數範圍內選擇一個初始階數值,將含噪語音信號和初始階數值帶入由步驟4推導的參數更新等式中,反覆迭代計算代價函數,直到代價函數從一步到下一步的變化的絕對值不大於某個事先確定的閾值,將此時的代價函數及與之對應的狀態向量的近似後驗分布參數保存。
6、在預先確定的語音生成模型階數範圍內依次改變模型階數的值,用新的階數值代替步驟5中的初始階數值,重複步驟5,得到一組與各模型階數對應的代價函數和狀態向量的近似後驗分布參數。
7、在得到的所有代價函數中,最小的代價函數對應的階數就是最優的模型階數,由這個最優模型階數所對應的狀態向量的近似後驗分布參數計算得到的語音信號就是最優的結果。
本發明充分利用變分貝葉斯學習模型參數和結構的優點,更加準確地估計語音生成模型的參數和階數,提高了語音增強效果。
本發明提出的基於語音生成模型的變分貝葉斯語音增強方法,可廣泛應用於語音通訊和語音識別等方面,具有相當的實用價值。
具體實施例方式
為了更好地理解本發明的技術方案,以下作進一步的詳細描述。
1.含噪語音信號xt表達為純淨語音信號st和噪聲nt相加的形式,建立含噪語音模型如下xt=st+nt(1)下標t是時間。語音生成模型用一個自回歸過程來表示st=wVTsVt(p)+et---(2)]]>wV=w1,w2LwpT]]>是自回歸模型的權重係數,sVt(p)=[st-1,L,st-p]]]>是和t時刻語音值有關的過去的p個值,p是模型的階數。et是自回歸模型的驅動噪聲。根據上述的含噪語音模型(1)和語音生成模型(2),建立狀態空間方程如下sVt=AsVt-1+Bet---(3)]]>xt=CsVt+nt---(4)]]>sVt@stst-1Lst-p+1T]]>是p維的狀態向量,含噪語音信號xt是觀測向量,A@wVTI[p-1]0p-11]]>是p×p的狀態轉移矩陣,B=CT@[10L0]T,I[p-1]是(p-1)×(p-1)單位陣。
2.噪聲nt選為高斯分布,表示為p(nt)=G(nt|0,γ)。自回歸模型的驅動噪聲et也選為高斯分布,表示為p(et)=G(et|0,β)。G(y|a,b)表示隨機變量y滿足均值為a,逆方差為b的高斯分布。根據(3),狀態向量 的概率分布如下式p(sVt|sVt-1,wV,)=G(sVt|AsVt-1,)---(5)]]>根據(4),觀測向量的概率分布可以被寫作p(xt|sVt,)=G(xt|st,)---(6)]]>自回歸模型的權重係數服從一個零均值的高斯先驗分布p(wV|)=G(wV|0,I[p])---(7)]]>
所有高斯分布的逆方差服從Gamma先驗分布p(α|H)=Gamma(δ|b(α),c(α))(8)p(β|H)=Gamma(β|b(β),c(β))(9)p(γ|H)=Gamma(γ|b(γ),c(γ))(10)3.用X表示觀測向量的集合{x1,x2,…,xT},用S表示狀態向量的集合 用θ表示語音生成模型的權重係數和所有高斯分布的逆方差的集合 變分貝葉斯方法的原理就是用一個近似後驗分布Q(S,θ)來逼近p(S,θ|X),在實際中用的代價函數是CKL=logQ(S,)p(X,S,)Q=logQ(S)Qp(X,S,)Q---(11)]]>·Q表示在概率分布Q(·)下的期望。根據變分貝葉斯方法的代價函數(11),並根據狀態向量和觀測向量的概率分布(5)-(6),以及語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布(7)-(10),用變分期望最大化算法可以得到狀態向量、語音生成模型的權重係數和所有高斯分布的逆方差的近似後驗分布如下Q(sVt)=G(sVt|mVt(s),Vt(s))---(12)]]>Q(wV)=G(wV|V(w),(w))---(13)]]>Q(α)=Gamma(α|b(α),c(α))(14)Q(β)=Gamma(β|b(β),c(β))(15)Q(γ)=Gamma(γ|b(γ),c(γ))(16)4.用變分卡爾曼平滑算法求狀態向量的近似後驗分布(12)中的參數。一個序列集合{xt0,xt0+1,L,xt1}用{x}t0t1來表示,首先定義條件期望mVt|=E(sVt|{x}1)]]>和條件協方差矩陣Vt|=Var(sVt|{x}1),]]>初始值mV0|0=mV0]]>和V0|0=V0,對t=1,L,T,以下是卡爾曼濾波前向遞歸過程mVt|t-1=AmVt-1|t-1---(17)]]>Vt|t-1=AVt-1|t-1AT+P (18)Kt=Vt|t-1CT(CVt|t-1CT+(Q)-1)-1---(19)]]>mVt|t=mVt|t-1+Kt(xt-CmVt|t-1)---(20)]]>Vt|t=Vt|t-1-KtCVt|t-1(21)這裡A@wVQTI[p-1]0p-11,P=01p-10p-1p,]]>β=(〈β〉Q)-1,p(sVt|{x}1t)=G(sVt|mVt|t,Vt|t)]]>是狀態向量 的卡爾曼濾波分布。繼續進行卡爾曼平滑算法,用對應的卡爾曼濾波值初始化 和VT|T,對t=T-1,L,0,接著進行後向遞歸過程如下Qt=Vt|tATVt+1|t-1---(22)]]>mVt|T=mVt|t+Qt(mVt+1|T-mVt+1|t)---(23)]]>Vt|T=Vt|t+Qt(Vt+1|T-Vt+1|t)QtT---(24)]]>因此,我們得到Q(sVt)=G(sVt|mVt(s),Vt(s))]]>參數的更新等式為mVt(s)=mVt|T]]>和Vt(s)=[Vt|T]-1.]]>用變分期望最大化算法的變分最大化推導語音生成模型的權重係數和所有高斯分布逆方差的近似後驗分布參數的更新等式如下(w)=I[p]Q+t=1TsVt(p)sVt(p)TQ---(25)]]>V(w)=[(w)]-1[t=1TstsVt(p)Q]---(26)]]>c=c+p2---(27)]]>b=b+12wVTwVQ---(28)]]>
c=c+T2---(29)]]>b=b+12(st-wVTsVt(p))2Q---(30)]]>c=c+T2---(31)]]>b=b+12t=1T(xt-st)2Q---(32)]]>5.在預先確定的語音生成模型階數範圍內選擇一個初始階數值P1,將實際的含噪信號xt和初始階數值p1帶入由步驟4推導的參數的更新等式(17)-(32)中,反覆迭代計算(11)式的代價函數,直到代價函數從一步到下一步的變化的絕對值不大於某個事先確定的閾值停止,將此時的代價函數及與之對應的狀態向量的近似後驗分布參數 保存;6.在預先確定的語音生成模型階數範圍內依次改變模型階數的值,用新的階數值p代替步驟5中的初始階數值P1,重複步驟5,得到一組與各模型階數對應的代價函數和狀態向量的近似後驗分布參數;7.在得到的所有代價函數中,最小的代價函數對應的p值就是最優的模型階數,由這個最優模型階數所對應的狀態向量的近似後驗分布參數 計算得到的語音信號s^t=CmVt(s)]]>就是最好的結果。
權利要求
1.一種基於語音生成模型的變分貝葉斯語音增強方法,其特徵在於包括如下具體步驟1)將含噪語音信號表達為純淨語音信號和噪聲相加的形式,建立含噪語音模型,用一個自回歸過程來表示語音生成模型,並建立含噪語音模型和語音生成模型對應的狀態空間方程;2)選定含噪語音模型的噪聲為高斯分布,語音生成模型的驅動噪聲也為高斯分布,根據這兩個高斯分布及含噪語音模型和語音生成模型對應的狀態空間方程,得出狀態向量和觀測向量的概率分布,由先驗知識確定語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布;3)根據變分貝葉斯方法的代價函數,並根據狀態向量和觀測向量的概率分布,以及語音生成模型的權重係數和所有高斯分布的逆方差的先驗分布,用變分期望最大化算法求出狀態向量、語音生成模型的權重係數和所有高斯分布的逆方差的近似後驗分布;4)用變分卡爾曼平滑算法估計狀態向量的近似後驗分布參數的更新等式,通過變分期望最大化算法的變分最大化來推導語音生成模型的權重係數和所有高斯分布逆方差的近似後驗分布參數的更新等式;5)在預先確定的語音生成模型階數範圍內選擇一個初始階數值,將含噪語音信號和初始階數值帶入由步驟4)推導的參數更新等式中,反覆迭代計算代價函數,直到代價函數從一步到下一步的變化的絕對值不大於某個事先確定的閾值,將此時的代價函數及與之對應的狀態向量的近似後驗分布參數保存;6)在預先確定的語音生成模型階數範圍內依次改變模型階數的值,用新的階數值代替步驟5)中的初始階數值,重複步驟5),得到一組與各模型階數對應的代價函數和狀態向量的近似後驗分布參數;7)在得到的所有代價函數中,最小的代價函數對應的階數就是最優的模型階數,由這個最優模型階數所對應的狀態向量的近似後驗分布參數計算得到的語音信號就是最優的結果。
全文摘要
本發明涉及一種基於語音生成模型的變分貝葉斯語音增強方法,首先建立含噪語音模型和語音生成模型的狀態空間方程,然後表達含噪過程和語音生成過程的概率分布。根據變分貝葉斯方法,用近似後驗分布來逼近語音生成模型的參數和純淨語音的概率分布,最後,得到這些近似後驗分布的參數更新等式,循環迭代更新等式直到算法收斂。自動模型選擇是將語音生成模型的階數作為變分貝葉斯方法的代價函數的自變量,最小的代價函數值對應的階數,即是最優的模型階數,由這個最優階數計算得到的語音信號即最佳結果。本發明充分利用變分貝葉斯學習模型參數和結構的優點,能準確地估計語音生成模型的參數和階數,提高了語音增強效果。
文檔編號G10L15/20GK1870136SQ20061002833
公開日2006年11月29日 申請日期2006年6月29日 優先權日2006年6月29日
發明者黃青華, 楊傑, 薛雲峰 申請人:上海交通大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀