新四季網

一種在訓練數據量極少條件下的實時語音轉換方法

2023-04-26 04:12:41 1

專利名稱:一種在訓練數據量極少條件下的實時語音轉換方法
技術領域:
本發明涉及語音轉換技術(Voice conversion,VC),尤其涉及一種在訓練數據量極少條件下的實時語音轉換方法,是用於文語轉換系統和機器人發聲系統的基於統計分析模型的語音轉換方案,屬於信號處理特別是語音信號處理技術領域。

背景技術:
本專利所涉及的知識領域被稱為語音轉換技術,是語音信號處理領域近年來新興的研究分支,涵蓋了說話人識別和語音合成的核心技術,並使之結合到一起以達到統一的目標,即在保持語義內容不變的情況下,通過改變一個特定說話人(被稱為源說話人,Sourcespeaker)的話音個性特徵,使他(或她)說的話被聽者認為是另一個特定說話人(被稱為目標說話人,Target speaker)說的話。簡而言之,語音轉換的主要任務包括提取代表說話人個性的特徵參數並進行數學變換,然後將變換後的參數重構成語音。在這過程中,既要保持重構語音的聽覺質量,又要兼顧轉換後的個性特徵是否準確。
經過多年的發展,語音轉換領域雖然已經湧現出大量的算法,但是這些算法都只是在實驗室環境下才能運行的,即需要充足的訓練數據。但是現實情況往往比較「殘酷」,特別是目標說話人的語音數據常常難以收集,或者只能採集到一小部分,例如幾秒鐘。在這種惡劣的環境下,如果直接套用傳統的語音轉換算法,就會導致系統不穩定或者崩潰。之所以會產生這樣的問題,原因不外乎以下兩點①在訓練數據量較少,待估計的模型參數較多的情況下,系統形成了一種所謂的「欠學習」的情況,即估計得到的模型對數據「擬合」的不理想,或者雖然對這部分數據「擬合」的比較理想,但是對其他數據的「預測」性能卻不佳。這種現象也常常被稱為「模型的過擬合」(Over-fitting)問題。②傳統的最常用的估計模型參數的方法是最大似然估計(Maximum Likelihood,ML)和最大後驗概率估計(Maximum a Posterior,MAP)。但遺憾的是,這兩種方法都是「點估計」方法,即它們選取的最優參數往往是使似然函數或後驗概率函數取局部最大值的那個值。如果訓練數據量較多,尚有一定的普適性,但在數據量較少的情況下,以上兩種方法選取的最優點常常不具有代表性,即它們只能代表這些已有的一小部分數據的最優,而不能代表其他眾多數據的最優值。
一般來說,語音轉換系統的核心步驟之一是對採集的數據進行統計建模,即用統計概率模型(Statistical Model)來擬合數據的概率分布,進而得到與之有關的信息,方便後續步驟加以利用。在這個過程中,如何利用已有數據來「學習」或「預測」模型的參數就成為了最為關鍵的問題。期望最大化算法(Expectation Maximization,EM)被公認為一種學習統計模型參數的優秀算法,因此被廣泛採用。但是由於它是一種局部優化算法,因此往往會使結果陷入局部最小值的誤區,特別是在訓練數據量較少的情況下,這個問題更為明顯,這種現象亦被稱為「模型的過擬合」問題(Over-fitting)。考慮到在現實的環境下,我們收集到的語音數據往往是稀疏的,即數據量較少,因此經典的EM算法肯定是不適用的。
目前國際、國內尚未出現研究如何在訓練數據稀少情況下進行語音轉換的課題,發明內容在該領域尚屬首創。


發明內容
針對現有技術之不足,本發明提出了一種在訓練數據量極少條件下的實時語音轉換方法,該方法在採集到的語音數據(訓練數據)數量特別少的惡劣情況下,能保證語音轉換系統的正常運行。
本發明的技術方案是一種在訓練數據量極少條件下的實時語音轉換方法,其特徵在於利用集成學習理論對採集到的訓練數據進行高斯混合模型的建模,並在均方誤差最小的準則下設計映射函數,用映射函數對源的語音進行映射,實現實時語音轉換;其步驟是第一步,選用諧波加噪聲模型作為語音分析合成模型對源和目標的語音進行分析,得到語音的基頻軌跡和諧波幅度值和相位值,然後進一步提取其中的線性譜頻率作為特徵參數;第二步,將源和目標的特徵參數按照所屬音素內容的不同進行劃分,並在語音幀的層面進行對齊,即使得源和目標人數量不一樣的特徵參數集合通過歸一化處理,使其在集合數據之間產生一一對應的關係;第三步,利用高斯混合模型針對對齊後的特徵參數進行建模,即利用對齊後的特徵參數來估計該高斯混合模型的參數,這時的高斯混合模型的參數是在集成學習理論的框架下估計得到的,接著,根據高斯混合模型估計得到的參數,在均方誤差最小的準則下估計回歸函數,將其作為最終的映射函數;第四步,當完成了以上所有步驟之後,用上述的映射函數對任意的源的語音進行映射,得到轉換後的目標說話人語音;上述第一步~第三步為訓練階段,第四步為轉換階段。
所說第二步中將源和目標的特徵參數按照所屬音素內容的不同進行劃分,採用人工對語音波形進行標註,將不同的聲母韻母區分開來的方式。
估計高斯混合模型參數的步驟如下 首先確定優化目標首先確定優化目標 這裡用到一個技巧(1)式中q(X,θ)不再取使不等號變成等號的那個後驗概率了,而是另取一個任意的概率形式,前提是易於求解。同時為了便於計算,認為它可以因式分解為q(X,θ)=qX(X)qθ(θ),這樣(1)式可以進一步改寫為 於是,優化logp(Y)的問題轉換為了優化它的下限F(q(X),q(θ))的問題。求取分布函數q(X)和q(θ)的過程,可以用一種迭代的方式來進行,分別被稱為集成學習期望化(EL-Expectation,ELE)和集成學習最大化(EL-Maximization,ELM)步驟 ELE ELM 式中的t表示迭代步驟。
上述的集成學習通用算法可以用來學習一些模型的參數,在本專利中,將它用來學習高斯混合模型的參數。即對於某個觀測變量y,假設它服從M個混合度的高斯分布,用數學式子可表示如下 其中πm為混合係數,μm和∑m分別為第m個混合度的均值和方差。用這樣一個模型可以很方便的描述現實中的一大部分數據的概率分布,正是由於這個原因,語音轉換中也採用這個模型對數據進行建模。現在假設獲得了觀測數據序列Y={y1,y2,…,yT},再假設有一個與之相對應的隱變量數據序列X={x1,x2,…,xT}用來表示在某一時刻t,數據yt是從哪個混合度產生出來的,也就是說xt∈{1,2,…,M}。根據高斯混合模型的特點,待估計的參數集合θ可定義為θ={πm,μm,∑m,m=1,2,…,M}。
我們知道,在集成學習理論框架下,所有的參數和隱變量都有各自的概率分布函數,且根據上述的公示推導,q(X)和q(θ)都是自由分布函數,即它們可以是任何概率形式。為了方便後續計算,不失一般性,不妨假設混合係數{πm}服從聯合Dirichlet分布,即p({πm})=D(λ0);均值服從正態分布,即協方差矩陣的逆服從Wishart分布,即同時,假設於是根據公式(3)(4)可以計算得到 其中,Tm=Tπm,傳統的估計算法在得到(6)式之後就結束了,而集成學習理論不同於傳統算法的地方正是將所有的未知變量看作隨即變量,因此具有一定的分布概率。於是還要用(6)式的結果繼續更新模型,即估計未知參數的概率分布。考慮到之前為高斯混合模型參數假設的概率分布函數屬於共軛先驗函數集,因此它們的後驗概率分布應該和先驗分布屬於同一種類型,不同之處只是在參數的取值上。也就是說有q({πm})=D(λm),然後應用以下規律更新分布參數 λm=Tm+λ0,ρm=(Tmμm+β0ρ0)/(Tm+β0),βm=Tm+β0 (7) vm=Tm+v0,Φm=Tm∑m+Tmβ0(μm-ρ0)(μm-ρ0)T/(Tm+β0)+Φ0 (8) 式(7)(8)就是集成學習理論下高斯混合模型參數的求取公式。
一般來說,語音轉換系統可以分為兩個實施階段訓練階段和轉換階段。
在訓練階段 ①源和目標人的語音通過諧波加噪聲模型(Harmonic plus noise model,HNM)進行分解,得到基音頻率軌跡和諧波聲道譜參數的幅度值和相位值。具體細節描述如下 a.對語音信號進行分幀,幀長20ms,幀重疊間隔10ms。
b.在每幀中,用自相關法估計基頻,若該幀為清音幀,則設置基頻等於零。
c.對於濁音幀(即基頻不為零的幀),假設語音信號可以由一系列的正弦波疊加而成 式中L為正弦波的個數,{Cl}為正弦波的復幅度。令sh表示sh(n)在一幀內的樣點所組成的矢量,則(9)式可以改寫成 sh=Bx,
通過最小二乘算法可以確定以上的{Cl} 其中s(n)是真實語音信號,w(n)是窗函數,一般取漢明窗。將窗函數也改寫成矩陣形式 則最優的x可以這樣得到 d.得到了{Cl},則諧波幅度和相位值如下 Al=2|Cl|=2|C-l|,
②由於原始諧波加噪聲模型參數維數較高,不便於後續計算,因此必須對其進行降維。由於基頻軌跡是一維參數,因此,降維的主要對象是聲道幅度譜參數和相位參數。同時,降維的目標是將聲道參數轉化為經典的線性預測參數(Linear Prediction Coefficient,LPC),進而產生適用於語音轉換系統的線性譜頻率參數(Linear Spectrum Frequency,LSF)。求解步驟概括如下 a.分別求取離散的L個幅度值Al的平方,並將其認為是離散功率譜的採樣值P(ωl)。
b.根據帕斯卡定律,功率譜密度函數和自相關函數是一對傅立葉變換對,即因此我們可以通過求解下式得到對線性預測參數係數的初步估值
其中a1,a2,…,ap是p階線性預測參數係數。
c.將p階線性預測參數係數代表的全極點模型轉換成時域衝激響應函數h*[n] 其中可以證明,h*和估計得到的自相關序列R*滿足 在滿足板倉-齋田距離(Itakura-Satio,IS)距離最小化的情況下,有真實的R和估計的R*的關係如下 d.於是將(17)式代替(18)式,並重估計(15)式,有
e.用IS準則評估誤差,如果誤差大於設定的閾值,則重複步驟c~e。反之,則停止迭代。
得到的線性預測參數係數通過聯立求解下面兩個等式,轉化為線性譜頻率參數 P(z)=A(z)+z-(p+1)A(z-1) (20) Q(z)=A(z)-z-(p+1)A(z-1) ③通過②驟得到的源和目標的線性譜頻率參數,用動態時間規整算法(Dynamic TimeWarping,DTW)進行對齊。所謂的「對齊」是指使得對應的源和目標的線性譜頻率在設定的失真準則上具有最小的失真距離。這樣做的目的是使得源和目標人的特徵序列在參數的層面上關聯,便於後續統計模型學習其中的映射規律。動態時間規整算法步驟簡要概述如下 對於同一個語句的發音,假定源說話人的聲學個性特徵參數序列為x1,x2,…,

,…,

,而目標說話人的特徵參數序列為y1,y2,…,

,…,

,且Nx≠Ny。設定源說話人的特徵參數序列為參考模板,則動態時間規整算法就是要尋找時間規整函數

使得目標特徵序列的時間軸ny非線性地映射到源特徵參數序列的時間軸nx,從而使得總的累積失真量最小,在數學上可以表示為
其中

表示第ny幀的目標說話人特徵參數和第

幀源說話人特徵參數之間的某種測度距離。在動態時間規整的規整過程中,規整函數

是要滿足以下的約束條件的,有邊界條件和連續性條件分別為


動態時間規整是一種最優化算法,它把一個N階段決策過程化為N個單階段的決策過程,也就是轉化為逐一做出決策的N個子問題,以便簡化計算。動態時間規整的過程一般是從最後一個階段開始進行,也即它是一個逆序過程,其遞推過程可以表示為 D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)](24) 其中

g(ny,nx)是為了ny,nx的取值滿足時間規整函數的約束條件。
④計算平均基頻比認為源和目標的基頻序列服從單高斯分布,然後估計高斯模型的參數,即均值μ和方差σ。
⑤用高斯混合模型對動態時間規整對齊後的特徵參數進行建模,集成學習理論估計模型參數。即首先將源和目標矢量組合成一個擴展矢量,即然後用(6)-(8)式對zt估計模型參數,得 m=1,2,…,M(25) 在轉換階段 ①待轉換的語音用諧波加噪聲模型進行分析,得到基音頻率軌跡和諧波聲道譜參數的幅度值和相位值,該過程和訓練階段中的第一步相同。
②和訓練階段一樣,將諧波加噪聲模型參數轉換為線性譜頻率參數。
③利用訓練階段得到的有關基頻的模型參數,設計基頻轉換函數為 其中f′0是轉換後的基頻,μy,μx分別是訓練出來的源和目標高斯模型的均值,同樣,σy,σx分別是源和目標高斯模型的方差。
④在均方誤差最小的準則下設計聲道線性譜頻率參數的轉換函數如下 其中 ⑤將轉換後的線性譜頻率參數反變換為諧波加噪聲模型係數,然後和修改後的基頻軌跡一起合成轉換後的語音,詳細步驟如下 a.將獲得的Al,f0,

用正弦模型的定義合成第k的語音,即
b.為了減少幀間交替時產生的誤差,採用疊接相加法合成整個語音,即對於任意相鄰的兩幀,有 其中N表示一幀語音中包含的樣點數。
本發明的優點及顯著效果集成學習理論能在學習過程中逐步對模型結構進行「自我調整」,優化模型參數的分布,從而使得參數的個數和維度保持在一定的複雜度之內。這個特點對於較少數據量的學習過程非常有效,因為它不會產生少數據量對應高複雜度模型的情況,也就是避免了過擬合問題。集成學習法(Ensemble Learning,EL)來對模型進行學習認知,其中的統計模型我們選擇高斯混合模型(Gaussian Mixture Model,GMM)。集成學習算法的特點在於它能在學習過程中逐步對模型結構進行「自我調整」,優化模型參數的分布,從而使得參數的個數和維度保持在一定的複雜度之內。這個特點對於較少數據量的學習過程非常有效,因為它不會產生少數據量對應高複雜度模型的情況,也就是避免了過擬合。



圖1是現有語音轉換系統結構圖; 圖2是本發明提出的語音轉換系統詳細框圖。

具體實施例方式 已公開的語音轉換系統結構如圖1所示。從橫向來看,該系統可以分為兩大主要部分訓練階段和轉換階段。在訓練階段,源和目標的語音數據被採集、分析、提取特徵參數、學習轉換規則並加以保存;在轉換階段,新的待轉換的源語音數據同樣被採集、分析、提取參數,隨後將訓練階段得出的轉換規則用於其上,最後將變換後的所有參數通過語音合成模塊合成語音。一般來說,訓練階段是非實時階段,即是離線模式;而轉換階段是實時階段,即在線模式。從縱向來看,該系統又可以被分為信號的分析與合成、參數選擇和提取、參數對齊算法、轉換函數設計四大步驟。每一步驟都在整個語音轉換系統中發揮著獨特的作用,缺一不可。
本專利提出的語音轉換系統框圖如圖2所示。
在訓練階段 ①源和目標人的語音通過諧波加噪聲模型進行分解,得到基音頻率軌跡和諧波聲道譜參數的幅度值和相位值。
②由於原始諧波加噪聲模型參數維數較高,不便於後續計算,因此必須對其進行降維。由於基頻軌跡是一維參數,因此,降維的主要對象是聲道幅度譜參數和相位參數。同時,降維的目標是將聲道參數轉化為經典的線性預測參數,進而產生適用於語音轉換系統的線性譜頻率參數。
③通過②驟得到的源和目標的線性譜頻率參數,用動態時間規整算法進行對齊。這樣做的目的是使得源和目標人的特徵序列在參數的層面上具有一定的聯繫,便於後續統計模型學習其中的映射規律。
④計算平均基頻比認為源和目標的基頻序列服從單高斯分布,然後估計高斯模型的參數,即均值和方差。
⑤用高斯混合模型對動態時間規整對齊後的特徵參數進行建模,並用集成學習理論估計模型參數。
在轉換階段 ①待轉換的語音用諧波加噪聲模型進行分析,得到有關的參數。
②將諧波加噪聲模型參數轉換為線性譜頻率參數。
③利用訓練階段得到的有關基頻的模型參數,對源的基頻進行轉換。
④在均方誤差最小的準則下轉換聲道線性譜頻率參數。
⑤將轉換後的線性譜頻率參數反變換為諧波加噪聲模型係數,然後和修改後的基頻軌跡一起合成轉換後的語音。
權利要求
1.一種在訓練數據量極少條件下的實時語音轉換方法,其特徵在於利用集成學習理論對採集到的訓練數據進行高斯混合模型的建模,並在均方誤差最小的準則下設計映射函數,用映射函數對源的語音進行映射,實現實時語音轉換;其步驟是第一步,選用諧波加噪聲模型作為語音分析合成模型對源和目標的語音進行分析,得到語音的基頻軌跡和諧波幅度值和相位值,然後進一步提取其中的線性譜頻率作為特徵參數;第二步,將源和目標的特徵參數按照所屬音素內容的不同進行劃分,並在語音幀的層面進行對齊,即使得源和目標人數量不一樣的特徵參數集合通過歸一化處理,使其在集合數據之間產生一一對應的關係;第三步,利用高斯混合模型針對對齊後的特徵參數進行建模,即利用對齊好的特徵參數來估計該高斯混合模型的參數,這時的高斯混合模型的參數是在集成學習理論的框架下估計得到的,接著,根據高斯混合模型估計得到的參數,在均方誤差最小的準則下估計回歸函數,將其作為最終的映射函數;第四步,當完成了以上所有步驟之後,用上述的映射函數對任意的源的語音進行映射,得到轉換後的目標說話人語音;上述第一步~第三步為訓練階段,第四步為轉換階段。
2.根據權利要求1所述的在訓練數據量極少條件下的實時語音轉換方法,其特徵在於第二步中將源和目標的特徵參數按照所屬音素內容的不同進行劃分,採用人工對語音波形進行標註,將不同的聲母韻母區分開來的方式。
3.根據權利要求1或2所述的在訓練數據量極少條件下的實時語音轉換方法,其特徵在於估計高斯混合模型參數的步驟如下
首先確定優化目標
式中q(X,θ)取一個易於求解任意的概率形式,它可以因式分解為q(X,θ)=qX(X)qθ(θ),這樣(1)式可以進一步改寫為
於是,優化logp(Y)的問題轉換為了優化它的下限F(q(X),q(θ))及求取分布函數q(X)和q(θ)的過程,用一種迭代的方式來進行,分別被稱為集成學習期望化EL-Expectation,ELE和集成學習最大化EL-Maximization,ELM步驟
式中的t表示迭代步驟;
將上述集成學習通用算法用於學習高斯混合模型的參數,即對於任意一個觀測變量y,假設它服從M個混合度的高斯分布,用數學式子可表示如下
假設獲得了觀測數據序列Y={y1,y2,…,yT},再假設有一個與之相對應的隱變量數據序列X={x1,x2,…,xT}用來表示在某一時刻t,數據yt是從哪個混合度產生出來的,也就是說xt∈{1,2,…,M},根據高斯混合模型的特點,待估計的參數集合θ可定義為
θ={πm,μm,∑m,m=1,2,…,M};
在集成學習理論框架下,所有的參數和隱變量都有各自的概率分布函數,且根據上述的公示推導,q(X)和q(θ)都是自由分布函數,即它們可以是任何概率形式,為了方便後續計算,不失一般性,假設混合係數{πm}服從聯合Dirichlet分布,即p({πm})=D(λ0);均值服從正態分布,即協方差矩陣的逆服從Wishart分布,即同時,假設於是根據公式(3)(4)可以計算得到
其中,Tm=Tπm,
用(6)式的結果繼續更新模型,即估計未知參數的概率分布,考慮到之前為高斯混合模型參數假設的概率分布函數屬於共軛先驗函數集,因此它們的後驗概率分布應該和先驗分布屬於同一種類型,不同之處只是在參數的取值上,也就是說有q({πm})=D(λm),然後應用以下規律更新分布參數
λm=Tm+λ0,ρm=(Tmμm+β0ρ0)/(Tm+β0),βm=Tm+β0 (7)
vm=Tm+v0,Φm=Tm∑m+Tmβ0(μm-ρ0)(μm-ρ0)T/(Tm+β0)+Φ0(8)
式(7)(8)就是集成學習理論下高斯混合模型參數的求取公式。
3、根據權利要求1或2所述的在訓練數據量極少條件下的實時語音轉換方法,其特徵在於
在訓練階段
①源和目標人的語音通過諧波加噪聲模型進行分解,得到基音頻率軌跡和諧波聲道譜參數的幅度值和相位值,具體步驟如下
a.對語音信號進行分幀,幀長20ms,幀重疊間隔10ms;
b.在每幀中,用自相關法估計基頻,若該幀為清音幀,則設置基頻等於零;
c.對於基頻不為零的濁音幀,假設語音信號由一系列的正弦波疊加而成
式中L為正弦波的個數,{Cl}為正弦波的復幅度,令sh表示sh(n)在一幀內的樣點所組成的矢量,則(9)式可以改寫成
通過最小二乘算法可以確定以上的{Cl}
其中s(n)是真實語音信號,w(n)是窗函數,取漢明窗,將窗函數也改寫成矩陣形式
則最優的x可以這樣得到
d.得到了{Cl},則諧波幅度和相位值如下
Al=2|Cl|=2|C-l|,
②由於原始諧波加噪聲模型參數維數較高,不便於後續計算,因此必須對其進行降維,由於基頻軌跡是一維參數,因此,降維的主要對象是聲道幅度譜參數和相位參數,同時,降維的目標是將聲道參數轉化為經典的線性預測參數,進而產生適用於語音轉換系統的線性譜頻率參數,求解如下
a.分別求取離散的L個幅度值Al的平方,並將其認為是離散功率譜的採樣值P(ωl);
b.根據帕斯卡定律,功率譜密度函數和自相關函數是一對傅立葉變換對,即
因此我們可以通過求解下式得到對線性預測參數係數的初步估值
其中a1,a2,…,ap是p階線性預測參數係數;
c.將p階線性預測參數係數代表的全極點模型轉換成時域衝激響應函數h*[n]
其中可以證明,h*和估計得到的自相關序列R*滿足
在滿足板倉-齋田距離Itakura-Satio,IS距離最小化的情況下,有真實的R和估計的R*的關係如下
d.將(17)式代替(18)式,並重估計(15)式,有
e.用IS準則評估誤差,如果誤差大於設定的閾值,則重複步驟c~e;反之,則停止迭代;
得到的線性預測參數係數通過聯立求解下面兩個等式,轉化為線性譜頻率參數
P(z)=A(z)+z-(p+1)A(z-1)
(20)
Q(z)=A(z)-z-(p+1)A(z-1)
③通過②得到的源和目標的線性譜頻率參數,用動態時間規整算法進行對齊,使得對應的源和目標的線性譜頻率在設定失真準則上具有最小的失真距離,使得源和目標人的特徵序列在參數的層面上關聯,便於後續統計模型學習其中的映射規律,動態時間規整算法如下
對於同一個語句的發音,假定源說話人的聲學個性特徵參數序列為x1,x2,…,
,…,
,而目標說話人的特徵參數序列為y1,y2,…,
,…,
,且Nx≠Ny,設定源說話人的特徵參數序列為參考模板,則動態時間規整算法就是要尋找時間規整函數
使得目標特徵序列的時間軸ny非線性地映射到源特徵參數序列的時間軸nx,從而使得總的累積失真量最小,在數學上可以表示為
其中
表示第ny幀的目標說話人特徵參數和第
幀源說話人特徵參數之間的某種測度距離,在動態時間規整的規整過程中,規整函數
是要滿足一定的約束條件的,有邊界條件和連續性條件分別為
動態時間規整是一種最優化算法,它把一個N階段決策過程化為N個單階段的決策過程,也就是轉化為逐一做出決策的N個子問題,以便簡化計算;動態時間規整的過程一般是從最後一個階段開始進行,也即它是一個逆序過程,其遞推過程可以表示為
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)] (24)
其中
g(ny,nx)是為了ny,nx的取值滿足時間規整函數的約束條件;
④計算平均基頻比認為源和目標的基頻序列服從單高斯分布,然後估計高斯模型的參數,即均值μ和方差σ;
⑤用高斯混合模型對動態時間規整對齊後的特徵參數進行建模,並用第2點權利要求中提出的集成學習理論估計模型參數。即首先將源和目標矢量組合成一個擴展矢量,即然後用(6)-(8)式對zt估計模型參數,得
在轉換階段
①待轉換的語音用諧波加噪聲模型進行分析,得到基音頻率軌跡和諧波聲道譜參數的幅度值和相位值,該過程和訓練階段中的①相同;
②和訓練階段一樣,將諧波加噪聲模型參數轉換為線性譜頻率參數;
③利用訓練階段得到的有關基頻的模型參數,設計基頻轉換函數為
其中f′0是轉換後的基頻,μy,μx分別是訓練出來的源和目標高斯模型的均值,同樣,σy,σx分別是源和目標高斯模型的方差;
④在均方誤差最小的準則下設計聲道線性譜頻率參數的轉換函數如下
其中
⑤將轉換後的線性譜頻率參數反變換為諧波加噪聲模型係數,然後和修改後的基頻軌跡一起合成轉換後的語音
a.將獲得的Al,f0,
用正弦模型的定義合成第k的語音,即
b.為了減少幀間交替時產生的誤差,採用疊接相加法合成整個語音,即對於任意相鄰的兩幀,有
其中N表示一幀語音中包含的樣點數。
全文摘要
本發明提出了一種在訓練數據量極少條件下的實時語音轉換方法,利用集成學習理論(Ensemble Learning,EL)對採集到的數據進行高斯混合模型(Gaussian Mixture Model,GMM)的建模,並在均方誤差最小(Minimum Mean Square Error,MMSE)的準則下設計映射函數。避免了標準的GMM模型在數據量極少的情況下容易產生過擬合(Over-fitting)的問題,提高了語音轉換算法對數據量問題的魯棒性。同時本發明方法在估算GMM參數的過程中的運算複雜度較標準的GMM低,因此適用於進行實時的語音轉換。
文檔編號G10L15/00GK101751921SQ20091026310
公開日2010年6月23日 申請日期2009年12月16日 優先權日2009年12月16日
發明者徐寧, 楊震 申請人:南京郵電大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀