基於生成參數聽感誤差最小化的聲學模型訓練方法

2023-05-03 06:04:16 1

專利名稱：基於生成參數聽感誤差最小化的聲學模型訓練方法
技術領域：
本發明涉及語音合成方法，具體是在對聲學參數利用統計概率模型進行建模的訓練過程中，將最小化訓練數據對應生成參數的聽感誤差作為模型參數估計的準則，以滿足語音合成對於聲學模型的實際要求，提高模型的合理性和合成語音的效果。
背景技術：
現有的語音合成技術主要有基于波形拼接的語音合成方法和基於參數合成的語音合成方法兩大類。前者通過利用包含自然聲學樣本的語音音庫和在合成時進行單元選擇的方法可以取得較高的合成語音的音質與自然度。但是由於語音音庫的使用，往往在存儲量上有比較大的消耗，難以實現在嵌入式平臺等資源受限領域的使用。
另一種基於參數合成的語音合成方法首先對訓練使用的語音數據進行參數化分析，然後對分析得到的聲學參數利用統計方法進行建模，在合成時利用聲學模型進行參數的生成與預測，最終通過參數合成器還原語音信號。這種方法同樣可以實現較為自然流暢的合成語音輸出，並且由於在合成時不需要龐大的語音音庫，因此對於存儲量的需求較小，在資源受限平臺上的使用有明顯優勢。
統計模型(如隱馬爾可夫模型等)在語音中的應用最早開始於語音識別領域，通常使用最大似然準測或者最小分類誤差準則等來實現對於模型參數的估計，而最初這些準則的引入往往為了滿足語音識別的目標，保證模型在似然度或者區分度上的優勢，這和語音合成的要求並不相同。在語音合成中更希望的是，在利用訓練得到的模型進行合成時，能夠生成和自然語音最為接近的聲學參數，以保證合成語音的自然度與音質。
因此，我們針對語音合成的需求，提出了以最小化訓練數據對應生成參數的聽感誤差作為準則的聲學模型參數訓練方法，以提高語音合成系統的整體效果。

發明內容
本發明的目的就是為了提供一種用於語音合成的基於生成參數聽感誤差最小化的聲學模型訓練方法，以達到提高合成語音效果的目的。
本發明的技術方案如下基於生成參數聽感誤差最小化的聲學模型訓練方法，其特徵在於利用聲學模型由原始訓練數據的文本信息生成合成語音時使用的聲學參數；對於不同的語音聲學參數，通過聽感試驗確定其變化對於人耳聽感影響的強弱，並最終綜合出對於任意兩組語音聲學參數之間的聽感誤差計算公式；以聽感誤差計算公式計算生成的合成語音時使用的聲學參數與原始訓練數據的聲學參數之間的聽感距離；以最小化聽感距離為目標，利用梯度下降算法，通過逐次迭代的方法，更新聲學模型中包含的參數，以保證每次迭代後模型生成參數聽感距離的逐漸降低，最終實現基於生成參數聽感誤差最小化的模型訓練過程。
本發明使用隱馬爾可夫模型作為聲學模型，基於最大似然的參數生成方法，建模採用的聲學參數為線譜頻率參數，聽感誤差計算公式可以是D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft-p)]]>C原始訓練數據的聲學參數，合成語音時使用的聲學參數，lsf1，p語音數據第t幀的第p階線譜頻率參數，(lsF1，p右上角的標號含義同上述右上角標號的含義)N線譜頻率參數的階數，T總幀數。
從合成語音的效果來看，使用該算法後，合成語音在自然度和音質上都有一定程度的提高；在對合成語音的傾向性主觀測聽中，認為使用該算法後的合成語音質量要高於單純最大似然訓練結果的比例佔了80％以上。
術語解釋語音合成(Text-To-Speech)又稱為文語轉化。它涉及聲學、語言學、數位訊號處理、多媒體等多種學科，是中文信息處理領域的一項前沿技術。語音合成技術解決的主要問題是如何將電子化文本的文字信息轉化為能夠播放的聲音信息。近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的，目的是讓計算機能夠產生高清晰度、高自然度的連續語音。
隱馬爾可夫模型(Hidden Markov Model)馬爾可夫模型的概念是一個離散時域有限狀態自動機，隱馬爾可夫模型是指這一馬爾可夫模型的內部狀態外界不可見，外界只能看到各個時刻的輸出值。用隱馬爾可夫刻畫語音信號需作出兩個假設，一是內部狀態的轉移只與上一狀態有關，另一是輸出值只與當前狀態(或當前的狀態轉移)有關，這兩個假設大大降低了模型的複雜度。
最大似然估計(Maximum Likelihood Estimation)假設隨機變量X的分布函數為F(X，θ)，密度函數為p(X，θ)，θ為參數，θ＝(θ1，...θm)∈Θ，X1，...，Xn來源於分布族{F(X，θ)θ∈Θ}，定義似然函數L=i=1np(xi,)]]>是θ＝(θ1，...θm)的函數，若是L(θ)的唯一最大值點，則稱為θ的最大似然估計。
梯度下降算法(Gradient Descent Algorithm)一種用於求解函數無約束極值問題的基本算法，它選擇函數的負梯度方向(最速下降方向)作為迭代時的搜索方向。

圖1訓練流程框圖具體實施方式
基於生成參數聽感誤差最小化的聲學模型訓練方法，其具體算法是(1)、計算訓練數據的文本信息對應的生成參數聽感誤差a、利用聲學模型生成訓練數據對應的聲學參數將訓練數據對應的文本以及相關的上下文信息輸入聲學模型λ中，利用最大似然準則或其他方法，預測與訓練數據的聲學參數C各幀相對應的用於生成合成語音的聲學參數其中
C＝[c1，c2，...，cT]C%=[c1%,c2%,...,c7%]]>T為總幀數，使用隱馬爾可夫模型作為聲學模型和基於最大似然的參數生成方法，建模採用的聲學參數為線譜頻率參數，即ct＝[lsft，1，...，lsft，N]ct%=[lsft,1%,...,lsft,N%]]]>其中N為線譜頻率參數的階數，N為24；b、計算聲學參數之間的聽感距離依據使用聲學參數的不同，確定能夠較為適當的反映兩組聲學參數之間聽感差異情況的聽感誤差計算公式，為了保證這種聽感差異度量的合理性，可以結合一定的聽感實驗來進行主觀聽感差異與參數距離之間的相關性測試；線譜頻率參數使用以下公式來計算訓練數據聲學參數C與生成參數之間的聽感距離D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>(2)、以最小化聽感距離為目標，調整聲學模型參數為了求解聽感距離最小時的所對應的模型參數λ，通過採用梯度下降的方法來對聲學模型參數進行逐步的調整，即n+1=n-nD(C,C%)|=n]]>具體的參數更新方法可以由上式結合聽感誤差計算公式進行推導確定，其中n為迭代次數，εn為每一步的迭代步長，λn表示第n次迭代後的聲學模型參數。
(3)、對步驟(1)和(2)進行反覆迭代，直至模型參數收斂，迭代次數為20次，最終實現完整的基於生成參數聽感誤差最小化的模型訓練過程。
本發明利用以上算法進行了參數模型訓練與語音合成實驗，選擇的頻譜參數為24階的線譜頻率參數；為了實現對聽感誤差的有效度量，在計算兩組線譜頻率之間的距離時，利用階間差分倒數對各階線譜頻率的歐氏距離進行了加權；使用隱馬爾可夫模型作為聲學參數模型；在訓練過程中使用最大似然估計的結果作為模型的初始值，再利用最小化生成參數聽感誤差方法對模型參數進行迭代調整。
實驗結果表明，利用以上算法經過10～20次迭代後，模型參數會得到有效收斂；對於集外數據的測試表明，利用最小化生成參數聽感誤差算法訓練後的模型可以取得相對單純的最大似然模型訓練10％左右的聽感誤差減小程度。
權利要求
1.基於生成參數聽感誤差最小化的聲學模型訓練方法，其特徵在於利用聲學模型由原始訓練數據的文本信息生成合成語音時使用的聲學參數；對於不同的語音聲學參數，通過聽感試驗確定其變化對於人耳聽感影響的強弱，並最終綜合出對於任意兩組語音聲學參數之間的聽感誤差計算公式；以聽感誤差計算公式計算生成的合成語音時使用的聲學參數與原始訓練數據的聲學參數之間的聽感距離；以最小化聽感距離為目標，利用梯度下降算法，通過逐次迭代的方法，更新聲學模型中包含的參數，以保證每次迭代後模型生成參數聽感距離的逐漸降低，最終實現基於生成參數聽感誤差最小化的模型訓練過程。
2.根據權利要求1所述的方法，其特徵在於使用隱馬爾可夫模型作為聲學模型，基於最大似然的參數生成方法，建模採用的聲學參數為線譜頻率參數，聽感誤差計算公式是D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>C原始訓練數據的聲學參數，合成語音時使用的聲學參數，lsft，p語音數據第t幀的第p階線譜頻率參數，N線譜頻率參數的階數，T總幀數。
3.根據權利要求1所述的方法，其特徵在於具體步驟為(1)、計算訓練數據的文本信息對應的生成參數聽感誤差a、利用聲學模型生成訓練數據對應的聲學參數將訓練數據對應的文本以及相關的上下文信息輸入聲學模型λ中，利用最大似然準則或其他方法，預測與訓練數據的聲學參數C各幀相對應的聲學參數其將用於生成合成語音時使用，其中C＝[c1，c2，...，cT]C%=[c1%,c2%,...,cT%]]]>T為總幀數，使用隱馬爾可夫模型作為聲學模型和基於最大似然的參數生成方法，建模採用的聲學參數為線譜頻率參數lsf，即ct＝[lsft，1，...，lsft，N]ct%=[lsft,1%,...,lsft,N%]]]>其中N為線譜頻率參數的階數，N為24；b、計算聲學參數之間的聽感距離依據使用聲學參數的不同，確定能夠較為適當的反映兩組聲學參數之間聽感差異情況的聽感誤差計算公式，線譜頻率參數使用以下公式來計算訓練數據聲學參數C與生成參數之間的聽感距離D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>(2)、以最小化聽感距離為目標，調整聲學模型參數為了求解聽感距離最小時的所對應的模型參數λ，通過採用梯度下降的方法來對聲學模型參數進行逐步的調整，即n+1=n-nD(C,C%)|=n]]>具體的參數更新方法可以由上式結合聽感誤差計算公式進行推導確定，其中n為迭代次數，εn為每一步的迭代步長，λn表示第n次迭代後的聲學模型參數；(3)、對步驟(1)和(2)進行反覆迭代，直至模型參數收斂，最終實現完整的基於生成參數聽感誤差最小化的模型訓練過程。
全文摘要
本發明公開了一種用於語音合成的基於生成參數聽感誤差最小化的聲學模型訓練方法，包括結合聽感實驗確定合理的聲學參數聽感距離計算方式；依據聲學模型生成訓練數據文本對應的聲學參數，並計算其相對於訓練數據聲學參數的聽感距離；基於聽感誤差最小化對模型參數進行逐次的迭代調整；最終達到提高合成語音音質與自然度的目的。
文檔編號G10L13/00GK1815553SQ200610038590
公開日2006年8月9日申請日期2006年2月28日優先權日2006年2月28日
發明者凌震華, 吳義堅, 王仁華申請人:安徽中科大訊飛信息科技有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於生成參數聽感誤差最小化的聲學模型訓練方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法