新四季網

基於生成參數聽感誤差最小化的聲學模型訓練方法

2023-05-03 06:04:16

專利名稱:基於生成參數聽感誤差最小化的聲學模型訓練方法
技術領域:
本發明涉及語音合成方法,具體是在對聲學參數利用統計概率模型進行建模的訓練過程中,將最小化訓練數據對應生成參數的聽感誤差作為模型參數估計的準則,以滿足語音合成對於聲學模型的實際要求,提高模型的合理性和合成語音的效果。
背景技術:
現有的語音合成技術主要有基于波形拼接的語音合成方法和基於參數合成的語音合成方法兩大類。前者通過利用包含自然聲學樣本的語音音庫和在合成時進行單元選擇的方法可以取得較高的合成語音的音質與自然度。但是由於語音音庫的使用,往往在存儲量上有比較大的消耗,難以實現在嵌入式平臺等資源受限領域的使用。
另一種基於參數合成的語音合成方法首先對訓練使用的語音數據進行參數化分析,然後對分析得到的聲學參數利用統計方法進行建模,在合成時利用聲學模型進行參數的生成與預測,最終通過參數合成器還原語音信號。這種方法同樣可以實現較為自然流暢的合成語音輸出,並且由於在合成時不需要龐大的語音音庫,因此對於存儲量的需求較小,在資源受限平臺上的使用有明顯優勢。
統計模型(如隱馬爾可夫模型等)在語音中的應用最早開始於語音識別領域,通常使用最大似然準測或者最小分類誤差準則等來實現對於模型參數的估計,而最初這些準則的引入往往為了滿足語音識別的目標,保證模型在似然度或者區分度上的優勢,這和語音合成的要求並不相同。在語音合成中更希望的是,在利用訓練得到的模型進行合成時,能夠生成和自然語音最為接近的聲學參數,以保證合成語音的自然度與音質。
因此,我們針對語音合成的需求,提出了以最小化訓練數據對應生成參數的聽感誤差作為準則的聲學模型參數訓練方法,以提高語音合成系統的整體效果。

發明內容
本發明的目的就是為了提供一種用於語音合成的基於生成參數聽感誤差最小化的聲學模型訓練方法,以達到提高合成語音效果的目的。
本發明的技術方案如下基於生成參數聽感誤差最小化的聲學模型訓練方法,其特徵在於利用聲學模型由原始訓練數據的文本信息生成合成語音時使用的聲學參數;對於不同的語音聲學參數,通過聽感試驗確定其變化對於人耳聽感影響的強弱,並最終綜合出對於任意兩組語音聲學參數之間的聽感誤差計算公式;以聽感誤差計算公式計算生成的合成語音時使用的聲學參數與原始訓練數據的聲學參數之間的聽感距離;以最小化聽感距離為目標,利用梯度下降算法,通過逐次迭代的方法,更新聲學模型中包含的參數,以保證每次迭代後模型生成參數聽感距離的逐漸降低,最終實現基於生成參數聽感誤差最小化的模型訓練過程。
本發明使用隱馬爾可夫模型作為聲學模型,基於最大似然的參數生成方法,建模採用的聲學參數為線譜頻率參數,聽感誤差計算公式可以是D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft-p)]]>C原始訓練數據的聲學參數, 合成語音時使用的聲學參數,lsf1,p語音數據第t幀的第p階線譜頻率參數,(lsF1,p右上角的標號含義同上述 右上角標號的含義)N線譜頻率參數的階數,T總幀數。
從合成語音的效果來看,使用該算法後,合成語音在自然度和音質上都有一定程度的提高;在對合成語音的傾向性主觀測聽中,認為使用該算法後的合成語音質量要高於單純最大似然訓練結果的比例佔了80%以上。
術語解釋語音合成(Text-To-Speech)又稱為文語轉化。它涉及聲學、語言學、數位訊號處理、多媒體等多種學科,是中文信息處理領域的一項前沿技術。語音合成技術解決的主要問題是如何將電子化文本的文字信息轉化為能夠播放的聲音信息。近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的,目的是讓計算機能夠產生高清晰度、高自然度的連續語音。
隱馬爾可夫模型(Hidden Markov Model)馬爾可夫模型的概念是一個離散時域有限狀態自動機,隱馬爾可夫模型是指這一馬爾可夫模型的內部狀態外界不可見,外界只能看到各個時刻的輸出值。用隱馬爾可夫刻畫語音信號需作出兩個假設,一是內部狀態的轉移只與上一狀態有關,另一是輸出值只與當前狀態(或當前的狀態轉移)有關,這兩個假設大大降低了模型的複雜度。
最大似然估計(Maximum Likelihood Estimation)假設隨機變量X的分布函數為F(X,θ),密度函數為p(X,θ),θ為參數,θ=(θ1,...θm)∈Θ,X1,...,Xn來源於分布族{F(X,θ)θ∈Θ},定義似然函數L=i=1np(xi,)]]>是θ=(θ1,...θm)的函數,若 是L(θ)的唯一最大值點,則稱 為θ的最大似然估計。
梯度下降算法(Gradient Descent Algorithm)一種用於求解函數無約束極值問題的基本算法,它選擇函數的負梯度方向(最速下降方向)作為迭代時的搜索方向。


圖1訓練流程框圖具體實施方式
基於生成參數聽感誤差最小化的聲學模型訓練方法,其具體算法是(1)、計算訓練數據的文本信息對應的生成參數聽感誤差a、利用聲學模型生成訓練數據對應的聲學參數將訓練數據對應的文本以及相關的上下文信息輸入聲學模型λ中,利用最大似然準則或其他方法,預測與訓練數據的聲學參數C各幀相對應的用於生成合成語音的聲學參數 其中
C=[c1,c2,...,cT]C%=[c1%,c2%,...,c7%]]>T為總幀數,使用隱馬爾可夫模型作為聲學模型和基於最大似然的參數生成方法,建模採用的聲學參數為線譜頻率參數,即ct=[lsft,1,...,lsft,N]ct%=[lsft,1%,...,lsft,N%]]]>其中N為線譜頻率參數的階數,N為24;b、計算聲學參數之間的聽感距離依據使用聲學參數的不同,確定能夠較為適當的反映兩組聲學參數之間聽感差異情況的聽感誤差計算公式,為了保證這種聽感差異度量的合理性,可以結合一定的聽感實驗來進行主觀聽感差異與參數距離之間的相關性測試;線譜頻率參數使用以下公式來計算訓練數據聲學參數C與生成參數 之間的聽感距離D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>(2)、以最小化聽感距離為目標,調整聲學模型參數為了求解聽感距離最小時的所對應的模型參數λ,通過採用梯度下降的方法來對聲學模型參數進行逐步的調整,即n+1=n-nD(C,C%)|=n]]>具體的參數更新方法可以由上式結合聽感誤差計算公式進行推導確定,其中n為迭代次數,εn為每一步的迭代步長,λn表示第n次迭代後的聲學模型參數。
(3)、對步驟(1)和(2)進行反覆迭代,直至模型參數收斂,迭代次數為20次,最終實現完整的基於生成參數聽感誤差最小化的模型訓練過程。
本發明利用以上算法進行了參數模型訓練與語音合成實驗,選擇的頻譜參數為24階的線譜頻率參數;為了實現對聽感誤差的有效度量,在計算兩組線譜頻率之間的距離時,利用階間差分倒數對各階線譜頻率的歐氏距離進行了加權;使用隱馬爾可夫模型作為聲學參數模型;在訓練過程中使用最大似然估計的結果作為模型的初始值,再利用最小化生成參數聽感誤差方法對模型參數進行迭代調整。
實驗結果表明,利用以上算法經過10~20次迭代後,模型參數會得到有效收斂;對於集外數據的測試表明,利用最小化生成參數聽感誤差算法訓練後的模型可以取得相對單純的最大似然模型訓練10%左右的聽感誤差減小程度。
權利要求
1.基於生成參數聽感誤差最小化的聲學模型訓練方法,其特徵在於利用聲學模型由原始訓練數據的文本信息生成合成語音時使用的聲學參數;對於不同的語音聲學參數,通過聽感試驗確定其變化對於人耳聽感影響的強弱,並最終綜合出對於任意兩組語音聲學參數之間的聽感誤差計算公式;以聽感誤差計算公式計算生成的合成語音時使用的聲學參數與原始訓練數據的聲學參數之間的聽感距離;以最小化聽感距離為目標,利用梯度下降算法,通過逐次迭代的方法,更新聲學模型中包含的參數,以保證每次迭代後模型生成參數聽感距離的逐漸降低,最終實現基於生成參數聽感誤差最小化的模型訓練過程。
2.根據權利要求1所述的方法,其特徵在於使用隱馬爾可夫模型作為聲學模型,基於最大似然的參數生成方法,建模採用的聲學參數為線譜頻率參數,聽感誤差計算公式是D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>C原始訓練數據的聲學參數, 合成語音時使用的聲學參數,lsft,p語音數據第t幀的第p階線譜頻率參數,N線譜頻率參數的階數,T總幀數。
3.根據權利要求1所述的方法,其特徵在於具體步驟為(1)、計算訓練數據的文本信息對應的生成參數聽感誤差a、利用聲學模型生成訓練數據對應的聲學參數將訓練數據對應的文本以及相關的上下文信息輸入聲學模型λ中,利用最大似然準則或其他方法,預測與訓練數據的聲學參數C各幀相對應的聲學參數 其將用於生成合成語音時使用,其中C=[c1,c2,...,cT]C%=[c1%,c2%,...,cT%]]]>T為總幀數,使用隱馬爾可夫模型作為聲學模型和基於最大似然的參數生成方法,建模採用的聲學參數為線譜頻率參數lsf,即ct=[lsft,1,...,lsft,N]ct%=[lsft,1%,...,lsft,N%]]]>其中N為線譜頻率參數的階數,N為24;b、計算聲學參數之間的聽感距離依據使用聲學參數的不同,確定能夠較為適當的反映兩組聲學參數之間聽感差異情況的聽感誤差計算公式,線譜頻率參數使用以下公式來計算訓練數據聲學參數C與生成參數 之間的聽感距離D(C,C%)=]]>t=1Tp=1N(lsft,p-lsft,p%)2/min(lsft,p-lsft,p-1,lsft,p+1-lsft,p)]]>(2)、以最小化聽感距離為目標,調整聲學模型參數為了求解聽感距離最小時的所對應的模型參數λ,通過採用梯度下降的方法來對聲學模型參數進行逐步的調整,即n+1=n-nD(C,C%)|=n]]>具體的參數更新方法可以由上式結合聽感誤差計算公式進行推導確定,其中n為迭代次數,εn為每一步的迭代步長,λn表示第n次迭代後的聲學模型參數;(3)、對步驟(1)和(2)進行反覆迭代,直至模型參數收斂,最終實現完整的基於生成參數聽感誤差最小化的模型訓練過程。
全文摘要
本發明公開了一種用於語音合成的基於生成參數聽感誤差最小化的聲學模型訓練方法,包括結合聽感實驗確定合理的聲學參數聽感距離計算方式;依據聲學模型生成訓練數據文本對應的聲學參數,並計算其相對於訓練數據聲學參數的聽感距離;基於聽感誤差最小化對模型參數進行逐次的迭代調整;最終達到提高合成語音音質與自然度的目的。
文檔編號G10L13/00GK1815553SQ200610038590
公開日2006年8月9日 申請日期2006年2月28日 優先權日2006年2月28日
發明者凌震華, 吳義堅, 王仁華 申請人:安徽中科大訊飛信息科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀