基於聲學統計模型的單元挑選語音合成方法

2023-12-08 23:16:16 5

專利名稱：基於聲學統計模型的單元挑選語音合成方法
技術領域：
本發明涉及波形拼接語音合成中的單元挑選方法，具體是通過設計、訓練一組聲學統計模型來指導語音片斷單元的挑選方法。
背景技術：
語音合成是實現自然高效的人機互動的一項重要技術。現今最為常見的語音合成方法有兩種，一種是基於單元挑選與波形拼接的合成方法，另外一種是基於聲學統計模型的參數合成方法。
在傳統的單元挑選算法中，目標代價與連接代價往往是通過計算單元間的上下文屬性的差異或者備選單元聲學參數與預測目標之間的距離來實現的。這樣造成的結果是，代價函數的設計往往需要語種相關的語音學專家的參與，進行大量的手工調試，使得系統構建的自動化程度收到限制；並且設計的代價函數難以保證普適性，往往會產生合成效果不穩定的問題。
近十年來，一種基於統計聲學模型(主要是隱馬爾柯夫模型，HiddenMarkov Model, H醒)的參數語音合成方法，得到了迅速的發展。這種方法分為訓練和合成兩個階段。在模型訓練階段，得到各音素在不同上下文環境下所對應的頻譜和基頻參數的聲學統計模型;在合成階段，通過基於最大似然準則的參數生成方法，來預測合成語音所需的頻譜和韻律參數，最終經過參數合成器生成語音。整個系統可以實現訓練的自動化和語種的無關性，並且合成語音的連續性、穩定性和韻律的自然度都相當高。但是由於參數合成器的限制，使得這種合成方法最終恢復語音的音質往往不很理想。
發明的內容
本發明的目的就是將對聲學參數統計建模的思想引入到單元挑選與波形拼接合成的過程中；擺脫基於統計建模的參數合成對於合成器的依賴，提高合成語音音質；同時提高傳統拼接合成方法的合成效果，並且可以實現系統的自動構建和語種的無關性。
本發明是通過以下技術方案實現的
基於聲學統計模型的單元挑選語音合成方法，該方法包括以下步驟實現 (1 )對於訓練語料庫，提取其頻譜、基頻、時長的聲學特徵； (2 )結合訓練語料庫中各句話的音段、韻律標註信息，訓練各個音素在不同上下文環境中，各種聲學特徵所對應的統計模型；
(3 )在合成時通過對輸入文本進行文本分析，得到待合成句子中各音素對應的各種聲學特徵的統計模型；
(4 )在單元挑選的過程中，以備選單元序列包含的聲學參數相對於待合成句的聲學統計模型具有最大的似然值為準則，搜索最優的備選單元；
(5 )通過計算同一音素在兩個不同上下文環境下對應的HMM模型之間的KLD距離，來度量備選單元和目標單元上下文環境之間的差異程度，以此來進行合成單元的預挑選；
(6 )最終通過對各個音素的最優備選單元的波形進行拼接，得到該句話的合成語音。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(1 )中在靜態參數的基礎上加入了表徵前後幀參數變化的動態參數。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(1 )中使用的頻譜參數為美爾倒譜參數。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(1 )中基頻參數為對數F0數值。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(1 )中對於其中的頻譜參數部分採用連續概率分布HMM進行建模，而對於基頻部分採用多空間概率分布H麗進行建模。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(2 )中所使用的模型形式為隱馬爾柯夫模型。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(3 )中各種聲學特徵的統計模型是經過文本分析後得到每個目標音素的上下文環境描述信
息，然後將這些信息輸入模型聚類決策樹而得到的。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(4 )中滿足
的似然值最大準則採用如下算法得到最優備選單元
formula see original document page 6
其中，"'為最優備選單元序列，其中^， ^和^分別為頻譜、基頻和時長模型似然值的權值，輸入的一句待合成語句中音素的個數為M第"個目標音素 (n-l，...，JV)在其所在的上下文環境下對應的頻譜、基頻、時長模型分別為為《，<
和《；對於音素"的某一個備選" ，其對應的頻譜和基頻特徵向量序列參數記
為s(io-[《,，…,cf和-[p;..,/^]7 ，其中？;表示單元""的幀數，和/> ,,分別表示單元中第i幀對應的頻譜和基頻特徵向量。
基於聲學統計模型的單元挑選語音合成方法，所述式(1)可以改寫成各個備選音素的目標代價和相鄰備選音素連接代價之和的形式，再使用維特比算法實現最優單元序列的搜索。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(5 )中計算同一音素在兩個不同上下文環境下對應的H固模型之間的KLD距離是通過以下算式計算得出的
虹玲 ) = ^ .虹d(;^力+^ .虹d(;^ ， )+^ '虹"(《，《)
其中《，^和《為備選單元在其上下文環境下所對庫的頻譜、基頻和時長模型。
基於聲學統計模型的單元挑選語音合成方法，所述的上述步驟(6 )中對各
個音素的最優備選單元採用了平移加窗疊加的方法進行波形拼接。
基於聲學統計模型的單元挑選語音合成方法，所述的平移加窗疊加的方法
為首先通過對拼接處前後兩幀進行平移以搜索波形相關係數最大時對應的平移位置，然後對平移後的波形進行時域的加窗疊加以實現拼接處的平滑過渡。
本發明通過將對聲學參數統計建模的思想引入到單元挑選與波形拼接合成的過程中；擺脫基於統計建模的參數合成對於合成器的依賴,提高合成語音音質;
同時提高傳統拼接合成方法的合成效果，並且可以實現系統的自動構建和語種的無關性。在傳統的基於統計建模的參數合成器系統中，因為統計建模的平滑作用和合成器生成語音的質量，導致了合成語音質量較差。而傳統波形拼接系統因為不能充分利用統計建模思想和方法的能力，在合成語音的自然度上經常出現不自然的跳動，但是因為採用真實的波形構成語音，合成語音音質較好。該發明利用聲學統計建模對數據建立了高度綜合的統計模型，可以非常好的學習到自然語音中的語音規律，同時結合基於概率模型的單元選擇，使在語音合成單元搜索過程中的很多權值可以自動化的進行設置，解決了系統自動構建以及不依賴語種進行系統調試的問題。同時，採用自然的波形單元進行拼接，直接利用自然語音中的細節語譜特徵，不使用語音合成器，最後獲得高質量的輸出語音。
我們在一個28000句的中文女聲音庫上進行了系統建立的實驗，對比了本發明中提到的方法和傳統的單元挑選與波形拼接合成方法。使用兩種方法分別合成 11個語音合成典型應用領域內的各20句文本，由5名測聽人員進行MOS分的評分，最終的評測結果可以看出，在使用了基於統計聲學模型的單元挑選方法後，合成效果在所有領域內均有一致性的提升，平均的M0S分增加在0. 5分左右。
術語解釋
語音合成(Text-To-Speech):又稱為文語轉化。它涉及聲學、語言學、數字信號處理、多媒體等多種學科，是中文信息處理領域的一項前沿技術。語音合成技術解決的主要問題是如何將電子化文本的文字信息轉化為能夠播放的聲音信息。近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的，目的是讓計算機能夠產生高清晰度、高自然度的連續語音。
最大似然估計(Maximum Likelihood Estimation):假設隨機變量X的分布
函數為F(jr,0)，密度函數為p(X,e)， P為參數，0 =(《".A)e€)， A,…,X"來源於分布族{屍(1"):^ }，定義似然函數Z(e卜]1LP"，e)是0 =(《,..A)
的函數，若^是丄(0的唯一最大值點，則稱^為0的最大似然估計。
Kullback-Uibler距離(Kullback-Leibler Divergence, KU)):是用來表徵兩個分布模型之間的差異性，假設Ai和^分別表示兩個N維特徵的統計模型，
它們之間的KLD可以使用D(XlyCt" LP(je!X)log，!， A進行計算，也可
屍
以定義對稱形式的KLD為A(X ^0蘭"(X
M +￡> X脈

附圖為基於統計聲學模型的單元挑選合成方法流程圖。
具體實施例方式
參見附圖所示。基於聲學統計模型的單元挑選語音合成方法，其實現方法包括以下步驟
(1) . 提取訓練語料庫的聲學特徵
我們這裡提取的聲學特徵包括各幀對應的頻譜、基頻特徵參數，這裡我們使用的頻譜參數為mel-c印strura參數，基頻參數為對數FO數值，並且在靜態參數
的基礎上加入了表徵前後幀參數變化的動態參數。以音素"第i幀的頻譜特徵、，，為例，
、,.=[《,,Ac W (1) Ac ,=-0.5 —1+0X,,+1 (2) △2C .,=0.25c ,,—廣0X，,+0.25c一 (3)
其中、為音素"第i幀頻譜的靜態特徵。
(2) . 進行聲學統計模型的訓練
我們對於其中的頻譜參數部分採用連續概率分布H麗進行建模，而對於基頻部分採用多空間概率分布HMM (MSD-HMM)進行建模。HMM中各狀態的觀測概率密度函數均為單高斯正態分布，並且我們對所有H醒模型中的狀態轉移概率矩陣進行了依賴單音素的綁定。此外，在上下文相關模型訓練過程中，我們還使用決策樹來對頻譜和基頻H醒模型各狀態的觀測概率密度函數分別進行聚類，以保證最終模型參數估計的魯棒性，聚類決策樹使用的問題集主要依據語料庫中包含的音段和韻律屬性標註來進行設計。在頻譜和基頻參數的HMM模型訓練完成以後，使用用此模型對語料庫中語音數據進行幀/狀態的強制對齊，並且以對齊後得到的音素切分結果為訓練數據來訓練音素時長的HMM模型，這裡同樣會使用基於決策樹的模型聚類策略。
(3) . 待合成句音素聲學統計模型的決策
在合成時，對於輸入文本首先經過文本分析，得到每個目標音素的上下文環境描述信息，然後將這些信息輸入模型聚類決策樹，得到每個目標音素對應的頻
譜、基頻和時長模型《^和《。
(4) . 基於聲學統計模型似然值準則的單元挑選
假設輸入的一句待合成語句中音素的個數為M第"個目標音素("=A0在
其所在的上下文環境下對應的頻譜、基頻、時長模型分別為為《，^和《；對於音素/7的某一個備選" ，其對應的頻譜和基頻特徵向量序列參數記為
=f和=[&,…,p"r ，其中r 表示單元" 的幀數，&和&分
別表示單元" 中第i幀對應的頻譜和基頻特徵向量；這裡的特徵向量除了各幀聲學參數對應的靜態參數外，還包含依據相鄰幀計算得到的動態特徵；對於整句話，我們記挑選得到的備選單元序列為"-[",，...,^]。最終，我們希望搜索得到的
最優備選單元序列"'，滿足以下的似然值最大準則
formula see original document page 9
其中R， ^和R分別為頻譜、基頻和時長模型似然值的權值。為了計算s("")和
/K"。)相對《和V似然值，我們需要考慮" 對於目標模型的所有可能的幀/狀態分
配結果；出於簡化計算的目的，這裡我們使用音庫中^的狀態切分結果來作為唯
一的幀/狀態對齊路徑。在狀態分配確定以後，我們可以得到備選單元" 的第i 幀對應的正態觀測概率密度函數分別為， w(/^，s。和w ，《2)，
則式(4)可以改寫為
formula see original document page 10其中
丄丄(o,挑，Z) = log屍(o 15V (附,2))
formula see original document page 10 (6)
式(5)中對於頻譜和基頻參數似然值的計算，依據備選音素時長和預測的目標時長進行了規整；式(6)中D表示特徵o的維數。考慮到各幀的聲學特徵&和&,.包含
有依賴於前後幀的動態參數，因此音素邊界幀對應聲學參數的似然值計算依賴相鄰的其他音素，我們也可以據此將式(5)改寫成單元挑選算法中常用的連接代價和目標代價和的形式
"* :argmin(l;rC0O+f;CC(""一,"")) (7) 其中rc(a )和cc",一， )分別代表單元的目標代價和單元,與" 之間的連接
代價，各自的計算如下
formula see original document page 10formula see original document page 11
依據式(7) (9)對於目標代價和連接代價的定義，我們可以使用常用的Viterbi 搜索方法來進行最優單元序列的搜索。區別於傳統的代價函數計算方法，這裡的連接代價和目標代價的計算均由聲學統計模型基於最大似然準則導出。 (5). 基於Kullback-Leibler距離的單元預選
我們通過計算同一音素在兩個不同上下文環境下對應的H固模型之間的KLD 距離，來度量備選單元和目標單元上下文環境之間的差異程度，從而達到單元預選和提高運算效率的目的。對每個備選單元" 計算
) = ^ .m)(;i: ， I:)+『p .虹d(;^ , )+R 'mx《，《)(io)
其中《，和《為備選單元在其上下文環境下所對應的頻譜、基頻和時長模型。
通過對每個目標音素的所有備選樣本計算式(IO)，可以得到使虹Z)(tO最小的《
個備選，再進入代價計算和Viterbi搜索。對於兩個HMM模型之間的KLD裡我們使用兩個其上限來估計，如式(ll)所示
順;t，^i(順附',",'力) ,￡>(w 5,)||jv(w,i:,)) , (",,-a,,)i0g(a,,^,,))
(11)
其中s是HMM中的狀態數；^(/ ^)和^(/^^,)分別表示模型;1和1中第i狀態的觀測概率密度函數；&和5,,表示義和A的狀態轉移概率。因為在單元挑選過程中目標單元和備選樣本對應同一個單音素，並且我們在訓練過程中的狀態轉移
概率矩陣是按照單音素綁定的，所以這裡《,1=5,，式(11)也可以隨之簡化為formula see original document page 12
對每個狀態，兩個單高斯的正態分布之間的KLD可以使用通過式(13)進行計算formula see original document page 12
由於我們在模型訓練過程中對於頻譜、基頻和時長模型各狀態的輸出概率密度函
數進行了基於決策樹的聚類，因此所有的W(m,，2:,)和W械，&)均為已知的，式(13)
可以在模型訓練完成之後獨立於單元挑選過程離線計算，從而使得整個基於KLD 的單元預選過程可以較快的實現。
(6). 各音素最優備選波形的拼接。在單元挑選完成之後，我們會對挑選得到的合成單元通過波形拼接的方法合成最終的語音。這裡對於相鄰音素邊界處的波形拼接，採用了平移加窗疊加的方法。首先通過對拼接處前後兩幀進行平移以搜索波形相關係數最大時對應的平移位置，然後對平移後的波形進行時域的加窗疊加以實現拼接處的平滑過渡。
權利要求
1、基於聲學統計模型的單元挑選語音合成方法，其特徵在於包括以下步驟實現(1)對於訓練語料庫，提取其頻譜、基頻、時長的聲學特徵；(2)結合訓練語料庫中各句話的音段、韻律標註信息，訓練各個音素在不同上下文環境中，各種聲學特徵所對應的統計模型；(3)在合成時通過對輸入文本進行文本分析，得到待合成句子中各音素對應的各種聲學特徵的統計模型；(4)在單元挑選的過程中，以備選單元序列包含的聲學參數相對於待合成句的聲學統計模型具有最大的似然值為準則，搜索最優的備選單元；(5)通過計算同一音素在兩個不同上下文環境下對應的HMM模型之間的KLD距離，來度量備選單元和目標單元上下文環境之間的差異程度，以此來進行合成單元的預挑選；(6)最終通過對各個音素的最優備選單元的波形進行拼接，得到該句話的合成語音。
2、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(1 )中在靜態參數的基礎上加入了表徵前後幀參數變化的動態參數。
3、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(1 )中使用的頻譜參數為美爾倒譜參數。
4、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(1 )中基頻參數為對數F0數值。
5、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(1 )中對於其中的頻譜參數部分採用連續概率分布H畫進行建模，而對於基頻部分採用多空間概率分布H麗進行建模。
6、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(2 )中所使用的模型形式為隱馬爾柯夫模型。
7、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(3 )中各種聲學特徵的統計模型是經過文本分析後得到每個目標音素的上下文環境描述信息，然後將這些信息輸入模型聚類決策樹而得到的。
8、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(4 )中滿足的似然值最大準則採用如下算法得到最優備選單formula see original document page 3其中，"'為最優備選單元序列，其中r, ^和^分別為頻譜、基頻和時長模型似然值的權值，輸入的一句待合成語句中音素的個數為m第"個目標音素 ( =在其所在的上下文環境下對應的頻譜、基頻、時長模型分別為為《，v和《；對於音素"的某一個備選" ，其對應的頻譜和基頻特徵向量序列參數記為=]T和=[《,，…，《y; ]r ，其中I表示單元" 的幀數，、和/V,分別表示單元中第i幀對應的頻譜和基頻特徵向量。
9、根據權利要求8所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述式(1)可以改寫成各個備選音素的目標代價和相鄰備選音素連接代價之和的形式，再使用維特比算法實現最優單元序列的搜索。
10、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(5 )中計算同一音素在兩個不同上下文環境下對應的H醒模型之間的KLD距離是通過以下算式計算得出的formula see original document page 3其中》，々和《為備選單元在其上下文環境下所對應的頻譜、基頻和時長模型。
11、根據權利要求1所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的步驟(6 )中對各個音素的最優備選單元採用了平移加窗疊加的方法進行波形拼接。
12、根據權利要求ll所述的基於聲學統計模型的單元挑選語音合成方法，其特徵在於所述的平移加窗疊加的方法為首先通過對拼接處前後兩幀進行平移以搜索波形相關係數最大時對應的平移位置，然後對平移後的波形進行時域的加窗疊加以實現拼接處的平滑過渡。
全文摘要
本發明涉及基於聲學統計模型的單元挑選語音合成方法，其方法包括提取訓練語料庫各聲學特徵；結合訓練語料庫中各句話的音段、韻律等標註信息，訓練各種聲學特徵所對應的統計模型，在合成時通過對輸入文本進行文本分析，得到待合成句子中各音素對應的各種聲學特徵的統計模型。以備選單元序列包含的聲學參數相對於待合成句的聲學統計模型具有最大的似然值為準則，搜索最優的備選單元；使用聲學統計模型間的KLD來實現合成單元的快速預挑選；最終通過對各個音素的最優備選單元的波形進行平滑和拼接，得到該句話的合成語音。本發明提高合成語音音質；同時提高傳統拼接合成方法的合成效果，並且可以實現系統的自動構建和語種的無關性。
文檔編號G10L13/02GK101178896SQ200710191078
公開日2008年5月14日申請日期2007年12月6日優先權日2007年12月6日
發明者凌震華, 劉慶峰, 吳曉如, 王仁華, 鬱胡, 胡國平申請人:安徽科大訊飛信息科技股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於聲學統計模型的單元挑選語音合成方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法