參數語音合成方法和系統的製作方法

2023-05-21 13:42:06 4

專利名稱：參數語音合成方法和系統的製作方法
技術領域：
本發明涉及參數語音合成技術領域，更為具體地，涉及一種連續合成任意時長語音的參數語音合成方法和系統。
背景技術：
語音合成通過機械、電子的方法產生人造語音，其是使人機互動更加自然的一項重要技術。當前常見的語音合成技術有兩類，一類是基於單元挑選和波形拼接的語音合成方法，另一類是基於聲學統計模型的參數語音合成方法。由於參數語音合成方法對存儲空間的要求相對較小，更適於應用在小型電子設備上。在參數語音合成方法中，分為訓練與合成兩個階段。在訓練階段，參見圖1，首先提取出語料庫中所有語音的聲學參數，這包括靜態參數，如頻譜包絡參數、基因頻率參數，和動態參數，如頻譜包絡參數和基音頻率參數的一階和二階差分參數；然後為每個音素根據其上下文標註信息訓練出對應的聲學統計模型，同時訓練出針對整個語料庫的全局方差模型；最後由所有音素的聲學統計模型及全局方差模型組成模型庫。在合成階段，採用分層離線處理的方式，進行語音的合成。如圖1所示，包括第一層分析輸入的整段文本得到所有帶上下文信息的音素組成音素序列。第二層從訓練好的模型庫中提取音素序列中每個音素對應的模型組成模型序列。第三層使用最大似然算法從模型序列中預測出每一幀語音對應的聲學參數組成語音參數序列。第四層使用全局方差模型對語音參數序列進行整體優化。第五層將所有優化後的語音參數序列輸入到參數語音合成器生成最終的合成語音。發明人在實現本發明的過程中，發現現有技術中至少存在如下缺陷現有的參數語音合成方法，在合成階段的分層操作中採用一種橫向的處理方式取出所有統計模型的參數、以最大似然算法預測生成所有幀的平滑參數、以全局方差模型得到所有幀的優化參數，最後從參數合成器輸出所有幀的語音，即在每一層都需要保存所有幀的相關參數，導致語音合成時所需的隨機存儲器(Random Access Memory, RAM)的容量隨著合成語音時長的增長呈正比例增加，而晶片上RAM的大小是固定的，很多應用中晶片的RAM小到不足100K字節，現有的參數語音合成方法無法在具有較小RAM的晶片上連續合成任意時長語音。下面結合上述合成階段中第三層和第四層的操作，進一步詳細說明造成上述問題的原因在上述合成階段的第三層操作中，參見圖4，運用最大似然算法從模型序列中預測出語音參數序列的實施過程必須通過逐幀前向遞推和後向遞推兩步來實現。在第一步遞推過程結束後，會為每幀語音產生對應的臨時參數。所有幀的臨時參數再輸入到第二步的反向遞推過程才能預測出所需的參數序列。當合成語音時長越長時，對應的語音幀數就越多，預測每幀語音參數時都會產生一幀對應的臨時參數。所有幀的臨時參數都必須保存在RAM 中，才能完成第二步的遞推預測過程，從而導致無法在具有較小RAM的晶片上連續合成任意時長語音。並且，第四層中的操作需要從第三層輸出的所有幀語音參數中計算出均值與方差，再運用全局方差模型對語音參數的平滑值進行整體優化生成最終的語音參數。因此，也需要相應幀數的RAM保存第三層輸出的所有幀的語音參數，也導致無法在具有較小RAM的晶片上連續合成任意時長語音。

發明內容
鑑於上述問題，本發明的目的是解決原有的語音合成過程中需要的RAM大小隨著合成語音長度呈正比例增加、進而無法在小RAM的晶片上連續合成出任意時長語音的問題。根據本發明的一個方面，提供了一種參數語音合成方法，包括訓練階段和合成階段，其中所述合成階段具體包括依次對輸入文本的音素序列中每一音素的每一幀語音進行如下處理對輸入文本的音素序列中的當前音素，從統計模型庫中提取相應的統計模型，並將該統計模型在當前音素當前幀下相應的模型參數作為當前所預測語音參數的粗略值；利用所述粗略值以及當前時刻之前預定數目語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值；根據統計得到的所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數；對生成的所述語音參數進行合成，得到對當前音素當前幀所合成的一幀語音。其中，優選的方案是，利用所述粗略值以及上一時刻語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值，該上一時刻語音幀的信息為上一時刻所預測語音參數的平滑值。此外，優選的方案是，利用如下公式，根據統計得到所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數yt - r - (yt - m) + mZi = w(yt-yt) + yt其中，yt為t時刻的語音參數在優化前的平滑值，Λ為初步優化後的值，w為權重值，Zt為全局優化後得到的所需的語音參數，r為統計得到的所預測語音參數的全局標準差比值，m為統計得到的所預測語音參數的全局均值，r和m的取值為常數。進一步的，本方案還包括利用子帶濁音度參數構造濁音子帶濾波器和清音子帶濾波器；將由基音頻率參數構造的準周期性脈衝序列，經過所述濁音子帶濾波器得到語音信號的濁音成分；將由白噪聲構造的隨機序列，經過所述清音子帶濾波器得到語音信號的清音成分；將所述濁音成分與清音成分相加得到混合激勵信號；將所述混合激勵信號通過由頻譜包絡參數構造的濾波器後輸出一幀合成的語音波形。進一步的，本方案在所述合成階段之前，所述方法還包括訓練階段，在訓練階段，從語料庫中提取的聲學參數僅包括靜態參數，或者，從語料庫中提取的聲學參數包括靜態參數和動態參數；訓練後所得到的統計模型的模型參數中僅保留靜態模型參數；在合成階段中，根據所述當前音素，將訓練階段中所得到所述統計模型在當前音素當前幀下相應的靜態模型參數作為當前所預測語音參數的粗略值。根據本發明的另一方面，提供了一種參數語音合成系統，包括循環合成裝置，用於在合成階段，依次對輸入文本的音素序列中每一音素的每一幀語音進行語音合成；所述循環合成裝置包括粗略搜索單元，用於對輸入文本的音素序列中的當前音素，從統計模型庫中提取相應的統計模型，並將該統計模型在當前音素當前幀下相應的模型參數作為當前所預測語音參數的粗略值；平滑濾波單元，用於利用所述粗略值以及當前時刻之前預定數目語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值；全局優化單元，用於根據統計得到的所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數；參數語音合成單元，用於對生成的所述語音參數進行合成，得到對當前音素當前幀所合成的一幀語音。進一步的，所述平滑濾波單元包括低通濾波器組，用於利用所述粗略值以及上一時刻語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值，該上一時刻語音幀的信息為上一時刻所預測語音參數的平滑值。進一步的，所述全局優化單元包括全局參數優化器，用於利用如下公式，根據統計得到所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數yt - r - (yt - m) + mZi =w-(y[-y[) + y[其中，yt為t時刻的語音參數在優化前的平滑值，Λ為初步優化後的值，w為權重值，Zt為全局優化後得到的所需的語音參數，r為統計得到的所預測語音參數的全局標準差比值，m為統計得到的所預測語音參數的全局均值，r和m的取值為常數。進一步的，所述參數語音合成單元，包括濾波器構造模塊，用於利用子帶濁音度參數構造濁音子帶濾波器和清音子帶濾波器；所述濁音子帶濾波器，用於對由基音頻率參數構造的準周期性脈衝序列進行濾波，得到語音信號的濁音成分；所述清音子帶濾波器，用於對由白噪聲構造的隨機序列進行濾波，得到語音信號的清音成分；加法器，用於將所述濁音成分與清音成分相加得到混合激勵信號；合成濾波器，用於將所述混合激勵信號通過由頻譜包絡參數構造的濾波器後輸出一幀合成的語音波形。
進一步的，所述系統還包括訓練裝置，用於在訓練階段，從語料庫中提取的聲學參數僅包括靜態參數，或者，從語料庫中提取的聲學參數包括靜態參數和動態參數；以及，在訓練後所得到的統計模型的模型參數中僅保留靜態模型參數；所述粗略搜索單元，具體用於在合成階段中，根據所述當前音素，將訓練階段中所得到所述統計模型在當前音素當前幀下相應的靜態模型參數作為當前所預測語音參數的粗略值。由上所述，本發明實施例的技術方案通過利用當前幀之前的語音幀的信息以及預先統計得到語音參數的全局均值和全局標準差比值等技術手段，提供了一種新型的參數語音合成方案。本發明所提供的參數語音合成方法和系統，採用縱向處理的合成方法，即每一幀語音的合成都需要經過取出統計模型粗略值、濾波得平滑值、全局優化得優化值、參數語音合成得語音四個步驟，之後每一幀語音的合成都再次重複這四個步驟，從而在參數語音合成處理的過程中僅需要保存當前幀需要的固定存儲容量的參數即可，使語音合成所需要的 RAM不會隨著合成語音長度的增加而增加，合成語音的時長不再受到RAM的限制。另外，本發明中所採用的聲學參數為靜態參數，在模型庫中也僅保存各模型的靜態均值參數，從而能夠有效減少統計模型庫的大小。再者，本發明在合成語音的過程中使用多子帶清濁混合激勵，使每個子帶中清音與濁音按照濁音度進行混合，從而使清音和濁音在時間上不再有明確的硬邊界，避免了語音合成後音質的明顯畸變。本方案能夠合成出具有較高連續性、一致性和自然度的語音，有助於語音合成方法在小存儲空間晶片上的推廣和應用。為了實現上述以及相關目的，本發明的一個或多個方面包括後面將詳細說明並在權利要求中特別指出的特徵。下面的說明以及附圖詳細說明了本發明的某些示例性方面。然而，這些方面指示的僅僅是可使用本發明的原理的各種方式中的一些方式。此外，本發明旨在包括所有這些方面以及它們的等同物

通過參考以下結合附圖的說明及權利要求書的內容，並且隨著對本發明的更全面理解，本發明的其它目的及結果將更加明白及易於理解。在附圖中圖1為現有技術中基於動態參數及最大似然準則的參數語音合成方法分階段示意圖；圖2為本發明一個實施例的參數語音合成方法的流程圖；圖3為本發明一個實施例的參數語音合成方法分階段示意圖；圖4為現有技術中基於動態參數的最大似然參數預測示意圖；圖5為本發明一個實施例的基於靜態參數的濾波平滑參數預測示意圖；圖6為根據本發明一個實施例的基於混合激勵的合成濾波器示意圖；圖7為現有技術中基於清/濁判決的合成濾波示意圖；圖8為本發明另一個實施例的參數語音合成系統的方框示意圖；圖9為本發明另一個實施例的參數語音合成單元的邏輯結構示意8
圖10為本發明又一個實施例的參數語音合成方法的流程圖；圖11為本發明又一個實施例的參數語音合成系統的結構示意圖。在所有附圖中相同的標號指示相似或相應的特徵或功能。
具體實施例方式以下將結合附圖對本發明的具體實施例進行詳細描述。圖2示出了根據本發明一個實施例的參數語音合成方法的流程圖。如圖2所示，本發明所提供的能夠連續合成任意時長語音的參數語音合成方法的實現包括如下步驟S210 分析輸入文本，根據對輸入文本的分析獲取包含上下文信息的音素序列；S220:依次取出上述音素序列中的一個音素，在統計模型庫中搜索所述音素的各聲學參數對應的統計模型，按幀取出所述音素的各統計模型作為待合成語音參數的粗略值；S230:使用濾波器組對上述待合成語音參數的粗略值進行參數平滑，得到平滑後的語音參數；S240:使用全局參數優化器對所述平滑後的語音參數進行全局參數優化，得到優化後的語音參數；S250:利用參數語音合成器對所述優化後的語音參數進行合成，輸出一幀合成語
曰；S260:判斷所述音素的所有幀是否都處理完畢，如果沒有，則對所述音素的下一幀重複步驟S220 S250的語音合成處理，直至處理完所述音素序列中的所有音素的所有幀。為了能夠進一步清楚的對本發明的參數語音合成技術進行說明，以突出本發明的技術特點，下面將分階段、分步驟與現有技術中的參數語音合成方法逐一進行對比說明。圖3為本發明實施例的參數語音合成方法分階段示意圖。如圖3所示，與現有技術中基於動態參數及最大似然準則的參數語音合成方法相類似，本發明的參數語音合成的實現也包括訓練和合成兩個階段，其中，訓練階段用於通過語料庫中的語音信息提取語音的聲學參數，並根據所提取的聲學參數訓練出每個音素在每個上下文信息時對應的統計模型，形成合成階段所需要的音素的統計模型庫。步驟S210 S260屬於合成階段，在合成階段，主要包括文本分析、參數預測和語音合成三部分，其中參數預測部分又可以細分為目標模型搜索、參數生成和參數優化三個環節。首先，在訓練階段提取訓練語料庫的聲學參數的過程中，本發明與現有參數語音合成技術的主要區別在於現有技術中所提取的聲學參數中包含動態參數，而本發明中所提取的聲學參數可以全部為靜態參數，也可以包含表徵前後幀參數變化的動態參數，如一階或二階差分參數，以提高模型訓練後的精度。具體地，本發明從語料庫中提取的聲學參數至少包括三種靜態參數頻譜包絡參數、基音頻率參數、子帶濁音度參數，還可以選擇性地包括其它如共振峰頻率等參數。其中，頻譜包絡參數可以是線性預測係數(LPC)或其衍生參數，如線譜對參數 (LSP)，也可以是倒譜類參數；還可以是前幾個共振峰的參數(頻率、帶寬、幅值)或者離散傅立葉變換係數。另外，還可以使用這些頻譜包絡參數在美爾域的變種，以改善合成語音的音質。基音頻率使用對數基音頻率，子帶濁音度為子帶中濁音所佔比重。除了上述靜態參數外，從語料庫中提取的聲學參數還可以包括表徵前後幀聲學參數變化的動態參數，如前後幾幀基音頻率間的一階或二階參數。訓練時要將各音素自動對齊到語料庫中大量的語音片段上，然後從這些語音片段中統計出該音素對應的聲學參數模型。聯合使用靜態參數和動態參數進行自動對齊的精度略高於僅使用靜態參數的情形，使得模型的參數更準確。但是，由於本發明在合成階段並不需要模型中的動態參數，因此，本發明在最終訓練出的模型庫中僅保留靜態參數。在根據所提取的聲學參數訓練出每個音素在不同上下文信息時各聲學參數對應的統計模型的過程中，採用隱馬爾可夫模型(HMM，Hidden Markov Model)對各聲學參數進行建模。具體地，對於頻譜包絡參數與子帶濁音度參數，使用連續概率分布的HMM建模，而對於基音頻率則採用多空間概率分布的HMM建模。這種建模方案為現有技術中已有的建模方案，因此在下面的表述中只對該建模方案作簡單的說明。HMM是一種典型的統計信號處理方法，由於其隨機性、可以處理未知字長的字符串輸入、可以有效的避開切分的問題以及具有大量快速有效的訓練和識別算法等特點，被廣泛應用於信號處理的各個領域。HMM的結構為5個狀態左右型，每個狀態上觀察概率的分布為單高斯密度函數。而該函數由參數的均值和方差唯一確定。所述的均值由靜態參數的均值、動態參數(一階與二階差分)的均值組成。所述的方差由靜態參數的方差、動態參數(一階與二階差分)的方差組成。訓練時根據上下文信息為每個音素的各聲學參數訓練出一個模型，為了提高模型訓練的穩健性，需要根據音素的上下文信息對相關的音素進行聚類，如採用基於決策樹的聚類方法。在上述聲學參數對應的模型訓練完成之後，再使用這些模型對訓練語料庫中的語音進行幀到狀態的強制對齊，然後利用對齊過程中產生的時長信息(即各狀態對應的幀數)，訓練音素在不同上下文信息時採用決策樹聚類後的狀態時長模型，最終由每個音素在不同上下文信息時的各聲學參數對應的統計模型形成統計模型庫。在訓練完成後，本發明在模型庫中僅保存各模型的靜態均值參數。而現有的參數語音合成方法則需要保留靜態均值參數、一階差分參數、二階差分的均值參數及這些參數所對應的方差參數，統計模型庫較大。實踐證明，在本發明中，僅保存各模型的靜態均值參數的統計模型庫的大小只有現有技術中形成的統計模型庫的約1/6，極大地減少了統計模型庫的存儲空間。其中，所減少的數據雖然在現有的參數語音合成技術中是必須的，但對於本發明提供的參數語音合成技術方案則是不需要的，因此，數據量的減少並不會影響本發明參數語音合成的實現。在合成階段，首先需要對輸入的文本進行分析，以便從中提取出包含上下文信息的音素序列(步驟S210)，作為參數合成的基礎。在此，音素的上下文信息指的是與當前音素前後相鄰的音素的信息，這些上下文信息可以是其前後一個或幾個音素的名稱，也可以包含其它語言層或音韻層的信息。比如，一個音素的上下文信息包括當前音素名、前後兩個音素名、所在音節的音調或者重音，還可以選擇性地包括所在詞的詞性等。在確定了輸入文本中包含上下文信息的音素序列之後，就可以依次取出序列中的一個音素，在統計模型庫中搜索該音素的各聲學參數對應的統計模型，然後按幀取出該音素的各統計模型作為待合成語音參數的粗略值(步驟S220)。在目標統計模型的搜索過程中，將音素的上下文標註信息輸入到聚類決策樹中，即可搜索出頻譜包絡參數、基音頻率參數、子帶濁音度參數、狀態時長參數對應的統計模型。其中的狀態時長參數不是從原始語料庫中提取的靜態聲學參數，它是在訓練中作狀態與幀的對齊時生成的新參數。從模型各狀態中依次取出所保存的靜態參數的均值即為各參數對應的靜態均值參數。其中，狀態時長均值參數被直接用於確定待合成的某個音素中各狀態該持續多少幀，而頻譜包絡、基音頻率、子帶濁音度等靜態均值參數就是待合成語音參數的粗略值。在確定了待合成語音參數的粗略值之後，基於濾波器組對所確定的語音參數粗略值進行濾波，從而預測語音參數(步驟S230)。在這一步驟中，利用一組專門的濾波器分別對頻譜包絡、基音頻率和子帶濁音度進行濾波，以預測合成效果更好的語音參數值。本發明在步驟S230中所採用的濾波方法為基於靜態參數的平滑濾波方法。圖5為本發明基於靜態參數的濾波平滑參數預測示意圖，如圖5所示，本發明用這組參數預測濾波器取代了現有的參數語音合成技術中的最大似然參數預測器，利用一組低通濾波器用以分別預測待合成語音參數的頻譜包絡參數、基音頻率參數、子帶濁音度參數。處理過程如公式(1)所示yt = ht*xt (1)其中，t表示時間為第t巾貞，^是從模型中得到的某個語音參數在第t幀時的粗略值，yt為經過濾波平滑後的值，運算符*表示卷積，ht為預先設計好的濾波器的衝擊響應。對於不同類型的聲學參數，由於參數特性不同，ht可以被設計成不同的表示。對於頻譜包絡參數、子帶濁音度參數，可使用公式( 所示的濾波器進行參數的預測。yt = α · yt_1+(l-a) · Xt (2)其中，α為預先設計好的固定的濾波器係數，α的選擇可根據實際語音中頻譜包絡參數、子帶濁音度隨時間變化的快慢程度由實驗確定。對於基音頻率參數，則可使用公式(3)所示的濾波器進行參數的預測。yt = β . y^+d-β) · xt (3)其中，β為預先設計好的固定的濾波器係數，β的選擇可根據實際語音中基音頻率參數隨時間變化的快慢程度由實驗確定。可以看出，本發明所使用的這組濾波器在預測待合成語音參數的過程中所涉及的參數不會延及將來的參數，某一時刻的輸出幀僅僅依賴於該時刻及之前的輸入幀或該時刻的前一時刻的輸出幀，而與將來的輸入或輸出幀無關，從而使濾波器組所需要的RAM大小能夠事先固定。也就是說，在本發明中，運用公式( 和( 預測語音的聲學參數時，當前幀的輸出參數僅依賴於當前幀的輸入及前一幀的輸出參數。這樣，整個參數的預測過程使用固定大小的RAM緩存即可現實，不會隨著待合成語音時長的增加而增加，從而就可以連續預測出任意時長的語音參數，解決了現有技術中運用最大似然準則預測參數過程中所需RAM隨合成語音時長呈正比例增長的問題。由上述公式( 和( 可以看出，本方案在使用濾波器組對當前時刻的待合成語音參數的粗略值進行參數平滑時，可以根據該時刻的粗略值以及上一時刻語音幀的信息，對該粗略值進行濾波，得到平滑後的語音參數。在此，上一時刻語音幀的信息為上一時刻所預測語音參數的平滑值。在預測出語音參數的平滑值之後，就可以使用全局參數優化器對平滑後的各語音參數進行優化，進而確定優化後的語音參數(步驟SM0)。為了使合成語音參數的方差與訓練語料庫中語音參數的方差一致，改善合成語音的音質，本發明在優化語音參數的過程中，使用下面的公式(4)對合成語音參數的變化範圍進行調節。
權利要求
1.一種參數語音合成方法，包括在合成階段，依次對輸入文本的音素序列中每一音素的每一幀語音進行如下處理對輸入文本的音素序列中的當前音素，從統計模型庫中提取相應的統計模型，並將該統計模型在當前音素當前幀下相應的模型參數作為當前所預測語音參數的粗略值；利用所述粗略值以及當前時刻之前預定數目語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值；根據統計得到的所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數；對生成的所述語音參數進行合成，得到對當前音素當前幀所合成的一幀語音。
2.根據權利要求1所述的方法，其特徵在於，所述利用所述粗略值以及當前時刻之前預定數目語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值具體包括利用所述粗略值以及上一時刻語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值；其中，所述上一時刻語音幀的信息為上一時刻所預測語音參數的平滑值。
3.根據權利要求1所述的方法，其特徵在於，利用如下公式，根據統計得到所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數 yt =r-(yt-m) + mzt =^<yt-yt)+yt其中，yt為t時刻的語音參數在優化前的平滑值，滅為初步優化後的值，W為權重值，Zt 為全局優化後得到的所需的語音參數，r為統計得到的所預測語音參數的全局標準差比值， m為統計得到的所預測語音參數的全局均值，r和m的取值為常數。
4.根據權利要求1所述的方法，其特徵在於，所述對生成的所述語音參數進行合成，得到對當前音素當前幀所合成的一幀語音包括利用子帶濁音度參數構造濁音子帶濾波器和清音子帶濾波器；將由基音頻率參數構造的準周期性脈衝序列，經過所述濁音子帶濾波器得到語音信號的濁音成分；將由白噪聲構造的隨機序列，經過所述清音子帶濾波器得到語音信號的清音成分；將所述濁音成分與清音成分相加得到混合激勵信號；將所述混合激勵信號通過由頻譜包絡參數構造的濾波器後輸出一幀合成的語音波形。
5.根據權利要求1所述的方法，其特徵在於，在所述合成階段之前，所述方法還包括訓練階段，在訓練階段，從語料庫中提取的聲學參數僅包括靜態參數，或者，從語料庫中提取的聲學參數包括靜態參數和動態參數；訓練後所得到的統計模型的模型參數中僅保留靜態模型參數；合成階段中所述將該統計模型在當前音素當前幀下相應的模型參數作為當前所預測語音參數的粗略值具體為根據所述當前音素，將訓練階段中所得到所述統計模型在當前音素當前幀下相應的靜態模型參數作為當前所預測語音參數的粗略值。
6.一種參數語音合成系統，包括循環合成裝置，用於在合成階段，依次對輸入文本的音素序列中每一音素的每一幀語音進行語音合成；所述循環合成裝置包括粗略搜索單元，用於對輸入文本的音素序列中的當前音素，從統計模型庫中提取相應的統計模型，並將該統計模型在當前音素當前幀下相應的模型參數作為當前所預測語音參數的粗略值；平滑濾波單元，用於利用所述粗略值以及當前時刻之前預定數目語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值；全局優化單元，用於根據統計得到的所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數；參數語音合成單元，用於對生成的所述語音參數進行合成，得到對當前音素當前幀所合成的一幀語音。
7.根據權利要求6所述的系統，其中，所述平滑濾波單元包括低通濾波器組，所述低通濾波器組，用於利用所述粗略值以及上一時刻語音幀的信息，對所述粗略值進行濾波，得到當前所預測語音參數的平滑值；其中，所述上一時刻語音幀的信息為上一時刻所預測語音參數的平滑值。
8.根據權利要求6所述的系統，其中，所述全局優化單元包括全局參數優化器，所述全局參數優化器，用於利用如下公式，根據統計得到所述語音參數的全局均值和全局標準差比值，對所述當前所預測語音參數的平滑值進行全局優化，生成所需的語音參數yt =r-(yt-m) + mzt =^<yt-yt)+yt其中，yt為t時刻的語音參數在優化前的平滑值，滅為初步優化後的值，W為權重值，Zt 為全局優化後得到的所需的語音參數，r為統計得到的所預測語音參數的全局標準差比值， m為統計得到的所預測語音參數的全局均值，r和m的取值為常數。
9.根據權利要求6所述的系統，其中，所述參數語音合成單元，包括濾波器構造模塊，用於利用子帶濁音度參數構造濁音子帶濾波器和清音子帶濾波器；所述濁音子帶濾波器，用於對由基音頻率參數構造的準周期性脈衝序列進行濾波，得到語音信號的濁音成分；所述清音子帶濾波器，用於對由白噪聲構造的隨機序列進行濾波，得到語音信號的清音成分；加法器，用於將所述濁音成分與清音成分相加得到混合激勵信號；合成濾波器，用於將所述混合激勵信號通過由頻譜包絡參數構造的濾波器後輸出一幀合成的語音波形。
10.根據權利要求6所述的系統，其特徵在於，所述系統還包括訓練裝置，所述訓練裝置，用於在訓練階段，從語料庫中提取的聲學參數僅包括靜態參數，或者，從語料庫中提取的聲學參數包括靜態參數和動態參數；以及，在訓練後所得到的統計模型的模型參數中僅保留靜態模型參數；所述粗略搜索單元，具體用於在合成階段中，根據所述當前音素，將訓練階段中所得到所述統計模型在當前音素當前幀下相應的靜態模型參數作為當前所預測語音參數的粗略值。
全文摘要
本發明提供了一種參數語音合成方法和系統，該方法包括依次對輸入文本的音素序列中每一音素的每一幀語音進行如下處理對當前音素，從統計模型庫中提取相應的統計模型，並將該統計模型在當前音素當前幀下相應的模型參數作為當前所預測語音參數的粗略值；利用粗略值以及當前時刻之前預定數目語音幀的信息，得到當前所預測語音參數的平滑值；根據統計得到的語音參數的全局均值和全局標準差比值，對語音參數的平滑值進行全局優化，生成所需的語音參數；對生成的所述語音參數進行合成，得到對當前音素當前幀所合成的一幀語音。利用本方案，能夠使語音合成所需要的RAM不會隨著合成語音長度的增加而增加，合成語音的時長不再受到RAM的限制。
文檔編號G10L19/08GK102385859SQ20111033182
公開日2012年3月21日申請日期2011年10月27日優先權日2011年8月10日
發明者吳鳳梁, 職振華申請人:歌爾聲學股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

參數語音合成方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法