基於信號時序特徵建模的高質量語音轉換方法

2023-09-18 21:56:05

專利名稱：基於信號時序特徵建模的高質量語音轉換方法
技術領域：
本發明涉及語音轉換技術，是一種結合語音識別和語音合成技術，實現變換一個說話人的聲音，使其聽起來像另外某個特定的說話人聲音的技術，尤其涉及一種基於信號時序特徵建模的高質量語音轉換方法。
背景技術：
語音轉換技術是語音信號處理領域近年來新興的研究分支，涵蓋了語音識別和語音合成等領域的內容，擬在保持語義內容不變的情況下，通過改變一個特定說話人(被稱為源說話人)的話音個性特徵，使他(或她)說的話被聽者認為是另一個特定說話人(被稱為目標說話人)說的話。語音轉換的主要任務包括提取代表說話人個性的特徵參數並進行數學變換，然後將變換後的參數重構成語音。在這過程中，既要保持重構語音的聽覺質量，又要兼顧轉換後的個性特徵是否準確。
經過多年的發展，語音轉換領域已經湧現出一些高效實用的算法，其中以高斯混合模型為代表的統計轉換方法目前已儼然成為了該領域公認的標準。但是這類算法亦存在某些弊端，例如人為假設數據滿足獨立同分布的條件，並在特徵轉換的過程中強制轉換方式以逐幀的次序進行。這種忽略了幀間參數相關性的做法雖然極大的簡化了問題，降低了求解難度，但是卻違背了語音信號存在強相關性的事實，導致模型描述信號時變特性的能力下降，最終影響語音轉換的效果。
針對上述問題，目前已存在一些應對方案。例如，比較典型的是利用「差分特徵參數」的思想。所謂「差分特徵參數」是指在進行高斯混合模型建模時，將原先的聯合特徵矢量擴展成包含一階差分的特徵矢量。這樣一來，幀間參數的漸變特性就被吸收進了新的特徵參數，從而在一定程度上彌補了該模型缺乏對動態特性建模的缺陷。另一方面，為了徹底避免高斯混合模型固有的獨立性假設的缺陷，一些新的語音轉換方案開始採用隱馬爾可夫模型作為基本映射模型。該模型的主要特點是可以精確地控制信號的時序特徵，並且在物理層面上與語音信號的產生和轉變有著莫大的聯繫。發明內容
發明目的為了克服現有技術中存在的不足，本發明提供一種基於信號時序特徵建模的高質量語音轉換方法，通過混合式卡爾曼濾波器，給出了模型利用原始數據更新自身參數的算法；並在平行數據的條件下，將語音信號中包含的語義信息哈說話人個性信息分別賦予模型的隱層和顯層，是一種在保持語義信息不便的條件下，靈活轉換說話人個性息的方法。
技術方案為實現上述目的，本發明採用的技術方案為
基於信號時序特徵建模的高質量語音轉換方法，針對源和目標的平行數據，考慮對其時序特徵進行建模和跟蹤，利用混合式卡爾曼濾波器，並在期望最大化準則下估計模型結構參數，最終利用該模型映射語音的特徵參數集合，實現高質量的語音轉換效果；具體包括如下步驟
(I)採用語音分析模型對原始語音信號進行分析；
(2)從分析得到的參數中提取與音素相關的特徵參數集合；
(3)對源和目標的特徵參數集合進行歸一化操作，實現參數集合的對齊；
(4)將對齊的參數集合分別用作混合式卡爾曼濾波器的輸入和輸出，實現模型參數的訓練和估計；
(5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數，基於特徵參數映射方法映射任意的語音信號參數；
(6)對轉換後的特徵參數進行反變換操作，即進行參數內插和相位補償，最後用語音合成模型合成為高質量的語音；
上述步驟中，步驟(I) (4)為訓練步驟，步驟(5) (6)為轉換步驟；所述混合式卡爾曼濾波器的結構為在經典的卡爾曼濾波器結構上新增一個隱層，所述隱層用於描述時序信號狀態之間的漸變效果。
所述混合式卡爾曼濾波器，由於隱層能夠使得每個時刻的觀察變量均有可能處於不同的狀態，對每個時刻觀察到的變量通過計算狀態概率、觀測概率以及與之對應的後驗概率，獲得對不同時刻的觀察變量數據底層屬性的分類知識；利用獲得的分類知識，設計變量轉移規則，用以描述信號隨時間變化的特徵；利用貝葉斯推理，使模型參數的估計存在不確定性，即保留了每種狀態的後驗概率，從而形成了所謂的混合度。該混合式爾曼濾波器克服了經典卡爾曼濾波器在跟蹤快變時序信號時出現的發散式困難，使得結果更加精確。
所述步驟(I)中的語音分析模型的工作過程包括如下步驟
(al)對語音信號進行固定時長的分幀，用互相關法對基音頻率進行估計；
(a2)在濁音信號部分設置一個最大濁音頻率分量，用來劃分諧波成分和隨機成分的主能量區域；再利用最小二乘算法估計得到離散的諧波幅度值和相位值；
(a3)在清音階段，利用經典的線性預測分析法對其進行分析，從而得到線性預測係數。
與步驟(I)中的語音分析模型相對應的，步驟￠)中的語音合成模型的工作過程包括如下步驟
(bl)將濁音部分信號的離散的諧波幅度和相位值用作正弦信號的幅度值和相位值，並進行疊加；運用內插技術和相位補償技術使得重構信號在時域波形上不產生失真；
(b2)將清音部分信號的白噪聲信號通過一個全極點濾波器，即可得到近似重構信號;
(b3)將濁音部分信號和清音部分信號進行疊加，即得到重構的語音信號。
所述步驟(2)包括從離散的諧波幅度值中估計出適用於語音轉換任務的線譜頻率係數工作過程，該工作過程包括如下步驟
(bl)對離散的諧波幅度求取平方；
(b2)根據功率譜密度函數和自相關函數的一一對應關係，得到關於線性預測係數的託普裡茨矩陣方程，求解該方程；
(b3)將線性預測係數轉換為目標線譜頻率係數。
所述步驟(3)中實現參數集合的對齊的對其準則為對於兩個不等長的特徵參數序列，利用動態規劃的思想將其中一者的時間軸非線性的映射到另一者的時間軸上，從而實現一對應的匹配關係；在現參數集合的對齊的過程中，通過迭代優化一個預設的累積失真函數，並限制搜索區域，最終獲得時間匹配函數。
所述步驟(5)中的特徵參數映射方法包括如下步驟
(Cl)充分利用平行數據的包含相同語義信息和不同說話人個性特徵信息的特點，在假設隱層狀態變量代表語義信息的基礎上，保證源和目標各自的混合式卡爾曼濾波器的隱層結構處於共享狀態；接著在期望最大化準則下估計觀測層變量的統計特性；
(c2)在步驟(Cl)的基礎上，比較源和目標模型結構的差異性，將這種差異性視為說話人不同個性的一種體現；
(c3)結合卡爾曼濾波器描述時變信號的能力，將這種差異性從源的特徵空間映射到目標的特徵空間，從而完成參數的轉換過程。
有益效果本發明提供的基於信號時序特徵的高質量語音轉換方法，充分利用了語音信號參數間的強烈相關性，通過模擬參數隨時間變化的物理過程，構造了一種新型的混合式卡爾曼濾波器，並將其用於語音轉換的參數映射過程，設計了一套特殊的、將卡爾曼濾波器參數與語音信號物理屈性相關聯的轉換算法，實現說話人個性特徵的變換。

圖1為混合式卡爾曼濾波器結構；
圖2為本發明涉及的系統訓練框圖3為本發明涉及的系統轉換框圖。
具體實施方式
下面結合附圖對本發明作更進一步的說明。
基於信號時序特徵建模的高質量語音轉換方法，針對源和目標的平行數據，考慮對其時序特徵進行建模和跟蹤，利用混合式卡爾曼濾波器，並在期望最大化準則下估計模型結構參數，最終利用該模型映射語音的特徵參數集合，實現高質量的語音轉換效果；具體包括如下步驟
(I)採用語音分析模型對原始語音信號進行分析；
(2)從分析得到的參數中提取與音素相關的特徵參數集合；
(3)對源和目標的特徵參數集合進行歸一化操作，實現參數集合的對齊；
(4)將對齊的參數集合分別用作混合式卡爾曼濾波器的輸入和輸出，實現模型參數的訓練和估計；
(5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數，基於特徵參數映射方法映射任意的語音信號參數；
(6)對轉換後的特徵參數進行反變換操作，即進行參數內插和相位補償，最後用語音合成模型合成為高質量的語音；
上述步驟中，步驟(I) (4)為訓練步驟，步驟(5) (6)為轉換步驟；所述混合式卡爾曼濾波器的結構為在經典的卡爾曼濾波器結構上新增一個隱層，所述隱層用於描述時序信號狀態之間的漸變效果。
本案是針對高斯混合模型在語音轉換中存在的問題，提出一種新的解決方案，本案有兩個關鍵點一是設計了一種混合式的卡爾曼濾波器，並給出了模型利用原始數據更新自身參數的算法；二是在平行數據的條件下，將語音信號中包含的語義信息和說話人個性信息分別賦予模型的隱層和顯層，提出了一種在保持語義信息不變的條件下，靈活轉換說話人個性信息的方法。
混合式卡爾曼濾波器結構如圖1所示。其中，加陰影的圓形表示觀測變量，白色的方形表示隱變量。從圖中可以明顯看到混合式卡爾曼濾波器有兩個隱層，其中一層(以變量Z= Iz1, z2，-zt, ···}表示)用來描述狀態變量所屈的類別，是本發明的創新點之一。 SShX=UyX2,…，xt，···}用來表示連續的狀態變量，Y = {ypy^…，yt，···}則表示觀測變量本身。整個過程可以用下式表示
xt = Atxt_1+wt (I)
yt = Btxt+vt(2)
其中
At e {Am, m = 1,2,…M}，B, e {Bm, m = 1,2,…Μ} (3)
wt e {wm, m = 1,2,…Μ},ν, e {vm, m = 1,2,…Μ}
聯合(1)-(3)式說明所有的參數均有M個類別。在每個時刻，該模型會從M個候選類別中預測出當前過程應該屬於哪個類別，然後用該類別的模型參數擬合數據。假設Wm 和Vm均服從均值為0，協方差分別為Qm和Rm的多維高斯分布，則整個未知模型參數集合可以表示為θ = {θ1，Θ2，…，Om，... ΘΜ}，其中 Om= {Am，Bm，Qm，Rm}。
在本發明中，混合式卡爾曼濾波器的模型參數是通過期望最大化方法估計出來的，即將目標函數定義為
權利要求
1.基於信號時序特徵建模的高質量語音轉換方法，其特徵在於針對源和目標的平行數據，考慮對其時序特徵進行建模和跟蹤，利用混合式卡爾曼濾波器，並在期望最大化準則下估計模型結構參數，最終利用該模型映射語音的特徵參數集合，實現高質量的語音轉換效果；具體包括如下步驟 (1)採用語音分析模型對原始語音信號進行分析； (2)從分析得到的參數中提取與音素相關的特徵參數集合； (3)對源和目標的特徵參數集合進行歸一化操作，實現參數集合的對齊； (4)將對齊的參數集合分別用作混合式卡爾曼濾波器的輸入和輸出，實現模型參數的訓練和估計； (5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數，基於特徵參數映射方法映射任意的語音信號參數； (6)對轉換後的特徵參數進行反變換操作，即進行參數內插和相位補償，最後用語音合成模型合成為高質量的語音；上述步驟中，步驟(I) (4)為訓練步驟，步驟(5) (6)為轉換步驟；所述混合式卡爾曼濾波器的結構為在經典的卡爾曼濾波器結構上新增ー個隱層，所述隱層用於描述時序信號狀態之間的漸變效果。
2.根據權利要求1所述的基於信號時序特徵建模的高質量語音轉換方法，其特徵在於所述步驟(I)中的語音分析模型的工作過程包括如下步驟 (al)對語音信號進行固定時長的分幀，用互相關法對基音頻率進行估計； (a2)在濁音信號部分設置ー個最大濁音頻率分量，用來劃分諧波成分和隨機成分的主能量區域；再利用最小ニ乘算法估計得到離散的諧波幅度值和相位值； (a3)在清音階段，利用經典的線性預測分析法對其進行分析，從而得到線性預測係數。
3.根據權利要求2所述的基於信號時序特徵建模的高質量語音轉換方法，其特徵在於所述步驟(2)包括從離散的諧波幅度值中估計出適用於語音轉換任務的線譜頻率係數工作過程，該工作過程包括如下步驟 (bl)對離散的諧波幅度求取平方； (b2)根據功率譜密度函數和自相關函數的一一對應關係，得到關於線性預測係數的託普裡茨矩陣方程，求解該方程； (b3)將線性預測係數轉換為目標線譜頻率係數。
4.根據權利要求1所述的基於信號時序特徵建模的高質量語音轉換方法，其特徵在於所述步驟(3)中實現參數集合的對齊的對其準則為對於兩個不等長的特徵參數序列，利用動態規劃的思想將其中一者的時間軸非線性的映射到另ー者的時間軸上，從而實現一一對應的匹配關係；在現參數集合的對齊的過程中，通過迭代優化ー個預設的累積失真函數，並限制捜索區域，最終獲得時間匹配函數。
5.根據權利要求1所述的基於信號時序特徵建模的高質量語音轉換方法，其特徵在於所述步驟(5)中的特徵參數映射方法包括如下步驟 (Cl)充分利用平行數據的包含相同語義信息和不同說話人個性特徵信息的特點，在假設隱層狀態變量代表語義信息的基礎上，保證源和目標各自的混合式卡爾曼濾波器的隱層結構處於共享狀態；接著在期望最大化準則下估計觀測層變量的統計特性；(c2)在步驟(cl)的基礎上，比較源和目標模型結構的差異性，將這種差異性視為說話人不同個性的一種體現； (c3)結合卡爾曼濾波器描述時變信號的能力，將這種差異性從源的特徵空間映射到目標的特徵空間，從而完成參數的轉換過程。
6.根據權利要求2所述的基於信號時序特徵建模的高質量語音轉換方法，其特徵在於所述步驟(6)中的語音合成模型的工作過程包括如下步驟 (bl)將濁音部分信號的離散的諧波幅度和相位值用作正弦信號的幅度值和相位值，並進行疊加；運用內插技術和相位補償技術使得重構信號在時域波形上不產生失真； (b2)將清音部分信號的白噪聲信號通過ー個全極點濾波器，即可得到近似重構信號； (b3)將濁音部分信號和清音部分信號進行疊加，即得到重構的語音信號。
全文摘要
本發明公開了一種基於信號時序特徵建模的高質量語音轉換方法，針對源和目標的平行數據，考慮對其時序特徵進行建模和跟蹤，利用混合式卡爾曼濾波器，並在期望最大化準則下估計模型結構參數，最終利用該模型映射語音的特徵參數集合，實現高質量的語音轉換效果。本發明提供的基於信號時序特徵的高質量語音轉換方法，充分利用了語音信號參數間的強烈相關性，通過模擬參數隨時間變化的物理過程，構造了一種新型的混合式卡爾曼濾波器，並將其用於語音轉換的參數映射過程，設計了一套特殊的、將卡爾曼濾波器參數與語音信號物理屬性相關聯的轉換算法，實現說話人個性特徵的變換。
文檔編號G10L15/06GK103035236SQ20121049046
公開日2013年4月10日申請日期2012年11月27日優先權日2012年11月27日
發明者徐寧, 鮑靜益, 湯一彬申請人:河海大學常州校區

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於信號時序特徵建模的高質量語音轉換方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法