新四季網

基於信號時序特徵建模的高質量語音轉換方法

2023-09-18 21:56:05

專利名稱:基於信號時序特徵建模的高質量語音轉換方法
技術領域:
本發明涉及語音轉換技術,是一種結合語音識別和語音合成技術,實現變換一個 說話人的聲音,使其聽起來像另外某個特定的說話人聲音的技術,尤其涉及一種基於信號 時序特徵建模的高質量語音轉換方法。
背景技術:
語音轉換技術是語音信號處理領域近年來新興的研究分支,涵蓋了語音識別和語 音合成等領域的內容,擬在保持語義內容不變的情況下,通過改變一個特定說話人(被稱 為源說話人)的話音個性特徵,使他(或她)說的話被聽者認為是另一個特定說話人(被稱 為目標說話人)說的話。語音轉換的主要任務包括提取代表說話人個性的特徵參數並進行 數學變換,然後將變換後的參數重構成語音。在這過程中,既要保持重構語音的聽覺質量, 又要兼顧轉換後的個性特徵是否準確。
經過多年的發展,語音轉換領域已經湧現出一些高效實用的算法,其中以高斯混 合模型為代表的統計轉換方法目前已儼然成為了該領域公認的標準。但是這類算法亦存在 某些弊端,例如人為假設數據滿足獨立同分布的條件,並在特徵轉換的過程中強制轉換方 式以逐幀的次序進行。這種忽略了幀間參數相關性的做法雖然極大的簡化了問題,降低了 求解難度,但是卻違背了語音信號存在強相關性的事實,導致模型描述信號時變特性的能 力下降,最終影響語音轉換的效果。
針對上述問題,目前已存在一些應對方案。例如,比較典型的是利用「差分特徵參 數」的思想。所謂「差分特徵參數」是指在進行高斯混合模型建模時,將原先的聯合特徵矢 量擴展成包含一階差分的特徵矢量。這樣一來,幀間參數的漸變特性就被吸收進了新的特 徵參數,從而在一定程度上彌補了該模型缺乏對動態特性建模的缺陷。另一方面,為了徹底 避免高斯混合模型固有的獨立性假設的缺陷,一些新的語音轉換方案開始採用隱馬爾可夫 模型作為基本映射模型。該模型的主要特點是可以精確地控制信號的時序特徵,並且在物 理層面上與語音信號的產生和轉變有著莫大的聯繫。發明內容
發明目的為了克服現有技術中存在的不足,本發明提供一種基於信號時序特徵 建模的高質量語音轉換方法,通過混合式卡爾曼濾波器,給出了模型利用原始數據更新自 身參數的算法;並在平行數據的條件下,將語音信號中包含的語義信息哈說話人個性信息 分別賦予模型的隱層和顯層,是一種在保持語義信息不便的條件下,靈活轉換說話人個性息的方法。
技術方案為實現上述目的,本發明採用的技術方案為
基於信號時序特徵建模的高質量語音轉換方法,針對源和目標的平行數據,考慮 對其時序特徵進行建模和跟蹤,利用混合式卡爾曼濾波器,並在期望最大化準則下估計模 型結構參數,最終利用該模型映射語音的特徵參數集合,實現高質量的語音轉換效果;具體包括如下步驟
(I)採用語音分析模型對原始語音信號進行分析;
(2)從分析得到的參數中提取與音素相關的特徵參數集合;
(3)對源和目標的特徵參數集合進行歸一化操作,實現參數集合的對齊;
(4)將對齊的參數集合分別用作混合式卡爾曼濾波器的輸入和輸出,實現模型參數的訓練和估計;
(5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數,基於特徵參數映射方法映射任意的語音信號參數;
(6)對轉換後的特徵參數進行反變換操作,即進行參 數內插和相位補償,最後用語音合成模型合成為高質量的語音;
上述步驟中,步驟(I) (4)為訓練步驟,步驟(5) (6)為轉換步驟;所述混合式卡爾曼濾波器的結構為在經典的卡爾曼濾波器結構上新增一個隱層,所述隱層用於描述時序信號狀態之間的漸變效果。
所述混合式卡爾曼濾波器,由於隱層能夠使得每個時刻的觀察變量均有可能處於不同的狀態,對每個時刻觀察到的變量通過計算狀態概率、觀測概率以及與之對應的後驗概率,獲得對不同時刻的觀察變量數據底層屬性的分類知識;利用獲得的分類知識,設計變量轉移規則,用以描述信號隨時間變化的特徵;利用貝葉斯推理,使模型參數的估計存在不確定性,即保留了每種狀態的後驗概率,從而形成了所謂的混合度。該混合式爾曼濾波器克服了經典卡爾曼濾波器在跟蹤快變時序信號時出現的發散式困難,使得結果更加精確。
所述步驟(I)中的語音分析模型的工作過程包括如下步驟
(al)對語音信號進行固定時長的分幀,用互相關法對基音頻率進行估計;
(a2)在濁音信號部分設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區域;再利用最小二乘算法估計得到離散的諧波幅度值和相位值;
(a3)在清音階段,利用經典的線性預測分析法對其進行分析,從而得到線性預測係數。
與步驟(I)中的語音分析模型相對應的,步驟¢)中的語音合成模型的工作過程包括如下步驟
(bl)將濁音部分信號的離散的諧波幅度和相位值用作正弦信號的幅度值和相位值,並進行疊加;運用內插技術和相位補償技術使得重構信號在時域波形上不產生失真;
(b2)將清音部分信號的白噪聲信號通過一個全極點濾波器,即可得到近似重構信號;
(b3)將濁音部分信號和清音部分信號進行疊加,即得到重構的語音信號。
所述步驟(2)包括從離散的諧波幅度值中估計出適用於語音轉換任務的線譜頻率係數工作過程,該工作過程包括如下步驟
(bl)對離散的諧波幅度求取平方;
(b2)根據功率譜密度函數和自相關函數的一一對應關係,得到關於線性預測係數的託普裡茨矩陣方程,求解該方程;
(b3)將線性預測係數轉換為目標線譜頻率係數。
所述步驟(3)中實現參數集合的對齊的對其準則為對於兩個不等長的特徵參數序列,利用動態規劃的思想將其中一者的時間軸非線性的映射到另一者的時間軸上,從而 實現一對應的匹配關係;在現參數集合的對齊的過程中,通過迭代優化一個預設的累積失 真函數,並限制搜索區域,最終獲得時間匹配函數。
所述步驟(5)中的特徵參數映射方法包括如下步驟
(Cl)充分利用平行數據的包含相同語義信息和不同說話人個性特徵信息的特點, 在假設隱層狀態變量代表語義信息的基礎上,保證源和目標各自的混合式卡爾曼濾波器的 隱層結構處於共享狀態;接著在期望最大化準則下估計觀測層變量的統計特性;
(c2)在步驟(Cl)的基礎上,比較源和目標模型結構的差異性,將這種差異性視為 說話人不同個性的一種體現;
(c3)結合卡爾曼濾波器描述時變信號的能力,將這種差異性從源的特徵空間映射 到目標的特徵空間,從而完成參數的轉換過程。
有益效果本發明提供的基於信號時序特徵的高質量語音轉換方法,充分利用了 語音信號參數間的強烈相關性,通過模擬參數隨時間變化的物理過程,構造了一種新型的 混合式卡爾曼濾波器,並將其用於語音轉換的參數映射過程,設計了一套特殊的、將卡爾曼 濾波器參數與語音信號物理屈性相關聯的轉換算法,實現說話人個性特徵的變換。


圖1為混合式卡爾曼濾波器結構;
圖2為本發明涉及的系統訓練框圖3為本發明涉及的系統轉換框圖。
具體實施方式
下面結合附圖對本發明作更進一步的說明。
基於信號時序特徵建模的高質量語音轉換方法,針對源和目標的平行數據,考慮 對其時序特徵進行建模和跟蹤,利用混合式卡爾曼濾波器,並在期望最大化準則下估計模 型結構參數,最終利用該模型映射語音的特徵參數集合,實現高質量的語音轉換效果;具體 包括如下步驟
(I)採用語音分析模型對原始語音信號進行分析;
(2)從分析得到的參數中提取與音素相關的特徵參數集合;
(3)對源和目標的特徵參數集合進行歸一化操作,實現參數集合的對齊;
(4)將對齊的參數集合分別用作混合式卡爾曼濾波器的輸入和輸出,實現模型參 數的訓練和估計;
(5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數,基於特徵參數映射方法 映射任意的語音信號參數;
(6)對轉換後的特徵參數進行反變換操作,即進行參數內插和相位補償,最後用語 音合成模型合成為高質量的語音;
上述步驟中,步驟(I) (4)為訓練步驟,步驟(5) (6)為轉換步驟;所述混合 式卡爾曼濾波器的結構為在經典的卡爾曼濾波器結構上新增一個隱層,所述隱層用於描述 時序信號狀態之間的漸變效果。
本案是針對高斯混合模型在語音轉換中存在的問題,提出一種新的解決方案,本案有兩個關鍵點一是設計了一種混合式的卡爾曼濾波器,並給出了模型利用原始數據更新自身參數的算法;二是在平行數據的條件下,將語音信號中包含的語義信息和說話人個性信息分別賦予模型的隱層和顯層,提出了一種在保持語義信息不變的條件下,靈活轉換說話人個性信息的方法。
混合式卡爾曼濾波器結構如圖1所示。其中,加陰影的圓形表示觀測變量,白色的方形表示隱變量。從圖中可以明顯看到混合式卡爾曼濾波器有兩個隱層,其中一層(以變量Z= Iz1, z2,-zt, ···}表示)用來描述狀態變量所屈的類別,是本發明的創新點之一。 SShX=UyX2,…,xt,···}用來表示連續的狀態變量,Y = {ypy^…,yt,···}則表示觀測變量本身。整個過程可以用下式表示
xt = Atxt_1+wt (I)
yt = Btxt+vt(2)
其中
At e {Am, m = 1,2,…M},B, e {Bm, m = 1,2,…Μ} (3)
wt e {wm, m = 1,2,…Μ},ν, e {vm, m = 1,2,…Μ}
聯合(1)-(3)式說明所有的參數均有M個類別。在每個時刻,該模型會從M個候選類別中預測出當前過程應該屬於哪個類別,然後用該類別的模型參數擬合數據。假設Wm 和Vm均服從均值為0,協方差分別為Qm和Rm的多維高斯分布,則整個未知模型參數集合可以表示為θ = {θ1,Θ2,…,Om,... ΘΜ},其中 Om= {Am,Bm,Qm,Rm}。
在本發明中,混合式卡爾曼濾波器的模型參數是通過期望最大化方法估計出來的,即將目標函數定義為
權利要求
1.基於信號時序特徵建模的高質量語音轉換方法,其特徵在於針對源和目標的平行數據,考慮對其時序特徵進行建模和跟蹤,利用混合式卡爾曼濾波器,並在期望最大化準則下估計模型結構參數,最終利用該模型映射語音的特徵參數集合,實現高質量的語音轉換效果;具體包括如下步驟 (1)採用語音分析模型對原始語音信號進行分析; (2)從分析得到的參數中提取與音素相關的特徵參數集合; (3)對源和目標的特徵參數集合進行歸一化操作,實現參數集合的對齊; (4)將對齊的參數集合分別用作混合式卡爾曼濾波器的輸入和輸出,實現模型參數的訓練和估計; (5)將訓練好的卡爾曼濾波器看作通用的泛函映射函數,基於特徵參數映射方法映射任意的語音信號參數; (6)對轉換後的特徵參數進行反變換操作,即進行參數內插和相位補償,最後用語音合成模型合成為高質量的語音; 上述步驟中,步驟(I) (4)為訓練步驟,步驟(5) (6)為轉換步驟;所述混合式卡爾曼濾波器的結構為在經典的卡爾曼濾波器結構上新增ー個隱層,所述隱層用於描述時序信號狀態之間的漸變效果。
2.根據權利要求1所述的基於信號時序特徵建模的高質量語音轉換方法,其特徵在於所述步驟(I)中的語音分析模型的工作過程包括如下步驟 (al)對語音信號進行固定時長的分幀,用互相關法對基音頻率進行估計; (a2)在濁音信號部分設置ー個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區域;再利用最小ニ乘算法估計得到離散的諧波幅度值和相位值; (a3)在清音階段,利用經典的線性預測分析法對其進行分析,從而得到線性預測係數。
3.根據權利要求2所述的基於信號時序特徵建模的高質量語音轉換方法,其特徵在於所述步驟(2)包括從離散的諧波幅度值中估計出適用於語音轉換任務的線譜頻率係數工作過程,該工作過程包括如下步驟 (bl)對離散的諧波幅度求取平方; (b2)根據功率譜密度函數和自相關函數的一一對應關係,得到關於線性預測係數的託普裡茨矩陣方程,求解該方程; (b3)將線性預測係數轉換為目標線譜頻率係數。
4.根據權利要求1所述的基於信號時序特徵建模的高質量語音轉換方法,其特徵在於所述步驟(3)中實現參數集合的對齊的對其準則為對於兩個不等長的特徵參數序列,利用動態規劃的思想將其中一者的時間軸非線性的映射到另ー者的時間軸上,從而實現一一對應的匹配關係;在現參數集合的對齊的過程中,通過迭代優化ー個預設的累積失真函數,並限制捜索區域,最終獲得時間匹配函數。
5.根據權利要求1所述的基於信號時序特徵建模的高質量語音轉換方法,其特徵在於所述步驟(5)中的特徵參數映射方法包括如下步驟 (Cl)充分利用平行數據的包含相同語義信息和不同說話人個性特徵信息的特點,在假設隱層狀態變量代表語義信息的基礎上,保證源和目標各自的混合式卡爾曼濾波器的隱層結構處於共享狀態;接著在期望最大化準則下估計觀測層變量的統計特性;(c2)在步驟(cl)的基礎上,比較源和目標模型結構的差異性,將這種差異性視為說話人不同個性的一種體現; (c3)結合卡爾曼濾波器描述時變信號的能力,將這種差異性從源的特徵空間映射到目標的特徵空間,從而完成參數的轉換過程。
6.根據權利要求2所述的基於信號時序特徵建模的高質量語音轉換方法,其特徵在於所述步驟(6)中的語音合成模型的工作過程包括如下步驟 (bl)將濁音部分信號的離散的諧波幅度和相位值用作正弦信號的幅度值和相位值,並進行疊加;運用內插技術和相位補償技術使得重構信號在時域波形上不產生失真; (b2)將清音部分信號的白噪聲信號通過ー個全極點濾波器,即可得到近似重構信號; (b3)將濁音部分信號和清音部分信號進行疊加,即得到重構的語音信號。
全文摘要
本發明公開了一種基於信號時序特徵建模的高質量語音轉換方法,針對源和目標的平行數據,考慮對其時序特徵進行建模和跟蹤,利用混合式卡爾曼濾波器,並在期望最大化準則下估計模型結構參數,最終利用該模型映射語音的特徵參數集合,實現高質量的語音轉換效果。本發明提供的基於信號時序特徵的高質量語音轉換方法,充分利用了語音信號參數間的強烈相關性,通過模擬參數隨時間變化的物理過程,構造了一種新型的混合式卡爾曼濾波器,並將其用於語音轉換的參數映射過程,設計了一套特殊的、將卡爾曼濾波器參數與語音信號物理屬性相關聯的轉換算法,實現說話人個性特徵的變換。
文檔編號G10L15/06GK103035236SQ20121049046
公開日2013年4月10日 申請日期2012年11月27日 優先權日2012年11月27日
發明者徐寧, 鮑靜益, 湯一彬 申請人:河海大學常州校區

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀