基於深層神經網絡特徵映射的非對稱語音轉換方法
2023-06-28 13:51:31 2
基於深層神經網絡特徵映射的非對稱語音轉換方法
【專利摘要】本發明公開了一種基於深層神經網絡特徵映射的非對稱語音轉換方法,屬於語音轉換【技術領域】。本發明的一種基於深層神經網絡特徵映射的非對稱語音轉換方法,針對源語音和目標語音的非對稱數據,首先利用深層網絡的預訓練功能對其進行概率建模,通過提煉語音信號中蘊含的高階統計特性,給出網絡係數的後備優選空間;其次,利用少量對稱數據進行增量學習,通過優化後的傳遞誤差來修正網絡權重係數,從而實現特徵參數的映射。本發明優化了網絡係數結構,並將其作為深層前向預測網絡的參數初始值,進而在少量對稱數據的增量學習過程中,反向傳導優化網絡結構參數,實現說話人的個性特徵參數的映射。
【專利說明】基於深層神經網絡特徵映射的非對稱語音轉換方法
【技術領域】
[0001]本發明屬於語音轉換【技術領域】,具體涉及一種基於深層神經網絡特徵映射的非對稱語音轉換方法。
【背景技術】
[0002]語音轉換技術,簡單地說就是將一個說話人(稱之為源)的聲音,通過某種手段進行變換,使其聽起來仿佛是另一個說話人(稱之為目標)說的話。語音轉換屬於交叉性的學科分支,其內容既涉及到語音學、語義學及心理聲學等領域的知識,又涵蓋語音信號處理領域的各個方面,如語音的分析與合成、說話人識別、語音編碼和增強等。
[0003]語音轉換的最終目標是提供即時的、可以自動快速適應任何說話者的語音服務,這個系統不需要或者很少需要用戶訓練就可以針對所有用戶和各種條件,良好地發揮功用。然而,現階段的語音轉換技術還做不到這一點。目前的系統一方面嚴格限制用戶措詞造句的方式(即需要對稱數據進行訓練),另一方面還需求較大的數據量來訓練系統。
[0004]針對上述問題,目前已存在一些應對方案。例如,針對「非對稱數據」問題,有學者提出先用矢量量化算法對源和目標說話人的特徵空間進行劃分,然後比較聲道長度歸一化後的模板距離,從中選擇源和說話人對應的碼字,最後在同一碼字空間裡,用最鄰近算法找尋最相近的匹配語音幀。又如Salor等人則提出利用動態規划算法來解決這類問題。該算法的核心思想是:構建代價函數,使源和目標以及目標前一幀和當前幀的誤差和同時達到最小。針對「減少數據量」問題,Helander等人提出在建模的過程中考慮特徵參數之間的耦合關係,並利用這一關係提高系統在數據量稀少情況下的魯棒性。除此之外,還有人提出利用基於變分貝葉斯的分析方法研究傳統的高斯混合模型,加強該模型在數據稀疏時建模能力。
[0005]經檢索,中國專利申請號ZL201210229540.8,申請公布日為2012年10月17日,發明創造名稱為:一種基於LPC及RBF神經網絡的聲音轉換的方法,該申請案涉及一種基於LPC及RBF神經網絡的聲音轉換的方法,包括以下步驟:A、對語音進行預處理;B、對濁音幀進行基頻檢測;C、對基頻檢測後的濁音幀進行轉換;D、對轉換後的基頻進行濁音幀參量的提取;E、對提取到的濁音幀參量進行計算,求得一幀濁音幀,然後對該一幀濁音幀進行合成,得到轉換後的濁音幀。該申請案提出了一種高質量、計算量適中的語音轉換技術方案,但其不足之處在於:該申請案的一種基於LPC及RBF神經網絡的聲音轉換的方法,將待轉換語音分解成清音和濁音,又將濁音分成基頻、能量、LPC及LSF係數進行語音轉換,增加了能量的測量,增大了測量難度和誤差,易造成轉換後的語音質量不理想的問題。
【發明內容】
[0006]本發明的目的是:克服現有技術中語音轉換系統不僅嚴格限制用戶措詞造句的方式,而且還需要較大的數據量來訓練,同時轉換後的語音質量並不理想的不足,提供一種基於深層神經網絡特徵映射的非對稱語音轉換方法,採用本發明提供的技術方案,針對實際環境中,語音轉換系統面臨的在非對稱數據和數據量匱乏條件下系統性能急劇惡化的問題,將上述兩方面相對獨立的環節綜合到統一的理論框架下進行研究,同時利用深層神經網絡對原始數據進行非監督式地訓練,提煉其中包含的高階統計特徵信息,在此基礎上通過監督式的前向預測訓練,最終提高語音轉換系統在實際環境下的泛化性能。
[0007]本發明的基本原理是:本發明的一種基於深層神經網絡特徵映射的非對稱語音轉換方法,針對源語音和目標語音的非對稱數據,首先利用深層神經網絡的預訓練功能對其進行概率建模,通過提煉語音信號中蘊含的高階統計特性,給出網絡係數的後備優選空間;其次,利用少量對稱數據進行增量學習,通過優化後的傳遞誤差來修正網絡權重係數,從而實現特徵參數的映射。
[0008]具體地說,本發明是採用以下的技術方案來實現的,包括下列步驟:
[0009]I)在已有源語音信號的基礎上,根據採集到的目標語音信號採集具有相同語義內容的源語音信號,形成包含非對稱源語音信號、對稱源語音信號、目標語音信號在內的訓練用語音信號;
[0010]採用諧波加隨機模型對訓練用語音信號進行分解,分別得到非對稱源語音信號的基音頻率軌跡、非對稱源語音信號的諧波聲道譜參數的幅度值和相位值、對稱源語音信號的基音頻率軌跡、目標語音信號的基音頻率軌跡、對稱源語音信號的諧波聲道譜參數的幅度值和相位值、目標語音信號的諧波聲道譜參數的幅度值和相位值;
[0011]根據對稱源語音信號的基音頻率軌跡和目標語音信號的基音頻率軌跡,建立源語音基音頻率的高斯模型和目標語音基音頻率的高斯模型;
[0012]2)分別對非對稱源語音信號的諧波聲道譜參數的幅度值和相位值、對稱源語音信號的諧波聲道譜參數的幅度值和相位值、目標語音信號的諧波聲道譜參數的幅度值和相位值進行降維處理,將聲道參數轉化為線性預測參數,進而產生適用於語音轉換的線性譜頻率參數;
[0013]3)利用步驟2)中得到的非對稱源語音信號的線性譜頻率參數對深層置信網絡進行非監督訓練,得到訓練完成的深層置信網絡;
[0014]4)利用動態時間規整算法,對步驟2)中得到的對稱源語音信號的線性譜頻率參數和目標語音信號的線性譜頻率參數進行對齊;
[0015]5)利用對齊後的對稱源語音信號的線性譜頻率參數和目標語音信號的線性譜頻率參數對深層前向預測網絡進行增量式監督訓練,得到訓練完成的深層前向預測網絡;
[0016]6)採用諧波加隨機模型對待轉換的源語音信號進行分解,得到待轉換的源語音信號的基音頻率軌跡、待轉換的源語音信號的諧波聲道譜參數的幅度值和相位值;
[0017]對待轉換的源語音信號的諧波聲道譜參數的幅度值和相位值進行降維處理,將聲道參數轉化為線性預測參數,進而產生適用於語音轉換的線性譜頻率參數,然後利用步驟3)中訓練完成的深層置信網絡對待轉換的源語音信號的線性譜頻率參數進行特徵映射,得到待轉換的源語音信號的新的特徵參數,最後將步驟5)中訓練完成的深層前向預測網絡看作通用的泛函映射函數,對待轉換的源語音信號的新的特徵參數進行映射轉換,得到轉換後的語音信號的線性譜頻率參數;
[0018]利用步驟I)所得到的源語音基音頻率的高斯模型和目標語音基音頻率的高斯模型,對待轉換的源語音信號的基音頻率軌跡進行高斯轉換,得到轉換後的語音信號的基音頻率軌跡;
[0019]7)將轉換後的語音信號的線性譜頻率參數反變換為諧波加噪聲模型係數,然後和轉換後的語音信號的基音頻率軌跡一起進行語音合成,得到轉換後的語音信號。
[0020]上述技術方案的進一步特徵在於:所述步驟I)中,採用諧波加隨機模型對原始語音信號進行分解的過程如下:
[0021]1-1)對原始語音信號進行固定時長的分幀,用自相關法對基音頻率進行估計;
[0022]1-2)對於濁音信號,在濁音信號中設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區域;再利用最小二乘算法估計得到離散的諧波聲道譜參數幅度值和相位值;
[0023]1-3)對於清音信號,直接利用經典的線性預測分析法對其進行分析,得到線性預測係數。
[0024]上述技術方案的進一步特徵在於:在所述步驟2)中,將聲道參數轉化為線性預測參數,進而產生適用於語音轉換的線性譜頻率參數的過程如下:
[0025]2-1)對離散的諧波聲道譜參數的幅度值求取平方,並將其認為是離散的功率譜的採樣值;
[0026]2-2)根據功率譜密度函數和自相關函數的一一對應關係,得到關於線性預測係數的託普裡茨矩陣方程,通過求解該方程得到線性預測係數;
[0027]2-3)將線性預測係數轉換為線性譜頻率係數。
[0028]上述技術方案的進一步特徵在於:所述步驟3)中對深層置信網絡進行非監督訓練的方式分為以下兩種:
[0029]3-1)將任意兩層網絡組成受限制的波爾茲曼機,用對比發散法對其進行訓練,然後將所有的波爾茲曼機組合成堆棧形式,構成一個完整的深層置信網絡,該網絡中的權重係數集合構成網絡參數後備優選空間;
[0030]3-2)將兩個深層前向網絡正反疊接,構成自適應編解碼器結構的組合網絡,同時將語音信號的線性譜頻率係數置於輸入端和輸出端,在規則化隨機梯度下降準則下,學習網絡結構參數。
[0031]上述技術方案的進一步特徵在於:所述步驟4)中,進行對齊的準則為:對於兩個不等長的特徵參數序列,利用動態時間規整算法將其中一者的時間軸非線性的映射到另一者的時間軸上,從而實現一一對應的匹配關係;在現參數集合的對齊的過程中,通過迭代優化一個預設的累積失真函數,並限制搜索區域,最終獲得時間匹配函數。
[0032]上述技術方案的進一步特徵在於:所述步驟5)中,對深層前向預測網絡進行增量式監督訓練的過程如下:
[0033]5-1)在步驟3)中訓練完成的深層置信網絡的最上層增加一層網絡輸出層,該層具有限幅的軟輸出特性,從而構成深層前向網絡;
[0034]5-2)將對齊後的對稱源語音信號的線性譜頻率係數按照步驟3-2)的方式進行處理,並提取網絡中間層參數作為對稱源語音信號的新的特徵參數;
[0035]5-3)將對稱源語音信號的新的特徵參數和目標語音信號的線性譜頻率係數作為深層前向網絡的輸入和輸出,在後向傳遞誤差最小化的前提下調整網絡權重係數,完成網絡的增量訓練。[0036]上述技術方案的進一步特徵在於:所述步驟7)中語音合成的過程如下:
[0037]7-1)將濁音信號的離散的諧波聲道譜參數的幅度值和相位值用作正弦信號的幅度值和相位值,並進行疊加,得到重構的濁音信號;運用內插技術和相位補償技術使得重構的濁音信號在時域波形上不產生失真;
[0038]7-2)將清音信號的白噪聲信號通過一個全極點濾波器,得到重構的清音信號;
[0039]7-3)將重構的濁音信號和重構的清音信號進行疊加,得到轉換後的語音信號。
[0040]本發明的有益效果如下:本發明的一種基於深層神經網絡特徵映射的非對稱語音轉換方法,充分利用了 「非對稱數據」和「數據量匱乏」問題的共性特徵,設計了一套綜合兩種情況的數據採集和整合方法,在此基礎上利用深層置信網絡學習非對稱數據結構特徵,優化網絡係數結構,並將其作為深層前向預測網絡的參數初始值,進而在少量對稱數據的增量學習的過程下,反向傳導優化網絡結構參數,實現說話人個性特徵參數的映射。
【專利附圖】
【附圖說明】
[0041]圖1為本發明涉及的語音轉換系統訓練和轉換階段框圖;
[0042]圖2為本發明涉及深層置信網絡預訓練方式示意圖。
【具體實施方式】
[0043]下面參照附圖並結合實例對本發明作進一步詳細描述。
[0044]為了有效處理實際環境中「非對稱數據」和「數據量匱乏」問題,本發明設計以下數據獲取和整合方案,以便後續操作:對於大多數的應用場合來說,採集目標說話人的聲音數據一般比較被動,因此採集起來比較困難,常常會導致數據量匱乏;相比較之下,由於源說話人的聲音數據採集過程主動性較強,所以收集起來相對容易,數據量也較為充足。為此,在已有源語音數據的基礎上,令源說話人根據採集到的目標說話人的語音,再次錄製少量包含有相同語義內容的聲音數據作為參考(源說話人增量式地錄製少量語音)。這樣,源和目標的數據雖然總體上是非對稱的,但其中卻包含了少量的對稱數據。
[0045]因此,結合圖1和圖2,本實施例的一種基於深層神經網絡特徵映射的非對稱語音轉換方法,包括訓練階段和轉換階段,以下步驟I?5)為訓練階段,步驟6?7)為轉換階段:
[0046]I)在已有源語音信號的基礎上,根據採集到的目標語音信號採集具有相同語義內容的源語音信號,形成包含非對稱源語音信號、對稱源語音信號、目標語音信號在內的訓練用語音信號。
[0047]採用諧波加隨機模型對訓練用語音信號進行分解,分別得到非對稱源語音信號的基音頻率軌跡、非對稱源語音信號的諧波聲道譜參數的幅度值和相位值、對稱源語音信號的基音頻率軌跡、目標語音信號的基音頻率軌跡、對稱源語音信號的諧波聲道譜參數的幅度值和相位值、目標語音信號的諧波聲道譜參數的幅度值和相位值。
[0048]採用諧波加隨機模型對原始語音信號進行分解的具體步驟如下:
[0049]a.對語音信號進行分巾貞,巾貞長20ms,巾貞重疊間隔10ms。
[0050]b.在每幀中,用自相關法估計基頻,若該幀為清音幀,則設置基頻等於零。
[0051]c.對於濁音幀(即基頻不為零的幀),假設語音信號sh(n)可以由一系列的正弦波疊加而成:
【權利要求】
1.基於深層神經網絡特徵映射的非對稱語音轉換方法,其特徵在於,包括如下步驟: 1)在已有源語音信號的基礎上,根據採集到的目標語音信號採集具有相同語義內容的源語音信號,形成包含非對稱源語音信號、對稱源語音信號、目標語音信號在內的訓練用語音信號; 採用諧波加隨機模型對訓練用語音信號進行分解,分別得到非對稱源語音信號的基音頻率軌跡、非對稱源語音信號的諧波聲道譜參數的幅度值和相位值、對稱源語音信號的基音頻率軌跡、目標語音信號的基音頻率軌跡、對稱源語音信號的諧波聲道譜參數的幅度值和相位值、目標語音信號的諧波聲道譜參數的幅度值和相位值; 根據對稱源語音信號的基音頻率軌跡和目標語音信號的基音頻率軌跡,建立源語音基音頻率的高斯模型和目標語音基音頻率的高斯模型; 2)分別對非對稱源語音信號的諧波聲道譜參數的幅度值和相位值、對稱源語音信號的諧波聲道譜參數的幅度值和相位值、目標語音信號的諧波聲道譜參數的幅度值和相位值進行降維處理,將聲道參數轉化為線性預測參數,進而產生適用於語音轉換的線性譜頻率參數; 3)利用步驟2)中得到的非對稱源語音信號的線性譜頻率參數對深層置信網絡進行非監督訓練,得到訓練完成的深層置信網絡; 4)利用動態時間規整算法,對步驟2)中得到的對稱源語音信號的線性譜頻率參數和目標語音信號的線性譜頻率參數進行對齊; 5)利用對齊後的對稱源語音信號的線性譜頻率參數和目標語音信號的線性譜頻率參數對深層前向預測網絡進行增量式監督訓練,得到訓練完成的深層前向預測網絡; 6)採用諧波加隨機模型對待轉換的源語音信號進行分解,得到待轉換的源語音信號的基音頻率軌跡、待轉換的源語音信號的諧波聲道譜參數的幅度值和相位值; 對待轉換的源語音信號的諧波聲道譜參數的幅度值和相位值進行降維處理,將聲道參數轉化為線性預測參數,進而產生適用於語音轉換的線性譜頻率參數,然後利用步驟3)中訓練完成的深層置信網絡對待轉換的源語音信號的線性譜頻率參數進行特徵映射,得到待轉換的源語音信號的新的特徵參數,最後將步驟5)中訓練完成的深層前向預測網絡看作通用的泛函映射函數,對待轉換的源語音信號的新的特徵參數進行映射轉換,得到轉換後的語音信號的線性譜頻率參數; 利用步驟I)所得到的源語音基音頻率的高斯模型和目標語音基音頻率的高斯模型,對待轉換的源語音信號的基音頻率軌跡進行高斯轉換,得到轉換後的語音信號的基音頻率軌跡; 7)將轉換後的語音信號的線性譜頻率參數反變換為諧波加噪聲模型係數,然後和轉換後的語音信號的基音頻率軌跡一起進行語音合成,得到轉換後的語音信號。
2.根據權利要求1所述的基於深層神經網絡特徵映射的非對稱語音轉換方法,其特徵在於,所述步驟I)中,採用諧波加隨機模型對原始語音信號進行分解的過程如下: 1-1)對原始語音信號進行固定時長的分幀,用自相關法對基音頻率進行估計; 1-2)對於濁音信號,在濁音信號中設置一個最大濁音頻率分量,用來劃分諧波成分和隨機成分的主能量區域;再利用最小二乘算法估計得到離散的諧波聲道譜參數幅度值和相位值;1-3)對於清音信號,直接利用經典的線性預測分析法對其進行分析,得到線性預測係數。
3.根據權利要求1所述的基於深層神經網絡特徵映射的非對稱語音轉換方法,其特徵在於,在所述步驟2)中,將聲道參數轉化為線性預測參數,進而產生適用於語音轉換的線性譜頻率參數的過程如下: 2-1)對離散的諧波聲道譜參數的幅度值求取平方,並將其認為是離散的功率譜的採樣值; 2-2)根據功率譜密度函數和自相關函數的一一對應關係,得到關於線性預測係數的託普裡茨矩陣方程,通過求解該方程得到線性預測係數; 2-3)將線性預測係數轉換為線性譜頻率係數。
4.根據權利要求1所述的基於深層神經網絡特徵映射的非對稱語音轉換方法,其特徵在於,所述步驟3)中對深層置信網絡進行非監督訓練的方式分為以下兩種: 3-1)將任意兩層網絡組成受限制的波爾茲曼機,用對比發散法對其進行訓練,然後將所有的波爾茲曼機組合成堆棧形式,構成一個完整的深層置信網絡,該網絡中的權重係數集合構成網絡參數後備優選空間; 3-2)將兩個深層前向網絡正反疊接,構成自適應編解碼器結構的組合網絡,同時將語音信號的線性譜頻率係數置於輸入端和輸出端,在規則化隨機梯度下降準則下,學習網絡結構參數。
5.根據權利要求1所述的基於深層神經網絡特徵映射的非對稱語音轉換方法,其特徵在於,所述步驟4)中,進行對齊`的準則為:對於兩個不等長的特徵參數序列,利用動態時間規整算法將其中一者的時間軸非線性的映射到另一者的時間軸上,從而實現一一對應的匹配關係;在現參數集合的對齊的過程中,通過迭代優化一個預設的累積失真函數,並限制搜索區域,最終獲得時間匹配函數。
6.根據權利要求4所述的基於深層神經網絡特徵映射的非對稱語音轉換方法,其特徵在於,所述步驟5)中,對深層前向預測網絡進行增量式監督訓練的過程如下: 5-1)在步驟3)中訓練完成的深層置信網絡的最上層增加一層網絡輸出層,該層具有限幅的軟輸出特性,從而構成深層前向網絡; 5-2)將對齊後的對稱源語音信號的線性譜頻率係數按照步驟3-2)的方式進行處理,並提取網絡中間層參數作為對稱源語音信號的新的特徵參數; 5-3)將對稱源語音信號的新的特徵參數和目標語音信號的線性譜頻率係數作為深層前向網絡的輸入和輸出,在後向傳遞誤差最小化的前提下調整網絡權重係數,完成網絡的增量訓練。
7.根據權利要求1所述的基於深層神經網絡特徵映射的非對稱語音轉換方法,其特徵在於,所述步驟7)中語音合成的過程如下: 7-1)將濁音信號的離散的諧波聲道譜參數的幅度值和相位值用作正弦信號的幅度值和相位值,並進行疊加,得到重構的濁音信號;運用內插技術和相位補償技術使得重構的濁音信號在時域波形上不產生失真; 7-2)將清音信號的白噪聲信號通過一個全極點濾波器,得到重構的清音信號; 7-3)將重構的濁音信號和重構的清音信號進行疊加,得到轉換後的語音信號。
【文檔編號】G10L25/30GK103531205SQ201310468769
【公開日】2014年1月22日 申請日期:2013年10月9日 優先權日:2013年10月9日
【發明者】鮑靜益, 徐寧 申請人:常州工學院