基於自適應非平行訓練的語音轉換方法

2023-07-16 07:00:11 1

基於自適應非平行訓練的語音轉換方法
【專利摘要】本發明公開了一種基於自適應非平行訓練的語音轉換方法，該方法包括以下步驟：從採集到的語音樣本中檢測出有效語音信號，對有效語音信號進行預處理；對於預處理後得到的有效語音信號提取語音特徵參數；基於語音特徵參數進行UBM訓練，得到一個與說話人無關的UBM模型；基於所述UBM模型，得到與說話人有關的獨立說話人語音模型，基於所述獨立說話人語音模型，得到頻譜參數和基頻參數的轉換函數；將待轉換語音的語音特徵參數輸入到轉換函數中，得到轉換後的目標說話人的語音特徵參數；將轉換後的目標說話人的語音特徵參數進行合成，得到目標語音。本發明不僅具有較好的轉換性能，而且具有很好的系統擴展性。
【專利說明】基於自適應非平行訓練的語音轉換方法

【技術領域】
[0001] 本發明涉及語音信號分析、語音信號處理、語音轉換以及語音合成等領域，具體涉及一種基於自適應非平行訓練的語音轉換方法，屬於語音信號處理領域中的語音轉換分支。

【背景技術】
[0002] 語音轉換是指在保持語義內容不變的前提下，改變說話人的個性特徵，使源說話人的語音在經過變換後聽起來像是目標說話人說的一樣。語音轉換是對語音綜合與識別技術的深度發展，語音轉換作為語音信號處理領域的新的分支，具有高度的理論研究價值和應用前途。借鑑語音分析與合成、語音識別技術、語音編解碼技術、語音增強以及說話人確認和辨識等領域的知識，為語音轉換技術的發展提供技術支持，而語音轉換技術的研究，又將促進這些領域的發展，為這些領域的進一步研究提供極具價值的參考意義。
[0003] 目前，語音轉換從大的類別上可分為同種語言之間的語音轉換和跨語言的語音轉換。對於同種語言之間的語音轉換，在訓練階段，因語料的選擇不同，又分為平行語料訓練和非平行語料訓練。對於跨語言的語音轉換，要獲得平行語料是不可能的，只能通過非平行語料來進行訓練。通過幾代人的努力，語音轉換的研究取得了很大的發展，很多學者提出了不同的轉換方法，總結起來，大致有以下幾類：矢量量化方法，線性多變量回歸法，人工神經網絡法，多說話人插值轉換法，高斯混合模型等。但以上的方法都是基於平行語料聯合訓練的語音轉換，在實際應用中還存在一些問題：1.很多情況下平行語料很難獲得甚至得不至lj;2.基於聯合特徵矢量的訓練計算量很大，並且對語音成分對準的精度要求很高；3.聯合語音模型採用聯合訓練的方法使得系統的擴展不方便，靈活性很差。
[0004] 針對這些問題，儘管近些年來研究人員進行了非平行語料下語音轉換的研究，但是這些方法大都還是局限於解決平行語料的限制採用的是聯合語音訓練方法，還不能解決第二、三個問題。比如Mouchtaris等人於2006年發表在《IEEE Transactions on Audio, Speech and Language Processing (音頻，語音和語言處理IEEE學報）》的第14卷第 3 期的名為〈〈Nonparallel training for voice conversion based on a parameter adaptation approach (基於參數自適應方法的非平行訓練語音轉換）》的論文採用參數自適應的方法去轉換頻譜包絡；陶建華等人於2010年發表在《IEEE Transactions on Audio, Speech and Language Processing(音頻，語音和語言處理IEEE會刊）》的第18卷第 5期的名為《Supervisory Data Alignment for Text-Independent Voice Conversion(基於監督數據對齊的與文本無關的聲音轉換）》的論文提出了對非平行語料進行監督數據排列的方法實現語音轉換；Ling-Hui Chen等人於2011年的《IEEE International Conference on Acoustics, Speech and Signal Processing(聲學，語音和信號處理的 IEEE 國際會議）》上發表了名為《Non-Parallel Training For Voice Conversion Based On FT-GMM(基於FT-GMM模型的非平行訓練語音轉換）》的論文中採用特徵變換的高斯混合模型（FT-GMM)進行了非平行訓練語音轉換的研究；Daojian Zeng等人於2010年的《2010 IEEE 10th International Conference on Signal Processing (2010 年 IEEE 學會信號處理國際會議）》上發表了名為《Voice Conversion Using Structrued Gaussian Mixture Model (基於結構化高斯混合模型的語音轉換）》的論文中運用結構化高斯混合模型實現了基於獨立說話人模型的語音轉換。
[0005] 由於基於平行語料的語音轉換方法受到了上述種種約束，導致了語音轉換技術難以全面的走向實際應用，如通過非平行訓練方法得到獨立的說話人語音模型，改變源說話人的個性特徵參數，加入目標說話人的個性特徵，實現源-目標之間的轉換，這對語音轉換領域的發展將是巨大的貢獻。

【發明內容】

[0006] 為了克服上述現有技術的不足，本發明提供了一種新的非平行語料訓練的語音轉換方法，以解決平行語料聯合訓練語音轉換方法中存在的以下問題：1、傳統語音轉換系統中需要平行語料訓練得到轉換函數，而平行語料很難獲取；2、傳統語音轉換系統需要對特徵矢量進行聯合訓練；3、傳統語音轉換系統的擴展不方便。
[0007] 本發明方法首先提取所有語音信號的基頻和短時譜，從短時譜獲得相應的LPCC 參數，然後對所有的特徵參數進行通用背景模型（UBM:Universal Background Model)訓練，再利用最大後驗概率（MAP:Maximum a Posterior Probability)自適應方法導出具體的說話人模型，最終得到相應的轉換函數進行語音轉換。
[0008] 具體地，本發明提出的一種自適應非平行訓練的語音轉換方法包括以下步驟：
[0009] 步驟1，從採集到的語音樣本中檢測出有效語音信號，對所述有效語音信號進行預處理；
[0010] 步驟2,對於預處理後得到的有效語音信號提取語音特徵參數；
[0011] 步驟3,基於所述語音特徵參數進行UBM訓練，得到一個與說話人無關的UBM模型；
[0012] 步驟4,基於所述UBM模型，得到與說話人有關的獨立說話人語音模型，基於所述獨立說話人語音模型，得到頻譜參數和基頻參數的轉換函數；
[0013] 步驟5,將待轉換語音的語音特徵參數輸入到所述步驟4得到的轉換函數中，得到轉換後的目標說話人的語音特徵參數；
[0014] 步驟6,將轉換後的目標說話人的語音特徵參數進行合成，得到目標語音。
[0015] 與現有技術相比，本發明的優點在於：
[0016] 傳統的語音轉換方法大都採用平行語料訓練源-目標說話人聯合語音模型並由此推導相應的語音轉換函數，但實際應用中不僅難以得到完全平行的語料，而且訓練聯合語音模型需要消耗大量的計算、系統擴展不方便。本發明避免了平行訓練對語料的嚴苛要求，採用非平行語料進行訓練和轉換，無需聯合訓練，而且系統擴展靈活方便。

【專利附圖】

【附圖說明】
[0017] 圖1是本發明優化自適應非平行訓練的語音轉換方法的流程圖；
[0018] 圖2是本發明頻譜參數轉換函數的推導示意圖。

【具體實施方式】
[0019] 為使本發明的目的、技術方案和優點更加清楚明白，以下結合具體實施例，並參照附圖，對本發明進一步詳細說明。
[0020] 圖1是本發明採用的優化自適應非平行訓練的語音轉換方法的流程圖，如圖1所示，所述方法包括以下步驟：
[0021] 步驟1，從採集到的語音樣本中檢測出有效語音信號，對所述有效語音信號進行預處理；
[0022] 在本發明一實施例中，所述預處理包括預加重、加漢明窗和分幀等處理。
[0023] 步驟2,對於預處理後得到的有效語音信號提取語音特徵參數；
[0024] 所述語音特徵參數可以為基音頻率、線性預測倒譜係數（LPCC)、梅爾倒頻譜係數 (MFCC)，線譜對（LSP)等語音特徵參數。
[0025] 在本發明一實施例中，將所有的有效語音信號通過STRAIGHT平臺獲得每幀信號的基音頻率F0和短時譜參數，基於求得的短時譜參數利用Levenson-Durbin算法求取每中貞語音信號的LPC係數，然後將LPC係數轉化為LPCC係數，即獲得所有參與訓練的說話人的語音特徵參數，其中，用於獲取基音頻率的基音頻率模型使用一階的高斯分布來描述。
[0026] 步驟3,基於所述語音特徵參數進行UBM訓練，得到一個與說話人無關的UBM模型；
[0027] 該步驟中，在進行UBM訓練時，首先平衡說話人性別上的差異和每個說話人訓練語料庫的大小，然後融合所有用於訓練的語音特徵參數，通過EM算法訓練得到UBM模型。其中，初始UBM模型中各成分的初始化權重均為1/M，Μ為UBM模型中混合高斯分量數。
[0028] UBM(通用背景模型）是一個與說話人無關的全局背景模型，全局背景模型本質上是一個大型的高斯混合模型（GMM)，一般由大量的說話人的語料訓練得到，它的思想就是所有說話人的信息都包含在混合高斯密度函數所形成的超矢量中，它反映了所有說話人聲音特徵的統計平均分布特性，從而消除了個性特徵。作為標準模型，UBM涵蓋了多個子空間，其中每個子空間對應一個聚類中心，用高斯概率密度函數來描述，每一個子空間描述了特徵空間的一個局部。
[0029] 步驟4,基於所述UBM模型，得到與說話人有關的獨立說話人語音模型，基於所述獨立說話人語音模型，得到頻譜參數和基頻參數的轉換函數；
[0030] 所述步驟4進一步包括以下步驟：
[0031] 步驟41，對源說話人和目標說話人的訓練語音分別進行預處理；
[0032] 在本發明一實施例中，所述預處理包括預加重、加漢明窗和分幀等處理。
[0033] 步驟42,分別提取兩者的LPCC參數和基頻參數；
[0034] 步驟43,基於LPCC參數，分別從UBM模型中得到源說話人和目標說話人的GMM模型；
[0035] 在本發明一實施例中，通過MAP自適應的方法分別從UBM模型中得到源說話人和目標說話人的GMM模型。
[0036] 每個說話人的GMM模型都是由均值向量、協方差矩陣和混合權重來描述，表示為：

【權利要求】
1. 一種基於自適應非平行訓練的語音轉換方法，其特徵在於，該方法包括以下步驟：步驟1，從採集到的語音樣本中檢測出有效語音信號，對所述有效語音信號進行預處理；步驟2,對於預處理後得到的有效語音信號提取語音特徵參數；步驟3,基於所述語音特徵參數進行UBM訓練，得到一個與說話人無關的UBM模型；步驟4,基於所述UBM模型，得到與說話人有關的獨立說話人語音模型，基於所述獨立說話人語音模型，得到頻譜參數和基頻參數的轉換函數；步驟5,將待轉換語音的語音特徵參數輸入到所述步驟4得到的轉換函數中，得到轉換後的目標說話人的語音特徵參數；步驟6,將轉換後的目標說話人的語音特徵參數進行合成，得到目標語音。
2. 根據權利要求1所述的方法，其特徵在於，所述預處理包括但不限於預加重、加漢明窗和分幀處理。
3. 根據權利要求1所述的方法，其特徵在於，所述語音特徵參數包括但不限於基音頻率、線性預測倒譜係數LPCC、梅爾倒頻譜係數MFCC和線譜對LSP。
4. 根據權利要求1所述的方法，其特徵在於，所述步驟2中，首先獲得每幀有效語音信號的基音頻率和短時譜參數；然後基於求得的短時譜參數求取每幀語音信號的LPC系數；然後將LPC係數轉化為LPCC係數。
5. 根據權利要求1所述的方法，其特徵在於，所述步驟3中，在進行UBM訓練時，首先平衡說話人性別上的差異和每個說話人訓練語料庫的大小；然後融合所有用於訓練的語音特徵參數，通過EM算法訓練得到UBM模型。
6. 根據權利要求1所述的方法，其特徵在於，所述步驟4進一步包括以下步驟：步驟41，對源說話人和目標說話人的訓練語音分別進行預處理；步驟42,分別提取兩者的LPCC參數和基頻參數；步驟43,基於LPCC參數，分別從UBM模型中得到源說話人和目標說話人的GMM模型；步驟44,求取基頻參數的均值和方差，並使用一階的高斯模型對其進行建模；步驟45,根據所述步驟43得到的GMM模型和所述步驟44得到的基頻參數模型，得到頻譜參數和基頻參數的轉換函數。
7. 根據權利要求6所述的方法，其特徵在於，通過MAP自適應方法分別從UBM模型中得到源說話人和目標說話人的GMM模型。
8. 根據權利要求6所述的方法，其特徵在於，所述頻譜參數的轉換函數表示為：
其中，Pi (X)是源說話人GMM模型的第i個高斯分量的後驗概率，Q表示高斯分量的維數，Ci/fjf：)是源說話人GMM模型的第i個高斯分量的均值和協方差矩陣，〇^，Σ『）是目標說話人GMM模型的第i個高斯分量的均值和協方差矩陣；所述基頻參數的轉換函數表示為：
其中，μ s和μ τ分別表示源和目標說話人語音基頻的均值，σs和σ τ表示源和目標說話人語音基頻的方差，F/是源說話人語音的基音頻率。
9. 根據權利要求1所述的方法，其特徵在於，所述步驟5進一步包括以下步驟：步驟51，提取源說話人待轉換語音的短時譜和基頻R); 步驟52,由短時譜包絡提取出LPCC參數；步驟53,分別根據所述頻譜參數轉換函數和基頻參數轉換函數對源說話人的LPCC參數和基頻Η)進行轉換，得到目標說話人的LPCC參數和基頻參數。
10. 根據權利要求1所述的方法，其特徵在於，所述步驟6進一步包括以下步驟：步驟61，基於轉換後的LPCC參數重估出目標說話人的短時譜包絡；步驟62,結合所述短時譜包絡和轉換後的基頻R)，得到具有目標說話人特徵的語音。
【文檔編號】G10L15/18GK104123933SQ201410377091
【公開日】2014年10月29日申請日期:2014年8月1日優先權日:2014年8月1日
【發明者】王飛躍, 孔慶傑, 熊剛, 朱鳳華, 朱春雷申請人:中國科學院自動化研究所

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於自適應非平行訓練的語音轉換方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法