新四季網

基於自適應非平行訓練的語音轉換方法

2023-07-16 07:00:11 1

基於自適應非平行訓練的語音轉換方法
【專利摘要】本發明公開了一種基於自適應非平行訓練的語音轉換方法,該方法包括以下步驟:從採集到的語音樣本中檢測出有效語音信號,對有效語音信號進行預處理;對於預處理後得到的有效語音信號提取語音特徵參數;基於語音特徵參數進行UBM訓練,得到一個與說話人無關的UBM模型;基於所述UBM模型,得到與說話人有關的獨立說話人語音模型,基於所述獨立說話人語音模型,得到頻譜參數和基頻參數的轉換函數;將待轉換語音的語音特徵參數輸入到轉換函數中,得到轉換後的目標說話人的語音特徵參數;將轉換後的目標說話人的語音特徵參數進行合成,得到目標語音。本發明不僅具有較好的轉換性能,而且具有很好的系統擴展性。
【專利說明】基於自適應非平行訓練的語音轉換方法

【技術領域】
[0001] 本發明涉及語音信號分析、語音信號處理、語音轉換以及語音合成等領域,具體涉 及一種基於自適應非平行訓練的語音轉換方法,屬於語音信號處理領域中的語音轉換分 支。

【背景技術】
[0002] 語音轉換是指在保持語義內容不變的前提下,改變說話人的個性特徵,使源說話 人的語音在經過變換後聽起來像是目標說話人說的一樣。語音轉換是對語音綜合與識別技 術的深度發展,語音轉換作為語音信號處理領域的新的分支,具有高度的理論研究價值和 應用前途。借鑑語音分析與合成、語音識別技術、語音編解碼技術、語音增強以及說話人確 認和辨識等領域的知識,為語音轉換技術的發展提供技術支持,而語音轉換技術的研究,又 將促進這些領域的發展,為這些領域的進一步研究提供極具價值的參考意義。
[0003] 目前,語音轉換從大的類別上可分為同種語言之間的語音轉換和跨語言的語音轉 換。對於同種語言之間的語音轉換,在訓練階段,因語料的選擇不同,又分為平行語料訓練 和非平行語料訓練。對於跨語言的語音轉換,要獲得平行語料是不可能的,只能通過非平行 語料來進行訓練。通過幾代人的努力,語音轉換的研究取得了很大的發展,很多學者提出了 不同的轉換方法,總結起來,大致有以下幾類:矢量量化方法,線性多變量回歸法,人工神經 網絡法,多說話人插值轉換法,高斯混合模型等。但以上的方法都是基於平行語料聯合訓 練的語音轉換,在實際應用中還存在一些問題:1.很多情況下平行語料很難獲得甚至得不 至lj;2.基於聯合特徵矢量的訓練計算量很大,並且對語音成分對準的精度要求很高;3.聯 合語音模型採用聯合訓練的方法使得系統的擴展不方便,靈活性很差。
[0004] 針對這些問題,儘管近些年來研究人員進行了非平行語料下語音轉換的研究, 但是這些方法大都還是局限於解決平行語料的限制採用的是聯合語音訓練方法,還不能 解決第二、三個問題。比如Mouchtaris等人於2006年發表在《IEEE Transactions on Audio, Speech and Language Processing (音頻,語音和語言處理IEEE學報)》的第14卷 第 3 期的名為〈〈Nonparallel training for voice conversion based on a parameter adaptation approach (基於參數自適應方法的非平行訓練語音轉換)》的論文採用參數 自適應的方法去轉換頻譜包絡;陶建華等人於2010年發表在《IEEE Transactions on Audio, Speech and Language Processing(音頻,語音和語言處理IEEE會刊)》的第18卷第 5期的名為《Supervisory Data Alignment for Text-Independent Voice Conversion(基 於監督數據對齊的與文本無關的聲音轉換)》的論文提出了對非平行語料進行監督數 據排列的方法實現語音轉換;Ling-Hui Chen等人於2011年的《IEEE International Conference on Acoustics, Speech and Signal Processing(聲學,語音和信號處理的 IEEE 國際會議)》上發表了名為《Non-Parallel Training For Voice Conversion Based On FT-GMM(基於FT-GMM模型的非平行訓練語音轉換)》的論文中採用特徵變換的高斯混合 模型(FT-GMM)進行了非平行訓練語音轉換的研究;Daojian Zeng等人於2010年的《2010 IEEE 10th International Conference on Signal Processing (2010 年 IEEE 學會信號處 理國際會議)》上發表了名為《Voice Conversion Using Structrued Gaussian Mixture Model (基於結構化高斯混合模型的語音轉換)》的論文中運用結構化高斯混合模型實現了 基於獨立說話人模型的語音轉換。
[0005] 由於基於平行語料的語音轉換方法受到了上述種種約束,導致了語音轉換技術難 以全面的走向實際應用,如通過非平行訓練方法得到獨立的說話人語音模型,改變源說話 人的個性特徵參數,加入目標說話人的個性特徵,實現源-目標之間的轉換,這對語音轉換 領域的發展將是巨大的貢獻。


【發明內容】

[0006] 為了克服上述現有技術的不足,本發明提供了一種新的非平行語料訓練的語音轉 換方法,以解決平行語料聯合訓練語音轉換方法中存在的以下問題:1、傳統語音轉換系統 中需要平行語料訓練得到轉換函數,而平行語料很難獲取;2、傳統語音轉換系統需要對特 徵矢量進行聯合訓練;3、傳統語音轉換系統的擴展不方便。
[0007] 本發明方法首先提取所有語音信號的基頻和短時譜,從短時譜獲得相應的LPCC 參數,然後對所有的特徵參數進行通用背景模型(UBM:Universal Background Model)訓 練,再利用最大後驗概率(MAP:Maximum a Posterior Probability)自適應方法導出具體 的說話人模型,最終得到相應的轉換函數進行語音轉換。
[0008] 具體地,本發明提出的一種自適應非平行訓練的語音轉換方法包括以下步驟:
[0009] 步驟1,從採集到的語音樣本中檢測出有效語音信號,對所述有效語音信號進行預 處理;
[0010] 步驟2,對於預處理後得到的有效語音信號提取語音特徵參數;
[0011] 步驟3,基於所述語音特徵參數進行UBM訓練,得到一個與說話人無關的UBM模 型;
[0012] 步驟4,基於所述UBM模型,得到與說話人有關的獨立說話人語音模型,基於所述 獨立說話人語音模型,得到頻譜參數和基頻參數的轉換函數;
[0013] 步驟5,將待轉換語音的語音特徵參數輸入到所述步驟4得到的轉換函數中,得到 轉換後的目標說話人的語音特徵參數;
[0014] 步驟6,將轉換後的目標說話人的語音特徵參數進行合成,得到目標語音。
[0015] 與現有技術相比,本發明的優點在於:
[0016] 傳統的語音轉換方法大都採用平行語料訓練源-目標說話人聯合語音模型並由 此推導相應的語音轉換函數,但實際應用中不僅難以得到完全平行的語料,而且訓練聯合 語音模型需要消耗大量的計算、系統擴展不方便。本發明避免了平行訓練對語料的嚴苛要 求,採用非平行語料進行訓練和轉換,無需聯合訓練,而且系統擴展靈活方便。

【專利附圖】

【附圖說明】
[0017] 圖1是本發明優化自適應非平行訓練的語音轉換方法的流程圖;
[0018] 圖2是本發明頻譜參數轉換函數的推導示意圖。

【具體實施方式】
[0019] 為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,並參照 附圖,對本發明進一步詳細說明。
[0020] 圖1是本發明採用的優化自適應非平行訓練的語音轉換方法的流程圖,如圖1所 示,所述方法包括以下步驟:
[0021] 步驟1,從採集到的語音樣本中檢測出有效語音信號,對所述有效語音信號進行預 處理;
[0022] 在本發明一實施例中,所述預處理包括預加重、加漢明窗和分幀等處理。
[0023] 步驟2,對於預處理後得到的有效語音信號提取語音特徵參數;
[0024] 所述語音特徵參數可以為基音頻率、線性預測倒譜係數(LPCC)、梅爾倒頻譜係數 (MFCC),線譜對(LSP)等語音特徵參數。
[0025] 在本發明一實施例中,將所有的有效語音信號通過STRAIGHT平臺獲得每幀信號 的基音頻率F0和短時譜參數,基於求得的短時譜參數利用Levenson-Durbin算法求取每中貞 語音信號的LPC係數,然後將LPC係數轉化為LPCC係數,即獲得所有參與訓練的說話人的 語音特徵參數,其中,用於獲取基音頻率的基音頻率模型使用一階的高斯分布來描述。
[0026] 步驟3,基於所述語音特徵參數進行UBM訓練,得到一個與說話人無關的UBM模 型;
[0027] 該步驟中,在進行UBM訓練時,首先平衡說話人性別上的差異和每個說話人訓練 語料庫的大小,然後融合所有用於訓練的語音特徵參數,通過EM算法訓練得到UBM模型。其 中,初始UBM模型中各成分的初始化權重均為1/M,Μ為UBM模型中混合高斯分量數。
[0028] UBM(通用背景模型)是一個與說話人無關的全局背景模型,全局背景模型本質上 是一個大型的高斯混合模型(GMM),一般由大量的說話人的語料訓練得到,它的思想就是所 有說話人的信息都包含在混合高斯密度函數所形成的超矢量中,它反映了所有說話人聲音 特徵的統計平均分布特性,從而消除了個性特徵。作為標準模型,UBM涵蓋了多個子空間, 其中每個子空間對應一個聚類中心,用高斯概率密度函數來描述,每一個子空間描述了特 徵空間的一個局部。
[0029] 步驟4,基於所述UBM模型,得到與說話人有關的獨立說話人語音模型,基於所述 獨立說話人語音模型,得到頻譜參數和基頻參數的轉換函數;
[0030] 所述步驟4進一步包括以下步驟:
[0031] 步驟41,對源說話人和目標說話人的訓練語音分別進行預處理;
[0032] 在本發明一實施例中,所述預處理包括預加重、加漢明窗和分幀等處理。
[0033] 步驟42,分別提取兩者的LPCC參數和基頻參數;
[0034] 步驟43,基於LPCC參數,分別從UBM模型中得到源說話人和目標說話人的GMM模 型;
[0035] 在本發明一實施例中,通過MAP自適應的方法分別從UBM模型中得到源說話人和 目標說話人的GMM模型。
[0036] 每個說話人的GMM模型都是由均值向量、協方差矩陣和混合權重來描述,表示為:

【權利要求】
1. 一種基於自適應非平行訓練的語音轉換方法,其特徵在於,該方法包括以下步驟: 步驟1,從採集到的語音樣本中檢測出有效語音信號,對所述有效語音信號進行預處 理; 步驟2,對於預處理後得到的有效語音信號提取語音特徵參數; 步驟3,基於所述語音特徵參數進行UBM訓練,得到一個與說話人無關的UBM模型; 步驟4,基於所述UBM模型,得到與說話人有關的獨立說話人語音模型,基於所述獨立 說話人語音模型,得到頻譜參數和基頻參數的轉換函數; 步驟5,將待轉換語音的語音特徵參數輸入到所述步驟4得到的轉換函數中,得到轉換 後的目標說話人的語音特徵參數; 步驟6,將轉換後的目標說話人的語音特徵參數進行合成,得到目標語音。
2. 根據權利要求1所述的方法,其特徵在於,所述預處理包括但不限於預加重、加漢明 窗和分幀處理。
3. 根據權利要求1所述的方法,其特徵在於,所述語音特徵參數包括但不限於基音頻 率、線性預測倒譜係數LPCC、梅爾倒頻譜係數MFCC和線譜對LSP。
4. 根據權利要求1所述的方法,其特徵在於,所述步驟2中,首先獲得每幀有效語音信 號的基音頻率和短時譜參數;然後基於求得的短時譜參數求取每幀語音信號的LPC系 數;然後將LPC係數轉化為LPCC係數。
5. 根據權利要求1所述的方法,其特徵在於,所述步驟3中,在進行UBM訓練時,首先平 衡說話人性別上的差異和每個說話人訓練語料庫的大小;然後融合所有用於訓練的語音特 徵參數,通過EM算法訓練得到UBM模型。
6. 根據權利要求1所述的方法,其特徵在於,所述步驟4進一步包括以下步驟: 步驟41,對源說話人和目標說話人的訓練語音分別進行預處理; 步驟42,分別提取兩者的LPCC參數和基頻參數; 步驟43,基於LPCC參數,分別從UBM模型中得到源說話人和目標說話人的GMM模型; 步驟44,求取基頻參數的均值和方差,並使用一階的高斯模型對其進行建模; 步驟45,根據所述步驟43得到的GMM模型和所述步驟44得到的基頻參數模型,得到頻 譜參數和基頻參數的轉換函數。
7. 根據權利要求6所述的方法,其特徵在於,通過MAP自適應方法分別從UBM模型中得 到源說話人和目標說話人的GMM模型。
8. 根據權利要求6所述的方法,其特徵在於,所述頻譜參數的轉換函數表示為:
其中,Pi (X)是源說話人GMM模型的第i個高斯分量的後驗概率,Q表示高斯分量的維 數,Ci/fjf:)是源說話人GMM模型的第i個高斯分量的均值和協方差矩陣,〇^,Σ『)是目標說 話人GMM模型的第i個高斯分量的均值和協方差矩陣; 所述基頻參數的轉換函數表示為:
其中,μ s和μ τ分別表示源和目標說話人語音基頻的均值,σs和σ τ表示源和目標說 話人語音基頻的方差,F/是源說話人語音的基音頻率。
9. 根據權利要求1所述的方法,其特徵在於,所述步驟5進一步包括以下步驟: 步驟51,提取源說話人待轉換語音的短時譜和基頻R); 步驟52,由短時譜包絡提取出LPCC參數; 步驟53,分別根據所述頻譜參數轉換函數和基頻參數轉換函數對源說話人的LPCC參 數和基頻Η)進行轉換,得到目標說話人的LPCC參數和基頻參數。
10. 根據權利要求1所述的方法,其特徵在於,所述步驟6進一步包括以下步驟: 步驟61,基於轉換後的LPCC參數重估出目標說話人的短時譜包絡; 步驟62,結合所述短時譜包絡和轉換後的基頻R),得到具有目標說話人特徵的語音。
【文檔編號】G10L15/18GK104123933SQ201410377091
【公開日】2014年10月29日 申請日期:2014年8月1日 優先權日:2014年8月1日
【發明者】王飛躍, 孔慶傑, 熊剛, 朱鳳華, 朱春雷 申請人:中國科學院自動化研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀