語音轉換方法和系統的製作方法

2023-07-23 09:17:51 3

專利名稱：語音轉換方法和系統的製作方法
技術領域：
本發明涉及聲音處理方法和系統，尤其涉及對人類語音進行轉換的方法和系統。
背景技術：
語音轉換是轉換源說話者的語音以使其聽起來類似於目標說話者的語音。當前，語音轉換可具有多種用途。一個重要的應用是為不同的公司構建定製的文本至語音系統，其中通過修改原始說話者的語音語料可以快速且便宜地創建具有一個公司喜好的語音的TTS 系統。語音轉換也可以用於生成具體的角色語音並在語音到語音翻譯時保持說話者的一致性，這種經過轉換的語音可用於電影製作、在線遊戲、語言聊天、多媒體消息服務等各種應用中。通常存在兩個對於轉換的語音的標準來評估語音轉換系統的性能。轉換語音的質量以及與目標說話者的相似度。當前技術水平下的語音轉換技術，通常在質量和相似度之間找到一個較好的平衡點。同時，不同的應用會對質量和相似度有不同的側重。但通常而言，較好的語音質量是語音轉換技術被實際應用的一個重要條件。頻譜轉換是語音轉換系統的關鍵組成部分。最流行的兩種頻譜轉換方法是碼本映射(例如參見Abe， M.,S.Nakamura， K.Shikano, H.Kuwabara的 "Voice Conversion through Vector Quantization," Proc. ICASSP, Seattle, WA， U.S.A.， 1998, pp. 655-658 )和高斯混合模型 (GMM)轉換算法(例如參見Stylianou, Y.等人的"Continuous Probabilistic Transform for Voice Conversion," IEEE Transactions on Speech and Audio Processing, v.6, no.2, March 1998， pp.131-142;以及 Kain, A.B.的 "High Resolution Voice Transformation," Ph.D. thesis, Oregon Health and Science University, October 2001 )。然而，儘管最近已對這兩種方法進行了改進，但其中引入的質量下降卻仍然很嚴重(例如參見Shuang, Z.W.， Z. X. Wang， Z. H. Ling， and R. H. Wang, "A Novel Voice Conversion System Based on Codebook Mapping with Phoneme-Tied Weighting," Proc. ICSLP, Jeju， Korea, 2004 )。相比專交地，另一種頻譜轉換方法一一頻率彎曲可以帶來了較少的質量下降(例如參見Eichner， M., M. Wolff和R.Hoffmann的"Voice Characteristic Conversion for TTS Using Reverse VTLN," Pro. ICASSP, Montreal, PQ, Canada, 2004 )。為了尋找良好的頻率彎曲函數，已經進行了4艮多工作。例如，由Eide， E.和H. Gish在"A Parametric Approach to Vocal Tract Length Normalization," ICASSP 1996, Atlanta, USA, 1996中提出了一種方法，其中彎曲函數是基於每一個說話者的第三共振峰的中值。一些研究者通過基於屬於相同音素的共振峰生成彎曲函數擴展了此方法。然而，共振峰頻率和其與聲道長度(VTL) 的關係不僅依賴於說話者的聲道形狀和其所發出的不同音素，而且高度依賴於上下文，同一個說話者的共振峰可能隨著上下文而發生很大變化。同一申請人的中國專利申請公開號CN101004911A公開了一種通過映射源說話者和目標說話者的共振峰參數生成頻率彎曲函數的新方案，其中增加了對準和選擇過程，以保證選擇的映射共振峰可以很好地代表說話者之間發音的不同之處。此方案僅需要非常小量的生成彎曲函數的訓練數據，可以極大地方便其應用，而且可以獲得高質量的轉換語音，同時成功地使轉換語音與目標說話者相似。雖然如此，利用該方案進行的語音轉換，聽眾仍然能夠察覺到轉換的語音和目標說話者之間的差別。這樣的差異是由具體的頻鐠差異引起的，它不能通過純粹的頻譜彎曲解決。在聲音處理技術中，還存在其它的語音技術，例如文本到語音(TTS)技術。最流行的TTS技術被稱為拼接式TTS,在其中需要首先記錄語料說話者的語音資料庫，然後通過單元選擇拼接說話者的語音數據段以合成新的語音數據。在很多商業的TTS系統中，語
音資料庫包含數小時的記錄。最小的拼接段，即單元，可以是音節、音素，甚至是10ms的語音數據幀。在典型的拼接式TTS系統中，與由估計模型生成的韻律目標一起列出的候選段序列驅動對最小化代價函數的單元序列的Viterbi 束搜索。該搜索旨在從候選單元中選擇具有最小代價函數的單元序列。目標代價可以包括代價分量的集合，例如/。代價，其衡量單元的/。曲線與目標的/。曲線之間的差距；持續時間代價，其衡量單元的持續時間與目標的持續時間之間的差距；能量代價，其衡量單元的能量離與目標的能量之間的差距(該分量在搜索時通常並不採用)。過渡代價可以包括兩個分量，其中一個捕獲跨單元結合處的頻語平滑度，另一個捕獲跨頻鐠結合處的音調平滑度。此過渡代價的頻譜平滑度分量可以基於感知修改耳(Mel)倒譜係數之間的 Euclidian距離。目標代價分量和過渡代價分量可以使用能夠手工調節的權重相加在一起。由於合成的語音事實上是由語料說話者的語音單元拼接的，所以通常能被認為是由語料說話者所說出的。然而，由於很難模擬真人的語音生成過程，所以合成的語音通常被認為是不真實的和不自然的。因此，傳統的TTS系統雖然保持了說話者的一致性，但其由於不能提供完美的目標估計而失去了人聲的自然度。可見，現有技術中的語音技術都存在其自身的局限性。需要提供一種即具有較高目標語音逼真度又具有人聲的自然度的語音轉換系統。發明內容為了克服現有技術中存在的局限性，本發明提出一種新穎的語音轉換方案，既具有較高目標語音相似度又體現了人聲的自然度。根據本發明的一方面，提供一種語音轉換方法。該方法包括語音分析步驟，用於對源說話者的語音執行語音分析以獲得語音信息；頻譜轉換步驟，用於基於語音信息執行頻譜轉換，至少獲得與目標說話者的語音相似的第一頻譜；單元選擇步驟，用於至少使用第
一頻譜作為目標，基於目標說話者的語音執行單元選擇；頻譜替換步驟，用於以所選擇的目標說話者語音單元的頻傳替代第一頻譜的至少一部分；語音重建步驟，用於至少基於替換的頻譜執行語音重建。根據本發明的另一方面，提供一種語音轉換系統。該系統包括語音分析裝置，用於對源說話者的語音執行語音分析以獲得語音信息；頻譜轉換裝置，用於基於語音信息執行頻譜轉換，至少獲得與目標說話者的語音相似的第一頻語；單元選擇裝置，用於至少使用第一頻鐠作為目標，基於目標說話者的語音執行單元選擇；頻譜替換裝置，用於以所選擇的目標說話者語音單元的頻譜替代第一頻譜的至少一部分；語音重建裝置，用於至少基於替換的頻譜執行語音重建。根據本發明的另一方面，提供一種電腦程式產品，包括當在的程序代碼。根據本發明的語音轉換方案，將諸如頻率彎曲的頻譜轉換技術和 TTS系統內的單元選擇進行有機地結合，很大程度上克服了由說話者語音的具體頻譜差異引起的轉換的語音和目標說話者之間的差別。而且，在本發明中由於採用轉換的源語音作為單元選擇的目標，因此最終轉換語音不僅具有與目標說話者語音的良好相似度，而且保持了人聲的自然度。結合附圖閱讀本發明實施方式的詳細描述後，本發明的其他特點和優點將變得更加清楚。

為了對本發明實施方式的特徵和優點進行詳細說明，將參照以下附圖。如果可能的話，在附圖和描述中使用相同或者類似的參考標號以指代相同或者類似的部分。附圖中圖1示出了根據本發明一個實施方式的語音轉換方法的流程圖；200710163066. 2說明書第5/15頁圖2示意性地示出了根據本發明一種實施方式的語音轉換系統的功能框圖；圖3示意性示出了可以實現根據本發明的實施方式的計算設備。
具體實施方式
正如上文所述，即使應用良好的頻率彎曲函數對源語音進行頻率彎曲，由於說話者語音的具體頻語差異，聽眾仍然能夠察覺到轉換的語音和目標說話者之間的差別。鑑於純粹的諸如頻率彎曲的頻譜轉換難以進一步提高與目標說話者的相似度，本發明提出一種複合式的語音轉換系統，其中將諸如頻率彎曲的頻譜轉換技術和TTS系統內的單元選擇進行有機地結合，以得到更好的語音轉換系統。圖1示出了根據本發明一個實施方式的語音轉換方法的流程圖。如圖1所示，在步驟S100中，該方法的流程開始。在步驟S102中，對源說話者的語音進行語音分析以獲得語音信息。該語音信息諸如頻譜包絡和基頻曲線信息。在步驟S104中，根據本發明的語音轉換系統的原理，對源說話者的語音應用諸如頻率彎曲的頻譜轉換，以獲得與目標說話者的語音相似的第一頻i普。通過使用頻率彎曲函數轉換頻譜包絡，本步驟是相當直接的。假設源說話者的頻譜的一幀是5YW入從目標頻率軸到源頻率軸的頻High Quality Sinusoidal Modeling of Wideband Speech for the Purpose of Speech Synthesis and Modification," ICASSP 2006中提出的語音分析/重建技術，以得到加
強的複雜包絡模型和音調曲線。該技術基於合成過程中的頻率抖動噪音插入和有效線譜提取，並且能夠提供在分析和合成過程中的幀對準過程以在語音操作過程中允許振幅和相位操縱，例如，音調修正、頻譜平滑、聲道轉換等。當然，對於本發明而言，可以採用本領域中現有的任何語音分析/重建技術來實現語音分析裝置201和語音重建裝置209,其對本發明的實現不夠成限制。語音轉換系統200的功能實現依賴於兩個操作階段，即訓練階段和轉換階段。訓練階段為轉換階段的操作提供必要的準備。雖然訓練階段本身並不是本發明所關注的問題所在，但是由於本發明語音轉換系統的新穎配置，其訓練階段也與常規系統有所不同。以下對根據本發明一個實施方式的語音轉換系統200的訓練階段進行簡要的示例性描述，以便本領域的技術人員更好的理解本發明的實現方式。根據本發明一個實施方式的語音轉換系統200的訓練階段可以分為三部分1.針對頻譜轉換裝置202所採用的頻率彎曲函數訓練；2. 針對目標語音語料庫204和單元選擇裝置205進行的碼本訓練；3. 除了這兩個主要部分外，還可以包括附加的其它訓練韻律參數訓練、頻譜均衡過濾訓練等。1.頻率彎曲函數訓練如前所述，頻譜轉換裝置202可以採用頻率彎曲技術實現對源語音頻謙包絡的頻譜轉換。頻率彎曲可以補償不同說話者之間聲光譜的差值。給定一種聲音的截面譜，可以通過應用頻率彎曲函數創建新的截面譜。假設源說話者的頻譜的一幀是SfWj， ^v目標頻率軸到源頻率軸的頻率彎曲函數是FfW)，則轉換頻譜ComY—是在現有技術中存在許多用於發現性能良好的頻率彎曲函數的自動訓練方法。一種方法是最大似然線性回歸法，參見L.F.Uebeland和 P.C. Woodland 的 "An investigation into vocal tract lengthnormalization," EUROSPEEECH， 99， Budapest, Hungary, 1999， pp.2527-2530。然而，這種方法需要大量的訓練數據集，這限制了它在很多場合中的使用。Eichner， M., M. Wolff和R.Hoffmann的"Voice Characteristic Conversion for TTS Using Reverse VTLN," Pro. ICASSP， Montreal, PQ， Canada, 2004建議從一些預定義的單參數函數族中選擇頻率彎曲函數，但是效率難以令人滿意。David Sunderman和 Hermann Ney的"VTLN-Based Voice Conversion", ICSLP， 2004， Jeju， Korea, 2004採用動態編程以訓練線性或者分段的線性彎曲函數，其中動態編程使轉換源頻譜和目標頻譜之間的距離最小化。然而，由於輸入光譜中的噪音，此方法的性能可以被極大地降低。由Eide， E.和H. Gish在 "A Parametric Approach to Vocal Tract Length Normalization," ICASSP 1996, Atlanta, USA, 1996中提出了一種方法，其中彎曲函數是基於每一個說話者的第三共振峰的中值。一些研究者通過基於屬於相同音素的共振峰生成彎曲函數擴展了此方法。然而，共振峰頻率和其與聲道長度(VTL)的關係不僅依賴於說話者的聲道形狀和其所發出的不同音素，而且高度依賴於上下文，同一個說話者的共振峰可能隨著上下文而發生很大變化。同一申請人:的中國專利申請/〉開號CN101004911A 7>開了一種通過映射源說話者和目標說話者的共振峰參數生成頻率彎曲函數的新方案，在此通過參考將該申請全文引入本申請。在該技術方案中增加了對準和選擇過程，以保證選擇的映射共振峰可以很好地代表說話者之間發音的不同之處。然後，映射共振峰將成為定義從目標頻率軸到源頻率軸的分段線性頻率彎曲函數的關鍵位置。提出線性插值以生成兩個鄰接關鍵位置之間的部分，其它插值機制也可以^吏用。此方案僅需要非常小量的生成彎曲函數的訓練數據，可以極大地方便其應用，而且可以獲得高質量的轉換語音，同時成功地使轉換語音與目標說話者相似。 2.碼本訓練目標語料庫204是可以用於存儲並向單元選擇裝置205提供碼本。碼本由多個碼字組成。通常一個碼字由一幀語音數據而生成，該一幀語音數據例如是10ms長的語音數據。一個碼字可以用於重建一幀語音數據。基本上有兩種碼字。一種沒有語境信息，其意味著每個碼字僅包含諸如頻譜和基音頻率的聲音信息。另一種具有語音信息，-其意味著除了聲音信息之外，每個碼字包含語音信息，諸如碼字屬於的音素、鄰近音素等。生成不具有語音信息的碼本通常非常簡單。僅需要逐幀對語音數據作語音分析，並得到每幀的頻譜包絡和基音頻率。然後，從所有分析的幀中選擇一些幀。可以簡單地在固定間隔內選擇一個幀來執行選擇。當然，也可以使用一些更複雜的策略執行選擇。例如，可以在那些安靜或者低能段中選擇更少的幀。或者可以在更快變化段中選擇更多的幀，而在穩定段中選擇更少的幀。為了生成具有目標語音信息的碼本，通常需要對準信息。可以通過自動語音識別引擎執行對準，其將目標語音語料庫204中語音數據與諸如音節、音素等相應的單元對準。還可以通過聽取目標語音語料庫204中的語音數據手動地添加標籤，從而執行對準。利用對準信息，可以得到一個碼字的多種語音信息，諸如其屬於的音素、在音素中的位置和它的鄰近音素等。這樣的音素信息對於在轉換階段中由單元選擇單元205所執行的對碼本單元的選擇是很有用的。3.其它訓練除了上述兩部分外，還可以包括附加的訓練，例如韻律參^:(音調參數)訓練、頻譜均衡過濾訓練等。韻律訓練為韻律轉換裝置203提供了從源說話者音調到目標說話者音調的韻律轉換函數。其中基音頻率(/o)轉換對於韻律轉換是至關重要的。可以通過使用應用至1og/。的線性轉換對/。曲線進行調節。因此，如果A是源/w和6以將源說話者/og/^。的均值和方差轉換為目標說話者/og/o
的均值和方差。所以，我們可以通過計算源說話者和目標說話者/ogy^ 的均值和方差生成/。轉換函數。可以將頻譜包絡均衡實現為對頻譜的濾波器(未示出)，以補償沿著頻率軸的不同能量分配。在訓練完頻率彎曲函數後，由於在頻率彎曲後計算源說話者和目標說話者的平均功率謙之間的差異曲線，需要訓練頻譜均衡濾波器。然後，平滑差異曲線以得到更平滑的作為頻譜包絡均衡濾波器使用的頻i普濾波器。當然，本領域技術人員可以理解，為了獲得更加更佳的語音轉換結果還可以在根據本發明的語音轉換系統200中增加這裡雖未描述但依據現有技術可以獲知的任何其它處理裝置，因此還可以包括針對這些附加裝置的其它附加的訓練步驟。當根據本發明一個實施方式的語音轉換系統200執行源語音到目標語音的轉換時，則系統進入轉換階段。首先，由語音分析裝置201對源說話者的語音進行語音分析以獲得頻譜包絡和音調曲線信息。頻譜轉換裝置202對源說話者的語音頻譜包絡進行頻譜轉換。如前所述，在該實施方式中頻譜轉換裝置202將在訓練階段所得到頻率彎曲函數應用於源說話者語音的頻謙包絡，以獲得與目標說話者的語音相似的第一頻語。韻律轉換裝置203對音調曲線進行韻律轉換，其中主要包括對基音頻率(/Q)曲線轉換。例如，可以利用在訓練階段訓練的/。轉換函數轉換/。曲線。之後，韻律轉換裝置203將轉換後的音調信息提供給單元選擇裝置205和語音重建裝置209,以便後續的使用。此時，通過頻譜轉換裝置202和韻律轉換裝置203的轉換，第一頻譜將與目標說話者的頻語更相似，以及優選地轉換後的音調曲線將與目標說話者的音調曲線更相似。單元選擇裝置205至少使用第一頻語作為估計的目標，基於由目標語音語料庫204通過前述訓練過程所獲得的碼本進行單元選擇。在本實施方式中，優選地，單元選擇裝置205使用通過頻率彎曲轉
換的第一頻譜和轉換的/。曲線作為估計的目標來由目標語音語料庫204通過前述訓練過程所獲得的碼本中選擇合適的碼字。單元選擇裝置205執行與在拼接式文本到語音系統中的候選單元選擇相似的處理過程。然而，不同指出在於，本發明以轉換後的第一頻譜和/。輪廓曲線作為單元選擇的目標。這樣的估計目標的優點在於，其比TTS系統中的由韻律模型或者其它模型估計出的目標更自然。單元選擇裝置205可以從轉換的第一頻譜和/。輪廓曲線生成目標碼字的集合。然後，可以定義在目標碼字和候選的碼字之間的目標代價函數。優選地，此目標代價可以由頻譜距離、韻律距離和語境距離加權。除了目標代價外，單元選擇裝置205還需要定義在兩個候選碼字之間的過渡代價。與目標代價類似，過渡代價也可以是頻譜距離、韻律距離和語境距離的加權和。由此，單元選擇裝置205確定目標語音語料庫204中生成的碼本與轉換後的第一頻譜和/。輪廓曲線最適合的碼字集合。接著，頻譜替換裝置206以所選擇的目標說話者語音單元的真實頻譜替代第一頻譜的至少一部分。由於所選擇的目標說話者語音的是諸如幀的基本單元，因此如果頻譜替換裝置206直接利用所選擇的單元替換第一頻譜中該單元所對應的整個的頻譜，則可能在最終得到的語音中引起嚴重的中斷問題。鑑於頻譜的低頻部分對於連續性是至關重要的，而對改善與目標的相似度不是很重要，因此根據本發明一種優選的方案，頻譜替換裝置206將第一頻譜中所選單元所對應頻譜的低頻部分保持不變。也就是說，在選擇完合適的碼字後，頻譜替換裝置206利用選擇的碼字的高於特定頻率的頻譜替換第一頻譜中的相應部分，而將第一頻譜中低於該特定頻率的部分保持不變。根據本發明的一種優選實施方案，該特定頻率在500Hz 到2000Hz之間進行選擇。優選地，頻譜平滑裝置20 8可以利用現有技術中的任何已知方案對替換所得的頻譜進行平滑。語音重建裝置209利用平滑後的頻譜和轉換的力曲線重建語音數據，由此獲得最終轉換的語音。如圖2所示的根據本發明實施方式的語音轉換系統與使用頻率彎曲的現有語音轉換系統相比較，在根據本發明實施方式的語音轉換系統所獲得的最終轉換語音與目標說話者的相似度的得分上增加了 20%,並在質量上的降低是可以接受的。圖2所示的語音轉換系統的一些部件對於本發明來說是可選的，例如頻譜平滑裝置208，其作用是消除用於進行語音重建的頻譜包絡的細小毛刺和跳變，使其更加平滑，從而能夠獲得性能更加優越的最終轉換語音。雖然在圖2所示實施方式中沒有進一步列舉，但是本領域的技術人員可以在實現根據本發明的語音轉換系統時增加其它的部件，以便進一步改進最終轉換語音的性能，例如消除附加噪聲、獲得某種特殊音效等。圖3示意性示出了可以實現根據本發明的實施方式的計算設備。圖3中所示的計算機系統包括CPU(中央處理單元)301、 RAM(隨機存取存儲器)302、 ROM(只讀存儲器)303、系統總線304,硬碟控制器305、鍵盤控制器306、串行接口控制器307、並行接口控制器 308、顯示器控制器309、硬碟310、鍵盤311、串行外部設備312、並行外部設備313和顯示器314。在這些部件中，與系統總線304 相連的有CPU301、 RAM 302、 ROM 303、硬碟控制器305、鍵盤控制器306，串行接口控制器307，並行接口控制器308和顯示器控制器309。硬碟310與硬碟控制器305相連，鍵盤311與鍵盤控制器 306相連，串行外部設備312與串行接口控制器307相連，並行外部設備313與並行接口控制器308相連，以及顯示器314與顯示器控制器309相連。圖3中每個部件的功能在本技術領域內都是眾所周知的，並且圖 3所示的結構也是常規的。這種結構不僅用於個人計算機，而且用於手持設備，如PalmPC、 PDA(個人數據助理)、行動電話等等。在不同的應用中，可以向圖3中所示的結構添加某些部件，或者圖6 中的某些部件可以被省略。圖3中所示的整個系統由通常作為軟體
存儲在硬碟310中、或者存儲在EPROM或者其它非易失性存儲器中的計算機可讀指令控制。軟體也可從網絡(圖中未示出)下載。或者存儲在硬碟310中，或者從網絡下載的軟體可被加載到RAM 302中，並由CPU301執行，以便完成由軟體確定的功能。儘管圖3中描述的計算機系統能夠支持根據本發明的語音轉換方案，但是該計算機系統只是計算機系統的一個例子。本領域的熟練技術人員可以理解，許多其它計算機系統設計也能實現本發明的實施方式。本發明還可以實現為例如由圖3所示計算機系統所使用的計算機程序產品，其可以包含有用於實現根據本發明的語音轉換方法的代碼。在使用之前，可以把代碼存儲在其它計算機系統的存儲器中，例如，存儲在硬碟或諸如光碟或軟盤的可移動的存儲器中，或者經由網際網路或其它計算機網絡進行下載。雖然結合附圖描述了本發明的實施方式，但是本領域技術人員可以在所附權利要求的範圍內做出各種變形或修改。
權利要求
1. 一種語音轉換方法，包括語音分析步驟，用於對源說話者的語音執行語音分析以獲得語音信息；頻譜轉換步驟，用於基於所述語音信息執行頻譜轉換，至少獲得與目標說話者的語音相似的第一頻譜；單元選擇步驟，用於至少使用所述第一頻譜作為目標，基於所述目標說話者的語音執行單元選擇；頻譜替換步驟，用於以所選擇的目標說話者語音單元的頻譜替代所述第一頻譜的至少一部分；語音重建步驟，用於至少基於替換的頻譜執行語音重建。
2. 根據權利要求1所述的方法，其中通過頻率彎曲執行所述頻譜轉換步驟。
3. 根據權利要求1所述的方法，還包括韻律轉換步驟，用於基於所述語音信息執行韻律轉換，至少獲得與所述目標說話者的語音相似的第一音調曲線；其中在所述單元選擇步驟中，使用所述第一頻譜和所述第一音調曲線作為目標，基於所述目標說話者的語音^丸行單元選擇；以及在所述語音重建步驟中，基於替換的頻譜和所述第一音調曲線執行語音重建。
4. 根據權利要求1所述的方法，其中在所述頻譜替換步驟中，利用所選擇單元的高於特定頻率的頻譜替換所述第一頻譜中的相應部分，而將所述第一頻譜中低於所述特定頻率的部分保持不變。
5. 根據權利要求4所述的方法，其中所述特定頻率選擇在500Hz至2000Hz之間。
6. 根據權利要求1所述的方法，還包括頻鐠平滑步驟，用於對所述頻譜替換步驟中獲得的替換的頻傳進行頻譜平滑；其中在所述語音重建步驟中，基於平滑的頻譜和所述第一音調曲線執行語音重建。
7. 根據權利要求1 - 6中任一權利要求所述的方法，其中所述語音信息包括頻譜包絡和音調曲線信息。
8. —種語音轉換系統，包括語音分析裝置，用於對源說話者的語音執行語音分析以獲得語音信息；頻鐠轉換裝置，用於基於所述語音信息執行頻譜轉換，至少獲得與目標說話者的語音相似的第一頻譜；單元選擇裝置，用於至少使用所述第一頻譜作為目標，基於所述目標說話者的語音執行單元選擇；頻語替換裝置，用於以所選擇的目標說話者語音單元的頻譜替代所述第一頻譜的至少一部分；語音重建裝置，用於至少基於替換的頻譜執行語音重建。
9. 根據權利要求8所述的系統，其中所述頻譜轉換裝置通過頻率彎曲執行頻譜轉換。
10. 根據權利要求8所述的系統，還包括韻律轉換裝置，用於基於所述語音信息執行韻律轉換，至少獲得與所述目標說話者的語音相似的第一音調曲線；其中所述單元選擇裝置使用所述第一頻譜和所述第一音調曲線作為目標，基於所述目標說話者的語音執行單元選擇；以及所述語音重建裝置基於替換的頻譜和所述第一音調曲線執行語音重建。
11. 根據權利要求8所述的系統，其中所述頻譜替換裝置利用所選擇單元的高於特定頻率的頻譜替換所述第一頻譜中的相應部分，而將所述第一頻譜中低於所述特定頻率的部分保持不變。
12. 根據權利要求11所述的系統，其中所述特定頻率選擇在500Hz至2000Hz之間。
13. 根據權利要求8所述的系統，還包括頻譜平滑裝置，用於對所述頻譜替換步驟中獲得的替換的頻譜進行頻i普平滑；其中所述語音重建裝置基於平滑的頻譜和所述第一音調曲線執行語音重建。
14. 根據權利要求8-13中任一權利要求所述的系統，其中所述語音信息包括頻譜包絡和音調曲線信息。
15. —種電腦程式產品，包括當在計算機設備上對其進行執行時用於執行根據權利要求1-7任一權利要求的語音轉換方法的程序代碼。
全文摘要
本發明提供一種語音轉換方法。該方法包括語音分析步驟，用於對源說話者的語音執行語音分析以獲得語音信息；頻譜轉換步驟，用於基於語音信息執行頻譜轉換，至少獲得與目標說話者的語音相似的第一頻譜；單元選擇步驟，用於至少使用第一頻譜作為目標，基於目標說話者的語音執行單元選擇；頻譜替換步驟，用於以所選擇的目標說話者語音單元的頻譜替代第一頻譜的至少一部分；語音重建步驟，用於至少基於替換的頻譜執行語音重建。本發明還提供相應的語音轉換系統和電腦程式產品。本發明的語音轉換方案將頻率彎曲技術和TTS系統內的單元選擇進行有機地結合，使得最終轉換語音不僅具有與目標說話者語音的良好相似度，而且體現了人聲的自然度。
文檔編號G10L13/08GK101399044SQ20071016306
公開日2009年4月1日申請日期2007年9月29日優先權日2007年9月29日
發明者雙志偉, 孟繁平, 勤施, 勇秦申請人:國際商業機器公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

語音轉換方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法