新四季網

語音轉換方法和系統的製作方法

2023-07-23 09:17:51 2

專利名稱:語音轉換方法和系統的製作方法
技術領域:
本發明涉及聲音處理方法和系統,尤其涉及對人類語音進行轉換 的方法和系統。
背景技術:
語音轉換是轉換源說話者的語音以使其聽起來類似於目標說話 者的語音。當前,語音轉換可具有多種用途。 一個重要的應用是為 不同的公司構建定製的文本至語音系統,其中通過修改原始說話者的語音語料可以快速且便宜地創建具有一個公司喜好的語音的TTS 系統。語音轉換也可以用於生成具體的角色語音並在語音到語音翻 譯時保持說話者的 一致性,這種經過轉換的語音可用於電影製作、 在線遊戲、語言聊天、多媒體消息服務等各種應用中。通常存在兩 個對於轉換的語音的標準來評估語音轉換系統的性能。轉換語音的 質量以及與目標說話者的相似度。當前技術水平下的語音轉換技術, 通常在質量和相似度之間找到一個較好的平衡點。同時,不同的應 用會對質量和相似度有不同的側重。但通常而言,較好的語音質量 是語音轉換技術被實際應用的一個重要條件。頻譜轉換是語音轉換系統的關鍵組成部分。最流行的兩種頻譜轉 換方法是碼本映射(例如參見Abe, M.,S.Nakamura, K.Shikano, H.Kuwabara的 "Voice Conversion through Vector Quantization," Proc. ICASSP, Seattle, WA, U.S.A., 1998, pp. 655-658 )和高斯混合模型 (GMM)轉換算法(例如參見Stylianou, Y.等人的"Continuous Probabilistic Transform for Voice Conversion," IEEE Transactions on Speech and Audio Processing, v.6, no.2, March 1998, pp.131-142;以及 Kain, A.B.的 "High Resolution Voice Transformation," Ph.D. thesis, Oregon Health and Science University, October 2001 )。然而,儘管最 近已對這兩種方法進行了改進,但其中引入的質量下降卻仍然很嚴 重(例如參見Shuang, Z.W., Z. X. Wang, Z. H. Ling, and R. H. Wang, "A Novel Voice Conversion System Based on Codebook Mapping with Phoneme-Tied Weighting," Proc. ICSLP, Jeju, Korea, 2004 )。相比專交 地,另 一 種頻譜轉換方法 一 一頻率彎曲可以帶來了較少的質量下降(例如參見Eichner, M., M. Wolff和R.Hoffmann的"Voice Characteristic Conversion for TTS Using Reverse VTLN," Pro. ICASSP, Montreal, PQ, Canada, 2004 )。為了尋找良好的頻率彎曲函數,已經 進行了4艮多工作。例如,由Eide, E.和H. Gish在"A Parametric Approach to Vocal Tract Length Normalization," ICASSP 1996, Atlanta, USA, 1996中提出了一種方法,其中彎曲函數是基於每一個說話者的 第三共振峰的中值。 一些研究者通過基於屬於相同音素的共振峰生 成彎曲函數擴展了此方法。然而,共振峰頻率和其與聲道長度(VTL) 的關係不僅依賴於說話者的聲道形狀和其所發出的不同音素,而且 高度依賴於上下文,同一個說話者的共振峰可能隨著上下文而發生 很大變化。同一申請人的中國專利申請公開號CN101004911A公開 了 一種通過映射源說話者和目標說話者的共振峰參數生成頻率彎曲 函數的新方案,其中增加了對準和選擇過程,以保證選擇的映射共 振峰可以很好地代表說話者之間發音的不同之處。此方案僅需要非 常小量的生成彎曲函數的訓練數據,可以極大地方便其應用,而且 可以獲得高質量的轉換語音,同時成功地使轉換語音與目標說話者 相似。雖然如此,利用該方案進行的語音轉換,聽眾仍然能夠察覺 到轉換的語音和目標說話者之間的差別。這樣的差異是由具體的頻 鐠差異引起的,它不能通過純粹的頻譜彎曲解決。在聲音處理技術中,還存在其它的語音技術,例如文本到語音(TTS)技術。最流行的TTS技術被稱為拼接式TTS,在其中需要 首先記錄語料說話者的語音資料庫,然後通過單元選擇拼接說話者 的語音數據段以合成新的語音數據。在很多商業的TTS系統中,語
音資料庫包含數小時的記錄。最小的拼接段,即單元,可以是音節、音素,甚至是10ms的語音數據幀。在典型的拼接式TTS系統中,與由估計模型生成的韻律目標一 起列出的候選段序列驅動對最小化代價函數的單元序列的Viterbi 束搜索。該搜索旨在從候選單元中選擇具有最小代價函數的單元序 列。目標代價可以包括代價分量的集合,例如/。代價,其衡量單元 的/。曲線與目標的/。曲線之間的差距;持續時間代價,其衡量單元 的持續時間與目標的持續時間之間的差距;能量代價,其衡量單元 的能量離與目標的能量之間的差距(該分量在搜索時通常並不採 用)。過渡代價可以包括兩個分量,其中一個捕獲跨單元結合處的 頻語平滑度,另一個捕獲跨頻鐠結合處的音調平滑度。此過渡代價 的頻譜平滑度分量可以基於感知修改耳(Mel)倒譜係數之間的 Euclidian距離。目標代價分量和過渡代價分量可以使用能夠手工調 節的權重相加在一起。由於合成的語音事實上是由語料說話者的語 音單元拼接的,所以通常能被認為是由語料說話者所說出的。然而, 由於很難模擬真人的語音生成過程,所以合成的語音通常被認為是 不真實的和不自然的。因此,傳統的TTS系統雖然保持了說話者的 一致性,但其由於不能提供完美的目標估計而失去了人聲的自然度。可見,現有技術中的語音技術都存在其自身的局限性。需要提供 一種即具有較高目標語音逼真度又具有人聲的自然度的語音轉換系 統。發明內容為了克服現有技術中存在的局限性,本發明提出 一種新穎的語音 轉換方案,既具有較高目標語音相似度又體現了人聲的自然度。根據本發明的一方面,提供一種語音轉換方法。該方法包括語 音分析步驟,用於對源說話者的語音執行語音分析以獲得語音信息;頻譜轉換步驟,用於基於語音信息執行頻譜轉換,至少獲得與目 標說話者的語音相似的第一頻譜;單元選擇步驟,用於至少使用第
一頻譜作為目標,基於目標說話者的語音執行單元選擇;頻譜替換 步驟,用於以所選擇的目標說話者語音單元的頻傳替代第一頻譜的 至少一部分;語音重建步驟,用於至少基於替換的頻譜執行語音重建。根據本發明的另一方面,提供一種語音轉換系統。該系統包括 語音分析裝置,用於對源說話者的語音執行語音分析以獲得語音信 息;頻譜轉換裝置,用於基於語音信息執行頻譜轉換,至少獲得與 目標說話者的語音相似的第一頻語;單元選擇裝置,用於至少使用 第一頻鐠作為目標,基於目標說話者的語音執行單元選擇;頻譜替 換裝置,用於以所選擇的目標說話者語音單元的頻譜替代第一頻譜 的至少一部分;語音重建裝置,用於至少基於替換的頻譜執行語音 重建。根據本發明的另一方面,提供一種電腦程式產品,包括當在 的程序代碼。根據本發明的語音轉換方案,將諸如頻率彎曲的頻譜轉換技術和 TTS系統內的單元選擇進行有機地結合,很大程度上克服了由說話 者語音的具體頻譜差異引起的轉換的語音和目標說話者之間的差 別。而且,在本發明中由於採用轉換的源語音作為單元選擇的目標, 因此最終轉換語音不僅具有與目標說話者語音的良好相似度,而且 保持了人聲的自然度。結合附圖閱讀本發明實施方式的詳細描述後,本發明的其他特 點和優點將變得更加清楚。


為了對本發明實施方式的特徵和優點進行詳細說明,將參照以 下附圖。如果可能的話,在附圖和描述中使用相同或者類似的參考 標號以指代相同或者類似的部分。附圖中圖1示出了根據本發明一個實施方式的語音轉換方法的流程圖;200710163066. 2說明書第5/15頁圖2示意性地示出了根據本發明一種實施方式的語音轉換系統 的功能框圖;圖3示意性示出了可以實現根據本發明的實施方式的計算設備。
具體實施方式
正如上文所述,即使應用良好的頻率彎曲函數對源語音進行頻率 彎曲,由於說話者語音的具體頻語差異,聽眾仍然能夠察覺到轉換 的語音和目標說話者之間的差別。鑑於純粹的諸如頻率彎曲的頻譜 轉換難以進一步提高與目標說話者的相似度,本發明提出一種複合 式的語音轉換系統,其中將諸如頻率彎曲的頻譜轉換技術和TTS系 統內的單元選擇進行有機地結合,以得到更好的語音轉換系統。圖1示出了根據本發明一個實施方式的語音轉換方法的流程圖。如圖1所示,在步驟S100中,該方法的流程開始。在步驟S102中,對源說話者的語音進行語音分析以獲得語音信 息。該語音信息諸如頻譜包絡和基頻曲線信息。在步驟S104中,根據本發明的語音轉換系統的原理,對源說話 者的語音應用諸如頻率彎曲的頻譜轉換,以獲得與目標說話者的語 音相似的第一頻i普。通過使用頻率彎曲函數轉換頻譜包絡,本步驟是相當直接的。 假設源說話者的頻譜的一幀是5YW入從目標頻率軸到源頻率軸的頻High Quality Sinusoidal Modeling of Wideband Speech for the Purpose of Speech Synthesis and Modification," ICASSP 2006中提出的語音分析/重建技術,以得到加
強的複雜包絡模型和音調曲線。該技術基於合成過程中的頻率抖動 噪音插入和有效線譜提取,並且能夠提供在分析和合成過程中的幀 對準過程以在語音操作過程中允許振幅和相位操縱,例如,音調修 正、頻譜平滑、聲道轉換等。當然,對於本發明而言,可以採用本領域中現有的任何語音分析/重建技術來實現語音分析裝置201和語 音重建裝置209,其對本發明的實現不夠成限制。語音轉換系統200的功能實現依賴於兩個操作階段,即訓練階 段和轉換階段。訓練階段為轉換階段的操作提供必要的準備。雖然訓練階段本身並不是本發明所關注的問題所在,但是由於 本發明語音轉換系統的新穎配置,其訓練階段也與常規系統有所不 同。以下對根據本發明一個實施方式的語音轉換系統200的訓練階 段進行簡要的示例性描述,以便本領域的技術人員更好的理解本發 明的實現方式。根據本發明一個實施方式的語音轉換系統200的訓練階段可以 分為三部分1.針對頻譜轉換裝置202所採用的頻率彎曲函數訓練;2. 針對目標語音語料庫204和單元選擇裝置205進行的碼本訓練;3. 除了這兩個主要部分外,還可以包括附加的其它訓練韻律參數 訓練、頻譜均衡過濾訓練等。1.頻率彎曲函數訓練如前所述,頻譜轉換裝置202可以採用頻率彎曲技術實現對源 語音頻謙包絡的頻譜轉換。頻率彎曲可以補償不同說話者之間聲光譜的差值。給定一種聲 音的截面譜,可以通過應用頻率彎曲函數創建新的截面譜。假設源 說話者的頻譜的一幀是SfWj, ^v目標頻率軸到源頻率軸的頻率彎曲 函數是FfW),則轉換頻譜ComY—是在現有技術中存在許多用於發現性能良好的頻率彎曲函數的自 動訓練方法。 一種方法是最大似然線性回歸法,參見L.F.Uebeland和 P.C. Woodland 的 "An investigation into vocal tract lengthnormalization," EUROSPEEECH, 99, Budapest, Hungary, 1999, pp.2527-2530。然而,這種方法需要大量的訓練數據集,這限制了它 在很多場合中的使用。Eichner, M., M. Wolff和R.Hoffmann的"Voice Characteristic Conversion for TTS Using Reverse VTLN," Pro. ICASSP, Montreal, PQ, Canada, 2004建議從一些預定義的單參數函數族中選 擇頻率彎曲函數,但是效率難以令人滿意。David Sunderman和 Hermann Ney的"VTLN-Based Voice Conversion", ICSLP, 2004, Jeju, Korea, 2004採用動態編程以訓練線性或者分段的線性彎曲函數,其 中動態編程使轉換源頻譜和目標頻譜之間的距離最小化。然而,由 於輸入光譜中的噪音,此方法的性能可以被極大地降低。由Eide, E.和H. Gish在 "A Parametric Approach to Vocal Tract Length Normalization," ICASSP 1996, Atlanta, USA, 1996中提出了 一 種方法,其中彎曲函數是基於每一個說話者的第三共振峰的中值。 一些研究者通過基於屬於相同音素的共振峰生成彎曲函數擴展了此 方法。然而,共振峰頻率和其與聲道長度(VTL)的關係不僅依賴 於說話者的聲道形狀和其所發出的不同音素,而且高度依賴於上下 文,同一個說話者的共振峰可能隨著上下文而發生很大變化。同一 申請人:的中國專利申請/〉開號CN101004911A 7>開了一種通過映射 源說話者和目標說話者的共振峰參數生成頻率彎曲函數的新方案, 在此通過參考將該申請全文引入本申請。在該技術方案中增加了對 準和選擇過程,以保證選擇的映射共振峰可以很好地代表說話者之 間發音的不同之處。然後,映射共振峰將成為定義從目標頻率軸到 源頻率軸的分段線性頻率彎曲函數的關鍵位置。提出線性插值以生 成兩個鄰接關鍵位置之間的部分,其它插值機制也可以^吏用。此方 案僅需要非常小量的生成彎曲函數的訓練數據,可以極大地方便其 應用,而且可以獲得高質量的轉換語音,同時成功地使轉換語音與 目標說話者相似。 2.碼本訓練目標語料庫204是可以用於存儲並向單元選擇裝置205提供碼 本。碼本由多個碼字組成。通常一個碼字由一幀語音數據而生成,該一幀語音數據例如是10ms長的語音數據。 一個碼字可以用於重建 一幀語音數據。基本上有兩種碼字。 一種沒有語境信息,其意味著每個碼字僅 包含諸如頻譜和基音頻率的聲音信息。另一種具有語音信息,-其意 味著除了聲音信息之外,每個碼字包含語音信息,諸如碼字屬於的 音素、鄰近音素等。生成不具有語音信息的碼本通常非常簡單。僅需要逐幀對語音 數據作語音分析,並得到每幀的頻譜包絡和基音頻率。然後,從所 有分析的幀中選擇一些幀。可以簡單地在固定間隔內選擇一個幀來 執行選擇。當然,也可以使用一些更複雜的策略執行選擇。例如, 可以在那些安靜或者低能段中選擇更少的幀。或者可以在更快變化 段中選擇更多的幀,而在穩定段中選擇更少的幀。為了生成具有目標語音信息的碼本,通常需要對準信息。可以 通過自動語音識別引擎執行對準,其將目標語音語料庫204中語音 數據與諸如音節、音素等相應的單元對準。還可以通過聽取目標語 音語料庫204中的語音數據手動地添加標籤,從而執行對準。利用 對準信息,可以得到一個碼字的多種語音信息,諸如其屬於的音 素、在音素中的位置和它的鄰近音素等。這樣的音素信息對於在轉 換階段中由單元選擇單元205所執行的對碼本單元的選擇是很有用 的。3.其它訓練除了上述兩部分外,還可以包括附加的訓練,例如韻律參^:(音 調參數)訓練、頻譜均衡過濾訓練等。韻律訓練為韻律轉換裝置203提供了從源說話者音調到目標說 話者音調的韻律轉換函數。其中基音頻率(/o)轉換對於韻律轉換是 至關重要的。可以通過使用應用至1og/。的線性轉換對/。曲線進行調 節。因此,如果A是源/w和6以將源說話者/og/^。的均值和方差轉換為目標說話者/og/o
的均值和方差。所以,我們可以通過計算源說話者和目標說話者/ogy^ 的均值和方差生成/。轉換函數。可以將頻譜包絡均衡實現為對頻譜的濾波器(未示出),以補 償沿著頻率軸的不同能量分配。在訓練完頻率彎曲函數後,由於在 頻率彎曲後計算源說話者和目標說話者的平均功率謙之間的差異曲 線,需要訓練頻譜均衡濾波器。然後,平滑差異曲線以得到更平滑 的作為頻譜包絡均衡濾波器使用的頻i普濾波器。當然,本領域技術人員可以理解,為了獲得更加更佳的語音轉 換結果還可以在根據本發明的語音轉換系統200中增加這裡雖未描述但依據現有技術可以獲知的任何其它處理裝置,因此還可以包括 針對這些附加裝置的其它附加的訓練步驟。當根據本發明一個實施方式的語音轉換系統200執行源語音到 目標語音的轉換時,則系統進入轉換階段。首先,由語音分析裝置201對源說話者的語音進行語音分析以獲 得頻譜包絡和音調曲線信息。頻譜轉換裝置202對源說話者的語音頻譜包絡進行頻譜轉換。如 前所述,在該實施方式中頻譜轉換裝置202將在訓練階段所得到頻 率彎曲函數應用於源說話者語音的頻謙包絡,以獲得與目標說話者 的語音相似的第一頻語。韻律轉換裝置203對音調曲線進行韻律轉換,其中主要包括對基 音頻率(/Q)曲線轉換。例如,可以利用在訓練階段訓練的/。轉換函 數轉換/。曲線。之後,韻律轉換裝置203將轉換後的音調信息提供 給單元選擇裝置205和語音重建裝置209,以便後續的使用。此時,通過頻譜轉換裝置202和韻律轉換裝置203的轉換,第 一頻譜將與目標說話者的頻語更相似,以及優選地轉換後的音調曲 線將與目標說話者的音調曲線更相似。單元選擇裝置205至少使用第一頻語作為估計的目標,基於由 目標語音語料庫204通過前述訓練過程所獲得的碼本進行單元選擇。 在本實施方式中,優選地,單元選擇裝置205使用通過頻率彎曲轉
換的第一頻譜和轉換的/。曲線作為估計的目標來由目標語音語料庫204通過前述訓練過程所獲得的碼本中選擇合適的碼字。單元選擇裝置205執行與在拼接式文本到語音系統中的候選單 元選擇相似的處理過程。然而,不同指出在於,本發明以轉換後的 第一頻譜和/。輪廓曲線作為單元選擇的目標。這樣的估計目標的優 點在於,其比TTS系統中的由韻律模型或者其它模型估計出的目標 更自然。單元選擇裝置205可以從轉換的第一頻譜和/。輪廓曲線生 成目標碼字的集合。然後,可以定義在目標碼字和候選的碼字之間的目標代價函數。優選地,此目標代價可以由頻譜距離、韻律距離 和語境距離加權。除了目標代價外,單元選擇裝置205還需要定義 在兩個候選碼字之間的過渡代價。與目標代價類似,過渡代價也可 以是頻譜距離、韻律距離和語境距離的加權和。由此,單元選擇裝 置205確定目標語音語料庫204中生成的碼本與轉換後的第一頻譜 和/。輪廓曲線最適合的碼字集合。接著,頻譜替換裝置206以所選擇的目標說話者語音單元的真 實頻譜替代第一頻譜的至少一部分。由於所選擇的目標說話者語音 的是諸如幀的基本單元,因此如果頻譜替換裝置206直接利用所選 擇的單元替換第一頻譜中該單元所對應的整個的頻譜,則可能在最 終得到的語音中引起嚴重的中斷問題。鑑於頻譜的低頻部分對於連 續性是至關重要的,而對改善與目標的相似度不是很重要,因此根 據本發明一種優選的方案,頻譜替換裝置206將第一頻譜中所選單 元所對應頻譜的低頻部分保持不變。也就是說,在選擇完合適的碼 字後,頻譜替換裝置206利用選擇的碼字的高於特定頻率的頻譜替 換第一頻譜中的相應部分,而將第一頻譜中低於該特定頻率的部分 保持不變。根據本發明的一種優選實施方案,該特定頻率在500Hz 到2000Hz之間進行選擇。優選地,頻譜平滑裝置20 8可以利用現有技術中的任何已知方案 對替換所得的頻譜進行平滑。語音重建裝置209利用平滑後的頻譜和轉換的力曲線重建語音 數據,由此獲得最終轉換的語音。如圖2所示的根據本發明實施方式的語音轉換系統與使用頻率 彎曲的現有語音轉換系統相比較,在根據本發明實施方式的語音轉 換系統所獲得的最終轉換語音與目標說話者的相似度的得分上增加 了 20%,並在質量上的降低是可以接受的。圖2所示的語音轉換系統的 一 些部件對於本發明來說是可選的, 例如頻譜平滑裝置208,其作用是消除用於進行語音重建的頻譜包絡 的細小毛刺和跳變,使其更加平滑,從而能夠獲得性能更加優越的 最終轉換語音。雖然在圖2所示實施方式中沒有進一步列舉,但是 本領域的技術人員可以在實現根據本發明的語音轉換系統時增加其 它的部件,以便進一步改進最終轉換語音的性能,例如消除附加噪 聲、獲得某種特殊音效等。圖3示意性示出了可以實現根據本發明的實施方式的計算設備。圖3中所示的計算機系統包括CPU(中央處理單元)301、 RAM(隨 機存取存儲器)302、 ROM(只讀存儲器)303、系統總線304,硬碟控 制器305、鍵盤控制器306、串行接口控制器307、並行接口控制器 308、顯示器控制器309、硬碟310、鍵盤311、串行外部設備312、 並行外部設備313和顯示器314。在這些部件中,與系統總線304 相連的有CPU301、 RAM 302、 ROM 303、硬碟控制器305、鍵盤控 制器306,串行接口控制器307,並行接口控制器308和顯示器控制 器309。硬碟310與硬碟控制器305相連,鍵盤311與鍵盤控制器 306相連,串行外部設備312與串行接口控制器307相連,並行外部 設備313與並行接口控制器308相連,以及顯示器314與顯示器控 制器309相連。圖3中每個部件的功能在本技術領域內都是眾所周知的,並且圖 3所示的結構也是常規的。這種結構不僅用於個人計算機,而且用於 手持設備,如PalmPC、 PDA(個人數據助理)、行動電話等等。在 不同的應用中,可以向圖3中所示的結構添加某些部件,或者圖6 中的某些部件可以被省略。圖3中所示的整個系統由通常作為軟體
存儲在硬碟310中、或者存儲在EPROM或者其它非易失性存儲器 中的計算機可讀指令控制。軟體也可從網絡(圖中未示出)下載。 或者存儲在硬碟310中,或者從網絡下載的軟體可被加載到RAM 302中,並由CPU301執行,以便完成由軟體確定的功能。儘管圖3中描述的計算機系統能夠支持根據本發明的語音轉換 方案,但是該計算機系統只是計算機系統的一個例子。本領域的熟 練技術人員可以理解,許多其它計算機系統設計也能實現本發明的 實施方式。本發明還可以實現為例如由圖3所示計算機系統所使用的計算 機程序產品,其可以包含有用於實現根據本發明的語音轉換方法的 代碼。在使用之前,可以把代碼存儲在其它計算機系統的存儲器中, 例如,存儲在硬碟或諸如光碟或軟盤的可移動的存儲器中,或者經 由網際網路或其它計算機網絡進行下載。雖然結合附圖描述了本發明的實施方式,但是本領域技術人員可 以在所附權利要求的範圍內做出各種變形或修改。
權利要求
1. 一種語音轉換方法,包括語音分析步驟,用於對源說話者的語音執行語音分析以獲得語音信息;頻譜轉換步驟,用於基於所述語音信息執行頻譜轉換,至少獲得與目標說話者的語音相似的第一頻譜;單元選擇步驟,用於至少使用所述第一頻譜作為目標,基於所述目標說話者的語音執行單元選擇;頻譜替換步驟,用於以所選擇的目標說話者語音單元的頻譜替代所述第一頻譜的至少一部分;語音重建步驟,用於至少基於替換的頻譜執行語音重建。
2. 根據權利要求1所述的方法,其中 通過頻率彎曲執行所述頻譜轉換步驟。
3. 根據權利要求1所述的方法,還包括韻律轉換步驟,用於基於所述語音信息執行韻律轉換,至少獲得與所述目標說話者的語音相似的第 一 音調曲線;其中在所述單元選擇步驟中,使用所述第一頻譜和所述第一音 調曲線作為目標,基於所述目標說話者的語音^丸行單元選擇;以及在所述語音重建步驟中,基於替換的頻譜和所述第一音調曲線執行語音重建。
4. 根據權利要求1所述的方法,其中在所述頻譜替換步驟中,利用所選擇單元的高於特定頻率的頻 譜替換所述第一頻譜中的相應部分,而將所述第一頻譜中低於所述 特定頻率的部分保持不變。
5. 根據權利要求4所述的方法,其中 所述特定頻率選擇在500Hz至2000Hz之間。
6. 根據權利要求1所述的方法,還包括頻鐠平滑步驟,用於對所述頻譜替換步驟中獲得的替換的頻傳 進行頻譜平滑;其中在所述語音重建步驟中,基於平滑的頻譜和所述第一音調曲 線執行語音重建。
7. 根據權利要求1 - 6中任一權利要求所述的方法,其中 所述語音信息包括頻譜包絡和音調曲線信息。
8. —種語音轉換系統,包括語音分析裝置,用於對源說話者的語音執行語音分析以獲得語音 信息;頻鐠轉換裝置,用於基於所述語音信息執行頻譜轉換,至少獲得 與目標說話者的語音相似的第一頻譜;單元選擇裝置,用於至少使用所述第一頻譜作為目標,基於所 述目標說話者的語音執行單元選擇;頻語替換裝置,用於以所選擇的目標說話者語音單元的頻譜替代 所述第一頻譜的至少一部分;語音重建裝置,用於至少基於替換的頻譜執行語音重建。
9. 根據權利要求8所述的系統,其中 所述頻譜轉換裝置通過頻率彎曲執行頻譜轉換。
10. 根據權利要求8所述的系統,還包括韻律轉換裝置,用於基於所述語音信息執行韻律轉換,至少獲得 與所述目標說話者的語音相似的第 一音調曲線;其中所述單元選擇裝置使用所述第一頻譜和所述第一音調曲線 作為目標,基於所述目標說話者的語音執行單元選擇;以及所述語音重建裝置基於替換的頻譜和所述第一音調曲線執行語 音重建。
11. 根據權利要求8所述的系統,其中所述頻譜替換裝置利用所選擇單元的高於特定頻率的頻譜替換 所述第一頻譜中的相應部分,而將所述第一頻譜中低於所述特定頻 率的部分保持不變。
12. 根據權利要求11所述的系統,其中 所述特定頻率選擇在500Hz至2000Hz之間。
13. 根據權利要求8所述的系統,還包括頻譜平滑裝置,用於對所述頻譜替換步驟中獲得的替換的頻譜 進行頻i普平滑;其中所述語音重建裝置基於平滑的頻譜和所述第一音調曲線執 行語音重建。
14. 根據權利要求8-13中任一權利要求所述的系統,其中 所述語音信息包括頻譜包絡和音調曲線信息。
15. —種電腦程式產品,包括當在計算機設備上對其進行執行 時用於執行根據權利要求1-7任一權利要求的語音轉換方法的程序 代碼。
全文摘要
本發明提供一種語音轉換方法。該方法包括語音分析步驟,用於對源說話者的語音執行語音分析以獲得語音信息;頻譜轉換步驟,用於基於語音信息執行頻譜轉換,至少獲得與目標說話者的語音相似的第一頻譜;單元選擇步驟,用於至少使用第一頻譜作為目標,基於目標說話者的語音執行單元選擇;頻譜替換步驟,用於以所選擇的目標說話者語音單元的頻譜替代第一頻譜的至少一部分;語音重建步驟,用於至少基於替換的頻譜執行語音重建。本發明還提供相應的語音轉換系統和電腦程式產品。本發明的語音轉換方案將頻率彎曲技術和TTS系統內的單元選擇進行有機地結合,使得最終轉換語音不僅具有與目標說話者語音的良好相似度,而且體現了人聲的自然度。
文檔編號G10L13/08GK101399044SQ20071016306
公開日2009年4月1日 申請日期2007年9月29日 優先權日2007年9月29日
發明者雙志偉, 孟繁平, 勤 施, 勇 秦 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀