新四季網

一種非周期成分音節模型建立、及語音合成的方法和設備的製作方法

2023-04-26 01:16:56

一種非周期成分音節模型建立、及語音合成的方法和設備的製作方法
【專利摘要】本發明公開了一種非周期成分音節模型建立、及語音合成的方法和設備,包括:根據原始語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇頻帶信息上的非周期成分譜擬合曲線,生成包含了所述原始語音波形文件的每一個音節在不同頻帶信息上的非周期成分譜擬合曲線的非周期成分音節模型,這樣將音節模型中包含頻段數量*音節幀數的數據信息,轉換成為包含頻段數量的擬合曲線,縮小了語音建模的規模,節省了系統資源,同時在建立每一音節的非周期成分譜擬合曲線,充分考慮了音節的幀與幀之間的連續性,使得擬合曲線保留了音節原有的音質,並在合成時提高了合成語音的質量。
【專利說明】一種非周期成分音節模型建立、及語音合成的方法和設備

【技術領域】
[0001] 本發明涉及語音處理【技術領域】,尤其涉及一種非周期成分音節模型建立、及語音 合成的方法和設備。

【背景技術】
[0002] 語音合成技術是指通過機械的、電子的方法產生人造語音的技術。例如:TTS(Text To Speech,文語轉換)技術,即將文本信息轉換成為語音信息,並通過放音設備播放轉換後 的語音信息的技術。
[0003] 語音合成的前提是對語音信息進行分析,例如:語音參數化分析。所謂語音參數化 分析的方法包括直接波形分析法和語音參數化分析法。目前比較通用的語音分析方法是語 音參數化分析法。所謂語音參數化分析法是指對提取到的語音參數進行分析的方法,其中, 在對語音信息進行語音參數提取後,得到的語音參數包括:語音聲道譜參數(例如:線性預 測係數、美爾道譜係數以及線譜對等等)、語音聲源參數(例如:基譜、非周期成分譜等)。通 過對這些語音參數的分析,全面了解語音攜帶的信息,為語音合成做準備。
[0004] 例如:現有技術中存在的自適應加權普內插技術(即STRAIGHT分析技術),有效地 將語音聲源以及聲道信息分離,得到聲道譜SP參數,基譜曲線R)參數以及非周期成分譜AP 參數。
[0005] 在語音參數化分析的基礎上,統計參數語音合成技術發展迅猛,逐漸取代了拼接 語音合成技術,成為語音合成技術的主流。所謂統計參數語音合成技術是通過語音識別處 理方法將大量的語音數據標註後訓練成模型,然後在進行語音合成時利用參數生成算法得 到語音參數,最後通過線性預測過濾技術得到語音波形。
[0006] 其中,在統計參數語音合成技術中涉及到HMM (Hidden Markov Model,隱馬爾可 夫)語音模型建立和LPC語音波形的形成。
[0007] 具體地,所述HMM語音模型建立的具體包括:
[0008] 第一,提取每一個音節的非周期成分譜。
[0009] 第二,將一幀內的非周期成分譜按照設定的頻段進行劃分。
[0010] 例如,設定的頻段為5段,分別是0?1000MHz,1000?2000Mhz,2000?4000MHz, 4000 ?6000MHz,6000 ?8000MHz。
[0011] 第三,將得到的每一個頻段內的非周期成分譜進行平均運算,得到每一個頻段的 非周期成分頻帶代表值。
[0012] 最後,針對每一個音節的每一幀,得到5個非周期成分頻帶代表值,相對於對於每 一音節的每一巾貞進行了巾貞內建模。
[0013] 利用HMM語音模型對語音進行合成,將出現以下問題:
[0014] 1、HMM語音模型建立的語音模型的數據量比較大,不適合在嵌入式系統中使用。
[0015] HMM語音模型建立後,當劃分頻段數量為N時,針對每一個音節的每一幀,將出現N 個非周期成分頻帶代表值對應,也就是說,當每一個音節包含Μ幀時,HMM語音模型中針對 一個音節將出現M*N各非周期成分頻帶代表值,數據量太大,不適合嵌入式系統使用。
[0016] 2、現有的HMM語音模型在建立時,以一個音節的每一幀為單位確定非周期成分頻 帶代表值,並沒有考慮幀與幀之間非周期成分譜之間的相關性,使得合成後的語音信息的 非周期成分譜的連貫性較差,使得合成音的音質不高。


【發明內容】

[0017] 本發明實施例提供了一種非周期成分音節模型建立、及語音合成的方法和設備, 用於解決現有技術中存在的HMM語音模型數據量大、且合成後的語音信息的非周期成分譜 的連貫性差,導致合成音的音質不高的問題。
[0018] -種非周期成分音節模型建立的方法,包括:
[0019] 分解語音資料庫中的原始語音波形文件,得到所述原始語音波形文件中每一個音 節的非周期成分譜信息、基頻信息和聲道譜信息;
[0020] 根據預設的為音節的每一幀劃分的至少一個頻帶信息和音節的非周期成分譜信 息,計算所述原始語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的 非周期成分代表值;
[0021] 針對所述原始語音波形文件中任意一個音節,依次執行以下操作,直至得到所述 原始語音波形文件中每一個音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線:
[0022] 選擇一個頻帶信息,查找在該頻帶信息上該音節對應的每一幀的非周期成分代表 值,並根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇的頻帶 信息上的非周期成分譜擬合曲線;
[0023] 判斷該音節是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線,若 是,則選擇下一個音節,繼續執行得到該音節在劃分的每一個頻帶信息上非周期成分擬合 曲線的操作;否則,選擇下一個頻帶信息,繼續執行得到該音節在選擇的下一個頻帶信息上 非周期成分擬合曲線的操作;
[0024] 在得到的所述原始語音波形文件中每一個音節在劃分的每一個頻帶信息上的非 周期成分譜擬合曲線後,建立原始語音波形文件的標註文件與所述原始語音波形文件的每 一個音節信息之間的對應關係,並根據建立的對應關係生成非周期成分音節模型,其中,所 述每一個音節信息中包含了每一個音節的基頻信息、聲道譜信息以及在不同頻帶信息上的 非周期成分譜擬合曲線。
[0025] 所述根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇 的頻帶信息上的非周期成分譜擬合曲線,具體包括:
[0026] 利用查找到的非周期成分代表值,通過以下方式計算得到該音節在選擇的頻帶信 息上的非周期成分譜擬合曲線:
[0027]

【權利要求】
1. 一種非周期成分音節模型建立的方法,其特徵在於,包括: 分解語音資料庫中的原始語音波形文件,得到所述原始語音波形文件中每一個音節的 非周期成分譜信息、基頻信息和聲道譜信息; 根據預設的為音節的每一幀劃分的至少一個頻帶信息和音節的非周期成分譜信息,計 算所述原始語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的非周 期成分代表值; 針對所述原始語音波形文件中任意一個音節,依次執行以下操作,直至得到所述原始 語音波形文件中每一個音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線: 選擇一個頻帶信息,查找在該頻帶信息上該音節對應的每一幀的非周期成分代表值, 並根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇的頻帶信息 上的非周期成分譜擬合曲線; 判斷該音節是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線,若是,則 選擇下一個音節,繼續執行得到該音節在劃分的每一個頻帶信息上非周期成分擬合曲線的 操作;否則,選擇下一個頻帶信息,繼續執行得到該音節在選擇的下一個頻帶信息上非周期 成分擬合曲線的操作; 在得到的所述原始語音波形文件中每一個音節在劃分的每一個頻帶信息上的非周期 成分譜擬合曲線後,建立原始語音波形文件的標註文件與所述原始語音波形文件的每一個 音節信息之間的對應關係,並根據建立的對應關係生成非周期成分音節模型,其中,所述每 一個音節信息中包含了每一個音節的基頻信息、聲道譜信息以及在不同頻帶信息上的非周 期成分譜擬合曲線。
2. 如權利要求1所述的方法,其特徵在於,所述根據查找到的非周期成分代表值,利用 離散餘弦變換方法得到該音節在選擇的頻帶信息上的非周期成分譜擬合曲線,具體包括: 利用查找到的非周期成分代表值,通過以下方式計算得到該音節在選擇的頻帶信息上 的非周期成分譜擬合曲線: 2 π 1 = -l^bap(n)t cos[-?/(/ +-)]; 丄 1 - 其中,(^為該音節在選擇的頻帶信息上的非周期成分譜擬合曲線,τ為該音節的幀數, bap (n) t為該音節的第t幀在選擇的頻帶信息上的非周期成分代表值,η為選擇的頻帶信息 的頻段標識,d和D為離散餘弦變換的階數,取值範圍是1?D-l, t為音節的巾貞數,取值為 0 ?T-1。
3. 如權利要求1或2所述的方法,其特徵在於,在得到的所述原始語音波形文件中每一 個音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線後,根據建立的對應關係生成 非周期成分音節模型之前,所述方法還包括: 利用聚類算法,將得到的所述原始語音波形文件中每一個音節在劃分的每一個頻帶信 息上的非周期成分譜擬合曲線進行聚類處理,確定所述原始語音波形文件中每一個音節的 非周期成分聚類曲線組; 所述建立原始語音波形文件標識與所述原始語音波形文件的每一個音節信息之間的 對應關係,具體包括: 建立原始語音波形文件的標註文件、所述原始語音波形文件的每一個音節的非周期成 分聚類曲線組、每一個音節的基頻信息以及每一個音節的聲道譜信息之間的對應關係。
4. 一種基於非周期成分音節模型的語音合成方法,其特徵在於,包括: 利用文本分析設備將獲取的待語音合成的文本信息轉換成原始語音波形文件,並根據 轉換得到的原始語音波形文件得到該原始語音波形文件的標註文件; 根據非周期成分音節模型中建立的原始語音波形文件的標註文件與原始語音波形文 件的每一個音節信息之間的對應關係,確定轉換得到的原始語音波形文件的標註文件對應 的每一個音節的非周期成分譜擬合曲線、基頻信息和聲道譜信息; 根據確定的每一個音節的非周期成分譜擬合曲線,計算得到所述原始語音波形文件中 每一個音節的每一幀在不同頻帶信息上的非周期成分代表值; 利用所述每一個音節的每一幀在不同頻帶信息上的非周期成分代表值、每一個音節的 基頻信息以及每一個音節的聲道譜信息執行激勵操作,併合成語音。
5. 如權利要求4所述的方法,其特徵在於,所述根據確定的每一個音節的非周期成分 譜擬合曲線,計算得到所述原始語音波形文件中每一個音節的每一幀在不同頻帶信息上的 非周期成分代表值,具體包括: 利用確定的每一個音節的非周期成分譜擬合曲線通過以下方式計算得到所述原始語 音波形文件中每一個音節的每一幀在一個頻帶信息上的非周期成分代表值: hap{n), = |c0 cos[^(/ +? ; 其中,bap (n)t為一個音節的第t幀在頻段標識為n的頻帶信息上的非周期成分代表 值,cd為該音節在頻段標識為η的頻帶信息的非周期成分譜擬合曲線,C(l為該音節在頻段 標識為η的頻帶信息上的非周期成分譜擬合曲線的因子,η為頻段標識,d和D為離散餘弦 變換的階數,取值範圍是1?D-l,t為音節的幀數,取值為0?T-1。
6. -種非周期成分音節模型建立設備,其特徵在於,所述設備包括: 非周期成分代表值確定模塊,用於分解語音資料庫中的原始語音波形文件,得到所述 原始語音波形文件中每一個音節的非周期成分譜信息、基頻信息和聲道譜信息;並根據預 設的為音節的每一幀劃分的至少一個頻帶信息和音節的非周期成分譜信息,計算所述原始 語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表 值; 非周期成分譜擬合曲線生成模塊,用於針對所述原始語音波形文件中任意一個音節, 依次執行以下操作,直至得到所述原始語音波形文件中每一個音節在劃分的每一個頻帶信 息上的非周期成分譜擬合曲線: 選擇一個頻帶信息,查找在該頻帶信息上該音節對應的每一幀的非周期成分代表值, 並根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇的頻帶信息 上的非周期成分譜擬合曲線;判斷該音節是否已得到劃分的每一個頻帶信息上的非周期成 分譜擬合曲線,若是,則選擇下一個音節,繼續執行得到該音節在劃分的每一個頻帶信息上 非周期成分擬合曲線的操作;否則,選擇下一個頻帶信息,繼續執行得到該音節在選擇的下 一個頻帶信息上非周期成分擬合曲線的操作; 非周期成分音節模型建立模塊,用於在得到的所述原始語音波形文件中每一個音節在 劃分的每一個頻帶信息上的非周期成分譜擬合曲線後,建立原始語音波形文件的標註文件 與所述原始語音波形文件的每一個音節信息之間的對應關係,並根據建立的對應關係生成 非周期成分音節模型,其中,所述每一個音節信息中包含了每一個音節的基頻信息、聲道譜 信息以及在不同頻帶信息上的非周期成分譜擬合曲線。
7. 如權利要求6所述的設備,其特徵在於, 所述非周期成分譜擬合曲線生成模塊,具體用於利用查找到的非周期成分代表值,通 過以下方式計算得到該音節在選擇的頻帶信息上的非周期成分譜擬合曲線: 心=⑷< cos[7rf('+ 令]; I t=Q 1 2 其中,(^為該音節在選擇的頻帶信息上的非周期成分譜擬合曲線,T為該音節的幀數, bap (n) t為該音節的第t幀在選擇的頻帶信息上的非周期成分代表值,η為選擇的頻帶信息 的頻段標識,d和D為離散餘弦變換的階數,取值範圍是1?D-l, t為音節的巾貞數,取值為 0 ?T-1。
8. 如權利要求6或7所述的設備,其特徵在於,所述設備還包括: 所述非周期成分聚類曲線組生成模塊,用於在得到的所述原始語音波形文件中每一個 音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線後,根據建立的對應關係生成非 周期成分音節模型之前,利用聚類算法,將得到的所述原始語音波形文件中每一個音節在 劃分的每一個頻帶信息上的非周期成分譜擬合曲線進行聚類處理,確定所述原始語音波形 文件中每一個音節的非周期成分聚類曲線組; 所述非周期成分音節模型建立模塊,具體用於建立原始語音波形文件的標註文件、所 述原始語音波形文件的每一個音節的非周期成分聚類曲線組、每一個音節的基頻信息以及 每一個音節的聲道譜信息之間的對應關係。
9. 一種基於非周期成分音節模型的語音合成設備,其特徵在於,所述設備包括: 文件獲取模塊,用於利用文本分析設備將獲取的待語音合成的文本信息轉換成原始語 音波形文件,並根據轉換得到的原始語音波形文件得到該原始語音波形文件的標註文件; 音節信息確定模塊,用於根據非周期成分音節模型中建立的原始語音波形文件的標註 文件與原始語音波形文件的每一個音節信息之間的對應關係,確定轉換得到的原始語音波 形文件的標註文件對應的每一個音節的非周期成分譜擬合曲線、基頻信息和聲道譜信息; 非周期成分代表值確定模塊,用於根據確定的每一個音節的非周期成分譜擬合曲線, 計算得到所述原始語音波形文件中每一個音節的每一幀在不同頻帶信息上的非周期成分 代表值; 語音合成模塊,用於利用所述每一個音節的每一幀在不同頻帶信息上的非周期成分代 表值、每一個音節的基頻信息以及每一個音節的聲道譜信息執行激勵操作,併合成語音。
10. 如權利要求9所述的設備,其特徵在於, 所述非周期成分代表值確定模塊,具體用於利用確定的每一個音節的非周期成分譜擬 合曲線通過以下方式計算得到所述原始語音波形文件中每一個音節的每一幀在一個頻帶 信息上的非周期成分代表值: J .七j· 露 ] hap(n)i = - c0 + 2^crf cos[-1/(/ + -)]; 2 ',. , / 2 其中,bap (n)t為一個音節的第t幀在頻段標識為n的頻帶信息上的非周期成分代表 值,cd為該音節在頻段標識為η的頻帶信息的非周期成分譜擬合曲線,C(l為該音節在頻段 標識為η的頻帶信息上的非周期成分譜擬合曲線的因子,η為頻段標識,d和D為離散餘弦 變換的階數,取值範圍是1?D-l,t為音節的幀數,取值為0?T-1。
【文檔編號】G10L13/02GK104282300SQ201310282732
【公開日】2015年1月14日 申請日期:2013年7月5日 優先權日:2013年7月5日
【發明者】王朝民, 劉琨, 焦偉 申請人:中國移動通信集團公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀