一種非周期成分音節模型建立、及語音合成的方法和設備的製作方法
2023-04-26 01:16:56 2
一種非周期成分音節模型建立、及語音合成的方法和設備的製作方法
【專利摘要】本發明公開了一種非周期成分音節模型建立、及語音合成的方法和設備,包括:根據原始語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇頻帶信息上的非周期成分譜擬合曲線,生成包含了所述原始語音波形文件的每一個音節在不同頻帶信息上的非周期成分譜擬合曲線的非周期成分音節模型,這樣將音節模型中包含頻段數量*音節幀數的數據信息,轉換成為包含頻段數量的擬合曲線,縮小了語音建模的規模,節省了系統資源,同時在建立每一音節的非周期成分譜擬合曲線,充分考慮了音節的幀與幀之間的連續性,使得擬合曲線保留了音節原有的音質,並在合成時提高了合成語音的質量。
【專利說明】一種非周期成分音節模型建立、及語音合成的方法和設備
【技術領域】
[0001] 本發明涉及語音處理【技術領域】,尤其涉及一種非周期成分音節模型建立、及語音 合成的方法和設備。
【背景技術】
[0002] 語音合成技術是指通過機械的、電子的方法產生人造語音的技術。例如:TTS(Text To Speech,文語轉換)技術,即將文本信息轉換成為語音信息,並通過放音設備播放轉換後 的語音信息的技術。
[0003] 語音合成的前提是對語音信息進行分析,例如:語音參數化分析。所謂語音參數化 分析的方法包括直接波形分析法和語音參數化分析法。目前比較通用的語音分析方法是語 音參數化分析法。所謂語音參數化分析法是指對提取到的語音參數進行分析的方法,其中, 在對語音信息進行語音參數提取後,得到的語音參數包括:語音聲道譜參數(例如:線性預 測係數、美爾道譜係數以及線譜對等等)、語音聲源參數(例如:基譜、非周期成分譜等)。通 過對這些語音參數的分析,全面了解語音攜帶的信息,為語音合成做準備。
[0004] 例如:現有技術中存在的自適應加權普內插技術(即STRAIGHT分析技術),有效地 將語音聲源以及聲道信息分離,得到聲道譜SP參數,基譜曲線R)參數以及非周期成分譜AP 參數。
[0005] 在語音參數化分析的基礎上,統計參數語音合成技術發展迅猛,逐漸取代了拼接 語音合成技術,成為語音合成技術的主流。所謂統計參數語音合成技術是通過語音識別處 理方法將大量的語音數據標註後訓練成模型,然後在進行語音合成時利用參數生成算法得 到語音參數,最後通過線性預測過濾技術得到語音波形。
[0006] 其中,在統計參數語音合成技術中涉及到HMM (Hidden Markov Model,隱馬爾可 夫)語音模型建立和LPC語音波形的形成。
[0007] 具體地,所述HMM語音模型建立的具體包括:
[0008] 第一,提取每一個音節的非周期成分譜。
[0009] 第二,將一幀內的非周期成分譜按照設定的頻段進行劃分。
[0010] 例如,設定的頻段為5段,分別是0?1000MHz,1000?2000Mhz,2000?4000MHz, 4000 ?6000MHz,6000 ?8000MHz。
[0011] 第三,將得到的每一個頻段內的非周期成分譜進行平均運算,得到每一個頻段的 非周期成分頻帶代表值。
[0012] 最後,針對每一個音節的每一幀,得到5個非周期成分頻帶代表值,相對於對於每 一音節的每一巾貞進行了巾貞內建模。
[0013] 利用HMM語音模型對語音進行合成,將出現以下問題:
[0014] 1、HMM語音模型建立的語音模型的數據量比較大,不適合在嵌入式系統中使用。
[0015] HMM語音模型建立後,當劃分頻段數量為N時,針對每一個音節的每一幀,將出現N 個非周期成分頻帶代表值對應,也就是說,當每一個音節包含Μ幀時,HMM語音模型中針對 一個音節將出現M*N各非周期成分頻帶代表值,數據量太大,不適合嵌入式系統使用。
[0016] 2、現有的HMM語音模型在建立時,以一個音節的每一幀為單位確定非周期成分頻 帶代表值,並沒有考慮幀與幀之間非周期成分譜之間的相關性,使得合成後的語音信息的 非周期成分譜的連貫性較差,使得合成音的音質不高。
【發明內容】
[0017] 本發明實施例提供了一種非周期成分音節模型建立、及語音合成的方法和設備, 用於解決現有技術中存在的HMM語音模型數據量大、且合成後的語音信息的非周期成分譜 的連貫性差,導致合成音的音質不高的問題。
[0018] -種非周期成分音節模型建立的方法,包括:
[0019] 分解語音資料庫中的原始語音波形文件,得到所述原始語音波形文件中每一個音 節的非周期成分譜信息、基頻信息和聲道譜信息;
[0020] 根據預設的為音節的每一幀劃分的至少一個頻帶信息和音節的非周期成分譜信 息,計算所述原始語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的 非周期成分代表值;
[0021] 針對所述原始語音波形文件中任意一個音節,依次執行以下操作,直至得到所述 原始語音波形文件中每一個音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線:
[0022] 選擇一個頻帶信息,查找在該頻帶信息上該音節對應的每一幀的非周期成分代表 值,並根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇的頻帶 信息上的非周期成分譜擬合曲線;
[0023] 判斷該音節是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線,若 是,則選擇下一個音節,繼續執行得到該音節在劃分的每一個頻帶信息上非周期成分擬合 曲線的操作;否則,選擇下一個頻帶信息,繼續執行得到該音節在選擇的下一個頻帶信息上 非周期成分擬合曲線的操作;
[0024] 在得到的所述原始語音波形文件中每一個音節在劃分的每一個頻帶信息上的非 周期成分譜擬合曲線後,建立原始語音波形文件的標註文件與所述原始語音波形文件的每 一個音節信息之間的對應關係,並根據建立的對應關係生成非周期成分音節模型,其中,所 述每一個音節信息中包含了每一個音節的基頻信息、聲道譜信息以及在不同頻帶信息上的 非周期成分譜擬合曲線。
[0025] 所述根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇 的頻帶信息上的非周期成分譜擬合曲線,具體包括:
[0026] 利用查找到的非周期成分代表值,通過以下方式計算得到該音節在選擇的頻帶信 息上的非周期成分譜擬合曲線:
[0027]
【權利要求】
1. 一種非周期成分音節模型建立的方法,其特徵在於,包括: 分解語音資料庫中的原始語音波形文件,得到所述原始語音波形文件中每一個音節的 非周期成分譜信息、基頻信息和聲道譜信息; 根據預設的為音節的每一幀劃分的至少一個頻帶信息和音節的非周期成分譜信息,計 算所述原始語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的非周 期成分代表值; 針對所述原始語音波形文件中任意一個音節,依次執行以下操作,直至得到所述原始 語音波形文件中每一個音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線: 選擇一個頻帶信息,查找在該頻帶信息上該音節對應的每一幀的非周期成分代表值, 並根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇的頻帶信息 上的非周期成分譜擬合曲線; 判斷該音節是否已得到劃分的每一個頻帶信息上的非周期成分譜擬合曲線,若是,則 選擇下一個音節,繼續執行得到該音節在劃分的每一個頻帶信息上非周期成分擬合曲線的 操作;否則,選擇下一個頻帶信息,繼續執行得到該音節在選擇的下一個頻帶信息上非周期 成分擬合曲線的操作; 在得到的所述原始語音波形文件中每一個音節在劃分的每一個頻帶信息上的非周期 成分譜擬合曲線後,建立原始語音波形文件的標註文件與所述原始語音波形文件的每一個 音節信息之間的對應關係,並根據建立的對應關係生成非周期成分音節模型,其中,所述每 一個音節信息中包含了每一個音節的基頻信息、聲道譜信息以及在不同頻帶信息上的非周 期成分譜擬合曲線。
2. 如權利要求1所述的方法,其特徵在於,所述根據查找到的非周期成分代表值,利用 離散餘弦變換方法得到該音節在選擇的頻帶信息上的非周期成分譜擬合曲線,具體包括: 利用查找到的非周期成分代表值,通過以下方式計算得到該音節在選擇的頻帶信息上 的非周期成分譜擬合曲線: 2 π 1 = -l^bap(n)t cos[-?/(/ +-)]; 丄 1 - 其中,(^為該音節在選擇的頻帶信息上的非周期成分譜擬合曲線,τ為該音節的幀數, bap (n) t為該音節的第t幀在選擇的頻帶信息上的非周期成分代表值,η為選擇的頻帶信息 的頻段標識,d和D為離散餘弦變換的階數,取值範圍是1?D-l, t為音節的巾貞數,取值為 0 ?T-1。
3. 如權利要求1或2所述的方法,其特徵在於,在得到的所述原始語音波形文件中每一 個音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線後,根據建立的對應關係生成 非周期成分音節模型之前,所述方法還包括: 利用聚類算法,將得到的所述原始語音波形文件中每一個音節在劃分的每一個頻帶信 息上的非周期成分譜擬合曲線進行聚類處理,確定所述原始語音波形文件中每一個音節的 非周期成分聚類曲線組; 所述建立原始語音波形文件標識與所述原始語音波形文件的每一個音節信息之間的 對應關係,具體包括: 建立原始語音波形文件的標註文件、所述原始語音波形文件的每一個音節的非周期成 分聚類曲線組、每一個音節的基頻信息以及每一個音節的聲道譜信息之間的對應關係。
4. 一種基於非周期成分音節模型的語音合成方法,其特徵在於,包括: 利用文本分析設備將獲取的待語音合成的文本信息轉換成原始語音波形文件,並根據 轉換得到的原始語音波形文件得到該原始語音波形文件的標註文件; 根據非周期成分音節模型中建立的原始語音波形文件的標註文件與原始語音波形文 件的每一個音節信息之間的對應關係,確定轉換得到的原始語音波形文件的標註文件對應 的每一個音節的非周期成分譜擬合曲線、基頻信息和聲道譜信息; 根據確定的每一個音節的非周期成分譜擬合曲線,計算得到所述原始語音波形文件中 每一個音節的每一幀在不同頻帶信息上的非周期成分代表值; 利用所述每一個音節的每一幀在不同頻帶信息上的非周期成分代表值、每一個音節的 基頻信息以及每一個音節的聲道譜信息執行激勵操作,併合成語音。
5. 如權利要求4所述的方法,其特徵在於,所述根據確定的每一個音節的非周期成分 譜擬合曲線,計算得到所述原始語音波形文件中每一個音節的每一幀在不同頻帶信息上的 非周期成分代表值,具體包括: 利用確定的每一個音節的非周期成分譜擬合曲線通過以下方式計算得到所述原始語 音波形文件中每一個音節的每一幀在一個頻帶信息上的非周期成分代表值: hap{n), = |c0 cos[^(/ +? ; 其中,bap (n)t為一個音節的第t幀在頻段標識為n的頻帶信息上的非周期成分代表 值,cd為該音節在頻段標識為η的頻帶信息的非周期成分譜擬合曲線,C(l為該音節在頻段 標識為η的頻帶信息上的非周期成分譜擬合曲線的因子,η為頻段標識,d和D為離散餘弦 變換的階數,取值範圍是1?D-l,t為音節的幀數,取值為0?T-1。
6. -種非周期成分音節模型建立設備,其特徵在於,所述設備包括: 非周期成分代表值確定模塊,用於分解語音資料庫中的原始語音波形文件,得到所述 原始語音波形文件中每一個音節的非周期成分譜信息、基頻信息和聲道譜信息;並根據預 設的為音節的每一幀劃分的至少一個頻帶信息和音節的非周期成分譜信息,計算所述原始 語音波形文件中每一個音節的每一幀在劃分得到的每一個頻帶信息上的非周期成分代表 值; 非周期成分譜擬合曲線生成模塊,用於針對所述原始語音波形文件中任意一個音節, 依次執行以下操作,直至得到所述原始語音波形文件中每一個音節在劃分的每一個頻帶信 息上的非周期成分譜擬合曲線: 選擇一個頻帶信息,查找在該頻帶信息上該音節對應的每一幀的非周期成分代表值, 並根據查找到的非周期成分代表值,利用離散餘弦變換方法得到該音節在選擇的頻帶信息 上的非周期成分譜擬合曲線;判斷該音節是否已得到劃分的每一個頻帶信息上的非周期成 分譜擬合曲線,若是,則選擇下一個音節,繼續執行得到該音節在劃分的每一個頻帶信息上 非周期成分擬合曲線的操作;否則,選擇下一個頻帶信息,繼續執行得到該音節在選擇的下 一個頻帶信息上非周期成分擬合曲線的操作; 非周期成分音節模型建立模塊,用於在得到的所述原始語音波形文件中每一個音節在 劃分的每一個頻帶信息上的非周期成分譜擬合曲線後,建立原始語音波形文件的標註文件 與所述原始語音波形文件的每一個音節信息之間的對應關係,並根據建立的對應關係生成 非周期成分音節模型,其中,所述每一個音節信息中包含了每一個音節的基頻信息、聲道譜 信息以及在不同頻帶信息上的非周期成分譜擬合曲線。
7. 如權利要求6所述的設備,其特徵在於, 所述非周期成分譜擬合曲線生成模塊,具體用於利用查找到的非周期成分代表值,通 過以下方式計算得到該音節在選擇的頻帶信息上的非周期成分譜擬合曲線: 心=⑷< cos[7rf('+ 令]; I t=Q 1 2 其中,(^為該音節在選擇的頻帶信息上的非周期成分譜擬合曲線,T為該音節的幀數, bap (n) t為該音節的第t幀在選擇的頻帶信息上的非周期成分代表值,η為選擇的頻帶信息 的頻段標識,d和D為離散餘弦變換的階數,取值範圍是1?D-l, t為音節的巾貞數,取值為 0 ?T-1。
8. 如權利要求6或7所述的設備,其特徵在於,所述設備還包括: 所述非周期成分聚類曲線組生成模塊,用於在得到的所述原始語音波形文件中每一個 音節在劃分的每一個頻帶信息上的非周期成分譜擬合曲線後,根據建立的對應關係生成非 周期成分音節模型之前,利用聚類算法,將得到的所述原始語音波形文件中每一個音節在 劃分的每一個頻帶信息上的非周期成分譜擬合曲線進行聚類處理,確定所述原始語音波形 文件中每一個音節的非周期成分聚類曲線組; 所述非周期成分音節模型建立模塊,具體用於建立原始語音波形文件的標註文件、所 述原始語音波形文件的每一個音節的非周期成分聚類曲線組、每一個音節的基頻信息以及 每一個音節的聲道譜信息之間的對應關係。
9. 一種基於非周期成分音節模型的語音合成設備,其特徵在於,所述設備包括: 文件獲取模塊,用於利用文本分析設備將獲取的待語音合成的文本信息轉換成原始語 音波形文件,並根據轉換得到的原始語音波形文件得到該原始語音波形文件的標註文件; 音節信息確定模塊,用於根據非周期成分音節模型中建立的原始語音波形文件的標註 文件與原始語音波形文件的每一個音節信息之間的對應關係,確定轉換得到的原始語音波 形文件的標註文件對應的每一個音節的非周期成分譜擬合曲線、基頻信息和聲道譜信息; 非周期成分代表值確定模塊,用於根據確定的每一個音節的非周期成分譜擬合曲線, 計算得到所述原始語音波形文件中每一個音節的每一幀在不同頻帶信息上的非周期成分 代表值; 語音合成模塊,用於利用所述每一個音節的每一幀在不同頻帶信息上的非周期成分代 表值、每一個音節的基頻信息以及每一個音節的聲道譜信息執行激勵操作,併合成語音。
10. 如權利要求9所述的設備,其特徵在於, 所述非周期成分代表值確定模塊,具體用於利用確定的每一個音節的非周期成分譜擬 合曲線通過以下方式計算得到所述原始語音波形文件中每一個音節的每一幀在一個頻帶 信息上的非周期成分代表值: J .七j· 露 ] hap(n)i = - c0 + 2^crf cos[-1/(/ + -)]; 2 ',. , / 2 其中,bap (n)t為一個音節的第t幀在頻段標識為n的頻帶信息上的非周期成分代表 值,cd為該音節在頻段標識為η的頻帶信息的非周期成分譜擬合曲線,C(l為該音節在頻段 標識為η的頻帶信息上的非周期成分譜擬合曲線的因子,η為頻段標識,d和D為離散餘弦 變換的階數,取值範圍是1?D-l,t為音節的幀數,取值為0?T-1。
【文檔編號】G10L13/02GK104282300SQ201310282732
【公開日】2015年1月14日 申請日期:2013年7月5日 優先權日:2013年7月5日
【發明者】王朝民, 劉琨, 焦偉 申請人:中國移動通信集團公司