一種基於聲管的語音合成方法與流程

2023-12-08 22:58:36 1

本發明涉及一種語音合成方法。特別是涉及一種考慮噪聲源模型和流體動壓的基於聲管的語音合成方法。

背景技術：

語音合成指利用電子計算機及一些專業裝置來模擬人製造語音的技術，是當前人機語音交互的主要技術之一。現階段，語音合成的研究還是集中到文字到語音的合成這一階段，也就是tts合成系統。

語音合成主要被分成兩種方法，就是參數合成法以及波形拼接法。經過多年的發展，銜接合成是目前主要的高質量語音合成方法。從長遠來看，似乎最有前途的是發音語音合成，它不受任何基本的限制，並且超出純文本-語音合成的應用程式。而基於聲管的語音合成是基於發音機理的語音合成方法的重要組成部分。

關於人類聲道的數學模型，一直以來就有兩種說法：第一個觀點是將聲道看成是由多個橫截面積不一樣的聲管串聯而形成的聲道系統，被叫作聲管模型；而第二個觀點是將聲道看成一個諧振腔，腔體的諧振頻率由共振峰表示，用該方法來描述聲道的模型即為共振峰模型。本發明中採用的是第一種，也就是聲管模型。

有不同的技術來模擬離散管中聲波的傳播模型。最常用的技術是基于波數字濾波器,或者基於傳輸線電路模型的直接數值模擬，或者是基於時域-頻域的混合仿真系統模擬聲道。每種方法都有其特有的優點和缺點。

技術實現要素：

本發明所要解決的技術問題是，提供一種不僅可以生成元音而且可以生成輔音，提高了生成元音準確度的基於聲管的語音合成方法。

本發明所採用的技術方案是：一種基於聲管的語音合成方法，包括如下步驟：

1)輸入數據包括發音時所有對應位置聲管的面積函數值及聲管的長度值，進行相關初始化，並設定聲管個數為500；

2)計算第n個聲管的聲學元素，所述的聲學元素是傳統輸電線電路模型所需要的各個變量，n初始化為1，每循環一次，n加1；

3)確定聲管的收縮位置，是分別確定聲管的收縮入口及收縮出口，然後對所述的收縮入口及收縮出口求取平均值；

4)在確定聲管的收縮位置的基礎上確定磁單極子和偶極子源的位置，磁單極子放在收縮的最前部分，偶極子源放在一個具有代表性的障礙位置處，所述的具有代表性的障礙位置是由流動分離點與牙齒的距離來決定；

5)判斷是否要激活噪聲源，當收縮中雷諾數的平方re2大於一定的閾值時，激

活噪聲源，反之則不激活噪聲源，其中re＝vcdc/v是收縮中的雷諾數，是臨界雷諾數；

6)增加伯努利阻力，是將額外的阻力分離為ri和公式如下：

其中，和是兩個連續聲管i和j的橫截面積的平方，uij是這兩個聲管之間的體積速度，ρ是周圍空氣密度，uin,i是進入聲管i的體積速度，uout,i是離開聲管i的體積速度，apred是聲管i前一個聲管的橫截面積，asucc是聲管i後一個聲管的橫截面積，rfric,i是聲管i的粘摩擦力；

7)重複步驟2)～步驟6)，直至更新完成所有的聲管，並將數據處理結果寫入wave文件的數據體，更新數據體長度；

8)重複步驟2)～步驟7)，更新wave文件長度和wave文件的數據頭，得到最終的wave文件。

步驟1)所述的初始化包括：設定聲道上牙齒的位置和聲門面積，根據輸入的數據加載聲道的初始化形狀，以及設置wave文件頭格式。

步驟2)所述的傳統輸電線電路模型所需要的各個變量包括：收縮部位的體積速度源、壓力源及動態壓降，非剛性壁聲道內的壓強p和體積速度v，聲管內聲壓的振幅和力學阻力，聲門末端及口腔出口的邊界壓強和體積速度，以及計算阻力時的粘滯係數。

步驟4)所述的磁單極子是收縮出口的體積速度源，所述的偶極子源是氣流源擊中一個障礙物或者擊中聲管表面部分時的壓力源。

步驟4)所述的流動分離點是聲管內氣流流動分離的地方。

步驟5)所述的，re＝vcdc/v式中，vc是收縮中最窄聲管部分的速度，dc是聲管的直徑，v是運動粘度。

本發明的一種基於聲管的語音合成方法，在傳統輸電線模型的基礎上增加噪聲源和採用考慮到流體動壓的方法從而形成新的聲道模型，完善了現有的聲管模型，比現有的模型生成元音的準確度更高並且可以生成輔音。本發明的方法沒有限制每個管部分的長度，完善現有的元音的聲管模型，使得模型不僅可以生成元音而且可以生成輔音，提高了生成元音的準確度，並有效的避免了聲偽像；對推進語音合成在更廣泛的領域的應用提供了極大的幫助。

附圖說明

圖1是本發明一種基於聲管的語音合成方法的流程圖；

圖2是本發明中聲道模型中每個聲管的二埠電路圖；

圖3是本發明中一個實例元音/e/的頻譜圖；

圖4是本發明中一個實例輔音/s/的頻譜圖。

具體實施方式

下面結合實施例和附圖對本發明的一種基於聲管的語音合成方法做出詳細說明。

本發明的一種基於聲管的語音合成方法，將基於核磁共振(mri)數據，採用時域模擬方法，用傳輸線電路tlm來模擬聲道，並加入了噪聲源模型。模型中，控制聲波生成和傳播的聲波方程通過應用一定的規則轉化為離散變量，並在基於一個更現實的對流體動壓變化的分布式考慮的基礎上進行改進，同時考慮聲道的分支將三個不同的稀疏矩陣運用數學方法合併成單一矩陣，以此來完善現有的元音的聲管模型。

輔音與元音的不同之處主要有兩點,一是計算輔音的時候需要在進行相關初始化之前設定牙齒的位置；另外一個就是在計算數據體的時候不需要計算聲門的面積，因為計算輔音的時候聲門的面積是一個常數。這兩點是在輔音研究的實施例中需要自己手動進行的修改，並且這些都是由於聲道在發元音及輔音的時候的不同生理機理而導致在研究中所需要做出的改變。

在得到wav文件之後，對wav文件通過不同的技術處理，得到對應聲音文件的面積函數圖，波形圖及頻譜圖，主要通過比較這些聲音的頻譜圖與實際發音得到的頻譜圖來判斷結果的準確度。

如圖1所示，本發明的一種基於聲管的語音合成方法，包括如下步驟：

1)輸入數據包括發音時所有對應位置聲管的面積函數值及聲管的長度值，進行相關初始化，並設定聲管個數為500；所述的初始化包括：設定聲道上牙齒的位置和聲門面積，根據輸入的數據加載聲道的初始化形狀，以及設置wave文件頭格式。

2)計算第n個聲管的聲學元素，所述的聲學元素是傳統輸電線電路模型所需要的各個變量，n初始化為1，每循環一次，n加1；所述的傳統輸電線電路模型所需要的各個變量包括：收縮部位的體積速度源、壓力源及動態壓降，非剛性壁聲道內的壓強p和體積速度v，聲管內聲壓的振幅和力學阻力，聲門末端及口腔出口的邊界壓強和體積速度，以及計算阻力時的粘滯係數。

3)確定聲管的收縮位置，計算噪聲源的第一步需要確定收縮位置，本發明在確定收縮位置時，是分別確定聲管的收縮入口及收縮出口，然後對所述的收縮入口及收縮出口求取平均值；

4)在確定聲管的收縮位置的基礎上確定磁單極子和偶極子源的位置，磁單極子放在收縮的最前部分，偶極子源放在一個具有代表性的障礙位置處，所述的具有代表性的障礙位置是由流動分離點與牙齒的距離來決定；其中，所述的磁單極子是收縮出口的體積速度源，所述的偶極子源是氣流源擊中一個障礙物或者擊中聲管表面部分時的壓力源。所述的流動分離點是聲管內氣流流動分離的地方。

磁單極子總是放在收縮的最前部分，即假定流動分離的地方。偶極子源總是放在一個具有代表性的障礙位置。當流動分離點(fsp)距離牙齒小於4cm時，偶極子源就放在牙齒處，因為，這是用來發齒槽音和後齒齦音的。相反，當將聲道牆作為障礙物，對於軟顎音的摩擦音，它被放置在fsp下遊0.5cm的地方。當fsp的牙齒處或牙齒下遊時，偶極子源放置在嘴唇的地方。

5)判斷是否要激活噪聲源，當收縮中雷諾數的平方re2大於一定的閾值時，激活噪聲源，反之則不激活噪聲源，其中re＝vcdc/v是收縮中的雷諾數，是臨界雷諾數；所述的，re＝vcdc/v式中，vc是收縮中最窄聲管部分的速度，dc是聲管的直徑，v是運動粘度。

6)增加伯努利阻力，是將額外的阻力分離為ri和公式如下：

其中，和是兩個連續聲管i和j的橫截面積的平方，uij是這兩個聲管之間的體積速度，ρ是周圍空氣密度，uin,i是進入聲管i的體積速度，uout,i是離開聲管i的體積速度，apred是聲管i前一個聲管的橫截面積，asucc是聲管i後一個聲管的橫截面積，rfric,i是聲管i的粘摩擦力。

從而使得整個聲管模型可以用統一的二埠網絡圖來表示，如圖2所示，而，整個聲道模型是由多個圖2所示的二埠網絡串聯組成。同時這個方法還可以預防由於收縮位置改變造成的聲偽像；

7)重複步驟2)～步驟6)，直至更新完成所有的聲管，並將數據處理結果寫入wave文件的數據體，更新數據體長度；

8)重複步驟2)～步驟7)，更新wave文件長度和wave文件的數據頭，得到最終的wave文件。

本發明實例中採用了5個元音及6個摩擦音，摩擦音數據的面積函數初始化為40個離散值，牙齒的位置隨著不同的發音而發生變化；元音數據的面積函數初始化為70左右的不同數量的管。

在得到wav文件之後，使用praat軟體生成對應的波形圖與頻譜圖，然後與實際發音的頻譜圖來比較，從而判斷模型的準確度。

實驗結果表明，本實例使用的5個元音的發音結果準確度都比較高，頻譜與實際的發音頻譜很相似，即使是最直接的人耳聽起來也不會有太大的差別。這是一個令人滿意的結果。本實例在改進傳統輸電線之後可以生成輔音，只是在本實例使用的六個輔音中，只有四個輔音發音結果準確度比較高，還有兩個準確度相對來講要差一些，準確度較高的頻譜圖與實際發音的頻譜圖整體都比較一致，而另外兩個相比實際發音會出現些許偏差。結果示意圖見圖3、圖4。圖3顯示的是元音中結果準確度較高的音/e/的頻譜圖，圖4顯示的是摩擦音中結果準確度比較高的音/s/的頻譜圖。

本實例在傳統輸電線模型的基礎上增加噪聲源和採用考慮到流體動壓的方法從而形成新的聲道模型，比現有的模型生成元音的準確度更高並且可以生成輔音。

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種基於聲管的語音合成方法與流程

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法