基於徑向基神經網絡的耳語音轉換為正常語音的方法

2023-10-19 16:51:47 1

專利名稱：：基於徑向基神經網絡的耳語音轉換為正常語音的方法
技術領域：
：本發明屬於語音信號處理
技術領域：
，特別涉及耳語音轉換為正常語音技術。
背景技術：
：耳語音是一種有別於正常語音的發音模式，其主要特點是發音時音量低且聲帶完全不振動。在某些場合說話時，人們為了不影響他人或為了對話的保密性，常常使用耳語方式。然而由於耳語發音的特殊性和受對話環境的影響，這種方式下的語音信號不僅信噪比低而且可懂度、清晰度都較差，特別是在通過通訊設備進行交流時，既影響通話質量，又易使人產生疲勞。另外一些嗓音病人或發音功能不正常者交流時也只能使用耳語方式，影響了交流。目前國內外關於耳語音轉換的研究較少，已有的方法有1、使用線性預測法(LPC)實現耳語音的重建，通過提取耳語音的偏相關係數構成斜格型合成濾波器進行合成，其遇到的問題，一是耳語音的共振峰不易提取，二是在該方法中，認為耳語音與正常語音的共振峰結構大致不變，但實際上耳語音的共振峰頻率是向髙頻偏移的，所以恢復出的語音往往不能讓人準確聽辨；2、採用混合激勵線性預測模型(MELP)重建耳語音，將語音分為五個頻帶，並將四個低頻帶作為濁音段激勵，髙頻段作為清音段激勵，這樣重建的語音帶有明顯的失真；3、基於同態信號處理方法並結合相對熵聲韻分割的耳語重建系統，在對耳語音聲韻分割後，使用同態信號處理方法得到聲道響應序列，根據音調加入基頻，由於耳語音傳輸函數有別於正常語音，雖然經過了一些後處理但是轉換語音的自然度不高。
發明內容本發明目的是提供一種將耳語音轉換為正常語音的方法，使得恢復的語音在可懂度以及音質上均達到比較好的效果，以更方便人們的交流。為達到上述目的，本發明採用的技術方案是一種基於徑向基神經網絡的耳語音轉換為正常語音的方法，包括訓練步驟和轉換步驟，所述訓練步驟為，分別提取出相同發音內容的耳語音和正常語音的線譜對參數，使用徑向基神經網絡對耳語音、正常語音的線譜對參數進行訓練，捕獲耳語音、正常語音頻譜包絡的映射關係；所述轉換步驟為，提取待轉換的耳語音的線譜對參數，使用已訓練好的徑向基神經網絡進行轉換，獲得對應於正常語音的線譜對參數，並使用線譜對參數合成器轉換出正常語音。上文中，通過使用徑向基神經網絡，創造性地提出了利用耳語音和正常語音的線譜對參數間的關聯性，實現耳語音和正常語音的轉換。其中，在獲得正常語音的線譜對參數後，用線譜對參數合成器進行合成轉換出正常語音是現有技術。進行語音合成時，需要提供激勵源，激勵源分為濁音源和清音源兩種，發濁音時聲帶不斷張開和關閉，將產生間歇的脈衝波。這個脈衝的波形類似於斜三角的脈衝。它的數學表達式如下formulaseeoriginaldocumentpage5,其他式中，N^0.5N為斜三角波上升部分的時間，N2=0.35N為其下降部分的時間，N為語音基音周期的時間。選取語音基頻平均值為基音頻率。發清音時，無論是發阻塞音或摩擦音，聲道都被阻礙形成湍流。所以，可以把清音激勵模擬成隨機白噪聲。實際情況下一般使用均值為0的、方差為1的，並在時間或/和幅值上為白色分布的序列。利用上述激勵源，將經過已訓練徑向基神經網絡轉換後的耳語音線譜對參數構成合成器，通過線譜對參數合成器轉換出正常語音。上述技術方案中，所述訓練步驟中，獲取耳語音的線譜對參數的方法為，獲取採樣率不低於10KHz的音頻文件，進行下列處理，(l)預處理先採用一階數字濾波器進行預加重處理，所述一階數字濾波器為H(Z)=l-uz—、式中，H是傳遞函數，z是z變換，u為預加重係數，其取值為0.9<u<l;再進行分幀加窗處理，每幀時間長度為2030毫秒，幀長取2的整數次方，幀移與幀長的比值為1/41/2,採用漢明窗進行加窗處理，式中，n為加窗點，N為漢明窗的窗長，w為漢明窗；(2)線譜對分析對經過預處理後的耳語音提取線譜對參數(Wi、e。，並且Wi、8i按下式關係排列0<Wi<8i<'"<Wp/2<0p/2一的階數，^為線性預測係數，z為z變換，A為線性預測誤差濾波器；獲取正常語音的線譜對參數時，其步驟與上述耳語音的處理步驟相同。優選的技術方案，所述步驟(l)中，ii的取值為0.937。所述音頻文件的採樣率為10KHz，所述步驟(l)中，幀長為256點，幀移為128點。所述步驟(2)中，p的取值為1015的整數。上述技術方案中，所述訓練步驟中，使用徑向基神經網絡，將耳語音的線譜對參數(Wi耳、0i耳)作為徑向基神經網絡輸入值x，正常語音的線譜對參數(Wie、6iiE)作為導師信號d,徑向基神經網絡的實際輸出為y,通過徑向基神經網絡的學習，得到基函數的中心和方差以及隱含層與輸出層間的權值，最後得到耳語音、正常語音頻譜包絡的映射關係。由於上述技術方案運用，本發明與現有技術相比具有下列優點1.本發明創造性地提出了耳語音和正常語音的線譜對參數之間存在對應關係，並利用徑向基神經網絡經過訓練將耳語音的線譜對參數轉換成對應於正常語音的線譜對參數，再使用線譜對參數合成器轉換為正常語音，實現了耳語音的轉換。2.實驗表明，採用本發明的方法對耳語音進行轉換，恢復的語音在可懂度以及音質上均達到了比較好的效果。3.利用本發明的方法可以實現保密通話，並方便嗓音病人或發音功能不正常者的交流。圖1為本發明實施例一中耳語音轉換為正常語音方法的框圖；圖2為具有單隱層的徑向基三層前饋網絡；圖3為單個斜三角波形；圖4為線譜對參數合成器；圖5為實施例二中正常語音"a"的波形圖以及語譜圖圖6為使用線性預測法轉換後的語音"a"的波形圖以及語譜圖；圖7為使用本發明方法轉換後的語音"a"的波形圖以及語譜圖圖8為使用本發明方法以及線性預測法轉換後語音"a、o、e、i、u、v"的頻譜距離比較。具體實施方式下面結合附圖及實施例對本發明作進一步描述實施例一參見附圖1至4所示，耳語音沒有基音周期，其能量比正常語音低20dB,信噪比更低。這種語音信號不僅信噪比低而且可懂度、清晰度都較差，這既影響通話質量，又易使人產生疲勞。本實施例選取了採樣率為10KHz的wav格式音頻文件，下面具體說明各步驟的工作流程。如圖1所示，本實施例的方法包括以下步驟步驟ll:對耳語音進行預處理。首先對耳語音進行預加重處理。預加重的目的是提升髙頻部分，使信號的頻譜變得平坦，保持在低頻到髙頻的整個頻帶中，能用同樣的信噪比求頻譜，以便用於頻譜分析或聲道參數的分析。所用的預加重數字濾波器是一階的數字濾波器formulaseeoriginaldocumentpage7式中，U的值接近於1。進行過預加重數字濾波器處理後，接下來要進行分幀加窗處理。幀長取256點，幀移取幀長的一半128點，這樣是為了使幀與幀之間平滑過渡，保持其連續性。加窗選用的窗是漢明窗(Hamming),使得語音短時參數更好地反映語音信號的特性變化-0.54-0.46cos[2tot/(W—l)]0S"W-10其它式中，n為加窗點，N為窗長。步驟12:線譜對分析，對經過預處理後的耳語音提取線譜對參數(Wi、0i)。線譜對是頻域參數，因而和語音信號譜包絡的峰有著更緊密的關係，它具有良好的量化特性和插值特性。並且Wi、0i按下式關係排列(Xw,〈A〈…〈Wp,2〈0p,2〈;r，其中p為線性預測誤差濾波器傳遞函數#)=1+|>一的階數。^為線性預測係數。由於P(z"l-(、+a》z人(a2+ap—Jz-2…-(ap+ai)Z-"z如"其中a,，K,^為線性預測係數。設P(z)的零點為Q(z)的零點為e'e'，那麼P(z)和Q(z)可寫成下列形式P(z)=(1+z——2cosw,z—1+z一2)Q(z)=(1—z一1)]^[(1-2cos0,z-1+mm一ln(卜2z、。s,'+z-2)-(2z-V'n(^1^~-cos,')且(2+2_1)/2|z=,=c。sw=jc，所以屍(2)/(1+2_')=0./=1>1是關於x的一個p/2次代數方程。同理ew/(i+z-t卜o也是關於x的一個p/2次代數方程。聯立解此代數方程組求得X，再由W,=C0S-^,就可以得到線譜對參數(W,、0,)。步驟15:對正常語音進行預處理。步驟14:線譜對分析，對經過預處理後的正常語音提取線譜對參數。步驟13:徑向基神經網絡訓練，使用徑向基神經網絡對耳語音、正常語音的線譜對參數進行訓練，捕獲耳語音、正常語音頻譜包絡的映射關係。徑向基是具有單隱層的三層前饋網絡如圖2示。它能夠以任意精度逼近任意連續函數。它包括隱含層和輸出層。輸入層有M個神經元，其中任一神經元用m表示；隱含層有N個神經元，任一神經元用i表示，O(X,X,)為"基函數"，它是第i個隱單元的激勵輸出；輸出層有J個神經元，其中任一神經元用j表示。隱含層與輸出層突觸權值用w,y(i=l，2，，N;j=l，2，…,J)表示。當網絡輸入訓練樣本X,時，網絡第j個輸出神經元的實際輸出為yJXJ^HvKUQ，j=l,2，…，J其中"基函數"一般選用格林函數當"基函數"為髙斯函數(一種特殊的格林函數)(M)2=exp((T>0,rei)式中，t為髙斯函數的中心，c為方差。此步訓練時將耳語音的線譜對參數(w^、e,，)作為徑向基神經網絡輸入值x,正常語音的線譜對參數(w,iE、e,J作為導師信號d,徑向基神經網絡的實際輸出為y。通過徑向基神經網絡的學習，得到基函數的中心和方差以及隱含層與輸出層間的權值，最後得到耳語音、正常語音頻譜包絡的映射關係。步驟21:對要轉換的耳語音進行預處理。步驟22:對預處理後的耳語音線譜對分析。步驟23:使用經過訓練後的徑向基神經網絡轉換耳語音的線譜對參數，使得耳語音的線譜對參數接近於正常語音線譜對參數的數值。將需要轉換的耳語音線譜對參數(w,、0,)輸入到經過訓練後的徑向基神經網絡(頻譜包絡的映射關係)，經過轉換後徑向基神經網絡的輸出值為(w,肖、％)。步驟24:以語音基頻平均值作為基音頻率生成語音的激勵源。激勵源一般分為濁音激勵和清音激勵。發濁音時聲帶不斷張開和關閉，將產生間歇的脈衝波。這個脈衝的波形類似於斜三角的脈衝。如下圖3示，它的數學表達式如下:G(n)=(1/2)[1-cos(tot/AO],O^"Mcos[兀("-iV!)/2iV2],NiS"iV+N;O,其他式中，N嚴0.5N為斜三角波上升部分的時間，N^0.35N為其下降部分的時間，N為語音基音周期的時間。選取語音基頻平均值為基音頻率。發清音時，無論是發阻塞音或摩擦音，聲道都被阻礙形成湍流。所以，可以把清音激勵模擬成隨機白噪聲。實際情況下一般使用均值為0的、方差為1的，並在時間或/和幅值上為白色分布的序列。步驟25:將轉換後的耳語音線譜對參數(w,肖、e,肖)輸入到線譜對參數合成器中，使用線譜對參數合成器轉換出正常語音。線譜對參數合成器如圖4示。線譜對合成濾波器傳遞函數表達式為H(z)=~p11+2,)_1]+[胸-1]}w'轉線譜對參數為(w,轉、e,轉)有O<w^<0^<'"<wW2s</2s,+1+,)n(i++z一2)+n(1+1+,2)p/2-l;p/2q(z)-i=z-'[(b-')+^>,+1+Z-')n(!+v-1+z一2)+n(i+《z—+2)I'■=1>1J=l以上兩式所表示的聲道濾波器結構即為線譜對參數合成器，將生成的激勵源輸入到此合成器，最後轉換出正常語音。實施例二參見附圖5至8所示，對採樣率為lOKHz的wav格式音頻文件耳語音"a、o、e、i、u、v"分別進行如下處理(l)使用線性預測法(LPC)轉換耳語音；(2)使用本發明方法轉換耳語音。圖57分別給出了正常語音以及通過上述兩種算法處理後語音"a"的波形圖和語譜圖。可以看出本發明方法轉換語音的語譜圖更接近於正常語音的語譜圖。對兩種方法轉換後的語音分別進行了主觀和客觀測試。主觀可懂度評價採用DRT(DiagnosticRhymeTest)方法，質量度量採用主觀平均判分方法(MeanOpinionScore，MOS)o表1為DRT以及MOS評價的評分標準。表1tableseeoriginaldocumentpage11共挑選了10名實驗者對轉換後的語音進行聽力測試，測試耳機為BOSE-QC-1,然後分別給出音頻質量的主觀評分，表2給出了對兩種方法轉換語音的評分結果。表2tableseeoriginaldocumentpage11客觀評價採用改進型巴克譜失真測度(MBSD)測量頻譜距離，MBSD的計算公式為formulaseeoriginaldocumentpage11式中N為處理語音的總幀數；^",0和Z^v)分別為原始語音和失真語音第n幀第i個巴克帶的響度值；M(n，i)為掩蔽效應;T(n，i)為第n幀第i個巴克帶的掩蔽門限值。在MBSD中取第418個巴克帶的失真測度進行計算。圖8給出了對轉換語音頻譜距離的評價結果。可以看出本發明方法轉換語音的頻譜失真距離小於LPC方法，更接近於正常語音。實驗結果表明使用本發明方法轉換後語音的可憧度以及音質均達到了比較好的效果。權利要求1.一種基於徑向基神經網絡的耳語音轉換為正常語音的方法，包括訓練步驟和轉換步驟，其特徵在於所述訓練步驟為，分別提取出相同發音內容的耳語音和正常語音的線譜對參數，使用徑向基神經網絡對耳語音、正常語音的線譜對參數進行訓練，捕獲耳語音、正常語音頻譜包絡的映射關係；所述轉換步驟為，提取待轉換的耳語音的線譜對參數，使用已訓練好的徑向基神經網絡進行轉換，獲得對應於正常語音的線譜對參數，並使用線譜對參數合成器轉換出正常語音。2.根據權利要求1所述的基於徑向基神經網絡的耳語音轉換為正常語音的方法，其特徵在於所述訓練步驟中，獲取耳語音的線譜對參數的方法為，獲取採樣率不低於lOKHz的音頻文件，進行下列處理，(l)預處理先採用一階數字濾波器進行預加重處理，所述一階數字濾波器為H(Z)=l-nz—、式中，H是傳遞函數，z是z變換，n為預加重係數，其取值為0.9<u<l:再進行分幀加窗處理，每幀時間長度為2030亳秒，幀長取2的整數次方，幀移與幀長的比值為1/41/2,採用漢明窗進行加窗處理，式中，n為加窗點，N為漢明窗的窗長，w為漢明窗；(2)線譜對分析對經過預處理後的耳語音提取線譜對參數(Wi、0i),並且Wi、8i按下式關係排列0<<0i<'"<Wp/2一的階數，為線性預測係數，z為z變換，A為線性預測誤差濾波器；獲取正常語音的線譜對參數時，其步驟與上述耳語音的處理步驟相同。3.根據權利要求2所述的基於徑向基神經網絡的耳語音轉換為正常語音的方法，其特徵在於所述步驟(l)中，u的取值為0.937。4.根據權利要求2所述的基於徑向基神經網絡的耳語音轉換為正常語音的方法，其特徵在於所述音頻文件的採樣率為10KHz，所述步驟(l)中，幀長為256點，幀移為128點。5.根據權利要求2所述的基於徑向基神經網絡的耳語音轉換為正常語音的方法，其特徵在於所述步驟(2)中，p的取值為1015的整數。6.根據權利要求1所述的基於徑向基神經網絡的耳語音轉換為正常語音的方法，其特徵在於所述訓練步驟中，使用徑向基神經網絡，將耳語音的線譜對參數(w^、0i^作為徑向基神經網絡輸入值x，正常語音的線譜對參數(Wiie、e^)作為導師信號d，徑向基神經網絡的實際輸出為y，通過徑向基神經網絡的學習，得到基函數的中心和方差以及隱含層與輸出層間的權值，最後得到耳語音、正常語音頻譜包絡的映射關係。全文摘要本發明公開了一種基於徑向基神經網絡的耳語音轉換為正常語音的方法。包括訓練以及轉換兩個步驟訓練時分別提取耳語音、正常語音的線譜對參數，使用徑向基神經網絡捕獲耳語音、正常語音頻譜包絡的映射關係；轉換時對耳語音預處理、提取線譜對參數，然後使用已訓練好的徑向基神經網絡轉換耳語音的線譜對參數，最後以語音的基頻平均值作為基音頻率生成語音的激勵源，通過線譜對參數合成器轉換出正常語音。本發明轉換的耳語音在可懂度以及音質方面都達到了很好的效果。文檔編號G10L21/02GK101527141SQ20091002532公開日2009年9月9日申請日期2009年3月10日優先權日2009年3月10日發明者迪吳,張曉俊,許宜申,趙鶴鳴,陳大慶,智陶,韜韓,顧濟華申請人:蘇州大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於徑向基神經網絡的耳語音轉換為正常語音的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法