使用共振峰增強提取話音共振峰軌跡的方法
2023-06-17 05:35:06 2
專利名稱:使用共振峰增強提取話音共振峰軌跡的方法
技術領域:
本發明涉及一種語音信號共振峰軌跡的提取方法,尤其涉及一種能夠同時準確提取第一、第二、第三、第四和第五共振峰軌跡的簡便方法。
背景技術:
共振峰是表徵語音信號特徵的基本參數之一,它在語音信號合成、語音識別和語音編碼等方面起著重要作用。共振峰可以等效為聲道系統函數的復極點對,由於人的聲道平均長度約為17cm,而語音信號的能量主要集中在0~5kHz,因此語音通常包含4到5個穩定的幅度較強的共振峰。
目前,線性預測分析(LPC)法仍然是計算速度比較快而又較為有效的共振峰頻率估計方法之一。聲道的系統函數可以由一組線性預測係數(LPC)唯一確定,因此通過LPC分析能估計出聲道調製的效果,即獲得共振峰參數。具體來說,LPC分析共振峰頻率有兩種方式,一種是通過求解逆濾波器A(z)的分母多項式的復根來得到共振峰。但是,高階多項式的根無統一表達式,只能用近似法(例如牛頓法、林士鄂-趙訪熊法等)求解,因而該方法的運算量較大,且求根的遞歸過程有可能發散,所以已不被廣泛使用;另一種是峰值檢測法,即利用LPC係數求出聲道系統函數的LPC譜,然後通過搜索LPC譜中的峰值位置來得到共振峰頻率。由於共振峰可出現在任何頻率上,所以現有技術已嘗試在確認最有可能的共振峰之前,限制查找空間。在現有技術的其它共振峰軌跡提取系統中,也已嘗試通過將語音幀的頻譜內容與一組已由專家識別出其共振峰的頻譜模板相比較來減少查找空間。雖然減少查找空間的系統運行得很高效,但是它們易於發生錯誤,因為在減少查找空間的同時它們也會把真正的共振峰頻率排除在外。
LPC分析在大多數情況下能成功提取語音的共振峰參數,但是在某些情況下會發生下列現象,從而造成共振峰頻率的誤判或漏判。(1)假峰幹擾語音信號的LPC譜峰一般是由共振峰引起的,但有時也會出現假峰。例如,為近視聲門、唇輻射和鼻腔的譜效應,通常會在LPC模型中附加2~4個極點,這就有可能在LPC頻譜上造成假峰。這個假峰有時會被當作共振峰,從而引起各階共振峰的誤判。雖然共振峰的帶寬比較窄,一般小於300Hz,可以設置門限來排除假峰,但由於LPC算法對共振峰帶寬的估計並不精確,所以效果不甚理想。(2)共振峰丟失有些語音信號的共振峰強度較弱,帶寬較大;或者由於鼻腔的影響,共振峰的強度被削弱,這種情況經常發生在第二共振峰上。這時從頻譜上看不到明顯的峰,即使通過求根法求出相應的極點,也會因其Q值過小而被丟棄。(3)共振峰合併有時侯兩個共振峰靠得很近,如果它們的強度相近而帶寬又較大,就會合併成一個峰;如果其中一個強度較強而另一個較弱的話,那麼較弱的一個就會被較強的一個所掩蓋,或發生「騎峰」現象。這在通過尋找頻譜上的極值來提取共振峰時將引起誤判。儘管可以利用FFT(快速傅立葉變換)譜輔助完成共振峰的提取和判決,但還是難以在所需頻率範圍內精確地提取共振峰。
微軟公司申請了中國專利「使用殘差模型用於共振峰追蹤的方法和裝置」,其申請(專利)號為200410034242.9,申請日2004.04.01;公開(公告)號CN1534596;公開(公告)日2004.10.06。該發明公開了一種共振峰追蹤的方法一種追蹤共振峰的方法定義包含待查找的共振峰組的一個共振峰查找空間。通過使用碼本查找整個共振峰查找空間來確認說話語音中第一幀的共振峰,而對餘下的各幀使用碼本和相鄰幀間的連續性制約來查找同樣的空間。在一個實施例中,通過映射共振峰組到特徵向量以及應用該特徵向量到一模型來確認共振峰。也可通過應用動態規劃,查找最優地滿足該模型所要求的連續性制約的最佳序列來確認共振峰。
LG電子株式會社了中國專利「共振峰析取方法」,其申請(專利)號為200410083512.5;申請日2004.10.08;公開(公告)號CN1606062;公開(公告)日2005.04.13。該發明公開了一種共振峰析取方法在用較少計算複雜性、能夠精確地按話音的諧振頻率獲得共振峰的共振峰析取法中,所述方法包括通過譜峰值採集法搜索最大值,判斷符合獲得的最大點處的零點的共振峰數目是否為兩個,並且當共振峰數目判斷為兩個時,通過根精加工分析相關根。通過應用柯西積分公式判斷共振峰的數目,其中不重複應用柯西積分公式,而僅在z域內的最大值的周圍部分中應用。
三星電子株式會社申請了中國專利「使用共振峰增強對話的方法和裝置」,其申請(專利)號為200410091112.9;申請日2004.11.18;公開(公告)號CN1619646;公開(公告)日2005.05.25。該發明公開了一種共振峰增強的方法一種提升對話區域的共振峰而不改變聲音區域的對話增強方法和裝置,包括基於來自輸入信號的線性預測編碼(LPC)來計算線譜對(LSP)係數;基於計算出的LSP係數確定輸入信號中是否存在語音區域;和根據是否存在語音區域來從LSP係數中提取共振峰,並提升共振峰。
上面提及的獲取共振峰軌跡的傳統方法,可靠性差、計算複雜。
發明內容
本發明目的是克服上述不足和問題,提出一種通過建立共振峰增強的語音聲管模型,有效對各階共振峰的幅度進行增強,從而提高檢測共振峰頻率的準確性和可靠性。本發明目的在於利用傳統的LPC分析計算共振峰增強譜,並在譜峰搜索算法中採用二次搜索方法,提高共振峰頻率的檢測精度和速度。本發明目的在於通過適當的預加重濾波器處理所接收的話音信號;以及步長移動獲得分析幀;計算得到共振峰增強譜;提供一種計算相對不複雜的、可以精確提取語音信號中第一、第二、第三、第四和第五共振峰軌跡的方法。本發明在語音合成、語音編碼和語音識別方面獲得廣泛的應用。
本發明的技術方案是使用共振峰增強提取話音共振峰軌跡的方法,首先建立話音的共振峰增強的聲管模型;設定共振峰增強係數;獲得共振峰增強譜;然後直接利用線性預測分析得到共振峰增強譜,用二次搜索算法從共振峰增強譜中提取出分析幀的共振峰頻率,同時記錄下第一、第二、第三、第四和第五共振峰的頻率。最後輸出分析幀的共振峰序列就是語音信號的共振峰軌跡;使用提取的共振峰軌跡作為話音識別的特證向量。使用提取的共振峰軌跡作為說話人識別的特證向量;提取的共振峰軌跡用於共振峰聲碼器。
該發明的共振峰增強的話音聲管模型該模型在提高聲道諧振峰Q值的同時,保持聲道的諧振頻率不變。然後得到該聲管的全極點模型,其系統函數V(z)的定義如下。其中,G為系統增益;μm(m=1,2,...,M-1)是聲管的能量反射係數。z=e2πf,f是頻率。
V(z)=G1-G1-M-1-M-1z-1z-11-1--z-1z-11-o-oz-1z-110---(1)]]>在共振峰增強的全極點模型中設置合適的共振峰增強係數,得到對應的線性預測模型。線性預測模型可用Levinson-Durbin遞推算法求解。
(1)EN0=^N---(0)]]>(2)ki=[^N(i)-j=1i-1aji-1^N(i-j)]/ENi-1]]>(3)ai1=ki]]>(4)aji=aji-1-kiai-ji-1,1ji-1]]>(5)ENi=(1-ki2)ENi-1]]>(6)if i<P goto(1)(7)aj=ajP,1jP]]>其中, 為LPC預測輸出的N點序列{xi}的自相關函數的估計量,其表達式如下^N(j)=1Ni=1N-jxixi+j,j=0,1,...,P---(2)]]>算法開始時,p=0,EN0=^(0),]]>a0=1,逐步遞推出{ai1,i=1},EN1;{ai2,i=1,2},EN2;直到{aiP,i=1,2,...,P},ENP。
本發明利用傳統線性預測算法得到共振峰增強譜。這裡的Levinson-Durbin遞推算法只是求解線性預測模型的一種方法。本發明的共振峰增強算法同樣適用於線性預測模型的其它求解方法。
本發明從共振峰增強聲管模型獲得z域系統函數。設定恰當的共振峰增強係數。根據共振峰軌跡條數設定恰當的線性預測階數,可使用線性預測方法計算共振峰增強譜。在共振峰增強譜中用二次快速搜索算法提取共振峰。
本發明還包括接收話音信號;以適當的預加重濾波器處理所接收的話音信號;以適當的步長移動獲得分析幀;對分析幀進行時域加窗處理;本發明在具體實施過程中,用如下數字濾波器對語音信號進行了預加重。
H(z)=1-0.95z-1(3)本發明在具體實施過程中,採用相互重疊的語音分析幀,幀長在10ms~40ms之間,幀移在5ms~20ms之間。
本發明在具體實施過程中,分析幀的能量E用下式計算。其中,x(n)是分析幀內的語音信號,N是幀的長度,N為正整數。
E=n=1Nx2(n)---(4)]]>本發明在具體實施過程中,分析幀的過零率Z用式(5)計算。其中,x(n)是分析幀內的語音信號,N是幀的長度,N為正整數。sgn[*]是符號函數,如式(6)所示。
z=n=1N-1|sgn[x(n)]-sgn[x(n+1)]|u[|x(n)-x(n+1)|-]---(5)]]>sgn(x)=1,x>00,x=0-1,x0---(6)]]>u(x)=1,x00,x0---(7)]]>其中,δ是過零率門限參數,取值範圍在0.01~0.1之間。
本發明在具體實施過程中,利用幀能量門限和過零率門限判斷幀的類別。若該幀為清音幀,則標記為清音後轉入下一幀處理;若該幀為濁音幀,則計算其共振峰增強譜。並在共振峰增強譜中搜索譜峰極值。為進一步提高算法的實時性,先在共振峰增強譜的一個較大範圍內進行第一次搜索,然後在第一次搜索的結果中,用一個較小的步長作最終的峰值檢測。記錄下檢測結果後轉入下一幀。當所有分析幀都分析完成後,提取各幀的共振峰序列就得到輸入語音信號的第一、第二、第三、第四和第五共振峰的軌跡。
本發明特點是提出的共振峰增強提取共振峰軌跡的方法不同於現有方法。本方法首先建立共振峰增強的話音聲管模型,然後直接利用線性預測分析得到共振峰增強譜,用二次搜索算法從共振峰增強譜中提取出分析幀的共振峰,最後輸出分析幀的共振峰序列就是語音信號的共振峰軌跡。
該方法從建立共振峰增強的語音聲管模型出發,利用線性預測分析得到語音信號的共振峰增強譜,應用二次搜索算法從共振峰增強譜中快速準確地提取出語音信號的第一、第二、第三、第四和第五共振峰軌跡。
本發明的優點是1、通過建立共振峰增強的語音聲管模型,能有效對各階共振峰的幅度進行增強,從而提高檢測共振峰頻率的準確性和可靠性。
2、算法簡便,實時性強。本發明利用傳統的LPC分析計算共振峰增強譜,且基本不需要在分析之後附加其它的檢錯算法或平滑算法,因此其算法簡便,此外,在譜峰搜索算法中採用二次搜索方法,進一步提高了共振峰頻率的檢測速度。
3、本發明中使用的共振峰增強方法在語音合成、語音編碼和語音識別方面有極大的應用前景。該方法與以往技術根本不同,與已經申請或者公開的發明無衝突。
所包含的用以提供對本發明的進一步理解、並結合在本說明書中以構成其一部分的附圖,顯示出本發明的實施例,並且連同說明書一起用以解釋本發明的原理。附圖中以參考標號表示了本發明的特徵、要素及方面代表了一個或多個實施例中相同、相當、或類似的特徵、要素或方面。
圖1是根據本發明的一個實施例的流程圖。
圖2是語音信號分析幀的LPC譜。
圖3是本發明中語音信號分析幀的共振峰增強譜。
圖4是實施例中某個待分析的語音信號x。
圖5是應用本發明提取的語音信號x的第一、第二、第三、第四和第五共振峰軌跡。
具體實施例方式
下面將對本發明進行具體說明,這些都是本發明具體的實際操作範例,而本發明並不僅僅局限於此。
圖1示出一個可實現本發明的算法流程圖。它只是合適的計算流程的一個實例,而非試圖對本發明的使用或功能範圍作出限制。本發明可運行於許多其它基於一般或特殊目的計算機系統環境和配置。適合本發明使用的著名計算機系統環境或配置的例子包括,而非限制,個人電腦、伺服器、手持式或膝上型裝置、多處理器系統、基於微處理器的系統、機頂盒、可編程消費電子元件、網絡PC、微型計算機、大型主機電腦、電話系統和包括所有上述系統和裝置的分布計算環境等等。
本發明在由計算機執行的諸如程序模塊等計算機可執行指令的一般上下文環境中被描述。通常,程序模塊包括運行特定任務或實現特定抽象數據類型的例行程序、程序、對象、組件、數據結構等。本發明設計運行在分布計算環境中,由通過通信網絡連接的遠程處理裝置來執行任務。在分布計算環境中,程序模塊位於本地和遠程的計算機存儲介質中,包括記憶存儲裝置。
圖2是語音分析幀的LPC譜。圖3是語音分析幀的共振峰增強譜。可見在該幀信號的LPC譜中,第4和第5共振峰之間存在不太明顯的「騎峰」,而LPC增強譜的各階共振峰則很突出,且其位置與LPC譜峰的位置相同。
圖3是實施例中某個待分析的語音信號x。用共振峰增強算法得到的語音信號x的第一、第二、第三、第四和第五共振峰軌跡。
本發明的處理過程開始;(1)語音信號輸入、(2)預加重、(3)幀移、(4)判斷信號結束?是則進入(15)取出共振峰序列;(5)否則進行分幀加窗;(6)計算幀能量、(7)計算幀過零Z並進行判斷,(8)利用幀能量門限和過零率門限判斷幀的類別,Z>ZTh;E<ETh是否成立;是則進入(9),否則進入(3);(9)標記為清輔音並進入幀移輸入端;(10)設定共振峰增強係數;設定線性預測階數;(11)獲得共振峰增強後的線性預測係數;(12)獲得共振峰的增強譜;(13)搜索譜的極大值;(14)記錄該幀的共振峰頻率;(15)取出共振峰序列並結束。ZTh是幀過零的閾值,一般取值範圍為10~100;ETh定義為幀能量閾值,一般取值範圍為0.2~20。
計算分析幀的幀能量;計算分析幀的幀過零率;根據設定的幀能量門限和幀過零率門限判定分析幀的類型;當分析幀是濁音幀時,指定一個適當的共振峰增強係數;指定一個適當的線性預測分析的階數;計算得到共振峰增強譜;在共振峰增強譜中用二次搜索法提取多個極大值的位置;用逐幀記錄的共振峰頻率生成共振峰軌跡。
對接收的話音信號進行頻域預加重。話音分析幀的長度範圍在10ms~40ms。話音分析幀的幀移範圍在5ms~20ms。話音分析幀的窗函數是漢明窗或矩形窗。
計算分析幀的能量和計算分析幀的過零率。根據能量門限和過零率門限判斷分析幀的類型。
對於濁音幀,設定恰當的共振峰增強係數。對於濁音幀,設定恰當的線性預測係數。
計算濁音幀的共振峰增強譜。對於濁音幀,用二次搜索算法在共振峰增強譜中提取出與共振峰頻率對應的多個極大值的位置。從分析幀的共振峰頻率最終生成語音信號的多條共振峰軌跡。
本發明可先在共振峰增強譜的一個較大範圍內進行第一次搜索,然後在第一次搜索的結果中,用一個較小的步長作最終的峰值檢測。記錄下檢測結果後轉入下一幀。當所有分析幀都分析完成後,提取各幀的共振峰序列就得到輸入語音信號的第一、第二、第三、第四和第五共振峰的軌跡。
權利要求
1.使用共振峰增強提取話音共振峰軌跡的方法,其特徵是首先建立話音的共振峰增強的聲管模型;設定共振峰增強係數;獲得共振峰增強譜;然後直接利用線性預測分析得到共振峰增強譜,用二次搜索算法從共振峰增強譜中提取出分析幀的共振峰頻率,同時記錄下第一、第二、第三、第四和第五共振峰的頻率;最後輸出分析幀的共振峰序列就是語音信號的共振峰軌跡。
2.根據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是處理過程是開始;(1)語音信號輸入、(2)預加重、(3)幀移、(4)判斷信號結束?是則進入(15)取出共振峰序列;否則進行(5)分幀加窗;(6)計算幀能量;(7)計算幀過零Z並進行判斷;(8)利用幀能量門限和過零率門限判斷幀的類別,Z>ZTh; E<ETh是否成立;是則進入(9),否則進入(3);(9)標記為清輔音並進入幀移輸入端;(10)設定共振峰增強係數;設定線性預測階數;(11)獲得共振峰增強後的線性預測係數;(12)獲得共振峰的增強譜;(13)搜索譜的極大值;(14)記錄該幀的共振峰頻率;(15)取出共振峰序列並結束;ZTh幀過零的閾值,取值範圍為10~100;ETh定義為幀能量閾值,取值範圍為0.2~20。
3.據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是使用提取的共振峰軌跡作為話音識別的特證向量,使用提取的共振峰軌跡作為說話人識別的特證向量;提取的共振峰軌跡用於共振峰聲碼器。
4.據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是採用的共振峰增強的話音聲管模型其系統函數V(z)的定義如下;其中,G為系統增益;μm(m=1,2,...,M-1)是聲管的能量反射係數,z=e2πf,f是頻率V(z)=G1-G1-M-1-M-1z-1z-11-1-1z-1z-11-0-0z-1z-110---(1)]]>在共振峰增強的全極點模型中設置合適的共振峰增強係數,得到對應的線性預測模型,線性預測模型用Levinson-Durbin遞推算法求解;(1)---EN0=^N(0)]]>(2)---ki=[^N(i)-j-1i-1aji-1^n(i-j)]/Eni-1]]>(3)---aii=ki]]>(4)---aji=aji-1-kiai-ji-1,1ji-1]]>(5)---ENi=(1-ki2)ENi-1]]>(6)if i<P goto (1)(7)---aj=ajP,1jP]]>其中, 為LPC預測輸出的N點序列{xi}的自相關函數的估計量,其表達式如下^N(j)=1Ni=1N-jxixi+j,j=0,1,...,P---(2)]]>算法開始時,p=0,EN0=^(0),]]>a0=1,逐步遞推出{ai1,i=1},EN1;{ai2,i=1,2},EN2;直到{aiP,i=1,2,...,P},ENP。
5.根據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是在共振峰增強譜中用二次快速搜索算法提取共振峰。
6.根據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是接收話音信號;以預加重濾波器處理所接收的話音信號;以步長移動獲得分析幀;對分析幀進行時域加窗處理;話音分析幀的窗函數是漢明窗或矩形窗。
7.根據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是用如下數字濾波器對語音信號進行了預加重H(z)=1-0.95z-1(3)相互重疊的語音分析幀,幀長在10ms~40ms之間,幀移在5ms~20ms之間。
8.根據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是分析幀的能量E用下式計算其中,x(n)是分析幀內的語音信號,N是幀的長度,N為正整數。E=n=1Nx2(n)---(4)]]>
9.根據權利要求1所述的使用共振峰增強提取話音共振峰軌跡的方法,其特徵是分析幀的過零率Z用式(5)計算。其中,x(n)是分析幀內的語音信號,N是幀的長度,N為正整數。sgn[*]是符號函數,如式(6)Z=n=1N-1|sgn[x(n)]-sgn[x(n+1)]|u[|x(n)-x(n+1)|-]---(5)]]>sgn(x)=1,x>00,x=0-1,x0---(6)]]>u(x)=1,x00,x0---(7)]]>其中,δ是過零率門限參數,取值範圍在0.01~0.1之間。
全文摘要
使用共振峰增強提取話音共振峰軌跡的方法,處理過程是(1)語音信號輸入、(2)預加重、(3)幀移、(4)判斷信號結束?是則進入(15)取出共振峰序列;否則進行(5)分幀加窗;(6)計算幀能量;(7)計算幀過零Z並進行判斷;(8)利用幀能量門限和過零率門限判斷幀的類別,Z>Z
文檔編號G10L19/00GK101067929SQ200710023479
公開日2007年11月7日 申請日期2007年6月5日 優先權日2007年6月5日
發明者王宏, 潘金貴 申請人:南京大學