帶限音頻信號的帶寬擴展的製作方法
2023-05-23 17:40:41 4
專利名稱:帶限音頻信號的帶寬擴展的製作方法
技術領域:
本發明涉及對帶限音頻信號的處理,並且具體地涉及通過合成音頻信號生成器以傳輸循環速率進行操作所作的帶寬擴展。更明確地,本發明涉及對語音信號形式的帶限音頻信號進行處理。
背景技術:
音頻信號的傳輸經常具有一些帶寬限制。與覆蓋頻率範圍大約從20Hz到20kHz的自然面對面的語音通信不同,電話機或者蜂窩式電話的電話通信具有受限帶寬的特徵。普通電話帶限(窄帶)的音頻,具體地,語音信號示出的帶寬僅僅為300Hz-3.4kHz。由於除掉頻率較低或較高的信號將造成語音質量的下降,具體地,表現為清晰度降低,所以把受限制的帶寬擴展成更寬的帶寬將是有益的。
對增大電話帶寬的問題的可能的解決方法是合併兩個或更多個帶限語音信道或者使用所謂的寬帶語音代碼。然而,這種方法不僅需要服務的修改還會不期望地增加成本。
這樣,更加可取的是在通信的接收端提供增大的帶寬。由於人類發音腔道特有的屬性,在帶限語音信號和那些由於帶寬限制而丟失的頻率部分的原始話語之間存在一些相關性。因而,帶寬擴展的期望方法包括了從帶限語音信號合成寬帶語音信號。
可以不做任何語音信號分析就能實現帶寬的擴展,例如,通過高通濾波所補充的輸入帶限語音信號的直接頻譜摺疊來實現以生成寬帶語音信號。代替簡單的頻譜摺疊,可以採用諸如在帶限語音信號的插值之後進行波形矯正的非線性處理來獲得寬帶語音信號。儘管這種直接轉換的技術很容易使用,但它們示出的結果與使用語音信號分析的方法相比通常較差。
使用語音信號分析來從受限電話語音信號生成寬帶語音信號的普通系統通常至少執行兩個處理步驟。第一步,根據從帶限語音信號提取的確定的帶限包絡(envelope)來估計寬帶頻譜包絡。
大體上,定義了語音信號的帶限頻譜包絡表示和寬帶頻譜包絡表示之間的對應關係的查找表或者代碼本(見「A New Technique forWideband Enhancement of Coded Bandlimited Speech;」by J.Epps andW.H.Holmes,IEEE Work-shop on Speech Coding,Conf.Proc.,p.174,1999),在訓練階段(training phase)時期形成,訓練階段更確切地是計算機時間和存儲器消耗。對接收語音信號的被提取帶限頻譜包絡表示的最接近的頻譜包絡表示已經在代碼本中被標識,然後被用於合成所需的寬帶語音信號。
代碼本的構造可以例如US 5,455,888,藉助於線性預測編碼(LPC)分析來完成。LPC係數是從寬帶訓練信號中提取出來的。這些信號被帶通濾波並且生成的帶限信號的LPC係數也被提取出來以允許建立帶限信號的LPC表示和寬帶信號的LPC表示之間的對應。
在第二個步驟中,將從接收的帶限語音信號中生成寬帶激勵信號。激勵信號理想地代表了將立即從聲帶檢測到的信號,即,沒有經整個發音腔道修改,從嘴等器官發出的聲音輻射特性。激勵信號可以由例如非線性特性曲線來模擬(見「Spectral Widening of the Excitation Signalfor Telephone-Band Speech Enhancement」,IWANEC 2001,Conf.Proc.,p.215,2001),或者以帶限激勵信號US 5455888的音調和功率為基礎模擬。為了擴展電話頻帶的帶寬,被模擬的激勵信號利用經估計的寬帶頻譜包絡成形,並被添加到帶限信號中。
所有上述方法共有的是,信號處理是基於由預定數目的連續語音樣本組成的幀或數據塊。在語音分析期間確定的相關信號參數,例如,共振峰、音調、平均功率和頻譜包絡,被假設為在通常為20ms左右的幀的時間周期內是恆定的。一般這些幀被選擇成彼此最多重疊至50%,導致大約為10ms或更多的典型的時間偏移。
這種信號處理中的時間延遲可能會導致令人生厭的人為現象(artifact),該人為現象由振幅和/或頻率和/或相位的不連續模擬造成,更具體的是,在時間變動很大的通信中造成。此外,在免提電話通信的情況下,由本領域系統引入的在信號路徑中的有限延遲不期望地由傳輸路徑的延遲進行了補充。
這樣,儘管在擴展帶限電話通信中最近有所發展和改進,但仍很明顯地存在對改良音頻以及,特別是,包括有效的帶寬擴展的語音信號處理的需要。因而本發明潛在的問題是克服上述的缺點,並且提供一種使用在接收機一側合成的有效擴展帶寬的用於對帶限語音通信進行語音處理的系統和方法。
發明內容
該問題由權利要求1所述的系統和權利要求12所述的方法來解決。用於對帶限音頻信號進行帶寬擴展的本發明的系統包括分析裝置,被配置成以傳輸循環速率分析帶限音頻信號並以傳輸循環速率獲得至少一個帶限參數;映射裝置,其被配置成基於至少一個帶限參數獲得至少一個寬帶參數;和音頻信號生成裝置,其被配置成以傳輸循環速率在至少一個寬帶參數的基礎上生成高頻段和/或低頻段音頻信號。
依照本發明和本領域的不同技術,帶限音頻信號是以傳輸循環速率進行分析的而且高頻段和/或低頻段音頻信號以及合併的寬帶音頻信號都是在傳輸循環速率的基礎上生成的。通過「高頻段」和「低頻段」那些頻譜的部分指的是,除了接收的帶限以外被合成的部分。例如,如果帶限信號顯示的頻率範圍是從300Hz到3,4kHz,則低頻段和高頻段信號顯示的頻率範圍分別是從50-300Hz和從3,4kHz到預先確定的頻率上限,其最大值為採樣速率的一半。
通常用於帶寬擴展的系統在信息塊或幀的基礎上進行操作。對於8kHz的典型採樣速率,分析和寬帶音頻合成是對於典型地大約為20ms的幀執行的,即,該幀包含了160個左右連續的音頻數據樣本。因而,傳統的整個信號處理過程顯示一些延遲,而依照本發明的信號處理過程可以不帶延遲或者幾乎不帶延遲地執行。而且,即使發送方的口頭話語具有很大的時間變化性,對寬帶音頻信號的關于振幅、頻率和相位的連續合成也能由本發明系統來提供。
本發明對於語音電信中的帶寬擴展特別有用,其改良了所接收聲音的清晰度和逼真度。具體地,分析裝置和音頻信號生成裝置以傳輸循環速率進行的操作通過寬帶音頻,特別是,語音信號的振幅、頻率和相位的連續合成允許幾乎完全無延遲或理想上完全無延遲的語音通信。然而,可以理解到本發明如果對處理音頻信號有用,大體上,在擴展帶限語音信號中可見其突出的應用。
音頻或語音分析裝置理想地估計語音的音調,並提取帶限激勵信號和帶限頻譜包絡,以及提供有關的帶限參數。一般而言,帶限參數是用於,例如,決定帶限頻譜包絡、音調、短時功率、高頻段通帶對低頻段通帶(highband-pass-to-lowband-pass)的功率比和信噪比的特徵的參數。因此,寬帶參數包括了對應帶限參數的寬帶音頻信號的參數,例如,寬帶頻譜包絡,用於決定寬帶頻譜包絡和寬帶激勵信號的特徵參數。
可以在分析之前執行一些預處理,如通過內插法增加採樣速率。為了使處理器負載保持相對較低,可以優選地在分析裝置中實現遞歸算法。
例如,線性預測編碼(LPC)的方法可以用於提取帶限頻譜包絡。依照此方法,時間信號x(n)的第n個採樣可以根據以前的M個樣本如下估計x(n)=K=1Mak(n)x(n-k)+e(n)]]>其中係數ak(n)將以使預測誤差信號e(n)最小化的方式被最優化。該最優化可以由,例如,最小均方算法來遞歸地進行。相應的寬帶頻譜包絡可以例如,通過一些非線性映射裝置被分配給經提取的帶限頻譜包絡(見下文)。
基於對帶限語音信號的分析,寬帶激勵信號可以被生成。這種寬帶激勵信號可以隨後由經估計的寬帶頻譜包絡來成形以生成寬帶語音信號。
其它幾個語音分析過程可以由語音分析裝置來執行,並且可以被用於隨後的補充被發送的帶限語音信號的低頻段/高頻段語音信號的合成。在其它過程當中,有利的是可以確定短時功率、實際的信噪比SNR、高頻段通帶對低頻段通帶功率比、和信號零位(signal nulling),並且關於被檢測語音信號的語音和非語音部分的分類可以被執行。
系統也有利地包括組合裝置,其被配置來接收帶限音頻信號和由音頻信號生成裝置以傳輸循環速率生成的高頻段音頻信號和/或低頻段音頻信號,並以傳輸循環速率將帶限音頻信號和高頻段音頻信號和/或低頻段音頻信號組合成寬帶音頻信號。
在優選實施方式中,本發明進一步包括被配置來接收至少一個帶限參數的控制裝置,並且其中該控制裝置控制映射裝置以比傳輸循環速率低的事件速率獲得至少一個寬帶參數,並且這只在至少滿足一個特定條件時才執行。
依照此實施方式,可以區別系統的在傳輸循環速率的基礎上工作的實時處理部分,和異步部分。實時處理部分執行接收和分析帶限音頻信號以及生成高頻段和/或低頻段音頻信號。在控制裝置控制映射裝置以非傳輸循環速率而是較低的稱為「事件速率」的速率來獲得至少一個寬帶參數的情況下,控制裝置可以異步地進行操作。因此,處理器負載可以被顯著地減少。
此外,不需要在任何情況下都獲得寬帶參數,而是僅僅在,例如,對音頻信號有重大修改時,並且由此,高頻段和/或低頻段音頻信號的生成必須被修改。
控制裝置可以控制音頻信號生成裝置使其適合生成高頻段和/或低頻段音頻信號所需要的參數的額定值,具體地有,頻率、相位和振幅,並且其中該額定值以事件速率基於至少一個寬帶參數來進行修改。
儘管依照本發明在循環速率的基礎上執行音頻或語音信號的生成,即,音頻或語音信號生成裝置用例如頻率和振幅的實際值進行實時操作,但以比傳輸循環速率低的速率來修改音頻信號生成裝置所必需適合的額定值可能會更有利。
依照本發明,非常希望音頻信號生成裝置被控制以適合對於每次傳輸循環具有有限的最大增量的額定值,其中具體地,該最大增量是基於語音生成的時間變化性的。
信號生成裝置,具體地,正弦生成器連續地進行操作,但有利的是其不會立即適應以前分析獲得的額定值,而有一個預先確定的適應速度,例如,由揚聲器發音的時間變化性給定該速度。結果,短時錯誤的分析數據不會對合成語音信號造成嚴重影響並且避免了相位的中斷。
根據本發明的一個實施方式,控制裝置包括第一控制單元和第二控制單元。第一控制單元被配置成在如果滿足至少一個特定條件時生成至少一個事件信號,並且只有在事件信號被生成時控制映射裝置獲得至少一個寬帶參數。第二控制單元被配置成接收至少一個事件信號和至少一個寬帶參數,並且只有在接收到一個事件信號時,修改生成高頻段和/或低頻段音頻信號所需的參數的額定值。
第一控制單元和第二控制單元可以從邏輯上和/或物理上被彼此區分開來。第二控制單元可以在循環速率的基礎上控制音頻信號生成裝置,但其僅僅在事件信號的基礎上,即,以低於循環速率的速率(事件速率),並且只在第一控制單元已經生成事件信號時,才修改音頻生成裝置的額定值。
至少一種特定條件可以由以下事件給出,即,至少一個帶限參數的值超過預定限制,或者事件速率的兩個連續脈衝的至少一個帶限參數的值之間的差異超過預定限制,或者超出循環速率的預定數目。除了對向量數量的幾何距離測度之外,也可以應用例如,歐幾裡得距離、心理聲學的距離(psychoacoustic distance)測度。
此外,分析裝置和/或控制裝置可以生成為控制音頻信號生成裝置使用的可靠性代碼數字。如果分析裝置為不同的分析結果提供可靠性代碼數字,則控制裝置能夠獲得在為生成高頻段/低頻段音頻信號所使用的參數基礎上的組合的置信信息。
另外,控制裝置能夠生成其自身的可靠性代碼數字。如果,例如,對於被估計音調的高可靠性由不同分析裝置示出,則控制單元可以決定來控制信號生成裝置以生成音頻信號而不做任何或者僅僅做很少的進一步平滑。重新計算寬帶參數的不同影響也可以根據各自的可靠性數字來進行加權。
此外,可能會希望對可靠性代碼數字的預定限制。如果分析過程的結果的實際可靠性代碼數字比預定限制更低(如果較小的數字表示較低的置信水平),則不執行寬帶參數的自適應,並且由此,不執行對被計算用來控制信號處理裝置的額定值的修改。
依照本發明系統的一個有利的實施方式,映射裝置包括代碼本和/或人工神經網絡,其提供至少一個帶限參數和至少一個寬帶參數之間的相關性。
有利的是,可以使用一對代碼本。這對的第一代碼本必須利用頻譜包絡的帶限樣本向量進行訓練,而第二代碼本必須利用寬帶向量來訓練。該訓練可以基於向量量化的方法。對於實際分析的語音信號,確定帶限代碼本的例如包括了LPC係數的最接近元素。對寬帶代碼本的相關向量的映射允許確定,例如,將被用於估計寬帶頻譜包絡的參數。
可選地,或者除了代碼本之外,其它用於將分析的帶限語音信號的最接近樣本非線性映射成寬帶語音信號的裝置可以包括人工神經網絡。
在非線性映射之前,一些已獲得寬帶參數的變換,例如,LPC係數,可以被執行。變換到線譜頻率或變換成對數倒頻譜係數代表有益的實現。
本發明的系統的音頻信號生成裝置可以包括正弦生成器或包括正弦生成器和噪聲生成器。
同時,本發明提供了包括如上所述的本發明的系統的免提系統,特別是車輛中使用的免提系統。
而且,本發明涉及從帶限音頻信號生成寬帶音頻信號的方法,包括的步驟有以傳輸循環速率接收和分析帶限音頻信號,和以傳輸循環速率獲得至少一個帶限參數,將至少一個寬帶參數分配給至少一個帶限參數,在至少一個寬帶參數的基礎上以傳輸循環速率生成高頻段和/或低頻段音頻信號,以及以傳輸循環速率將帶限音頻信號和音頻信號生成裝置生成的高頻段和/或低頻段音頻信號合併成寬帶音頻信號。
依照本發明方法的一個實施方式,通過利用代碼本和/或人工網絡將至少一個寬帶參數分配給至少一個帶限參數。
將至少一個寬帶參數分配給至少一個帶限參數是以比傳輸循環速率更低的事件速率執行的,並且只有在至少一個特定條件被滿足時才執行。
依照本發明方法的一個有利的實施方式,參數,特別是,頻率和振幅的額定值被用於生成高頻段和/或低頻段音頻信號,並且這些額定值以事件速率基於至少一個寬帶參數來修改。音頻信號生成裝置也適合於對每次傳輸循環具有有限最大增量的額定值。
如果滿足至少一個特定條件,至少一個事件信號可以被生成,並且如果事件信號被生成,至少一個寬帶參數可以被分配給至少一個帶限參數並且生成高頻段和/或低頻段音頻信號所需參數的額定值才可以被修改。
如果至少一個帶限參數的值超過了預定限制,或者如果事件速率的兩個連續脈衝的至少一個帶限參數的值之間差異,例如,當前分析值和對最後事件確定的值之間的差異超過了預定限制,或者如果循環速率的預定數目被超過,則本發明方法中應用的至少一個特定條件可以被滿足。
本發明方法的一個實施方式進一步包括為獲得至少一個帶限參數和/或至少一個帶限參數中一個以上的組合和/或至少一個寬帶參數和/或至少一個寬帶參數中一個以上的組合計算可靠性代碼數字,並且其中該可靠性代碼數字被用於控制音頻信號生成裝置。
高頻段和/或低頻段音頻信號可以由正弦生成器或由正弦生成器和噪聲生成器以循環速率生成。
此外,本發明提供電腦程式產品,包括一個或多個具有計算機可執行指令的計算機可讀介質,該指令用於執行本發明方法的步驟,其中本發明的方法通過以基於脈衝方式工作的合成語音信號生成器進行的帶寬擴展對帶限語音通信進行語音處理。
參考附圖,將描述本發明的附加特徵和優點。在描述中,將參考用於說明本發明的優選實施方式的附圖。要理解的是這些實施方式並不表示本發明的全部範圍,本發明的範圍由以下給出的權利要求定義。
圖1示出了本發明系統的一個實施方式的最主要的結構,包括信號預處理裝置、兩個控制單元、非線性映射裝置、信號生成裝置和寬帶合成裝置。
圖2示出了本發明系統的實施方式,包括用於從帶限信號提取頻譜包絡的裝置、用於執行音調和功率分析的裝置、兩個控制單元、一對代碼本、正弦和噪聲生成器、和寬帶合成裝置。
圖3示出了本發明方法的流程圖,包括的步驟有,具體地,確定帶限頻譜包絡、生成事件信號、估計寬帶頻譜包絡和生成高頻段和/或低頻段語音信號。
具體實施例方式
圖1示出了本發明系統的基本元素,該系統用於對帶限音頻,特別是,語音信號進行帶寬擴展,由此改善了,例如,帶限語音通信。以下描述了用於在語音通信系統中應用的本發明的實施方式。對於更普通的音頻信號處理的修改可以以直觀的方式來執行。
帶限語音信號被預處理裝置11進行預處理。這種裝置可以簡單地將被檢測帶限語音信號發送給信號分析裝置12和寬帶語音合成裝置或組合裝置17。
可選地,有益的是通過增加採樣速率,而無需生成附加頻率範圍,將預處理帶限語音信號轉換成期望的帶寬。如果,例如,帶限信號以8kHz採樣,其可能被輸入到用於預處理的插值裝置中,該裝置輸出16kHz採樣頻率的信號。如果採樣速率被提高,則更優選的是進一步利用帶通濾波器,該濾波器使所接收帶限信號的頻率範圍的傳輸僅到達寬帶語音合成或組合裝置17。
信號分析裝置12在傳輸循環速率的基礎上工作並且優選地包括用於從經預處理的語音信號中提取帶限頻譜包絡的裝置。為了計算預測的誤差濾波器,優選地是採用線性預測編碼(LPC)的魯棒方法。預測誤差濾波器的係數可以被用於對帶限頻譜包絡進行參數確定。
可選地,可以利用基於線譜頻率或對數倒頻譜係數或梅爾頻率倒頻譜係數(Melffequency cepstral coefficient)的頻譜包絡表示的模型。
如本領域所公知,對於預測誤差的最優化問題可以由結合自相關矩陣的線性等式系統來用公式表示。解答這種代數等式系統的有效算法是Levinson-Durbin算法,其可以被應用到依照本發明的實施方式中。通過使用Levinson-Durbin算法執行LPC分析的處理器負載比標準FFT的負載要低,但仍舊相當高。
然而,為了減小處理器的負載,優選的是改為利用迭代算法,該算法可以,例如基於最小均方的方法。如果利用傅立葉變換的時間信號X(f)來執行信號處理,則頻譜包絡可以在具有M個採樣的第m個信號的時間延遲為k·t的頻率(f)空間中的全極點傳輸函數W(f)的基礎上來建模W(f)=(1-K=1Makexp(-2ifkt))-1,X(f)=W(f)E(f)]]>並且其中ak和E(f)分別表示預測係數和誤差信號。相關的模型為已知的自回歸模型,其可以被應用到本發明中作為計算帶限頻譜包絡的非常有效的遞歸方法。
信號分析裝置12也包括用於估計寬帶激勵信號的裝置,其可以如本領域已知的那樣通過非線性特徵線來完成。這種寬帶激勵信號表示將直接在聲帶處檢測到的,即,不經整個發音腔道修改的信號,並且通常被稱為聲門(glottal)信號。為了獲得合成的寬帶信號,被估計的寬帶激勵信號可以隨後被估計的寬帶頻譜包絡(見下文)成形。
可以結合的附加信號分析裝置是用於確定實際SNR、激勵信號的短時功率、共振峰、音調、高頻段通帶對低頻段通帶的功率比或基於被檢測的口頭話語的語音部分和非語音部分來分類的裝置。
語音分析裝置組件的每一個也可以輸出可靠性代碼數字。通常,這些是標量數字,例如,在0到1的範圍內,其測量被估計的參數,例如,音調的置信水平。
信號分析裝置12獲得的結果和可靠性代碼數字被第一控制單元13接收到。基於接收到的數據,第一控制單元13生成事件信號。事件信號經常在一些預定的條件被滿足時生成。合理的條件包括超過了諸如歐幾裡得距離這樣的完善定義的距離測度,或者是超過了在事件信號最後生成時獲得的那些參數(見下文)和由信號分析裝置12實際獲得參數之間的簡單差異。
有利的是,第一控制單元13並不在傳輸循環速率的基礎上工作,但僅僅在低於傳輸循環速率的可變速率上活動。另一方面,為了避免控制的某些停頓,可能希望加強事件信號在每nH>1循環周期的生成。
可能會希望在語音分析裝置12的所有組件的結果已經被獲得之後計算新的可靠性代碼數字。由於控制單元13接收到了所有這些數據,所以它可以提供對分析數據的置信水平的合併估計。此外,由信號分析裝置12的不同組件獲得的各個可靠性代碼數字可以被控制單元13使用以便獲得新的可靠性代碼數字。
第一控制單元13也可能能夠生成至少一個指示實際分析數據需要對寬帶語音合成進行修改的事件信號。如果事件信號由第一控制單元13生成,例如,指示了帶限頻譜包絡的時間改變,則對應於被改變的帶限參數的寬帶參數的新的估計,例如,寬帶LPC係數,是必不可少的。
可能優選的是,基於計算的帶限參數的寬帶參數的估計由一些非線性映射裝置14來執行。依照一個實施方式,代碼本對被用於將包含在一代碼本中的寬帶參數分配給包含在另一代碼本中的帶限參數。通常來說,帶限語音信號被分析並且帶限代碼本中的最接近的表示被識別出來。然後對應的寬帶信號表示被確定並被用於合成寬帶語音信號。
原則上,可能優選的是合成整個寬帶信號或者,可選地,將在帶限信號的帶寬以外的合成語音信號部分,即,高頻段和低頻段語音信號,添加到經檢測和分析的帶限信號上。
人工神經網絡可以被用於補充或者替代作為非線性映射裝置14的代碼本。這種網絡的加權可以在使用以前被離線地進行訓練,但某些與各個可靠性代碼數字有關的在線訓練也被設想。
儘管人工智慧網絡和代碼本需要根據實際應用和實施進行訓練,但使用無需任何訓練的,如Yasukawa方法的方法也可能是足夠的,其中該Yasukawa方法基於對帶限頻譜包絡到上頻段的頻譜斜率的線性外推。
獲得的寬帶參數以及事件信號被第二控制單元15接收到,其被提供以便通過為語音信號合成確定新的額定值來控制信號生成裝置16。第二控制單元15可以從邏輯上和/或物理上與第一控制單元13分離。
如果,例如,信號分析裝置12已經估計了新的音調,並且由此事件信號已經由第一控制單元13生成,則將被分析的語音信號的新的寬帶擴展提供給第二控制單元,並且隨後第二控制單元15調整信號生成裝置16的額定值。
此外,可能希望第二控制單元15為信號生成裝置16提供關於被估計的寬帶參數的置信水平的信息和/或關於對信號合成修正速度的限制以避免在例如生成的正弦音調中的不連續性的信息。
例如,可以定義參數Δi,max,並將該參數用於控制第i個正弦生成器以在最大值為Δi,max下改變每個循環速率下頻率的實際值。此外,定義的Δi,min<Δi,max,並且為頻率改變使用置信代碼數字0≤ci≤1(較小的數字表示較低的置信水平),關於第i個正弦生成器的頻率改變的修正的最大速度可以由Δi,min=Δi,min+ci(Δi,max-Δi,min)來度量。
很重要的是要注意到,儘管信號生成裝置16由第二控制單元15提供可以基於事件信號變化的控制信號,但信號生成裝置16以傳輸循環速率工作。
信號生成裝置16以受限的適應速度,例如,基於自然語音的物理生成,來適應先前分析所獲得的額定值。
圖2說明了本發明系統的一個優選實施方式。畫在虛線以下的裝置基於傳輸循環速率工作,而畫在虛線以上的裝置基於事件信號工作。
帶限語音信號xlim被檢測到並且隨後由信號分析裝置接收,其中信號分析裝置包括被配置來提取帶限頻譜包絡的組件20、用來分析音調的組件21和用來確定帶限激勵信號的功率的組件22。該信號分析裝置的組件20、21和22可以彼此交換數據。
對於正弦生成器26的控制參數優選地包括音調頻率參數。該參數可以由音調分析裝置獲得,例如,通過對頻譜對數執行逆FFT從而生成對數倒頻譜信號。口頭話語的音調表現為對數倒頻譜信號中的峰值,該峰值可以被本領域已知的峰值提取算法檢測到。從已生成的寬帶頻譜包絡中獲得對於正弦的振幅和對於噪聲生成器的頻率響應。
第一控制單元23接收到由分析裝置20、21和22獲得的數據,並決定寬帶語音信號的合成是否要被修改。可能有益的是通過第一控制單元23為不同參數生成的事件信號具有不同的速率。在任何情況下,生成事件信號的速率有益的是應該比傳輸循環速率低。
如果第一控制單元23由於,例如,與一組對數倒頻譜係數相比的對數倒頻譜係數的改變而生成事件信號,其中該組對數倒頻譜係數是在最後一次由於距離測度超過了某個預定限制而使對數倒頻事件信號被生成時確定的,則一對代碼本24可以用於估計生成經修改的寬帶語音信號所必須的寬帶參數。藉助於代碼本24,可以對用於給定的確定帶限頻譜包絡的寬帶頻譜包絡進行估計(見上文)。
基於從第一控制單元23和代碼本24接收到的數據,第二控制單元25控制正弦生成器26和噪聲生成器27以生成低頻段和高頻段(如與接收信號xLim的受限帶寬相比)的語音信號。這兩個生成器都在傳輸循環速率的基礎上工作。第二控制單元25不僅為生成器26和27確定新的額定值,並且還輸出可靠性代碼數字和對信號合成的修正速度的限制。
正弦生成器可以合成頻率範圍為30-300Hz的低頻段擴展和頻率在從3,4kHz到預定頻率範圍內的高頻段擴展,並且語音信號生成可以主要基於音調頻率及其整數倍。
寬帶合成裝置28以傳輸循環速率接收帶限信號xLim以及正弦生成器26和噪聲生成器27生成的信號,以合成最終的寬帶語音信號XWB。根據一個優選實施方式,這種裝置28可以包括用於合成地生成信號的帶阻濾波器並且只是把這些被濾波的信號添加到未被修改過的帶限信號xLim以獲得寬帶語音信號XWB。
圖3說明了本發明方法的基本步驟。在步驟31,帶限信號被檢測到並且隨後被進行分析。被實現的算法優選地以遞歸方式並在傳輸循環速率的基礎上工作。具體地,通過例如執行LPC分析,帶限頻譜包絡在步驟32確定。對於帶限頻譜包絡的參數描述的帶限參數和可靠性代碼數字被輸出到控制單元。
在步驟33該控制單元檢查事件信號的生成是否被執行(n≥nH)或者自從最後一次生成事件信號後逝去的時間段(n倍循環時間)是否超過循環時間的預定整數倍nL。在步驟33,如果n>nL,則進一步檢查,帶限參數,具體地,帶限頻譜包絡的參數是否已經發生了顯著改變。如果實際帶限參數,例如,用於建模頻譜包絡的LPC係數和在最後一次生成事件時確定的各自參數之間的(向量)差異超過了某個預定距離的測度,或者如果一個參數超過了預定閾值,則發生顯著的改變。
在步驟37,如果n<nL或者沒有已經確定的帶限參數的顯著改變,則低頻段和高頻段語音信號被以適應於額定控制參數的預定速度生成。在相反的情況下,在步驟34,新的事件信號被生成,並且,在步驟35估計對應帶限頻譜包絡的寬帶頻譜包絡。為了此目的可以使用一對代碼本。這一對中的第一代碼本已經利用頻譜包絡的帶限樣本向量來訓練,而第二代碼本已經利用寬帶向量來訓練。這種訓練可以基於向量量化的方法,例如,基於歐幾裡得的Linde-Buzo-Gray設計方案或其它任意碼字距離。
在步驟32已經確定了用於帶限頻譜包絡的帶限參數之後,該參數向量被分配給與這個參數向量距離最小的帶限代碼本的向量。作為距離測度,例如,Itakuro-Saito距離測度可以被使用。在步驟35帶限代碼本中確定的向量被映射成相應的寬帶代碼本的向量,其在過程中被用於合成寬帶語音信號。
除了別的以外,在使用事件信號的信息,特別是,寬帶參數必須被更新的信息,以及用於寬帶頻譜包絡的參數時,在步驟36,控制信號生成器,並在步驟37來生成在檢測步驟31中丟失的低頻段和高頻段語音部分和被分析的帶限語音信號。
正弦生成器通常被控制來適應振幅和頻率的額定值,而噪聲生成器通常被控制來適應頻譜包絡的功率。與步驟33-35不同,低頻段和高頻段語音信號的生成是基於循環速率來執行的。儘管信號生成器利用它們的實際值連續工作,但額定值基於事件信號,即,僅僅在每個nH>n>nL≥1倍的循環時間段才被修改。
所有以上討論的實施方式並不作為限制,但是用作說明本發明的特徵和優點的實例。將會理解到的是上述特徵的一部分或者全部也可以用不同方式來組合。儘管所述實施方式涉及語音信號處理,但在本發明的範圍內它們也能被修改來適合通常的音頻信號處理。
權利要求
1.用於對帶限音頻信號進行帶寬擴展的系統,包括分析裝置,被配置來以傳輸循環速率分析帶限音頻信號並以該傳輸循環速率獲得至少一個帶限參數,映射裝置,被配置來基於至少一個帶限參數獲得該至少一個寬帶參數,音頻信號生成裝置,被配置來基於該至少一個寬帶參數以所述傳輸循環速率生成高頻段和/或低頻段音頻信號。
2.如權利要求1所述的系統,其中所述帶限參數包括用於確定帶限頻譜包絡和/或音調和/或短時功率和/或高頻段通帶對低頻段通帶的功率比和/或信噪比的特徵參數,和所述寬帶參數包括寬帶頻譜包絡和/或用於確定寬帶頻譜包絡和/或寬帶激勵信號的特徵參數。
3.如權利要求1或2所述的系統,進一步包括組合裝置,被配置來接收所述帶限音頻信號和所述音頻信號生成裝置以所述傳輸循環速率生成的所述高頻段和/或低頻段的音頻信號,並以所述傳輸循環速率將所述帶限音頻信號和所述高頻段和/或低頻段音頻信號組合成寬帶音頻信號。
4.如前述權利要求的其中一個所述的系統,進一步包括控制裝置,其被配置來接收所述至少一個帶限參數,並且其中,該控制裝置控制所述映射裝置來以低於所述傳輸循環速率的事件速率,並且只在滿足至少一個特定條件時,獲得至少一個寬帶參數。
5.如前述權利要求的其中一個所述的系統,其中所述控制裝置控制所述音頻信號生成裝置來適應在生成高頻段和/或低頻段音頻信號時需要的參數,特別是頻率、相位和振幅的額定值,並且其中所述額定值以所述事件速率基於所述至少一個寬帶參數來修改。
6.如前述權利要求的其中一個所述的系統,其中所述音頻信號生成裝置被控制來適應於對每個傳輸循環具有有限最大增量的所述額定值,其中,特別是,所述最大增量是基於語音生成的時間變化性的。
7.如權利要求4-6的其中一個所述的系統,其中所述控制裝置包括第一和第二控制單元,並且其中如果滿足至少一個特定條件,所述第一控制單元被配置來生成至少一個事件信號,並且控制所述映射裝置僅在生成事件信號時獲得至少一個寬帶參數,所述第二控制單元被配置來接收所述至少一個事件信號和所述至少一個寬帶參數,並僅在接收至少一個事件信號時,修改生成高頻段和/或低頻段音頻信號所需的參數的額定值。
8.如權利要求4-7的其中一個所述的系統,其中所述至少一個特定條件被給定為所述至少一個帶限參數的值超過了預定限制,或所述事件速率的兩個連續脈衝的至少一個帶限參數的值之間的差異超過了預定限制,或者循環速率的預定數目被超過。
9.如前述權利要求的其中一個所述的系統,其中所述分析裝置和/或所述控制裝置生成可靠性代碼數字,其被用於控制所述音頻信號生成裝置。
10.如前述權利要求的其中一個所述的系統,其中所述映射裝置包括代碼本和/或人工神經網絡,其提供所述至少一個帶限參數和至少一個寬帶參數之間的相關性。
11.如前述權利要求的其中一個所述的系統,其中所述音頻信號生成裝置包括正弦生成器或包括正弦生成器和噪聲生成器。
12.一種用於從帶限音頻信號生成寬帶音頻信號的方法,包括以傳輸循環速率接收和分析帶限音頻信號並以所述傳輸循環速率獲得至少一個帶限參數,將至少一個寬帶參數分配到所述至少一個帶限參數,以所述傳輸循環速率在所述至少一個寬帶參數的基礎上生成高頻段和/或低頻段音頻信號,和以所述傳輸循環速率將所述帶限音頻信號和所述音頻信號生成裝置生成的所述高頻段和/或低頻段音頻信號組合成寬帶音頻信號。
13.如權利要求12所述的方法,其中所述帶限參數包括用於確定帶限頻譜包絡和/或音調和/或短時功率和/或高頻段通帶對低頻段通帶的功率比和/或信噪比的特徵參數,和所述寬帶參數包括寬帶頻譜包絡和/或用於確定寬帶頻譜包絡和/或寬帶激勵信號的特徵參數。
14.如權利要求12或13所述的方法,其中通過利用代碼本和/或人工網絡,所述至少一個寬帶參數被分配到所述至少一個帶限參數。
15.如權利要求12一14的其中一個所述的系統,其中將所述至少一個寬帶參數分配到所述至少一個帶限參數是以低於所述傳輸循環速率的事件速率來執行的,並且僅在至少一個特定條件被滿足時才執行。
16.如權利要求15所述的方法,其中參數,特別是頻率、相位和振幅的額定值被用於生成高頻段和/或低頻段音頻信號,並且其中這些額定值以所述事件速率基於所述至少一個寬帶參數來修改。
17.如權利要求16所述的方法,其中所述音頻信號生成裝置適應所述額定值,該額定值對於每次傳輸循環具有有限的最大增量,其中,特別是,所述最大增量是基於語音生成的時間變動性的。
18.如權利要求16或17所述的方法,其中如果滿足至少一個特定條件,則產生至少一個事件信號,和所述至少一個寬帶參數被分配給所述至少一個帶限參數,並且如果事件信號被生成,才修改生成高頻段和/或低頻段音頻信號所需的參數的額定值。
19.如權利要求15-18的其中一個所述的方法,其中如果所述事件速率的兩個連續脈衝的至少一個帶限參數的值之間的差異超過了預定限制,或者如果超過循環速率的預定數目,則滿足了所述至少一個特定條件。
20.如權利要求12-19的其中一個所述的方法,進一步包括為已獲得的至少一個帶限參數和/或至少一個帶限參數中的一個以上的組合和/或至少一個寬帶參數和/或至少一個寬帶參數中的一個以上的組合計算可靠性代碼數字,並且其中所述可靠性代碼數字被用於控制所述音頻信號生成裝置。
21.如權利要求12-20的其中一個所述的方法,其中所述高頻段和/或低頻段音頻信號由正弦生成器或正弦生成器與噪聲生成器以所述循環速率生成。
22.電腦程式產品,包括一個或多個計算機可讀介質,該介質具有用於執行依照權利要求12-21其中一個的方法的步驟的計算機可執行指令。
全文摘要
本發明公開了用於對帶限音頻信號進行帶寬擴展的系統和方法。本發明的系統包括分析裝置,其被配置來以傳輸循環速率分析帶限音頻信號並以傳輸循環速率獲得至少一個帶限參數,映射裝置,其被配置來獲得基於至少一個帶限參數的至少一個寬帶參數,音頻信號生成裝置,其被配置來以傳輸循環速率生成高頻段和/或低頻段音頻信號。
文檔編號G10L21/038GK1750124SQ20051010334
公開日2006年3月22日 申請日期2005年9月16日 優先權日2004年9月17日
發明者B·伊澤爾, G·U·施密特 申請人:哈曼貝克自動系統股份有限公司