瞬態音頻信號分量的編碼的製作方法
2023-06-17 20:50:06 4
專利名稱:瞬態音頻信號分量的編碼的製作方法
技術領域:
本發明涉及編碼以及解碼音頻信號。
現參見
圖1,在美國公開申請No.2001/0032087A1中描述了參數編碼方案,具體而言是正弦編碼器。在該編碼器(1)中,從信道10提供的輸入音頻信號x(t)被分成多個(重疊)段或幀,一般長20ms。通常每段由連續的編碼級11、13和14分解為瞬態(CT)、正弦(CS)和噪聲(CN)分量(還可能導出輸入音頻信號的其它分量,例如諧波合成,但是這些與本發明的目的不相關)。
編碼器第一級包括瞬態編碼器11,其包括瞬態檢測器(TD)110、瞬態分析器(TA)111以及瞬態合成器(TS)112。檢測器110估算是否存在瞬態信號分量及其位置。此信息被饋給瞬態分析器111。如果瞬態信號分量的位置被確定,則瞬態分析器111試圖提取瞬態信號分量(的主要部分)。它通過採用例如若干(少量)的正弦分量,將形狀函數匹配於最好在所估算的開始位置處開始的信號段,並確定形狀函數之下的內容。該信息被包含在瞬態碼CT中。
瞬態碼CT被提供給瞬態合成器112。所合成的瞬態信號分量在減法器16從輸入信號x(t)中減去,結果為信號x2。
信號x2被提供給正弦編碼器13,其中,在正弦分析器(SA)130中對其進行分析,而正弦分析器(SA)130確定了(確定性的)正弦分量。正弦編碼的最終結果是正弦編碼CS,而在PCT專利申請No.WO00/79519A1中,提供了說明常規生成示範性正弦編碼CS的更為詳細的示例。
正弦信號分量由正弦合成器(SS)131從用正弦編碼器生成的正弦碼CS中來重構。該信號在減法器17中從到正弦編碼器13的輸入信號x2中被減去,結果為剩餘的信號x3,而信號x3缺少(巨大的)瞬態信號分量和(主要的)確定性正弦分量。
假定剩餘的信號x3主要包括噪聲,並且噪聲分析器14產生表示該噪聲的噪聲編碼CN,例如在PCT專利申請No.WO01/89086A1中所描述的那樣。
在多路復用器15中,組成包括碼CT、CS和CN的音頻流AS。
在瞬態編碼器11中,如果發生在時間上被定位的事件,例如響板或踏鈸(high-hats)的衝擊(attack),則音頻信號的一部分被標記為瞬態。
在美國公開申請No.2001/0032087A1中,用專用瞬態窗口(即Meixner窗)窗口化的若干正弦曲線對瞬態建模。在圖2中,示出了音頻信號(實線)的估算Meixner窗口(虛線)。瞬態估算過程包括三個步驟-瞬態位置估算音頻信號中的瞬態位置由瞬態檢測器110確定;-瞬態包絡估算在Meixner瞬態情況下,描述瞬態時間包絡的Meixner窗由瞬態分析器111估算;-正弦內容估算利用估算的Meixner窗,分析器111估算若干正弦曲線來描述瞬態。正弦曲線由頻率和三個複數的、多項式幅度來表示。
在7個正弦曲線用於Meixner瞬態的實現中,瞬態模型所需的比特率範圍一般在0.5與2.0kbit/s之間,取決於音頻信號中檢測到的瞬態的數量。
通過利用如上所述的瞬態建模,就獲得了包含瞬態選段(excerpt)的良好音頻質量。然而,音頻質量可通過增加用於對瞬態建模的正弦曲線的數量來改善。在此情形下,瞬態的衝擊被更好地定義,並且獲得了瞬態的更多「真實感」。例如,可以發現,通過正弦曲線的數量從7增加到25,可以獲得好的結果。
參見圖3,分別示出了由7個正弦曲線(虛線)和25個正弦曲線(實線)建模的瞬態的頻譜。由25個正弦曲線建模的瞬態頻譜類似於原始瞬態頻譜,然而由7個正弦曲線建模的瞬態在頻譜中具有一些清晰的洞,儘管這7個正弦曲線模擬了頻譜中重要的峰值。
然而,利用25個正弦曲線,瞬態模型11所需要的比特率(從使用7個正弦曲線的2kbit/s)顯著增加到約6kbit/s。瞬態部分比特率的此增加必須被存儲在編碼器的正弦和/或噪聲建模元件13、14中,因此降低了總的音頻質量。
根據本發明,提供根據權利要求1的方法。
本發明通過將噪聲分量的參數包括在瞬態描述中,擴展了目前的瞬態模型。因此,代替僅僅使用正弦的是,正弦和噪聲都用於描述瞬態。
在優選實施例中,由正弦和噪聲建模的瞬態時間間隔可以不同。
瞬態噪聲分量的參數導致了比特率的較小增加,但卻提高了瞬態的感覺(perceptual)質量。
因此,本發明反而降低了由附加正弦曲線所需的比特率,同時保持了音頻質量。這是因為附加正弦曲線沒有對頻譜中的清晰峰值建模,正如原始正弦曲線那樣,相反,附加正弦曲線或多或少地填補了原始正弦曲線之間的間隙。在時域中,由附加正弦描述的信號是類噪聲,從而已經發現頻譜的這些部分用噪聲參數建模更加有效。
現在參見附圖通過示例,將描述本發明的實施例,其中圖1是音頻編碼器的框圖;圖2示出了用於響板選段(實線)的瞬態包絡(虛線)的示例;圖3分別示出了由7個正弦曲線(虛線)和25個正弦曲線(實線)建模的瞬態頻譜的示例。
圖4示出了根據本發明優選實施例的用噪聲擴展的瞬態頻譜的示例(虛線),其與由25個正弦曲線(實線)建模的瞬態頻譜相比;圖5示出了根據本發明優選實施例建模的瞬態分量;圖6是音頻解碼器的框圖;以及圖7是根據本發明優選實施例的瞬態合成器的詳圖。
根據本發明的優選實施例,替代地,通過定位的(localized)突發噪聲對上述附加(18)正弦曲線建模,而該突發噪聲具有與附加正弦相同的能量。突發噪聲被置於瞬態的開始,而且固定的時間窗口用於成形突發噪聲。只有突發噪聲的能量必須在已編碼的信號(AS)的瞬態編碼(CT)內傳輸,所以僅僅稍微增加了實現本實施例所需的比特率。圖4示出了瞬態的頻譜,其中突發噪聲已經被附加到由7個正弦曲線(虛線)建模的頻譜。可以發現,該頻譜可以與由25正弦曲線(實線)建模的頻譜進行比較。
更具體而言,在優選實施例的編碼器中,瞬態分析器111以常規方式使用眾多正弦曲線(例如25個)來估算Meixner瞬態並對瞬態建模。該信號用th來標註,並且(在44.1kHz採樣速率)具有長度U=720個採樣。最相關的正弦曲線(例如7個)被用於生成另一瞬態信號t1。對最相關的正弦曲線的選擇,例如可以利用基於能量的費用(cost)函數或任何其他的常規標準。在任何情況下,信號t1然後從信號th中減去,以便提供差值信號d=th-t1,用於生成突發噪聲。
突發噪聲被置於瞬態的開始,並且優選地,具有比該瞬態更短的長度L。在優選實施例中,(在44.1kHZ採樣速率)L=150採樣。差值信號根據下列函數來窗口化dw(n)=d(n)w0(n),for n=1,...,L,其中w0是窗,具有漸弱斜率,其被定義為w0(n)=1,forn=1,...,L/20.5(1+cos(2(n-L/2)/L)),forn=L/2+1,...L]]>漸弱是漢寧(Hanning)窗的第二部分。然而,可對於窗給出不同的定義。
窗口化的段dw的能量量度如下E=l/Ln=1ldw(n)2]]>並且,能量E連同包含信號t1的正弦曲線參數一起被量化,並作為瞬態碼CT的一部分被發送到解碼器。因此,涉及差值信號d的(附加)正弦曲線的信息被丟棄,並用突發噪聲參數替代。
信號th由合成器112進行合成,如同在常規編碼器中那樣,並且信號th從輸入信號x(t)中減去(16),以便生成剩下的信號x2,信號x2象以前一樣在正弦分析模塊13中被饋給。可替換地,瞬態碼CT在從輸入信號x(t)中被減去之前,可由合成器112合成,如同在解碼器(下面說明)中一樣,以便生成剩下的信號x2。
按照這種方式,可通過音頻編碼器的正弦曲線模塊13和噪聲模塊14,對瞬態部分更好地建模。
現在參見圖6,根據本發明的優選實施例的解碼器一般具有與美國公開申請No.2001/0032087A1的解碼器相同的形式。這裡,音頻流AS』,例如由根據圖1的編碼器生成的,從諸如數據總線、天線系統、存儲介質等之類的信道獲得。音頻流AS在解復用器30中被解復用,以獲得碼CT、CS和CN。這些碼被分別提供給瞬態合成器31、正弦合成器32和噪聲合成器33。
在本發明的優選實施例中,在瞬態合成器31中,包含原始正弦的信號t1的參數用於在圖7合成器TSS中重構正弦曲線。然後,根據Meixner函數的參數b、ξ,以常規方式窗口化(MDW)該信號。
同時,重構已編碼的能量值,結果是能量 。白噪聲發生器(WNG)提供長度為L的高通濾波器噪聲段。優選地,高通濾波器具有300Hz的截止頻率,以便避免通過噪聲進行超低頻率的建模。利用窗口w來窗口化(WDW)已濾波的噪聲信號,優選地,窗口w是長度L的漢寧窗。然而,其他窗也可以(例如,非對稱的漢寧窗)。
該窗口化噪聲信號用rw表示。此信號通過增益g1比例縮放,g1根據下列等式來計算gt=E^l/Ln=1Lrw(n)2]]>最終生成的能量突發,在加法器39中被添加上瞬態的合成正弦分量,因而完成了瞬態信號yT的合成,信號yT在被添加了信號y(t)的其他合成分量時,可以象以前一樣進行處理。
在圖5中,示出了已建模的瞬態的正弦和噪聲分量。上面的跡線示出了瞬態的時間信號。第二條跡線示出了已建模的瞬態正弦分量,而下面的跡線示出了置於在瞬態起始處的突發噪聲。應該看到,大多數瞬態被正弦分量描述,然而在瞬態的重要衝擊中,添加了噪聲分量。
返回參見圖6,正弦碼CS用於生成信號yS,如指定段上的正弦和所描述的。同時,噪聲碼CN被饋給噪聲合成器NS33,其主要是濾波器,具有近似於噪聲頻譜的頻率響應。NS33通過噪聲碼CN濾除白噪聲信號,生成重構的噪聲yN。
總信號y(t)包括瞬態信號yT和任意幅度分解(g)的生成物之和,以及正弦信號yS和噪聲信號yN之和。音頻播放器包含兩個加法器36和37,以便計算對應信號的和。總信號被提供給輸出單元35,例如揚聲器。
本發明可被用於音頻編碼器中,其中,瞬態通過窗口化正弦曲線來描述。
權利要求
1.一種編碼(1)音頻信號(x(t))的方法,包括步驟-估算(110)音頻信號的瞬態信號分量的位置;-用第一組多個正弦分量對所述瞬態信號分量的第一部分(t1)建模(111);-估算瞬態信號分量的第一部分(t1)和瞬態信號分量之間的差值(d);-用所述差值的能量量度(E)對所述差值建模(111);以及-將所述量度(E)包含在音頻流(AS)中。
2.如權利要求1所述的方法,其中,對所述第一部分建模的步驟包括-用第二組多個正弦分量(tb)對所述瞬態信號分量建模;以及-按照標準從所述第二組多個正弦分量中選擇所述第一組多個正弦分量。
3.如權利要求2所述的方法,其中,所述標準與正弦分量的能量有關。
4.如權利要求2所述的方法,其中,所述估算步驟還包括從用所述第二組多個正弦分量建模的瞬態中減去用所述第一組多個正弦分量建模的瞬態,以便提供所述差值(d)。
5.如權利要求4所述的方法,其中,所述估算步驟還包括在時域中窗口化所述差值,以使差值漸弱。
6.如權利要求5所述的方法,其中,所述窗口在時間上小於所述瞬態信號分量。
7.如權利要求5所述的方法,其中,對所述差值建模的所述步驟包括確定所述窗口化的差值(d(w))的能量。
8.一種解碼音頻流(AS)的方法,包括-讀取包括一個或多個瞬態碼(CT)的已編碼的音頻流(AS』),每個瞬態碼(CT)包括第一組多個正弦分量和能量量度(E);-用所述第一組多個正弦分量合成(TSS)瞬態信號分量的第一部分;-合成(WNG)所述瞬態信號分量時間周期的噪聲;-根據所述能量量度(E)修改(g)所述合成的噪聲;以及-將所述合成的第一部分和所述修改的噪聲相加,以生成音頻信號(y(t))的合成瞬態分量(yT)。
9.如權利要求8所述的方法,還包括高通濾波所述合成噪聲的步驟。
10.如權利要求8所述的方法,還包括窗口化(WDW)所述合成噪聲的步驟,以使所述噪聲在所述時間周期上漸弱。
11.如權利要求8所述的方法,其中,所述修改步驟包括通過所述能量量度比例縮放(g)所述合成的噪聲。
12.一種包括一個或多個瞬態碼(CT)的音頻流(AS),每個瞬態碼(CT)包括第一組多個正弦分量和能量量度(E),正弦分量代表音頻信號瞬態分量的第一部分(t1),能量量度(E)代表瞬態信號分量的第一部分(t1)和相應瞬態信號分量之間的差值(d)。
13.一種音頻編碼器(1),包括-分析器(110),用於估算音頻信號的瞬態信號分量的位置;-第一建模元件(111),用於用第一組多個正弦分量對所述瞬態信號分量的第一部分(t1)建模;-用於估算瞬態信號分量的第一部分(t1)和瞬態信號分量之間差值(d)的裝置;-第二建模元件(111),用於用所述差值的能量量度(E)對所述差值建模;以及-比特流發生器,被安排成將所述量度(E)包含在音頻流(AS)中。
14.一種音頻播放器(3),包括-用於讀取包括一個或多個瞬態碼(CT)的已編碼的音頻流(AS』)的裝置,每個瞬態碼(CT)包括第一組多個正弦分量和能量量度(E);-合成器(TSS),用於用所述第一組多個正弦分量合成瞬態信號分量的第一部分;-合成器(WNG),用於合成所述瞬態信號分量時間周期的噪聲;-用於根據所述能量量度(E)修改(g)所述合成的噪聲的裝置;以及-加法器,用於將所述合成的第一部分和所述修改的噪聲相加,以生成音頻信號(y(t))的合成瞬態分量(yT)。
15.一種包括根據權利要求13的音頻編碼器和根據權利要求14的音頻播放器的音頻系統。
全文摘要
公開了一種編碼(1)音頻信號(x(t))的方法。估算(110)音頻信號的瞬態信號分量的位置。用第一組多個正弦分量對所述瞬態信號分量的第一部分(ti)建模(111)。估算瞬態信號分量的第一部分(ti)和瞬態信號分量之間的差值(d)。用所述差值的能量量度(E)對所述差值建模;並將所述量度(E)包含在音頻流(AS)中。
文檔編號G10L19/093GK1849649SQ200480025823
公開日2006年10月18日 申請日期2004年8月26日 優先權日2003年9月9日
發明者A·J·格裡特斯, A·C·鄧布林克 申請人:皇家飛利浦電子股份有限公司