音源的參數聯合編碼的製作方法
2023-06-20 01:04:41 1
專利名稱:音源的參數聯合編碼的製作方法
技術領域:
本發明一般地涉及信號處理,並且具體涉及音頻信號的編解碼。
背景技術:
1.介紹在一般的編碼問題中,我們有許多(單)音源信號Si (n) (1 ^ i ^ Μ)和景物描述 矢量S (η),其中η是時間指數。景物描述矢量包含諸如(虛擬)音源位置、音源寬度和聲音 參數例如(虛擬)室參數這些參數。景物描述可以是非時間變量或者隨著時間而改變。將 音源信號和景物描述編碼並傳輸到解碼器。所編碼的音源信號連續混合成景物描述 的函數§ (η),從而生成作為景物描述矢量的函數的波場合成、多通道或立體聲信號。將解碼 器輸出信號表示成^i(H) i <Ν)。注意,景物描述矢量S(n)可以不傳輸,但是可以在 解碼器確定。在本文中,術語「立體聲信號」通常是指二通道立體聲信號。IS0/IEC MPEG-4意指所描述的編碼場景。它定義景物描述並使用單獨的單音頻編 碼器(例如AAC音頻編碼器)用於每個(「天然」)音源信號。然而,當帶有許多音源的復 合景物進行混合時,比特率就變高了,即比特率隨音源的數目按比例增大。高質量地編碼一 個音源信號需要約60-901A/S。以前,我們用表示靈活演奏的雙聲道線索編碼(BCC)的方案致力於解決所描述 的編碼問題[1][2]的特殊情形。通過僅僅傳輸給定音源信號與低比特率輔助信息(side information)相加的和,而獲得低比特率。然而,音源信號在解碼器不能恢復,並且該方案 局限於立體聲和多通道環繞信號的生成。而且,根據振幅和延遲相移,只使用過分簡單化的 混合。由此,音源的方向得到控制,但是沒有其它聽覺空間圖像產生。這種方案的另一個局 限性是,其聲音質量不高。特別是,聲音質量隨著音源信號數目的增大下降得更嚴重。文件[1](雙聲道線索編碼,參數立體聲,MPEG環繞)涉及了對N個音頻通道進行 編碼、解碼具有類似線索的N個音頻通道、隨即解碼原始音頻通道的情況。所傳輸的輔助信 息包括與輸入通道間差異相關的通道間線索參數。立體聲和多通道音頻信號的信道包含音源信號的混合,並由此在本質上不同於純 音源信號。使立體聲和多通道音頻信號進行混合,由此當在合適的重放系統上進行重放時 聽者就將感覺到聽覺空間圖像(「聲基寬」),這正如由錄音裝備所捕獲或者由錄影師在混 合過程中所設計的。以前提出了許多對立體聲或多通道音頻信號的信道進行聯合編碼的方案。
發明內容
本發明的目的是,提供一種在利用最小帶寬的同時傳輸多個音源信號的方法。在大多數公知方法中,重放形式(例如立體聲5. 1)是預定的,並且對編碼場景有直接影響。解 碼器那一側上的音頻流應該僅採用這種預定的重放形式,因此將使用者與預定的重放場景 (例如立體聲)結合起來。本發明對N個音源信號進行編碼,這些音源信號典型地並非立體聲或多通道信號 的通道,而是例如不同語音或樂器信號等的獨立信號。所傳輸的輔助信息包括與輸入的音 源信號相關的統計信息。本發明利用與原始音源信號不同的線索對M個音頻通道進行解碼。這些不同的線 索或者通過對所接收的和信號應用混合器而被隱含地合成。所述混合器作為所接收的統計 音源信息和所接收的(或本地確定的)音頻格式參數和混合參數的函數而被控制。可替換 地,這些不同的線索作為所接收的統計音源信息和所接收的(或本地確定的)音頻格式參 數和混合參數的函數被明確地計算。這些計算得到的線索被用來控制現有技術中用於在已 知所接收和信號的情況下合成輸出和通道的解碼器(雙聲道線索編碼,參數立體聲,MPEG 環繞)。所提出的這種聯合編碼音源信號方案居於首位。這種方案是用於聯合編碼音源信 號的。音源信號通常是不適合在立體聲或多通道音頻系統上重放的單音頻信號。為簡便起 見,以下,音源信號經常是指源信號。音源信號在重放之前首先需要混合成立體聲、多通道或波場合成音頻信號。音源 信號可以是單個儀器或講話者,或者是許多儀器和講話者之和。另一種音源信號是用點式 傳聲器在會議期間捕獲的單音頻信號。音源信號經常儲存在多磁軌錄音機或硬碟記錄系統 中。所要求保護的這種聯合編碼音源信號的方案,是基於僅僅傳輸音源信號之和,
Ms(n) = J] sin)(1)
/=1或者是音源信號的加權和。任選地,加權和可以用不同子帶的不同加權來完成,並 且加權可以按時改變。也可以應用均衡的總和,如[1]中的第3. 3. 2章所描述的。下面,當 我們稱和或和信號時,我們總是指由(1)產生的或者如所描述的那樣產生的信號。除了和 信號之外,還傳輸輔助信息。上述和與輔助信息一起代表所輸出的音頻流。任選地,利用常 規單音頻編碼器來編碼和信號。此音頻流可儲存在文件(CD、DVD、硬碟)中或者向接收器 重放。輔助信息代表音源信號的統計特性,這些性質是確定混合器輸出信號的感知空間線 索的最重要因素。將要表明,這些特性正在暫時展開頻譜包絡和自相關功能。每個音源信 號傳輸約31A/S的輔助信息。在接收器,音源信號(1(/7) (l^i^M))用前面提到的近似 於原始音源信號及和信號的相應特性的統計特性來恢復。
藉助於附圖將更好地理解本發明,其中圖1示出單獨傳輸每個音源信號以便進一步處理的方案,圖2示出作為和信號加輔助信息來傳輸的許多音源,圖3是雙聲道線索編碼(BCC)方案的方框圖,圖4示出基於幾個音源信號產生立體聲信號的混合器,
圖5示出ICTD、ICLD和ICC與音源信號子帶功率之間的依存關係,圖6示出輔助信息生成的過程,圖7示出評算每個音源信號的LPC參數的過程,圖8示出由和信號重建音源信號的過程,圖9示出由和信號產生每個信號的替換型方案,圖10示出基於和信號生成立體聲信號的混合器,圖11示出防止音源級取決於混合參數的幅值相移算法,圖12示出波場合成重放系統的揚聲器陣列,圖13示出如何通過處理傳輸通道的下混合而在接收器恢復音源信號的估算,圖14示出如何通過處理傳輸通道而在接收器恢復音源信號的估算。
具體實施例方式II.定義、標記和變量本文採用以下標記和變量η時間指數;i音頻通道或音源指數;d延遲指數;M編碼器輸入音源信號的數目;N解碼器輸出通道的數目;Xi(Ii)混合的原始音源信號;f ,·( )混合的解碼器輸出信號;
Si (η)編碼器輸入音源信號;Si(W)也稱作偽音源信號的傳輸音源信號;s (η)傳輸的和信號;Yi (n) L-通道音頻信號;(待重新混合的音頻信號);? i(k)Si(n)的一個子帶信號(對於其它信號採用相同的定義);E {S,2 (η)}巧2( )的短時估算(對於其它信號採用相同的定義);ICLD信道間的級差;ICTD信道間的時間差;ICC信道間的相干性;Δ L (η)估算的子帶的ICLD ;τ (η)估算的子帶的ICTD ;c (η)估算的子帶的ICC;ρ丨(《)相對音源子帶功率;ai,bi混合器比例因子;Ci, Cli混合器延遲;ALi, τ (η)混合器級和時間差;Gi混合器音源增益;
III.音源信號的聯合編碼首先,描述雙聲道線索編碼(BCC)即參數多通道音頻編碼技術。然後表明,利用與 BCC相同的原理,能夠為編碼場景設計出用於聯合編碼音源信號的算法。A.雙聲道線索編碼(BCC)用於多通道音頻編碼的BCC方案[1][2]在下圖中示出。輸入的多通道音頻信號 下混合成單個信道。與編碼和傳輸有關所有信道波形的信息相反,僅僅對下混合信號進行 編碼(利用常規單音頻編碼器)和傳輸。此外,估算原始通道之間的由感知推動的「音頻通 道差」,並且還將其傳輸到解碼器。解碼器產生輸出音頻通道,從而該音頻通道差近似於原 始音頻信號的相應音頻通道差。本地求和意味著,揚聲器信號信道對的感知相關音頻通道差是信道間的時間差 (ICTD)和信道間的級差(ICLD)。ICTD和ICLD可與聽覺事件感知的方向有關。其它聽覺 空間圖像屬性諸如表觀音源寬度和聽者環境,與聽覺間的相干性(IC)有關。對於聽者前面 或背後的揚聲器對,聽覺間的相干性經常與通道間的相干性(ICC)直接有關,ICC由此被認 為是用BCC測定的第三音頻通道差。將ICTD、ICLD和ICC作為時間的函數在子帶中進行估 算。所用的頻譜解析和時間解析都是由感知激發的。B.音源的參數聯合編碼BCC解碼器通過採集單信號並且在正規時間間隔合成每個子帶和通道對的單個特 殊ICTD、ICLD和ICC線索,能夠用任何聽覺空間圖像產生多通道音頻信號。大範圍音頻材 料[參見1]的BCC方案的良好性能意味著,所感知的聽覺空間圖像主要是由ICTD、ICLD和 ICC確定的。因此,與圖1中要求「乾淨」音源信號Si (η)作為混合器的輸入相反的是,對於 將真實音源信號提供給混合器的情形來說,我們只需要具有在混合器輸出導致類似ICTD、 ICLD和ICC的性質的偽音源信號§i( )。為了產生§丨(《)有三個目標 如果將§1( )提供給混合器,混合器輸出信道將具有近似相同的空間線索 (ICTD、ICLD和ICC),就仿佛是Si (η)提供給混合器。 所生成的Si(W)具有儘量少的有關原始音源信號s (η)的信息(因為該目標是具 有低比特輔助信息)。 由傳輸的和信號s (η)產生§i( ),從而引入最少量的信號失真。為了導出所提出的方案,我們考慮立體聲混合器(M =幻。比普通情形進一步簡化 的是,僅應用幅值和延遲相移進行混合。如果離散的音源信號在解碼器是可用的,那麼立體 聲信號如圖4所示進行混合,即
權利要求
1.一種合成多個音頻通道的裝置,該裝置被配置為從音頻流中檢索出代表M個音源信號之和的至少一個和信號, 從所述音頻流中檢索出有關一個或多個音源信號的統計信息,其中所述統計信息代表 所述音源信號的頻譜包絡,從所述音頻流中接收或者在本地確定描述輸出音頻格式的參數和混合參數, 從至少一個和信號以及所接收的統計信息中計算M個偽音源信號,偽音源信號的數量 M等於音源信號的數量M,以及通過根據所接收的或在本地確定的音頻格式參數和混合參數控制混合器,從所述偽音 源信號合成所述多個音頻通道。
2.一種合成多個音頻通道的裝置,該裝置被配置為從音頻流中檢索出代表音源信號之和的至少一個和信號,從音頻流中檢索出有關一個或多個音源信號的統計信息,其中所述統計信息代表所述 音源信號的頻譜包絡,從音頻流中接收或者在本地確定描述輸出音頻格式的參數和混合參數, 從所接收的統計信息、所述音頻格式參數和所述混合參數計算輸出信號線索,以及 基於所計算的線索,從所述和信號合成所述多個音頻通道。
3.如權利要求1或2所述的裝置,其中,所述統計信息代表根據所述音源信號的頻率和 時間的相對功率。
4.如權利要求1所述的裝置,其中,所述偽音源信號是在濾波器組的子帶域中計算得 到的。
5.如權利要求2所述的裝置,其中,所述音頻通道是在濾波器組的子帶域中合成的。
6.如權利要求4或5所述的裝置,其中,所述子帶的數量及帶寬是根據人耳聽覺系統的 頻譜和時間解析度來確定的。
7.如權利要求4所述的裝置,其中,子帶數包括在3和40之間。
8.如權利要求4所述的裝置,其中,子帶具有不同的帶寬,其中較低頻子帶的帶寬小於 較高頻子帶的帶寬。
9.如權利要求4所述的裝置,其中,使用基於短時傅立葉變換STFT的濾波器組,並且組 合頻譜係數以使每組頻譜係數形成一個子帶。
10.如權利要求1或2所述的裝置,其中,所述統計信息還包括自相關函數。
11.如權利要求1或2所述的裝置,其中,將頻譜包絡表示成線性預測編碼LPC參數。
12.如權利要求1所述的裝置,其中,所述和信號被分為多個子帶,並且所述統計信息 被用於針對每一偽音源信號確定每個子帶的功率。
13.如權利要求1所述的裝置,其中,計算所述和信號的線性預測誤差,隨後進行全極 點濾波,以便為每一偽音源信號施用通過所述統計信息確定的頻譜包絡。
14.如權利要求12或13所述的裝置,其中,利用比如全通濾波的去相關技術使輸出的 偽音源信號獨立。
15.如權利要求2所述的裝置,其中,所計算的線索是根據不同頻率和時刻的級差、時 間差或相干性。
16.如權利要求1所述的裝置,其中,所述混合器是補償音源級對混合參數的依存性的幅值相移算法。
17.如權利要求1所述的裝置,其中,所述混合器是波場合成混合器。
18.如權利要求1所述的裝置,其中,所述混合器是雙聲道混合器。
19.如權利要求1所述的裝置,其中,所述混合器是3D音頻混合器。
20.一種編碼多個音源信號的方法,包括對於所述多個音源信號,計算代表一個或多個音源信號的統計信息,以及 作為從所述多個音源信號獲得的音頻信號的元數據發送所計算的統計信息。
21.如權利要求20所述的方法,其中,所述統計信息包括關於所述多個音源信號的子 帶功率的信息、歸一化的子帶互相關函數或歸一化的子帶自相關函數。
22.一種用於編碼多個音源信號的裝置,其中所述裝置被配置為對於所述多個音源信號,計算代表一個或多個音源信號的統計信息,以及 作為從所述多個音源信號獲得的音頻信號的元數據發送所計算的統計信息。
全文摘要
涉及以下的編碼場景為了在將音源信號解碼之後混合波場合成、多通道環繞或立體聲信號而需要傳輸或儲存的許多音源信號。與對音源信號單獨進行編碼相比,所提出的技術在將音源信號聯合編碼時提供了顯著的編碼增益,甚至在音源信號之間沒有呈現冗餘的時候。通過考慮音源信號的統計特性、混合技術特性和空間聽力,這是可能的。傳輸音源信號之和,加上音源信號的統計特性,這些統計特性最能確定最終混合的通道的感知重要空間線索。音源信號在接收器得到恢復,以便它們的統計特色近似於原始音源信號的相應特性。主觀評估表明利用所提出的方案獲得了較高的聲音質量。
文檔編號H04S3/00GK102123341SQ20111006136
公開日2011年7月13日 申請日期2006年2月13日 優先權日2005年2月14日
發明者克裡斯多夫·法勒 申請人:弗勞恩霍夫應用研究促進協會