一種基於正交解相關技術的參數立體聲編碼、解碼方法
2023-05-05 05:36:56 2
一種基於正交解相關技術的參數立體聲編碼、解碼方法
【專利摘要】本發明公開了一種基於正交解相關技術的參數立體聲編碼、解碼方法。本編碼方法:1)將輸入的左聲道、右聲道時域信號分別變換到復頻域,得到兩復頻域信號L和R;2)對L和R輸出為一個下混信號M;3)利用L和R估算出邊信息,並對所述邊信息進行融合量化;所述邊信息包括聲道內互相關係數ICC、聲道間強度差IID和旋轉方位信息RD;4)對M時域反變換並編碼輸出;將邊信息壓縮編碼輸出。解碼方法:將輸入的時域下混信號變換到復頻域輸出信號M;對輸入的邊信息進行解碼;根據RD求解一與M幅值相等且正交的輸出信號D;根據ICC、IID計算旋轉矩陣H;利用H、M及D得到復頻域信號L和R變化到時域輸出。本發明大大提高了解碼速度。
【專利說明】—種基於正交解相關技術的參數立體聲編碼、解碼方法
【技術領域】
[0001]本發明屬於音頻壓縮領域,涉及一種參數立體聲編碼、解碼方法,尤其涉及一種基於正交解相關技術的參數立體聲編碼、解碼方法。
【背景技術】
[0002]多媒體技術興起於80年代末期,是近年來計算機領域中熱門的技術之一。數字音頻編解碼技術採用計算機的數字記錄和傳輸傳送方式,對各種媒體進行處理,具有廣泛的用途。但受限於網絡帶寬和存儲空間,如何在保證高質量聽感下將原始數據壓縮為儘量少的比特數成為研究熱點。
[0003]音頻文件之所以可以壓縮,是因為存在冗餘,傳統壓縮算法主要考慮消除聲道內冗餘,在不考慮聲道間冗餘時,由於多聲道音頻文件的碼率與聲道數是線性關係,聲道數的增加會導致碼率成倍增加。從1993年MP3開始,人們逐漸發現聲道間也是存在冗餘並且開始嘗試消除聲道間冗餘,逐步解決了在保持較高主觀聽感的條件下實現超低碼率的問題。現有的消除聲道間冗餘的方法主要有如下3種:
[0004]1>聯合立體聲是MPEG-1、MEPG-2/4AAC等音頻編解碼國際標準中的重要組成部分,包括和差變換編碼與強度立體聲兩種立體聲編解碼技術。
[0005](I)和差變換編碼
[0006]也被稱為MS編碼,是Middle-Side編碼的簡稱。編碼端將原始左右聲道信號轉換為和差信號,解碼端做相應逆變換。該方法利用聲道間相關性,將信號能量集中在和聲道上,以此去除聲道間冗餘。但該方法壓縮效率嚴重依賴信號本身特性,只有在原始左右聲道相關性很強的情況下才能得到較高的壓縮率。
[0007](2)強度立體聲
[0008]強度立體聲基本思想是通過將原始信號空間的坐標軸進行旋轉,得到主軸的強度信號和與之正交的殘差信號。在編碼端,丟棄與主軸正交的殘差信號而只對強度信號和坐標軸旋轉角度α進行量化編碼。在解碼端,根據角度α和強度信號,對坐標軸作逆旋轉,重構出左右聲道的立體聲信號。這樣重構得到的左右聲道信號只是幅度不同,而相位信息一致。但是通過乘以相應的幅度比例因子,可以較好地保存原信號能量一時間包絡。這樣的處理方式符合人耳聽覺系統對各聲道信號高頻成分的相位差異及其精細結構不敏感,而隨時間變化的能量包絡相對重要的感知特點,因此不會明顯降低重構立體聲信號的主觀質量。
[0009]2>雙耳線索編碼
[0010]2002 年 C.Faller 提出 了名為雙耳線索編碼(Binaural Cue Coding,BCC)的編解碼技術,其出發點和傳統立體聲編碼技術不同,是一種基於空間聽覺理論的參數編碼技術。立體聲或者多聲道輸入信號下混成單聲道信號,同時根據空間聽覺特性,對各個聲道在變換域進行分析,提取三種空間參數:聲道間強度差(Inter-channel IntensityDifference, IID)、聲道間時間差(Inter-channel Time Difference, ITD)及聲道間相關性(Inter-Channel Coherence, ICC)。在這裡IID及ITD與傳統的空間聽覺線索縮寫相同但含義不同,相應縮寫都是指聲道間參數而非聽覺線索。下混信號可以使用傳統的音頻編碼器來進行編碼,參數經過量化編碼後作為輔助部分嵌入到比特流中。在解碼端,解碼後的下混信號利用相應的空間參數來重構立體聲或多聲道音頻信號。
[0011]雙耳線索編碼最大的特點就是能夠提供極高的壓縮率和任意聲道形式的壓縮編碼,可看作是一種對強度立體聲的發展,但是其克服了強度立體聲編碼的缺陷,具有以下幾個明顯優點:強度立體聲編碼實際只利用IID進行重構,因此僅對高頻範圍有效,若將強度立體聲拓展到低頻則會引入嚴重的噪聲,而雙耳線索編碼利用IID及ITD進行重構,在全頻譜範圍內進行處理也不會產生嚴重噪聲;另外強度立體聲編碼不能重構具有寬度立體聲聲像的音頻信號,而雙耳線索編碼則可以利用ICC對其進行很好的重構。
[0012]3>參數立體聲
[0013]飛利浦公司的J.Breebaart等人於2004年提出了名為參數立體聲(ParametricStereo,PS)的編解碼技術。基本思路是在編碼端輸出一個單聲道信號和若干空間參數,在解碼端利用單聲道信號和空間參數重構雙聲道立體聲信號,是目前消除聲道間冗餘最優秀的方法之一。已經被 MPEG-4 及 3GPP (3rd Generation Partnership Project)米納為相應音頻編碼國際標準中的組成部分。
[0014]在參數立體聲的編碼端,將輸入的左右聲道信號分別經過混合正交鏡像分析濾波器組,各濾波器的輸出經過降採樣,獲得分帶後的復頻域信號。利用左右聲道各子帶的復頻域信號估算出相應的空間參數並量化輸出,同時將其加和生成單聲道下混信號,通過混合正交鏡像合成濾波器組再變換回時域信號。參數立體聲編碼的基本原理如圖1所示。
[0015]參數立體聲解碼也是通過混合正交鏡像分析濾波器組將時域信號轉換到復頻域來進行處理的,因此不再贅述混合正交鏡像濾波器組的相關內容。參數立體聲解碼是由下混信號結合相應的空間參數來合成環境聲(Synthetic Ambience),最終重構雙聲道立體聲信號的過程。參數立體聲解碼原理如圖2所示。
[0016]在參數立體聲解碼端,解相關模塊的作用是利用輸入的單聲道下混信號M生成相應的解相關輸出信號D。為了能精確恢復原信號,D應該和M正交,具體實現中,參數立體聲的採用頻帶不同而改變的小數化延遲(Fractional Delay)、全通濾波器(All-passFilter)模塊。由於全通濾波器不能對相位進行精確控制,因此會影響D和M的正交性,導致重構的信號存在較大的誤差。
【發明內容】
[0017]針對現有技術中存在的技術問題,本發明的目的在於提供一種精確解相關方法,基於此方法建立的參數立體聲編解碼方法,在解碼端更精確的恢復編碼端輸入的雙聲道信號。
[0018]本發明的技術方案為:
[0019]一種基於正交解相關技術的參數立體聲編碼方法,其步驟為:
[0020]I)將輸入的左聲道、右聲道時域信號分別變換到復頻域,得到兩復頻域信號L和R;
[0021]2)對兩復頻域信號L和R進行下混加和輸出為一個下混信號M ;[0022]3)利用復頻域信號L和R估算出邊信息,並對所述邊信息進行融合量化;所述邊信息包
[0023]括聲道內互相關係數ICC、聲道間強度差IID和旋轉方位信息RD ;
[0024]4)對下混信號M進行時域反變換,得到時域信號並編碼輸出;將所述邊信息壓縮編碼輸
[0025]出。
[0026]進一步的,利用公式
【權利要求】
1.一種基於正交解相關技術的參數立體聲編碼方法,其步驟為: 1)將輸入的左聲道、右聲道時域信號分別變換到復頻域,得到兩復頻域信號L和R; 2)對兩復頻域信號L和R進行下混加和輸出為一個下混信號M; 3)利用復頻域信號L和R估算出邊信息,並對所述邊信息進行融合量化;所述邊信息包括聲道內互相關係數ICC、聲道間強度差IID和旋轉方位信息RD ; 4)對下混信號M進行時域反變換,得到時域信號並編碼輸出;將所述邊信息壓縮編碼輸出。
2.如權利要求1所述的編碼方法,其特徵在於利用公式
3.如權利要求1所述的編碼方法,其特徵在於利用公式
4.如權利要求1所述的編碼方法,其特徵在於利用公式
5.如權利要求1~4任一所述的編碼方法,其特徵在於以左右聲道復頻域信號的能量和作為權重對所述邊信息RD,ICC、IID進行壓縮編碼。
6.如權利要求5所述的編碼方法,其特徵在於根據聽覺等效矩形帶寬對所述邊信息在頻域上進行融合;所述聲道內互相關係數ICC量化為3bit、聲道間強度差IID量化為5bit、旋轉方位信息RD量化為Ibit。
7.一種基於正交解相關技術的參數立體聲解碼方法,其步驟為: O將輸入的時域下混信號變換到復頻域,輸出一復頻域下混信號M ;對輸入的邊信息進行解碼,得到聲道內互相關係數ICC、聲道間強度差IID和旋轉方位信息RD ; 2)針對每一復頻域下混信號M,根據旋轉方位信息RD求解一與其幅值相等且正交的輸出信號D ; 3)根據聲道內互相關係數ICC、聲道間強度差IID、信號M與信號D計算恢復左聲道、右聲道的旋轉矩陣H ; 4)利用旋轉矩陣H、下混信號M及信號D得到復頻域信號L和R; 5)將復頻域信號L和R分別變化到時域,得到恢復後的左聲道信號和右聲道信號。
8.如權利要求7所述的解碼方法,其特徵在於求解所述信號D的方法為: 81)設復頻域下混信號M在複平面所對應的向量為? =a+bi; a與b分別為下混信號對應向量的實部和虛部;設預求解信號D對應的正交向量為_0 =:r+j^ ;其中,c與d分別向量3的實部和虛部;82)根據公式 x2+y2=a2+b2 和 ax+by=0,得到= 一A + a1、S2 =b — ai χ . 83 )根據公式
9.如權利要求8所述的解碼方法,其特徵在於求解所述旋轉矩陣H的方法為: .91)由向量^所在軸和向量5所在軸確定一坐標系;將左聲道樣點值到該坐標系原點的向量記為1、右聲道樣點值到該坐標系原點的向量記為η: . 92)根據聲道內互相關係數ICC確定兩個向量£和I的夾角2α ; .93)根據聲道間強度差IID確定向量L、R的模長比c; .94)由夾角α與模長比c確定I與:M的模長比C1和與W的模長比C2; .95)根據模長比C1和C2確定夾角的角平分線與向量
10.如權利要求9所述的解碼方法,其特徵在於利用公式
【文檔編號】G10L19/008GK103700372SQ201310745761
【公開日】2014年4月2日 申請日期:2013年12月30日 優先權日:2013年12月30日
【發明者】曲天書, 吳璽宏, 黃益超, 黃慶博 申請人:北京大學