針對HOA數據幀表示的壓縮確定表示非差分增益值所需的最小整數比特數的方法與流程
2023-05-31 04:37:31 1

本發明涉及用於針對HOA數據幀表示的壓縮而確定表示與所述HOA數據幀中的特定數據幀的通道信號相關聯的非差分增益值所需的最小整數比特數的方法。
背景技術:
表示為HOA的高階高保真度立體聲響複製提供了表示三維聲音的一種可能性。其他技術是波場合成(WFS)或如22.2的基於通道的方法。與基於通道的方法相比,HOA表示提供了與特定揚聲器設置無關的優點。然而,這種靈活性是以在特定揚聲器設置上回放HOA表示所需要的解碼過程為代價的。與所需揚聲器的數量通常很大的WFS方法相比,HOA也可以被呈現為僅包括幾個揚聲器的設置。HOA的另一個優點是還可以採用相同的表示而不必對耳機的雙耳渲染進行任何修改。
HOA基於通過截斷的球面諧波函數(SH)展開來表示複合諧波平面波幅度的空間密度。每個展開係數是角頻率的函數,角頻率可以由時域函數等效地表示。因此,在不失一般性的情況下,完整的HOA聲場表示實際上可以被假設成由O個時域函數組成,其中,O表示展開係數的數量。這些時域函數在下文中將被等效地稱為HOA係數序列或HOA通道。
HOA表示的空間解析度隨著展開的最大階數N的增長而提高。遺憾的是,展開係數O的數量隨著階數N呈二次方增長,特別地,O=(N+1)2。例如,使用階數N=4的典型HOA表示需要O=25個HOA(展開)係數。假設期望的單聲道採樣率為fS並且每個採樣的比特數為Nb,則用於傳輸HOA表示的總比特率由O·fS·Nb確定。以採用每採樣Nb=16比特的fS=48kHz採樣率傳輸階數為N=4的HOA表示,導致19.2MBits/s的比特率,該比特率對於許多實際應用(例如流式傳輸)來說是非常高的。因此,對HOA表示進行壓縮是非常可取的。
先前,在EP 2665208 A1、EP 2743922 A1、EP 2800401 Al中提出了HOA聲場表示的壓縮,參見2014年1月的MPEG-H 3D音頻的ISO/IEC JTC1/SC29/WG11、N14264、WD1-HOA文本。這些方法的共同點在於:它們都執行聲場分析並且將給定的HOA表示分解成方向分量和殘餘環境分量。一方面,最終壓縮的表示被假設成由若干量化信號組成,這些量化信號由方向信號和基於向量的信號的感知編碼以及環境HOA分量的相關係數序列產生。另一方面,最終壓縮的表示包括與量化信號相關的附加邊信息,根據其壓縮版本重構HOA表示需要所述邊信息。
在被傳遞至感知編碼器之前,要求這些中間時域信號具有在[-1,1]的值範圍內的最大幅度,這是為實現當前可用的感知編碼器而產生的要求。為了當對HOA表示進行壓縮時滿足該要求,在感知編碼器之前使用平滑地衰減或放大輸入信號的增益控制處理單元(參見EP 2824661A1和上面提到的ISO/IEC JTC1/SC29/WG11N14264文獻)。所產生的信號修改被假設成是可逆的並且被逐幀地應用,其中特別地,連續幀之間的信號幅度的變化被假設成「2」的冪。為了便於該信號修改在HOA解壓縮器中的倒置,相應的歸一化邊信息包括在總邊信息中。該歸一化邊信息可以由底數為「2」的指數構成,這些指數描述了兩個連續幀之間的相對幅度變化。由於連續幀之間的較小幅度變化比較大幅度變化更有可能發生,因此根據上面提到的ISO/IEC JTCl/SC29/WG11N14264文獻利用遊程運行長度編碼(run length code)對這些指數進行編碼。
技術實現要素:
例如,在從開始至結束沒有任何時間跳躍地對單個文件解壓縮的情況下,在HOA解壓縮中使用差分編碼的幅度變化來重構原始信號幅度是可行的。然而,為了便於隨機訪問,獨立的訪問單元必須存在於編碼表示(其通常是比特流)中以使得能夠與來自在先幀的信息無關地從期望的位置(或至少在其附近)開始解壓縮。這種獨立的訪問單元必須包含由增益控制處理單元引起的從第一幀一直到當前幀的總絕對幅度變化(即,非差分增益值)。假設兩個連續幀之間的幅度變化是「2」的冪,則通過底數為「2」的指數來描述總絕對幅度變化就足夠了。為了對該指數進行高效編碼,在應用增益控制處理單元之前了解信號的可能的最大增益是必要的。然而,該知識高度依賴於對要壓縮的HOA表示的值範圍的約束規範。遺憾的是,MPEG-H 3D音頻文獻ISO/IEC JTC1/SC29/WG11N14264僅提供用於輸入HOA表示的格式的描述,而沒有對值範圍設定任何約束。
本發明要解決的問題是提供表示非差分增益值所需的最小整數比特數。該問題通過權利要求1中公開的方法來解決。在相應的從屬權利要求中公開了本發明的有利的附加實施方式。
本發明確立了輸入HOA表示的值範圍與信號在HOA壓縮器中應用增益控制處理單元之前的可能的最大增益之間的相互關係。
基於該相互關係,針對輸入HOA表示的值範圍的給定規範、針對底數為「2」的指數的有效編碼來確定所需比特的量,以在訪問單元內描述由增益控制處理單元引起的從第一幀一直到當前幀的修改信號的總絕對幅度變化(即,非差分增益值)。
此外,一旦計算用於對指數編碼的所需比特量的規則被確定,本發明就使用用於驗證給定HOA表示是否滿足所需值範圍約束的處理,使得給定HOA表示能夠被正確壓縮。
原則上,本發明的方法適合於針對HOA數據幀表示的壓縮而確定用於表示所述HOA數據幀中的特定HOA數據幀的通道信號的非差分增益值所需的最小整數比特數βe,其中,每個幀中的每個通道信號包括一組採樣值,並且其中,給所述HOA數據幀中的每個HOA數據幀的每個通道信號分配差分增益值,並且這樣的差分增益值引起當前HOA數據幀中的通道信號的採樣值的幅度相對於前一HOA數據幀中的通道信號的採樣值變化,並且其中,這樣的增益調整的通道信號在編碼器中被編碼,
並且其中,所述HOA數據幀表示在空間域中被渲染為O個虛擬揚聲器信號wj(t),其中,所述O個虛擬揚聲器的位置位於單位球體上並且與針對βe的計算而假設的位置不匹配,所述渲染通過矩陣乘法w(t)=(Ψ)-1·c(t)來表示,其中,w(t)是包含所有虛擬揚聲器信號的向量,Ψ是針對虛擬揚聲器位置而計算的模矩陣,並且c(t)是所述HOA數據幀表示的相應HOA係數序列的向量,
並且其中,計算最大允許幅度值並且所述HOA數據幀表示被歸一化,使得
所述方法包括以下步驟:
-通過以下子步驟a)、b)、c)中的一個或更多個從所述歸一化HOA數據幀表示中形成所述通道信號:
a)為了表示所述通道信號中的主要聲音信號,將所述HOA係數序列c(t)的向量乘以混合矩陣A,混合矩陣A的歐幾裡德範數不大於「1」,其中,混合矩陣A表示所述歸一化HOA數據幀表示的係數序列的線性組合;
b)為了表示所述通道信號中的環境分量cAMB(t)、從所述歸一化HOA數據幀表示中減去所述主要聲音信號以及選擇所述環境分量cAMB(t)的係數序列的至少一部分,其中,||cAMB(t)||22≤||c(t)||22,以及通過計算對所得到的最小環境分量cAMB,MIN(t)進行變換,其中,並且ΨMIN是所述最小環境分量cAMB,MIN(t)的模矩陣;
c)選擇所述HOA係數序列c(t)的一部分,其中,所選擇的係數序列與對其實施空間變換的環境HOA分量的係數序列相關,並且描述所選擇的係數序列的數量的最小階數NMIN為NMIN≤9;
-將用於表示所述通道信號的所述非差分增益值所需的所述最小整數比特數βe設置為
其中,N是階數,O=(N+1)2是HOA係數序列的數量,K是所述模矩陣的歐幾裡德範數的平方與O之間的比值,並且其中,NMAX,DES是感興趣的階數,並且是針對每個階數的虛擬揚聲器的方向,其中該方向是為了實現對所述HOA數據幀表示的所述壓縮而被假定的,使得通過來選擇βe,從而對所述非差分增益值的底數為「2」的指數進行編碼,
並且其中,對於計算||Ψ||2是所述模矩陣Ψ的歐幾裡德範數,N是階數,NMAX是感興趣的最大階數,是所述虛擬揚聲器的方向,O=(N+1)2是HOA係數序列的數量,並且K是所述模矩陣的歐幾裡德範數的平方||Ψ||22與O之間的比值。
附圖說明
參考附圖描述了本發明的示例性實施方式,在附圖中示出了:
圖1 HOA壓縮器;
圖2 HOA解壓縮器;
圖3虛擬方向Ωj(N)(1≤j≤O)關於HOA階數(N=1,...,29)的縮放值K;
圖4對於HOA階數(NMIN=1,...,9),逆模矩陣Ψ-1關於虛擬方向ΩMIN,d(d=1,...,OMIN)的歐幾裡德範數;
圖5虛擬揚聲器在位置Ωj(N)(1≤j≤O,其中O=(N+1)2)處的信號的最大允許幅度γdB的確定;
圖6球坐標系。
具體實施方式
即使沒有明確描述,也可以在任何組合或子組合中使用以下實施方式。
在下文中,介紹HOA壓縮和解壓縮的原理以提供存在上述問題的更詳細背景。該介紹的基礎是在MPEG-H 3D音頻文檔ISO/IEC JTCl/SC29/WG11N14264(也參見EP 2665208 A1、EP 2800401 A1和EP 2743922 A1)中描述的處理。在N14264中,「方向分量」被擴展至「主要聲音分量」。作為方向分量,主要聲音分量被假設成部分地由方向信號連同用於根據方向信號預測原始HOA表示的多個部分的一些預測參數一起來表示,方向信號是指具有被假設為從其衝擊聽者的相應方向的單聲道信號。另外,主要聲音分量被假設為由「基於向量的信號」表示,基於向量的信號是指具有限定基於向量的信號的方向分布的相應向量的單聲道信號。
HOA壓縮
圖1示出了在EP 2800401 A1中描述的HOA壓縮器的總體架構。該HOA壓縮器的總體架構具有圖1A所示的空間HOA編碼部以及圖1B所示的感知編碼部及源編碼部。空間HOA編碼器提供由I信號連同描述如何創建其HOA表示的邊信息一起構成的第一壓縮HOA表示。在對兩個編碼的表示進行多路復用之前,在感知編碼器和邊信息源編碼器中對I信號進行感知編碼,並且對邊信息進行源編碼。
空間HOA編碼
在第一步驟中,將原始HOA表示的當前第k幀C(k)輸入至方向和向量估計處理步驟或階段11,該當前第k幀C(k)被假設成提供元組集和元組集由其第一元素表示方向信號的索引並且第二元素表示相應的量化方向的元組構成。元組集由其第一元素表示基於向量的信號的索引並且第二元素表示限定信號的方向分布的向量(即,如何計算基於向量的信號的HOA表示)的元組構成。
使用兩個元組集和在HOA分解步驟或階段12中將初始HOA幀C(k)分解成所有主要聲音(即,方向的和基於向量的)信號的幀XPS(k-1)和環境HOA分量的幀CAMB(k-1)。注意由交疊相加處理引起的一個幀的延遲,以避免堵塞的假象。此外,HOA分解步驟/階段12被假設成輸出描述如何根據方向信號來預測原始HOA表示的多個部分的一些預測參數ζ(k-1),以豐富主要聲音HOA分量。另外,假設提供了包含關於將在HOA分解處理步驟或階段12中確定的主要聲音信號分配給I個可用通道的信息的目標分配向量vA,T(k-1)。可以假設要佔用受影響的通道,這意味著受影響的通道不能用於在相應的時間幀中傳輸環境HOA分量的任何係數序列。
在環境分量修改處理步驟或階段13中,根據由目標分配向量vA,T(k-1)提供的信息來修改環境HOA分量的幀cAMB(k-1)。特別地,(在其他方面中)根據關於哪些通道可用並且還沒有被主要聲音信號佔據的(包含在目標分配向量vA,T(k-1)中的)信息來確定要在給定的I個通道中傳輸環境HOA分量的哪些係數序列。
另外,如果所選擇的係數序列的索引在連續幀之間變化,則執行係數序列的淡入淡出。
此外,假設環境HOA分量CAMB(k-2)的第一OMIN係數序列總是被選擇成被感知地編碼和傳輸,其中OMIN=(NMIN+1)2(NMIN≤N)的階數通常比原始HOA表示的階數更小。為了對這些HOA係數序列進行去相關,可以在步驟/階段13中將它們變換為從一些預定義方向ΩMIN,d(d=1,...,OMIN)衝擊的方向信號(即,一般平面波函數)。
暫時預測的已修改環境HOA分量CP,M,A(k-1)連同修改的環境HOA分量CM,A(k-1)一起在步驟/階段13中被計算,並且被用於增益控制處理步驟或階段15、151以實現合理的預見,其中關於環境HOA分量的修改的信息與在通道分配步驟或階段14中將所有可能類型的信號分配給可用通道直接相關。關於該分配的最終信息被假設成包含在最終分配向量vA(k-2)中。為了在步驟/階段13中計算該向量,利用包含在目標分配向量vA,T(k-1)中的信息。
步驟/階段14中的通道分配利用由分配向量vA(k-2)提供的信息將包含在幀XPS(k-1)中和包含在幀CM,A(k-2)中的適當的信號分配給I個可用通道,從而得到信號幀yi(k-2),i=1,...,I。另外,還將包含在幀XPS(k-1)和幀CP,AMB(k-1)中的適當的信號分配給I個可用通道,從而得到預測的信號幀yP,i(k-1),i=1,...,I。
信號幀yi(k-2),i=1,...,I中的每一個最終通過增益控制15、151來處理,以得到指數ei(k-2)和異常標記βi(k-2),i=1,...,I以及信號zi(k-2),i=1,...,I,其中信號增益被平滑地修改以實現適合於感知編碼器步驟或階段16的值範圍。步驟/階段16輸出相應的編碼信號幀預測的信號幀yP,i(k-1),i=1,...,I實現了合理的預見以避免連續塊之間的較大增益變化。在邊信息源編碼器步驟或階段17中,對邊信息數據ei(k-2)、βi(k-2)、ζ(k-1)和vA(k-2)進行源編碼,以得到經編碼的邊信息幀在多路復用器18中,對幀(k-2)的編碼信號與該幀的已編碼邊信息數據進行組合,以得到輸出幀
在空間HOA解碼器中,步驟/階段15、151中的增益修改被假設成通過使用由指數ei(k-2)和異常標記βi(k-2),i=1,...,I構成的增益控制邊信息來恢復。
HOA解壓縮
圖2示出了在EP 2800401A1中描述的HOA解壓縮器的總體架構。該總體架構由HOA壓縮器部件的配對部件構成,所述配對部件以相反的順序布置並且包括圖2A所示的感知解碼部和源解碼部以及圖2B所示的空間HOA解碼部。
在感知解碼部和源解碼部(代表感知解碼器和邊信息源解碼器)中,解復用步驟或階段21從比特流接收輸入幀並且提供I個信號的感知編碼的表示以及描述如何創建其HOA表示的已編碼邊信息數據在感知解碼器步驟或階段22中對信號進行感知解碼,以得到解碼信號在邊信息源解碼器步驟或階段23中對已編碼邊信息數據進行解碼,以得到數據集指數ei(k)、異常標記βi(k)、預測參數ζ(k+1)和分配向量vAMB,ASSIGN(k)。關於vA與υAMB,ASSIGN之間的差別,參見上面提到的MPEG文獻N14264。
空間HOA解碼
在空間HOA解碼部中,感知解碼的信號中的每一個連同其關聯的增益校正指數ei(k)以及增益校正異常標記βi(k)一起被輸入至逆增益控制處理步驟或階段24、241。第i個逆增益控制處理步驟/階段提供了經增益校正的信號幀
全部I個經增益校正的信號幀連同分配向量vAMB,ASSIGN(k)以及元組集和一起被饋送至通道重分配步驟或階段25,參見元組集和的上述定義。分配向量vAMB,ASSIGN(k)由I個分量構成,所述I個分量針對每個傳輸通道而指示其是否包含環境HOA分量的係數序列以及它包含哪個係數序列。在通道重分配步驟/階段25中,經增益校正的信號幀被重新分配以重構所有主要聲音信號(即,所有方向信號和基於向量的信號)的幀以及環境HOA分量的中間表示的幀CI,AMB(k)。另外,提供了在第k個幀中活躍的環境HOA分量的係數序列的索引的集合以及在第(k-1)個幀中必須被啟用、禁用及保持活躍的環境HOA分量的係數索引的數據集和
在主要聲音合成步驟或階段26中,利用元組集預測參數的集合ζ(k+1)、元組集以及數據集和根據所有主要聲音信號的幀來計算主要聲音分量的HOA表示。
在環境合成步驟或階段27中,利用在第k個幀中活躍的環境HOA分量的係數序列的索引的集合根據環境HOA分量的中間表示的幀CI,AMB(k)來創建環境HOA分量幀由於與主要聲音HOA分量的同步而引入一個幀的延遲。
最後,在HOA組成步驟或階段28中,將環境HOA分量幀與主要聲音HOA分量的幀進行疊加,以提供已解碼的HOA幀
此後,空間HOA解碼器根據I個信號和邊信息來創建重構的HOA表示。
在位於編碼側的情況下,環境HOA分量被變換為方向信號,在步驟/階段27中在解碼器側進行該變換的逆變換。
在HOA壓縮器內的增益控制處理步驟/階段15、151之前,信號的可能最大增益十分依賴於輸入HOA表示的值範圍。因此,首先限定輸入HOA表示的有意義的值範圍,隨後在進入增益控制處理步驟/階段之前對信號的可能最大增益做出結論。
輸入HOA表示的歸一化
為了使用本發明的處理,要先執行對(總)輸入HOA表示信號的歸一化。對於HOA壓縮,執行逐幀處理,其中關於在高階高保真度立體聲響複製的章節Basics中的公式(54)中指定的時間連續HOA係數序列的向量c(t),將原始輸入HOA表示的第k個幀C(k)限定為
其中,k表示幀索引,L為(在採樣中的)幀長度,O=(N+1)2為HOA係數序列的數量,以及TS表示採樣周期。
如EP 2824661 A1中所提及的,從實際角度來看,HOA表示的有意義的歸一化不是通過對個別HOA係數序列的值範圍施加約束來實現的,這是因為這些時域函數不是在渲染之後由揚聲器實際播放的信號。相反,更方便的是考慮通過將HOA表示渲染為O個虛擬揚聲器信號wj(t),1≤j≤O而獲得的「等效空間域表示」。假設相應的虛擬揚聲器位置藉助於球坐標系來表示,其中假設每個位置位於單位球體上並且半徑為「1」。因此,可以通過階數相關方向Ωj(N)=(θj(N),φj(N)),1≤j≤O等效地表達位置,其中θj(N)和φj(N)分別表示傾斜度和方位角(也參見圖6及其關於球坐標系定義的描述)。例如參見J.Fliege、U.Maier於1999年在多特蒙德大學的專業課範圍數學技術報告"A two-stage approach for computing cubature formulae for the sphere",這些方向應當儘可能均勻地分布在單位球體上。在以下網址中可以找到用於特定方向的計算的節點數量:http://www.mathematik.uni-dortmund.de/lsx/research/projects/fliege/node s/nodes.html。這些位置通常取決於「球上的均勻分布」的定義種類,因此是不明確的。
通過限定HOA係數序列的值範圍來限定虛擬揚聲器信號的值範圍的優點在於:如常規揚聲器信號假定PCM表示的情況那樣,虛擬揚聲器信號的值範圍可以被直觀地設置為等於區間[-1,1]。這導致空間上均勻分布的量化誤差,使得在與實際聆聽相關的域中有利地應用量化。該背景中的一個重要方面是每採樣比特數可以被選擇成與通常用於常規揚聲器信號的比特數(即,16)一樣低,與通常需要更高的每採樣比特數(例如,24或甚至32)的HOA係數序列的直接量化相比,這提高了效率。
為了詳細描述空間域中的歸一化處理,所有虛擬揚聲器信號以向量被概括為w(t):=[w1(t)...wO(t)]T,(2)
其中,(·)T表示轉置。用Ψ表示關於虛擬方向Ωj(N),1≤j≤O的模矩陣,Ψ被定義為
其中,
,渲染處理可以用公式表示為矩陣乘積
w(t)=(Ψ)-1·c(t)。 (5)
使用這些定義,對虛擬揚聲器信號的合理要求是:
這意味著每個虛擬揚聲器信號的幅度需要落入範圍[-1,1]內。時間t的時刻由所述HOA數據幀的採樣值的採樣索引l和採樣周期TS來表示。
揚聲器信號的總的冪因此滿足條件
HOA數據幀表示的渲染和歸一化在圖1A的輸入C(k)的上遊執行。
增益控制之前的信號值範圍結果
假設輸入HOA表示的歸一化是根據輸入HOA表示的歸一化小節中的描述執行的,下面考慮被輸入至HOA壓縮器中的增益控制處理單元15、151的信號yi,i=1,...,I的值範圍。這些信號是通過向HOA係數序列或主要聲音信號xPS,d,d=1,...,D和/或環境HOA分量cAMB,n,n=1,...,O的特定係數序列中的一個或更多個分配可用I個通道來創建的,對這些信號中的一部分實施空間變換。因此,在公式(6)中的歸一化假設下,有必要分析所提及的這些不同信號類型的可能值範圍。由於所有種類的信號是根據原始HOA係數序列而在中間計算出的,因此檢查它們可能的值範圍。
圖1A和圖2B中未描繪I個通道中包含僅一個或更多個HOA係數序列的情況,即,在這種情況下,不需要HOA分解、環境分量修改塊和相應的合成塊。
HOA表示的值範圍結果
時間連續的HOA表示是通過c(t)=Ψw(t), (8)
從虛擬揚聲器信號中獲得的,公式(8)是公式(5)的逆運算。
因此,使用公式(8)和公式(7)來如下限制所有HOA係數序列的總的冪:
||c(lTS)||22≤||Ψ||22·||w(lTS)||22≤||Ψ||22·O (9)
在球面諧波函數的N3D歸一化的假設下,模矩陣的歐幾裡德範數的平方可以寫成:||Ψ||22=K·O, (10a)
其中,
表示模矩陣的歐幾裡德範數的平方與HOA係數序列的數量O之間的比值。該比值取決於特定HOA階數N和特定虛擬揚聲器方向其可以通過向該比值附加相應參數列表來如下表示:
圖3示出了根據上面提到的Fliege等人的文章的虛擬方向關於HOA階數(N=1,...,29)的K的值。
結合所有先前的論證和考慮,提供如下HOA係數序列的幅度的上限:
其中,第一個不等式直接從範數定義得出。
重要的是注意:公式(6)中的條件意味著公式(11)中的條件,但是相反的情況不成立,即,公式(11)不意味著公式(6)。
另一個重要方面是:在虛擬揚聲器位置近似均勻分布的假設下,模矩陣Ψ的表示關於虛擬揚聲器位置的模向量的列向量幾乎彼此正交並且每個都具有歐幾裡德範數N+1。該特性意味著:除了乘法常數之外,空間變換幾乎保持歐幾裡德範數,即,
||c(lTS)||2≈(N+1)||w(lTS)||2。 (12)
真實的範數||c(lTS)||2與公式(12)中的近似值相差越多,就越違反對模向量的正交性假設。
主要聲音信號的值範圍結果
兩種類型的(方向的和基於向量的)主要聲音信號的共同點在於:它們對HOA表示的貢獻由具有歐幾裡德範數N+1的單個向量來描述,即,||v1||2=N+1。 (13)
在方向信號的情況下,該向量與關於某個信號源方向ΩS,1的模向量相對應,即,
v1=S(ΩS,1) (14)
該向量藉助於HOA表示將方向束描述為信號源方向ΩS,1。在基於向量的信號的情況下,向量v1不限於關於任何方向的模向量,因此可以描述基於向量的單聲道信號的更一般的方向分布。
下面考慮D個主要聲音信號xd(t),d=1,...,D的一般情況,D個主要聲音信號可以根據下式被集中在向量x(t)中
x(t)=[x1(t) x2(t) ... xD(t)]T (16)
這些信號必須基於以下矩陣來確定:
V:=[v1 v2 ... vD] (17)
該矩陣由表示單聲道主要聲音信號xd(t),d=1,...,D的方向分布的所有向量vd,d=1,...,D構成。
為了主要聲音信號x(t)的有意義的提取,規定以下約束:
a)每個主要聲音信號是作為原始HOA表示的係數序列的線性組合而獲得的,即
x(t)=A·c(t), (18)
其中,表示混合矩陣。
b)混合矩陣A應當被選擇成使得其歐幾裡德範數不超過值「1」,即,
並且使得原始HOA表示與主要聲音信號的HOA表示之間的殘差的歐幾裡德範數的平方(或冪)不大於原始HOA表示的歐幾裡德範數的平方(或冪),即
通過將公式(18)代入公式(20)中,可以看出公式(20)與以下約束相當:
其中,I表示單位矩陣。
使用公式(18)、公式(19)和公式(11)根據公式(18)和公式(19)中的約束以及根據歐幾裡德矩陣與向量範數的兼容性,通過下式來限定主要聲音信號的幅度上限:
||x(lTS||∞≤||x(lTS)||2 (22)
≤||A||2||c(lTS)||2 (23)
因此,確保主要聲音信號保持在與原始HOA係數序列相同的範圍內(與公式(11)比較),即,
選擇混合矩陣的示例
如何確定滿足約束(20)的混合矩陣的示例是通過計算主要聲音信號使得提取之後的殘差的歐幾裡德範數最小來獲得的,即,
x(t)=argminx(t)||V·x(t)-c(t)||2。 (26)
公式(26)中的最小化問題的解決方案由下式給出:
x(t)=V+c(t), (27)
其中,(·)+表示摩爾-彭羅斯(Moore-Penrose)廣義逆。通過將公式(27)與公式(18)進行比較,由此得出,在這種情況下,混合矩陣等於矩陣V的摩爾-彭羅斯廣義逆,即A=V+。
然而,仍然必須選擇矩陣V以滿足約束(19),即,
在僅方向信號的情況下,其中,矩陣V是關於一些源信號方向ΩS,d,d=1,...,D的模矩陣,即
V=[S(ΩS,1)S(ΩS,2)...(SΩS,D)], (29)
可以通過選擇源信號方向ΩS,d,d=1,...,D使得任何兩個相鄰方向的距離不是太小來滿足約束(28)。
環境HOA分量的係數序列的值範圍結果
環境HOA分量是通過從原始HOA表示中減去主要聲音信號的HOA表示來計算的,即,cAMB(t)=c(t)-V·x(t)。 (30)
如果主要聲音信號x(t)的向量是根據標準(20)確定的,則可以得出結論:
||cAMB(lTS)||∞≤||cAMB(lTS)||2 (31)
環境HOA分量的空間變換係數序列的值範圍
EP 2743922 A1和上面提到的MPEG文獻N14264中提出的HOA壓縮處理的另一方面是:環境HOA分量的第一OMIN係數序列總是被選成被分配給傳輸通道,其中,OMIN=(NMIN+1)2,NMIN≤N通常是比原始HOA表示的階數更小的階數。為了對這些HOA係數序列去相關,可以將它們變換為從一些預定義方向ΩMIN,d,d=1,...,OMIN(類似於輸入HOA表示的歸一化小節中描述的概念)衝擊的虛擬揚聲器信號。
用cAMB,MIN(t)來定義階數索引為n≤NMIN的環境HOA分量的所有係數序列的向量並且用ΨMIN來定義關於虛擬方向ΩMIN,d,d=1,...,OMIN的模矩陣,所有虛擬揚聲器信號的向量(被定義為)wMIN(t)通過下式獲得:
因此,使用歐幾裡德矩陣與向量範數的兼容性,
||wMIN(lTS)||∞≤||wMIN(lTS)||2 (36)
在上面提到的MPEG文獻N14264中,根據上面提到的Fliege等人的文章來選擇虛擬方向ΩMIN,d,d=1,...,OMIN。圖4示出了模矩陣ΨMIN的逆矩陣針對階數(NMIN=1,...,9)的相應歐幾裡德範數。可以看出:對於NMIN=1,...,9,
然而,這通常不適用於的值通常遠大於「1」的NMIN>9的情況。然而,至少對於1≤NMIN≤9,虛擬揚聲器信號的幅度由下式限制:
通過限制輸入HOA表示以滿足條件(6),其中條件(6)要求根據該HOA表示創建的虛擬揚聲器信號的幅度不超過值「1」,可以保證在以下條件下,信號在增益控制之前的幅度將不超過值(參見公式(25)、公式(34)和公式(40)):
a)所有主要聲音信號x(t)的向量是根據公式/限制(18)、(19)和(20)來計算的;
b)如果使用如上述Fliege等人的文章中限定的虛擬揚聲器位置,則確定對其實施空間變換的環境HOA分量的第一係數序列的數量OMIN的最小階數NMIN必須小於「9」。
可以進一步得出結論:對於高達感興趣的最大階數NMAX的任何階數N,即1≤N≤NMAX,信號在增益控制之前的幅度將不超過值其中,
特別地,從圖3可以得出結論:如果假設用於初始空間變換的虛擬揚聲器方向是根據Fliege等人的文章中的分布來選擇的,並且如果另外假設感興趣的最大階數為NMAX=29(例如參見MPEG文獻N14264),則信號增益控制之前的幅度將不超過值1.5O,這是因為在這種特殊情況下即,可以選擇
KMAX取決於感興趣的最大階數NMAX和虛擬揚聲器方向其可以由下式來表示:
因此,為確保感知編碼之前的信號位於區間[-1,1]內而通過增益控制施加的最小增益由給出,其中,
在信號在增益控制之前的幅度太小的情況下,在MPEG文獻N14264中提出可以用高達的因子來平滑地放大它們,其中,eMAX≥0作為編碼HOA表示中的邊信息被傳輸。
因此,在訪問單元內描述由增益控制處理單元引起的從第一幀一直到當前幀的已修改信號的總絕對幅度變化的底數為「2」的每個指數,可以假設在區間[eMIN,eMAX]內的任何整數值。因此,編碼所需的(最小整數)比特數βe由下式給出:
在信號在增益控制之前的幅度不太小的情況下,公式(42)可以簡化為:
可以在增益控制步驟/階段15,…,151的輸入處計算該比特數βe。
針對指數使用該比特數βe確保可以捕獲由HOA壓縮器增益控制處理單元15,…,151引起的所有可能的絕對幅度變化,從而允許在壓縮表示中的一些預定義入口點處開始解壓縮。
當在HOA解壓縮器中開始對壓縮HOA表示進行解壓縮時,被分配給一些數據幀的邊信息並且除了所接收的數據流之外從解復用器21接收到的、表示總絕對幅度變化的非差分增益值被用在逆增益控制步驟或階段24,…,241中,從而以與在增益控制步驟/階段15,…,151中執行的處理相反的方式實施正確的增益控制。
另外的實施方式
當實現如在章節HOA壓縮、空間HOA編碼、HOA解壓縮和空間HOA解碼中描述的特定HOA壓縮/解壓縮系統時,用於對指數編碼的比特數βe必須依賴於縮放因子KMAX,DES根據公式(42)來設定,縮放因子KMAX,DES自身取決於要壓縮的HOA表示的期望的最大階數NMAX,DES和特定的虛擬揚聲器方向
例如,當假設NMAX,DES=29並且根據Fliege等人的文章來選擇虛擬揚聲器方向時,合理的選擇是在該情況下,保證對階數為N(1≤N≤NMAX)的HOA表示進行正確的壓縮,該HOA表示是利用相同的虛擬揚聲器方向根據章節輸入HOA表示的歸一化而被歸一化的。然而,在以下HOA表示的情況下不能給出這種保證:該HOA表示還(出於效率原因)由PCM格式的虛擬揚聲器信號等效地表示,但是其中虛擬揚聲器的方向被選擇成與在系統設計階段假定的虛擬揚聲器方向不同。
由於虛擬揚聲器位置的這種不同選擇,即使這些虛擬揚聲器信號的幅度在區間[-1,1]內,也不能再保證信號在增益控制之前的幅度將不超過值因此,不能保證該HOA表示根據MPEG文獻N14264中描述的處理而具有針對壓縮的適當的歸一化。
在這種情況下,具有以下系統是有利的:該系統基於虛擬揚聲器位置的知識而提供虛擬揚聲器信號的最大允許幅度以確保相應的HOA表示適合於根據在MPEG文獻N14264中描述的處理的壓縮。在圖5中示出了這樣的系統。它採用虛擬揚聲器位置作為輸入,其中,並且提供虛擬揚聲器信號的最大允許幅度γdB(其以分貝測量)作為輸出。在步驟或階段51中,根據公式(3)來計算關於虛擬揚聲器位置的模矩陣Ψ。在隨後的步驟或階段52中,計算模矩陣的歐幾裡德範數||Ψ||2。在第三步驟或階段53中,將幅度γ計算為「1」與下述值中的最小值:該值為虛擬揚聲器位置數量的平方根和KMAX,DES的平方根的乘積與模矩陣的歐幾裡德範數的商,
即
以分貝為單位的值通過下式獲得:γdB=20log10(γ)。 (44)
為了說明:從上面的推導可以看出,如果HOA係數序列的幅度不超過值即,如果
則在增益控制處理單元15、151之前的所有信號將相應地不超過該值,這是對適當的HOA壓縮的要求。
從公式(9)發現HOA係數序列的幅度由下式限制
||c(lTS)||∞≤||c(lTS)||2≤||Ψ||2·||w(lTS)||2。 (46)
因此,如果γ是根據公式(43)設置的並且PCM格式的虛擬揚聲器信號滿足
||w(lTS)||∞≤γ, (47)
則從公式(7)得出
並且滿足要求(45)。
即,公式(6)中的最大幅度值「1」由公式(47)中的最大幅度值γ代替。
高階高保真度立體聲響複製的基礎
高階高保真度立體聲響複製(HOA)基於對感興趣的密集區域內的聲場的描述,其被假設為沒有聲源。在該情況下,在感興趣的區域內的時間t和位置x處的聲壓p(t,x)的時空行為在物理上完全由齊次波動方程確定。在下文中,假設如圖6所示的球坐標系。在所使用的坐標系中,x軸指向前面,y軸指向左側,z軸指向頂部。空間中的位置x=(r,θ,φ)T由半徑r>0(即,到坐標原點的距離)、從極軸z測量的傾斜角θ∈[0,π]以及在x-y平面內從x軸逆時針方向測量的方位角φ∈[0,2π[來表示。此外,(·)T表示轉置。
然後,從「傅立葉聲學」教科書中可以看出,聲壓關於時間的傅立葉變換由表示,即,
其中,ω表示角頻率,i表示虛數單位,根據下式可以將上述聲壓關於時間的傅立葉變換展開成球面諧波函數的級數
其中,cs表示聲速,k表示角波數,其通過而與角頻率ω相關。此外,jn(·)表示第一類球貝塞爾函數,且表示階數為n且度數為m的實值球面諧波函數,在章節實值球面諧波函數的定義中對它們做出了定義。展開係數僅取決於角波數k。注意,已經隱含地假設聲壓在空間上是頻帶受限的。因此,在稱為HOA表示的階數的上限N處關於階數索引n截斷該級數。
如果聲場是通過從由角度元組(θ,φ)指定的所有可能方向到達的無限個具有不同角頻率ω的諧波平面波進行疊加來表示的,則可以看出(參見B.Rafaely,「Plane-wave decomposition of the sound field on a sphere by spherical convolution」,J.Acoust.Soc.Am,卷4(116),第2149至2157頁,2004年10月),相應的平面波復幅度函數C(ω,θ,φ)可以由以下球面諧波函數展開式來表示
其中,展開係數通過下式與展開係數相關:
假設各個係數是角頻率ω的函數,則逆傅立葉變換(由表示)的應用針對每個階數n和度數m提供以下時域函數
這些時域函數在這裡稱為連續時間HOA係數序列,其可以通過下式被集中在單個向量c(t)中
向量c(t)內的HOA係數序列的位置索引由n(n+1)+1+m給出。向量c(t)中的總元素數由O=(N+1)2給出。
最終的高保真度立體聲響複製格式利用採樣頻率fS提供c(t)的如下採樣版本
其中,TS=1/fS表示採樣周期。元素c(lTS)稱為離散時間HOA係數序列,其可以總是實值。該特性也適用於連續時間版本
實值球面諧波函數的定義
實值球面諧波函數(假設根據以下文獻的SN3D歸一化:J.Daniel,「Représentation de champs acoustiques,application à la transmission etàla reproduction de scènes sonores complexes dans un contexte multimédia」,博士論文,巴黎大學,2001年6月,3.1章)由下式給出
其中,
相關聯的勒讓德函數Pn,m(x)被定義為
其具有勒讓德多項式Pn(x),並且與Academic Press1999年出版的Applied Mathematical Sciences第93卷E.G.Williams的「Fourier Acoustics」中的不同,其沒有Condon-Shortley相位項(-1)m。
本發明的處理可以由單個處理器或電子電路,或者由並行工作和/或在本發明的處理的不同部分中工作的若干處理器或電子電路執行。
用於操作一個或多個處理器的指令可以被存儲在一個或更多個存儲器中。