新四季網

用於編碼多聲道音頻信號的參數編碼器的製造方法

2023-06-04 20:52:26

用於編碼多聲道音頻信號的參數編碼器的製造方法
【專利摘要】本發明涉及一種用於產生多聲道音頻信號的多個音頻聲道信號(X1[b]、X2[b])中的音頻聲道信號(X1[b])的編碼參數(ICC)的參數音頻編碼器(100),每個音頻聲道信號(X1[b]、X2[b])具有音頻聲道信號值(X1[k]、X2[k]),所述參數音頻編碼器(100)包括參數產生器(105),所述參數產生器(105)用於-根據所述音頻聲道信號(X1[b])的所述音頻聲道信號值(X1[k])以及參考音頻信號(X2[b])的參考音頻信號值(X2[k])為所述多個音頻聲道信號中的所述音頻聲道信號(X1[b])確定第一組編碼參數(IPD[b]),其中所述參考音頻信號是所述多個音頻聲道信號中的另一音頻聲道信號(X2[b])或從所述多個多聲道音頻信號的至少兩個音頻聲道信號中獲得的下混合音頻信號,-基於所述音頻聲道信號(X1[b])的所述第一組編碼參數(IPD[b])為所述音頻聲道信號(X1[b])確定第一編碼參數平均值(IPDmean[i]),-基於所述音頻聲道信號(X1[b])的所述第一編碼參數平均值(IPDmean[i])以及所述音頻聲道信號(X1[b])的至少一個另一第一編碼參數平均值(IPDmean[i-1])為所述音頻聲道信號(X1[b])確定第二編碼參數平均值(IPDmean_long_term),以及-基於所述音頻聲道信號(X1[b])的所述第一編碼參數平均值(IPDmean[i])以及所述音頻聲道信號(X1[b])的所述第二編碼參數平均值(IPDmean_long_term)確定所述編碼參數(ICC)。
【專利說明】用於編碼多聲道音頻信號的參數編碼器

【技術領域】
[0001]本發明涉及音頻編碼。

【背景技術】
[0002]例如,在電氣與電子工程師協會的信號處理對音頻和聲學的應用的研究組會刊(Proc.1EEE Workshop on App1.0f Sig.Proc.to Aud1 and Acoust)中的C.法勒(C.Faller)和F.鮑姆加特(F.Baumgarte)的「使用感知參數化的空間音步頁的有效表不(Efficient representat1n of spatial aud1 using perceptualparametrizat1n) 」 (2001年10月,第199至202頁)中描述的參數立體聲或多聲道音頻編碼使用空間線索,從下混合(通常是單聲道或立體聲)音頻信號來合成多聲道音頻信號,所述多聲道音頻信號比下混合音頻信號具有更多的聲道。通常,下混合音頻信號由多聲道音頻信號(例如,立體聲音頻信號)的多個音頻聲道信號的疊加而產生。這些較少聲道是經波形編碼的,且將與原始信號聲道關係有關的輔助信息(即,空間線索)作為編碼參數添加到經編碼的音頻聲道。解碼器使用此輔助信息,基於經解碼的經波形編碼的音頻聲道而重新產生原始數目個音頻聲道。
[0003]基本參數立體聲編碼器可以使用聲道間電平差(ILD:1nter-channel leveldifference)作為從單聲道下混合音頻信號產生立體聲信號所需的線索。較複雜的編碼器還可以使用聲道間相干性(ICC:1nter-channel coherence),其可以表示音頻聲道信號(即,音頻聲道)之間的相似度。此外,當編碼雙耳立體聲信號(例如)以實現3D音頻或基於頭戴式耳機的環繞渲染(surround rendering)時,聲道間相位差(IPD:1nter-channelphase difference)也可以起到再現聲道之間的相位/延遲差異的作用。
[0004]ICC線索的合成可以與大部分音頻和音樂內容相關,以重新產生環境、立體聲混響、聲源寬度以及與以下資料中描述的空間印象有關的其他感知:J.布勞爾特(J.Blauert)的「空間聽覺:人類聽聲辨位的心理物理學(The Psychophysics of HumanSound Localizat1n) 」,美國麻薩諸塞州劍橋的麻省理工學院出版社,1997年。相干性合成可以通過使用以下資料中描述的頻域中的去相關器來實施:2003年3月音頻工程協會會議的第114次預印本中的E.斯凱捷(E.Schuijers)、W.歐門(W.0omen)、B.德恩布林克爾(B.den Brinker)以及J.布雷巴特(J.Breebaart)的「高質量音頻的參數編碼方面的進步(Advances in parametric coding for high-quality aud1),,。然而,用於估計空間線索以及合成多聲道音頻信號的已知合成方法的複雜度可能會增加。此外,例如,除了其他參數(例如,聲道間電平差(ICLD:1nter-channel level difference)和聲道間相位差(ICPD:1nter-channel phase difference))之外還使用ICC參數可能增加比特率開銷。


【發明內容】

[0005]本發明的目標是提供一種用於對表示多聲道音頻信號的聲道之間的聲道間關係的編碼參數進行估計以便於有效的音頻信號編碼的概念。
[0006]此目標通過獨立的權利要求的特徵實現。從附屬權利要求、描述和圖式中容易明白其他實施。
[0007]為了詳細描述本發明,將使用以下術語、縮寫和符號:
[0008]BCC(Binaural cues coding):雙耳線索編碼,即,使用下混合和雙耳線索(或空間參數)以描述聲道間關係的立體聲或多聲道信號的編碼。
[0009]雙耳線索(Binaural Cue):左耳進入信號與右耳進入信號之間的聲道間線索(還參看 ITD、ILD 和 IC)。
[0010]CLD(Channel level difference):聲道電平差,與 ICLD 相同。
[0011]FFT(Fast Fourier Transform):DFT的快速實施方式,表示快速傅立葉變換。
[0012]STFT (Short-time Fourier transform):短時傅立葉變換。
[0013]HRTF (Head-related transfer funct1n):頭相關傳遞函數,即,在自由場中從源到左耳和右耳入口的聲音的建模轉導。
[0014]IC(Inter-aural coherence):耳間相干性,即,左耳進入信號與右耳進入信號之間的相似度。這有時也稱為IAC或耳間互相關(IACC)。
[0015]ICC (Inter-channel coherence):聲道間相干性,即,聲道間相關性。
[0016]ICPD(Inter-channel phase difference):聲道間相位差。信號對之間的平均相位差。
[0017]ICLD(Inter-channel level difference):聲道間電平差。
[0018]ICTD(Inter-channel time difference):聲道間時間差。
[0019]ILD(Interaural level difference):耳間電平差,即,左耳進入信號與右耳進入信號之間的電平差。這有時還稱為耳間強度差(IID)。
[0020]IPD(Interaural phase difference):耳間相位差,即,左耳進入信號與右耳進入信號之間的相位差。
[0021]ITD(Interaural time difference):耳間時間差,即,左耳進入信號與右耳進入信號之間的時間差。這有時還稱為耳間時間延遲。
[0022]混合(Mixing):假設多個源信號(例如,單獨錄音的儀器、多聲道錄音),產生用於空間音頻播放的立體聲或多聲道音頻信號的過程表示混合。
[0023]空間音頻(Spatial aud1):當通過適當的播放系統播放時引起聽覺空間圖像的音頻信號。
[0024]空間線索(Spatial cue):與空間感知相關的線索。此術語用於一對立體聲或多聲道音頻信號的聲道之間的線索(還參看ICTD、ICLD和ICC),還表示為空間參數或雙耳線索。
[0025]根據第一方面,本發明涉及一種用於產生多聲道音頻信號的多個音頻聲道信號中的音頻聲道信號的編碼參數的參數音頻編碼器,每個音頻聲道信號具有音頻聲道信號值,所述參數音頻編碼器包括參數產生器,所述參數產生器用於
[0026]-根據音頻聲道信號的音頻聲道信號值以及參考音頻信號的參考音頻信號值為多個音頻聲道信號中的音頻聲道信號確定第一組編碼參數,其中參考音頻信號是多個音頻聲道信號中的另一音頻聲道信號,
[0027]-基於音頻聲道信號的第一組編碼參數為音頻聲道信號確定第一編碼參數平均值,
[0028]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的至少一個另一第一編碼參數平均值為音頻聲道信號確定第二編碼參數平均值,以及
[0029]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的第二編碼參數平均值確定編碼參數。
[0030]參考音頻信號可以是多聲道音頻信號的音頻聲道信號中的一者。具體而言,參考音頻信號可以是形成兩個聲道的多聲道信號的實施例的立體聲信號的左音頻聲道信號或右音頻聲道信號。然而,參考音頻信號可以是形成用於確定編碼參數的參考的任何信號。此種參考信號可以在下混合多聲道音頻信號的聲道之後由單聲道下混合音頻信號形成,或在下混合多聲道音頻信號的聲道之後由下混合音頻信號的聲道中的一者形成。
[0031]參數音頻編碼器可能具有較低的複雜度,因為該參數音頻編碼器不需要相干性或相關性計算。當ICC是利用僅需要幾個步驟的粗糙量化器進行量化時,所述參數音頻編碼器甚至提供音頻聲道之間的關係的精確估計。尤其針對音樂信號,還針對語言信號,使用對音頻信號進行編碼的編碼參數是非常重要的,因為在具有正確的聲音場景寬度的情況下,輸出的音樂聽起來更自然且不「乾燥」。對於極低位率的參數立體聲音頻編碼方案,比特預算是受限的且僅傳輸一個全帶ICC,編碼參數能夠表示聲道之間的全局相關性。
[0032]在根據第一方面的參數音頻編碼器的第一可能實施形式中,第一組編碼參數是以下參數中的一者:聲道間電平差、聲道間相位差、聲道間相干性、聲道間強度差、子帶聲道間電平差、子帶聲道間相位差、子帶聲道間相干性以及子帶聲道間強度差。
[0033]此些參數表示音頻信號之間的相似度並且因此可以由編碼器使用,以便減少待傳輸的信息並且因此降低計算複雜度。
[0034]在根據第一方面或根據第一方面的第一實施形式的參數音頻編碼器的第二可能實施形式中,參數產生器用於確定隨後的音頻聲道信號值的相位差以獲得第一組編碼參數。
[0035]需要隨後的音頻聲道信號的相位差以用於再現聲道之間的相位差和/或延遲差。當再現相位差時,語言和音樂聽起來會更自然。
[0036]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第三可能實施形式中,音頻聲道信號和參考音頻信號是頻域信號,且音頻聲道信號值和參考音頻信號值與頻率區間或頻率子帶相關聯。
[0037]所使用的頻率解析度主要由聽覺系統的頻率解析度激發。心理聲學表明空間感知最可能基於聲輸入信號的臨界帶表示。通過使用具有子帶的可逆濾波器組來考慮這種頻率解析度,所述子帶具有與聽覺系統的臨界帶寬相等或成比例的帶寬。因此,參數音頻編碼器可以很好地適應人類感知。
[0038]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第四可能實施形式中,參數音頻編碼器進一步包括變換器,用於變換頻域中的多個時域音頻聲道信號,以獲得多個音頻聲道信號。
[0039]聲道脈衝響應的均衡可以在頻域中有效地執行,因為時域中的卷積是頻域中的倍增。因此,在頻域中執行參數音頻編碼器的計算可以相對於計算複雜度產生更高效率或產生更高精確性。
[0040]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第五可能實施形式中,參數產生器用於確定音頻聲道信號的每個頻率區間或每個頻率子帶的第一組編碼參數。
[0041]參數音頻編碼器可以將確定第一組編碼參數限制到可由人耳感知且因此降低複雜度的頻率區間或頻率子帶。
[0042]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第六可能實施形式中,參數產生器用於確定音頻聲道信號的第一編碼參數平均值作為頻率區間或頻率子帶上的音頻聲道信號的第一組編碼參數的平均值。
[0043]通過該種平均,參數音頻編碼器提供考慮所有頻率分量的音頻信號的短時間平均值。
[0044]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第七可能實施形式中,參數產生器用於確定音頻聲道信號的第二編碼參數平均值作為音頻聲道信號的多個幀上的多個第一編碼參數平均值的平均值,其中每個第一編碼參數平均值與多聲道音頻信號的幀相關聯。
[0045]通過該種平均,參數音頻編碼器提供考慮語言信號或音樂信號的特徵特性的音頻信號的長時間平均值。
[0046]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第八可能實施形式中,參數產生器用於確定第二編碼參數平均值與第一編碼參數平均值之間的差的絕對值。
[0047]通過該種差,參數音頻編碼器提供對長時間平均值與短時間平均值之間的差的測量並且因此能夠預測語言或音樂的行為。
[0048]在根據第一方面的第八實施形式的參數音頻編碼器的第九可能實施形式中,參數產生器用於根據所確定的絕對值來確定編碼參數。
[0049]當根據所確定的絕對值提供編碼參數時,存在編碼參數與所確定的絕對值之間的關係,所述關係可以用於有效地計算編碼參數。因此降低計算複雜度。
[0050]在根據第八實施形式或根據第一方面的第九實施形式的參數音頻編碼器的第十可能實施形式中,參數產生器用於根據第一參數值與乘以第二參數值的所確定的絕對值之間的差來確定編碼參數。
[0051]當編碼參數被提供為第一參數值與所確定的絕對值之間的差時,存在編碼參數與所確定的絕對值之間的關係,所述關係可以用於有效地計算編碼參數。因此降低計算複雜度。
[0052]在根據第一方面的第十實施形式的參數音頻編碼器的第十一可能實施形式中,參數產生器用於將第一參數值設置為一且將第二參數值設置為一。
[0053]通過該種關係,參數音頻編碼器能夠有效地計算編碼參數。因此降低計算複雜度。
[0054]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第十二可能實施形式中,參數音頻編碼器進一步包括:下混合信號產生器,用於疊加多聲道音頻信號的音頻聲道信號中的至少兩者,以獲得下混合信號;音頻編碼器,具體而言單聲道編碼器,用於編碼下混合信號以獲得經編碼的音頻信號;以及組合器,用於將經編碼的音頻信號與對應的編碼參數組合。
[0055]下混合信號和經編碼的音頻信號可以用作參數產生器的參考信號。兩個信號都包括多個音頻聲道信號並且因此比用作參考信號的單聲道信號提供更高的精確性。
[0056]在根據第一方面或根據第一方面的前述實施形式中任一者的參數音頻編碼器的第十三實施形式中,第一編碼參數平均值是指音頻聲道信號的當前幀,並且另一第一編碼參數平均值是指音頻聲道信號的先前幀。
[0057]通過使用音頻聲道信號的當前幀和先前幀,可以有效地執行長時間平均。
[0058]在根據第一方面的第十三實施形式的參數音頻編碼器的第十四實施形式中,音頻聲道信號的當前幀與音頻聲道信號的先前幀是鄰接的。
[0059]當兩個幀是連續的時,音頻聲道信號中的尖峰在平均值中檢測到並且可以在參數音頻編碼器中考慮。因此編碼比無法檢測到尖峰的編碼更精確。
[0060]根據第二方面,本發明涉及一種用於產生多聲道音頻信號的多個音頻聲道信號中的音頻聲道信號的編碼參數的參數音頻編碼器,每個音頻聲道信號具有音頻聲道信號值,所述參數音頻編碼器包括參數產生器,所述參數產生器用於
[0061]-根據音頻聲道信號的音頻聲道信號值以及參考音頻信號的參考音頻信號值為多個音頻聲道信號中的音頻聲道信號確定第一組編碼參數,其中參考音頻信號是從多個多聲道音頻信號中的至少兩個音頻聲道信號中獲得的下混合音頻信號,
[0062]-基於音頻聲道信號的第一組編碼參數為音頻聲道信號確定第一編碼參數平均值,
[0063]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的至少一個另一第一編碼參數平均值為音頻聲道信號確定第二編碼參數平均值,以及
[0064]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的第二編碼參數平均值確定編碼參數。
[0065]參考音頻信號可以是多聲道音頻信號的音頻聲道信號中的一者。具體而言,參考音頻信號可以是形成兩個聲道的多聲道信號的實施例的立體聲信號的左音頻聲道信號或右音頻聲道信號。然而,參考音頻信號可以是形成用於確定編碼參數的參考的任何信號。此參考信號可以在下混合多聲道音頻信號的聲道之後由下混合音頻信號形成,或者由單聲道編碼器的輸出形成。
[0066]參數音頻編碼器可能具有較低的複雜度,因為該參數音頻編碼器不需要相干性或相關性計算。當ICC是利用僅需要幾個步驟的粗糙量化器進行量化時,所述參數音頻編碼器甚至提供音頻聲道之間的關係的精確估計。尤其針對音樂信號,還針對語言信號,使用對音頻信號進行編碼的編碼參數是非常重要的,因為在具有正確的聲音場景寬度的情況下,輸出的音樂聽起來更自然且不「乾燥」。對於極低位率的參數立體聲音頻編碼方案,比特預算是受限的且僅傳輸一個全帶ICC,編碼參數能夠表示聲道之間的全局相關性。
[0067]在根據第二方面的參數音頻編碼器的第一可能實施形式中,第一組編碼參數是以下參數中的一者:聲道間電平差、聲道間相位差、聲道間相干性、聲道間強度差、子帶聲道間電平差、子帶聲道間相位差、子帶聲道間相干性以及子帶聲道間強度差。
[0068]此些參數表示音頻信號之間的相似度並且因此可以由編碼器使用,以便減少待傳輸的信息並且因此降低計算複雜度。
[0069]在根據第二方面或根據第二方面的第一實施形式的參數音頻編碼器的第二可能實施形式中,參數產生器用於確定隨後的音頻聲道信號值的相位差以獲得第一組編碼參數。
[0070]需要隨後的音頻聲道信號的相位差以用於再現聲道之間的相位差和/或延遲差。當再現相位差時,語言和音樂聽起來會更自然。
[0071]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第三可能實施形式中,音頻聲道信號和參考音頻信號是頻域信號,且音頻聲道信號值和參考音頻信號值與頻率區間或頻率子帶相關聯。
[0072]所使用的頻率解析度主要由聽覺系統的頻率解析度激發。心理聲學表明空間感知最可能基於聲輸入信號的臨界帶表示。通過使用具有子帶的可逆濾波器組來考慮這種頻率解析度,所述子帶具有與聽覺系統的臨界帶寬相等或成比例的帶寬。因此,參數音頻編碼器可以很好地適應人類感知。
[0073]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第四可能實施形式中,參數音頻編碼器進一步包括變換器,用於變換頻域中的多個時域音頻聲道信號,以獲得多個音頻聲道信號。
[0074]聲道脈衝響應的均衡可以在頻域中有效地執行,因為時域中的卷積是頻域中的倍增。因此,在頻域中執行參數音頻編碼器的計算可以相對於計算複雜度產生更高效率或產生更高精確性。
[0075]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第五可能實施形式中,參數產生器用於確定音頻聲道信號的每個頻率區間或每個頻率子帶的第一組編碼參數。
[0076]參數音頻編碼器可以將確定第一組編碼參數限制到可由人耳感知且因此降低複雜度的頻率區間或頻率子帶。
[0077]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第六可能實施形式中,參數產生器用於確定音頻聲道信號的第一編碼參數平均值作為頻率區間或頻率子帶上的音頻聲道信號的第一組編碼參數的平均值。
[0078]通過該種平均,參數音頻編碼器提供考慮所有頻率分量的音頻信號的短時間平均值。
[0079]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第七可能實施形式中,參數產生器用於確定音頻聲道信號的第二編碼參數平均值作為音頻聲道信號的多個幀上的多個第一編碼參數平均值的平均值,其中每個第一編碼參數平均值與多聲道音頻信號的幀相關聯。
[0080]通過該種平均,參數音頻編碼器提供考慮語言信號或音樂信號的特徵特性的音頻信號的長時間平均值。
[0081]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第八可能實施形式中,參數產生器用於確定第二編碼參數平均值與第一編碼參數平均值之間的差的絕對值。
[0082]通過該種差,參數音頻編碼器提供對長時間平均值與短時間平均值之間的差的測量並且因此能夠預測語言或音樂的行為。
[0083]在根據第二方面的第八實施形式的參數音頻編碼器的第九可能實施形式中,參數產生器用於根據所確定的絕對值來確定編碼參數。
[0084]當根據所確定的絕對值提供編碼參數時,存在編碼參數與所確定的絕對值之間的關係,所述關係可以用於有效地計算編碼參數。因此降低計算複雜度。
[0085]在根據第八實施形式或根據第二方面的第九實施形式的參數音頻編碼器的第十可能實施形式中,參數產生器用於根據第一參數值與乘以第二參數值的所確定的絕對值之間的差來確定編碼參數。
[0086]當編碼參數被提供為第一參數值與所確定的絕對值之間的差時,存在編碼參數與所確定的絕對值之間的關係,所述關係可以用於有效地計算編碼參數。因此降低計算複雜度。
[0087]在根據第二方面的第十實施形式的參數音頻編碼器的第i^一可能實施形式中,參數產生器用於將第一參數值設置為一且將第二參數值設置為一。
[0088]通過該種關係,參數音頻編碼器能夠有效地計算編碼參數。因此降低計算複雜度。
[0089]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第十二可能實施形式中,參數音頻編碼器進一步包括:下混合信號產生器,用於疊加多聲道音頻信號的音頻聲道信號中的至少兩者,以獲得下混合信號;音頻編碼器,具體而言單聲道編碼器,用於編碼下混合信號以獲得經編碼的音頻信號;以及組合器,用於將經編碼的音頻信號與對應的編碼參數組合。
[0090]下混合信號和經編碼的音頻信號可以用作參數產生器的參考信號。兩個信號都包括多個音頻聲道信號並且因此比用作參考信號的單聲道信號提供更高的精確性。
[0091]在根據第二方面或根據第二方面的前述實施形式中任一者的參數音頻編碼器的第十三實施形式中,第一編碼參數平均值是指音頻聲道信號的當前幀,並且另一第一編碼參數平均值是指音頻聲道信號的先前幀。
[0092]通過使用音頻聲道信號的當前幀和先前幀,可以有效地執行長時間平均。
[0093]在根據第二方面的第十三實施形式的參數音頻編碼器的第十四實施形式中,音頻聲道信號的當前幀與音頻聲道信號的先前幀是鄰接的。
[0094]當兩個幀是連續的時,音頻聲道信號中的尖峰在平均值中檢測到並且可以在參數音頻編碼器中考慮。因此編碼比無法檢測到尖峰的編碼更精確。
[0095]根據第三方面,本發明涉及一種用於產生多聲道音頻信號的多個音頻聲道信號中的音頻聲道信號的編碼參數的方法,每個音頻聲道信號具有音頻聲道信號值,所述方法包括:
[0096]-根據音頻聲道信號的音頻聲道信號值以及參考音頻信號的參考音頻信號值為多個音頻聲道信號中的音頻聲道信號確定第一組編碼參數,其中參考音頻信號是多個音頻聲道信號中的另一音頻聲道信號,
[0097]-基於音頻聲道信號的第一組編碼參數為音頻聲道信號確定第一編碼參數平均值,
[0098]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的至少一個另一第一編碼參數平均值為音頻聲道信號確定第二編碼參數平均值,以及
[0099]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的第二編碼參數平均值確定編碼參數。
[0100]所述方法可以在處理器上有效地執行。
[0101]參考音頻信號可以是多聲道音頻信號的音頻聲道信號中的一者。具體而言,參考音頻信號可以是形成兩個聲道的多聲道信號的實施例的立體聲信號的左音頻聲道信號或右音頻聲道信號。然而,參考音頻信號可以是形成用於確定編碼參數的參考的任何信號。此種參考信號可以在下混合多聲道音頻信號的聲道之後由單聲道下混合音頻信號形成,或在下混合多聲道音頻信號的聲道之後由下混合音頻信號的聲道中的一者形成。
[0102]根據第四方面,本發明涉及一種用於產生多聲道音頻信號的多個音頻聲道信號中的音頻聲道信號的編碼參數的方法,每個音頻聲道信號具有音頻聲道信號值,所述方法包括:
[0103]-根據音頻聲道信號的音頻聲道信號值以及參考音頻信號的參考音頻信號值為多個音頻聲道信號中的音頻聲道信號確定第一組編碼參數,其中參考音頻信號是從多個多聲道音頻信號中的至少兩個音頻聲道信號中獲得的下混合音頻信號,
[0104]-基於音頻聲道信號的第一組編碼參數為音頻聲道信號確定第一編碼參數平均值,
[0105]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的至少一個另一第一編碼參數平均值為音頻聲道信號確定第二編碼參數平均值,以及
[0106]-基於音頻聲道信號的第一編碼參數平均值以及音頻聲道信號的第二編碼參數平均值確定編碼參數。
[0107]所述方法可以在處理器上有效地執行。
[0108]參考音頻信號可以是多聲道音頻信號的音頻聲道信號中的一者。具體而言,參考音頻信號可以是形成兩個聲道的多聲道信號的實施例的立體聲信號的左音頻聲道信號或右音頻聲道信號。然而,參考音頻信號可以是形成用於確定編碼參數的參考的任何信號。此種參考信號可以在下混合多聲道音頻信號的聲道之後由單聲道下混合音頻信號形成,或在下混合多聲道音頻信號的聲道之後由下混合音頻信號的聲道中的一者形成。
[0109]根據第五方面,本發明涉及一種電腦程式,當在計算機上執行時,所述電腦程式用於實施根據本發明的第三和第四方面中的一者的方法。
[0110]所述電腦程式具有降低的複雜度並且因此可以有效地在電池壽命必須節省的移動終端中實施。當所述電腦程式在移動終端上運行時,電池壽命時間增加。
[0111]本文中所描述的方法可以實施為數位訊號處理器(DSP:Digital SignalP1cessor)、微控制器或任何其他輔助處理器中的軟體或實施為專用集成電路(ASIC:applicat1n specific integrated circuit)內的硬體電路。
[0112]本發明可以在數字電子電路中實施,或在計算機硬體、固件、軟體或其組合中實施。

【專利附圖】

【附圖說明】
[0113]將相對於以下圖式描述本發明的其他實施例,其中:
[0114]圖1示出根據實施形式的參數音頻編碼器的方塊圖;
[0115]圖2示出根據實施形式的參數音頻解碼器的方塊圖;
[0116]圖3示出根據實施形式的參數立體聲音頻編碼器和解碼器的方塊圖;以及
[0117]圖4示出根據實施形式的用於產生音頻聲道信號的編碼參數的方法的示意圖。

【具體實施方式】
[0118]圖1示出根據實施形式的參數音頻編碼器100的方塊圖。參數音頻編碼器100接收多聲道音頻信號101作為輸入信號,並且提供比特流作為輸出信號103。參數音頻編碼器100包括:參數產生器105,所述參數產生器耦合到多聲道音頻信號101上,用於產生編碼參數115 ;下混合信號產生器107,所述下混合信號產生器耦合到多聲道音頻信號101上,用於產生下混合信號111或和信號;音頻編碼器109,所述音頻信號耦合到下混合信號產生器107上,用於編碼下混合信號111以提供經編碼的音頻信號113 ;以及組合器117 (例如,比特流形成器),所述組合器耦合到參數產生器105和音頻編碼器109上以從編碼參數115和經編碼的信號113形成比特流103。
[0119]參數音頻編碼器100實施立體聲和多聲道音頻信號的音頻編碼方案,所述音頻編碼方案僅傳輸一個單音頻聲道,例如,下混合音頻聲道加上描述音頻聲道X1Iib]、X2[b]、…、X?[b]之間的「可感知相關差異」的額外參數。所述編碼方案是根據雙耳線索編碼(BCC),因為雙耳線索在編碼方案中起重要作用。如圖中所指示,多聲道音頻信號101的多個(M個)輸入音頻聲道X1 [b]、X2 [b]、…、Xm[b]被下混合到一個單音頻聲道111中,也表示為和信號。對於立體聲音頻信號,M等於2。如音頻聲道X1M、X2 [b]、…、XM[b]之間的「可感知相關差異」,編碼參數115,例如,聲道間時間差(ICTD)、聲道間電平差(ICLD)和/或聲道間相干性(ICC),是根據頻率和時間進行估計,並且作為輔助信息傳輸到圖2中所述的解碼器200。
[0120]實施BCC的參數產生器105以某一時間和頻率解析度處理多聲道音頻信號101。所使用的頻率解析度主要由聽覺系統的頻率解析度激發。心理聲學表明空間感知最可能基於聲輸入信號的臨界帶表示。通過使用具有子帶的可逆濾波器組來考慮這種頻率解析度,所述子帶具有與聽覺系統的臨界帶寬相等或成比例的帶寬。所傳輸的和信號111含有多聲道音頻信號101的所有信號分量是非常重要的。目標是完全保持每個信號分量。多聲道音頻信號101的音頻輸入聲道X1 [b]、X2[b]、…、XM[b]的簡單求和通常會引起信號分量的放大或衰減。換句話說,「簡單」總和中的信號分量的功率通常大於或小於每個聲道X1 [b]、x2[b]、…、XM[b]的對應信號分量的功率總和。因此,通過應用下混合裝置107使用下混合技術,所述下混合裝置使和信號111均衡化,使得和信號111中的信號分量的功率大致相同於多聲道音頻信號101的所有輸入音頻聲道X1 [b]、X2[b]、...、ΧΜ[?3]中的對應功率。輸入音頻聲道X1 [b]、X2[b]、…、xM[b]表示子帶b的聲道信號。頻域輸入音頻聲道表示為X1Ek]、X2[k]、…、XM[k],其中k表示頻率指數(頻率區),子帶b通常由若干頻率區k構成。
[0121]給定和信號111,參數產生器105合成立體聲或多聲道音頻信號115,使得ICTD、ICLD和/或ICC接近於原始多聲道音頻信號101的對應線索。
[0122]當考慮一個源的雙耳房間脈衝響應(BRIR)時,存在聽覺事件的寬度以及聽者包圍感與估計用於BRIR的早期和後期部分的IC之間的關係。然而,IC(或ICC)與普通信號(並且不僅僅是BRIR)的這些特性之間的關係並不直觀。立體聲和多聲道音頻信號通常含有同時活動的源信號的複雜混合,所述源信號由在閉合空間中錄音產生的反射信號分量疊加或者由用於人工創建空間印象的錄音工程師添加。不同源信號和它們的反射佔據時頻平面中的不同區域。這通過根據時間和頻率而變的ICTD、ICLD和ICC反映。在此情況下,瞬時ICTD、ICLD和ICC與聽覺事件方向以及空間印象之間的關係並不明顯。參數產生器105的策略是無目的地合成這些線索,使得這些線索接近於原始音頻信號的對應線索。
[0123]在實施形式中,參數音頻編碼器100使用具有帶寬等於等效矩形帶寬兩倍的子帶的濾波器組。非正式旁聽揭示出,當選擇更高頻率解析度時,BCC的音頻質量未得到顯著提高。較低頻率解析度是有利的,因為較低頻率解析度會引起需要傳輸到解碼器的ICTD、ICLD和ICC值較小且因此位率較低。關於時間解析度,以規則時間間隔考慮ICTD、ICLD和ICC。在實施形式中,約每4至16ms考慮ICTD、ICLD和ICC。應注意,除非在極短時間間隔內考慮線索,否則不會直接考慮優先效應。
[0124]參考信號與合成信號之間的通常獲得的可感知較小差異意味著與大範圍的聽覺空間圖像屬性有關的線索是通過以規則時間間隔合成ICTD、ICLD和ICC而隱式地進行考慮。傳輸這些空間線索所需的位率僅為幾kb/每秒,並且因此參數音頻編碼器100能夠以與單音頻聲道所需的位率接近的位率傳輸立體聲和多聲道音頻信號。圖4圖示了 ICC被估計為編碼參數115的方法。
[0125]參數音頻編碼器100包括:下混合信號產生器107,用於疊加多聲道音頻信號101的音頻聲道信號中的至少兩者,以獲得下混合信號111 ;音頻編碼器109,具體而言單聲道編碼器,用於編碼下混合信號111以獲得經編碼的音頻信號113 ;以及組合器117,用於將經編碼的音頻信號113與對應的編碼參數115組合。
[0126]參數音頻編碼器100產生多聲道音頻信號101的表示為XJbhX2M、《"、XM[b]的多個音頻聲道信號中的一個音頻聲道信號的編碼參數115。音頻聲道信號X1 [b]、X2 [b]、…、x?[b]中的每一者可以是包括頻域中表示為Xi[k]、X2[k]、…、XM[k]的數字音頻聲道信號值的數位訊號。
[0127]參數音頻編碼器100為其產生編碼參數115的示例性音頻聲道信號是具有信號值X1 [k]的第一音頻聲道信號X1 [b]。參數產生器105根據音頻聲道信號X1 [b]的音頻聲道信號值X1DO以及參考音頻信號的參考音頻信號值,為音頻聲道信號X1 [b]確定表示為IPD[b]的第一組編碼參數。
[0128]例如,用作參考音頻信號的音頻聲道信號是第二音頻聲道信號X2[b]。類似地,音頻聲道信號X1 [b]、X2[b]、…、XM[b]中的任何其他一者可以充當參考音頻信號。根據第一方面,參考音頻信號是音頻聲道信號中不等於產生編碼參數115的音頻聲道信號X1 [b]的另一音頻聲道信號。
[0129]根據第二方面,參考音頻信號是從多個多聲道音頻信號101的至少兩個音頻聲道信號中獲得(例如,從第一音頻聲道信號X1 [b]和第二音頻聲道信號X2[b]中獲得)的下混合音頻信號。在實施形式中,參考音頻信號是下混合信號111,也稱為由下混合裝置107產生的和信號。在實施形式中,參考音頻信號是由編碼器109提供的經編碼的信號113。
[0130]參數產生器105使用的示例性參考音頻信號是具有信號值X2 [k]的第二音頻聲道信號X2 [b] O
[0131]參數產生器105基於音頻聲道信號X1 [b]的第一組編碼參數IPD[b]為音頻聲道信號Xi[b]確定表示為IPD_n[i]的第一編碼參數平均值。
[0132]參數產生器105基於音頻聲道信號X1 [b]的第一編碼參數平均值IPDm_[i]以及音頻聲道信號X1 [b]的至少一個另一第一編碼參數平均值(表示為IPD_n[1-l])為音頻聲道信號XJb]確定表示為IPD_n lmg tem的第二編碼參數平均值。
[0133]在實施形式中,第一編碼參數平均值IPD_n[i]是指音頻聲道信號XJb]的當前幀i,並且另一第一編碼參數平均值IPDm_[1-l]是指音頻聲道信號X1 [b]的先前幀i_l。在實施形式中,音頻聲道信號X1 [b]的先前幀1-Ι是在當前幀i之前接收到的幀1-Ι,其中這兩個幀之間不存在其他幀。在實施形式中,音頻聲道信號XJb]的先前幀1-Ν是在當前幀i之前接收到的幀i_N,但是在這兩個幀之間已到達多個幀。
[0134]參數產生器105基於音頻聲道信號X1 [b]的第一編碼參數平均值IPDm_[i]並且基於音頻聲道信號X1 [b]的第二編碼參數平均值IPDnrean lmg tem確定表示為ICC的編碼參數115。
[0135]第一組編碼參數IPD[b]是聲道間相位差、聲道間電平差、聲道間相干性、聲道間強度差、子帶聲道間電平差、子帶聲道間相位差、子帶聲道間相干性、子帶聲道間強度差或其組合。聲道間相位差(ICPD)是信號對之間的平均相位差。聲道間電平差(ICLD)與耳間電平差(ILD)相同,即,左耳進入信號與右耳進入信號之間的電平差,但是更普遍地界定在任何信號對之間,例如,擴音器信號對、耳朵進入信號對等。聲道間相干性或聲道間相關性與耳間相干性(IC)相同,即,左耳進入信號與右耳進入信號之間的相似度,但是更普遍地界定在任何信號對之間,例如,擴音器信號對、耳朵進入信號對等。聲道間時間差(ICTD)與耳間時間差(ITD)相同,有時還稱為耳間時間延遲,即,左耳進入信號與右耳進入信號之間的時間差,但是更普遍地界定在任何信號對之間,例如,擴音器信號對、耳朵進入信號對等。子帶聲道間電平差、子帶聲道間相位差、子帶聲道間相干性以及子帶聲道間強度差與上文相對於子帶帶寬指定的參數有關。
[0136]參數產生器101確定隨後的音頻聲道信號值X1 [k]的相位差,以獲得第一組編碼參數IPD[b]。在實施形式中,音頻聲道信號X1 [b]和參考音頻信號X2[b]是頻域信號,並且音頻聲道信號值X1 [k]和參考音頻信號值X2 [k]與表示為[k]的頻率區間或表示為[b]的頻率子帶相關聯。在實施形式中,參數音頻編碼器100包括變換器,例如,用於變換頻域中的多個時域音頻聲道信號XJnhX2[η]以獲得多個音頻聲道信號XjbhXjb]的FFT裝置。在實施形式中,參數產生器101確定音頻聲道信號X1 [b]、X2[b]的每個頻率區間[k]或每個頻率子帶[b]的第一組編碼參數IPD [b]。
[0137]在第一步驟中,參數產生器105將時頻變換應用於時域輸入聲道,例如,第一輸入聲道X1 [η],以及時域參考聲道,例如,第二輸入聲道X2 [η]。在立體聲的情況下,這些是左聲道和右聲道。在優選實施例中,時頻變換是快速傅立葉變換(FFT)。在替代實施例中,時頻變換是餘弦調製濾波器組或複雜濾波器組。
[0138]在第二步驟中,參數產生器105將FFT的每個頻率區間[b]的互譜計算為:
[0139]c[b] = Xi[b]X^[b],
[0140]其中c[b]是頻率區間[b]的互譜並且X1 [b]和X2 [b]是兩個聲道的FFT係數。*表示復共軛性。對於這種情況,子帶[b]直接對應於一個頻率區間[k],頻率區間[b]和[k]確切地表示同一頻率區間。
[0141]或者,參數產生器105將每子帶[b]的互譜計算為:
[0142]c[b] = Ek=+kb_1 Xi [k]X2 [k],
[0143]其中C[b]是子帶[b]的互譜並且X1 [k]和X2[k]是兩個聲道的FFT係數。*表示復共軛性。kb是子帶b的開始區間並且kb+1是相鄰子帶b+Ι的開始區間。因此,kb與kb+1-l之間的FFT的頻率區間[k]表示子帶[b]。
[0144]聲道間相位差(IPD)基於互譜每子帶計算為:
[0145]IPD [b] =Z c [b]
[0146]其中運算Z是用以計算c [b]的角度的變量參數運算符。
[0147]在實施形式中,參數產生器101確定音頻聲道信號X1 [b]的第一編碼參數平均值IPDm_[i]作為頻率區間[b]或頻率子帶[b]上的音頻聲道信號X1 [b]的第一組編碼參數IPD [b]的平均值。
[0148]頻率區間[b]或頻率子帶[b]上的平均Iro(IPDmean)如以下方程式中定義的那樣進行計算:
[0149]τρη = _L_L
ir umean
[0150]其中K是計算平均值所考慮的頻率區間或頻率子帶的數目。
[0151]在實施形式中,參數產生器101確定音頻聲道信號X1 [b]的第二編碼參數平均值IPDm_—lmg—tem作為音頻聲道信號X1 [b]的多個幀上的多個第一編碼參數平均值IPD_n[i]的平均值,其中每個第一編碼參數平均值IPDm_[i]與多聲道音頻信號的幀[i]相關聯。
[0152]基於先前計算的IPDmean,參數產生器105計算IPD的長期平均值。IPDmean lmgtOT被計算為最後N個幀(例如,N可以設置為10)上的平均值。
[0153]TpQ = Σ/—I IPDniean [z]

mean—long—term
[0154]在實施形式中,參數產生器101確定第二編碼參數平均值IPDnrean lmg tOT與第一編碼參數平均值IPD_[i]之間的差的絕對值IPDdist。
[0155]為了評估IB)參數的穩定性,計算■―與IPDmeanlmg teM(IPDdist)之間的距離,這示出在最後N個幀過程中的IPD的評估。在優選實施例中,局部iro與長期iro之間的距離被計算為局部平均值與長期平均值之間的差的絕對值:
[0156]IPDdist = abs (IPDmean-1PDmean long term)
[0157]可以看出,如果IPDniean參數在先前幀上是穩定的,則距離IPDdist變得接近O。當相位差隨著時間推移穩定時,距離隨後等於零。此距離對聲道的相似性給出較好估計。
[0158]在實施形式中,參數產生器101根據所確定的絕對值IPDdist確定編碼參數ICC。在實施形式中,參數產生器101根據第一參數值d與乘以第二參數值e的所確定的絕對值IPDdist之間的差確定編碼參數ICC。在實施形式中,參數產生器101將第一參數值d設置為一併且將第二參數值e設置為一。
[0159]相干性或ICC參數被計算為ICC = 1-1PDdist,因為ICC和IPDdist具有間接的倒數關係。當聲道類似時,ICC接近1,且在這種情況下IPDdist變成等於O。
[0160]或者,用以界定ICC與IPDdist之間的關係的方程為被定義為ICC = d_e.1PDdist,其中d和e經更好地選擇以表示兩個參數之間的倒數關係。在另一實施例中,ICC與IPDdist之間的關係是通過在較大資料庫中訓練而獲得並且隨後被一般化為ICC = f (IPDdist)。
[0161]在音頻信號(例如,對於語言信號)的相關段過程中IPDdist較小並且在音頻輸入(例如,對於音樂信號)的擴散部分過程中,此IPDdist參數變得大得多,並且如果輸入聲道是去相關的,則IPDdist參數將接近I。因此,ICC和IPDdist具有間接的倒數關係。
[0162]圖2示出根據實施形式的參數音頻解碼器200的方塊圖。參數音頻解碼器200接收在通信聲道上傳輸的比特流203作為輸入信號,並且提供經解碼的多聲道音頻信號201作為輸出信號。參數音頻解碼器200包括:比特流解碼器217,所述比特流解碼器耦合到比特流203上,用於將比特流203解碼成編碼參數215和經編碼的信號213 ;解碼器209,所述解碼器耦合到比特流解碼器217上,用於根據經編碼的信號213產生和信號211 ;參數解碼器205,所述參數解碼器耦合到比特流解碼器217上,用於根據編碼參數215解碼參數221 ;以及合成器205,所述合成器耦合到參數解碼器205和解碼器209上,用於根據參數221以及和信號211合成經解碼的多聲道音頻信號201。
[0163]參數音頻解碼器200產生其多聲道音頻信號201的輸出聲道,使得聲道之間的ICTD, ICLD和/或ICC接近於原始多聲道音頻信號的那些ICTD、ICLD和/或ICC。所描述的方案能夠以比表示單聲道音頻信號所需的位率僅略高的位率表示多聲道音頻信號。由於聲道對之間的所估計的ICTD、ICLD和ICC含有比音頻波形少約兩個數量級的信息,因此產生以上情況。所關注的不僅是低位率而且是反向兼容性方面。所傳輸的和信號對應於立體聲或多聲道信號的單聲道下混合。
[0164]圖3示出根據實施形式的參數立體聲音頻編碼器301和解碼器303的方塊圖。參數立體聲音頻編碼器301對應於相對於圖1所述的參數音頻編碼器100,但是多聲道音頻信號101是具有左音頻聲道305和右音頻聲道307的立體聲音頻信號。
[0165]參數立體聲音頻編碼器301接收立體聲音頻信號305、307作為輸入信號,其包括左聲道音頻信號305和右聲道音頻信號307,並且提供比特流作為輸出信號309。參數立體聲音頻編碼器301包括:參數產生器311,所述參數產生器耦合到立體聲音頻信號305、307上,用於產生空間參數313 ;下混合信號產生器315,所述下混合信號產生器耦合到立體聲音頻信號305、307上,用於產生下混合信號317或和信號;單聲道編碼器319,所述單聲道編碼器耦合到下混合信號產生器315上,用於編碼下混合信號317以提供經編碼的音頻信號321 ;以及比特流組合器323,所述比特流組合器耦合到參數產生器311和單聲道編碼器319上,以將編碼參數313和經編碼的音頻信號321組合成比特流以提供輸出信號309。在參數產生器311中,抽取和量化空間參數313,隨後所述空間參數在比特流中進行多路復用。
[0166]參數立體聲音頻解碼器303接收比特流作為輸入信號,所述比特流即,在通信聲道上傳輸的參數立體聲音頻編碼器301的輸出信號309,並且提供具有左聲道325和右聲道327的經解碼的立體聲音頻信號作為輸出信號。參數立體聲音頻解碼器303包括:比特流解碼器329,所述比特流解碼器耦合到接收到的比特流309上,用於將比特流309解碼成編碼參數331和經編碼的信號333 ;單聲道解碼器335,所述單聲道解碼器耦合到比特流解碼器329上,用於根據經編碼的信號333產生和信號337 ;空間參數解碼器339,所述空間參數解碼器耦合到比特流解碼器329上,用於根據編碼參數331解碼空間參數341 ;以及合成器343,所述合成器耦合到空間參數解碼器或解析器339以及單聲道解碼器335上,用於根據空間參數341以及和信號337合成經解碼的立體聲音頻信號325、327。
[0167]參數立體聲音頻編碼器301中的處理能夠提取延遲,並且在時間和頻率中自適應地計算音頻信號的級別,以產生空間參數313,例如,聲道間時間差(ICTD)和聲道間電平差(ICLD)。此外,參數立體聲音頻編碼器301對聲道間相干性(ICC)合成有效地執行時間自適應濾波。在實施形式中,參數立體聲編碼器使用基於短時間傅立葉變換(STFT)的濾波器組,以便有效地實施具有低計算複雜度的雙耳線索編碼(BCC)方案。參數立體聲音頻編碼器301中的處理具有低計算複雜度和低延遲,使得參數立體聲音頻編碼適合於在微處理器或數位訊號處理器上適用地實施以用於實時應用。
[0168]圖3中描繪的參數產生器311在功能上與相對於圖1所描述的對應參數產生器105相同,不同的是已添加空間線索的量化和編碼用於說明。和信號317是利用常規的單聲道音頻編碼器319進行編碼。在實施形式中,參數立體聲音頻編碼器301使用基於STFT的時頻變換,以變換頻域中的立體聲音頻聲道信號305、307。STFT將離散傅立葉變換(DFT)應用於輸入信號x(n)的窗口化部分。在應用N點DFT之前,將N個樣本的信號巾貞乘以窗口長度W。相鄰窗口重疊並且移位W/2個樣本的距離。窗口經選擇,以使得重疊的窗口總計達恆定值I。因此,對於逆變換,不需要額外開窗口。解碼器303中使用尺寸N的簡單逆DFT,所述逆DFT具有W/2個樣本的連續幀的時間提前。如果未修改頻譜,則通過重疊/添加實現完美的重構。
[0169]由於STFT的均勻頻譜解析度未很好地適應人類感知,因此STFT的均勻間隔開的頻譜係數輸出被分組成具有較好地適應感知的帶寬的B非重疊分區。根據相對於圖1的描述,一個分區在概念上對應於一個「子帶」。在替代的實施形式中,參數立體聲音頻編碼器301使用不均勻的濾波器組來變換頻域中的立體聲音頻聲道信號305、307。
[0170]在實施形式中,下混合器315通過以下方程式確定均衡的和信號Sm(k)317的一個分區b或一個子帶b的頻譜係數:
[0171 ] Sm ⑷=Xcm [k),


c=l
[0172]其中Xe,m(k)是輸入音頻聲道305、307的頻譜並且eb(k)是如下進行計算的增益係數:
Γ ?ΙΣ:為,⑷
[。173] 叫H,
[0174]其中分區功率估計為,
Λ
[0175]/\Λ ⑷=Σ I (k) I'

m=Ab_{
[0176]Ph ⑷=X I X Xcjn [k) I2。

m=Ab_i c=l
[0177]當子帶信號的總和的衰減顯著時,為了防止較大增益因數引起的非自然信號,增益因數eb(k)可以限制為6dB,即,eb(k) ( 2。
[0178]在實施形式中,參數產生器311將時頻變換,例如,上述STFT或FFT應用到輸入聲道上,例如,應用到左聲道305和右聲道307上。在實施形式中,時頻變換是快速傅立葉變換(FFT)。在替代實施形式中,時頻變換是餘弦調製濾波器組或複雜濾波器組。
[0179]參數產生器311將FFT或STFT的每個頻率區間[b]的互譜計算為:
[0180]c[b] = Xi^X^b]
[0181]對於這種情況,子帶[b]直接對應於一個頻率區間[k],頻率區間[b]和[k]確切地表示同一頻率區間。
[0182]或者,參數產生器311將每子帶[k]的互譜計算為:

kb+i_l
[0183]c[b] = [ X1 [k]X^ [k]

k—kb
[0184]其中c [b]是區間b或子帶k的互譜。X1Di]和X1Di]是左聲道305和右聲道307的FFT係數。運算符*表示復共軛性。kb是子帶k的開始區間並且kb+1是相鄰子帶b+Ι的開始區間。因此,kb與kb+1-l之間的FFT或STFT的頻率區間[k]表示子帶[b]。
[0185]聲道間相位差(IPD)是基於互譜每子帶計算為:
[0186]IPD [b] =Z c [b]
[0187]其中運算Z是用以計算c[b]的角度的變量參數運算符。
[0188]在下文中,參數產生器311如以下方程式所定義的那樣計算頻率區間或頻率子帶上的平均 IPD(IPDmean):
「 ?Er-1IPDM
[_] IPDmean = k_1K
[0190]其中K是計算平均值所考慮的頻率區間或頻率子帶的數目。
[0191]隨後,基於先前計算的1?0_1,參數產生器311計算IPD的長期平均值。IPDmean long_term被計算為最後N個幀上的平均值,在實施形式中,N設置為10。
[0192]ιρπ— Σ/—? IPDnKtin [^]

mean—long—term
[0193]為了評估IPD參數的穩定性,參數產生器311計算IPD_與IPDnreanlmg t_之間的距離IPDdist,這示出在最後N個幀過程中IPD的演進。在實施形式中,局部IB)與長期IPD之間的距離被計算為局部平均值與長期平均值之間的差的絕對值:
[0194]IPDdist = abs (IPDmean-1PDmean long term)
[0195]可以看出,如果IPDniean參數在先前幀上是穩定的,則距離IPDdist變得接近O。當相位差隨著時間推移穩定時,距離隨後等於零。此距離對聲道的相似性給出較好估計。
[0196]在實施形式中,參數產生器311將相干性或ICC參數計算為ICC = 1-1I3Ddist,因為ICC和IPDdist具有間接的倒數關係。當聲道類似時,ICC接近1,且在這種情況下IPDdist變成等於O。
[0197]或者,參數產生器311使用被定義為ICC = d-e.1PDdist的ICC與IPDdist之間的關係,其中d和e是經選擇以更好地表示兩個參數ICC與IPDdist之間的倒數關係的參數。在替代實施形式中,參數產生器311通過在較大數據上訓練來獲得ICC與IPDdist之間的關係,所述關係被一般化為ICC = f (IPDdist)。
[0198]在音頻信號(例如,對於語言信號)的相關段過程中,IPDdist較小,並且在音頻輸入(例如,對於音樂信號)的擴散部分過程中,此IPDdistS數變得大得多,並且如果輸入聲道是去相關的,則IPDdist參數將接近I。因此ICC和IPDdist具有間接的倒數關係。
[0199]參數產生器311使用IPDdist來粗略地估計ICC。互譜需要低於相關性計算的複雜度。此外,在參數空間音頻編碼器中計算iro的情況下,已計算此互譜並且隨後總體複雜度降低。
[0200]圖4示出根據實施形式的用於產生編碼參數的方法400的示意圖。方法400用於產生多聲道音頻信號的多個音頻聲道信號X1 [n]、X2 [η]中的音頻聲道信號X1 [η]的編碼參數ICC。每個音頻聲道信號X1 [n]、X2[η]具有音頻聲道信號值。圖4描繪了其中多個音頻聲道信號包括左音頻聲道X1 [η]和右音頻聲道χ2[η]的立體聲情況。方法400包括:
[0201]將FFT變換401應用到左音頻聲道信號X1 [η]並且將FFT變換403應用到右音頻聲道信號x2[n]以獲得頻域音頻聲道信號X1 [b]和X2[b],其中相對於頻域中的頻率區間[b],X1M是左音頻聲道信號並且X2 [b]是右音頻聲道信號。或者,將濾波器組變換應用於左音頻聲道信號X1 [η]並且應用於右音頻聲道信號X2[η]上,以獲得頻率子帶中的音頻聲道信號
X1[b]、X2 [b],其中[b]表示頻率子帶;
[0202]確定405左音頻聲道信號X1 [b]和右音頻聲道信號X2 [b]的每個頻率區間[b]的互相關c[b];或者確定405左音頻聲道信號X1 [b]和右音頻聲道信號X2[b]的每個頻率子帶[b]的互相關c [b];
[0203]根據音頻聲道信號X1 [b]的音頻聲道信號值以及參考音頻信號X2 [b]的參考音頻信號值為多個音頻聲道信號的音頻聲道信號X1 [b]確定407第一組編碼參數IPD[b],其中參考音頻信號是多個音頻聲道信號中的另一音頻聲道信號X2[b]或從多個多聲道音頻信號的至少兩個音頻聲道信號中獲得的下混合音頻信號。圖4描繪了其中確定407為左音頻聲道信號X1 [b]確定第一組編碼參數IPD [b]以及其中參考音頻信號是右音頻聲道信號X2 [b]的立體聲情況;
[0204]基於音頻聲道信號X1 [b]的第一組編碼參數IPD[b]為音頻聲道信號X1 [b]確定409第一編碼參數平均值IPDmean[i];
[0205]基於音頻聲道信號X1 [b]的第一編碼參數平均值IPD_n[i]以及音頻聲道信號X1M的至少一個另一第一編碼參數平均值IPD_n[1-l]為音頻聲道信號XJb]確定411第二編碼參數平均值IPD_n—lmg—tem。另一第一編碼參數平均值IPD_n[1-l]是根據音頻聲道信號XJb]的先前N-1個幀計算出;以及
[0206]基於音頻聲道信號X1 [b]的第一編碼參數平均值IPD_n[i]以及音頻聲道信號X1M的第二編碼參數平均值IPDmean lmg tom確定413或計算編碼參數ICC。
[0207]在實施形式中,音頻聲道信號X1 [b]的第一組編碼參數IPD [b]已可用,且方法400以上述步驟409、411和413開始。
[0208]儘管未在圖4中描繪,但是方法400適用於多聲道音頻信號的一般情況,參考信號隨後為另一音頻聲道信號或相對於圖1所描述的下混合音頻信號。
[0209]在實施形式中,方法400以如下方式進行處理:
[0210]在第一步驟401、403中,將時頻變換應用於輸入聲道上(在立體聲情況下為左和右)。在優選實施例中,時頻變換是快速傅立葉變換(FFT)。在替代實施例中,時頻變換可以是餘弦調製濾波器組或複雜濾波器組。
[0211]在第二步驟405中,FFT的每個頻率區間的互譜被計算為:
[0212]c[b] = XifbjX^b]
[0213]其中子帶[b]直接對應於一個頻率區間[k],頻率區間[b]和[k]確切地表示同一頻率區間。
[0214]或者,互譜可以每子帶被計算為:

kb+i—1
[0215]c[b] = H X1MX^k]

k=kb
[0216]其中c[b]是區間b或子帶b的互譜。XJk]和X2[k]是兩個聲道(例如,在立體聲情況下為左聲道和右聲道)的FFT係數。*表示復共軛性。kb是子帶b的開始區間並且kb+1是相鄰子帶b+Ι的開始區間。因此,kb與kb+1-l之間的FFT的頻率區間[k]表示子帶[b]。
[0217]在第三步驟407中,聲道間相位差(IPD)基於互譜每子帶被計算為:
[0218]IPD [b] =Z c [b]
[0219]其中運算Z是用以計算c[b]的角度的變量參數運算符。
[0220]在第四步驟409中,頻率區間(或頻率子帶)上的平均IPD(IPDmean)還如以下方程式中所定義的那樣計算:
ΓIΣ?-ΟΡΟΜ
[0221]IPDmean = R
[0222]其中K是計算平均值所考慮的頻率區間或頻率子帶的數目。
[0223]在第五步驟411中,基於先前計算的IPDmean計算IPD的長期平均值。IPDmean lmgtOT被計算為最後N個幀(例如,N可以設置為10)上的平均值。
[0224]IPD=工.,=1.1PDmam [,.]
1 — — N
[0225]為了評估IPD參數的穩定性,計算IPDmean與IPDmeanlmg tem之間的距離(IPDdist),這示出在最後N個幀過程中的IPD的演進。在優選實施例中,局部iro與長期iro之間的距離被計算為局部平均值與長期平均值之間的差的絕對值:
[0226]IPDdist = abs (IPDmean-1PDmean long term)
[0227]可以看出,如果IPDniean參數在先前幀上是穩定的,則距離IPDdist變得接近O。當相位差隨著時間推移穩定時,距離隨後等於零。此距離對聲道的相似性給出較好估計。
[0228]在第六步驟413中,相干性或ICC參數通過ICC = 1-1PDdist進行計算,因為ICC和IPDdist具有間接的倒數關係。當聲道類似時,ICC接近I,且在這種情況下IPDdist變成等於O0
[0229]在第六步驟413的替代實施形式中,用以定義ICC與IPDdist之間的關係的方程式被定義為ICC = d-e.1PDdist,其中參數d和e經選擇以更好地表示兩個參數ICC與IPDdist之間的倒數關係。在第六步驟413的另一實施形式中,ICC與IPDdist之間的關係是通過在較大資料庫上訓練而獲得,並且可以被一般化為ICC = f (IPDdist)。
[0230]在音頻信號(例如,對於語言信號)的相關段過程中IPDdist較小,並且在音頻輸入(例如,對於音樂信號)的擴散部分過程中,此IPDdist參數變得大得多,並且如果輸入聲道是去相關的,則IPDdist參數將接近I。因此ICC和IPDdist具有間接的倒數關係。
[0231]根據上文,提供關於錄音媒體以及類似者的各種方法、系統、電腦程式對於所屬領域的技術人員而言是顯而易見的。
[0232]本發明還支持包括計算機可執行代碼或者計算機可執行指令的電腦程式產品,其在執行時引起至少一個計算機執行本文中所描述的執行和計算步驟。
[0233]本發明還支持用於執行本文中所描述的執行和計算步驟的系統。
[0234]根據上述教示,許多替代方式、修改和變型對於所屬領域的技術人員而言將是顯而易見的。當然,所屬領域的技術人員容易認識到,除了本文中所描述的那些應用之外,存在許多本發明的應用。儘管已參考一個或多個特定實施例描述本發明,但是所屬領域的技術人員將認識到,在不脫離本發明的精神和範圍的情況下可以對本發明作出許多修改。因此,應理解,在所附權利要求書及其等效物的範圍內,可以不同於如本文中所具體描述的方式實踐本發明。
[0235]本發明的對應實施例可以應用於ITU-T G.722、G.722附錄B、G.711.1和/或G.711.1附錄D的立體聲擴展的編碼器中。此外,所描述的方法還可以應用於如3GGPEVS (增強語音服務)編解碼器中定義的移動應用的語言和音頻編碼器。
【權利要求】
1.一種參數音頻編碼器(100),用於產生多聲道音頻信號的多個音頻聲道信號X1 [b]和x2[b]中的音頻聲道信號X1 [b]的編碼參數ICC的參數音頻編碼器(100),每個音頻聲道信號Xi[b]、X2[b]具有音頻聲道信號值X1 [k]和X2 [k],所述參數音頻編碼器(100)包括參數產生器(105),所述參數產生器(105)用於 根據所述音頻聲道信號X1 [b]的所述音頻聲道信號值X1 [k]以及參考音頻信號X2 [b]的參考音頻信號值X2 [k]為所述多個音頻聲道信號中的所述音頻聲道信號X1 [b]確定第一組編碼參數IPD[b],其中所述參考音頻信號是所述多個音頻聲道信號中的另一音頻聲道信號X2[b]或從所述多個多聲道音頻信號的至少兩個音頻聲道信號中獲得的下混合音頻信號,基於所述音頻聲道信號X1 [b]的所述第一組編碼參數IPD[b]為所述音頻聲道信號X1M確定第一編碼參數平均值IPDm_[i], 基於所述音頻聲道信號X1 [b]的所述第一編碼參數平均值IPD_n[i]以及所述音頻聲道信號X1 [b]的至少一個另一第一編碼參數平均值IPDm_[1-l]為所述音頻聲道信號X1 [b]確定第二編碼參數平均值IPDm_—lmg—tOT,以及 基於所述音頻聲道信號X1 [b]的所述第一編碼參數平均值IPD_n[i]以及所述音頻聲道信號X1 [b]的所述第二編碼參數平均值IPD_ lmg tem確定所述編碼參數ICC。
2.根據權利要求1所述的參數音頻編碼器(100),其中所述第一組編碼參數IPD[b]是以下參數中的一種: 聲道間電平差, 聲道間相位差, 聲道間相干性, 聲道間強度差, 子帶聲道間電平差, 子帶聲道間相位差, 子帶聲道間相干性,以及 子帶聲道間強度差。
3.根據權利要求1或2所述的參數音頻編碼器(100),其中所述參數產生器(105)用於確定隨後的音頻聲道信號值X1 [k]的相位差以獲得所述第一組編碼參數IPD[b]。
4.根據上述權利要求中的任一項權利要求所述的參數音頻編碼器(100),其中所述音頻聲道信號X1 [b]以及所述參考音頻信號X2[b]是頻域信號,並且其中所述音頻聲道信號值X1 [k]以及所述參考音頻信號值X2 [k]與頻率區間k或頻率子帶b相關聯。
5.根據上述權利要求中的任一項權利要求所述的參數音頻編碼器(100),進一步包括變換器FFT,用於變換頻域中的多個時域音頻聲道信號X1 [η]和&[11]以獲得所述多個音頻聲道信號X1M和X2 [b]。
6.根據上述權利要求中的任一項權利要求所述的參數音頻編碼器(100),其中所述參數產生器(105)用於確定所述音頻聲道信號X1 [b]和X2[b]的每個頻率區間[k]或每個頻率子帶[b]的所述第一組編碼參數IPD [b]。
7.根據上述權利要求中的任一項權利要求所述的參數音頻編碼器(100),其中所述參數產生器(105)用於確定所述音頻聲道信號X1 [b]的所述第一編碼參數平均值IPD_n[i]作為頻率區間[k]或頻率子帶[b]上的所述音頻聲道信號X1 [b]的所述第一組編碼參數IPD [b]的平均值。
8.根據上述權利要求中的任一項權利要求所述的參數音頻編碼器(100),其中所述參數產生器(105)用於確定所述音頻聲道信號X1 [b]的所述第二編碼參數平均值IPDmean lmg,_作為所述音頻聲道信號X1 [b]的多個幀上的多個第一編碼參數平均值IPDm_[i]的平均值,其中每個第一編碼參數平均值IPDm_[i]與所述多聲道音頻信號的幀i相關聯。
9.根據上述權利要求中的任一項權利要求所述的參數音頻編碼器(100),其中所述參數產生器(105)用於確定所述第二編碼參數平均值IPDnrean lmg tem與所述第一編碼參數平均值IPDmean[i]之間的差的絕對值IPDdist。
10.根據權利要求9所述的參數音頻編碼器(100),其中所述參數產生器(105)用於根據所確定的絕對值IPDdist確定所述編碼參數ICC。
11.根據權利要求9或權利要求10所述的參數音頻編碼器(100),其中所述參數產生器(105)用於根據第一參數值d與乘以第二參數值e的所述所確定的絕對值IPDdist之間的差來確定所述編碼參數ICC。
12.根據權利要求11所述的參數音頻編碼器(100),其中所述參數產生器(105)用於將所述第一參數值d設置成I並且將所述第二參數值e設置成I。
13.根據上述權利要求中的任一項權利要求所述的參數音頻編碼器(100),進一步包括:下混合信號產生器,用於疊加所述多聲道音頻信號的所述音頻聲道信號中的至少兩者,以獲得下混合信號;音頻編碼器,具體而言單聲道編碼器,用於編碼所述下混合信號以獲得經編碼的音頻信號;以及組合器,用於將所述經編碼的音頻信號與對應的編碼參數組合。
14.一種用於產生多聲道音頻信號的多個音頻聲道信號X1 [b]和X2[b]中的音頻聲道信號X1 [b]的編碼參數ICC的方法(400),每個音頻聲道信號X1 [b]和X2 [b]具有音頻聲道信號值X1 [k]和X2 [k],所述方法(400)包括: 根據所述音頻聲道信號X1 [b]的所述音頻聲道信號值X1 [k]以及參考音頻信號X2 [b]的參考音頻信號值X2 [k]為所述多個音頻聲道信號中的所述音頻聲道信號X1 [b]確定(407)第一組編碼參數IPD[b],其中所述參考音頻信號是所述多個音頻聲道信號中的另一音頻聲道信號X2 [b]或從所述多個多聲道音頻信號的至少兩個音頻聲道信號中獲得的下混合音頻信號, 基於所述音頻聲道信號X1 [b]的所述第一組編碼參數IPD[b]為所述音頻聲道信號X1M確定(409)第一編碼參數平均值IPDmeaJi], 基於所述音頻聲道信號X1 [b]的所述第一編碼參數平均值IPD_n[i]以及所述音頻聲道信號X1 [b]的至少一個另一第一編碼參數平均值IPDm_[1-l]為所述音頻聲道信號X1 [b]確定(411)第二編碼參數平均值IPDmean lmg tmi,以及 基於所述音頻聲道信號X1 [b]的所述第一編碼參數平均值IPD_n[i]以及所述音頻聲道信號XJb]的所述第二編碼參數平均值IPDmean lmg tem確定(413)所述編碼參數ICC。
15.一種用於當在計算機上執行時實施根據權利要求14所述的方法的電腦程式。
【文檔編號】H04S3/00GK104246873SQ201280069724
【公開日】2014年12月24日 申請日期:2012年2月17日 優先權日:2012年2月17日
【發明者】郎玥, 大衛·維雷特, 許劍峰 申請人:華為技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀