用於從兩聲道音頻信號進行環境提取的基於相關的方法

2023-06-18 23:39:51 1

專利名稱：用於從兩聲道音頻信號進行環境提取的基於相關的方法
技術領域：
本發明涉及音頻處理技術。更具體地，本發明涉及用於從音頻信號提取環境的系統和方法。
背景技術：
各種技術可用於從兩聲道立體聲信號提取環境分量(ambiencecomponent)。立體聲信號可被分解成基本分量(primary component)和環境分量。這些方法的一個常見應用是收聽增強系統(listening enhancementsystem)，其中環境信號分量被修改和/或被空間地重新分布於多聲道揚聲器之上，同時基本信號分量不被修改或者被不同地處理。在這些系統中，環境分量通常被定向至環繞揚聲器。此環境重新分布幫助增加了收聽體驗中的沉浸感，而沒有損害立體聲的音場(sound stage) 0一些現有的頻域環境提取方法導出作為時間和頻率的函數的、描述輸入信號中的環境量(amount of ambience)的乘法屏蔽(multiplicativemask)。這些方案使用用於從輸入信號的相關量來確定這些環境提取屏蔽(ambience extraction mask)的專門函數，導致了次優的提取性能。當主要的(非環境的)源被移動(pan)到每個聲道時，一個特定的誤差來源(source of error)便出現；現有方法容許這些情況下主要源的顯著洩漏。現有方法中的另一誤差來源產生自對互相關係數的幅度的短期估計。短期估計對於基於屏蔽的方法的操作而言是必要的，但是用於短期估計的現有方法導致了對環境量的低估。所希望的是用於環境提取的改進方法。

發明內容
本發明提供了用於利用環境提取屏蔽從多聲道輸入信號提取環境分量的系統和方法。對環境提取屏蔽的求解基於從輸入信號計算的信號相關量，並且取決於關於信號模型中的環境分量的各種假設。本發明在各種實施例中實現了時頻分析合成框架中的環境提取。環境是基於所導出的乘法屏蔽來提取的，所導出的乘法屏蔽反映了每個頻帶內的輸入信號的當前所估計組成。一般地，操作是在感興趣的每個頻帶中獨立地執行的。就輸入信號的互相關和自相關而言來表達結果。利用時頻表示來執行分析合成，因為這樣的表示促進了基本分量和環境分量的解析度。在每個時間和頻率處，估計每個輸入聲道的環境分量。根據本發明的一個方面，一種從多聲道輸入信號進行環境提取的方法包括將輸入信號轉換成時頻表示。對於輸入聲道信號的時頻表示的自相關和互相關被確定。基於所確定的自相關和互相關的環境提取屏蔽被乘法地應用於輸入聲道信號的時頻表示以導出環境分量。屏蔽基於與輸入信號的各個聲道中的環境水平有關的假設關係。根據本發明的另一個方面，一種環境提取的方法包括分析輸入信號以確定輸入信號中的環境量。分析輸入信號包括估計短期互相關係數。該方法還包括補償短期互相關係數的估計中的偏置。根據本發明的另一個方面，提供了一種用於從多聲道輸入信號提取環境分量的系統。該系統包括時間到頻率變換模塊、相關計算模塊、環境屏蔽導出模塊、環境屏蔽乘法模塊和頻率到時間變換模塊。時間到頻率變換模塊被配置為將多聲道輸入信號轉換成對於多聲道輸入信號的各個聲道的時頻表示。相關計算模塊被配置為確定信號相關，信號相關包括時頻表示中對於每個時間和頻率的互相關和自相關。環境屏蔽導出模塊被配置為根據所確定的信號相關以及與多聲道輸入信號的各個聲道中的環境水平有關的假設關係來導出環境提取屏蔽。環境屏蔽乘法模塊被配置為將環境提取屏蔽與時頻表示相乘，以生成多聲道輸入信號的各個聲道的環境分量的時頻表示。頻率到時間變換模塊被配置為將環境分量的時頻表示轉換成各個時間表示。下面參考附圖來描述本發明的這些和其他的特徵和優點。

圖1A和圖1B示出了作為相關係數和輸入信號之間的水平差異的函數的環境屏蔽的環境比和性狀(behavior)。圖1C是示出根據本發明的一個實施例的提取環境的方法的流程圖。圖2示出對於遺忘因子\的一個範圍的所估計互相關係數的實部、虛部和幅度的概率分布函數。圖3示出對於\的一個範圍、作為真實| cK」的函數的平均估計的相關係數幅度
小 LE I °圖4是示出根據本發明的一個實施例的環境提取的方法的流程圖。圖5示出根據本發明的各種實施例的、用於從多聲道輸入信號提取環境分量的系統。
具體實施例方式現在將詳細參考本發明的優選實施例。優選實施例的示例在附圖中被示出。雖然本發明將結合這些優選實施例來描述，但是將會被理解的是，不希望將本發明限制到這樣的優選實施例。相反，希望覆蓋可被包括在所附權利要求限定的本發明的精神和範圍內的替換、修改和等同物。在下面的描述中，陳述了許多具體細節以提供對本發明的徹底理解。可在沒有一些或全部的這些具體細節的情況下實踐本發明。在其他實例中，公知的機制沒有被詳細地描述，以便不會不必要地模糊本發明。這裡應當注意，貫穿各種繪圖，類似的標號指稱類似的部分。這裡所示出和描述的各種繪圖被用來示出本發明的各種特徵。在特定特徵在一個繪圖中而非在另一繪圖中被示出的範圍內，除去另有指示的情況或者結構固有地禁止特徵的結合的情況，要理解的是，這些特徵可適於被包括在其他圖中所表示的實施例中，仿佛它們在這些圖中被充分地示出。除非另有註明，否則繪圖未必是按比例的。繪圖上所提供的任何尺寸對於本發明的範圍而言不希望是限制性的，而希望是僅僅例示性的。1.介紹本發明的實施例提供了用在空間音頻增強算法中的環境提取的改進的系統和方法，空間音頻增強算法例如2到N的環繞上混合(upmix)、改進的頭戴式耳機再現、以及揚聲器上的沉浸虛擬化。本發明實施例包括基於信號模型以及從輸入信號計算出的相關量的、用於每個輸入信號中的時間依賴和頻率依賴的環境量的分析解法。算法在頻域中操作。分析解法提供了相對於現有技術的顯著質量改進。本發明實施例還包括用於補償對環境量的低估的方法，其中對環境量的低估是由短期互相關估計的幅度中的偏置引起的。為了進一步闡述，本發明實施例提供了在給出輸入信號的自相關和互相關的情況下針對環境提取屏蔽的分析解法。這些解法基於與輸入聲道內的相對環境水平有關的某些假設以及信號模型。關於相對水平的兩個不同假設被描述。根據一些實施例，技術被提供以補償小時間常數對短期互相關估計的平均幅度的影響。時間常數的補償預期對於利用短期互相關計算的任何技術都是有用的，上述技術包括商業可得的環境提取方法以及當前的空間音頻編碼標準。在目前最先進的立體聲上混合中，在基本(直接)聲音與環境之間進行區別是常見的。基本聲音由可定位的聲音事件所組成，並且上混合的通常目標是保持相對的位置並且增強基本源的空間圖像穩定性。另一方面，環境由混響(reverberation)或其他空間分布的聲源所組成。立體聲揚聲器系統被限制在它呈現周圍環境的能力中，但是可通過提取環境並且(部分地)將環境分布於多聲道揚聲器系統的環繞聲道來克服此限制。當提取環境時，可使用單聲道方法，其中利用基於輸入信號的自相關和互相關的標量環境提取屏蔽，來從左輸入信號提取左環境聲道並從右輸入聲道提取右環境聲道。然而，為了使所選擇的時間和頻率解析度內的所估計環境信號的幅度與真實環境信號的幅度相對應，提取屏蔽應當與各個聲道中的環境的比例相對應。為了解出環境分量的時間依賴和頻率依賴的水平，進行關於輸入信號的、具體地關於輸入信號中的環境水平的某些假設是有幫助的。在本發明的不同實施例中，對於環境水平做了不同的假設。在第一實施例中，在輸入信號的各個聲道(例如左和右聲道)內假設了相等的比。在第二實施例中，假設了輸入信號的各個聲道(例如左和右聲道)中的相等環境水平。一般地，兩聲道輸入信號的聲道被稱為「左」和「右」聲道。這些方法提供了從輸入內容提取環境的進一步改進，其中主要的(非環境的)源被移動到任何特定的聲道。此外，根據本發明的各種實施例，利用應用到所估計互相關係數的幅度上的補償因子，來改進對互相關係數的短時估計。這樣，更有效的環境提取屏蔽可被導出並且被應用於輸入信號，以用於提取環境。2. 一般的考慮2. 1.環境提取框架在時頻(time-frequency)分析合成(analysis-synthesis)框架中實現這裡所描述的環境提取技術。對於多個非固定的基本源的任意混合，此方法實現了對同時的源(假如它們在頻率上基本不重疊)的魯棒且獨立的處理、以及從混合中對環境分量的魯棒提取。還可基於人類聽覺系統如何處理空間線索(spatial cue)的心理聲學 (psychoacoustical)證據而啟示出時頻處理框架(參見 J. Blauert，Spatial Hearing The Psychophysics of HumanSound Localization. Cambridge, MA, USA :The MIT Press, revised ed.，1997，其內容通過引用而被全部結合於此)。對於下面第3節中描述的方法，環境提取處理是以導出乘法屏蔽為基礎的，其中乘法屏蔽反映了每個頻帶內的輸入信號的當前所估計組成。屏蔽然後在頻域中應用於輸入信號，因而有效地實現了時變的過濾。2. 2.記法和定義一般地，針對具有由所選擇的時間解析度確定的任意有限持續時間的解析(複數的)時域信號，來導出此詳細描述中的表達式。複數表示法(complex formulation)使得能夠將方程直接應用於從輸入信號的短時傅立葉變換(short-time Fourier transform) (STFT)產生的個體變換指標(transform index)(頻帶)。此外，方程不加修改地適用於實信號，並且可容易地應用於其他的時頻信號表示，例如通過任意濾波器組(filterbank)導出的子帶信號。此外，假設運算是在感興趣的每個頻帶中獨立地執行的。(子帶)時域信號一般表示為列向量，並且在信號標誌之上被標以箭頭符號(例如X)。然而，為了更加清楚地展示，時間依賴性和/或頻率依賴性在一些情況下被顯式地(explicitly)寫成記號 (notate)，並且向量符號被省略。至於信號模型，組成信號的真實分量被標以正常符號(例如λ )，並且對這些分量的估計被標以相應的斜體符號(例如j )。按照兩個輸入信號的相關來表達此詳細描述中所導出的很多結果。信號足=W1] [2]… [斤]]"和毛=[ [1] ΧΛ[2]… [叫]7■的自相關和
互相關出於本說明書的目的而被定義為並且互相關係數被定義為其中τ標示轉置，Η標示Hermitian轉置，*標示復共軛，並且| |. | |標示向量的幅度。注意，信號向量的幅度等同於相應自相關的平方根。2. 3.信號模型出於此詳細描述的目的，處於單個頻帶的並且在感興趣的時間段內的任何輸入信號被假設為由單個基本分量和環境所組成其中&和&是基本分量，並且是環境分量。在可能存在多個基本聲音的情況中，此假設不完全有效，但是它已證明是在時頻環境提取框架內的合理近似。為了估計基本的和環境的信號分量，關於它們的性質可做一些進一步的假設。在此詳細描述中稍後討論的情況下，假設兩個環境信號互相不相關，並且與基本聲音不相關。此外，可假設基本信號的互相關係數具有一個基本信號的幅度，這意思是除了可能的水平和相位的差異以外、基本信號是相同的。允許水平和相位的差異有效地實現了基本聲音的範疇內的幅度以及/或者延遲移動的(delay-panned)和矩陣編碼的分量(為了在矩陣編碼/解碼的上下文中對環境提取進行進一步的討論，參見J. -M. Jot, A. Krishnaswamy, J. Laroche, J. Merimaa,and M. M. Goodwin, "Spatial AudioScene Coding in a universal two-channel 3-D stereo format,，，in AES 123rdConvention,(New York,NY,USA),October 2007，其內容通過引用而被全部結合於此)。利用以上的假設，其中|. |標示複數的幅度。3.環境提取屏蔽基於第2. 3節中定義的信號模型，可導出適用於第2. 1節的框架的幾個環境提取方法。此節專注於單聲道的方法，其中利用基於輸入信號的自相關和互相關的標量環境提取屏蔽，來從左輸入信號提取左環境聲道並從右輸入聲道提取右環境聲道。處理可形式地描述為(9) AL(t, f) = a L (t，f) XL (t，f)AE(t, f) = a E(t, f)XE(t, f)其中ciL(t，f)和aK(t，f)是環境提取屏蔽，t是時間，並且f是頻率。出於此節的目的，dL(t，f)和aK(t，f)限於實的正值。為了使所選擇的時間和頻率解析度內的所估計環境信號的幅度與真實環境信號的幅度相對應，提取屏蔽應當與各個聲道中的環境的比例相對應。也就是說，根據的屏蔽被尋找，其中環境信號的真實水平需要被估計。方程(6)和⑶給出了在已知輸入信號的自相關和互相關與四個未知信號分量的水平之間的三個關係，四個未知信號分量是左基本聲音和環境以及右基本聲音和環境。為了有效地解出環境分量的時間依賴和頻率依賴的水平，可進行關於輸入信號的額外假設。在下面的第3. 1和3. 2小節中調查了兩個可替代的假設。
8
3. 1.相等的環境比在一些工作中(例如，參見 C. Avendano and J. -Μ. Jot, "A frequency-domain approach to multichannel upmix,，，L. Audio Eng. So. ,vol. 52,pp. 740-749, July/August 2004，其內容被通過引用而全部結合於此並且在這裡被稱為「C. Avendano and J. -Μ. Jot, July/August 2004」)，共同的屏蔽被用來從左和右信號提取環境。該屏蔽可被表示為對二進位屏蔽方法的軟判決(soft-decision)替換。在二進位情況下，在每個時間和頻率處，進行關於信號是由基本分量還是由環境組成的判決；如果信號被認為是環境的則環境提取屏蔽被選為1，並且如果信號被認為是基本的則環境提取屏蔽被選為0。因為這樣的硬判決 (hard decision)方法導致了不希望的假象(artifact)，所以軟判決函數被引入以從相關係數來確定共同屏蔽其中Γ (.)是基於環境提取處理的所希望的特性而選擇的非線性函數；自變量 1-1 Φ Ε|顯示了軟判決環境屏蔽的一般所希望的趨勢；所希望的趨勢是當相關係數接近一 (指示基本分量)時屏蔽應當接近零，並且當相關係數接近零(指示環境)時屏蔽應當接近一，以使得與屏蔽相乘選擇了環境分量並且抑制了基本分量。函數r (.)提供了基於主觀評估來調整趨勢的能力(參見 C. Avendano and J. -Μ. Jot, July/August 2004)。對主觀調整判決函數的一個替換是設置= α κ，並且解答方程(6)、⑶和(I0) 的系統以得到用於正確估計環境分量能量的理想的共同屏蔽。此方法產生(12)Ofcom=VHti 注意，這表明了平方根是方程(11)中的Γ (.)函數的可行選項。 aL= α ^的選擇暗示了如下假設
(13) 在存在著聲道之間的相當大的水平差異的情況下，此假設已證明在收聽評估中是有問題的。在僅僅在一個聲道中有信號的極端情況下，互相關係數未被定義，並且a。。m不能被計算。此外，「寂靜的」聲道中的任何不相關的背景噪聲理論上導致a。。m= 1，並且活動的聲道因此將被估計為是完全環境的，這沒有為環境提取的目的服務。在C. Avendano and J. "Μ. Jot, July/August 2004中，通過採用額外的約束以使得如果輸入信號的水平差異在所設置的閾值之上則輸入信號被視為完全基本的，來解決這些問題。類似的方法可結合在本發明中。實現對於具有相當大的水平差異的輸入信號的正確處理的另一方式是修改與環境信號分量的相對水平有關的假設，這將在下面進行。3. 2.相等的環境水平如C. Avendano and J. -Μ. Jot, July/August 2004 中所討論的，環境通常在典型立體聲記錄中的左右輸入聲道中具有相等的水平。對環境提取的一個邏輯假設因此是 (14) 其中記號Ia被引入以標示環境水平。利用此假設，環境屏蔽可如下被導出。從方
(6)、(8)和(14)，可導出下面的方程
為了從以上的二次方程中解答/j，需要2I2ASrLL +r艦，即總的環境能量小於或等於總的信號能量。這將解的數目限制為一個，產生了左和右提取屏蔽因此簡單地是或者，就自相關而言，此外，總的估計的環境能量與總的信號能量的比可表達為圖1A和圖IB示出了作為相關係數和輸入信號之間的水平差異的函數的環境屏蔽的環境比和性狀。具體地，圖1A示出作為互相關係數和輸入信號的水平差異的函數的Ea——總環境能量的分數(fraction)，而圖1B示出作為和輸入信號的水平差異
的函數的《￡——&中的環境能量的分數。對於完全相關的輸入信號，根據信號模型，不管輸入信號的水平為何，環境比都為
)，環境比是互相關係數的
0。對於相等水平的輸入信號(1 =、或者等同地I兄=
線性函數，並且在此情況下方程(18)中的環境屏蔽等於方程(12)中表示的共同屏蔽。然而，對於具有相關係數0的信號而言，僅針對相等水平的輸入信號的情況，環境比才為1 ；對於增加的水平差異而言，由於輸入聲道中的環境總是具有相等水平的假設，算法將更強的信號解釋為是愈加基本的。為了提供對環境提取處理的一般概述，圖1C描繪了示出根據本發明的一個實施例的提取環境的方法的流程圖。該方法以操作102中對立體聲輸入信號的接收開始。接下來，在操作104中，利用任何已知的方法，例如短時傅立葉變換，來將輸入信號轉換為頻域或子帶表示。接下來，在操作106中，針對每個頻帶並且在感興趣的時間段內計算輸入信號的自相關和互相關。接下來，在操作108中，計算環境提取屏蔽。這些是基於輸入信號的互相關和自相關來計算的，並且這些還基於與輸入信號的各個左右聲道中的環境水平有關的假設。在一個實施例中，假設了聲道中相等的環境水平。在另一實施例中，假設了相等的環境比。在操作110中，環境提取屏蔽應用於輸入信號的時頻表示，以生成時頻的環境分量信號。在操作112中，從時頻的環境分量生成時域的輸出信號。在操作114中，通過對相關領域的技術人員而言已知的任何合適的方法，來將輸出信號轉換到時域。最後，在操作 116中，輸出信號被提供給呈現或再現系統。4.相關計算根據本發明的一些實施例，提供了方法以用於補償短期互相關的估計中的偏置。遞歸相關計算中所使用的時間常數對輸入信號的互相關的平均估計幅度具有相當大的影響。在相關計算中使用小時間常數導致了對環境量的低估。然而，希望使用相對小的時間常數來改進從動態信號的環境提取。對小時間常數的影響的補償保持了對動態信號的性能，同時糾正了低估。在實際的實時實現方式中，自相關和互相關可利用遞歸公式被近似為(34)rLL( ^XrLL(t-\) + {\-X)X[ (t)XL (t)rm ( ) = Xrm ( -1) + (1 - λ)Χ； ( Xr (/)rLR ( ) = ；I ( -1) + (1 -λ)Χ[ (t)XR ( 其中λ e
是遺忘因子(參見 J. Allen, D. Berkeley, and J. Blauert, "Multi-microphone signal-processing technique to remove room reverberation fromspeech signals, " J. Acoust. Soc. Am. , vol. 62, pp.912-915, October 1977,以及 C.Avendano and J. -M. Jot, "Ambience extraction and synthesis from stereosignals for multi-channel audio up—mix，，，in Proc. IEEE Int. Conf. on Acoust. , Speech, Signal Processing, (Orlando，FL，USA)，May 2002，它們的內容通過引用而被全部結合於此)。處理的時間常數是由遺忘因子確定的，並且可表達為其中f。是計算中所用的採樣率。注意，計算中所用的採樣率未必等於輸入信號的
採樣率。具體地，在STFT實現方式中，/e = 『，其中fs是原始時域信號的採樣率，並且h是
h
分析中所用的跳距(hop size)。對於接近1的λ的值，相關估計趨近過去信號的真實相關；然而注意，(34)中的計算對於λ = 1是定義錯誤的。對於較小的λ，遞歸近似對應於計算用指數衰減時間窗口加權過的信號的相關。短時間常數對於正確地處理瞬態信號是必要的；然而，對於平穩信號，對計算時間段的限制導致了估計誤差。在下面，評價遞歸估計方法的這些誤差。然而注意，所識別的問題不特定針對遞歸估計，而是與計算短時估計有關。對於可替代的互相關估計方法，因此也發生類似的誤差(例如，參見R. Μ. Aarts, R. Irwan, and A. J. Ε. Μ. Janssen， "Efficient tracking of the cross-correlationcoefficient," IEEE Trans.Speech Audio Proc.，vol. 10，pp. 391-402，S印tember2002，其內容通過引用而被全部結合於此)。對於平穩的輸入信號，相關估計的分布取決於遺忘因子，以使得λ越大，估計與真實值的偏差越小。這針對圖2所示的模擬結果中的互相關係數(Kk而被示出。互相關係數是針對具有真實互相關0.5的、兩個240，000樣本的相等水平的高斯信號來計算出的。利用長度1024的50%重疊Hann開窗(Hann-windowed)時間幀，而在STFT域中執行計算；
11所描繪的數據是在分析已到達穩定狀態之後對所有產生的時頻拼塊(tile)的聚集。圖2中的頂板(top panel)示出對於遺忘因子入的一個範圍的所估計互相關係數的實部、虛部和幅度的概率分布函數(PDF)。底板(bottompanel)還示出了相應的估計值的平均數(實線)以及25%和75%四分位數(虛線)。通過在所有的時頻面元(bin)上形成所分析的量的直方圖，來估計PDF。對於實部和虛部，不管\為何，平均值是近似正確的。然而，平均起來，互相關係數小⑶的幅度對於小的、而言被相當地高估了。這是由於如下的事實互相關係數的幅度是幅度的函數，而不是所估計的實部和虛部的帶符號的值的函數。接下來，圖3還示出了對於入的一個範圍、作為真實| cK」的函數的平均估計相關係數幅度I 」。對於小的入，平均數的範圍被相當地壓縮了。在環境提取的語境中，這暗示了輸入信號中的環境量將被低估。下面進一步討論了改進相關估計的補償方法。最後，應當注意，對於所計算的自相關(信號能量)，也發生估計誤差。這些誤差相比於對互相關係數的幅度的估計中所看到的誤差通常是小的。然而，不相關的信號將產生波動的短時水平差異估計，這些估計對環境提取可能有影響。具體地，由於自相關中的估計誤差，假設純的環境具有左右聲道中的相等水平的任何方法將會把這樣的純的環境描述為部分基本的。對於較小的遺忘因子，由於對輸入信號之間平均互相關的高估，提取正確的環境量的能力惡化了。然而，如利用互相關準則所測量的，單聲道方法的性能對於較小的遺忘因子而言改進了。如第2. 1節中所提到的，這些方法本質上實現了輸入信號的時間依賴的過濾。它們的分開信號內的環境聲音和基本聲音的能力因此取決於能夠找到如下的時頻區域在其中，這些分量中的一個比其他的佔優勢。雖然使用小的遺忘因子增加了相關估計處理中的誤差，但是它是必要的，以便可靠地找到這樣的時頻區域。因為使用相對小的時間常數對於單聲道環境提取方法而言顯得是有利的，所以調查互相關係數的平均幅度的高估是否可被補償以便進一步改進提取結果是令人感興趣的。圖3建議所估計互相關係數的平均的範圍被壓縮至粗略地[1-X，1]。因此，作為很粗糙的近似，對互相關係數的短時估計可通過如下形式的補償而被改進此補償在[1_X，1]到
的範圍中線性地擴展了相關係數。max{}算子 (operator)的函數是要給原始地在1_入之下到0的最初的幅度估計設立閾值，以便防止經補償的幅度到達負值。對於單聲道的方法，補償增加了所提取的環境能量的分數，以使得它變得很接近於小的環境量的正確值。此外，改進了相等比的方法提取相關基本分量的能力。然而，相等水平的方法的相應的基本相關較少得到改進。這可通過相等水平的方法對自相關中的估計誤差的敏感性來解釋。雖然當左右聲道中的環境的真實比例相同時兩個單聲道方法理論上是相同的，但是相等水平的方法由於在不相關環境信號之間發生的隨機瞬時水平差異而低估了環境量。如早些時候所提及的，使用相對短的時間常數是必要的，以便正確地處理動態信號。具體地，能夠正確地分類基本瞬態是在分離具有主觀基本和環境的性質的信號分量時的重要因素.為了進一步闡述，圖4描繪了示出根據本發明的一個實施例的環境提取的方法的流程圖。該方法以操作402中對立體聲輸入信號的接收開始。接下來，在操作404中，輸入信號被分析以確定立體聲輸入信號中的環境量。可利用任何環境估計方法，例如這裡所討論的單聲道方法，來分析輸入信號。根據各種實施例，對輸入信號的分析包括對短期互相關係數的估計。分析還可包括利用任何已知的方法，例如短時傅立葉變換，來使輸入信號被轉換為頻域或子帶的表示。一般地，針對每個頻帶並且在感興趣的時間段內執行輸入信號的自相關和互相關。在操作406中，可利用補償因子來補償從對短期互相關係數的估計而產生的任何偏置(例如方程(44))。接下來，在操作408中，導出環境提取屏蔽。這些是基於輸入信號的經補償的短期互相關係數(在一些實施例中被可選地補償)、互相關以及自相關來導出的，並且這些還基於與輸入信號的各個聲道中的環境水平有關的假設。在一個實施例中，假設了聲道中相等的環境水平。在另一實施例中，假設了相等的環境比。在操作410中，環境提取屏蔽應用於輸入信號的時頻表示，以生成時頻的環境分量信號。在操作412中，從時頻的環境分量生成時域的輸出信號。在操作414中，通過對相關領域的技術人員而言已知的任何合適的方法，來將輸出信號轉換到時域。最後，在操作 416中，輸出信號被提供給呈現或再現系統。圖5示出了根據本發明的各種實施例的、用於從多聲道輸入信號502提取環境分量的系統500。系統500包括時間到頻率變換模塊504、相關計算模塊506、環境屏蔽導出模塊508、環境屏蔽乘法模塊510和頻率到時間變換模塊512。本領域的技術人員將會認識到，系統500可被配置為包括一些或全部的這些模塊以及與其他系統、例如再現系統514集成，以產生用於音頻回放的音頻系統。應當注意，系統500的各種部分可被實現在計算機軟件和/或硬體中。例如，模塊504、506、508、510、512可被實現為程序子例程，這些程序子例程被計算機系統的處理器編程進存儲器和執行。此外，模塊504、506、508、510、512可被實現為分開的模塊或組合的模塊。參考圖5，多聲道輸入信號502被示為到時間到頻率變換模塊504的聲道輸入。一般地，多聲道輸入信號502包括多個聲道。然而，為了促進對本發明的理解，多聲道輸入信號502在圖5中被示為具有右聲道和左聲道的立體聲信號。每個聲道可被分解成基本分量和環境分量。時間到頻率變換模塊504被配置為將多聲道輸入信號502轉換成對多聲道輸入信號的任何數目的聲道的時頻表示。因此，左右聲道被轉換成時頻表示並被從模塊504 輸出。來自模塊504的輸出變為到相關計算模塊506的輸入。相關計算模塊506被配置為確定來自模塊504的輸出的信號相關。例如，信號相關可包括時頻表示中每個時間和頻率的互相關和自相關。相關計算模塊506還可被配置為通過使用本發明的技術選擇來估計短期互相關係數和/或補償對短期互相關係數的估計中的偏置。如圖5所示，對左和右聲道的自相關和互相關被輸入進環境屏蔽導出模塊508。可選地，互相關線路被配置為與對短期互相關係數的經補償估計相對應。環境屏蔽導出模塊508被配置為根據所確定的信號相關、經補償的短期互相關係數(可選的)、和/或所假設的關於多聲道輸入信號的各個聲道中的環境水平的關係來導出環境提取屏蔽。根據一個實施例，所假設的關係是輸入信號的各個聲道中存在相等的環境比。根據優選實施例，所假設的關係是多聲道輸入信號的各個聲道中存在相等的環境水平。可導出任何數目的環境提取屏蔽。所導出的環境提取屏蔽可以是用於應用到多個聲道的共同屏蔽或獨立屏蔽。根據一個實施例，共同屏蔽被導出，用於應用到左右聲道兩者。在優選實施例中，獨立屏蔽被導出，用於分別應用到左右聲道。一旦環境提取屏蔽被導出，它就被輸出至環境屏蔽乘法模塊510。圖5示出從模塊508輸出的用於左右聲道的兩個環境提取屏蔽。環境屏蔽乘法模塊510被配置為將環境提取屏蔽與時頻表示相乘，以生成多聲道輸入信號的各個聲道的環境分量的時頻表示。這樣，模塊510接收來自模塊504的時頻表示輸入以及來自模塊508的環境提取屏蔽輸入，並且輸出右和左聲道的環境分量的相應時頻表示。環境分量的相應時頻表示然後被輸入進頻率到時間變換模塊512，頻率到時間變換模塊512被配置為將環境分量轉換成各個時間表示。頻率到時間變換模塊512執行時間到頻率變換模塊504的逆操作。在環境分量被轉換之後，它們的各個時間表示被輸出進再現系統514。參考圖5，再現系統514還接收多聲道輸入信號502作為輸入。再現系統514可包括用於再現來自系統500的經處理音頻的任何數目的組件。本領域的技術人員將會認識到，這些組件可包括混合器、轉換器、放大器、揚聲器等。例如，混合器可用來從多聲道輸入信號502 (多聲道輸入信號502包括右和左聲道的基本分量和環境分量)減去環境分量，以便從多聲道輸入信號502提取基本分量。為了進一步增強收聽體驗，在一些實施例中，在回放之前在再現系統514中加強(boost)環境分量。根據本發明的各種實施例，基本分量和環境分量然後被分開地分布以用於回放。例如，在多聲道揚聲器系統中，一些環境被發送至環繞聲道；在頭戴式耳機系統中，環境可與基本分量不同地被虛擬化。以此方式，可增強收聽體驗中的沉浸感。5.結論描述了幾個基於相關的環境提取方法。基於所採用的信號模型以及關於環境水平的不同假設來解析地導出了兩個新的單聲道環境提取屏蔽，所述不同假設是左右輸入信號內的相等比和相等水平。描述了相等水平假設對於相等比方法是優選的。還描述了遞歸相關計算中所使用的時間常數對輸入信號的互相關的平均估計幅度具有相當大的影響。根據一些方法，使用小時間常數導致了對環境量的低估。然而，相對小的時間常數對於單聲道屏蔽方法的成功操作而言是有利的。還描述了小時間常數改進了從動態輸入信號的環境提取。呈現了對時間常數的影響的簡單補償，以改進環境提取結果。雖然出於清楚理解的目的已多少詳細地描述了上述發明，但是將會清楚的是在所附權利要求的範圍內可實踐某些改變和修改。因此，本實施例要被視作例示性的而非限制性的，並且本發明將不限於這裡所給出的細節，而是可在所附權利要求的範圍和等同物內被修改。
權利要求
一種從多聲道輸入信號進行環境提取的方法，所述方法包括將所述多聲道輸入信號轉換成時頻表示；確定信號相關，所述信號相關包括所述時頻表示中對於每個時間和頻率的互相關和自相關；以及將環境提取屏蔽應用於所述時頻表示，其中所述屏蔽基於所確定的信號相關並且基於與所述多聲道輸入信號的各個聲道中的環境水平有關的假設關係。
2.根據權利要求1所述的方法，其中所述假設關係是所述多聲道輸入信號的各個聲道中存在相等的環境水平。
3.根據權利要求2所述的方法，其中環境水平是就所述多聲道輸入信號的各個聲道中的能量水平而言來被測量的。
4.根據權利要求1所述的方法，其中所述假設關係是所述多聲道輸入信號的各個聲道中存在相等的環境比。
5.根據權利要求4所述的方法，其中相等的環境比是就各個相應聲道的、環境能量相比於輸入信號能量而言來被測量的。
6.根據權利要求1所述的方法，其中將所述多聲道輸入信號轉換成所述時頻表示產生了與所述多聲道輸入信號的每個聲道相對應的獨立時頻表示。
7.根據權利要求6所述的方法，其中將所述環境提取屏蔽應用於所述時頻表示包括將所述環境提取屏蔽和相應的時頻表示相乘，相乘產生了環境的相應時頻表示。
8.根據權利要求6所述的方法，還包括根據所確定的信號相關以及與所述多聲道輸入信號的各個聲道中的環境水平有關的所述假設關係來導出所述環境提取屏蔽。
9.根據權利要求8所述的方法，其中導出所述環境提取屏蔽產生了共同的環境提取屏蔽，所述共同的環境提取屏蔽用於應用到所述多聲道輸入信號的各個聲道的時頻表示。
10.根據權利要求8所述的方法，其中導出所述環境提取屏蔽產生了不同的環境提取屏蔽，所述不同的環境提取屏蔽用於應用到所述多聲道輸入信號的各個聲道的時頻表示。
11.一種環境提取的方法，包括分析輸入信號以確定所述輸入信號中的環境量，其中分析所述輸入信號包括估計短期互相關係數；以及補償對所述短期互相關係數的估計中的偏置。
12.根據權利要求11所述的方法，其中分析所述輸入信號包括將所述輸入信號轉換成時頻表示；確定信號相關，所述信號相關包括所述時頻表示中對於每個時間和頻率的互相關和自相關；以及將環境提取屏蔽應用於所述時頻表示，其中所述屏蔽基於所確定的信號相關、經補償的短期互相關係數，並且基於與所述輸入信號的各個聲道中的環境水平有關的假設關係。
13.根據權利要求12所述的方法，其中所述假設關係是所述輸入信號的各個聲道中存在相等的環境水平。
14.根據權利要求12所述的方法，其中所述假設關係是所述輸入信號的各個聲道中存在相等的環境比。
15.根據權利要求12所述的方法，其中所述環境提取屏蔽包括共同的環境提取屏蔽，所述共同的環境提取屏蔽用於應用到所述輸入信號的各個聲道的時頻表示。
16.根據權利要求12所述的方法，其中所述環境提取屏蔽包括不同的環境提取屏蔽，所述不同的環境提取屏蔽用於應用到所述輸入信號的各個聲道的時頻表示。
17.一種用於從多聲道輸入信號提取環境分量的系統，所述系統包括時間到頻率變換模塊，所述時間到頻率變換模塊可操作用於將所述多聲道輸入信號轉換成對於所述多聲道輸入信號的各個聲道的時頻表示；相關計算模塊，所述相關計算模塊可操作用於確定信號相關，所述信號相關包括所述時頻表示中對於每個時間和頻率的互相關和自相關；環境屏蔽導出模塊，所述環境屏蔽導出模塊可操作用於根據所確定的信號相關以及與所述多聲道輸入信號的各個聲道中的環境水平有關的假設關係來導出環境提取屏蔽；環境屏蔽乘法模塊，所述環境屏蔽乘法模塊可操作用於將所述環境提取屏蔽與所述時頻表示相乘，以生成所述多聲道輸入信號的各個聲道的環境分量的時頻表示；以及頻率到時間變換模塊，所述頻率到時間變換模塊可操作用於將所述環境分量的時頻表示轉換成各個時間表示。
18.根據權利要求17所述的系統，其中所述相關計算模塊還可操作用於估計短期互相關係數以及用於補償對所述短期互相關係數的估計中的偏置。
19.根據權利要求17所述的系統，其中所述假設關係是所述多聲道輸入信號的各個聲道中存在相等的環境水平。
20.根據權利要求17所述的系統，其中所導出的環境提取屏蔽產生了不同的環境提取屏蔽，所述不同的環境提取屏蔽用於應用到所述多聲道輸入信號的各個聲道的時頻表示。
全文摘要
一種環境提取的方法，包括分析輸入信號以確定輸入信號中的時間依賴和頻率依賴的環境量，其中環境量是基於信號模型以及從輸入信號計算出的相關量來確定的，並且其中環境是利用乘法的時頻屏蔽來提取的。另一種環境提取的方法包括補償對短期互相關係數的估計中的偏置。此外，公開了具有用於實現以上方法的各種模塊的系統。
文檔編號G10L19/00GK101889308SQ200880119431
公開日2010年11月17日申請日期2008年10月2日優先權日2007年10月4日
發明者吉恩-馬克·喬特, 朱哈·O·梅裡瑪, 麥可·M·古德溫申請人:創新科技有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於從兩聲道音頻信號進行環境提取的基於相關的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法