新四季網

用於從兩聲道音頻信號進行環境提取的基於相關的方法

2023-06-18 23:39:51

專利名稱:用於從兩聲道音頻信號進行環境提取的基於相關的方法
技術領域:
本發明涉及音頻處理技術。更具體地,本發明涉及用於從音頻信號提取環境的系 統和方法。
背景技術:
各種技術可用於從兩聲道立體聲信號提取環境分量(ambiencecomponent)。立體 聲信號可被分解成基本分量(primary component)和環境分量。這些方法的一個常見應用 是收聽增強系統(listening enhancementsystem),其中環境信號分量被修改和/或被空 間地重新分布於多聲道揚聲器之上,同時基本信號分量不被修改或者被不同地處理。在這 些系統中,環境分量通常被定向至環繞揚聲器。此環境重新分布幫助增加了收聽體驗中的 沉浸感,而沒有損害立體聲的音場(sound stage) 0一些現有的頻域環境提取方法導出作為時間和頻率的函數的、描述輸入信號中的 環境量(amount of ambience)的乘法屏蔽(multiplicativemask)。這些方案使用用於從 輸入信號的相關量來確定這些環境提取屏蔽(ambience extraction mask)的專門函數,導 致了次優的提取性能。當主要的(非環境的)源被移動(pan)到每個聲道時,一個特定的 誤差來源(source of error)便出現;現有方法容許這些情況下主要源的顯著洩漏。現有 方法中的另一誤差來源產生自對互相關係數的幅度的短期估計。短期估計對於基於屏蔽的 方法的操作而言是必要的,但是用於短期估計的現有方法導致了對環境量的低估。所希望的是用於環境提取的改進方法。

發明內容
本發明提供了用於利用環境提取屏蔽從多聲道輸入信號提取環境分量的系統和 方法。對環境提取屏蔽的求解基於從輸入信號計算的信號相關量,並且取決於關於信號模 型中的環境分量的各種假設。本發明在各種實施例中實現了時頻分析合成框架中的環境提 取。環境是基於所導出的乘法屏蔽來提取的,所導出的乘法屏蔽反映了每個頻帶內的輸入 信號的當前所估計組成。一般地,操作是在感興趣的每個頻帶中獨立地執行的。就輸入信 號的互相關和自相關而言來表達結果。利用時頻表示來執行分析合成,因為這樣的表示促 進了基本分量和環境分量的解析度。在每個時間和頻率處,估計每個輸入聲道的環境分量。根據本發明的一個方面,一種從多聲道輸入信號進行環境提取的方法包括將輸入 信號轉換成時頻表示。對於輸入聲道信號的時頻表示的自相關和互相關被確定。基於所確定的自相關和互相關的環境提取屏蔽被乘法地應用於輸入聲道信號的時頻表示以導出環 境分量。屏蔽基於與輸入信號的各個聲道中的環境水平有關的假設關係。根據本發明的另一個方面,一種環境提取的方法包括分析輸入信號以確定輸入信 號中的環境量。分析輸入信號包括估計短期互相關係數。該方法還包括補償短期互相關係 數的估計中的偏置。根據本發明的另一個方面,提供了一種用於從多聲道輸入信號提取環境分量的系 統。該系統包括時間到頻率變換模塊、相關計算模塊、環境屏蔽導出模塊、環境屏蔽乘法模 塊和頻率到時間變換模塊。時間到頻率變換模塊被配置為將多聲道輸入信號轉換成對於多 聲道輸入信號的各個聲道的時頻表示。相關計算模塊被配置為確定信號相關,信號相關包 括時頻表示中對於每個時間和頻率的互相關和自相關。環境屏蔽導出模塊被配置為根據所 確定的信號相關以及與多聲道輸入信號的各個聲道中的環境水平有關的假設關係來導出 環境提取屏蔽。環境屏蔽乘法模塊被配置為將環境提取屏蔽與時頻表示相乘,以生成多聲 道輸入信號的各個聲道的環境分量的時頻表示。頻率到時間變換模塊被配置為將環境分量 的時頻表示轉換成各個時間表示。下面參考附圖來描述本發明的這些和其他的特徵和優點。


圖1A和圖1B示出了作為相關係數和輸入信號之間的水平差異的函數的環境 屏蔽的環境比和性狀(behavior)。圖1C是示出根據本發明的一個實施例的提取環境的方法的流程圖。圖2示出對於遺忘因子\的一個範圍的所估計互相關係數的實部、虛部和幅度的 概率分布函數。圖3示出對於\的一個範圍、作為真實| cK」的函數的平均估計的相關係數幅度
小 LE I °圖4是示出根據本發明的一個實施例的環境提取的方法的流程圖。圖5示出根據本發明的各種實施例的、用於從多聲道輸入信號提取環境分量的系 統。
具體實施例方式現在將詳細參考本發明的優選實施例。優選實施例的示例在附圖中被示出。雖然 本發明將結合這些優選實施例來描述,但是將會被理解的是,不希望將本發明限制到這樣 的優選實施例。相反,希望覆蓋可被包括在所附權利要求限定的本發明的精神和範圍內的 替換、修改和等同物。在下面的描述中,陳述了許多具體細節以提供對本發明的徹底理解。 可在沒有一些或全部的這些具體細節的情況下實踐本發明。在其他實例中,公知的機制沒 有被詳細地描述,以便不會不必要地模糊本發明。這裡應當注意,貫穿各種繪圖,類似的標號指稱類似的部分。這裡所示出和描述的 各種繪圖被用來示出本發明的各種特徵。在特定特徵在一個繪圖中而非在另一繪圖中被示 出的範圍內,除去另有指示的情況或者結構固有地禁止特徵的結合的情況,要理解的是,這 些特徵可適於被包括在其他圖中所表示的實施例中,仿佛它們在這些圖中被充分地示出。除非另有註明,否則繪圖未必是按比例的。繪圖上所提供的任何尺寸對於本發明的範圍而 言不希望是限制性的,而希望是僅僅例示性的。1.介紹本發明的實施例提供了用在空間音頻增強算法中的環境提取的改進的系統和方 法,空間音頻增強算法例如2到N的環繞上混合(upmix)、改進的頭戴式耳機再現、以及揚聲 器上的沉浸虛擬化。本發明實施例包括基於信號模型以及從輸入信號計算出的相關量的、 用於每個輸入信號中的時間依賴和頻率依賴的環境量的分析解法。算法在頻域中操作。分 析解法提供了相對於現有技術的顯著質量改進。本發明實施例還包括用於補償對環境量的 低估的方法,其中對環境量的低估是由短期互相關估計的幅度中的偏置引起的。為了進一步闡述,本發明實施例提供了在給出輸入信號的自相關和互相關的情況 下針對環境提取屏蔽的分析解法。這些解法基於與輸入聲道內的相對環境水平有關的某些 假設以及信號模型。關於相對水平的兩個不同假設被描述。根據一些實施例,技術被提供 以補償小時間常數對短期互相關估計的平均幅度的影響。時間常數的補償預期對於利用短 期互相關計算的任何技術都是有用的,上述技術包括商業可得的環境提取方法以及當前的 空間音頻編碼標準。在目前最先進的立體聲上混合中,在基本(直接)聲音與環境之間進行區別是常 見的。基本聲音由可定位的聲音事件所組成,並且上混合的通常目標是保持相對的位置並 且增強基本源的空間圖像穩定性。另一方面,環境由混響(reverberation)或其他空間分 布的聲源所組成。立體聲揚聲器系統被限制在它呈現周圍環境的能力中,但是可通過提取 環境並且(部分地)將環境分布於多聲道揚聲器系統的環繞聲道來克服此限制。當提取環境時,可使用單聲道方法,其中利用基於輸入信號的自相關和互相關的 標量環境提取屏蔽,來從左輸入信號提取左環境聲道並從右輸入聲道提取右環境聲道。然 而,為了使所選擇的時間和頻率解析度內的所估計環境信號的幅度與真實環境信號的幅度 相對應,提取屏蔽應當與各個聲道中的環境的比例相對應。為了解出環境分量的時間依賴 和頻率依賴的水平,進行關於輸入信號的、具體地關於輸入信號中的環境水平的某些假設 是有幫助的。在本發明的不同實施例中,對於環境水平做了不同的假設。在第一實施例中,在輸 入信號的各個聲道(例如左和右聲道)內假設了相等的比。在第二實施例中,假設了輸入 信號的各個聲道(例如左和右聲道)中的相等環境水平。一般地,兩聲道輸入信號的聲道 被稱為「左」和「右」聲道。這些方法提供了從輸入內容提取環境的進一步改進,其中主要 的(非環境的)源被移動到任何特定的聲道。此外,根據本發明的各種實施例,利用應用到所估計互相關係數的幅度上的補償 因子,來改進對互相關係數的短時估計。這樣,更有效的環境提取屏蔽可被導出並且被應用 於輸入信號,以用於提取環境。2. 一般的考慮2. 1.環境提取框架在時頻(time-frequency)分析合成(analysis-synthesis)框架中實現這裡 所描述的環境提取技術。對於多個非固定的基本源的任意混合,此方法實現了對同時 的源(假如它們在頻率上基本不重疊)的魯棒且獨立的處理、以及從混合中對環境分量的魯棒提取。還可基於人類聽覺系統如何處理空間線索(spatial cue)的心理聲學 (psychoacoustical)證據而啟示出時頻處理框架(參見 J. Blauert,Spatial Hearing The Psychophysics of HumanSound Localization. Cambridge, MA, USA :The MIT Press, revised ed.,1997,其內容通過引用而被全部結合於此)。對於下面第3節中描述的方法,環境提取處理是以導出乘法屏蔽為基礎的,其中 乘法屏蔽反映了每個頻帶內的輸入信號的當前所估計組成。屏蔽然後在頻域中應用於輸入 信號,因而有效地實現了時變的過濾。2. 2.記法和定義一般地,針對具有由所選擇的時間解析度確定的任意有限持續時間的解析(複數 的)時域信號,來導出此詳細描述中的表達式。複數表示法(complex formulation)使得 能夠將方程直接應用於從輸入信號的短時傅立葉變換(short-time Fourier transform) (STFT)產生的個體變換指標(transform index)(頻帶)。此外,方程不加修改地適用於實 信號,並且可容易地應用於其他的時頻信號表示,例如通過任意濾波器組(filterbank)導 出的子帶信號。此外,假設運算是在感興趣的每個頻帶中獨立地執行的。(子帶)時域信 號一般表示為列向量,並且在信號標誌之上被標以箭頭符號(例如X)。然而,為了更加清 楚地展示,時間依賴性和/或頻率依賴性在一些情況下被顯式地(explicitly)寫成記號 (notate),並且向量符號被省略。至於信號模型,組成信號的真實分量被標以正常符號(例 如λ ),並且對這些分量的估計被標以相應的斜體符號(例如j )。按照兩個輸入信號的相關來表達此詳細描述中所導出的很多結果。信號 足=W1] [2]… [斤]]"和毛=[ [1] ΧΛ[2]… [叫]7■的自相關和
互相關出於本說明書的目的而被定義為 並且互相關係數被定義為 其中τ標示轉置,Η標示Hermitian轉置,*標示復共軛,並且| |. | |標示向量的幅 度。注意,信號向量的幅度等同於相應自相關的平方根。2. 3.信號模型出於此詳細描述的目的,處於單個頻帶的並且在感興趣的時間段內的任何輸入信 號被假設為由單個基本分量和環境所組成 其中&和&是基本分量,並且是環境分量。在可能存在多個基本聲音的情 況中,此假設不完全有效,但是它已證明是在時頻環境提取框架內的合理近似。為了估計基本的和環境的信號分量,關於它們的性質可做一些進一步的假設。在 此詳細描述中稍後討論的情況下,假設兩個環境信號互相不相關,並且與基本聲音不相關。 此外,可假設基本信號的互相關係數具有一個基本信號的幅度,這意思是除了可能的水平 和相位的差異以外、基本信號是相同的。允許水平和相位的差異有效地實現了基本聲音的 範疇內的幅度以及/或者延遲移動的(delay-panned)和矩陣編碼的分量(為了在矩陣 編碼/解碼的上下文中對環境提取進行進一步的討論,參見J. -M. Jot, A. Krishnaswamy, J. Laroche, J. Merimaa,and M. M. Goodwin, "Spatial AudioScene Coding in a universal two-channel 3-D stereo format,,,in AES 123rdConvention,(New York,NY,USA),October 2007,其內容通過引用而被全部結合於此)。利用以上的假設, 其中|. |標示複數的幅度。3.環境提取屏蔽基於第2. 3節中定義的信號模型,可導出適用於第2. 1節的框架的幾個環境提取 方法。此節專注於單聲道的方法,其中利用基於輸入信號的自相關和互相關的標量環境提 取屏蔽,來從左輸入信號提取左環境聲道並從右輸入聲道提取右環境聲道。處理可形式地 描述為(9) AL(t, f) = a L (t,f) XL (t,f)AE(t, f) = a E(t, f)XE(t, f)其中ciL(t,f)和aK(t,f)是環境提取屏蔽,t是時間,並且f是頻率。出於此節的目的,dL(t,f)和aK(t,f)限於實的正值。為了使所選擇的時間和頻 率解析度內的所估計環境信號的幅度與真實環境信號的幅度相對應,提取屏蔽應當與各個 聲道中的環境的比例相對應。也就是說,根據 的屏蔽被尋找,其中環境信號的真實水平需要被估計。方程(6)和⑶給出了在已知輸入信號的自相關和互相關與四個未知信號分量的 水平之間的三個關係,四個未知信號分量是左基本聲音和環境以及右基本聲音和環境。為 了有效地解出環境分量的時間依賴和頻率依賴的水平,可進行關於輸入信號的額外假設。 在下面的第3. 1和3. 2小節中調查了兩個可替代的假設。
8
3. 1.相等的環境比在一些工作中(例如,參見 C. Avendano and J. -Μ. Jot, "A frequency-domain approach to multichannel upmix,,,L. Audio Eng. So. ,vol. 52,pp. 740-749, July/August 2004,其內容被通過引用而全部結合於此並且在這裡被稱為「C. Avendano and J. -Μ. Jot, July/August 2004」),共同的屏蔽被用來從左和右信號提取環境。該屏蔽可被表示為對二 進位屏蔽方法的軟判決(soft-decision)替換。在二進位情況下,在每個時間和頻率處, 進行關於信號是由基本分量還是由環境組成的判決;如果信號被認為是環境的則環境提取 屏蔽被選為1,並且如果信號被認為是基本的則環境提取屏蔽被選為0。因為這樣的硬判決 (hard decision)方法導致了不希望的假象(artifact),所以軟判決函數被引入以從相關 係數來確定共同屏蔽 其中Γ (.)是基於環境提取處理的所希望的特性而選擇的非線性函數;自變量 1-1 Φ Ε|顯示了軟判決環境屏蔽的一般所希望的趨勢;所希望的趨勢是當相關係數接近一 (指示基本分量)時屏蔽應當接近零,並且當相關係數接近零(指示環境)時屏蔽應當接近 一,以使得與屏蔽相乘選擇了環境分量並且抑制了基本分量。函數r (.)提供了基於主觀 評估來調整趨勢的能力(參見 C. Avendano and J. -Μ. Jot, July/August 2004)。對主觀調整判決函數的一個替換是設置= α κ,並且解答方程(6)、⑶和(I0) 的系統以得到用於正確估計環境分量能量的理想的共同屏蔽。此方法產生(12)Ofcom=VHti 注意,這表明了平方根是方程(11)中的Γ (.)函數的可行選項。 aL= α ^的選擇暗示了如下假設
(13) 在存在著聲道之間的相當大的水平差異的情況下,此假設已證明在收聽評估中是 有問題的。在僅僅在一個聲道中有信號的極端情況下,互相關係數未被定義,並且a。。m不能 被計算。此外,「寂靜的」聲道中的任何不相關的背景噪聲理論上導致a。。m= 1,並且活動 的聲道因此將被估計為是完全環境的,這沒有為環境提取的目的服務。在C. Avendano and J. "Μ. Jot, July/August 2004中,通過採用額外的約束以使得如果輸入信號的水平差異在 所設置的閾值之上則輸入信號被視為完全基本的,來解決這些問題。類似的方法可結合在 本發明中。實現對於具有相當大的水平差異的輸入信號的正確處理的另一方式是修改與環 境信號分量的相對水平有關的假設,這將在下面進行。3. 2.相等的環境水平如C. Avendano and J. -Μ. Jot, July/August 2004 中所討論的,環境通常在典型立 體聲記錄中的左右輸入聲道中具有相等的水平。對環境提取的一個邏輯假設因此是 (14) 其中記號Ia被引入以標示環境水平。利用此假設,環境屏蔽可如下被導出。從方
(6)、(8)和(14),可導出下面的方程
為了從以上的二次方程中解答/j,需要2I2ASrLL +r艦,即總的環境能量小於或等 於總的信號能量。這將解的數目限制為一個,產生了 左和右提取屏蔽因此簡單地是 或者,就自相關而言, 此外,總的估計的環境能量與總的信號能量的比可表達為 圖1A和圖IB示出了作為相關係數和輸入信號之間的水平差異的函數的環境 屏蔽的環境比和性狀。具體地,圖1A示出作為互相關係數和輸入信號的水平差異的函 數的Ea——總環境能量的分數(fraction),而圖1B示出作為和輸入信號的水平差異
的函數的《£——&中的環境能量的分數。對於完全相關的輸入信號,根據信號模型,不管輸入信號的水平為何,環境比都為
),環境比是互相關係數的
0。對於相等水平的輸入信號(1 =、或者等同地I兄=
線性函數,並且在此情況下方程(18)中的環境屏蔽等於方程(12)中表示的共同屏蔽。然 而,對於具有相關係數0的信號而言,僅針對相等水平的輸入信號的情況,環境比才為1 ;對 於增加的水平差異而言,由於輸入聲道中的環境總是具有相等水平的假設,算法將更強的 信號解釋為是愈加基本的。為了提供對環境提取處理的一般概述,圖1C描繪了示出根據本發明的一個實施 例的提取環境的方法的流程圖。該方法以操作102中對立體聲輸入信號的接收開始。接下 來,在操作104中,利用任何已知的方法,例如短時傅立葉變換,來將輸入信號轉換為頻域 或子帶表示。接下來,在操作106中,針對每個頻帶並且在感興趣的時間段內計算輸入信號 的自相關和互相關。接下來,在操作108中,計算環境提取屏蔽。這些是基於輸入信號的互相關和自相 關來計算的,並且這些還基於與輸入信號的各個左右聲道中的環境水平有關的假設。在一 個實施例中,假設了聲道中相等的環境水平。在另一實施例中,假設了相等的環境比。在操作110中,環境提取屏蔽應用於輸入信號的時頻表示,以生成時頻的環境分量信號。在操作112中,從時頻的環境分量生成時域的輸出信號。在操作114中,通過對相 關領域的技術人員而言已知的任何合適的方法,來將輸出信號轉換到時域。最後,在操作 116中,輸出信號被提供給呈現或再現系統。4.相關計算根據本發明的一些實施例,提供了方法以用於補償短期互相關的估計中的偏置。 遞歸相關計算中所使用的時間常數對輸入信號的互相關的平均估計幅度具有相當大的影 響。在相關計算中使用小時間常數導致了對環境量的低估。然而,希望使用相對小的時間常 數來改進從動態信號的環境提取。對小時間常數的影響的補償保持了對動態信號的性能, 同時糾正了低估。在實際的實時實現方式中,自相關和互相關可利用遞歸公式被近似為(34)rLL( ^XrLL(t-\) + {\-X)X[ (t)XL (t)rm ( ) = Xrm ( -1) + (1 - λ)Χ; ( Xr (/)rLR ( ) = ;I ( -1) + (1 -λ)Χ[ (t)XR ( 其中λ e
是遺忘因子(參見 J. Allen, D. Berkeley, and J. Blauert, "Multi-microphone signal-processing technique to remove room reverberation fromspeech signals, " J. Acoust. Soc. Am. , vol. 62, pp.912-915, October 1977,以及 C.Avendano and J. -M. Jot, "Ambience extraction and synthesis from stereosignals for multi-channel audio up—mix,,,in Proc. IEEE Int. Conf. on Acoust. , Speech, Signal Processing, (Orlando,FL,USA),May 2002,它們的內容通過引用而被全部結合於此)。處理的時間常數是由遺忘因子確定的,並且可表達為 其中f。是計算中所用的採樣率。注意,計算中所用的採樣率未必等於輸入信號的
採樣率。具體地,在STFT實現方式中,/e = 『,其中fs是原始時域信號的採樣率,並且h是
h
分析中所用的跳距(hop size)。對於接近1的λ的值,相關估計趨近過去信號的真實相關;然而注意,(34)中的 計算對於λ = 1是定義錯誤的。對於較小的λ,遞歸近似對應於計算用指數衰減時間窗 口加權過的信號的相關。短時間常數對於正確地處理瞬態信號是必要的;然而,對於平穩信 號,對計算時間段的限制導致了估計誤差。在下面,評價遞歸估計方法的這些誤差。然而注 意,所識別的問題不特定針對遞歸估計,而是與計算短時估計有關。對於可替代的互相關估 計方法,因此也發生類似的誤差(例如,參見R. Μ. Aarts, R. Irwan, and A. J. Ε. Μ. Janssen, "Efficient tracking of the cross-correlationcoefficient," IEEE Trans.Speech Audio Proc.,vol. 10,pp. 391-402,S印tember2002,其內容通過引用而被全部結合於此)。對於平穩的輸入信號,相關估計的分布取決於遺忘因子,以使得λ越大,估計與 真實值的偏差越小。這針對圖2所示的模擬結果中的互相關係數(Kk而被示出。互相關 係數是針對具有真實互相關0.5的、兩個240,000樣本的相等水平的高斯信號來計算出的。 利用長度1024的50%重疊Hann開窗(Hann-windowed)時間幀,而在STFT域中執行計算;
11所描繪的數據是在分析已到達穩定狀態之後對所有產生的時頻拼塊(tile)的聚集。圖2中的頂板(top panel)示出對於遺忘因子入的一個範圍的所估計互相關係 數的實部、虛部和幅度的概率分布函數(PDF)。底板(bottompanel)還示出了相應的估計值 的平均數(實線)以及25%和75%四分位數(虛線)。通過在所有的時頻面元(bin)上形 成所分析的量的直方圖,來估計PDF。對於實部和虛部,不管\為何,平均值是近似正確的。然而,平均起來,互相關係 數小⑶的幅度對於小的、而言被相當地高估了。這是由於如下的事實互相關係數的幅度 是幅度的函數,而不是所估計的實部和虛部的帶符號的值的函數。接下來,圖3還示出了對於入的一個範圍、作為真實| cK」的函數的平均估計相 關係數幅度I 」。對於小的入,平均數的範圍被相當地壓縮了。在環境提取的語境中,這 暗示了輸入信號中的環境量將被低估。下面進一步討論了改進相關估計的補償方法。最後,應當注意,對於所計算的自相關(信號能量),也發生估計誤差。這些誤差相 比於對互相關係數的幅度的估計中所看到的誤差通常是小的。然而,不相關的信號將產生 波動的短時水平差異估計,這些估計對環境提取可能有影響。具體地,由於自相關中的估計 誤差,假設純的環境具有左右聲道中的相等水平的任何方法將會把這樣的純的環境描述為 部分基本的。對於較小的遺忘因子,由於對輸入信號之間平均互相關的高估,提取正確的環境 量的能力惡化了。然而,如利用互相關準則所測量的,單聲道方法的性能對於較小的遺忘因 子而言改進了。如第2. 1節中所提到的,這些方法本質上實現了輸入信號的時間依賴的過 濾。它們的分開信號內的環境聲音和基本聲音的能力因此取決於能夠找到如下的時頻區 域在其中,這些分量中的一個比其他的佔優勢。雖然使用小的遺忘因子增加了相關估計處 理中的誤差,但是它是必要的,以便可靠地找到這樣的時頻區域。因為使用相對小的時間常數對於單聲道環境提取方法而言顯得是有利的,所以調 查互相關係數的平均幅度的高估是否可被補償以便進一步改進提取結果是令人感興趣的。 圖3建議所估計互相關係數的平均的範圍被壓縮至粗略地[1-X,1]。因此,作為很粗糙的 近似,對互相關係數的短時估計可通過如下形式的補償而被改進 此補償在[1_X,1]到
的範圍中線性地擴展了相關係數。max{}算子 (operator)的函數是要給原始地在1_入之下到0的最初的幅度估計設立閾值,以便防止經 補償的幅度到達負值。對於單聲道的方法,補償增加了所提取的環境能量的分數,以使得它變得很接近 於小的環境量的正確值。此外,改進了相等比的方法提取相關基本分量的能力。然而,相等 水平的方法的相應的基本相關較少得到改進。這可通過相等水平的方法對自相關中的估計 誤差的敏感性來解釋。雖然當左右聲道中的環境的真實比例相同時兩個單聲道方法理論上是相同的,但 是相等水平的方法由於在不相關環境信號之間發生的隨機瞬時水平差異而低估了環境量。 如早些時候所提及的,使用相對短的時間常數是必要的,以便正確地處理動態信號。具體 地,能夠正確地分類基本瞬態是在分離具有主觀基本和環境的性質的信號分量時的重要因素.為了進一步闡述,圖4描繪了示出根據本發明的一個實施例的環境提取的方法的 流程圖。該方法以操作402中對立體聲輸入信號的接收開始。接下來,在操作404中,輸入 信號被分析以確定立體聲輸入信號中的環境量。可利用任何環境估計方法,例如這裡所討 論的單聲道方法,來分析輸入信號。根據各種實施例,對輸入信號的分析包括對短期互相關 係數的估計。分析還可包括利用任何已知的方法,例如短時傅立葉變換,來使輸入信號被轉 換為頻域或子帶的表示。一般地,針對每個頻帶並且在感興趣的時間段內執行輸入信號的 自相關和互相關。在操作406中,可利用補償因子來補償從對短期互相關係數的估計而產生的任何 偏置(例如方程(44))。接下來,在操作408中,導出環境提取屏蔽。這些是基於輸入信號 的經補償的短期互相關係數(在一些實施例中被可選地補償)、互相關以及自相關來導出 的,並且這些還基於與輸入信號的各個聲道中的環境水平有關的假設。在一個實施例中,假 設了聲道中相等的環境水平。在另一實施例中,假設了相等的環境比。在操作410中,環境提取屏蔽應用於輸入信號的時頻表示,以生成時頻的環境分 量信號。在操作412中,從時頻的環境分量生成時域的輸出信號。在操作414中,通過對相 關領域的技術人員而言已知的任何合適的方法,來將輸出信號轉換到時域。最後,在操作 416中,輸出信號被提供給呈現或再現系統。圖5示出了根據本發明的各種實施例的、用於從多聲道輸入信號502提取環境分 量的系統500。系統500包括時間到頻率變換模塊504、相關計算模塊506、環境屏蔽導出 模塊508、環境屏蔽乘法模塊510和頻率到時間變換模塊512。本領域的技術人員將會認識 到,系統500可被配置為包括一些或全部的這些模塊以及與其他系統、例如再現系統514集 成,以產生用於音頻回放的音頻系統。應當注意,系統500的各種部分可被實現在計算機軟 件和/或硬體中。例如,模塊504、506、508、510、512可被實現為程序子例程,這些程序子例 程被計算機系統的處理器編程進存儲器和執行。此外,模塊504、506、508、510、512可被實 現為分開的模塊或組合的模塊。參考圖5,多聲道輸入信號502被示為到時間到頻率變換模塊504的聲道輸入。一 般地,多聲道輸入信號502包括多個聲道。然而,為了促進對本發明的理解,多聲道輸入信 號502在圖5中被示為具有右聲道和左聲道的立體聲信號。每個聲道可被分解成基本分量 和環境分量。時間到頻率變換模塊504被配置為將多聲道輸入信號502轉換成對多聲道輸 入信號的任何數目的聲道的時頻表示。因此,左右聲道被轉換成時頻表示並被從模塊504 輸出。來自模塊504的輸出變為到相關計算模塊506的輸入。相關計算模塊506被配置 為確定來自模塊504的輸出的信號相關。例如,信號相關可包括時頻表示中每個時間和頻 率的互相關和自相關。相關計算模塊506還可被配置為通過使用本發明的技術選擇來估計 短期互相關係數和/或補償對短期互相關係數的估計中的偏置。如圖5所示,對左和右聲 道的自相關和互相關被輸入進環境屏蔽導出模塊508。可選地,互相關線路被配置為與對短 期互相關係數的經補償估計相對應。環境屏蔽導出模塊508被配置為根據所確定的信號相關、經補償的短期互相關係 數(可選的)、和/或所假設的關於多聲道輸入信號的各個聲道中的環境水平的關係來導出環境提取屏蔽。根據一個實施例,所假設的關係是輸入信號的各個聲道中存在相等的環境 比。根據優選實施例,所假設的關係是多聲道輸入信號的各個聲道中存在相等的環境水平。可導出任何數目的環境提取屏蔽。所導出的環境提取屏蔽可以是用於應用到多個 聲道的共同屏蔽或獨立屏蔽。根據一個實施例,共同屏蔽被導出,用於應用到左右聲道兩 者。在優選實施例中,獨立屏蔽被導出,用於分別應用到左右聲道。一旦環境提取屏蔽被導 出,它就被輸出至環境屏蔽乘法模塊510。圖5示出從模塊508輸出的用於左右聲道的兩個 環境提取屏蔽。環境屏蔽乘法模塊510被配置為將環境提取屏蔽與時頻表示相乘,以生成多聲道 輸入信號的各個聲道的環境分量的時頻表示。這樣,模塊510接收來自模塊504的時頻表 示輸入以及來自模塊508的環境提取屏蔽輸入,並且輸出右和左聲道的環境分量的相應時 頻表示。環境分量的相應時頻表示然後被輸入進頻率到時間變換模塊512,頻率到時間變 換模塊512被配置為將環境分量轉換成各個時間表示。頻率到時間變換模塊512執行時間 到頻率變換模塊504的逆操作。在環境分量被轉換之後,它們的各個時間表示被輸出進再 現系統514。參考圖5,再現系統514還接收多聲道輸入信號502作為輸入。再現系統514可包括用於再現來自系統500的經處理音頻的任何數目的組件。本 領域的技術人員將會認識到,這些組件可包括混合器、轉換器、放大器、揚聲器等。例如,混 合器可用來從多聲道輸入信號502 (多聲道輸入信號502包括右和左聲道的基本分量和環 境分量)減去環境分量,以便從多聲道輸入信號502提取基本分量。為了進一步增強收聽 體驗,在一些實施例中,在回放之前在再現系統514中加強(boost)環境分量。根據本發明 的各種實施例,基本分量和環境分量然後被分開地分布以用於回放。例如,在多聲道揚聲器 系統中,一些環境被發送至環繞聲道;在頭戴式耳機系統中,環境可與基本分量不同地被虛 擬化。以此方式,可增強收聽體驗中的沉浸感。5.結論描述了幾個基於相關的環境提取方法。基於所採用的信號模型以及關於環境水平 的不同假設來解析地導出了兩個新的單聲道環境提取屏蔽,所述不同假設是左右輸入信 號內的相等比和相等水平。描述了相等水平假設對於相等比方法是優選的。還描述了遞歸相關計算中所使用的時間常數對輸入信號的互相關的平均估計幅 度具有相當大的影響。根據一些方法,使用小時間常數導致了對環境量的低估。然而,相對 小的時間常數對於單聲道屏蔽方法的成功操作而言是有利的。還描述了小時間常數改進了 從動態輸入信號的環境提取。呈現了對時間常數的影響的簡單補償,以改進環境提取結果。雖然出於清楚理解的目的已多少詳細地描述了上述發明,但是將會清楚的是在所 附權利要求的範圍內可實踐某些改變和修改。因此,本實施例要被視作例示性的而非限制 性的,並且本發明將不限於這裡所給出的細節,而是可在所附權利要求的範圍和等同物內 被修改。
權利要求
一種從多聲道輸入信號進行環境提取的方法,所述方法包括將所述多聲道輸入信號轉換成時頻表示;確定信號相關,所述信號相關包括所述時頻表示中對於每個時間和頻率的互相關和自相關;以及將環境提取屏蔽應用於所述時頻表示,其中所述屏蔽基於所確定的信號相關並且基於與所述多聲道輸入信號的各個聲道中的環境水平有關的假設關係。
2.根據權利要求1所述的方法,其中所述假設關係是所述多聲道輸入信號的各個聲道 中存在相等的環境水平。
3.根據權利要求2所述的方法,其中環境水平是就所述多聲道輸入信號的各個聲道中 的能量水平而言來被測量的。
4.根據權利要求1所述的方法,其中所述假設關係是所述多聲道輸入信號的各個聲道 中存在相等的環境比。
5.根據權利要求4所述的方法,其中相等的環境比是就各個相應聲道的、環境能量相 比於輸入信號能量而言來被測量的。
6.根據權利要求1所述的方法,其中將所述多聲道輸入信號轉換成所述時頻表示產生 了與所述多聲道輸入信號的每個聲道相對應的獨立時頻表示。
7.根據權利要求6所述的方法,其中將所述環境提取屏蔽應用於所述時頻表示包括將所述環境提取屏蔽和相應的時頻表示相乘,相乘產生了環境的相應時頻表示。
8.根據權利要求6所述的方法,還包括根據所確定的信號相關以及與所述多聲道輸入信號的各個聲道中的環境水平有關的 所述假設關係來導出所述環境提取屏蔽。
9.根據權利要求8所述的方法,其中導出所述環境提取屏蔽產生了共同的環境提取屏 蔽,所述共同的環境提取屏蔽用於應用到所述多聲道輸入信號的各個聲道的時頻表示。
10.根據權利要求8所述的方法,其中導出所述環境提取屏蔽產生了不同的環境提取 屏蔽,所述不同的環境提取屏蔽用於應用到所述多聲道輸入信號的各個聲道的時頻表示。
11.一種環境提取的方法,包括分析輸入信號以確定所述輸入信號中的環境量,其中分析所述輸入信號包括估計短期 互相關係數;以及補償對所述短期互相關係數的估計中的偏置。
12.根據權利要求11所述的方法,其中分析所述輸入信號包括將所述輸入信號轉換成時頻表示;確定信號相關,所述信號相關包括所述時頻表示中對於每個時間和頻率的互相關和自 相關;以及將環境提取屏蔽應用於所述時頻表示,其中所述屏蔽基於所確定的信號相關、經補償 的短期互相關係數,並且基於與所述輸入信號的各個聲道中的環境水平有關的假設關係。
13.根據權利要求12所述的方法,其中所述假設關係是所述輸入信號的各個聲道中存 在相等的環境水平。
14.根據權利要求12所述的方法,其中所述假設關係是所述輸入信號的各個聲道中存 在相等的環境比。
15.根據權利要求12所述的方法,其中所述環境提取屏蔽包括共同的環境提取屏蔽, 所述共同的環境提取屏蔽用於應用到所述輸入信號的各個聲道的時頻表示。
16.根據權利要求12所述的方法,其中所述環境提取屏蔽包括不同的環境提取屏蔽, 所述不同的環境提取屏蔽用於應用到所述輸入信號的各個聲道的時頻表示。
17.一種用於從多聲道輸入信號提取環境分量的系統,所述系統包括時間到頻率變換模塊,所述時間到頻率變換模塊可操作用於將所述多聲道輸入信號轉 換成對於所述多聲道輸入信號的各個聲道的時頻表示;相關計算模塊,所述相關計算模塊可操作用於確定信號相關,所述信號相關包括所述 時頻表示中對於每個時間和頻率的互相關和自相關;環境屏蔽導出模塊,所述環境屏蔽導出模塊可操作用於根據所確定的信號相關以及與 所述多聲道輸入信號的各個聲道中的環境水平有關的假設關係來導出環境提取屏蔽;環境屏蔽乘法模塊,所述環境屏蔽乘法模塊可操作用於將所述環境提取屏蔽與所述時 頻表示相乘,以生成所述多聲道輸入信號的各個聲道的環境分量的時頻表示;以及頻率到時間變換模塊,所述頻率到時間變換模塊可操作用於將所述環境分量的時頻表 示轉換成各個時間表示。
18.根據權利要求17所述的系統,其中所述相關計算模塊還可操作用於估計短期互相 關係數以及用於補償對所述短期互相關係數的估計中的偏置。
19.根據權利要求17所述的系統,其中所述假設關係是所述多聲道輸入信號的各個聲 道中存在相等的環境水平。
20.根據權利要求17所述的系統,其中所導出的環境提取屏蔽產生了不同的環境提取 屏蔽,所述不同的環境提取屏蔽用於應用到所述多聲道輸入信號的各個聲道的時頻表示。
全文摘要
一種環境提取的方法,包括分析輸入信號以確定輸入信號中的時間依賴和頻率依賴的環境量,其中環境量是基於信號模型以及從輸入信號計算出的相關量來確定的,並且其中環境是利用乘法的時頻屏蔽來提取的。另一種環境提取的方法包括補償對短期互相關係數的估計中的偏置。此外,公開了具有用於實現以上方法的各種模塊的系統。
文檔編號G10L19/00GK101889308SQ200880119431
公開日2010年11月17日 申請日期2008年10月2日 優先權日2007年10月4日
發明者吉恩-馬克·喬特, 朱哈·O·梅裡瑪, 麥可·M·古德溫 申請人:創新科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀