多麥克風語音活動檢測器的製作方法
2023-06-12 13:21:21
專利名稱:多麥克風語音活動檢測器的製作方法
技術領域:
本發明涉及語音活動檢測器。更具體地,本發明的實施例涉及利用兩個或多個麥克風的語音活動檢測器。
背景技術:
除非在此指出,否則本部分所描述的方案不是本申請中權利要求的現有技術,並且不會因為包含在本部分而被承認是現有技術。語音活動檢測器(VAD)的一個功能在於檢測麥克風所記錄的音頻信號區域中存在或者不存在人的語音。在關於由VAD模塊所決定的語音是否存在於其中的輸入信號上使用的不同處理機制的上下文中,VAD在許多語音處理系統中起作用。在這些應用中,精確且魯棒的VAD性能可影響整體性能。例如,在語音通信系統中,DTX (不連續傳輸)通常被用來改善帶寬使用效率。在這種系統中,利用VAD確定輸入信號中是否存在語音,並且如果不存在語音,則停止語音信號的實際傳輸。這裡,將語音錯分類為幹擾會導致傳輸信號中的語音減弱,並影響其可理解性(intelligibility)。作為示例,在語音增強系統中,通常需要估計所記錄的信號中的幹擾信號的水平(level)。這通常是在VAD的幫助下進行的,其中從僅包含幹擾信號的部分估計幹擾水平。例如,參見A.M.Kondoz的Digital Speech Coding forLow Bit Rate Communication Systems 的第 11 章(John Wiley&Sons, 2004)。在這個例子中,不準確的VAD會導致幹擾水平的過估計(over-estimate)或低估計(under-estimate),這最終會導致非最理想的(suboptimal)語音增強質量。之前已經提出了多種VAD系統。例如,參見A.M.Kondoz撰寫的Digital SpeechCoding for Low Bit Rate Communication Systems 的第 10 章(John Wiley&Sons, 2004)。這些系統中的一些利用目標語音和幹擾之間的差異的統計方面,並依賴閾值比較方法從幹擾信號中區分出目標語音。原先用於這些系統中的統計測量包括能量水平、計時、音調、零相交率、周期測量等。多於一種統計測量的組合被用於更多的複雜系統,以進一步改善檢測結果的精度。通常,當目標語音和幹擾具有非常明顯的統計特徵時,例如當幹擾具有穩定的並低於目標語音水平的水平時,統計方法取得好的性能。然而,在更不利的環境中,尤其在目標信號水平與幹擾水平的比值低時或者幹擾信號具有類似語音的特徵時,保持好的性能變成非常具有挑戰性的任務。
在一些魯棒的自適應射束形成(adaptive beamforming)系統設計中也可以發現與麥克風陣列組合的VAD。例如,參見0.Hoshuyama, B.Begasse, A.Sugiyama及A.Hirano的「A real time robust adaptive microphone array controlled by an SNR estimate,,,Procedings of the 1998IEEE International Conference on Acoustics, Speech andSignal Processing,1998。那些VAD基於麥克風射束形成系統的不同輸出水平的差異,其中目標信號僅存在於一個輸出中並因為其他輸出而被阻塞。因此,這種VAD設計的有效性可以與射束形成系統在因為那些輸出而阻塞目標信號時的能力有關,在實時系統中獲取這種能力會是昂貴的。與該背景有關的、但是不被認為是下文部分中將描述的示例性發明實施例的現有技術的其他參考包括:參考1:Α.M.Kondoz,「Digital Speech Coding for Low Bit Rate CommunicationSystems」,第 10 章(John Wiley&Sons, 2004);參考2:Α.M.Kondoz,「Digital Speech Coding for Low Bit Rate CommunicationSystems」,第 11 章(John Wiley&Sons, 2004);參考3:J.G.Ryan 和 R.A.Goubran, 「Optimal nearfield responses forMicrophone Array,,,見 IEEE Workshop Applicat.Signal Processing to Audio Acoust,New Paltz, NY, USA, 1997 ;參考 4:0.Hoshuyama, B.Begasse, A.Sugiyama 及 A.Hirano,「A real timerobust adaptive microphone array controlled by an SNR estimate,,,Proceedingsof thel998IEEE International Conference on Acoustics,Speech and SignalProcessingl998 ;參考5:US20030228023A1/W003083828A1/CA2479758AA,不利環境中多信道語音檢測(Multichannel voice detection in adverse environments);以及參考6:US7174022的用於射束形成和噪聲抑制的小陣列麥克風(Small arraymicrophone for beam-forming and noise suppression)。
圖1是說明根據本發明實施例的一般麥克風構造的圖;圖2是說明根據本發明實施例的包括示例性雙麥克風語音活動檢測器的裝置的圖;圖3是說明根據本發明實施例的示例性語音活動檢測器系統的框圖;圖4是根據本發明實施例的語音活動檢測的示例性方法的流程圖。
具體實施例方式在此所述的是用於語音活動檢測的技術。在下文的描述中,為了解釋的目的提出了許多示例以及具體的細節,以提供對本發明的透徹理解。然而,對於本領域技術人員顯而易見的是,由權利要求限定的本發明可以僅包括這些示例中的一些或所有特徵、或者與下文所述的其他特徵相結合,還可以進一步包括在此所述特徵和概念的修改以及等價物。下面將描述各種方法和過程。以一定順序描述它們主要是為了便於呈現。需要明白的是,可以根據不同的實施方式按期望以其他順序來執行具體的步驟或者並行執行具體的步驟。當特定步驟必須在另一步驟之前或者之後時,當根據上下文不明顯時,會具體指出這種情況。概要本發明的實施例改進了 VAD系統。根據一實施例,披露了基於雙麥克風陣列的VAD系統。在這樣的實施例中,建立了麥克風陣列以使得一個麥克風比另一麥克風更靠近目標聲音源。通過比較麥克風陣列輸出的信號水平做出VAD決定。根據一實施例,可以以相似的方式使用多於兩個麥克風。進一步根據一實施例,本發明包括語音活動檢測的方法。該方法包括在第一麥克風處接收第一信號並在第二麥克風處接收第二信號。第二麥克風離開第一麥克風放置。第一信號包括第一目標分量和第一幹擾分量,且第二信號包括第二目標分量和第二幹擾分量。根據麥克風之間的距離,第一目標分量與第二目標分量不同;且根據麥克風之間的距離,第一幹擾分量與第二幹擾分量不同。該方法進一步包括基於第一信號估計第一信號的水平,基於第二信號估計第二信號的水平,基於第一信號估計第一噪聲水平,以及基於第二信號估計第二噪聲水平。該方法進一步包括基於第一信號水平和第一噪聲水平計算第一比值,以及基於第二信號水平和第二噪聲水平計算第二比值。該方法進一步包括基於第一比值和第二比值之間的差計算當前語音活動決策。根據一實施例,語音獲得檢測器系統包括第一麥克風、第二麥克風、信號水平估計器、噪聲水平估計器、第一除法器(divider)、第二除法器以及語音活動檢測器。第一麥克風接收包括第一目標分量和第一幹擾分量的第一信號。第二麥克風離開第一麥克風放置。第二麥克風接收包括第二目標分量和第二幹擾分量的第二信號。根據麥克風之間的距離,第一目標分量與第二目標分量不同,並且第一幹擾分量與第二幹擾分量不同。信號水平估計器基於第一信號估計第一信號的水平,並基於第二信號估計第二信號的水平。噪聲水平估計器基於第一信號估計第一噪聲水平並基於第二信號估計第二噪聲水平。第一除法器基於第一信號水平和第一噪聲水平計算第一比值。第二除法器基於第二信號水平和第二噪聲水平計算第二比值。語音活動檢測器基於第一比值和第二比值之間的差計算當前語音活動決策。本發明的實施例可以作為方法或者過程來執行。所述方法可以由電子電路實施為硬體或軟體、或者它們的組合。用於實施該過程的電路可以是(僅僅執行特定任務的)專用電路或者(被編程為執行一個或多個特定任務的)通用電路。示例性配置、過程以及實施根據本發明的實施例,魯棒VAD系統觀察目標語音和幹擾信號之間差異的不同方面。在許多語音通信應用(例如電話、行動電話等)中,目標語音的源(source)通常在距麥克風非常短的範圍內;而幹擾信號通常來自非常遠的源。例如,在行動電話中,麥克風與嘴之間的距離處於2cm IOcm的範圍內;而幹擾通常發生在距離麥克風至少幾米的位置處。根據聲波傳輸理論知道:在前一種情況中,所記錄信號的水平對麥克風的位置非常敏感(其方式為,聲源距離麥克風越近,將獲得的信號的水平越大);而如果如後一種情況那樣信號來自遠距離處,則這種敏感性即消失。與上述的統計差異不同,該差異與聲源的地理位置有關,因此,它是魯棒的和高度可預知的。這給出了非常魯棒的特徵來區分目標聲音信號和幹擾。為了利用這個特徵,根據VAD系統的實施例,使用了小規模的雙麥克風陣列。以這種方式建立麥克風陣列,以使得一個麥克風比另一麥克風被放置得更靠近目標聲源。從而,通過監測這兩個麥克風輸出的信號水平來做出VAD決策。在本文的剩餘部分中進一步公開本發明實施例的詳細實現。麥克風陣列的示例性配置圖1是概念性地示出本發明實施例中所用的示例性麥克風陣列102的配置的框圖。麥克風陣列包括兩個麥克風:一個麥克風102a (近處的麥克風)位於與目標聲源104距離I1的位置處,另一麥克風102b (遠處的麥克風)放置在與目標聲源104距離I2的位置處。這裡I1U2t5此外,這兩個麥克風102a和102b彼此足夠靠近,從而使得從遠處幹擾的視點來看它們可被看作位於大概相同的位置處。根據一實施例,如果這兩個麥克風102a和102b之間的距離Al比其到幹擾的距離小一數量級(在麥克風陣列可具有幾釐米的尺寸的實際應用中,通常是這樣),那麼就滿足這個條件。根據一實施例,這兩個麥克風102a和102b之間的距離Al至少比到幹擾信號源的距離小一數量級。例如,如果預期幹擾信號的源距離麥克風102a (或102b)l米,那麼這兩個麥克風之間的距離ΛI可是2釐米。根據一實施例,這兩個麥克風102a和102b之間的距離Λ I處於到目標信號源的距離的數量級中。例如,如果預期目標信號源距離麥克風102a (或102b)2釐米,那麼這兩個麥克風之間的距離ΛI可是3釐米。根據一實施例,麥克風102a (或102b)與目標信號源之間的距離比麥克風102a(或102b)與幹擾信號源之間的距離小多於一個數量級。例如,如果預期目標信號源距離麥克風102a (或102b) 5釐米,那麼到幹擾信號源的距離可為51釐米。總之,根據實施例,目標信號源可以距離麥克風102a (或102b) 5釐米,幹擾可以距離麥克風102a (或102b)至少I米,而兩麥克風102a和102b之間的距離可以是3釐米。圖2是給出滿足上述要求的麥克風陣列102的示例的框圖。這裡,近處的麥克風102a被放置在行動電話204的前面,而遠處的麥克風102b被放置在行動電話204的後面。在這個具體的示例中,I1 = 3^5 (cm), I2 = 5 7 (cm)且Δ I = 2^3 (cm)。示例性VAD決策圖3是根據本發明實施例的示例性VAD系統300的框圖。VAD系統300包括近處的麥克風102a、遠處的麥克風102b、模一數轉換器302a和302b、帶通濾波器304a和304b、信號水平估計器306a和306b、噪聲水平估計器308a和308b、除法器310a和310b、單位(unit)延遲元件312a和312b、以及VAD決策模塊314。VAD系統300的這些元件執行如下文提出的各種功能。在VAD系統300中,麥克風陣列102的模擬輸出由模一數轉換器302a和302b數位化為PCM (脈衝編碼調製)信號。為了改善算法的魯棒性,可以對具有顯著語音能量的頻率範圍進行檢查。這可以通過具有帶通頻率範圍為400Hz 1000Hz的一對帶通濾波器(BPF)304a和304b對該數位化信號進行處理來實現。在信號水平估 計模塊306a和306b中,估計BPF304a和304b輸出的信號Xi (η)的水平。方便地,可以像下面這樣通過對信號Xi (η)的冪執行回歸平均運算,進行該水平估計:
σ j (η) =a Xi (η) |2+ (Ι-a) σ i (η-1), =1, 2其中0〈a〈l是接近零的小值,且σ i (O)被初始化為O。假設,信號X1(Ii)來自近處的麥克風102a,X2 (η)來自遠處的麥克風102b。現在,如果對於信號X1 (η)的水平估計為σ = Ad(n) + Ax(n)(其中λ 是來自幹擾信號分量的水平,而Xs (η)來自目標信號),則信號X2 (η)的水平將由下式給出:σ 2 (n) =g [ λ d (η) +p λ s (η)]這裡g是遠處麥克風102b和近處麥克風102a之間的增益差;且P是信號傳播延遲導致的。在理想條件下,所記錄聲音的水平與聲音到麥克風的距離的冪成反比。例如,參見 J.G.Ryan 和 R.A.Goubran, 「Optimal nearfield responses for microphonearray,,,Proc.1EEE Workshop Applicat.Signal Processing to Audio Acoust.(NewPaltz, NY, USA, 1997)。在此情況下,p由下式給定:P=(Il7I2)2其中I1和I2分別是目標聲音到近處麥克風102a和遠處麥克風102b的距離。在實際應用中,P可以依賴於麥克風陣列的實際聲學設置,且它的值可以通過測量獲得。注意:由於在這種情況下,這兩個麥克風之間的傳播衰減差異可被忽略,所以假設當麥克風增益差被補償之後,來自兩個麥克風的幹擾信號的水平相同。VAD系統300還像這樣監測X1 (η)和X2 (η)中幹擾的水平:
權利要求
1.一種執行語音活動檢測的方法,包括: 從第一麥克風接收第一信號,所述第一信號包括第一目標分量和第一幹擾分量;從第二麥克風接收第二信號,所述第二麥克風離開第一麥克風一距離,所述第二信號包括第二目標分量和第二幹擾分量,其中根據所述距離區分所述第一目標分量和所述第二目標分量,其中根據所述距離區分所述第一幹擾分量和所述第二幹擾分量,且其中第一麥克風和目標源之間的距離不同於第二麥克風和目標源之間的距離; 基於所述第一信號估計第一信號水平; 基於所述第二信號估計第二信號水平; 基於所述第一信號估計第一噪聲水平; 基於所述第二信號估計第二噪聲水平; 基於所述第一信號水平和所述第一噪聲水平計算第一比值; 基於所述第二信號水平和所述第二噪聲水平計算第二比值; 基於所述第一比值與所述第二比值之間的第三比值檢測風噪聲;以及基於所述風噪聲的檢測結果以及基於所述第一比值和所述第二比值之間的差計算當前語音活動決策。
2.權利要求1的方法,其中所述第一麥克風和所述第二麥克風之間的距離至少比所述第一麥克風和幹擾源之間的第二距離小一數量級。
3.權利要求1的方法,其中所述第一麥克風和所述第二麥克風之間的距離處於所述第一麥克風和目標分量的目標源之間的第二距離的數量級內,並且其中所述第一麥克風和所述第二麥克風之間的距離 至少比所述第一麥克風和幹擾源之間的第三距離小一數量級。
4.權利要求1的方法,其中所述第一麥克風距離目標分量的目標源第一距離且距離幹擾源第二距離,且其中所述第一距離比所述第二距離小多於一數量級。
5.權利要求1的方法,其中估計第一信號水平包括通過對所述第一信號的功率水平執行遞歸平均運算來估計第一信號水平。
6.權利要求1的方法,其中估計第一噪聲水平包括通過對所述第一信號的功率水平執行遞歸平均運算來估計第一噪聲水平。
7.權利要求1的方法,其中: 估計第一信號水平包括通過利用第一時間常量對第一信號的功率水平執行遞歸平均運算來估計第一信號水平;以及 估計第一噪聲水平包括通過利用第二時間常量對所述第一信號的功率水平執行遞歸平均運算來估計第一噪聲水平,其中所述第一時間常量大於所述第二時間常量。
8.一種包含執行語音活動檢測的電路的設備,所述設備包括: 第一麥克風,所述第一麥克風被配置為接收包括第一目標分量和第一幹擾分量的第一信號; 第二麥克風,所述第二麥克風離開第一麥克風一距離,所述第二麥克風被配置為接收包括第二目標分量和第二幹擾分量的第二信號,其中根據所述距離區分所述第一目標分量和所述第二目標分量,其中根據所述距離區分所述第一幹擾分量和所述第二幹擾分量,且其中第一麥克風和目標源之間的距離不同於第二麥克風和目標源之間的距離; 信號水平估計器,所述信號水平估計器被配置為基於所述第一信號估計第一信號水平且被配置為基於所述第二信號估計第二信號水平; 噪聲水平估計器,所述噪聲水平估計器被配置為基於所述第一信號估計第一噪聲水平且被配置為基於所述第二信號估計第二噪聲水平; 第一除法器,所述第一除法器被配置為基於所述第一信號水平和所述第一噪聲水平計算第一比值; 第二除法器,所述第二除法器被配置為基於所述第二信號水平和所述第二噪聲水平計算第二比值;以及 語音活動檢測器,所述語音活動檢測器被配置為基於所述第一比值和所述第二比值之間的差計算當前語音活動決策,其中所述語音活動檢測器進一步被配置為基於所述第一比值與所述第二比值之間的第三比值檢測風噪聲,且其中所述語音活動檢測器被配置為基於所述風噪聲的檢測結果以及基於所述第一比值和所述第二比值之間的差計算當前語音活動決策。
9.權利要求8的設備,其中所述第一麥克風和所述第二麥克風之間的距離比所述第一麥克風和幹擾源之間的第二距離小至少一數量級。
10.權利要求8的設備,其中所述第一麥克風和所述第二麥克風之間的距離處於所述第一麥克風和目標分量的目標源之間的第二距離的數量級內,且其中所述第一麥克風和所述第二麥克風之間的距離比所述第一麥克風和幹擾源之間的第三距離小至少一數量級。
11.權利要求8的設備,其中所述第一麥克風距離目標分量的目標源第一距離且距離幹擾源第二距離,且其中所述第一距離比所述第二距離小多於一數量級。
12.權利要求8的設備,其中所述信號水平估計器被配置為通過對所述第一信號的功率水平執行遞歸平均運算來估計第一信號水平。
13.權利要求8的設備,進一步包括: 延遲元件,所述延遲元件耦合在所述噪聲水平估計器和所述語音活動檢測器之間,所述延遲元件被配置為存儲前面的語音活動決策; 其中所述噪聲水平估計器被配置為通過對所述第一信號的功率水平執行遞歸平均運算來估計第一噪聲水平。
14.權利要求8的設備,進一步包括: 延遲元件,所述延遲元件耦合在所述噪聲水平估計器和所述語音活動檢測器之間,所述延遲元件被配置為存儲前面的語音活動決策; 其中所述信號水平估計器被配置為通過對所述第一信號的功率水平執行遞歸平均運算來估計第一信號水平;並且 其中所述噪聲水平估計器被配置為通過對所述第一信號的功率水平執行遞歸平均運算來估計第一噪聲水平。
15.權利要求8的設備,其中: 所述信號水平估計器被配置為通過利用第一時間常量對第一信號的功率水平執行遞歸平均運算來估計第一信號水平;以及 所述噪聲水平估計器被配置為通過利用第二時間常量對所述第一信號的功率水平執行遞歸平均運算來估計第一噪 聲水平,其中所述第一時間常量大於所述第二時間常量。
16.權利要求8的設備,其中:所述信號水平估計器包括耦合在所述第一麥克風和所述第一除法器之間的第一信號水平估計器以及耦合在所述第二麥克風和所述第二除法器之間的第二信號水平估計器;並且 所述噪聲水平估計器包括耦合在所述第一麥克風和所述第一除法器之間的第一噪聲水平估計器以及 耦合在所述第二麥克風和所述第二除法器之間的第二噪聲水平估計器。
全文摘要
提供了一種雙麥克風語音活動檢測器系統。語音活動檢測器系統估計每個麥克風處的信號水平和噪聲水平。諸如信號的附近聲音在兩個麥克風之間的水平差大於諸如噪聲的更遠距離聲音的水平差。因此,語音活動檢測器檢測附近聲音的存在。
文檔編號G10L25/78GK103137139SQ20131004691
公開日2013年6月5日 申請日期2009年6月25日 優先權日2008年6月30日
發明者俞容山 申請人:杜比實驗室特許公司