聲音信號處理裝置以及聲音信號處理方法
2023-05-30 17:52:01 4
專利名稱:聲音信號處理裝置以及聲音信號處理方法
技術領域:
本發明公開的實施方式涉及聲音信號處理裝置以及聲音信號處理方法。
背景技術:
近年來,在行動電話機等再生聲音的裝置中,為了提高再生音的音質,安裝有用於抑制接收的聲音信號中所包含的噪聲的噪聲抑制器。為了提高再生音的音質,期望噪聲抑制器將講話者的聲音等本應要再生的聲音信號與噪聲準確地區別。因此,已經開發出一種通過解析聲音信號的頻譜來辨別聲音信號中所包含的音的種類的技術(例如,參照專利文獻I 3)。
然而,難以檢測出在背景中對話的多人的說話聲被合成的噪聲、即多路重合噪聲(babble noise)。因此,在聲音信號中包含多路重合噪聲的情況下,存在噪聲抑制器無法抑制多路重合噪聲的情況。因此,提出了一種將多路重合噪聲與其他噪聲分開檢測的技術(例如,參照專利文獻4)。專利文獻I :日本特開2004-240214號公報專利文獻2 日本特開2004-354589號公報專利文獻3 日本特開平9-90974號公報專利文獻4 :日本特開平5-291971號公報在檢測多路重合噪聲的公知的技術中,例如在輸入的聲音信號的頻率分量滿足下述的辨別條件的情況下,則判定為輸入的聲音信號中包含多路重合噪聲。該辨別條件為IkHz以下的頻率範圍內所包含的低頻帶分量的功率高,高於IkHz的頻率範圍內所包含的高頻帶分量的功率不為0,且高頻帶分量的功率變動比與通常會話關聯的比率高。然而,從與多路重合噪聲不同的音源產生的音有時會滿足上述的辨別條件。例如,在存在如通過使用行動電話機的講話人的背後的車輛那樣,相對於收集聲音信號的話筒相對地高速移動的音源的情況下,該音源產生的音的音量在短期間內大幅度地變動。因此,相對於話筒相對地高速移動的音源產生的聲音、或者該音源產生的聲音與講話人的聲音混合而成的聲音會滿足上述的辨別條件,存在誤判定為多路重合噪聲的可能性。並且,若與多路重合噪聲不同的聲音被誤判定為多路重合噪聲,則由於噪聲抑制器不能恰當地抑制噪聲,因此存在再生音的音質降低的可能性。
發明內容
因此,本說明書的目的在於提供一種能夠準確地辨別聲音信號中是否包含多路重合噪聲的聲音信號處理裝置以及聲音信號處理方法。根據一個實施方式,提供一種聲音信號處理裝置。該聲音信號處理裝置具有時間頻率變換部,其通過對聲音信號以幀為單位進行時間頻率變換,來計算聲音信號的頻譜;譜變化量計算部,其根據第I幀的頻譜、與第I幀之前的第2幀的頻譜,來計算第I幀的頻譜與第2幀間的頻譜的變化量;判定部,其根據該譜變化量來判定第I幀的聲音信號中包含的噪聲的種類。根據其他實施方式,提供一種聲音信號處理方法。該聲音信號處理方法包括下述處理通過對聲音信號以幀為單位進行時間頻率變換,來計算聲音信號的頻譜,並根據第I幀的頻譜、與第I幀之前的第2幀的頻譜來計算第I幀的頻譜與第2幀間的頻譜的變化量,還根據該譜變化量來判定第I幀的聲音信號中包含的噪聲的種類。本發明的目的以及優點通過權利要求中特別指出的要素以及組合而實現,並且被達成。上述的一般的記述以及下述的詳細的記述均為例示性並且說明性的記述,應該理 解其不是如權利要求那樣對本發明進行限定的記述。本說明書中公開的聲音信號處理裝置以及聲音信號處理方法能夠準確地辨別聲音信號中是否包含多路重合噪聲。
圖I是安裝有第I實施方式的聲音信號處理裝置的電話機的概略結構圖。圖2(a)是表示針對多路重合噪聲的頻譜的時間變化的一個例子的圖,圖2(b)是表示針對穩定噪聲的頻譜的時間變化的一個例子的圖。圖3是表示第I實施方式的聲音信號處理裝置的概略結構圖。圖4是表示針對輸入的聲音信號的噪聲減少處理的動作流程的圖。圖5是安裝有第2 第4實施方式的聲音信號處理裝置的電話機的概略結構圖。圖6是第2實施方式的聲音信號處理裝置的概略結構圖。圖7是表示針對輸入的聲音信號的強調處理的動作流程的圖。圖8是第3實施方式的聲音信號處理裝置的概略結構圖。圖9是第4實施方式的聲音信號處理裝置的概略結構圖。
具體實施例方式以下,參照附圖對第I實施方式的聲音信號處理裝置進行說明。該聲音信號處理裝置通過調查被輸入的聲音信號的頻譜的波形的時間變化,來判定是否包含多路重合噪聲。並且,該聲音信號處理裝置在判定為包含多路重合噪聲的情況下,通過與聲音信號中包含其他噪聲的情況相比,降低聲音信號中包含的噪聲的功率,來實現再生首的首質提聞。圖I是安裝有第I實施方式的聲音信號處理裝置的電話機的概略結構圖。如圖I所示那樣,電話機I具有呼叫控制部10、通信部11、話筒12、放大器13、17、編碼部14、解碼部15、聲音信號處理裝置16、揚聲器18。其中,呼叫控制部10、通信部11、編碼部14、解碼部15以及聲音信號處理裝置16分別形成為單獨的電路。或者使這些各部作為一個集成有與該各部對應的電路的集成電路而被安裝於電話機I。並且,這些各部還可以是通過在電話機I具有的處理器上執行的電腦程式而實現的功能模塊。當通過藉助了電話機I具有的鍵盤等操作部(未圖示)的用戶操作而開始通話處理時,呼叫控制部10執行電話機I與交換機、或者Session Initiation Protocol (SIP :會話啟動協議)伺服器之間的呼叫、應答、切斷等呼叫控制處理。並且,呼叫控制部10響應該呼叫控制處理的結果,對通信部11指示動作的開始或者結束。通信部11將由話筒12收音,並被編碼部14編碼後的聲音信號變換成符合規定的通信標準的發送用信號。並且,通信部11將該發送用信號向通信線路輸出。另外,通信部11從通信線路接收符合規定的通信形式的信號,並從該接收到的信號中取出被編碼的聲音信號。並且,通信部11將被編碼的聲音信號提供給解碼部15。其中,規定的通信標準可設為例如網絡協議(Internet Protocol, IP),發送用信號以及接收信號可設為IP組包後的信號。編碼部14將由話筒12收音,由放大器13放大,並且由模擬_數字變換器(未圖示)進行了模擬-數字變換後的聲音信號編碼。因此,編碼部14可以使用例如,國際電信聯盟電信標準化部門(International Telecommunication Union Telecommunication Standardization Sector, ITU-T)的推薦 G. 711、G722. 1,或者 G. 729A 所規定的聲音編碼技 術。編碼部14將編碼後的聲音信號提供給通信部11。解碼部15對從通信部11接收的被編碼後的聲音信號進行解碼。並且,解碼部15將解碼後的聲音信號向聲音信號處理裝置16傳送。聲音信號處理裝置16對從解碼部15接收的聲音信號進行解析,並對該聲音信號中包含的噪聲進行抑制。此外,聲音信號處理裝置16還判定從解碼部15接收的聲音信號中包含的噪聲是否是多路重合噪聲。並且,聲音信號處理裝置16根據聲音信號中包含的噪聲的種類而執行不同的噪聲抑制處理。聲音信號處理裝置16將被實施了噪聲抑制處理後的聲音信號向放大器17輸出。放大器17將從聲音信號處理裝置16接收的聲音信號放大。並且,從放大器17輸出的聲音信號由數字-模擬變換器(未圖示)進行數字-模擬變換。並且被模擬化的聲音信號被輸入到揚聲器18。揚聲器18將從放大器17接收的聲音信號再生。這裡,對多路重合噪聲的特性與其他噪聲、例如穩定噪聲的特性的不同進行說明。圖2 (a)是表示針對多路重合噪聲的頻譜的時間變化的一個例子的圖,圖2 (b)表示針對穩定噪聲的頻譜的時間變化的一個例子的圖。在圖2(a)以及圖2(b)中,橫軸表示頻率,縱軸表示噪聲的頻譜的振幅的強度。另夕卜,在圖2(a)中,曲線201表示時刻t的多路重合噪聲的頻譜的波形的一個例子。另一方面,曲線202表示比時刻t早規定時間的時刻(t-Ι)的多路重合噪聲的頻譜的波形的一個例子。另外,在圖2(b)中,曲線211表示時刻t的穩定噪聲的頻譜的波形的一個例子。另一方面,曲線212表示時刻(t-Ι)的穩定噪聲的頻譜的波形的一個例子。多路重合噪聲由於是多個人的聲音合成而得,所以是基音頻率(pitchfrequency)不同的多個聲音信號重疊而成。因此,頻譜在短期間內發生大幅變動。尤其,存在重疊的人的聲音越多,頻譜變化越大的趨勢。因此,如圖2(a)所示那樣,時刻t的多路重合噪聲的頻譜的波形201與時刻(t-Ι)的多路重合噪聲的頻譜的波形202大不相同。與此相對,穩定噪聲的波形在短期間內幾乎沒有變動。因此,如圖2(b)所示那樣,時刻t的穩定噪聲的頻譜的波形211與時刻(t-Ι)的穩定噪聲的頻譜的波形212幾乎相同。例如,即使產生噪聲的音源與收音的話筒之間的距離在時刻t與時刻(t-Ι)之間發生了變化,儘管頻譜的強度在整體上變強或變弱,但是穩定噪聲的頻譜的波形本身的變化很小。因此,聲音信號處理裝置16通過調查輸入的聲音信號的頻譜的波形的時間變化,能夠判斷輸入的聲音信號中包含的噪聲是否是多路重合噪聲。圖3表不聲音信號處理裝置16的概略結構圖。如圖3所不,聲音信號處理裝置16具有時間頻率變換部161、功率譜計算部162、噪聲估計部163、聲音信號辨別部164、增益計算部165、濾波部166、頻率時間變換部167。聲音信號處理裝置16具有的這些各部分別形成為單獨的電路。或者,聲音信號處理裝置16具有的這些各部可以作為一個集成有與所述各部對應的電路的集成電路被安裝於聲音信號處理裝置16。並且,聲音信號處理裝置16具有的這些各部還可以是利用在聲音信號處理裝置16具有的處理器上執行的電腦程式實現的功能模塊。
時間頻率變換部161通過以幀為單位對輸入到聲音信號處理裝置16的聲音信號進行時間頻率變換,來將該輸入聲音信號變換成頻譜。時間頻率變換部161為了將輸入聲音信號變換成頻譜,可以使用例如高速傅立葉變換、離散餘弦變換、修正離散餘弦變換等時間頻率變換處理。其中,幀長例如可以設為200msec。時間頻率變換部161將頻譜向功率譜計算部162輸出。功率譜計算部162每當從時間頻率變換部161接收到頻譜時,便計算該頻譜的功率譜。其中,功率譜計算部162根據下式來計算功率譜。[數式I]S(f) = IOlog10(IX(f) I2)(I)這裡,f為頻率,函數X(f)是表示針對頻率f的頻譜的振幅的函數。此外,函數S(f)是表示針對頻率f的功率譜的強度的函數。功率譜計算部162將計算出的功率譜向噪聲估計部163、聲音信號辨別部164以及增益計算部165輸出。噪聲估計部163每當接收到各幀的功率譜時,便根據該功率譜計算與聲音信號中包含的噪聲分量相當的估計噪聲譜。一般而言,噪聲的音源與對輸入到電話機I的聲音信號進行收音的話筒之間的距離比話筒與朝向該話筒講話的講話人之間的距離遠。因此,噪聲分量的功率比講話人的聲音的功率小。因此,噪聲估計部163針對輸入到電話機I的聲音信號的各幀中的、功率譜較小的幀,按照將包含輸入信號的頻帶分割成多個而得到的子頻帶的每個子頻帶來求出功率的平均值,由此計算估計噪聲譜。其中,子頻帶的範圍例如可以為將OHz 8kHz的範圍1024等分或者256等分而得到的範圍。具體而言,噪聲估計部163按照幀的時間順序,對最新的幀,根據下式計算包含輸入到電話機I的聲音信號的頻帶整體的功率譜的平均值P。[數式2]P = -(2)這裡M為子頻帶的數。另外,flOT表示最低的子頻帶,fhigh表示最高的子頻帶。接下來,噪聲估計部163對最新的幀的功率譜的平均值P、與相當於噪聲分量的功率的上限的閾值Thr進行比較。其中,閾值Thr例如被設定為IOdB 20dB的範圍內的任意的值。並且,噪聲估計部163在平均值P小於閾值Thr的情況下,通過對各子頻帶,按照下式將功率譜在時間方向進行平均,來計算針對最新的幀的估計噪聲譜Nm(f)。[數式3]Nm (f) = a * Nm^1 (f) + (I-α) · S (f)(3)其中,Nnri (f)是針對最新的幀的前一個幀的估計噪聲譜,從噪聲估計部163具有的緩衝器被讀入。另外,係數α例如被設定為O. 9 O. 99中的任意的值。另一方面,當平均值P在閾值Thr以上時,估計為最新的幀中包含噪聲以外的分量,因此噪聲估計部163不更新估計噪聲譜。即,噪聲估計部163設定Nm (f) = Nnri (f)。另外,噪聲估計部163還可以代替計算功率譜的平均值P,而求出全部的子頻帶的功率譜中的最大值,並將該最大值與閾值Thr進行比較。噪聲估計部163將估計噪聲譜向增益計算部165輸出。另外,噪聲估計部163將針對最新的幀的估計噪聲譜存儲在噪聲估計部163具有的緩衝器中。聲音信號辨別部164每當接收到各幀的功率譜時,便對包含在該幀中的噪聲的種類進行辨別。因此,聲音信號辨別部164具有譜歸一化部171、波形變化量計算部172、緩衝器173、判定部174。譜歸一化部171將接收到的功率譜歸一化。例如,譜歸一化部171根據下式,計算歸一化功率譜S' (f),以使得與各子頻帶中的功率譜的平均值對應的歸一化功率譜S' (f)的強度為I。[數式4]
權利要求
1.ー種聲音信號處理裝置,其特徵在於,具有 時間頻率變換部,其對聲音信號以幀為單位進行時間頻率變換,由此來計算該聲音信號的頻譜; 譜變化量計算部,其根據第I幀的頻譜、和所述第I幀之前的第2幀的頻譜,計算所述第I幀的頻譜與所述第2幀間的頻譜的變化量;和 判定部,其根據所述譜變化量來判定所述第I幀的聲音信號中包含的噪聲的種類。
2.根據權利要求I所述的聲音信號處理裝置,其特徵在幹, 還具有譜歸ー化部,該譜歸一化部根據各幀的所述頻譜來計算歸一化譜,該歸ー化譜是被歸一化為所述頻譜的振幅的最大值或者平均值成為規定值的頻譜, 所述譜變化量計算部根據所述第I幀的歸一化譜和所述第2幀的歸ー化譜,來計算所述頻譜的變化量。
3.根據權利要求I或者2所述的聲音信號處理裝置,其特徵在幹, 所述譜變化量計算部按照對頻帶進行分割而得到的多個子頻帶的每個子頻帶來計算所述頻譜的變化量。
4.根據權利要求3所述的聲音信號處理裝置,其特徵在幹, 所述譜變化量計算部根據各子頻帶的所述第I幀的歸一化譜與所述第2幀的歸ー化譜之間的差的絕對值的合計值,來計算所述頻譜的變化量。
5.根據權利要求4所述的聲音信號處理裝置,其特徵在幹, 還具有權重決定部,在對頻帶進行分割而得到的多個子頻帶中,該權重決定部將所述第I幀的頻譜的振幅比所述第2幀的頻譜的振幅大的子頻帶的權重係數設定為大於所述第I幀的頻譜的振幅在所述第2幀的頻譜的振幅以下的子頻帶的權重係數, 所述波形變化量計算部按照每個所述子頻帶,對所述權重係數乘以對應的所述差的絕對值而得到的值進行合計,由此來計算所述波形變化量。
6.根據權利要求4所述的聲音信號處理裝置,其特徵在幹, 還具有權重決定部,在所述第I幀的頻譜的振幅的平均值比第I值大的情況下,該權重決定部將各所述子頻帶的權重係數設定為大於所述第I幀的頻譜的振幅的平均值在第2值以下的情況下的各所述子頻帶的權重係數,其中,所述第2值比所述第I值小, 所述波形變化量計算部按照每個所述子頻帶,對所述權重係數乘以對應的所述差的絕對值而得到的值進行合計,由此來計算所述波形變化量。
7.根據權利要求I至6中的任意一項所述的聲音信號處理裝置,其特徵在幹, 在所述波形變化量比與ー個人的聲音的波形變化量相當的閾值大的情況下,所述判定部判定為所述第I幀的聲音信號中包含的噪聲的種類是多個人的聲音合成而得的噪聲。
8.根據權利要求I至7中任意一項所述的聲音信號處理裝置,其特徵在幹, 該聲音信號處理裝置還具有 噪聲估計部,其估計所述聲音信號中包含的噪聲分量的功率譜; 増益計算部,其根據噪聲分量的功率譜與所述頻譜的功率譜來計算增益; 濾波部,其通過對所述頻譜乘以所述增益來計算噪聲減少譜;和 頻率時間變換部,其將所述噪聲減少譜變換成時間信號,由此來計算輸出信號, 所述增益計算部使由所述判定部判定為所述第I幀的聲音信號中包含的噪聲的種類是多個人的聲音合成而得的噪聲的情況下的増益大於由所述判定部判定為所述第I幀的聲音信號中包含的噪聲的種類不是多個人的聲音合成而得的噪聲的情況下的増益。
9.根據權利要求I至7中任意一項所述的聲音信號處理裝置,其特徵在幹, 該聲音信號處理裝置還具有 噪聲估計部,其估計所述聲音信號中包含的噪聲分量的功率譜; 増益計算部,其根據所述頻譜的功率譜與噪聲分量的功率譜之間的差、和規定的閾值的比較來計算增益; 濾波部,其通過對所述頻譜乘以所述增益來計算噪聲減少譜;和 頻率時間變換部,其將所述噪聲減少譜變換成時間信號,由此來計算輸出信號, 所述增益計算部使被判定為所述第I幀的聲音信號中包含的噪聲的種類是多個人的聲音合成而得的噪聲的情況下的所述閾值大於被判定為所述第I幀的聲音信號中包含的噪聲的種類不是多個人的聲音合成而得的噪聲的情況下的所述閾值。
10.根據權利要求I至7中任意一項所述的聲音信號處理裝置,其特徵在幹, 該聲音信號處理裝置還具有 第2時間頻率變換部,其以幀為單位對第2聲音信號進行時間頻率變換,由此來計算該第2聲音信號的頻譜; 増益計算部,其基於噪聲的判定結果,計算對輸入信號進行放大的每ー個頻帶的增益; 濾波部,其對第2聲音信號的頻譜乘以每個頻帶的増益,由此計算強調譜;和 頻率時間變換部,其將所述強調譜變換成時間信號,由此計算輸出信號, 所述增益計算部將由所述判定部判定為所述第I幀的聲音信號中包含的噪聲的種類是多個人的聲音合成而得的噪聲的情況下的増益設定為大於由所述判定部判定為所述第I幀的聲音信號中含有的噪聲的種類不是多個人的聲音合成而得的噪聲的情況下的増益。
11.根據權利要求I至7中任意一項所述的聲音信號處理裝置,其特徵在幹, 該聲音信號處理裝置還具有 反相聲音生成部,其使用預先設定的濾波器對所述聲音信號進行卷積處理,由此生成所述聲音信號的反相聲音;和 濾波部,其將所述反相聲音重疊於第2聲音信號, 所述反相聲音生成部保持預先設定的多個濾波器,在由所述判定部判定為所述第I幀的聲音信號中包含的噪聲的種類是多個人的聲音合成而得的噪聲的情況下、和除此之外的情況下,對濾波器進行切換來使用。
12.根據權利要求I至7中任意一項所述的聲音信號處理裝置,其特徵在幹, 該聲音信號處理裝置還具有 反相聲音生成部,其使用濾波器對所述聲音信號進行卷積處理,由此生成所述聲音信號的反相聲音; 濾波器更新部,其基於誤差信號對所述濾波器進行更新;和 濾波部,其將所述反相聲音重疊於第2聲音信號,所述反相聲音生成部保持多個濾波器,在由所述判定部判定為所述第I幀的聲音信號中包含的噪聲的種類是多個人的聲音合成而得的噪聲的情況下、和除此之外的情況下,對所述濾波器進行切換來使用, 所述濾波器更新部對所述反相聲音生成部所使用的濾波器進行更新。
13.根據權利要求I所述的聲音信號處理裝置,其特徵在於,還具有 増益計算部,所述波形變化量越大,該增益計算部將増益設定得越大;和 濾波部,其執行濾波處理,即所述増益越大,則使與所述聲音信號分別輸入的第2聲音信號越大。
14.ー種聲音信號處理方法,其特徵在於, 以幀為單位對聲音信號進行時間頻率變換,由此來計算該聲音信號的頻譜, 根據第I幀的頻譜和所述第I幀之前的第2幀的頻譜,來計算所述第I幀的頻譜與所述第2幀間的頻譜的變化量, 根據所述譜變化量來判定所述第I幀的聲音信號中包含的噪聲的種類。
15.根據權利要求14所述的聲音信號處理方法,其特徵在於, 還包括根據各幀的所述頻譜來計算歸ー化譜,該歸一化譜是被歸ー化為所述頻譜的振幅的最大值或者平均值成為規定值的頻譜, 計算所述頻譜的變化量是指,根據所述第I幀的歸一化譜和所述第2幀的歸一化譜來計算所述頻譜的變化量。
全文摘要
一種聲音信號處理裝置,具有對聲音信號以幀為單位進行時間頻率變換,由此來計算聲音信號的頻譜的時間頻率變換部;根據第1幀的頻譜、與第1幀之前的第2幀的頻譜,來計算第1幀的頻譜與第2幀間的頻譜的變化量的譜變化量計算部;和根據該譜變化量,來判定第1幀的聲音信號中包含的噪聲的種類的判定部。
文檔編號G10L21/02GK102804260SQ20098015992
公開日2012年11月28日 申請日期2009年6月19日 優先權日2009年6月19日
發明者大谷猛, 外川太郎, 鈴木政直, 大田恭士 申請人:富士通株式會社