基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法
2023-05-23 05:45:16 1
專利名稱:基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法
技術領域:
本發明屬於語音信號處理技術領域,是關於一種語音噪聲分離方法,特別是基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法。
背景技術:
語噪分離(Speech and noise separation)就是為了實現在複雜噪聲環境中分離出目標說話人語音而對帶噪語音所做的處理,其中主要目標就是消除環境噪聲對語音的幹擾,提高語音質量。語噪分離可以說是語音增強(Speech Enhancement)算法的一種擴展,其處理的噪聲甚至可以包括其他說話人語音。在上個世紀,由於計算機計算能力限制,人們的目光主要集中在算法複雜度較低且實現簡便的單通道語音增強或語音去噪(Speech denoising)算法中。在這一類算法 中典型的有如譜減法(Spectral Subtraction)、維納濾波法(Wiener Filter)、基於短時幅度譜的最小均方誤差估計方法(minimum mean square error approach for shorttime spectral amplitude estimation)、信號子空間法(Signal Subspace)、小波去噪法(Wavelet Denoise)。這類算能夠在一定程度上消除部分噪聲,但在現實環境中的消噪效果往往並不理想。在現實環境下的噪聲抑制仍然是一項富有挑戰的課題,特別地,在低信噪比和受多種類型噪聲汙染的情況下,語音消噪效果往往難於滿足實際應用需求。隨著計算機能力的飛速提高,許多學者提出了基於盲源分離思想的語噪分離算法以進一步抑制噪聲,典型的有(I)非負稀疏編碼(Non-negative Sparse Coding, NNSC)。利用非負稀疏編碼(NNSC)構造噪聲字典並在固定噪聲字典的情況下更新語音字典,最後聯合語音字典和其對應的投影係數重構出語音幅度譜,去除噪聲幹擾。(Mikkel N. Schmidt, JanLarsen and Fu-Tien Hsiao. Wind noise reduction using non-negative sparse coding.IEEE Workshop on Machine Learning for Signal Processing, 2007;431-436. ) (2)非負矩陣分解(Non-negative Matrix Factorization, NMF)方法。基於NMF算法,通過訓練構造語音和噪聲的字典,並將其組合成一個聯合字典,利用非負矩陣分解更新帶噪語音在聯合字典下的投影係數,實現語音去噪。(K. Wilson, B. Raj, P. Smaragdis, and A. Divakaran.Speech denoising using nonnegative matrix factorization with priors.ICASSP,2008;4029-4032.)。但是該方法需要依賴於說話人特徵,在實際語音通信系統中難以應用。(3)K-SVD方法。Christian D. Sigg在離線的情況下運用K-SVD算法訓練語音字典,在語音停頓的時刻在線學習噪聲字典的,然後構造一個由語音字典和噪聲字典組合而成的合成字典,通過對帶噪語音在合成字典下的稀疏編碼得到語音信號的估計,從而實現語音與噪聲的分離° (Christian D. Sigg, Tomas Dikk and Joachim M. Buhmann, Speech enhancementwith sparse coding in learned dictionaries. ICASSP, 2010; 4758-4761.)。米用盲源分離的思想實現語音去噪的一個顯著優勢就是這類算法對噪聲能量不敏感,特別適合於極低信噪比條件下的語音去噪。然而,由於目前的語噪分離算法大都依賴於先驗知識,即需要事先對語音或噪聲數據進行訓練,這一特點限制了這些算法在實際場合的應用。
發明內容
本發明的目的在於提供了一種基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法,在不需要噪聲先驗知識的前提下提升了語噪分離系統的性能,改善了分離後語音的質量。實現本發明目的的技術解決方案為一種基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法,從帶噪語音中直接分離出純淨語音,包括如下步驟(I)利用短時傅立葉變換將帶噪語音時域波形y(η)變換到時頻域,得到帶噪語音的幅度譜M ;(2)利用低秩與稀疏矩陣分解算法對帶噪語音的幅度譜M進行分解,獲得噪聲的幅度譜L、語音的幅度譜S和殘餘噪聲的幅度譜R,分解為如下形式M = L+S+R, rank (L) ^ r, card (S) ^ c,·這裡,i 稱為低秩噪聲矩陣,S e 稱為稀疏語音矩陣,i e Ka-7"稱為殘餘噪聲矩陣,rank(L)表示矩陣L的秩,card(S)表示矩陣S的勢,即矩陣非零元素個數;(3)使用短時傅立葉逆變換從語音的幅度譜S中重構出的純淨語音的時域波形>( )本發明與現有技術相比,其顯著優點本發明直接將帶噪語音分解為噪聲矩陣和語音矩陣之和,避免了 NMF,NNSC等方法需要分解和重構的複雜過程,在提升噪聲抑制能力的同時減少了語音的重構誤差,提高了語音質量;同時,由於本發明不需要預先訓練或提取任何特徵值,屬於無監督的分離方法,具有更大的實用價值。下面結合附圖對本發明作進一步詳細描述。
圖I是本發明所公開的基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法的流程圖。圖2是本發明所公開的基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法中,利用短時傅立葉變換將帶噪語音時域波形y (η)變換到時頻域,得到帶噪語音的幅度譜Y流程圖;圖3是本發明所公開的基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法中,利用低秩與稀疏矩陣分解算法對帶噪語音的幅度譜M進行分解,獲得噪聲的幅度譜L、語音的幅度譜S和殘餘噪聲的幅度譜R的流程圖;圖4是應用本發明的較佳實施例的實施過程示意圖。
具體實施例方式首先,圖I為本發明所公開的基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法流程圖,其針對一段帶噪語音資料,將帶噪語音中的噪聲和語音分離處理,實現噪聲的抑制。首先利用短時傅立葉變換將帶噪語音時域波形y(η)變換到時頻域,得到帶噪語音的幅度譜M (步驟100);利用低秩與稀疏矩陣分解算法對帶噪語音的幅度譜M進行分解,獲得噪聲的幅度譜L、語音的幅度譜S和殘餘噪聲的幅度譜R (步驟200);使用短時傅立葉逆變換從語音的幅度譜S中重構出的純淨語音的時域波形i( )(步驟300)。I、其中步驟100包括如圖2所示的流程。①首先對帶噪語音信號y (η)進行分幀加窗處理,窗函數為Hamming窗,幀長為N,幀間移動長度為H (步驟110)。一般情況下,N取為2的整數次冪,如256或512等。經過對比測試,設置H = N/2可取得較好效果。②對分幀後的語音幀進行K點離散傅立葉變換,獲得語音的時頻譜Y(k,t),具體計算公式如下
權利要求
1.一種基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法,其特徵在於從帶噪語音中直接分離出純淨語音,包括如下步驟 (1)利用短時傅立葉變換將帶噪語音時域波形y(η)變換到時頻域,得到帶噪語音的幅度譜Μ; (2)利用低秩與稀疏矩陣分解算法對帶噪語音的幅度譜M進行分解,獲得噪聲的幅度譜L、語音的幅度譜S和殘餘噪聲的幅度譜R,分解為如下形式M = L+S+R,rank (L) ^ r, card (S) ^ c, 這裡,Z e 稱為低秩噪聲矩陣,S e 稱為稀疏語音矩陣,i e 為殘餘噪聲矩陣,rank(L)表示矩陣L的秩,card(S)表示矩陣S的勢,即矩陣非零元素個數; (3)使用短時傅立葉逆變換從語音的幅度譜S中重構出的純淨語音的時域波形i( )。
2.根據權利要求I所述的基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法,其特徵在於步驟(I)的處理過程為 ①對帶噪語音信號y(η)進行分幀加窗處理,窗函數為Hamming窗,幀長為N,幀間移動長度為H,N取為2的整數次冪; ②對分幀後的語音幀進行K點離散傅立葉變換,獲得語音的時頻譜Y(k,t),具體計算公式如下
3.根據權利要求I所述的基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法,其特徵在於步驟(2)的分解步驟如下 ①初始化L和S:首先令L = M,S = 0,這裡i e f , S e IIm , K表示離散傅立葉變換時的頻率點數,T表示總巾貞數; ②使用如下公式對Z進行更新 /. = M - S1 這裡Z為L的預估計值,Si是第i次迭代時對S的估計值; ③對Z進行隨機投影,即令K=LA1,同時令A2 = Y1,其中A1為隨機矩陣; ④令F2=ZI並對其進行QR分解,即/2 =Pi;=込&洞理令 ; =LY2 =Q1R1,這裡Q1, Q2和R1, R2分別為QR分解後得到的左矩陣和右矩陣; ⑤如果^r= Tank(AlYl),否則跳轉到步驟②; ⑥使用如下公式對L和S進行更新 Lm-Q1IRMIy1Y1 Rmsi+1 = Pi2(M-Lw), 這裡Li+1和Si+1分別是L和S第i+Ι次迭代時的估計值,Ω表示矩陣I (M-Li+1) I前面k個最大元素構成的非零子集;⑦若||M-A-S,|t/||Af||i<e則停止迭代,否則跳轉到步驟②,這裡ε為判定閾值,推薦判定閾值的取值範圍為[10_5,10_4])。
4.根據權利要求I所述的基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法,其特徵在於步驟(3)的重構公式如下 這裡,//(O)= !>( ),h (η)為Hamming窗函數,K表示離散傅立葉逆變換時的頻率點數, S(k,t)為分解得到語音幅度譜。
全文摘要
本發明公開了一種基於低秩與稀疏矩陣分解的單通道無監督語噪分離方法。該方法首先使用短時傅立葉變換將帶噪語音時域波形變換到時頻域從而得到帶噪語音的幅度譜;利用低秩與稀疏矩陣分解算法將帶噪語音的幅度譜分解為噪聲幅度譜、語音幅度譜和殘餘噪聲幅度譜三者之和;最後,利用短時傅立葉逆變換從語音的幅度譜中重構出的語音時域波形。本發明不需要語音和噪聲的任何先驗信息,屬於無監督的單通道語噪分離方法,算法從帶噪語音中直接分離出純淨語音,簡單有效,特別適用於強噪聲環境下的人聲提取。
文檔編號G10L21/0224GK102915742SQ20121042846
公開日2013年2月6日 申請日期2012年10月30日 優先權日2012年10月30日
發明者張雄偉, 黃建軍, 吳海佳, 賈衝, 曾理, 周彬 申請人:中國人民解放軍理工大學