一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法
2023-07-13 08:03:01 3
一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法
【專利摘要】本發明公開了一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,該方法對輸入的時域信號經過加窗、分幀後,經傅立葉變換並取模得到該語句的幅度譜;估計得到稀疏的語音成分和噪聲基矩陣W(n);估計出語音分量和噪聲分量後得到增強語音的估計;將魯棒非負矩陣分解所得到的估計,與來自譜減SS和最小均方誤差MMSE的估計,經過幾何均值濾波模塊融合,得到最終的幅度譜估計;利用幅度譜估計和含噪語音的相位重構出增強語音的時域信號。本發明不局限於語音內容所屬的語言、不受限於說話人的變化、不受限於噪聲的種類,與經典的基於平穩性假設的譜估計算法SS和MMSE相比,本發明不再依賴於這種平穩性假設,可以較準確的估計出平穩或突變噪聲的頻譜。
【專利說明】一種基於魯棒非負矩陣分解和數據融合的無監督語音増強 方法
【技術領域】
[0001] 本發明屬於語音信號處理領域,尤其涉及一種基於魯棒非負矩陣分解和數據融合 的無監督語音增強方法。
【背景技術】
[0002] 語音增強無論對於提高語音信號的聽覺效果,還是作為前端處理提高語音識別器 的性能,都具有重要的意義。語音增強實施中的一個關鍵問題是噪聲估計。為了估計噪聲 的頻譜,人們提出了一些經典的算法,如譜減(SpectrumSubtraction,SS)、最小均方誤差 (MinimumMeanSquareError,MMSE)等,並已經廣泛應用在語音通信中。然而,這些方法一 般基於噪聲的平穩性假設,對於非平穩突變噪聲的頻譜估計效果很差。
[0003] 為了估計突變噪聲的頻譜,近年來基於字典學習的噪聲估計模型不斷湧現,考慮 到功率譜或幅度譜的非負性,非負字典學習成為噪聲估計的一種熱門方法。然而,非負噪 聲字典學習一般都需要提供噪聲頻譜或語音頻譜作為先驗知識,才能取得較好的效果。如 Duan等先利用純噪聲頻譜學習出噪聲字典,再將此字典用於被該噪聲汙染的語音信號的增 強;Chen等先利用純語音頻譜學習出一個通用的語音字典,再將此字典用於被噪聲汙染的 同類語音信號的增強。
[0004] 上述兩類方法在是否需要事先訓練方面的特點為:譜減和最小均方誤差算法不需 要關於噪聲和語音的數據來實施事前訓練一一即該類方法是無監督的;非負字典學習方法 依賴於在噪聲或語音數據上的事前的訓練一一即該類方法是有監督的。
【發明內容】
[0005] 本發明實施例的目的在於提供一種基於魯棒非負矩陣分解和數據融合的無監督 語音增強方法,旨在解決現有的有監督的語音增強算法局限於語音內容所屬的語言、受限 於說話人的變化受限於噪聲的種類的問題。
[0006] 本發明是這樣實現的,一種基於魯棒非負矩陣分解和數據融合的無監督語音增強 方法是這樣實現的:
[0007] 步驟一、對輸入的時域信號y(η),經過加窗、分幀後,對每幀實施短時傅立葉變換 並取模得到該語句的幅度譜Y;
[0008] 步驟二、利用魯棒非負矩陣分解模塊,估計得到稀疏的語音成分§和噪聲基矩陣 ff(n);
[0009] 步驟三、將§加權,與含噪語音幅度譜Y和噪聲基矩陣W(n)-起輸入到分塊非負矩 陣分解模塊中,估計出語音分量W(S)H(S)和噪聲分量W(n)H(n),經過維納濾波後得到增強語音 的估計Y;
[0010] 步驟四、將魯棒非負矩陣分解所得到的估計,與來自譜減SS和最小均方誤差MMSE 的估計,經過幾何均值濾波模塊融合,得到最終的幅度譜估計;
[0011] 步驟五、利用所得的幅度譜估計和含噪語音的相位,重構出增強語音的時域信號 V(/7)。
[0012] 進一步,W(n)和Hω分別表示噪聲的字典矩陣和激活係數矩陣,其中(η)指代的是 噪聲,S表示含噪語音的幅度譜圖Y中去除噪聲估計W(n)H(n)後的殘留部分,W(η),Η(η)和S的 更新公式如下:
[0013] w(n)^ff(η) □((Υ%(ff(n)H(n) +S)) * (H(n))τ),
[0014] H(n) ^H(n) □((ff(n))T*(Y% (ff(n)H(n) +S))),
[0015] S-S□ (Y% (W(n)H(n)+S)),
[0016] 其中,□和%是指元素相乘和相除。
[0017] 進一步,對S初始化的方法為:
[0018] 首先設置S= 0,然後運行W(n)和H(n)的迭代公式若干次,從而得到W(n)和H(n)的初 始粗略估計,再通過對γ和w(n)H(n)對應元素的比值施加閾值η,
[0019] S= (Y% (ff(n)H(n)) ^n),
[0020] 來決定每個時頻點取ο或1,閾值η的取值大於1。
[0021] 進一步,所述的閾值η取值為2。
[0022] 進一步,分塊非負矩陣分解模塊以含噪語音的幅度譜Υ,乾淨語音幅度譜的初步 估計δ和噪聲基矩陣w(n)為輸入,其最優化模型為:
【權利要求】
1. 一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其特徵在於,所述 的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法包括: 步驟一、對輸入的時域信號y(n),經過加窗、分幀後,對每幀實施短時傅立葉變換並取 模得到該語句的幅度譜Y; 步驟二、利用魯棒非負矩陣分解模塊,估計得到稀疏的語音成分? §和噪聲基矩陣1(11); 步驟三、將§加權,與含噪語音幅度譜Y和噪聲基矩陣W(n)-起輸入到分塊非負矩陣分 解模塊中,估計出語音分量W(S)H(S)和噪聲分量W(n)H(n),經過維納濾波後得到增強語音的估 計f; 步驟四、將魯棒非負矩陣分解所得到的估計,與來自譜減SS和最小均方誤差麗SE的估 計,經過幾何均值濾波模塊融合,得到最終的幅度譜估計; 步驟五、利用所得的幅度譜估計和含噪語音的相位,重構出增強語音的時域信號.〇(?)。
2. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,W(n)和H(n)分別表示噪聲的字典矩陣和激活係數矩陣,其中(n)指代的是噪聲,S 表示含噪語音的幅度譜圖Y中去除噪聲估計W(n)H(n)後的殘留部分,W(n),H(n)和S的更新公 式如下: W(n) -W(n) □ ((Y%(W(n)H(n) +S) ) * (H(n)) T), H(n)一H (n) □ ((W (n))T* (Y% (W(n)H(n)+S))), S-S□ (Y% (W(n)H(n)+S)), 其中,□和%是指元素相乘和相除。
3. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,對S初始化的方法為: 首先設置S= 0,然後運行W(n)和H(n)的迭代公式若干次,從而得到W(n)和H(n)的初始粗 略估計,再通過對Y和W(n)H(n)對應元素的比值施加閾值n, S= (Y% (ff(n)H(n)) ^n), 來決定每個時頻點取〇或1,閾值n的取值大於1。
4. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,所述的閾值n取值為2。
5. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,分塊非負矩陣分解模塊以含噪語音的幅度譜Y,乾淨語音幅度譜的初步估計{和 噪聲基矩陣w(n)為輸入,其最優化模型為:
其目標函數分為兩部分的和,第一部分是含噪語音幅度譜Y與其重構W(n)H(n)+W(s)H(s)2 間的KL散度;第二部分是以a加權後的乾淨語音幅度譜的初步估計S§與其重構W(S)H(S) 之間的KL散度,W(s),H(s)和H(n)的迭代公式如下,
6. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,所述的a=0.1。
7. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,幾何均值濾波模塊的幾何濾波採用:
【文檔編號】G10L21/0224GK104505100SQ201510005690
【公開日】2015年4月8日 申請日期:2015年1月6日 優先權日:2015年1月6日
【發明者】孫蒙, 張雄偉, 李軼南 申請人:中國人民解放軍理工大學