新四季網

一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法

2023-07-13 08:03:01 3

一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法
【專利摘要】本發明公開了一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,該方法對輸入的時域信號經過加窗、分幀後,經傅立葉變換並取模得到該語句的幅度譜;估計得到稀疏的語音成分和噪聲基矩陣W(n);估計出語音分量和噪聲分量後得到增強語音的估計;將魯棒非負矩陣分解所得到的估計,與來自譜減SS和最小均方誤差MMSE的估計,經過幾何均值濾波模塊融合,得到最終的幅度譜估計;利用幅度譜估計和含噪語音的相位重構出增強語音的時域信號。本發明不局限於語音內容所屬的語言、不受限於說話人的變化、不受限於噪聲的種類,與經典的基於平穩性假設的譜估計算法SS和MMSE相比,本發明不再依賴於這種平穩性假設,可以較準確的估計出平穩或突變噪聲的頻譜。
【專利說明】一種基於魯棒非負矩陣分解和數據融合的無監督語音増強 方法

【技術領域】
[0001] 本發明屬於語音信號處理領域,尤其涉及一種基於魯棒非負矩陣分解和數據融合 的無監督語音增強方法。

【背景技術】
[0002] 語音增強無論對於提高語音信號的聽覺效果,還是作為前端處理提高語音識別器 的性能,都具有重要的意義。語音增強實施中的一個關鍵問題是噪聲估計。為了估計噪聲 的頻譜,人們提出了一些經典的算法,如譜減(SpectrumSubtraction,SS)、最小均方誤差 (MinimumMeanSquareError,MMSE)等,並已經廣泛應用在語音通信中。然而,這些方法一 般基於噪聲的平穩性假設,對於非平穩突變噪聲的頻譜估計效果很差。
[0003] 為了估計突變噪聲的頻譜,近年來基於字典學習的噪聲估計模型不斷湧現,考慮 到功率譜或幅度譜的非負性,非負字典學習成為噪聲估計的一種熱門方法。然而,非負噪 聲字典學習一般都需要提供噪聲頻譜或語音頻譜作為先驗知識,才能取得較好的效果。如 Duan等先利用純噪聲頻譜學習出噪聲字典,再將此字典用於被該噪聲汙染的語音信號的增 強;Chen等先利用純語音頻譜學習出一個通用的語音字典,再將此字典用於被噪聲汙染的 同類語音信號的增強。
[0004] 上述兩類方法在是否需要事先訓練方面的特點為:譜減和最小均方誤差算法不需 要關於噪聲和語音的數據來實施事前訓練一一即該類方法是無監督的;非負字典學習方法 依賴於在噪聲或語音數據上的事前的訓練一一即該類方法是有監督的。


【發明內容】

[0005] 本發明實施例的目的在於提供一種基於魯棒非負矩陣分解和數據融合的無監督 語音增強方法,旨在解決現有的有監督的語音增強算法局限於語音內容所屬的語言、受限 於說話人的變化受限於噪聲的種類的問題。
[0006] 本發明是這樣實現的,一種基於魯棒非負矩陣分解和數據融合的無監督語音增強 方法是這樣實現的:
[0007] 步驟一、對輸入的時域信號y(η),經過加窗、分幀後,對每幀實施短時傅立葉變換 並取模得到該語句的幅度譜Y;
[0008] 步驟二、利用魯棒非負矩陣分解模塊,估計得到稀疏的語音成分§和噪聲基矩陣 ff(n);
[0009] 步驟三、將§加權,與含噪語音幅度譜Y和噪聲基矩陣W(n)-起輸入到分塊非負矩 陣分解模塊中,估計出語音分量W(S)H(S)和噪聲分量W(n)H(n),經過維納濾波後得到增強語音 的估計Y;
[0010] 步驟四、將魯棒非負矩陣分解所得到的估計,與來自譜減SS和最小均方誤差MMSE 的估計,經過幾何均值濾波模塊融合,得到最終的幅度譜估計;
[0011] 步驟五、利用所得的幅度譜估計和含噪語音的相位,重構出增強語音的時域信號 V(/7)。
[0012] 進一步,W(n)和Hω分別表示噪聲的字典矩陣和激活係數矩陣,其中(η)指代的是 噪聲,S表示含噪語音的幅度譜圖Y中去除噪聲估計W(n)H(n)後的殘留部分,W(η),Η(η)和S的 更新公式如下:
[0013] w(n)^ff(η) □((Υ%(ff(n)H(n) +S)) * (H(n))τ),
[0014] H(n) ^H(n) □((ff(n))T*(Y% (ff(n)H(n) +S))),
[0015] S-S□ (Y% (W(n)H(n)+S)),
[0016] 其中,□和%是指元素相乘和相除。
[0017] 進一步,對S初始化的方法為:
[0018] 首先設置S= 0,然後運行W(n)和H(n)的迭代公式若干次,從而得到W(n)和H(n)的初 始粗略估計,再通過對γ和w(n)H(n)對應元素的比值施加閾值η,
[0019] S= (Y% (ff(n)H(n)) ^n),
[0020] 來決定每個時頻點取ο或1,閾值η的取值大於1。
[0021] 進一步,所述的閾值η取值為2。
[0022] 進一步,分塊非負矩陣分解模塊以含噪語音的幅度譜Υ,乾淨語音幅度譜的初步 估計δ和噪聲基矩陣w(n)為輸入,其最優化模型為:

【權利要求】
1. 一種基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其特徵在於,所述 的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法包括: 步驟一、對輸入的時域信號y(n),經過加窗、分幀後,對每幀實施短時傅立葉變換並取 模得到該語句的幅度譜Y; 步驟二、利用魯棒非負矩陣分解模塊,估計得到稀疏的語音成分? §和噪聲基矩陣1(11); 步驟三、將§加權,與含噪語音幅度譜Y和噪聲基矩陣W(n)-起輸入到分塊非負矩陣分 解模塊中,估計出語音分量W(S)H(S)和噪聲分量W(n)H(n),經過維納濾波後得到增強語音的估 計f; 步驟四、將魯棒非負矩陣分解所得到的估計,與來自譜減SS和最小均方誤差麗SE的估 計,經過幾何均值濾波模塊融合,得到最終的幅度譜估計; 步驟五、利用所得的幅度譜估計和含噪語音的相位,重構出增強語音的時域信號.〇(?)。
2. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,W(n)和H(n)分別表示噪聲的字典矩陣和激活係數矩陣,其中(n)指代的是噪聲,S 表示含噪語音的幅度譜圖Y中去除噪聲估計W(n)H(n)後的殘留部分,W(n),H(n)和S的更新公 式如下: W(n) -W(n) □ ((Y%(W(n)H(n) +S) ) * (H(n)) T), H(n)一H (n) □ ((W (n))T* (Y% (W(n)H(n)+S))), S-S□ (Y% (W(n)H(n)+S)), 其中,□和%是指元素相乘和相除。
3. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,對S初始化的方法為: 首先設置S= 0,然後運行W(n)和H(n)的迭代公式若干次,從而得到W(n)和H(n)的初始粗 略估計,再通過對Y和W(n)H(n)對應元素的比值施加閾值n, S= (Y% (ff(n)H(n)) ^n), 來決定每個時頻點取〇或1,閾值n的取值大於1。
4. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,所述的閾值n取值為2。
5. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,分塊非負矩陣分解模塊以含噪語音的幅度譜Y,乾淨語音幅度譜的初步估計{和 噪聲基矩陣w(n)為輸入,其最優化模型為:

其目標函數分為兩部分的和,第一部分是含噪語音幅度譜Y與其重構W(n)H(n)+W(s)H(s)2 間的KL散度;第二部分是以a加權後的乾淨語音幅度譜的初步估計S§與其重構W(S)H(S) 之間的KL散度,W(s),H(s)和H(n)的迭代公式如下,
6. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,所述的a=0.1。
7. 如權利要求1所述的基於魯棒非負矩陣分解和數據融合的無監督語音增強方法,其 特徵在於,幾何均值濾波模塊的幾何濾波採用:
【文檔編號】G10L21/0224GK104505100SQ201510005690
【公開日】2015年4月8日 申請日期:2015年1月6日 優先權日:2015年1月6日
【發明者】孫蒙, 張雄偉, 李軼南 申請人:中國人民解放軍理工大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀