新四季網

基於壓縮感知和k-svd的單通道混合語音分離方法

2023-06-27 05:01:21 2

專利名稱:基於壓縮感知和k-svd的單通道混合語音分離方法
技術領域:
本發明涉及一類特殊的語音增強範疇一語音分離,尤其涉及一種基於壓縮感知和 K-SVD的單通道混合語音分離方法,屬於語音信號處理的技術領域,
背景技術:
語音是人類最方便最直接也最常用的交流方式。然而,在實際環境中,人們在獲取 語音信號的同時不可避免地會受到周圍環境噪聲的幹擾,這些幹擾一方面會影響語音處理 系統(例如語音識別系統)的性能,另一方面會影響人耳對語音的感知和理解。因此,語音 增強顯得尤為必要。語音分離是一類特殊的語音增強方法,其噪聲對象一般為難以處理的 類語音噪聲,是在源語音信號和傳輸信道參數(即混合過程)未知的情況下,僅根據從麥克 風採集到的觀測數據(即混合語音信號),來恢復或分離出獨立的源語音信號的過程。其目 的是增強目標語音,抑制幹擾語音。目標語音和幹擾語音性質的相似性,決定了語音分離在 各類語音增強方法中難度是最大的。單通道混合語音分離要求從一個麥克風採集得到的混 合語音信號中,分離出彼此獨立的多個源語音信號,因已知條件最少而難度更大。但由於一 個麥克風是最容易布設也是最常用的,所以單通道混合語音分離技術如果可以突破,則具 有的實際應用價值最大。目前單通道混合語音分離主要有三類主要方法基於統計模型的單通道混合語音 分離方法,計算機聽覺場景分析和基於投影分解的單通道混合語音分離方法。基於統計模 型的單通道混合語音分離方法是建立在對信號訓練建模基礎上的,通常分為三步第一步, 對各源語音信號或其特徵參數建模,通過訓練確立各源語音信號模型的參數;第二步,以混 合語音信號和源語音信號模型為已知條件,根據合適的準則,選擇源語音信號中的若干成 分來最優地組成混合語音信號;第三步,由選取的各源語音信號成分直接組成分離後的各 源語音,或者先形成相應的濾波器,再預測出各源語音信號。計算機聽覺場景分析方法通過 模仿人耳聽覺系統來進行語音分離,核心為分離,由分段和組合兩部分組成。分段是將混合 語音分解為一系列的感覺段,各分離語音信號的每個感覺段要求來自於同個源語音信號。 組合是把來自於相同源信號的感覺段合併起來,形成對應源信號的流。基於投影分解的單 通道混合語音分離方法,一般是先通過機器學習構造合適的基函數或字典,再由概率方法 或最優化方法,預測出源語音信號在某基函數或某字典下的投影向量,最後由預測的投影 向量和相應的基函數或字典重構得到分離後的語音信號。從分離方法上看基於概率統計模型的單通道混合語音分離算法側重於概率方 法,在概率建模的基礎上實現混合語音的分離,需要預先訓練;計算機聽覺場景分析方法 (CASA)側重於生物模擬方法,通過模擬人耳聽覺實現混合語音的分離,不需要預先訓練; 基於投影分解的單通道混合語音分離算法側重於機器學習,通過機器學習構造合適的基函 數或字典,在此基礎上實現混合語音的分離,需要預先訓練。從分離性能上看整體而言,基 於投影分解的單通道混合語音分離算法的分離性能最好,基於概率統計模型的單通道混合 語音分離算法的分離性能次之,CASA的分離性能最差。從算法複雜度上看CASA通過模擬人耳聽覺來進行語音分離,並需要對語音的分段重組進行多次調整,複雜度最高。基於投影 分解的單通道混合語音分離算法與基於概率統計模型的單通道混合語音分離算法,都基於 數學概率模型或優化方法,故總體而言,複雜度相差不大。從發展潛力上看,三者各有優缺 點,都有自己的發展空間。雖然目前單通道混合語音分離的研究取得了一定的成果,但總體 都算法複雜度偏高,且性能雖源語音信號的不同而差別較大,另外在訓練階段對訓練數據 有特殊的要求,故整體而言,實用性不強,有待改進,以便具體應用。

發明內容
本發明提供一種基於壓縮感知和K-SVD的單通道混合語音分離方法,其目的重在 考慮實用性,設計對訓練數據沒有特殊要求,且性能穩定的單通道混合語音分離方法,以能 增強目標語音,降低幹擾語音。本方法利用語音信號在K-SVD字典下的稀疏性,根據壓縮感 知觀測和單通道混合語音在表達式上的相似性,採用壓縮感知理論中的信號重構方法,來 進行單通道混合語音的分離,以達到增強目標語音抑制幹擾語音的目的。為實現上述目的,本發明採用了如下技術方案一種基於壓縮感知和K-SVD的單通道混合語音分離方法,其特徵在於本方法利 用語音信號在K-SVD字典下的稀疏性,根據壓縮感知觀測和單通道混合語音在表達式上的 相似性,採用壓縮感知理論中的信號重構方法,進行單通道混合語音的分離,以達到增強目 標語音抑制幹擾語音的目的,採取的步驟是1)採用K-SVD算法,對男男、男女及女女三類混合訓練語音分幀,由混合訓練語音 幀對每類混合訓練語音各構造一個普遍適用的過完備字典即K-SVD字典;2)將單通道混合語音分幀,逐幀分離單通道混合語音;基於所構造的K-SVD字典 和各單通道混合語音幀的表達式,從壓縮感知觀測和單通道混合語音表達式的相似性出 發,採用壓縮感知理論中基於IcT範數優化的信號重構算法,求取各源語音幀在K-SVD字典 下稀疏表示的估計,由該稀疏表示的估計和K-SVD字典的乘積,重構得到各分離語音幀;3)將各分離語音幀順序連接,得到分離後的語音信號。上述中1)採用K-SVD算法構造K-SVD字典的具體方法可以是a.記χ = 為已知的單通道混合語音,其中Si(i = 1,2)為未知的源語音信 號;假設S1和S2所對應的說話人已知,將S1和S2所對應的說話人的訓練語音分幀,幀長
為L樣點/幀,取L = 128,幀間不重疊,分別記各源語音信號幀為^trailJ二Γ"和·, 將『序連接,得到混合訓練語音巾貞·K^Cii",其中=(Cn^u)1, =IXttain(I),⑵,...,<_仏)『表示S1所對應說話人的第i幀訓練語音,
^Un = -⑴,_(2),...,4,train(L)]T表示&所對應的說話人的第i幀訓練語音,Nteain表
示各說話人的訓練語音幀數,兩說話人的訓練語音幀數相同;b.採用K-SVD算法訓練構造過完備字典Q,使各混合訓練語音幀信號在Q下滿足 重構誤差在設定範圍的同時信號儘可能在該字典下稀疏,具體可用下面的數學式表示V/: tnin||rj|0s.t. ^ttaitli||2 ^^
其中γ i為Xtrainj在字典Q下的稀疏表示,ε表示設定的重構誤差閾值,值為0. 1 ;2)將單通道混合語音分幀,逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀,幀長為為L樣點/幀,同樣取L = 128,幀間不重疊,逐幀 分離單通道混合語音,各幀分離單通道混合語音的方法相同;下面以第j幀單通道混合語 音分離為例,來說明分離各單通道混合語音幀的方法a.記第j幀單通道混合語音為V =S/+與,其中S/為源信號Si (i = 1,2)號的第j
幀,分+與用矩陣形式表示如下
權利要求
1.一種基於壓縮感知和K-SVD的單通道混合語音分離方法,其特徵在於本方法利用 語音信號在K-SVD字典下的稀疏性,根據壓縮感知觀測和單通道混合語音在表達式上的相 似性,採用壓縮感知理論中的信號重構方法,進行單通道混合語音的分離,以達到增強目標 語音抑制幹擾語音的目的,採取的步驟是1)採用K-SVD算法,對男男、男女及女女三類混合訓練語音分幀,由混合訓練語音幀對 每類混合訓練語音各構造一個普遍適用的過完備字典即K-SVD字典;2)將單通道混合語音分幀,逐幀分離單通道混合語音;基於所構造的K-SVD字典和各 單通道混合語音幀的表達式,從壓縮感知觀測和單通道混合語音表達式的相似性出發,採 用壓縮感知理論中基於Icr範數優化的信號重構算法,求取各源語音幀在K-SVD字典下稀 疏表示的估計,由該稀疏表示的估計和K-SVD字典的乘積,重構得到各分離語音幀;3)將各分離語音幀順序連接,得到分離後的語音信號。
2.根據權利要求1所述的基於壓縮感知和K-SVD的單通道混合語音分離方法,其特徵 在於1)採用K-SVD算法構造K-SVD字典的具體方法是a.記χ= 為已知的單通道混合語音,其中Si (i = 1,2)為未知的源語音信 號;設S1和&所對應的說話人已知,將S1和&所對應的說話人的訓練語音分幀,幀長為L樣點/幀,取L = 128,幀間不重疊,分別記各源語音信號幀為RtrainIiIr1和, 將和順序連接,得到混合訓練語音巾貞{^Xr,其中『,=(c^u)T, =[<^ (1),<^(2),·.-,^train(L)J表示S1所對應說話人的第i幀訓練語音,=OU1⑴,4-(2),·.·,■<,_(L^f表示&所對應的說話人的第i巾貞訓練語音,Ntrain表示各說話人的訓練語音幀數,兩說話人的訓練語音幀數相同;b.採用K-SVD算法訓練構造過完備字典Q,使各混合訓練語音幀信號在Q下滿足重構 誤差在設定範圍的同時信號儘可能在該字典下稀疏,用下面的數學式表示其中YiSAaini在字典Q下的稀疏表示,ε表示設定的重構誤差閾值,值為0.1;2)將單通道混合語音分幀,逐幀分離單通道混合語音的具體方法是將單通道混合語音分幀,幀長為L樣點/幀,同樣取L = 128,幀間不重疊,逐幀分離單 通道混合語音,各幀分離單通道混合語音的方法相同,對於其中第J幀a.記第j幀單通道混合語音為Y 與,其中i/為源信號Si(i = 1,2)號的第j中貞, 分二<用矩陣形式表示如下練的過程中,保證全體混合訓練語音幀在Q下具有稀疏性,故可認為
全文摘要
一種基於壓縮感知和K-SVD的單通道混合語音分離方法,採用K-SVD算法,對包括男男、男女及女女三類混合訓練語音,由混合訓練語音幀對每類混合訓練語音各構造一個普遍適用的過完備字典即K-SVD字典,滿足重構誤差在某一範圍的同時信號在該字典下稀疏,基於所構造的K-SVD字典,從壓縮感知觀測和單通道混合語音表達式的相似性出發,採用壓縮感知理論中基於l0-範數優化的信號重構算法,分離單通道混合語音,基於各單通道混合語音幀的表達式,求取各源語音幀在K-SVD字典下稀疏表示的估計,再由該稀疏表示的估計和K-SVD字典,重構得到各分離語音幀,最後將各分離語音幀順序連接,得到分離後的語音信號。
文檔編號G10L19/00GK102081928SQ20101055669
公開日2011年6月1日 申請日期2010年11月24日 優先權日2010年11月24日
發明者楊震, 郭海燕 申請人:南京郵電大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀