基於壓縮感知和稀疏表示的語音編碼方法
2023-11-11 07:42:17 2
基於壓縮感知和稀疏表示的語音編碼方法
【專利摘要】本發明公開了一種壓縮感知框架下的語音編碼方法,利用壓縮感知框架下行階梯矩陣投影后觀測序列可保留部分語音特性的特點,採用稀疏表示對觀測序列進行數學模型建立;在訓練階段,先利用K奇異值分解方法對大量語音行階梯投影后的觀測序列進行訓練,得到一個可用於實時觀測序列稀疏表示的碼本字典;在編碼階段,利用字典內的原子,採用正交匹配追蹤算法對實時觀測序列數學建模,僅對少量選擇原子的位置和幅度進行編碼並傳輸;解碼端只需有相同字典就可恢復觀測序列,並利用基追蹤算法重構語音信號,後置低通濾波器提高重構語音的人耳聽覺特性。該發明可以在壓縮感知框架下有效地對語音信號進行編碼傳輸,降低編碼傳輸碼率,並且保證良好的重構語音性能。
【專利說明】基於壓縮感知和稀疏表示的語音編碼方法
[0001]
【技術領域】
[0002]本發明屬於語音信號處理【技術領域】,涉及一種壓縮感知框架下的語音編碼方法。
[0003]
【背景技術】
[0004]壓縮感知(Compressed sensing)是近幾年來出現的一種新穎的理論,它與傳統奈奎斯特採樣定理完全不同,不需要信號帶寬兩倍以上的採樣速率,只要信號在某個變換域是稀疏的或可壓縮的,那麼就可以遠低於奈奎斯特採樣速率的採樣率對信號進行採樣,並從少量的觀測投影中以高概率重構出原信號。在該理論框架下,採樣速率不取決於信號帶寬,而決定於信息在信號中的結構和內容。壓縮感知理論主要包含三部分:信號的稀疏分解、觀測矩陣的設計和信號重構算法。壓縮感知一經提出,立刻引起了國內外學者的廣泛重視,應用研究已涉及到眾多領域:如傳感器網絡、醫學圖像處理、雷達掃描、生物傳感、語音信號處理等。
[0005]近年來,稀疏表示(Sparse representation)已經成為信號處理及其應用領域中處於第一位的概念之一。稀疏表示的核心思想,即對於一類別的信號,在一個足夠大的樣本訓練空間或變換域內,可以大致的由訓練樣本中同類的樣本子空間或變換域原子線性表示,原子即為樣本子空間或變換域矩陣裡的列向量。因此當該信號由整個樣本空間表示時,其表示的係數是稀疏的,這是稀疏表示思想最重要的一個假設,當然也是之後進一步分析的基礎。稀疏表 不充分利用了某一類信號之間的相關性,對於信號處理中的壓縮、消噪、建模和編碼等都帶來了巨大研究價值。對於由一類信號訓練得到的字典來說,訓練的成功與否直接決定了下一步稀疏表示的性能,因此國內外學者提出了一系列的字典訓練方法,包括優化方向方法算法(M0D),K奇異值分解算法(K-SVD),在線字典學習算法(OnlineDictionary Learning)等。
[0006]語音編碼是語音傳輸和通信的前提和基礎,良好的語音編碼方法可在較低的數碼率情況下得到較好的恢復語音聽覺質量。近二十年來,隨著計算機、通信、信號處理等相關技術的發展,語音編碼技術得到了迅速發展和應用。語音編碼按照傳統的分類方法通常分為三類:波形編碼、參數編碼和混合編碼。波形編碼是將時間域或頻率域或變換域信號直接編碼為數位訊號,力求使重構語音波形保持原始語音信號的波形形狀,主要有脈衝調製編碼(PCM)和自適應差分脈衝調製編碼(ADPCM)。參數編碼又稱聲源編碼或聲碼器,它使將信源信號在頻域或其他變換域提取特徵參數,然後對這些特徵參數進行編碼和傳輸,在解碼端再將收到的數位訊號譯成特徵參數,根據這些特徵參數重建語音信號。線性預測係數(Linear prediction coefficient)是目前應用最為廣泛的參數編碼技術。混合編碼將波形編碼和參數編碼結合起來,克服了波形編碼和參數編碼的缺點,吸收了他們的長處,在4~16kbpS速率上能夠得到高質量的合成語音。[0007]
【發明內容】
[0008]技術問題:本發明的目的是提供一種可以有效的壓縮語音編碼所需的數碼率,並且保證良好合成語音人耳聽覺性能的基於壓縮感知和稀疏表示的語音編碼方法。
技術方案:本發明基於壓縮感知和稀疏表示的語音編碼方法,包括以下步驟:
a)通過K奇異值分解算法訓練得到一個適合語音信號觀測序列的字典D;
b)獲得觀測序列:在編碼端對進入編碼器的語音首先進行幀長為2(T40ms的分幀處理,然後利用行階梯矩陣作為投影矩陣,按照1:2或1:4的壓縮比對每幀語音進行投影,得到每幀語音的觀測序列_7 ;
c)利用稀疏表示對觀測序列_7進行數學建模,即利用正交匹配追蹤算法,得到觀測序列_7在字典^中的稀疏表示,具體步驟如下:
1)初始化:候選集合/初始化為空集,即/=空集,殘差稀疏係數r<,設置迭代初始次數i=l,迭代終止次數為K ;
2)根據下式求殘差與字典D中的原子相關度最高的索引左:
【權利要求】
1.一種基於壓縮感知和稀疏表示的語音編碼方法,其特徵在於,該方法包括以下步驟: a)通過K奇異值分解算法訓練得到一個適合語音信號觀測序列的字典D; b)獲得觀測序列:在編碼端對進入編碼器的語音首先進行幀長為2(T40ms的分幀處理,然後利用行階梯矩陣作為投影矩陣,按照1:2或1:4的壓縮比對每幀語音進行投影,得到每幀語音的觀測序列_7 ; c)利用稀疏表示對觀測序列_7進行數學建模,即利用正交匹配追蹤算法,得到觀測序列_7在字典^中的稀疏表示,具體步驟如下: 1)初始化:候選集合/初始化為空集,即/=空集,殘差稀疏係數r<,設置迭代初始次數i=l,迭代終止次數為K ; 2)根據下式求殘差與字典D中的原子相關度最高的索引左: 免=氣mmM ,其中dk為字典汐內第左個原子,Armi^表示使目標函數取最小值時的變量值; 然後將所選原子索引A放入候選集合/內,7 = (/4); 3)根據下式更新稀疏係數: Y1=Djy,其中巧為僅利用候選集合/內索引原子的字典,句為巧的偽逆矩陣,Y!為僅利用候選集合/內原子的`稀疏表不向量; 然後根據下式更新殘差: r = y-DIyI ; 4)令i=i+l,如果i〈K,則表明字典原子選取未完成,返回步驟2),否則觀測序列稀疏表示循環結束,將最後更新得到的h作為觀測序列在字典^中的稀疏表示廠進入步驟(1),其中K為迭代終止次數,其取值為根據目標碼率選擇的原子個數; d)按照如下方法,分別對稀疏表示r所需K個原子的位置和幅度進行編碼: 將字典D內的原子個數規定為2的指數冪,即£ = 2〃,根據P比特找到所需原子的位置,採用標準8比特脈衝調製編碼作為原子幅度; e)語音信號觀測序列的恢復:根據所述步驟d)中獲得了稀疏表示r所需K個原子的位置和幅度,在字典D中找到稀疏表示r所需要的原子,然後將每個原子的向量與其幅度相乘,然後將得到的K個與幅度相乘後的原子向量相加,得到恢復出的語音信號觀測序列; f)語音信號的重構:根據恢復的觀測序列重構出語音信號; 選擇離散餘弦基為語音信號稀疏基,採用基追蹤算法作為重構算法,利用所述步驟e)恢復的語音信號觀測序列重構出語音信號;
1-0 9 g)對重構語音信號進行低通濾波:根據濾波器傳遞函數H㈦=H97-1,採用後置低通濾波器的方法對所述步驟f )重構的語音信號進行濾波後處理。
2.根據權利要求1所述的基於壓縮感知和稀疏表示的語音編碼方法,其特徵在於,所述步驟b)中,在編碼端對進入編碼器的語音進行分幀處理的幀長為40 ms。
【文檔編號】G10L19/04GK103778919SQ201410026207
【公開日】2014年5月7日 申請日期:2014年1月21日 優先權日:2014年1月21日
【發明者】楊震, 李尚靖 申請人:南京郵電大學