在小波音頻編碼中的基於感知熵的長短塊切換方法
2023-10-17 07:41:29
專利名稱:在小波音頻編碼中的基於感知熵的長短塊切換方法
技術領域:
本發明涉及電子技術領域中的信號處理方法,特別涉及一種音頻信號小波變換編碼中的信號自適應小波基切換方法。
在變換編碼中,時域幀長(即時域窗長度)的選擇受兩個互相矛盾的因素制約幀長越大,則編碼增益越高;而過大的幀長將會使時域解析度降低,而產生嚴重的「預回聲」。因此,選擇一個合適的幀長,使編碼增益和「預回聲」的抑制都達到一個最佳的平衡點,是很重要的。實驗證明,當幀長縮短到2ms~5ms時,由於前向掩蔽效應,「預回聲」會被其後面的衝擊響應所掩蔽。例如,在48kHz採樣時,窗長為256時,其時域解析度為2.7ms,由於前掩蔽效應,人耳察覺不到「預回聲」。
在在先申請中,如果對於所有的數字音頻信號源,都採用同樣的小波基,那麼,對於快變的音頻信號源,由於幀長較大,時域解析度較低,將產生嚴重的「預回聲」現象。
本發明的技術內容本發明的目的是為了消除上述產生嚴重的「預回聲」現象,解決的技術方案是在快變的部分,採用較短的小波基,提高時域解析度,從而達到減弱和消除「預回聲」的現象。基於這種想法,提出了長短塊切換的技術,即對平穩部分採用較長的小波基(對應的採用長塊),對快變部分採用較短小波基(對應的採用短塊)。並在長-短或短-長小波基的接駁處,採用過渡塊,實現完全重構。
在基於在先申請的小波變換聲音算法中,採用了長短塊切換技術後,「預回聲」現象基本上得到了消除,這說明在根據信號性質決定小波基選擇的長短塊切策略是有成效的。
長短塊的切換是在心理聲學模型中感知熵計算的基礎上進行的。感知熵定義為是一段信號變化快慢的度量,根據心理聲學模型計算信號的感知熵,當一段信號的感知熵大於某一個事先給定的閾值時,表明該段信號是快變信號,於是將長塊的變換方式轉換為短塊方式,採用短的小波基,直到下一段信號的感知熵小於閾值時,再將短塊的變換方式轉換為長塊方式;當一段信號的感知熵小於某一個事先給定的閾值時,表明該段信號是慢變信號,於是將短塊的變換方式轉換為長塊方式,採用長的小波基,直到下一段信號的感知熵大於閾值時,再將長塊的變換方式轉換為短塊方式;為了實現完全重構,在長-短或短-長塊的接駁處,採用過渡塊。
這裡,小波基的長短取決於「預回聲」的抑制和編碼效率之間的平衡。例如,一般情況下,在48kHz採樣時,窗長為256時,其時域解析度為2.7ms,由於前掩蔽效應,人耳察覺不到「預回聲」,短小波基的衝擊響應長度可限定小於256。而為了提高編碼效率,長小波基可較長的衝擊響應,如接近2048。當長短小波基確定下來以後,就可以相應確定長短塊的大小。如在長短小波基的衝擊響應長度分別不大於2048和256的情況下,長短塊的長度可分別為2048和256個時域樣本長度。
圖2為本發明的13個子帶的低延遲結構用於短塊的示意圖。
本發明具體實現方式下面結合附圖示意進一步闡明本發明以每個長塊為2048時域個樣本長度為例,心理聲學模型根據當前2048樣本長的時域信號計算出該段的感知熵,若感知熵小於事先給定的閾值,則對該段信號採取長度為2048的長塊小波包變換方式;若感知熵大於閾值,則對該段信號採取8個長度為256的短塊小波包變換方式。若上一段信號採取了長塊方式,而當前段由感知熵確定為必須取短塊方式時,當前段實際上採取了長短塊的過渡塊方式;反之,若上一段信號採取了短塊方式,而由感知熵確定的當前塊的變換方式為長塊,那麼,當前塊實際採取的變換方式是短長塊的過渡塊方式。
以下是以長塊為2048樣本長為例,具體描述長塊、短塊、長短塊和短長塊四種塊變換的實現。
採用兩個小波包結構參見
圖1為16個子帶的長延遲結構用於長塊。
參見圖2為13個子帶的低延遲結構用於短塊。
四種塊變換分解的實現(1)長塊輸入2048個時域樣本,輸出16個子帶樣本係數,共2048個。
其中各子帶的樣本數分別為
表1-1(2)短塊輸入256個,時域樣本,輸出16個子帶樣本係數,共256個。在實際變換中,8個短塊為一組;即每組輸入2048個時域樣本,輸出2048個子帶樣本係數。
每個短塊各子帶的樣本數分別為
表1-2(3)長-短塊(開始塊)輸入2048個時域樣本,輸出由兩部分組成第一部分為512個長延遲子帶係數,各子帶係數如下
表1-3
第二部分為一組(8個短塊)低延遲子帶係數,共2048個。具體情況與短塊相同。每個短塊各子帶的樣本數見表1-2。
(4)短-長塊(結束塊)輸入2048個時域樣本,輸出由兩部分組成第一部分為512個低延遲子帶係數,由兩個短塊組成,每個短塊各子帶的樣本數見表1-2。
第二部分為2048個長延遲子帶係數,和長塊情況相同,見表1-1。
四種塊變換重構的實現(1)長塊輸入16個子帶樣本係數,共2048個,輸出2048個時域樣本。
(2)短塊輸入13個子帶樣本係數,共256個,輸出256個時域樣本。在實際變換中,8個短塊為一組;即每組輸入2048個子帶樣本係數,輸出2048個時域樣本。
(3)長-短塊(開始塊)先輸入512個長延遲子帶係數,輸出2048個時域樣本;再輸入2048個低延遲子帶係數,刷新子帶係數緩衝區。
(4)短-長塊(結束塊)先輸入512個低延遲子帶係數,輸出2320個時域樣本;再輸入2048個長延遲子帶係數,刷新子帶係數緩衝區。
補償長延遲和低延遲為了補償兩個不同小波包的不等延遲問題,做如下處理(1)長短-塊(開始塊)在輸出2048時域樣本時,去掉最後的272個,實際輸出1776個時域樣本。
(2)短-長塊(結束塊)在輸出2048時域樣本後添加272個時域樣本,實際輸出2320個時域樣本。
對長塊和短塊不做特殊處理。
權利要求
1.一種在小波音頻編碼中的基於感知熵的長短塊切換方法,其特徵在於根據心理聲學模型計算信號的感知熵,當一段信號的感知熵大於某一個事先給定的閾值時,於是將長塊的變換方式轉換為短塊方式,採用短的小波基,直到下一段信號的感知熵小於閾值時,再將短塊的變換方式轉換為長塊方式;當一段信號的感知熵小於某一個事先給定的閾值時,於是將短塊的變換方式轉換為長塊方式,採用長的小波基,直到下一段信號的感知熵大於閾值時,再將長塊的變換方式轉換為短塊方式;為了實現完全重構,在長-短或短-長塊的接駁處,採用過渡塊。
全文摘要
本發明涉及電子技術領域中的信號處理方法,特別涉及一種音頻信號小波變換編碼中的信號自適應小波基切換方法。所提出的新方法通過心理聲學模型中感知熵計算,作為小波基切換的判據,自適應的切換小波基,其特徵在於根據心理聲學模型計算信號的感知熵,當一段信號的感知熵大於某一個事先給定的閾值時,於是將長塊的變換方式轉換為短塊方式,採用短的小波基,直到下一段信號的感知熵小於閾值時,再將短塊的變換方式轉換為長塊方式;當一段信號的感知熵小於某一個事先給定的閾值時,於是將短塊的變換方式轉換為長塊方式,採用長的小波基,直到下一段信號的感知熵大於閾值時,再將長塊的變換方式轉換為短塊方式;為了實現完全重構,在長-短或短-長塊的接駁處,採用過渡塊,從而有效提高小波音頻編碼器的編碼效率。
文檔編號G10L19/00GK1355611SQ01144568
公開日2002年6月26日 申請日期2001年12月21日 優先權日2001年12月21日
發明者潘興德, 朱曉明 申請人:北京阜國數位技術有限公司