利用小波包變換壓縮音頻信號的方法和裝置的製作方法
2023-05-30 14:56:36 1
專利名稱:利用小波包變換壓縮音頻信號的方法和裝置的製作方法
技術領域:
本發明涉及一種音頻壓縮系統,更具體地說,涉及一種在MPEG(運動圖像專家組)1第三層(在下文中稱為「MP3」)中利用小波包變換(WPT)的音頻壓縮方法及其系統。
背景技術:
一般地,在MPEG標準方法中,單聲道音頻是以128千比特每秒的速率進行編碼的,而使用疊層算法以192千比特每秒、92千比特每秒、以及64千比特每秒的速率編碼立體聲音頻。在所述層中,第三層是公知的MP3技術。MP3技術通過添加改進的DCT(離散餘弦變換)(MDCT)操作增加了頻域的解析度,並且通過考慮在所述MDCT操作中的輸入特性調整窗口的尺寸使得前回聲(pre-echo)和混疊(aliasing)得到補償。
圖1是示出在現有技術的MP3中的一種音頻壓縮方法的流程圖。
首先,在步驟110中輸入脈衝編碼調製(PCM)型音頻數據。
接著,PCM音頻數據劃分為每個分組(granule)576個採樣。
通過添加由MPEG1第三層定義的心理聲學模型到所述採樣,在步驟120獲得感知能量。
接著,將從所述心理聲學模型獲得的所述感知能量(perceptual energy)與一閾值相比較,並且根據比較結果,在步驟130利用切換窗口執行MDCT。這裡,MDCT窗口的一部分或者整個MDCT窗口可以根據所述閾值來切換。即,如圖2所示,如果所述感知能量高於所述閾值,則這對應於衝擊狀態(attackstate)信號,它的能量級(level)快速地增加,並且由此選擇短窗口。如果所述感知能量低於所述閾值,則這對應於定常狀態信號,並且由此選擇長窗口。相應地,在相應的所選窗口範圍中的音頻採樣受到MDCT處理並且變換為頻域中的數據。在此時,使用開始窗口或者停止窗口以從長窗口切換到短窗口。另外,在MPEG1第三層中,如圖3所示,將窗口的類型公開為長窗口、開始窗口、短窗口和停止窗口。另外,如圖2所示,所述窗口互相層疊以防止混疊。
接著,在步驟140中,對要執行MDCT的在頻域中的數據根據所分配的比特的數量進行量化。
在步驟150中,所量化的數據基於Huffman(霍夫曼)編碼方法形成比特流。
由此,如圖1所示,現有技術音頻信號壓縮方法使用MDCT窗口切換方法來壓縮一種引起前回聲效應的非平穩信號。然而,由於MDCT基(base)的限制,利用如圖1所示的MDCT的現有技術的音頻壓縮方法劣化了低於128千比特每秒(例如,64比特每秒,立體聲)的低比特率的聲音質量。
發明內容
為解決以上問題,本發明的一個目的是提供一種音頻壓縮方法和裝置,其中分別使用MDCT和WPT對音頻數據進行自適應壓縮,使得能夠有效地壓縮非平穩信號,同時能夠有效地壓縮甚至在低比特率中的音頻信號。
根據本發明的一個方面,提供一種音頻壓縮方法,包括通過分析基於感知模型輸入的音頻採樣計算感知能量;根據將所計算的感知能量與閾值的比較結果,選擇性地確定改進DCT(MDCT)處理窗口和小波包變換(WPT)處理窗口;通過處理對應於在MDCT和WPT中所確定的窗口的範圍,將所述音頻採樣轉換為在頻域上的數據;以及根據所分配的比特數量,量化在頻域上的所述處理數據。
根據本發明的另一方面,提供一種音頻壓縮裝置,包括濾波器庫(bank)單元,通過多相位庫劃分正在輸入的音頻採樣的帶(band);心理聲學模型分析單元,基於心理聲學模型分析來自輸入音頻採樣的感知能量;TS(傳輸流)選擇單元,通過比較在所述心理聲學模型中所分析的感知能量與預定的閾值來選擇MDCT和WPT窗口之一;以及TS處理單元,根據在所述TS選擇單元中選擇的MDCT和WPT窗口,對其帶在所述濾波器庫單元中被劃分的採樣執行MDCT和WPT。
通過結合附圖詳細描述本發明的優選實例,本發明的上述目的和優點將會變得更加清楚,其中
圖1是示出在現有技術MP3中的一種音頻壓縮方法;圖2是示出在頻域中現有技術MDCT處理步驟的示意圖;圖3示出現有技術的窗口類型;圖4是根據本發明的一種音頻信號壓縮系統的方框圖;圖5是示出根據本發明的一種音頻信號壓縮方法的流程圖;圖6示出根據本發明的MDCT和WPT的類型;圖7是在MDCT和WPT中的窗口切換的狀態圖;圖8是根據本發明在頻域中處理的一種WPT樹形結構的圖。
具體實施例方式
圖4的根據本發明的音頻信號壓縮系統包括濾波器庫單元410、聲學心理模型單元420、TS選擇單元430、TS處理單元440、量化單元450、以及比特流產生單元460。
首先,在本發明中使用的小波包變換(WPT)是一種子帶濾波,在其中利用小波基將信號分解為多級、並且如果級數增加則頻率的解析度就增加。另外,衝擊部分的信號特性使得小波基的分析更容易了。
參見圖4,濾波器庫單元410利用多相位庫將以分組為單位輸入的PCM音頻採樣劃分為32個帶。
利用心理聲學模型,聲學心理模型單元獲得感知能量。在人的聲學特性中,存在一種遮掩(mask)效應,其中具有較高級的頻率分量遮掩具有較低級的鄰近頻率。相應地,利用人的這個聲學特性,可獲得能夠感知的能量級。
TS選擇單元430將通過心理聲學模型獲得的感知能量與閾值比較以產生用於選擇MDCT窗口或WPT窗口的控制信號。即,如果該感知能量的級高於所述閾值,則這對應於其能量級快速增加的衝擊狀態信號,並且TS選擇單元430選擇WPT窗口,而如果該感知能量的級低於所述閾值,則這對應於其能量級是定常的平穩狀態信號,並且TS選擇單元430選擇MDCT窗口。
對於其帶在濾波器庫單元410中被劃分的採樣,TS處理單元440根據從TS選擇單元430輸出的控制信號,選擇性地處理MDCT處理窗口和WPT處理窗口,並且對對應於所選相應窗口範圍的採樣執行MDCT處理和WPT處理。
量化單元450根據所分配的比特的數量,在頻域上量化作為在TS處理單元440中受到處理的TS的音頻數據。
比特流產生單元460將在量化單元450中量化的音頻數據形成為比特流。
圖5是示出根據本發明的一種音頻信號壓縮方法的流程圖。
首先,在步驟510中通過濾波器庫將在把每個分組分為576採樣之後輸入的PCM音頻數據劃分為32個帶。
接著,在步驟520中將心理聲學模型應用到所劃分的採樣上,以便獲得感知能量。
接著,為了確定MDCT處理窗口和WPT處理窗口其中之一,在步驟530中將在心理聲學模型中獲得的感知能量與所述閾值比較。這裡,利用小波特性類似於所述衝擊狀態信號的事實,將WPT窗口應用到該衝擊狀態信號上。
接著,如果該感知能量的級高於所述閾值,則這對應於其能量級快速地增加了的衝擊狀態信號,並且在步驟524中選擇WPT窗口;而如果該感知能量的級低於所述閾值,則這對應於其能量級是定常的平穩狀態信號,並且在步驟526中選擇MDCT窗口。
接著在步驟540和550中,對應於每個所選窗口的數據受到MDCT或WPT處理,並且被轉換為在頻域上的音頻數據。在此時,WPT經由小波濾波器分級地分析所述衝擊部分的頻域的採樣。
接著,在步驟560中,根據所分配的比特的數目量化對其執行MDCT的在頻域上的數據。
在步驟570中,利用霍夫曼編碼,將所量化的數據形成為比特流。
圖6示出了根據本發明的MDCT和WPT窗口的類型。
參見圖6,長窗口、短窗口、以及停止窗口執行MDCT,並且WPT窗口執行WPT。以滿足完美重建(PR)條件的形狀形成MDCT窗口和WPT窗口。所述PR條件允許重建使得在編碼中的頻域數據與在解碼中的頻域數據相同。在此時,長窗口具有36個採樣的長度並且用於平穩狀態信號。開始窗口具有28個採樣的長度並且用於平穩信號或者衝擊信號開始的部分。具有18個採樣的長度的WPT窗口是MDCT開始窗口和結束窗口的複合型窗口,並且用於衝擊狀態信號。停止窗口具有28個採樣的長度,並且用於衝擊狀態信號或者平穩狀態信號結束的部分。
圖7是在MDCT和WPT中的窗口切換的狀態圖。
首先,在能量級高於閾值的部分,保持長窗口狀態。如果衝擊信號開始,這意味著這樣一種狀態,即其中能量級低於閾值的信號部分開始並且相應地長窗口狀態會轉變為開始窗口狀態。接著,該開始窗口狀態會轉變為小波包窗口狀態用於處理衝擊信號。接著,該小波包窗口狀態在其中能量級低於閾值的部分中會維持作為初始狀態。在此時,如果平穩信號開始,這意味著這樣一種狀態,即其中能量級高於閾值的信號部分開始,並且相應地小波包窗口狀態會轉變為停止窗口狀態(在圖7中稱為『無衝擊(no attack)』)。接著,該停止窗口狀態會轉變為長窗口狀態,用於處理平穩信號(在圖7中稱為『無衝擊』)。
圖8是根據本發明在頻域中處理的一種WPT樹形結構的圖。
首先,通過一個18係數WPT濾波器810將在頻域上的採樣劃分為低頻區(L)採樣和高頻區(H)採樣。
接著,通過8係數WPT濾波器820將在18係數WPT濾波器810中得到的經濾波的低頻區(L)採樣劃分為低頻區(L)採樣和高頻區(H)採樣,而通過10係數WPT濾波器830將在18係數WPT濾波器810中得到的經濾波的高頻區(H)採樣劃分為低頻區(L)採樣和高頻區(H)採樣。
接著,通過4係數WPT濾波器840將在8係數WPT濾波器820中得到的經濾波的低頻區(L)採樣劃分為低頻區(L)採樣和高頻區(H)採樣,而通過4係數WPT濾波器850將在8係數WPT濾波器820中得到的經濾波的高頻區(H)採樣劃分為低頻區(L)採樣和高頻區(H)採樣。通過4係數WPT濾波器860將在10係數WPT濾波器830中得到的經濾波的低頻區(L)採樣劃分為低頻區(L)採樣和高頻區(H)採樣,而通過6係數WPT濾波器870將在10係數WPT濾波器830中得到的經濾波的高頻區(H)採樣劃分為低頻區(L)採樣和高頻區(H)採樣。
接著,將在4係數WPT濾波器840至860和6係數WPT濾波器870中得到的經濾波的高頻區(H)和低頻區(L)採樣劃分為多個帶。在WPT處理中將使用最終得到更精細的劃分的帶的採樣。
如上所述,本發明通過甚至以低比特率選擇性地切換MDCT窗口和WPT窗口壓縮音頻信號,使得非平穩信號得到有效地處理。另外,即使以低比特率,也能夠應用更精細地分析音頻數據的MDCT,以使得緻密盤的質量在低比特率上也能夠保持。另外,本發明使用具有類似於衝擊狀態信號的特性的WPT窗口,使得能夠有效地防止前回聲。
權利要求
1.一種音頻壓縮方法,包括通過分析基於心理聲學模型輸入的音頻採樣計算感知能量;根據將所計算的感知能量與閾值的比較結果,選擇性地確定改進DCT(MDCT)處理窗口和小波包變換(WPT)處理窗口;通過處理對應於在MDCT和WPT中所確定的窗口的範圍,將所述音頻採樣轉換為在頻域上的數據;以及根據所分配的比特數量,量化在頻域上的所述處理數據。
2.根據權利要求1所述的音頻壓縮方法,其中在選擇性地確定時,如果所述感知能量級高於所述閾值,則選擇所述WPT窗口,而如果所述感知能量級低於所述閾值,則選擇所述MDCT窗口。
3.根據權利要求1所述的音頻壓縮方法,其中在選擇性地確定時,在衝擊狀態信號中選擇所述WPT窗口,而在平穩狀態信號中選擇所述MDCT窗口。
4.根據權利要求1所述的音頻壓縮方法,其中在所述WPT中,經由小波濾波器分級地分析在所述頻域上的數據。
5.根據權利要求4所述的音頻壓縮方法,其中經由小波濾波器在所述頻域上的數據被劃分為N級高頻區和低頻區。
6.根據權利要求1所述的音頻壓縮方法,其中所述MDCT窗口和所述WPT窗口得以形成,以滿足完美重建(PR)條件。
7.根據權利要求1所述的音頻壓縮方法,其中所述WPT窗口的確定包括在其中能量級高於所述閾值的信號部分維持長窗口;如果其中能量級低於所述閾值的信號部分開始,則將所述窗口狀態從開始窗口狀態轉變為小波包窗口狀態;以及如果在其中能量級低於所述閾值的信號部分中,能量級高於所述閾值的信號部分開始,則將所述小波包窗口狀態從停止窗口狀態轉變為長窗口狀態。
8.一種音頻壓縮裝置,包括濾波器庫單元,通過多相位庫劃分要輸入的音頻採樣的帶;心理聲學模型分析單元,基於心理聲學模型分析來自所述輸入音頻採樣的感知能量;TS選擇單元,通過比較在所述心理聲學模型中所分析的感知能量與預定的閾值來選擇MDCT和WPT窗口之一;以及TS處理單元,根據在所述TS選擇單元中選擇的MDCT和WPT窗口,對其帶在所述濾波器庫單元中被劃分的採樣執行MDCT和WPT。
9.根據權利要求8所述的音頻壓縮裝置,其中所述TS處理單元包括將在多個頻域上的採樣劃分為分級頻區的多個小波濾波器。
全文摘要
提供了在MPEG1第三層(在下文中稱為MP3)中使用小波包變換(WPT)的一種音頻壓縮方法及其系統。所述方法包括通過分析基於心理聲學模型輸入的音頻採樣計算感知能量;根據將所計算的感知能量與閾值的比較結果,選擇性地確定改進DCT(MDCT)處理窗口和小波包變換(WPT)處理窗口;通過處理對應於在MDCT和WPT中所確定的窗口的範圍,將所述音頻採樣轉換為在頻域上的數據;以及根據所分配的比特數量,量化在頻域上的所述處理數據。
文檔編號H03M7/30GK1438767SQ0214583
公開日2003年8月27日 申請日期2002年10月15日 優先權日2002年2月16日
發明者河昊振 申請人:三星電子株式會社