新四季網

用於熵編碼信號量化變換係數的系統和方法

2023-05-15 01:44:46

專利名稱:用於熵編碼信號量化變換係數的系統和方法
技術領域:
本發明涉及一種用於壓縮數位訊號的系統和方法,具體地說,涉及一種能夠升級數字音頻信號的編碼和解碼的系統和方法。
現在,數字音頻表示在許多應用中是很平常的。例如,音樂光碟(CD)、網際網路音頻剪輯、衛星電視、數位化視頻光碟(DVD)和依靠數字音頻技術的電話機(有線的或蜂窩的)。通過使用模數(A/D)轉換器將模擬音頻信號變換成數位訊號實現音頻信號的數字表示。然後,數字表示可以被編碼、壓縮、存儲、傳輸和使用等。如果需要,然後可以使用數模(D/A)轉換器將數位訊號轉換回模擬信號。A/D和D/A轉換器定期抽樣模擬信號,通常以下述標準頻率之一8kHz,用於電話機、網際網路、視頻會議;11.025kHz,用於網際網路、只讀光碟驅動器;16kHz,用於視頻會議、遠距離音頻廣播、網際網路、未來電話機;22.05kHz,用於只讀光碟驅動器、網際網路;32kHz,用於只讀光碟驅動器、視頻會議、ISDN音頻;44.1kHz,用於音頻光碟;和48kHz,用於播音室音頻再生。
典型地,如果在轉換之後編碼或壓縮音頻信號,由A/D生成的原始比特通常以每音頻抽樣16比特被格式化。對於音頻光碟,例如,原始比特速率是44.1kHz×16比特/抽樣=705.6kbps(千比特/秒)。對於電話機,原始比特速率是8kHz×8比特/抽樣=64kbps。對於音頻光碟,在存儲容量大約是700兆字節(5600兆比特)的地方,可以存儲原始比特,並且不需要壓縮。然而,小型光碟僅能存儲大約140兆字節,所以需要大約4∶1的壓縮以將30分鐘到1小時的音頻裝入2.5英寸小型光碟。
對於網際網路電話和大多數其它應用,原始比特速率對於大多數的當前信道容量太高。因而,使用能夠進行有效壓縮的高效編碼/解碼器(通常稱作編碼器/解碼器或編解碼器)。例如,對於網際網路電話機,原始比特速率是64kHz,但所需的信道速率在5至10kbps之間變化。因此,編解碼器需要以5至15之間的因子壓縮比特速率,帶有最小的可覺察的音頻信號質量損失。
隨著當前處理晶片的發展,編解碼器可以以專用硬體,通常用可編程數位訊號處理器(DSP)晶片實現,或者以通用計算機的軟體來實現。因此,希望使編解碼器可以實現,例如1)低計算複雜性(編碼複雜性對於所存儲的音頻通常不是問題);2)優良的再生保真度(不同的應用將具有不同的質量要求);3)對信號變化的強壯性(音頻信號可以是清楚的話音、嘈雜的話音、多個談話者、音樂等等,編解碼器可以處理的這種信號的範圍越廣越好);4)低延遲(在諸如電話機和視頻會議的實時應用中);5)可升級性(適應不同信號抽樣速率和不同信道容量的容易程度-尤其希望編碼之後的可升級性,即轉換成不同抽樣速率或信道速率而不需要重新編碼);和6)壓縮域中的信號修改(如果編解碼器允許在壓縮域中處理,或者至少不需要完全解碼和重新編碼,諸如多個信道混合、幹擾壓縮和其它的操作可以更快)。
當前,商業系統使用多種不同的數字音頻技術。一些例子包括ITU-T標準G.711,G.726,G.722,G.728,G.723.1和G.729;其它電話標準GSM、半速率GSM、蜂窩CDMA(IS-733);高保真音頻杜比AC-2和AC-3、MPEG LⅡ和LⅢ、索尼小型光碟;網際網路音頻ACELP-Net、DolbyNet、PictureTel Siren、RealAudio;和軍事應用LPC-10和USFS-1016聲碼器。
然而,當前的這些編解碼器具有多種限制。即,當前編解碼器的計算複雜性不夠低。例如,當編解碼器被集成在一個作業系統中時,希望使編解碼器以低CPU使用與其它應用同時運行。另一問題是中等延遲。希望使編解碼器允許整個音頻獲取/重放系統以低於100毫秒的延遲操作,例如,能夠實時通信。
另一問題是對信號變換的強壯性級別。希望使編解碼器不僅能夠處理清楚話音,而且能夠處理被混響、辦公室噪聲、電子噪聲和背景音樂等影響的話音,並且還能夠處理音樂、撥號音和其它聲音。而且,大多數現有編解碼器的缺點是它們有限的可升級性和支持信號抽樣頻率和信道數據速率的狹窄範圍。例如,多種當前應用通常需要支持多個不同的編解碼器。這是因為多種編解碼器被設計僅能處理某一範圍的抽樣速率。一種相關的期望是使編解碼器可以允許修改抽樣或數據速率而不需要重新編碼。
另一問題是多方電話會議,伺服器必須混合來自各參與者的的音頻信號。多個編解碼器要求在混合之前解碼所有數據流。需要的是編解碼器支持在編碼或壓縮域中混合而不需要在混合之前解碼所有數據流。
還有一個問題出現在與信號增強功能的集成中。例如,由當前編解碼器使用的音頻路徑在編解碼器處理之前可以包括信號增強模塊。舉一個例子,在免提電話會議中,來自揚聲器的信號被麥克風捕獲,被本地人員的話音幹擾。因此,通常使用回波消除算法來消除揚聲器對麥克風的反饋。其它增強操作部分可以包括自動增益控制、降噪器。那些增強操作部分導致將被增加給編碼/解碼延遲的處理延遲。因而,所需要的是能夠將增強處理和編解碼器較簡單集成的編解碼器,以便可以執行所有這些信號增強而不產生除編解碼器延遲之外的任何延遲。
與編解碼器相關的另一個問題是缺少對比特和分組損失的強壯性。在大多數實際實時應用中,通信信道不能免於錯誤。無線信道可能具有明顯的誤比特率,並且分組交換信道(例如網際網路)可能具有明顯的分組損失。因而,所需要的是編解碼器允許具有小信號降級的壓縮比特流損失,例如最高5%。
不管上述系統和方法的優點如何,它們不能實現本發明的優點。
為了克服上述現有技術中的限制,並克服其它的限制,閱讀和理解本發明之後這將變得很明顯,在使用新編碼器/解碼器(編解碼器)能夠可升級地編碼和解碼音頻信號的一種系統和方法中實施本發明。
本發明的編解碼器系統包括一個編碼器和一個解碼器。編碼器包括多解析度變換處理器,例如調製重疊變換(MLT)變換處理器、加權處理器、均勻量化器、屏蔽閾值頻譜處理器、熵編碼器和一個通信設備,例如復用器(MUX),用於復用(組合)從上述部件接收的信號以在單一介質上傳輸。解碼器包括與編碼器相反的部件,例如反多解析度變換處理器、反加權處理器、反均勻量化器、反屏蔽閾值頻譜處理器、反熵編碼器和解復用器。使用這些部件,本發明能夠執行解析度轉換、頻譜加權、數字編碼和參數建模。
本發明的一些特徵和優點包括低計算複雜性。當本發明的編解碼器集成在一個作業系統中時,它可以以低CPU使用率與其它應用同時運行。這個編解碼器允許整個音頻捕獲/回放系統以低於例如100毫秒的延遲操作從而能夠進行實時通信。這個編解碼器具有對信號變化的高級別強壯性,並且它不僅能夠處理清楚話音,能夠處理受混響、辦公室噪聲、電噪聲、背景音樂等的影響下降的話音,而且能夠處理音樂、撥號音和其它聲音。另外,該編解碼器能夠升級,並支持大範圍的信號抽樣頻率和信道數據速率。一個相關特徵是這個編解碼器允許修改抽樣或數據速率而不需要重新編碼。例如,這個編解碼器可以將32kbps數據流轉換成16kbps數據流而不需要完全解碼和重新編碼。這使伺服器能夠僅存儲高保真度的音頻剪輯,在需要時將它們迅速轉換成較低的保真度。
而且,對於多方電話會議,這個編解碼器支持在不需要在混合之前解碼所有數據流的情況下在編碼或壓縮域中的混合。這顯著地影響伺服器可以處理的音頻流數量。而且,這個編解碼器能夠以這種方式進行增強處理的較簡單的集成,可以在沒有除編解碼器延遲之外的任何延遲的情況下執行信號增強。而且,這個編解碼器的另一特徵是它對比特和分組損失的強壯性。例如,在大多數實際實時應用中,通信信道無法免於錯誤。因為無線信道可能具有明顯的誤比特率,分組交換信道(例如網際網路)可能具有明顯的分組損失,這個編解碼器允許壓縮比特流損失,例如最高5%,較低地降低信號質量。
通過研究下述本發明的詳細說明和附圖及權利要求書,本發明的上述和其它特徵和優點以及對其更完整的理解將更明顯。
現在參考附圖,其中在所有附圖中相同的參考數字表示相應的部件

圖1是一個方框圖,表示用於執行本發明的一種設備;圖2是一個普通方框/流程圖,表示根據本發明用於編碼/解碼音頻信號的一種系統和方法;圖3是一個總結構方框圖,表示根據本發明用於編碼音頻信號的一個系統;圖4是一個總流程圖,表示根據本發明用於編碼音頻信號的方法;圖5是一個普通方框/流程圖,表示根據本發明用於編碼音頻信號的一個系統;圖6是一個普通方框/流程圖,表示根據本發明用於編碼音頻信號的一個系統;圖7是一個流程圖,表示根據本發明的一種調製重疊變換;圖8是一個流程圖,表示根據本發明的一種調製重疊雙正交變換;圖9是一個簡化方框圖,表示根據本發明的一種不均勻調製重疊雙正交變換;圖10表示不均勻調製重疊雙正交變換分析基本函數的一個例子;圖11表示不均勻調製重疊雙正交變換分析基本函數的另一個例子;圖12是一個流程圖,表示根據本發明用於執行解析度轉換的系統和方法;圖13是一個流程圖,表示根據本發明用於執行加權函數計算和部分白化的一種系統和方法;圖14是一個流程圖,表示根據本發明用於執行簡化Bark閾值計算的一種系統和方法;
圖15是一個流程圖,表示根據本發明用於執行熵編碼的一種系統和方法;圖16是一個方框圖,表示根據本發明用於執行參數建模的一種系統和方法。
在本發明的下述說明中,參考構成本發明一部分的附圖,利用在其中可以實施本發明的一個具體例子的例圖進行圖示。應當理解在不脫離本發明範圍的情況下可以使用其它實施例,並可以進行結構上的改變。
引言在許多現代音頻編碼標準中使用變換或子帶編碼器,通常以32kbps和更高的比特率,和以2比特/抽樣或更高。在低速率上,大約和低於1比特/抽樣,諸如G.729和G.723.1的話音編解碼器在電話會議應用中使用。這種編解碼器以清楚的話音生成模型為基礎,因此它們的性能隨著其它信號,例如多個說話者,噪聲環境,尤其是音樂信號而快速地降低。
隨著數據機可用速率的提高,許多應用可以為窄帶(3.4kHz帶寬)音頻負擔高達8-12kbps,並且對於更高保真度的材料可以是更高的速率。這提高了在對信號變化更強壯的編碼器上的興趣,該編碼器速率例如類似或略高於G.729。
本發明是帶有轉換編碼器的編碼器/解碼器系統(編解碼器),所述轉換編碼器可以以合理的質量工作在低到1比特/抽樣(例如以8kHz抽樣的8kpbs)的速率上。為了在清晰的話音條件下提高性能,使用頻譜加權和帶有參數建模的行程長度和熵編碼器。結果,改善了有聲話音的周期頻譜結構的編碼。
本發明為包括話音的準周期信號產生改善的性能。根據少量參數計算量化參數表,考慮了在不增加量化表存儲的情況下高度的適用性。為了提高瞬變信號的性能,本發明使用帶有可變解析度沒有輸入窗口切換的不均勻調製重疊雙正交變換。實驗結果表明本發明可以被用於以接近於1比特/抽樣的速率的高質量信號再生,以2比特/抽樣的準透明再生,和以3比特/抽樣或者更高的速率的可覺察的透明再生。
示範操作環境圖1和下述討論將用於提供在其中可以實施本發明的合適計算環境的簡要說明。儘管不需要,但將在計算機可執行指令,例如由個人計算機執行的程序模塊的普通環境下描述本發明。通常,程序模塊包括執行特殊任務或實現特定摘要數據類型的例行程序、程序、對象、組件和數據結構等。而且,本領域的技術人員將認識到可以用其它計算機系統配置實現本發明,包括手持式設備、多處理器系統、基於微處理器或可編程用戶電子設備、網絡個人計算機、小型計算機、大型計算機等。本發明也可以在由通過通信網絡連結的遠程處理設備執行任務的分布式計算環境中實施。在分布式計算機環境中,程序模塊可以被設置於本地和遠程存儲設備上。
參見圖1,用於實現本發明的示範性系統包括形式為常規個人計算機100的通用計算設備,包括處理單元102、系統存儲器104和將包括系統存儲器104的各種系統組件連接到處理單元102的系統總線106。系統總線106可以是多種總線類型中的任何一種總線,包括存儲器總線或存儲器控制器、外圍總線和使用多種總線結構中的任何一種的本地總線。系統存儲器包括只讀存儲器(ROM)110和隨機訪問存儲器(RAM)112。在ROM110中存儲基本輸入/輸出系統114(BIOS),包含協助在個人計算機100中在組件之間傳輸信息的基本例行程序,例如在啟動時。個人計算機100還包括用於讀取和寫入硬碟的硬碟驅動器116,用於讀取或寫入活動磁碟120的磁碟驅動器118,和用於讀取或寫入諸如CD-ROM或其它光介質的活動光碟124的光碟驅動器122。硬碟驅動器116、磁碟驅動器128和光碟驅動器122分別通過硬碟驅動器接口126、磁碟驅動器接口128和光碟驅動器接口130連接到系統總線106。驅動器和它們的相關計算機可讀介質為個人計算機100提供計算機可讀指令、數據結構、程序模塊和其它數據的非易失性存儲。儘管在此所述的示範性環境使用硬碟、活動磁碟120和活動光碟130,本領域的普通技術人員將理解可以存儲可由計算機訪問的數據的其它類型的計算機可讀介質也可以在示範性操作環境中使用,例如磁帶、快快閃記憶體儲卡、數字視頻光碟、貝努裡盒式磁碟、隨機訪問存儲器(RAM)、只讀存儲器(ROM)等。
多個程序模塊可以被存儲在硬碟、磁碟120、光碟124、ROM110或RAM112上,包括作業系統132、一個或多個應用程式134、其它程序模塊136和程序數據138。用戶可以通過諸如鍵盤140和指示設備142的輸入設備將命令和信息輸入個人計算機100。其它輸入設備(未圖示)可以包括麥克風、控制杆、遊戲小鍵盤、衛星反射器、掃描儀等。這些或其它輸入設備通常通過連接到系統總線106的串行接口144連接到處理單元102,但是也可以通過其它接口連接,例如並口、遊戲口或通用串行總線(USB)。監視器146或其它類型的顯示設備也通過諸如視頻適配器148的接口連接到系統總線106。除了監視器146之外,個人計算機通常包括其它外圍輸出設備(未圖示),例如揚聲器和印表機。
個人計算機100可以使用到諸如遠程計算機150的一個或多個遠程計算機的邏輯連接工作在網絡環境中。遠程計算機150可以是另外一個個人計算機、伺服器、路由器、網絡PC、對等設備或其它普通網絡節點,並且一般包括上述與個人計算機100相關的多個或所有組件,儘管僅在圖1中圖示存儲器存儲設備152。圖1所示的邏輯連接包括區域網(LAN)154和廣域網(WAN)156。這些網絡環境在辦公室、大企業計算機網絡、內部網和網際網路中是常見的。
當在LAN網絡環境中使用時,個人計算機100通過網絡接口或適配器158連接到本地網154。當在WAN網絡環境中使用時,個人計算機100一般包括數據機160或其它裝置,用於在諸如網際網路的廣域網156上建立通信。可以是內置或外置的數據機160通過串口接口144連接到系統總線106。在網絡環境中,與個人計算機100或它的一部分相關描述的程序模塊可以被存儲在遠程存儲器存儲設備中。顯然所示的網絡連接是示範性的,可以使用在計算機之間建立通信鏈路的其它裝置。
概述圖2是一個普通方框/流程圖,說明根據本發明用於編碼/解碼一個音頻信號的系統和方法。首先,由模數(A/D)轉換器210接收和處理一個信號源的模擬音頻輸入信號。A/D轉換器210生成原始數據比特。原始數據比特被發送給數字編碼器212,並根據本發明處理以生成一個編碼比特流(下文提供對編碼器的詳細說明)。編碼比特流被使用、存儲、傳輸等(方框204),然後發送給數字編碼器216和處理以再生原先的原始數據比特。數模(D/A)轉換器218接收原始數據比特以轉換成輸出音頻信號。所生成的輸出音頻信號與輸入音頻信號基本匹配。
圖3是一個總結構方框圖,圖示根據本發明用於編碼音頻信號的一個系統。本發明的編碼器300(圖2的編碼器212)包括多解析度變換處理器310、加權處理器312、均勻量化器314、屏蔽閾值頻譜處理器316、編碼器318和通信設備320。
多解析度變換處理器310最好是雙解析度調製重疊變換(MLT)變換處理器。變換處理器接收初始信號並根據初始信號生成變換係數。加權處理器312和屏蔽閾值頻譜處理器316為儘可能地屏蔽量化噪聲執行頻譜加權和部分白化。均勻量化器314用於將連續值變換成離散值。編碼器318最好是用於編碼變換係數的熵編碼器。通信設備320最好是復用器(MUX),用於復用(組合)從上述組件接收的信號以在單一介質上傳輸。
解碼器(未圖示)包括編碼器300的相反組件,例如反多解析度變換處理器(未圖示)、反加權處理器(未圖示)、反均勻量化器(未圖示)、反屏蔽閾值頻譜處理器(未圖示)、反編碼器(未圖示)和反MUX(未圖示)。
組件概述圖4是一個總流程圖,表示根據本發明用於編碼音頻信號的方法。將討論圖7-16中操作的具體細節。一般來說,首先,執行一個MLT計算(方框400)以生成變換係數,繼之以修改MLT係數(方框410)的解析度切換(方框405)。解析度轉換被用於提高瞬變信號的性能。
然後,通過下述步驟執行頻譜加權(方框412):a)根據下面將要描述的本發明的聽覺屏蔽技術加權變換係數(方框414);b)計算簡化Bark閾值頻譜(方框416);c)執行加權函數的部分白化(方框418);和d)執行標量量化(方框420)。根據本發明執行頻譜加權以儘可能多的屏蔽量化噪聲。目的是生成儘可能接近清晰的的重建信號。
第三,執行編碼和參數建模(方框422),通過建立由編碼器使用的概率分布模型(步驟424),所述編碼器例如用於熵編碼量化係數的熵編碼器(方框426),然後為量化步長優化執行二進位搜索(方框428)。標量量化(方框420)將浮點係數轉換成量化係數,它由一組離散數中最接近的值給出。離散值之間的距離等於步長。其中熵編碼和參數建模提高清晰話音環境下的性能。熵編碼生成在一個消息中用一個碼元表示的信息的平均數量,並且是用於生成該消息的概率模型(參數建模)的函數。增加模型的複雜性以便模型可以更好地反映信源碼元在始發消息中的實際分布從而減小消息。這個技術能夠提高有聲話音周期頻譜結構的編碼。
圖5是一個總方框/流程圖,表示根據本發明用於編碼音頻信號的系統。圖6是一個總方框/流程圖,表示根據本發明用於解碼音頻信號的系統。一般來說,輸入信號x(n)的重疊塊由編碼器500通過非均勻調製重疊雙正交轉換(NMLBT)510轉換到頻域。NMLBT510本質上是帶有不同分析和合成窗口的調製重疊轉換(MLT),其中為了更好的時間解析度組合高頻子帶。根據信號頻譜,高頻子帶的組合可以被打開或關閉,並且一個比特的標記被作為圖6解碼器的輔助信息發送。如下面更加詳細的討論,不修改NMLBT分析和合成窗口。
如圖5所示,利用均勻量化器512量化變換係數X(k)。在速率失真的意義上,均勻量化器512非常接近於最佳,如果它們的輸出被例如用行程長度和Tunstall編碼器514進行熵編碼(下文進行詳細描述)。可以使用矢量量化(VQ),但與熵編碼器514相比性能增加較小。儘管雙VQ或其它結構的VQ可以用於降低複雜性,它們比標量量化依然複雜得多。
在任意給定比特率上最小化失真的最佳速率分配規則將為子帶/轉化係數指定相同的步長,生成量化白噪聲。這生成最大的信噪比(SNR),但不是最佳聽覺質量。加權函數計算516在量化之前用X(k)/w(k)替換X(k),k=0,1,…,M-1,其中M是子帶數,通常是256和1024之間2的冪。在圖6的解碼器上,加權通過X^(k)X^(k)w(k)]]>重新構建的變換係數。因而,量化噪聲將跟隨通過加權函數定義的頻譜w(k)。下面的段落描述w(k)的詳細計算。利用熵編碼器514熵編碼變換係數。執行參數建模並由熵編碼器514使用結果以增加熵編碼器514的效率。而且,步長調整518被用於調整步長。
可以從圖5推出圖6解碼器的操作。除了對應於量化變換係數的編碼比特之外,圖6的解碼器還需要圖5所示的輔助信息,以便它可以確定用於反NMLBT的單/多解析度標誌、熵解碼錶、量化步長、和加權函數w(k)。
組件細節和操作再次參考圖3和圖5,通過諸如重疊轉換處理器的轉換處理器將輸入音頻信號分解成頻率分量。這時因為儘管諸如離散餘弦轉換(DCT和DCT-Ⅳ)的其它轉換處理器是用於頻域信號分解的有用工具,它們受塊人工噪聲的影響。例如,由DCT和DCT-Ⅳ轉換處理器以一些指定方式量化、濾波、降噪等處理變換係數X(k)。
通過對這些修改後係數施加逆轉換獲得重建的信號塊。當這些重建的信號塊被一起傳遞以構成重建信號(例如解碼音頻或視頻信號)時,在塊邊界上將存在不連續性。與此相反,調製重疊轉換(MLT)通過將基本函數的長度擴展為塊大小的兩倍即2M來消除這種不連續性。圖7是表示根據本發明的調製重疊轉換的流程圖。
通過以下述方式擴展DCT-Ⅳ函數並將它們乘以一個合適的窗口獲得MLT的基本函數,ank=h(n)cos[(n+M+12)(k+12)M]]]>其中k從0變化到M-1,而n從0變化到2M-1。
因此,最好使用MLT,因為它們可能產生正交或雙正交基礎,並可以將信號的短期分解實現為重疊窗口餘弦函數的疊加。這種函數為信號的定位頻率分解提供比DCT或DCT-Ⅳ更加有效的工具。MLT是允許理想重建的餘弦調製濾波器組的特殊形式。例如,根據信號的MLT係數可以精確地恢復信號。而且,MLT並不具有塊人工噪聲,即MLT提供在其邊界上平滑衰變到零的重建信號,避免了沿塊邊界的不連續性。另外,從速率/失真意義上說,對於各種信號的轉換編碼,MLT具有幾乎最佳的性能。
具體地說,MLT基於奇數棧式時域混疊消除(TDAC)濾波器組。一般來說,用於包含輸入信號x(n),n=0,1,2,…,2M-1的2M個抽樣的一個矢量(通過移位輸入信號最後M個抽樣,並將它們與先前獲取的M個抽樣組合來確定)的標準MLT轉換被轉換成包含M個係數X(k),k=0,1,2,…,M-1的另一個矢量。該轉換可以用標準MLT計算來重新定義X(k)2Mn=02M-1x(n)h(n)cos[(n+M+12)(k+12)M]]]>其中h(n)是MLT窗口。
窗口函數主要為降低塊效應而使用。例如,使用重疊轉換的信號處理(Signal Processing with Lapped Transforms),H.S.Malvar,Boston:Artech出版社1992年,在此引用作為參考,論證了以下述形式通過餘弦調製平滑窗口算子獲取其基本函數Pa(n,k)=ha(n)2Mcos[(n+M+12)(k+12)M]]]>Ps(n,k)=hs(n)2Mcos[(n+M+12)(k+12)M]---(1)]]>其中pa(n,k)和ps(n,k)是用於直接(分析)和反向(合成)轉換的基本函數,ha(n)和hs(n)分別是分析和合成窗口。時間索引n從0變化到2M-1和頻率索引k從0變化到M-1,其中M是塊大小。MLT是TDAC,為其窗口生成具有最大DC密度的重疊轉換,即ha(n)=hs(n)=sin[(n+12)2M]---(2)]]>直接轉換矩陣Pa在第n行k列具有項目pa(n,k)。類似地,逆變換矩陣具有項目ps(n,k)。對於信號x(n)的2M輸入抽樣的塊x,通過X=PaTx計算其變換係數的相應矢量X。對於處理變換係數的矢量Y,通過y=PsY給出重建的2M抽樣矢量y。重建矢量y與M抽樣重疊疊加,生成重建信號y(n)。
可以比較MLT與DCT-Ⅳ。對於信號u(n),其長度-M正交DCT-Ⅳ通過下式定義U(k)2Mn=0M-1u(n)cos[(n+12)(k+12)M]---(3)]]>構成DCT-Ⅳ基礎的餘弦函數的頻率是(k+1/2)π/M,與MLT的相同。因此,存在兩個轉換之間的簡單關係。例如對於具有MLT係數X(k)的信號X(n),它可以被表示為X(k)=U(k),如果u(n)涉及x(n),n=0,1,…,M/2-1,通過u(n+M/2)=ΔM{x(M-1-n)ha(M-1-n)-x(n)ha(n)}u(M/2-1-n)=x(M-1-n)ha(n)+x(n)ha(M-1-n)其中ΔM{·}是M-抽樣(一塊)延遲算子。為了說明性的目的,通過組合DCT-Ⅳ與上述,可以根據標準DCT-Ⅳ計算MLT。可以以類似的方式獲取一個反向MLT。例如,如果Y(k)=X(k),即沒有任何變換係數(或子帶信號)的修改,則級聯直接和反向MLT處理信號產生y(n)=x(n-2M),其中M個延遲抽樣來自塊算子,另外M個抽樣來自MLT的內部重疊算子(z-M算子)。
調製重疊雙正交轉換在本發明中,實際的最佳轉換是調製重疊雙正交轉換(MLBT)。圖7是表示根據本發明的調製重疊雙正交轉換的流程圖。MLBT是調製重疊轉換(MLT)的變型。與MLT類似,MLBT窗口長度是塊大小的兩倍。它產生最大編碼增益,但它的形狀針對初始MLT正弦窗口進行了稍微修改。為了生成在等式(1)中用公式表示的雙正交MLT,需要放鬆相同分析和合成窗口的限制。假設一個對稱合成窗口,並將雙正交條件應用於等式(1),等式(1)生成調製重疊雙正交轉換(MLBT),如果分析窗口滿足一般化條件ha(n)=hs(n)hs2(n)+hs2(n+M),n=0,1,...,M-1---(4)]]>和ha(n)=ha(2M-1-n)。
可以為最大轉換編碼增益最佳化該窗口,結果是最佳窗口收斂到等式(2)的MLT窗口。這允許MBLT改善合成基本函數響應的頻率選擇性,並被用作非均勻MLT的標準塊(在下文進行詳細說明)。MBLT可以被定義為帶有合成窗口的等式(1)的調製重疊轉換hs(n)=1-cos[(n+12M)]+2+,n=0,1,...,M-1---(5)]]>和分析窗口用等式(4)定義。
參數α主要控制窗口寬度,而β控制它的結果值。MLBT與MLT相比的主要優點是合成函數阻帶衰減的增加,以分析函數阻帶衰減的降低為代價。
NMLBT和解析度切換典型轉換編碼器的子帶數M必須足夠大以提供足夠的頻率解析度,這經常導致塊大小在20-80毫秒的範圍內變化。這導致對瞬變信號很差的響應,帶有延續整個塊的噪聲模式,包括前回聲。在這種瞬變信號過程中不需要很好的頻率解析度,因此,減輕該問題的一種方式是為這種聲音使用較小的M。為調製重疊轉換切換塊大小並不困難,但是可能引入附加的編碼延遲。一種可選方法是使用分級轉換或樹形結構濾波器組,類似於離散小波變換。這種分解實現一個新的非均勻子帶結構,帶有用於高頻子帶的小塊和用於低頻子帶的大塊。分級(或級聯)變換具有塊之間理想的時域分離,但是很差的頻域分離。例如,如果在子帶上QMF濾波器組繼之以MLT,位於QMF過渡帶附近的子帶可能具有低達10dB的阻帶抑制,一個在樹形結構變換上也發生的問題。
創建一個新的非均勻變換結構以降低MLT/MLTBT的振鈴人工噪聲的可選和最佳方法可以通過修改時間-頻率解析度實現。變換的時間-頻率解析度的修改可以通過將附加變換算子應用於變換係數組以生成一個變換係數的新組合,它生成一個特定的非均勻變換MLBT(NMLBT)。圖7是表示根據本發明的非均勻調製重疊雙正交變換的簡化方框圖。
圖8是表示根據本發明的非均勻調製重疊雙正交變換的操作的簡化方框圖。具體地說,通過線性地組合一些子帶係數X(k)可以生成一種非均勻MBLT,並且新子帶的濾波器具有降低時間寬度的脈衝響應。一個例子是X′(2r)=X(2r)+X(2r+1)X′(2r+1)=X′(2r)-X(2r+1)其中以頻率(2r+1/2)π/M和(2r+3/2)π/M為中心的子帶信號X(2r)和X(2r+1)被組合以生成兩個新的子帶信號X』(2r)和X』(2r+1)。這兩個新的子帶信號都以(r+1)π/M為中心,但是一個具有以塊左側為中心的脈衝響應,而另一個具有以塊右側為中心的脈衝響應。因此,我們捨棄頻率解析度來增加時間解析度。圖9圖示非均勻調製重疊雙正交變換合成基本函數的一個例子。
這種通過組合變換係數的解析度轉換的方法的主要優點在於時間解析度更窄的新的子帶信號可以在計算輸入信號的MLT之後計算。因此,不需要轉換MLT窗口函數或塊大小M。它還允許信號增強算子,例如降噪器或回波消除器,以在子帶合併算子之前對初始變換/子帶係數進行操作。這允許將這些信號增強器集成到編解碼器中。
可以選擇地,並且最好是,如果通過因子4提高時間解析度可以實現更好的結果。這導致有效寬度為四分之一塊大小的子帶濾波器脈衝響應,具有結構 其中參數的最佳選擇是a=0.5412, c=a2,r=M0,M0+1,…,並且M0一般被設置為M/16(這意味著解析度轉換被應用於子帶的75%-從頻率0.25π到π)。圖10和圖11表示與這種結構對應的合成基本函數的曲線。可以看出時間分離不理想,但是它降低了瞬變信號的錯誤擴散。
上述子帶組合矩陣的自動轉換可以通過分析輸入塊波形在編碼器上進行。如果塊中的概率級別顯著地變化,組合矩陣被打開。轉換標誌作為輔助信息被發送給接收機,所以它可以使用逆4×4算子來恢復MLT係數。一種可選的轉換方法是分析MLT係數X(k)之間的功率分配,並在檢測到高頻類噪聲模型時轉換組合矩陣。
圖12是表示根據本發明執行解析度轉換的最佳系統和方法的流程圖。如圖12所示,在每個塊上確定解析度轉換,並將輔助信息的一個比特發送給解碼器以通知開關是接通還是斷開。在最佳實施中,當用於給定塊的高頻能量超過低頻能量預定閾值時,編碼器將開關接通。基本上,編碼器通過測量在高頻和低頻上的信號功率來控制解析度轉換。如果高頻功率(PH)與低頻功率(PL)之比超過預定閾值,使用步驟2中所述的子帶組合矩陣,如圖12所示。
頻譜加權圖13是表示根據本發明用於執行加權函數計算和部分白化的系統和方法的流程圖。再次參考圖3、圖5和圖13,圖示一種用於執行頻譜加權的簡單技術。根據本發明,可以執行頻譜加權以儘可能多地屏蔽量化噪聲。目的是生成儘可能清晰的重建信號,即無法區分解碼信號和原始信號。這可以通過用函數w(k)加權變換係數來實現,該函數依靠人耳的屏蔽特性。這種加權的意義是形成人耳覺察程度最低的量化噪聲,因而屏蔽了量化噪聲。而且,簡化聽覺加權函數的計算以避免通常使用的耗費時間的卷積。
對於給定的輸入頻譜{X(k)},加權函數w(k)理論上沿著一個聽覺屏蔽閾值曲線。最好以Bark標度計算屏蔽閾值。Bark標度(scale)是模擬人耳臨界頻帶的準對數標度。在高編碼率上,例如3比特/抽樣,對於所有的Bark子帶,結果量化噪聲可能低於量化閾值從而生成清晰的重建。然而,在低編碼速率上,例如1比特/抽樣,在屏蔽閾值下隱藏所有的量化噪聲是困難的。在這種情況下,最好防止量化噪聲在所有子帶中被抬高得高於屏蔽閾值相同的分貝數(dB),因為低頻未屏蔽噪聲通常更加有害。這可以通過用新的函數W(k)α替換初始加權函數W(k)來實現,其中α是通常被設置得低於1的參數,以建立加權函數的部分白化。
一般來說,參考圖13、圖3、圖4和圖5,圖13表示聽覺閾值曲線的簡單計算,以及用於計算步長的部分白化效應。圖13是圖3的方框312和316、圖4的方框414、416、418和圖5的方框516的詳細方框圖。參考圖13,在MLT計算和NMLBT修改之後,變換係數X(k)首先被平方模塊接收以將變換係數平方(方框1310)。接著,閾值模塊計算Bark頻譜閾值(方框1312),該閾值由擴展模塊用於執行Bark閾值擴展(方框1314)和生成聽覺閾值。然後,調整模塊將聽覺閾值調整為絕對閾值以生成一個理想加權函數(方框1316)。最後,執行部分白化效應以便將理想加權函數提高到第α功率從而生成最終的加權函數(方框1318)。
具體地說,平方模塊生成P(i),在第i頻帶上的瞬時功率,它由閾值模塊接收用於計算屏蔽閾值wMT(k),(如圖13的方框1310所示)。這可以下述方式實現一開始定義Bark頻譜頻率上限Bh(i),i=1,2,…,25(可以使用的常規數學策略),以便Bark子帶上限是(單位Hz):
Bh=[100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000];Bh=[Bh 2320 2700 3150 3700 4400 5300 6400 7700 9500 1200015500 22200];接著,通過平均落入第i Bark頻帶的所有子帶的信號功率來計算第i Bark頻譜功率Pas(i)。然後通過Tr(i)=Pas(i)-Rfac計算帶內屏蔽閾值Tr(i)(所有數值的單位都是dB)。參數Rfac,它最好被設置為7dB,確定帶內屏蔽閾值級。這可以通過一個數學循環程序來實現以生成Bark功率頻譜和Bark中央閾值。
如圖13的方框1314所示,隨後計算一個簡化Bark閾值頻譜。圖14圖示根據本發明的簡化Bark閾值計算。最好通過考慮穿越臨界頻帶的橫向屏蔽來計算「頻譜Bark閾值」。即,並不如前面的方法所建議的利用矩陣算子執行一個完整卷積,本發明使用通過卷積所有Bark頻譜值與三角衰變生成的曲線中的最大閾值曲線。三角衰變對於左側是-25dB/Bark(擴展到低頻)和對於右側是+10dB/Bark(擴展到高頻)。用於Bark頻譜閾值擴展的本發明的方法具有複雜度O(Lsb),其中Lsb是由信號帶寬覆蓋的Bark子帶數目,而前面的方法一般具有複雜度O(Lsb2)。
如圖13的方框1316所示,然後通過比較擴展Bark閾值與絕對Fletcher-Munson閾值,並將兩者中的較高者用於所有的Bark子帶,調整聽覺閾值。這可以通過一個簡單程序來實現,例如通過調整考慮絕對屏蔽的閾值。在一個程序中,閾值向量(多達25個每塊)被量化成預定精度級別,一般設置為2.5dB,並且2至4比特/閾值被差分編碼。
對於加權函數的部分白化,如圖13的方框1318所示,以較低的速率,例如1比特/抽樣,不可能將所有的量化噪聲隱藏在屏蔽閾值之下。在這種特定情況下,最好不要將量化噪聲在所有子帶提高得高於屏蔽閾值相同的db值,因為低頻未屏蔽噪聲通常更加有害。因此,假設wMT(k)是如上計算的加權,本發明的編碼器使用最終的加權
w(k)=[wMT(k)]α其中α是可以從低速率上的0.5變化到高速率上的1的參數,並最好使用屏蔽閾值的分數冪。在先前的聽覺編碼器中,在所有頻率上相等地將量化噪聲提高得高於屏蔽閾值,如同降低比特率。相反,使用本發明,例如,可以將部分白化參數α設置為0至1之間的一個數(優選地,α=0.5)。這導致噪聲頻譜在其原先較低的頻率上被提得很高。換句話說,當α<1時噪聲頻譜峰值被衰減。
接著,用於表示w′(k)的輔助信息(side frequency)的數值取決於抽樣頻率fs。例如,對於fs=8kHz,需要大約17Bark譜值,對於fs=44.1kHz,需要大約25Bark譜值。假設-10dB/Bark頻帶的到更高子帶的段間擴展和用2.5dB精度的差分編碼,需要大約3比特/Bark係數。可以利用標量量化器量化加權變換係數(從連續值變換成離散值)。
具體地說,對於標量量化,最終加權函數w(k)確定將最不容易覺察的量化噪聲的頻譜形狀,根據上面討論的模型。因此,每個子帶頻率係數X(k)應當用與w(k)成比例的步長量化。一個等效程序將所有的X(k)除以加權函數,然後對所有係數X(k)以相同步長進行均勻量化。一個典型的實現是執行下述Xr=round(X/dt);%quantize(量化)Xqr=(Xr+Rqnoise)*dt;%scale back,adding pseudo-randomnoise(量化回歸,加入偽隨機噪聲)其中dt是量化步長。向量Rqnoise由均勻分布在[-γ,γ]之間的偽隨機變量組成,其中γ是最好在0.1和0.5倍量化步長dt之間選擇。通過相加少量噪聲和重建係數(一個解碼器操作),可以減少因頻譜分量丟失導致的人工噪聲。這可以被稱為攔動、偽隨機量化或噪聲填充。
編碼在信息理論中典型的離散信源編碼問題是以最經濟的編碼表示信源碼元的問題。例如,假設信源在每個瞬間i上發送碼元si,並且碼元si屬於字母表Z。並且,假設碼元si和si是統計獨立的,具有概率分布Prob{si=zn}=Pn,其中n=0,1,…,N-1,並且N是字母表大小,即可能的碼元數。因此,編碼設計問題是發現利用信道碼元通常是比特來表示碼元si的方法。
可以使用普通編碼為每個可能碼元值zn分配一個M比特模式,如下表所示
在這種情況下,編碼使用M/碼元。顯然一個唯一的表示需要M≥log2(N)。
更好的編碼是給每個信源碼元分配長度可變的碼字。較短的碼字被分配給概率高的碼元;較長的碼字被分配給概率較低所碼元。舉一個例子,假設一個信源具有字母表Z={a,b,c,d}和概率pa=1/2,pb=pc=pd=1/6。用於該信源的一個可能的長度可變編碼將是
對於長消息,預期編碼長度L由L=∑pnln給出,以比特/信源碼元,在此ln是編碼碼元zn的長度。相對於將需要2比特/碼元的直接二進位編碼的編碼長度,這樣更好。
在上述例子中,使用公知的哈夫曼算法生成碼字。最終的碼字分配被稱為用於該信源的哈夫曼編碼。在最小化在所有可能的長度可變碼字中預期編碼長度L的意義上,哈夫曼編碼是最佳的。熵是信源內部信息內容的測量值。通過E=-∑pnlog2(pn)以比特每碼元來測量熵。編碼理論規定用於任一編碼的預期編碼長度不能少於信源熵。例如上述信源,熵是E=-(1/2)log2(1/2)-(1/2)log2(1/6)=1.793比特/碼元。可以看出哈夫曼編碼長度非常接近於最佳。
另一種可能編碼是將固定長度的碼字分配給信源碼元串。這種串具有可變長度,並且編碼效率得自頻繁出現的長串可以僅用一個碼字來替代。一個例子是下表中的編碼。對於該編碼,碼字始終具有四個比特,但它被用於表示不同長度的串。根據上表中的概率能夠輕易地計算出平均信源串長度,將是K=25/12=2.083。因為這些串用四個比特表示,比特速率是4*12/25=1.92比特/碼元。
在上述例子中,使用B.P.Tunstall的標題為「無噪聲壓縮編碼合成」(博士論文,喬治亞州大學,Technol,喬治亞州亞特蘭大市,1967年)參考文獻中的技術確定用每個碼字(即字符串表)映射字符串的選擇。使用該表的編碼稱作Tunstall編碼。在最小化在所有可能的長度可變到固定編碼中的預期編碼長度L的意義上,可以看出Tunstall編碼是最佳的,Tunstall編碼可以被視為雙哈夫曼編碼。
在這個例子中,Tunstall編碼可能沒有哈夫曼編碼有效,然而,可以表明Tunstall編碼的性能隨著編碼長度的增加即隨著字符串表長度的增加將接近信源的熵。根據本發明,Tunstall編碼具有相對於哈夫曼編碼的優點即更快的解碼。這是因為每個碼字始終具有相同的比特數,因此更容易分析(在下文詳細討論)。
因此,如圖15所示,本發明最好使用熵編碼器,它可以是行程編碼器和Tunstall編碼器。即,圖15是表示根據本發明用於執行熵編碼的系統和方法的流程圖。參考圖15和圖13,根據本發明,圖15表示最好是可變長度熵編碼器的一個編碼器。
熵是由諸如概率模型的模型提供的信息表示(換句話說,在消息中所包含信息的測量值)。最佳熵編碼器生成在一個消息中用一個碼元表示的平均信息量,並且是用於生成消息的概率模型的函數(在下文更詳細地說明)。增加模型的複雜性以便模型更好地反映信源碼元在始發消息中的實際分配以減少消息。最佳熵編碼器利用行程編碼器繼之以諸如常規Tunstall編碼器的可變-固定長度編碼器編碼量化係數。
行程編碼器為零序列降低碼元速率。可變-固定長度編碼器從信源輸出的可變長度字符串的一個字典中映射到一組給定長度的碼字。可變-給定長度編碼使用與信源輸出相關的統計。Tunstall編碼器使用可變-固定長度編碼器為離散、無後效的信源最大化每字典字符串的信源字母預期數。換句話說,輸入序列被劃分長可變長度塊以最大化平均消息長度,並將每塊分配給固定長度編碼。
先前的編碼器,例如ASPEC,使用對變換係數子集的行程編碼,並用諸如哈夫曼編碼器的矢量固定-可變長度編碼器編碼非零係數。相反,本發明最好使用行程編碼器,它對由所有量化變換係數構成的矢量執行操作,實質上是建立一個新碼元信源,其中量化零值的遊程被用定義遊程長度的碼元替代。當遊程中零的數量在範圍[Rmin,Rmax]中時,本發明的行程編碼器用特定碼元替代零的遊程。某種情況下,例如通過簡單地設置Rmax<Rmin可以關閉行程編碼器。
Tunstall編碼器沒有被廣泛地使用,因為編碼器的效率與信源碼元的概率模型直接相關。例如,當設計用於壓縮的編碼時,如果對於信源有好的模型可以進行更有效的編碼,即模型越好,壓縮越好。結果,為了有效地編碼,需要好的概率分布模型以為編碼器建立一個合適的字符串字典。如下所述,本發明使用一個充分概率模型,它使Tunstall編碼切實可行和有效。
一般來說,如上所述,量化係數被用行程編碼器繼之以可變-固定長度塊編碼器進行編碼。具體地說,首先,由計算模塊作為一個數據塊接收量化變換係數q(k),用於為該塊計算最大絕對值(方框1510)。即,掃描所有量化值以確定最大幅值A=max|Xr(k)|。然後,由近似模塊量化A(方框1512),該近似模塊用於使用vr≥A來近似A,vr是[4,512]範圍內的2的冪。從而用3個比特編碼vr的值並發送給解碼器。接著,替換模塊接收q(k)並連接到近似模塊,用表示遊程長度的可變-固定長度編碼字典中定義(圖16的方框1610,將在下文詳細描述)的新碼元替代範圍[Rmin,Rmax]中零的遊程(方框1514)。利用根據本發明的參數建模技術計算這個字典,如下文在圖16中描述中。隨後,用於諸如Tunstall編碼器的可變-固定長度編碼器編碼結果值s(k)(方框1516),以生成信道碼元(信息比特)。另外,因為熵編碼器的效率直接取決於所用的概率模型,需要結合根據本發明的好的參數模型,如下文將詳細討論的。
參數建模圖16是表示根據本發明用於使用概率建模執行熵編碼的系統和方法的流程圖。如上所述,熵編碼器的效率與概率模型的質量直接相關。如圖16所示,編碼器需要一個輸入字符串的字典,它可以用簡單算法來建立以根據碼元概率編輯一個輸入字符串字典(下文詳細說明)。儘管可以使用算術編碼器或哈夫曼編碼器,諸如上述Tunstall編碼器的可變-固定長度編碼器可以使用本發明的參數模型和簡化解碼實現接近算術編碼器的效率。這是因為所有的Tunstall碼字具有相同的長度,例如它可以被設置為一個字節。
而且,與諸如清晰話音的簡單信號相比,當前的變換編碼器通常對諸如音樂的複雜信號可以更加有效地執行。這是因為與這種信號相關的更高的屏蔽級別和由當前變換編碼器使用的熵編碼類型。因此,對於清晰話音,以低比特率工作的當前變換編碼器可能不能再生優良的諧波結構。即對於有聲話音和以大約1比特/抽樣的速率,量化步長足夠大以使大多數變換係數量化為零,除了基本聲域頻率的諧波之外。然而,使用上述熵編碼器和下述的參數建模,與諸如一階編碼器的當前熵編碼系統所推算的結果相比,本發明能夠生成更好的結果。
一般來說,本發明的參數建模使用量化和遊程長度編碼變換參數的概率分布函數(PDF)的模型。通常,使用熵編碼(一般是哈夫曼編碼)的編解碼器從音頻抽樣集中獲取的頻率分布圖中得出PDF(和它們相應的量化表)。相反,本發明使用適合每個輸入塊的改進拉普拉斯算子+指數概率密度,它允許更好的編碼性能。本發明的PDF模型的一個優點是它的形狀由單個參數控制,該參數與量化係數的峰值直接相關。這導致不需要模型選擇的計算開銷,並且實際上不需要給解碼器指定模型的開銷。最後,本發明使用二進位搜索程序確定最佳量化步長。如下所述的二進位搜索程序比先前的方法簡單得多,先前的方法例如在每次迭代中執行與屏蔽閾值相關的附加計算的方法。
具體地說,本發明的概率分布模型最好使用一個改進拉普拉斯算子+指數概率密度函數(PDF)以適合每個輸入塊的量化變換係數的頻率分布圖。PDF模型由在上述圖15的方框1510中所述的參數A控制(注意A用vr近似,如圖15的方框1512所示)。因此,PDF模型由下式定義
其中變換和遊程編碼碼元s屬於下述字母表
對於用於步長優化的二進位搜索,如上所述在標量量化中使用的量化步長dt控制創建保真度和比特速率之間的權衡。較小的量化步長產生較好的保真度和較高的比特速率。對於固定速率應用,需要重複調整量化步長直到碼元編碼器(Tunstall)輸出上的比特速率儘可能地匹配希望的速率(而不超過它)。
幾種技術可用於調整步長。一種技術包括1)開始於量化步長,用dB表示,dt=dt0,其中dt0是根據輸入定標的一個參數。2)設置kdd=16,並檢查用dt獲得的速率。如果超過預算,通過dt=dt+kdd改變步長,或者通過dt=dt-kdd改變它。3)重複上述步驟,在每次迭代時將kdd除以2(二進位搜索),直到kdd=1,即以1dB內的精度確定最佳步長。很容易看出這個程序可以生成最多64個不同步長,因此,最佳步長用7個比特表示並發送給解碼器。
再次參考圖6,表示根據本發明用於解碼音頻信號的系統的總方框/流程圖。該解碼器使用合適的相反處理步驟,如圖6所示。可變-固定長度解碼器(例如Tunstall解碼器)和遊程解碼模塊接收編碼比特流和與PDF範圍參數相關的輔助信息,用於恢復量化變換係數。連接到可變-固定遊程長度解碼器的均勻去量化模塊和遊程長度解碼模塊從均勻量化重建,用於恢復加權NMLBT變換係數的近似值。一個反加權模塊執行反加權,用於使變換係數返回它們用於反變換的合適的標度範圍。反NMLBT變換模塊將近似值恢復到初始信號塊。可用信道比特率越大,量化步長越小,因而重建的保真度越好。
應當注意到因為兩個原因使解碼器的計算複雜性比編碼器低。第一,諸如Tunstall解碼的可變-固定長度解碼(僅需要表查找)比它的對應編碼(需要串查找)快。第二,因為已知步長,僅使用一次去量化(不需要循環,與編碼器不同)。然而,無論如何,對於編碼器和解碼器,在NMLBT中有大量的計算,它可以通過快速付立葉變換來有效地計算。
已經為說明和描述目的進行了本發明的上述說明。它將不是窮盡的,也不是將本發明限制到所公開的具體形式。在上述教導的啟示下可以進行多種修改和變化。本發明的範圍將由權利要求書而非詳細說明來限制。
權利要求
1.在具有一個輸入信號的一個系統,該輸入信號包括帶有量化變換係數的抽樣塊,一種用於熵編碼量化變換係數的方法,該方法包括為該抽樣塊計算最大絕對值(1510);近似量化係數的峰值(1512);用在可變-固定編碼字典中定義的表示遊程長度的新碼元替代該抽樣塊的量化零值遊程(1514);和用可變-固定長度編碼器編碼新碼元以生成用信息比特定義的信道碼元(1516)。
2.權利要求1的方法,其中替換量化零值的遊程包括操作從所有量化變化係數形成的一個向量以建立一個新碼元信源(1514)。
3.權利要求1的方法,其中當遊程中零的數量在預定範圍中時僅用特定碼元替代零的遊程(1514)。
4.權利要求1的方法,其中通過掃描所有量化值直到發現一個最大幅值來實現為該抽樣塊計算最大絕對值(1510)。
5.權利要求1的方法,其中通過量化所計算的最大絕對值實現對量化係數峰值的近似,其中峰值是4至512範圍中的一個冪以便用3個比特編碼該峰值(1512)。
6.權利要求1的方法,還包括將可變長度碼字分配給每個信源碼元,其中可變-固定長度編碼器的碼字長度相等(1516)。
7.在一個具有用編碼器編碼頻域變換係數的系統中,該編碼器編碼用於生成量化係數的一個輸入信號輸入抽樣塊,一種用於使用參數建模編碼器信源碼元的方法,該方法包括通過建立適合輸入抽樣塊的數學變換和指數概率密度函數計算概率分布函數(1610);和根據所計算的概率分布函數從碼元概率生成一個輸入字符串的字典(1610)。
8.權利要求7的方法,其中計算概率分布函數包括使用根據量化係數最大值確定的單個參數和使用具有至少一個可調整參數的閉合模型計算概率分布函數(1610)。
9.權利要求8的方法,其中概率分布函數形成由單個參數控制的一種形狀,該參數與量化係數的峰值直接相關(1610)。
10.權利要求7的方法,其中概率分布函數由用於該抽樣塊的最大絕對值控制(1610)。
11.在一個用於編碼輸入信號的編碼系統中,一種確定最佳量化步長以控制有效比特率和保持重建保真度的方法,該方法包括預先確定有限數量的一組量化步長(428);和通過重複調整量化步長直到比特率匹配預定所需速率,在該組中使用二進位搜索搜索一個最佳值(428)。
12.權利要求11的方法,其中重複調整量化步長直到比特率匹配預定速率而不超過預定速率(428)。
13.權利要求11的方法,其中有限數量的一組量化步長依據輸入信號的調整定標(428)。
全文摘要
一種處理音頻信號和包括可升級音頻編碼器(300)和解碼器的系統和方法。編碼器(300)包括一個多解析度變換處理器(310),例如調製重疊變換(MLT)變換處理器、加權處理器(312)、均勻量化器(314)、屏蔽閾值頻譜處理器(316)、熵編碼器(318)和通信設備(320),例如用於復用(組合)從上述組件接收的信號以在單一介質上傳輸的多路復用器(MUX)。編碼器(300)通過解析度轉換、頻譜加權和數字編碼來編碼音頻信號。而且,執行數字編碼信號的參數建模以增強編碼。解碼器包括用於解碼已編碼音頻信號的與編碼器(300)相反的組件。
文檔編號G10L19/02GK1312974SQ99809011
公開日2001年9月12日 申請日期1999年5月27日 優先權日1998年5月27日
發明者亨裡克·S·馬瓦 申請人:微軟公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀