新四季網

音頻編碼器、編碼方法、解碼器、解碼方法以及經編碼的音頻信號的製作方法

2023-10-11 16:11:24 8

專利名稱:音頻編碼器、編碼方法、解碼器、解碼方法以及經編碼的音頻信號的製作方法
技術領域:
本發明涉及源編碼,特別涉及音頻源編碼,其中至少用具有不同編碼算法的兩種
不同的音頻編碼器對音頻信號進行處理。
背景技術:
在低比特率音頻和語音編碼技術領域中,為了在給定比特率下,以儘可能好的主 觀質量對這類信號實現低比特率編碼,傳統情況下,可以採用若干不同的編碼技術。用於一 般音樂/聲音信號的編碼器旨在通過根據利用感知模型("感知音頻編碼")從輸入信號 估計得到的掩蔽閾值曲線,對量化誤差的頻譜(或時間)形狀予以成形的方式,從而對主觀 質量加以優化。另一方面,在以人類語言的生成模型為基礎進行極低速率的語音編碼,即利 用線性預測編碼(LPC)對人類聲道的共振效應進行建模、同時對殘餘激勵信號進行有效編 碼時,極低速率的語音編碼的效率極高。 由於存在上述兩種不同的方法,一般的音頻編碼器(如MPEG-1層3、或MPEG-2/4 高級音頻編碼、AAC)由於未採用語音源模型,因而對於極低數據速率的語音信號,通常無法 得到同專用的基於LPC的語音編碼器相媲美的良好性能。反之,由於基於LPC的語音編碼 器無法根據掩蔽閾值曲線靈活地對編碼失真的頻譜包絡加以成形,因而當應用於一般的音 樂信號時,通常無法獲得令人滿意的結果。以下,將對提出將基於LPC的編碼同感知音頻編 碼結合於同一框架的概念予以說明,從而對針對一般的音頻信號和語音信號來說均比較有 效的統一音頻編碼予以說明。 —般而言,感知音頻編碼器使用基於濾波器組的方法有效地對音頻信號進行編 碼,並根據掩蔽曲線的估計結果而對量化失真加以成形。 圖16a示出了單聲道感知編碼系統的基本方框圖。分析濾波器組1600用於將時 域採樣映射為經二次採樣的頻譜分量。根據頻譜分量的個數,該系統還可稱為子帶編碼器 (子帶數量較少,如32)或變換編碼器(頻率線數量較多,如512)。感知("心理聲學")模 型1602用於對取決於實際時間的掩蔽閾值進行估計。對頻譜("子帶"或"頻域")分量進 行量化和編碼1604,使得量化噪聲隱沒在實際發送信號之下,並使得在解碼後無法覺察到 量化噪聲。這是通過改變頻譜值在時間和頻率上的量化精細度而實現的。
除了輔助信息以外,還把經量化和熵編碼的頻譜係數或子帶值輸入比特流格式化 器1606,該比特流格式化器1606提供適於傳送或存儲的經編碼的音頻信號。方框1606的 輸出比特流可以通過網際網路發送,也可以存儲在任意的機器可讀數據載體上。
在解碼器端,解碼器輸入接口 1610接收編碼的比特流。方框1610將熵編碼和量 化的頻譜/子帶值同輔助信息分開。編碼的頻譜值輸入諸如哈夫曼解碼器的熵解碼器,該 解碼器位於1610和1620之間。這個熵解碼器的輸出被量化為頻譜值。這些量化的頻譜值 輸入執行如圖16a中1620處所示的"逆"量化的逆量化器。方框1620的輸出被輸入綜合 濾波器組1622,後者執行包括頻率/時間變換以及通常情況下,諸如交疊與相加和/或合成
6邊加窗(synthesis-sidewindowing)操作等的時域混疊消除操作的合成濾波,以最終獲得 輸出音頻信號。 圖16b、16c示出了圖16a的基於整個濾波器組的感知編碼概念的替換物,其中實 現了編碼器端的預濾波方法以及解碼器端的後濾波方法。 在[EdlOO]中,提出了一種通過利用所謂的預濾波器而並非在頻率上對頻譜係數 進行可變量化,把非相關縮減(即,根據感知標準進行噪聲成形)和冗餘縮減(即,獲取數 學意義上更加簡潔的信息表示)的方面相分離的感知音頻編碼器。圖16b示出了上述原 理。感知模型1602對輸入信號進行分析,計算頻率上的掩蔽閾值曲線的估計結果。將掩蔽 閾值轉換為一組預濾波器係數,使得其頻率響應的幅度同掩蔽閾值成反比。預濾波操作將 這組係數施加於輸入信號,從而產生輸出信號,該輸出信號中所有頻率分量均根據其感知 重要性予以表示("感知白化")。接著,用可以產生"白"量化失真的任意類型的音頻編碼 器1632對該信號進行編碼,S卩,不採用任何感知噪聲成形。音頻信號的傳輸/存儲的內容 包括編碼器的比特流以及預濾波係數的編碼版本。在圖16c的解碼器1634中,將編碼器 比特流解碼為含有加性白量化噪聲的感知白化音頻信號。然後,根據所發送的濾波器係數, 對該信號執行後濾波操作。由於後置濾波器1640執行與預濾波器相反的逆濾波處理,因而 能夠根據感知白化信號重建原始音頻輸入信號。後置濾波器1640對加性量化白噪聲進行 頻譜成形,使之狀如掩蔽曲線,從而如同預期的那樣,在解碼器輸出端感覺上該噪聲是有色 的。 由於在這種方案中,感知噪聲成形是通過預濾波/後濾波的步驟而不是用與頻 率相關的頻譜係數量化而實現的,因而可以將此概念概括為,包含用於表示預濾波音頻信 號的非基於濾波器組的編碼機制的音頻編碼器,而不是基於濾波器組的音頻編碼器。在 [Sch02]中,針對採用了預測和熵編碼級的時域編碼內核對此進行說明。
為了利用預濾波/後濾波技術進行適當的頻譜噪聲成形,將預濾波器/後置濾波 器的頻率解析度調整為與人類聽覺系統的頻率解析度相適應是十分重要的。理想情況下, 頻率解析度應服從眾所周知的感知頻標(frequency scale),例如BARK或ERB頻標[Zwi]。 為了使預濾波器/後置濾波器模型的階數達到最小,從而使相關的計算複雜度以及輔助信 息傳輸速率達到最小,尤其希望做到這點。 預濾波器/後置濾波器的頻率解析度的調整可由眾所周知的頻率畸變(warping) 概念予以實現[KHL97]。本質上,使用可導致濾波器頻率響應發生非均勻變形("畸變") 的(一階或更高階)全通濾波器來代替濾波器結構中的單位延時。經證明,甚至採用一階 全通濾波器,如 也可以通過適當選擇全通係數,十分精確地逼近感知頻標[SA99]。因此,大多數已 知系統不採用高階全通濾波器進行頻率畸變。由於一階全通濾波器由決定頻標變形的單個 標量參數(以下將其稱為"畸變因子"-i < A < 1)完全確定。舉例而言,對於A = 0的 畸變因子,不產生變形效果,即,濾波器以常規頻標工作。所選擇的畸變因子越高(由於這 是逼近感知頻標所必需的),頻譜中較低頻率部分的頻率解析度就越高,而在頻譜的較高頻 率部分有所減小。
7
在使用經畸變的預濾波器/後置濾波器時,音頻編碼器通常採用8至20間的濾波 器階數,採用如48kHz或44. 1kHz的常見採樣速率[WSKH05]。 在例如室內衝激響應建模[HKS00]和音頻信號中噪聲分量的參數建模(以 Laguerre/Kauz濾波兩個等價的名稱命名畸變濾波)[S0B03]中,已對畸變濾波的若干其他 應用有所說明。 傳統上講,高效的語音編碼基於線性預測編碼(LPC)對人類聲道的共振效應進行 建模,同時對殘餘激勵信號進行高效編碼[VM06]。 LPC和激勵參數均由編碼器傳送至解碼 器。該原理如圖17a和17b所示。 圖17a示出了基於線性預測編碼的編碼/解碼系統的編碼器端。將語音輸入輸入 至LPC分析器1701,後者在其輸出端提供LPC濾波器係數。LPC濾波器1703根據這些LPC 濾波器係數加以調節。LPC濾波器輸出還可用術語"預測誤差信號"表示的頻譜白化音頻信 號。頻譜白化音頻信號輸入至殘餘/激勵編碼器1705,產生激勵參數。因此,語音輸入一方 面被編碼為激勵參數,另一方面,被編碼為LPC係數。 在圖17b所示的解碼器端,激勵參數輸入激勵解碼器1707,產生能夠輸入至LPC逆 濾波器的激勵信號。用發送的LPC濾波器系統對LPC逆濾波器進行調節。從而,LPC逆濾 波器1709產生經重建或者合成的語音輸出信號。 隨著時間的推移,已提出了大量高效並且在感覺上令人信服的有關殘餘(激勵) 信號的表示方法,如多脈衝激勵(MPE)、規則脈衝激勵(RPE)以及碼激勵線性預測(CELP)。
線性預測編碼試圖根據對若干過去值的觀察,產生作為過去觀察線性組合的當前 採樣值序列的估計結果。為了減小輸入信號中的冗餘,編碼器LPC濾波器對輸入信號的頻 譜包絡進行"白化",即,編碼器LPC濾波器是信號頻譜包絡的逆模型。反之,解碼器LPC濾 波器是信號頻譜包絡的模型。具體而言,已知可以通過全極點近似方法,利用眾所周知的自 回歸(AR)線性預測分析對信號的頻譜包絡進行建模。 通常,窄帶語音編碼器(即採用8kHz採樣速率的語音編碼器)使用階數在8至12 間的LPC濾波器。由於LPC濾波器屬性的緣故,將導致在整個頻率範圍內產生均勻的頻率 解析度。然而,這並非對應於感知頻標。 值得注意的是,畸變技術所提供的非均勻頻率靈敏度還可以為語音編碼帶來優 勢,因而已提出用畸變預測分析來代替規則LPC分析,如[TMK94] [KTK95]。還可以比如從 [HLM99]得知畸變LPC和CELP編碼的其他組合。 為了將傳統的基於LPC/CELP的編碼(對於語音信號具有最佳品質)同傳統的基 於濾波器組的感知音頻編碼方法(對於音樂具有最佳品質)加以結合,提出了介於上述架 構間的結合編碼。在AMR-WB+編碼器(BLS05)中,兩種編碼內核交替地作用於LPC殘留信 號。其中一編碼內核基於ACELP(代數碼本激勵線性預測),因而對於語音信號的編碼極其 高效。另一編碼內核基於TCX(變換碼激勵),即類似於傳統音頻編碼技術的、基於濾波器組 的編碼方法,以便能得到良好的音樂信號品質。根據輸入信號的特性,在短時內選擇兩種編 碼模式中的一種發送LPC殘留信號。採用這種方法,可以將持續時間為80ms的幀分成40 或20ms的子幀,在子幀中對兩種編碼模式進行抉擇。 該方法的一種局限在於,該過程基於在對所引入的編碼失真的類型而言具有極為 不同的特性的兩種編碼器/編碼機制間執行硬切換判決。當從一種模式轉換至另一模式
8時,這一硬切換過程可能導致在感知信號中產生令人難以忍受的中斷。舉例而言,當語音信
號緩慢地平滑轉換為音樂信號時(比如在廣播節目中的公告之後),可以覺察出轉換點。同
樣,對於以音樂為背景的語音(比如,對於以音樂為背景的公告),硬切換是可以聽到的。因
而,難以利用該架構獲得能夠在兩種組成編碼器特性間平滑轉換的編碼器。 最近,還提出了一種切換編碼的組合,如EP 1873754中所討論的那樣,後者通過
將編碼器的濾波器在傳統LPC模式(適於基於CELP的語音編碼)以及同基於預濾波/後
濾波的感知音頻編碼相類似的畸變模式間進行轉換的方式,使基於濾波器組的編碼內核得
以應用於感知加權頻標。 如圖17c所示,按如下方式,利用具有可變頻率畸變的濾波器,就可以構建能夠實 現高質量語音和音頻編碼的組合語音/音頻編碼器 在獨立模塊1726中,可以通過分析輸入信號,也可以基於用於區分語音信號和音 樂信號的現有技術,對所要使用的編碼模式("語音模式"或"音樂模式")進行決策。因 而,判決模塊為時變畸變濾波器1722產生關於編碼模式/以及相關的最佳畸變因子的判決 結果。此外,根據該判決結果,確定出一組合適的適於選定編碼模式下輸入信號的濾波器系 數,即,對於語音編碼,進行LPC分析(不採用畸變或採用較低的畸變因子),反之,對於音樂 編碼,估計掩蔽曲線,並將掩蔽曲線的逆轉換為畸變頻譜係數。 用具有時變畸變特性的濾波器1722作為公共的編碼/解碼濾波器,並根據由判決
模塊產生的編碼模式判決結果/畸變因子以及濾波器係數組,將其作用於信號。 根據編碼模式,或者用語音編碼器內核1724(例如CELP編碼器)或者用通用音頻
編碼器內核1726(例如基於濾波器組的編碼器,或預測音頻編碼器),或同時採用兩者,對
濾波級的輸出信號進行編碼。 待傳輸/存儲的信息包括編碼模式判決結果(或畸變因子指示)、某種編碼形式 的濾波器係數以及由語音/激勵以及通用音頻編碼器所傳送的信息。 在相應的解碼器中,將殘餘/激勵解碼器的輸出和通用音頻解碼器的輸出加在一 起,根據編碼模式、畸變因子和濾波器係數,用時變畸變合成濾波器對輸出進行濾波。
由於在兩種編碼模式間進行硬切換判決的緣故,該機制仍受到如前所述的、同 CELP/基於濾波器組的切換編碼相似的局限。採用該架構,難以獲得能夠在兩種組成編碼器 特性間平滑轉換的編碼器。 另一種將語音編碼內核同通用的感知音頻編碼器相結合的方式用於MPEG-4大步 長可分級音頻編碼[Gri97] [Her02]。可分級編碼的思想在於,提供編碼/解碼機制和比特 流格式,使得能夠對完整比特流的子集進行有意義的解碼,從而產生質量有所下降的輸出 信號。如此以來,就可以在不重新對輸入信號進行編碼的情況下,使傳輸/解碼數據速率適 配於即時傳輸信道的容量。 圖18示出了 MPEG-4大步長可分級音頻編碼器的結構[Gri97]。該配置包括所 謂的核心編碼器1802以及基於感知音頻編碼模塊1804的若干增強層。核心編碼器(通常 為窄帶語音編碼器)以低於隨後的增強層的採樣率工作。上述組件的可分級組合按以下方 式工作 輸入信號經下採樣1801,然後由核心編碼器1802進行編碼。生成的比特流構成了 可分級比特流的核心層部分1804。將其進行本地解碼1806以及上採樣1808,以同感知增強層的採樣速率進行匹配,然後通過分析濾波器組(MDCT) 1810。 在第二信號路徑中,經時延(1812)補償的輸入信號通過分析濾波器組1814,並用 於計算殘餘編碼誤差信號。 將殘留信號通過頻率選擇開關(FSS)工具1816,後者允許在同對殘留信號進行編 碼相比,對原始信號進行編碼效率更高的情況下,根據比例因子頻帶(scalefactor band) 將其變回原始信號。 用AAC編碼內核1804對頻譜係數進行量化/編碼,產生增強層比特流1818。此外 還可跟隨有對殘餘編碼誤差信號進行重新編碼的精化級(增強層)。 圖19示出了相關的基於核心的可分級解碼器的結構。將合成比特流分解1902為 獨立編碼層。然後對核心編碼器比特流(即語音編碼器比特流)進行解碼1904,並通過可 選後濾波級表示其輸出信號。為了在可分級解碼過程中使用核心解碼器信號,將其上採樣 1908為可分級編碼器的採樣率,對於其他層進行時延補償1910,並利用編碼器分析濾波器 組(MDCT) 1912進行分解。 然後通過應用AAC無噪解碼和逆量化對高層比特流進行解碼1916,並對所有有貢 獻的頻譜係數進行求和1918。頻率選擇開關(FSS)工具1920按照從編碼器發來的信號,通 過選擇兩者的和或只選擇源自增強層的係數,將頻譜係數同來自核心層的貢獻進行求和。 最終,利用綜合濾波器組(頂DCT) 1922將結果重新映射為時域表示。 作為一般特徵,在該配置中總使用語音編碼器(核心編碼器)。只有當解碼器既可
利用比特流的核心層,又可利用一個以上的增強層時,才同時將增強層中的感知音頻編碼
器所產生的結果傳送至解碼器,從而為非語音/音樂信號提供較高的品質。 因此,該可分級配置總包含含語音編碼器在內的活動層,其中語音編碼器就對語
音和音頻信號同時提供最佳總體品質而言,會導致某些缺陷 如果輸入信號主要由語音構成,增強層中的感知音頻編碼器就要對信號特性或許 同常規音頻信號存在極大差異的殘餘/差異信號進行編碼,因此難以針對這種編碼器進行 編碼。作為一個示例,殘留信號可能還有脈衝性質的分量,因而當用基於濾波器組的感知音 頻編碼器進行編碼時將產生預回聲(pre-echo)。 如果輸入信號並非主要由語音構成,那麼通常對殘留信號進行編碼所需的比特率 比對輸入信號進行編碼所需的比特率要高。在這種情況下,FSS選擇用增強層對原始信號 而不是殘留信號進行編碼。因此,核心層並不產生輸出信號,並且,由於對整體品質的改進 沒有幫助,核心層的比特率被白白浪費掉了。換句話說,在上述情況下,如果簡單地將全部 比特率都僅分配給感知音頻編碼器,那麼結果聽起來較差。 在http://www.hitech_projects.com/euprojects/ardor/summary.htm中,對
ARDOR(自適應率失真優化音頻編碼器)編解碼器進行了如下所述的說明 在該項目中,給定所施加的約束以及可用的子編碼器,創建以最恰當的信號模型
組合對一般音頻信號進行編碼的編解碼器。如圖20所示,工作過程可分為三個部分,這三
部分與三個編解碼器組件相對應。 基於率失真定理的優化機制2004對ARD0R編解碼器進行配置,使得其在給定的當 前、時變約束以及輸入信號類型的條件下達到最高工作效率。為此,基於率失真定理的優化 機制控制一組"子編碼"策略2000,其中各種策略能高效地對特定類型的輸入信號分量,如音調、噪音或瞬態信號進行編碼。為各特定子編碼策略分配適當速率和信號分量的依據 是一種為率失真優化機制提供感知標準的、先進新穎的感知失真度量2002。換句話說,基 於有關人類聽覺系統的最新技術水平知識的感知模型為優化機制提供有關聲音的不同成 分的感知相關度的信息。該優化算法可以,舉例而言,決定忽略與感知無關的信息。因而, 雖然無法恢復原始信號,聽覺系統卻不會感到任何差別。 上述對於若干現有系統的討論顯示出,尚不存在一種一方面能夠為一般的音頻信 號以及語音信號提供最佳品質,另一方面能夠為各種信號提供低比特率的最佳編碼策略。 具體而言,結合圖18和圖19討論的、已成為MPEG-4標準的可分級方法不關注音頻信號,更 具體地說,不關注音頻信號的來源,利用語音編碼器核心連續地處理整個音頻信號。因而, 如果音頻信號並非類語音信號,核心編碼器將引入嚴重的編碼偽信號,因此圖18中的頻率 選擇開關工具1816將確保用AAC編碼器1804對整個音頻信號進行編碼。因此,在該實例 中,比特流包含無用的語音核心編碼器的輸出,還包含音頻信號的感知編碼表示。這不僅導 致傳輸帶寬的浪費,還導致很高且無益的功率消耗,如果要在以電池供電因而能源有限的 行動裝置中實現編碼概念,這將成為十分棘手的問題。 —般而言,基於變換的感知編碼器在編碼時不關注音頻信號的來源,這導致感知
音頻編碼器(當採用中等比特率時)能夠在不產生過多編碼偽信號的情況下,為所有可用
信號源產生輸出,然而,由於掩蔽閾值無法像在平穩信號中那樣有效地進行掩蔽,對於非平
穩信號部分,比特率將有所增加。此外,由於瞬態或脈衝狀信號分量需要較高的時間分辨
率,而無需較高的頻率解析度,因而基於變換的音頻編碼器中固有的對時間解析度和頻率
解析度的折衷使得該編碼系統對瞬態或脈衝狀信號分量而言存在問題。 然而,語音編碼器是高度取決於源模型的編碼概念的一個顯著實例。因而,語音編
碼器類似於語音源的模型,因此可以為從同以編碼算法表示的源模型相類似的聲源發出的
信號提供高效的參數表示。對於源自不符合語音編碼器源模型的源的聲音,輸出將包含嚴
重的偽信號(artifact),或者,如果允許增加比特率,將產生大幅增加的並且遠遠高於通用
音頻編碼器的比特率的比特率。

發明內容
為解決上述問題,本發明的一個目的在於,提出一種改進的音頻編碼概念,使之能 夠同時提供專用編碼器概念以及通用編碼器概念的優點,並儘可能避免這些編碼器的缺 陷。 該目的是由依照權利要求1的音頻編碼器、權利要求24的音頻編碼方法、權利要 求25的用於對經編碼的音頻信號進行解碼的解碼器、權利要求32的解碼方法、權利要求33 的增強型音頻信號,或權利要求34的電腦程式來實現的。 本發明基於以下發現將脈衝同音頻信號進行分離能夠實現高效且高質量的音頻 編碼概念。通過從音頻信號中提取脈衝,一方面產生脈衝音頻信號,以及同音頻信號相對應 的、不含脈衝的殘留信號。脈衝音頻信號可以用脈衝編碼器進行編碼,如能夠以極低的數據 速率對語音信號進行高質量編碼的高效語音編碼器。另一方面,殘留信號獨立於其脈衝狀
部分,主要由原始音頻信號的平穩部分構成。這種信號非常適於諸如通用音頻編碼器、優選 情況下基於變換的感知控制音頻編碼器的信號編碼器。輸出接口輸出經編碼的脈衝狀信號和經編碼的殘留信號。由於經編碼的殘留信號或經編碼的脈衝狀信號可能處於無法有效單 獨使用的特殊情況,因此輸出接口可採用任意可用格式而未必採用可分級格式輸出這兩個 編碼的信號。只有這兩個信號在一起才能提供高質量的音頻信號。 然而,另一方面,如果優選情況下採用諸如CELP或ACELP等能對其比特率嚴格加 以控制的固定速率脈衝編碼器,則可以在極大程度上對這個經合併的編碼音頻信號的比特 率加以控制。另一方面,例如當使用MP3或MP4編碼器實現音頻編碼器時,可以對信號編碼 器進行控制,使其即使執行固有地將輸出可變比特率的感知編碼操作,也能根據MP3或MP4 編碼器技術中比特池(bitreservoir)的實現而輸出固定比特率。這樣做可以確保編碼輸 出信號的比特率保持不變。 由於殘餘音頻信號不再含有難於處理的脈衝狀部分,該殘留信號極其適於信號編 碼器,因此經編碼的殘留信號的比特率將會較低。 另一方面,由於向脈衝編碼器饋入的是經特別成形的從音頻信號中選出的同脈衝 編碼器聲源模型完全匹配的信號,因此脈衝編碼器將提供優質高效操作。因此,如果脈衝提 取器無法找到音頻信號中的脈衝部分,那麼脈衝編碼器將處於非活動狀態,且不會試圖對 根本不適合用脈衝編碼器進行編碼的任何信號部分進行編碼。有鑑於此,脈衝編碼器也不 會提供經編碼的脈衝信號,並且也不會對脈衝編碼器需要較高比特率或脈衝編碼器無法提 供具有令人滿意的質量的輸出信號的信號部分貢獻輸出比特率。特別地,對於移動應用而 言,在這種情況下,脈衝編碼器也無需消耗任何能量資源。因此,當音頻信號包含脈衝狀部 分,且脈衝提取器所提取出的脈衝狀部分完全符合脈衝編碼器的期望形式時,脈衝編碼器 才變為激活狀態。 因此,將音頻信號分配至兩種不同的編碼算法將導致組合編碼操作,組合編碼操 作特別有用,其原因在於,信號編碼器始終處於激活狀態,脈衝編碼器充當後備(fallback) 模塊,只在信號確實包含脈衝狀部分的情況下才處於激活狀態、產生輸出比特並消耗能量。
優選情況下,脈衝編碼器適於有利地對現有技術的脈衝的序列(亦稱之為"脈衝 序列")進行編碼。上述"脈衝"或者"脈衝序列"是通過對人類聲道進行建模的方式而獲得 的典型模式。脈衝序列中的相鄰脈衝間存在一定的時間距離。這種時間距離稱為"基音遲 滯(pitch lag)",該值同"基音頻率(pitchfrequency)"相對應。


下面結合附圖和實施例對本發明作進一步說明 圖1是依照本發明實施例的音頻編碼器的方框圖; 圖2是用於對編碼的音頻信號進行解碼的解碼器的方框圖; 圖3a示出了開環實施例; 圖3b示出了解碼器的具體實施例; 圖4a示出了編碼器端的另一開環實施例; 圖4b示出了編碼器端的閉環實施例; 圖4c示出了一實施例,其中脈衝提取器和脈衝編碼器在修改的ACELP編碼器中實 現; 圖5a示出了作為脈衝狀信號部分的時域語音部分的波形;
圖5b示出了圖5a部分的頻譜; 圖5c示出了作為平穩部分的示例的清音(unvoiced)語音的時域語音部分; 圖5d示出了圖5c的時域波形的頻譜; 圖6示出了綜合分析CELP編碼器的方框圖; 圖7a至7d示出了作為脈衝狀和平穩信號示例的濁音(voiced)語音/清音語音 激勵信號; 圖7e示出了提供短期預測信息以及預測誤差信號的編碼器端LPC級; 圖8示出了圖4a的開環實施例的優選實施例; 圖9a示出了實際脈衝狀信號的波形; 圖9b示出了由圖8的脈衝特性增強級產生的增強型或更加理想的脈衝狀信號; 圖10示出了可實現於圖4c實施例中的修改的CELP算法; 圖11示出了圖IO算法的更為具體的實現; 圖12示出了圖11算法的具體實現; 圖13示出了實現於圖4c中的另一個修改的CELP算法; 圖14示出了顯示信號解碼器連續工作以及脈衝編碼器間歇工作的工作模式; 圖15示出了信號編碼器包含心理聲學模型的編碼器實施例; 圖16a示出了 MP3或MP4編碼/解碼概念; 圖16b示出了預濾波編碼概念; 圖16c示出了後濾波解碼概念; 圖17a示出了 LPC編碼器; 圖17b示出了 LPC解碼器; 圖17c示出了用動態可變畸變LPC濾波器實現切換編碼的編碼器; 圖18示出了 MEPG-4可分級編碼器; 圖19示出了 MEPG-4可分級解碼器;以及 圖20示出了 ARDOR編碼器的示意圖。
具體實施例方式
以下實施例的優勢在於,提出了一種對感知音頻編碼器進行擴展,使其不但可以 最佳品質對一般的音頻信號進行編碼,極大程度地改進了語音信號編碼質量的統一方法。 此外,以下實施例還能避免如前所述的、同音頻編碼模式(例如基於濾波器組)和語音編碼 模式(例如基於CELP方法)間進行硬切換有關的問題。作為替代,以下實施例支持編碼模 式以及工具的平滑/連續合併操作,並以這種方式實現針對混合信號的更加柔和的轉換/ 混合。 以下考慮因素構成了以下實施例的基礎 —般採用濾波器組的感知音頻編碼器非常適合表示在頻率上具有十分精細的結 構、而在時域上極其平穩的信號。利用基於濾波器組的編碼器對瞬態或脈衝狀信號進行編 碼將導致時域編碼失真的拖尾效應(smearing),進而會產生預回聲偽信號。
語音信號的一個重要組成部分包括由人類聲門(glottis)以某一基音頻率在發 出濁音語音時產生的脈衝序列。因而,很難以低比特率用基於濾波器組的感知音頻編碼器
13對這些脈衝序列結構進行編碼。 因此,為了用基於濾波器的編碼系統獲得最佳信號品質,最好將編碼器輸入信號分解為脈衝狀結構以及其他更平穩的分量。脈衝狀結構可以用專門的編碼內核(以下稱脈衝編碼器)進行編碼,而其他殘餘分量可以用普通的基於濾波器組的感知音頻編碼器(以下稱殘餘編碼器)進行編碼。優選情況下,脈衝編碼器由傳統語音編碼方案中的功能模塊,如LPC濾波器、關於脈衝位置的信息等構建而成,並且可以採用諸如激勵碼本、CELP等技術。可以對編碼器輸入信號進行分離,使得滿足兩個條件(條件#1)用於脈衝編碼器輸入的脈衝狀信號的特徵由於脈衝編碼器專門為發送脈衝結構進行了優化,而沒有對平穩(或者甚至音調)信號分量進行優化,因此,優選情況下,為避免產生非期望失真,輸入至脈衝編碼器的信號只包含脈衝狀結構。換句話說,將類音調信號分量饋入脈衝編碼器將導致基於濾波器組的編碼器不易補償的失真。
(條件#2)殘餘編碼器所用的時域平滑脈衝編碼器殘餘優選情況下,產生由殘餘編碼器進行編碼的殘留信號,使得輸入信號經分離後,殘留信號在時域上甚至在脈衝編碼器對脈衝進行編碼的時刻是平穩的。具體而言,優選情況下,殘餘的時間包絡中不產生"凹口 (hole)"。 同上述切換編碼方案相反,在需要時,通過令編碼器(脈衝編碼器以及殘餘編碼器)及其相應解碼器並行工作(即同時)的方式,實現脈衝編碼和殘餘編碼之間的連續組合。具體而言,在優選工作方式下,殘餘編碼器總處於工作狀態,而只有在認為脈衝編碼器的工作能夠產生有益效果的情況下才啟動脈衝編碼器。 所提出的概念的一部分是將輸入信號分成最適合各個部分編碼器(脈衝編碼器以及殘餘編碼器)特點的部分輸入信號,從而達到最佳的整體性能。在以下優選實施例中,做出以下假設。 —個部分編碼器是基於濾波器組的音頻編碼器(類似於普通的感知音頻編碼器)。因此,該部分編碼器非常適於處理平穩和音調音頻信號(在頻譜圖表示中對應於"水平結構"),而不適於處理時域上包含大量非平穩部分,如瞬態信號、起始信號或脈衝(在頻譜圖表示中對應於"垂直結構")的音頻信號。試圖以基於濾波器組的編碼對這類信號進行編碼將導致輸出信號出現時域拖尾效應、預回聲以及混響(reverberant)特性。
第二個部分編碼器是工作於時域內的脈衝編碼器。因此,這個部分編碼器非常適於處理時域上包含大量非平穩部分,如瞬態信號、起始信號或脈衝(在頻譜圖表示中對應於"垂直結構")的音頻信號,而不適於處理平穩和音調音頻信號(在頻譜圖表示中對應於"水平結構")。由於基本稀疏(underlying sparse)時域表示的緣故,試圖以時域脈衝編碼器對這類信號進行編碼將導致音調信號分量失真或者剌耳的音質。(如果脈衝編碼器和基於濾波器組的編碼器同時有效),對基於濾波器組的音頻
解碼器和時域脈衝解碼器的解碼輸出進行相加,從而產生完整的解碼信號。 圖1示出了用於對含有脈衝狀部分以及平穩部分的音頻信號8進行編碼的音頻編
碼器。 一般而言,可以利用對脈衝狀特性以及類平穩特性進行測量的信號處理操作來區分
音頻信號的脈衝狀部分以及平穩信號的平穩部分。舉例而言,可以通過分析音頻信號波形
的方式實現這種測量。為此,可以執行任何基於變換的處理或LPC處理或者其他處理。 一種
憑直覺想到的用於確定一個部分是不是脈衝狀部分的方法是,比如,對時域波形進行觀察,
14並判斷該時域波形是否具有周期或非周期峰值,其中周期性峰值甚至更加適合於類語音編碼器。 典型地,參考圖5a至5d。此處,將脈衝狀信號片段或信號部分和平穩信號片段或信號部分作為範例予以討論。具體而言,將如圖5a和圖5b所示的時域和頻域中的濁音語音作為脈衝狀信號部分的實例予以討論,並結合圖5c和圖5d將清音語音片段作為平穩信號部分的實例予以討論。通常可以將語音分成濁音、清音或混音。圖5a至5d示出了經採樣的濁音和清音片段的時頻域(time-and-frequency domain)曲線。濁音語音在時域內內是準周期的,在頻域內具有諧波結構,相反清音是接近隨機的寬帶語音。此外,濁音片段的能量通常比清音片段的能量要高。濁音片段的短時頻譜的特徵在於其精細的共振峰(formant)結構。這種精細的諧波結構是語音的準周期性所造成的,因而可歸結為由震動聲帶產生的結果。共振峰結構(頻譜包絡)是聲源和聲道相互作用的結果。聲道由咽喉和口腔構成。同濁音語音的短時頻譜"相適合"的頻譜包絡的形狀與聲道傳輸特性及由聲門脈衝造成的頻譜傾斜(6dB/八度音階)相關聯。頻譜包絡的特徵在於一組被稱作共振峰的峰值。共振峰是聲道的諧振模式。對於普通聲道,在5kHz以下存在三至五個共振峰。通常位於3kHz以下的前三個共振峰的幅度和位置對於語音合成以及語音感知極為重要。對於寬帶和清音語音的表示,較高的共振峰也十分重要。如下所述,語音的特性同物理語音發生系統有關。濁音語音是通過用震動聲帶所產生的準周期聲門氣脈衝激勵聲道而產生的。周期脈衝的頻率稱為基頻。清音語音是通過迫使空氣穿過聲道內的收縮處(constriction)而產生的。鼻音是由鼻腔至聲道的聲音耦合產生的,爆破音是通過突然釋放聲道閉合後所形成的聲壓的方式產生的。 因此,由於時域中平穩部分並未出現明顯的重複脈衝,音頻信號的平穩部分可以
是同比如圖5a所示的脈衝狀部分相異的、由圖5c所示的時域內的平穩部分或頻域內的平
穩部分。然而,正如稍後將予以概述的那樣,還可以採用對聲道以及聲道激勵進行建模的
LPC方法來區分平穩部分以及脈衝狀部分。如果考慮信號的頻域表示,將發現脈衝狀信號具
有十分顯著的獨立共振峰,即圖5b中主峰,而平穩頻譜是如圖5d所示的極白的頻譜,或者
對於諧波信號而言,是含有表示特定音調的主峰的連續背景噪聲,該特定音調例如存在於
音樂信號中、但彼此之間不具有像圖5b中脈衝狀信號那樣的有規律的間隔。 此外,脈衝狀部分和平穩部分還可以適時地出現,S卩,這意味著時域內音頻信號的
某一部分是平穩的,而時域內音頻信號的另一部分是脈衝狀的。備選地或額外地,不同頻帶
內的信號特性可能有所不同。因而,還可以頻率選擇性地對音頻信號是平穩的還是脈衝狀
的做出判斷,從而將特定頻帶或若干頻帶看成是平穩的,而將其他頻帶當作是脈衝狀的。在
這種情況下,音頻信號的特定時段可能既包含脈衝狀部分又包含平穩部分。 圖1編碼器實施例包括脈衝提取器IO,用於從音頻信號中提取脈衝狀部分。脈衝
提取器10包括脈衝編碼器,用於對脈衝狀部分進行編碼,以獲得編碼的脈衝狀信號。正如
稍後將予以說明的那樣,脈衝提取和實際編碼操作既可以彼此分離,也可以合併在一起,從
而得到結合圖4c予以討論的其修改形式中的單一算法,如ACELP算法。 脈衝提取器10的輸出是編碼的脈衝信號12,在某些實施例中,還輸出與脈衝提取
類型或脈衝編碼類型有關的附加輔助信息(side information)。 圖1編碼器實施例還包括信號編碼器16,用於對由音頻信號8導出的殘留信號18進行編碼,以獲取經編碼的殘留信號20。具體而言,由音頻信號8導出殘留信號18,使音頻信號中的脈衝狀部分得以減小,或從音頻信號中徹底消除。然而,由於脈衝提取器IO尚未提取平穩部分,音頻信號仍包含平穩部分。 此外,所發明的音頻編碼器包括輸出接口 22,用於輸出經編碼的脈衝信號12、經編碼的殘留信號20以及(如可用)輔助信息14,從而獲得經編碼的音頻信號24。輸出接口 22不一定是產生可分級數據流的可分級數據流接口,可分級數據流的寫入方式使得可以彼此獨立地對經編碼的殘留信號和經編碼的脈衝信號進行解碼,以便獲得有用信號。由於經編碼的脈衝信號和經編碼的殘留信號均非具有令人可以接受的音頻質量的音頻信號,因此在優選實施例中,僅呈現一種信號而不呈現另一種信號不具任何意義。因此,輸出接口22可以採用完全的比特有效的工作方式,而不必擔心數據流,及是否可以可分級方式對數據流進行解碼。 在優選實施例中,本發明的音頻解碼器包含殘留信號發生器26。殘留信號發生器26適於接收音頻信號8以及與提取出的脈衝信號部分有關的信息28,還適於輸出不含提取出的信號部分的殘留信號18。根據具體實現,殘留信號發生器26或信號編碼器16還可以輸出輔助信息。然而,由於在特定配置下,可以對解碼器進行預置,並且只要編碼器根據這些配置工作,本發明的編碼器就不需產生並發送任何附加輔助信息,因此輔助信息14的輸出以及傳輸並不是必需的。然而,假如編碼器端以及解碼器端存在特定的靈活性,或者假如殘留信號發生器的特定操作並非純粹的減法,那麼向解碼器發送輔助信息或許十分有用,這時,解碼器,更具體地說,解碼器內的合併器,就可以忽略編碼器端引入的解碼後的殘留信號的某些部分,僅僅產生不帶任何凹口的平滑的非脈衝狀殘留信號。
圖2示出了用於對經編碼的音頻信號24進行解碼的優選解碼器實施例,其中經編碼的音頻信號與輸出接口 22輸出的信號相同。 一般而言,經編碼的音頻信號24包含經編碼的脈衝狀信號以及經編碼的殘留信號。解碼器可以包含解碼器輸入接口 28,用於從經編碼的音頻信號24中提取經編碼的脈衝信號12、經編碼的殘留信號20以及輔助信息14。將經編碼的脈衝信號12輸入利用解碼算法對經編碼的脈衝信號進行解碼的脈衝解碼器30,其中解碼算法適用於產生經編碼的脈衝狀信號所用的編碼算法,即圖12的方框10中所採用的編碼算法。圖2中的解碼器還包含信號解碼器32,用於利用適用於產生經編碼的殘留信號所用的編碼算法,即圖1的方框16中所採用的編碼算法的解碼算法,對經編碼的殘留信號進行解碼。將解碼器30和32的輸出信號傳送至信號合併器34的輸入,該信號合併器34用於對經解碼的脈衝狀信號和經解碼的殘留信號加以合併,以提供解碼的輸出信號36。具體而言,信號解碼器32和脈衝解碼器30有效提供與解碼的音頻信號的同一時刻有關的解碼的音頻信號輸出值的選定部分。 下面將結合圖14對該特徵予以討論。圖14示意性地示出了位於140的信號解碼器32的輸出。如圖14所示,信號解碼器的輸出140是連續的。這意味著,只要存在音頻信號,信號解碼器(以及相應的信號編碼器)就連續工作並且始終提供輸出信號。自然,只有當音頻軌跡(track)結束,不再有需要編碼的輸入信號時,信號解碼器才會同時停止輸出。
圖14中的第二行示出了脈衝解碼器輸出142。具體而言,如圖14所描繪的那樣,由於原始音頻信號在時段143中不含任何平穩分量,因此在時段143中不存在脈衝解碼器輸出。然而,在其他時段中,信號具有平穩分量和/或脈衝狀分量,且脈衝狀分量由脈衝解碼器輸出產生。因此,在時段142中,兩個解碼器均提供關於解碼信號的同一時刻的輸出值。然而,在時段143中,輸出信號只包括殘留信號解碼器輸出,而不包含任何脈衝解碼器所產生的信號。 圖3a示出了採用所謂開環配置的編碼器的優選實施例。脈衝提取器IO包括通用脈衝提取器,用於產生示於線40上的非編碼脈衝信號。脈衝提取器示於10a。脈衝信號40傳送至脈衝編碼器10b,後者最終輸出經編碼的脈衝信號12。線28上的脈衝信號的信息對應於脈衝提取器10a所提取出的非編碼脈衝信號。圖3a中的殘留信號發生器26是用減法器予以實現的,後者用於從音頻信號10中減去線28上的非編碼脈衝信號,從而獲得殘留信號18。 由於基於濾波器組的音頻編碼器特別適用於對不再含有任何脈衝狀部分、或其中脈衝狀部分相對於原始音頻信號8至少有所衰減的殘留信號進行編碼,因而在優選情況下,用基於濾波器組的音頻編碼器實現信號編碼器16。因此,將信號送入設計用於在其輸出端提供部分解碼器輸入信號的第一處理級10a。具體地,分離算法有效地在線40和線18上產生滿足前述條件1 (脈衝編碼器接收脈衝狀信號)和條件2 (殘餘解碼器所用的殘留信號被時域平滑)的輸出信號。因此,如圖3a所示,脈衝提取模塊10a從音頻輸入信號8中提取脈衝信號。 殘留信號18通過刪除音頻輸入中脈衝信號的方式產生。這種刪除可以通過如圖3a所示的減法操作予以實現,然而也可以利用其他方式,比如用可以通過時變縮放或在脈衝狀區域的左右區域間進行內插的方式,由原始音頻信號8導出的非脈衝狀("平坦")信號來替換音頻信號脈衝狀區域的方式予以實現。在隨後的平行編碼級10b、16中,用專用脈衝編碼器10b對脈衝信號(如存在)進行編碼,並在優選情況下,用基於濾波器組的音頻編碼器16對殘留信號進行編碼。 在另一優選實施例中,其中音頻信號的某個時段被檢測為脈衝狀,單純將檢測到的脈衝狀音頻信號時段切除(cut out)的操作以及僅以脈衝編碼器對該時段進行編碼,將導致信號編碼器所用的殘留信號帶有凹口。為了避免產生這種信號編碼器難於處理的非連續性凹口 ,需要合成將被引入"凹口 "的信號。正如稍後將予以討論的那樣,該信號可以是內插信號或原始信號的加權版本或具有特定能量的噪聲信號。 在一實施例中,從脈衝狀"切除"信號部分減去該內插/合成信號,從而只將該減法運算的結果(結果也是脈衝狀信號)傳送至脈衝編碼器。該實施例將確保-在解碼器端-可以將殘餘編碼器的輸出同脈衝解碼器的輸出加以合併,以獲得解碼信號。在該實施例中,始終使用由兩個輸出解碼器獲得的全部信號,並合併以獲得輸出信號,而且不會丟棄兩解碼器中任一解碼器的輸出。 下面,討論除減法以外殘留信號發生器26的其他實施例。 如前所述,可以對音頻信號進行時變縮放。具體而言,一檢測到音頻信號的脈衝狀部分,就可以利用縮放因子值小於0.5,或者甚至小於0. 1的縮放因子對音頻信號的時域採樣進行縮放。這會導致在音頻信號呈脈衝狀的時段內殘留信號能量減小。然而,同僅僅將該脈衝狀時段內的原始音頻信號設置為0相反,殘留信號發生器26可以確保殘留信號不帶任何前已提及的基於濾波器組的音頻編碼器16極難處理的非平穩的"凹口"。另一方面,解碼器端可能不會使用或很小程度上使用在脈衝狀時段內由原始音頻信號同一個很小的縮
17放因子相乘得到的編碼的殘留信號。這一事實可以特定的附加輔助信息14來表示。因此,由這種殘留信號發生器產生的輔助信息比特可以指示,用多大的縮放因子縮減音頻信號中的脈衝狀部分,或者在解碼器端對單獨部分進行解碼後,使用多大的縮放因子來正確地組裝原始音頻信號。 另一種產生殘留信號的方法是切除原始音頻信號的脈衝狀部分,並利用脈衝狀部分起始或終止處的音頻信號對切除部分進行內插,從而提供不再是脈衝狀的連續音頻信號。這種內插還可表示為通常提供關於脈衝編碼、信號編碼或殘留信號發生特性的特定輔助信息比特14。在解碼器端,合併器能夠徹底刪除,或至少在一定程度上衰減內插部分的解碼表示。具體程度或指示可由特定輔助信息14予以表示。 此外,優選情況下,以漸入漸出(fade in ;fade out)方式提供殘留信號。因而,不
應將時變縮放因子突然設置為小的值,而應不斷縮小時變縮放因子,使其最終成為小的值, 並且在脈衝狀部分的終止處或終止處附近應將小的縮放因子逐漸增大至常規模式下的縮
放因子,即增至不具脈衝狀特性的音頻信號部分所使用的小的縮放因子1。 圖3b示出了與圖3a中的編碼器相對應的解碼器,其中用基於濾波器組的音頻解
碼器實現圖2的信號解碼器32,並用逐採樣求和器實現信號合併器34。 或者,假設脈衝解碼器30和基於濾波器組的音頻解碼器32提供頻域或子頻帶域
中的輸出信號,那麼還可以在頻域或子頻帶域內用信號合併器34執行合併。 此外,合併器34並不一定必需執行逐採樣求和,相反,還可以用諸如結合圖1、2和
3a所討論的輔助信息14等輔助信息來控制合併器,以便應用時變縮放操作,以補償編碼器
端的漸入漸出操作,並對已產生於編碼器端的信號部分進行處理,利用比如插入、內插或時
變縮放的方法使殘留信號平坦化。如果殘留信號發生器26有效地執行了如圖3a所示的逐
比特減法運算,那麼解碼端合併器34將不需要任何附加輔助信息,因此執行逐採樣相加,
不執行任何附加處理步驟,如衰減、漸出或信號縮放。 對於濁音語音信號,由人類聲道對激勵信號、即聲門脈衝進行濾波,LPC濾波器可以對濁音語音信號進行反轉。因此,如圖4a所示,針對聲門脈衝的脈衝提取通常可以包括實際脈衝提取級之前的LPC分析,以及計算殘留信號之前的LPC綜合,另外這是開環實現的。 具體而言,音頻信號8輸入至LPC分析方框10a。 LPC分析方框10a產生如圖9a所示的實際的脈衝狀信號。該信號輸入脈衝提取級10c,後者對如圖9a所示的實際的脈衝狀信號進行處理,以便輸出理想的或至少比脈衝提取級10c輸入端的實際脈衝狀信號更理想的脈衝狀信號。接著,將該脈衝信號輸入脈衝編碼器10b。由於脈衝編碼器10b特別適用於這種脈衝狀信號,並且由於線48上的輸入脈衝信號是理想或近似理想的脈衝信號,因此脈衝編碼器10b能夠提供輸入脈衝狀信號的高質量表示。在圖4a的實施例中,將與圖1中"脈衝信號的信息"相對應的、線48上的脈衝信號輸入至LPC綜合方框26b,從而將存在於"LPC域"中的理想脈衝狀信號"變換"回時域。繼而,將LPC綜合方框26b的輸出輸入至減法器26a,以產生殘留信號18,該信號是不再含有線48或28上的理想脈衝信號所表示的脈衝結構的原始音頻信號。因此,圖1中殘留信號發生器26在圖4中是由LPC綜合方框26b和減法器26a予以實現的。 下面將參考圖7a至7e、圖8以及圖9a至9b,更加詳細地對LPC分析10a和LPC綜合26b的功能予以討論。 圖7a示出了線性語音發生系統的模型。該系統採用兩級激勵,即如圖7a所示的用於濁音語音的脈衝序列,以及如圖7d所示的用於清音語音的隨機噪聲。將聲道建模成用於對由聲門模型72產生的圖7c或圖7d的脈衝進行處理的全極點變換濾波器70。全極點傳輸函數可由表示共振峰的少量雙極點諧振器級聯而成。聲門模型72可表示為雙極點低通濾波器,唇端輻射模型74表示為L(z) = l-z—、最後,還包含一個頻譜校正因子76,用以補償較高極點的低頻效應。在個體語音表示中,可以省略頻譜校正,並且本質上唇端輻射函數的0點可以被聲門極點之一所抵消。因此,圖7a的系統可簡化為包含增益級77、前向通道78、反饋通道79以及求和級80在內的圖7b的全極點模型。反饋通道79中包含預測濾波器81,因而如圖7b所示的整個聲源系統合成模型可用以下z域函數予以表示
S(z) = g/(l-A(z)) X(z) 其中,g表示增益,A(z)是由LPC分析確定的預測濾波器,X(z)是激勵信號,S(z)是合成語音輸出。 圖7c和7d給出了採用線性聲源系統模型的濁音和清音語音合成的圖形化時域描述。該系統以及以上等式中的參數是未知的,必需根據一組有限的語音採樣予以確定。A(z)的係數是通過線性預測方式獲得的。在P階前向線性預測器中,語音序列的當前採樣是根據t個過去採樣的線性組合預測得到的。預測器係數可以用諸如Levinson-Durbin算法的公知算法,或常用的自動校正法或反射法予以確定。 圖7e示出了圖4a的LPC分析方框10a的更為詳細的實現。音頻信號輸入至用於確定濾波器信息A(z)的濾波器確定方框。將該信息作為解碼器所需的短期預測信息輸出。在圖4a的實施例中,即脈衝編碼器輸出信號可能需要短期預測信息。然而,如果僅僅需要線84上的預測誤差信號,則不必輸出短期預測信息。然而,實際預測濾波器85需要短期預測信息。在減法器86中,輸入音頻信號的當前採樣,並減去當前採樣的預測值,從而在線84上獲得該採樣的預測誤差信號。圖9a以極為示意性的方式示出了這種預測誤差信號採樣的序列,其中為清楚起見,未示出任何有關AC/DC分量等的問題。因此,可將圖9a看作一種經修正的脈衝狀信號。 下面將對圖8進行更詳盡地討論。圖8同圖4a十分相似,然而更詳細地示出了方框10a和方框26b。此外,還討論了脈衝特徵增強級10c的一般功能。圖8中的LPC分析級10a可以按如圖7e詳細示出的方式予以實現,其中短期預測信息A(z)輸入至綜合級26b,並且此處預測誤差信號即"實際脈衝狀信號"在線84上輸出。如果假設信號是混合信號,即包含語音分量和其他分量,則可以將實際脈衝狀信號看作圖7c和7d中激勵信號的疊加,後者的修正表示形式與圖9a對應。可以觀察到實際脈衝狀信號還含有平穩分量。利用脈衝特徵增強級將這些平穩分量刪除,在其輸出端提供比如類似於圖9b的信號。備選地,方框10c輸出的信號可以是單純的脈衝提取結果,即從圖9a的信號中提取出的起始於峰值左側的某些採樣並終止於峰值右側某些採樣的脈衝,其中圖9a中信號的峰值間的信號採樣被徹底丟棄。這將意味著方框10c將產生同圖7c所示信號相似的信號,而兩者的區別僅在於所產生的脈衝不是理想的DIRAC脈衝,而具有特定的脈衝寬度。此外,脈衝特徵增強級10c能有效地對峰值進行處理,使各峰值具有與圖9b所示的相同的高度和形狀。
方框10c所產生的信號非常適合脈衝編碼器10b,脈衝編碼器將提供僅僅需要少
19量比特的編碼表示,該表示是不存在或只存在極小數量的量化誤差的理想脈衝狀信號表示。 圖8中的LPC綜合級26b可採用同圖7b中具有單位增益或非單位增益的全極點模型完全相同的方式予以實現,從而實現方框26b中所示的傳輸函數,以便在方框10c的輸出端得到時域內的理想脈衝狀信號表示,從而在方框26a中執行諸如減法等逐採樣合併。如此一來,方框26a的輸出將為殘留信號,理想情況下,該殘留信號只包含音頻信號的平穩部分,不再包含音頻信號的脈衝狀部分。在方框10c中執行諸如峰值提取等脈衝特徵增強操作所引入的任何信息損失都不存在問題,其原因在於,在殘留信號中考慮到了這一"誤差",因而這部分信息並未丟失。然而,重要的是,級lOc所提取的脈衝位置準確地表示出音頻信號8中的脈衝位置,因而當在方框26a中進行合併,特別是當利用減法進行合併時,由於方框26a的合併操作的緣故,原始音頻信號8中的脈衝已被刪除,因而不會產生兩個彼此緊鄰的脈衝,而會產生不含任何脈衝的信號。 該特徵是所謂"開環實施例"的優點,但可能是圖4b所示的所謂"閉環實施例"的缺點。圖4b與圖4a的差異在於,脈衝編碼器輸出信號輸入至脈衝解碼器26c,後者是圖1的殘留信號發生器26的一部分。如果脈衝編碼器10b對脈衝位置引入量化誤差,且脈衝解碼器26c的操作未對這些誤差進行補償,那麼方框26a中的減法操作將產生不僅含有音頻信號中的原始脈衝,還含有位於這些原始脈衝附近的、由減法操作引入的附加脈衝的殘留信號。為了避免這種情況,合併器26不僅執行逐採樣減法,而且可以對脈衝解碼器26c的輸出信號加以分析,以實現同步的減法。 可將"閉環"操作看作級聯的分離操作。兩個部分編碼器中的一個(優選是脈衝編碼器)調整用於接受輸入信號的適當部分(優選是聲門脈衝)。然而,將由原始信號同來自第一部分編碼器的解碼信號間的差異信號構成的殘留信號饋入另一部分編碼器16。首先對脈衝信號進行編碼和解碼,並從音頻輸入中減去量化後的輸出,從而以閉環方式產生由基於濾波器組的音頻編碼器進行編碼的殘留信號。 作為一個示例,可以將稍後將予以討論的CELP或ACELP編碼器用作圖4c所示的高效脈衝編碼器。然而,優選情況下,對CELP或ACELP的常規工作方式進行改變,使編碼器只對輸入信號的脈衝部分進行建模,而不試圖對音調或極其平穩信號分量進行建模。換句話說, 一旦花費若干脈衝用以對脈衝信號部分進行建模,那麼分配更多的脈衝對信號其他部分進行建模就適得其反,並且將導致整個輸出信號質量下降。因此,一旦對實際出現的全部脈衝進行了建模,例如如圖10中IOOO所示的適當的預處理器或控制器就終止脈衝分配過程。 此外,優選情況下,構建從脈衝編碼器輸出信號中移除後的殘留信號,使得其在時域內十分平坦,以滿足條件2,從而適於用圖4c的基於濾波器組的編碼器16進行編碼。
如此,圖4c示出了該方法,其中經修改的ACELP編碼器10同時用作脈衝提取器和脈衝編碼器。另外,雖然圖1的殘留信號發生器26是利用減法26a將脈衝狀部分從音頻信號中刪除,然而還可以採用如前所述的諸如平坦化或內插等方法。 在圖4b閉環實現中,信號首先被分離為脈衝信號和殘留信號,然後對兩個信號部分單獨進行編碼,另外圖4b的閉環實現涉及有損編碼,即脈衝編碼器和基於濾波器組的音頻編碼器內的量化,其缺陷在於,必需分別對兩個編碼器的量化誤差加以控制,並分別使兩
20個編碼器量化誤差的感知差異達到最小。這是由於兩個量化誤差在解碼器輸出端相加。
然而,開環實現的優勢在於,脈衝提取級可以產生不因量化誤差導致失真的、乾淨 的脈衝信號。因而脈衝編碼器中的量化不影響殘留信號。 然而,可以將兩種實現加以混合,從而實現一種混合模式。因此,可以同時實現開 環方式和閉環方式中的組件。 高效脈衝編碼器通常對脈衝的各個數值以及位置進行量化。混合開/閉環模式的 一種選項是,使用量化脈衝值和精確的/未經量化的脈衝位置來計算殘留信號。然後,以開 環方式對脈衝位置進行量化。備選地,可以採用迭代CELP綜合分析過程檢測脈衝狀信號, 然而,實現了一種用於對脈衝信號進行實際編碼的、以極小的量化誤差對脈衝位置進行量 化或者不對脈衝位置進行量化的專用編碼工具。 下面將結合圖6對綜合分析CELP編碼器予以討論,以對如圖10至13所示的應用 於這禾中算法的修改予以說明。"Speech Coding :A Tutorial Review,,, Andreas Spanias, IEEE會議記錄,第82巻,第10期,1994年10月,第1541-1582頁中討論了這個CELP編碼 器。圖6所示的CELP編碼器包括長期預測組件60以及短期預測組件62。此外,使用了 64 所指示的碼本。感知加權濾波器W(z)實現於66,誤差最小化控制器實現於68。 s(n)是例 如由LPC分析級10a產生的激勵信號。該信號還可稱為如圖7e中的線84上所示的"預測 誤差信號"。將經感知加權的加權預測誤差信號輸入至減法器69,由減法器69計算方框66 輸出端的合成信號同實際加權預測誤差信號s(w) (n)間的誤差。 一般情況下,用如圖7e所 示的LPC分析級計算短期預測A(z),並根據該信息計算包括長期預測增益g在內的長期預 測信息4(z)以及量化索引,即碼本參考。CELP算法利用比如高斯序列的碼本對激勵進行 編碼。ACELP算法,其中"A"代表"代數",採用以代數方法特別設計而成的碼本。
碼本可以包含長度為某些採樣的若干向量。增益因子g對激勵向量進行縮放,然 後由長期合成濾波器和短期合成濾波器對激勵採樣進行濾波。選出使感知加權均方誤差達 到最小的"最佳"向量。根據圖6所示的綜合分析方案,CELP中的搜索過程顯而易見。
下面將結合圖IO對典型的ACELP算法予以說明,此外圖IO還示出了依照結合圖 4c予以討論的本發明實施例所做出的修改。 出版物"A simulation tool for introducing Algebraic CELP (ACELP) codingconc印ts in a DSP course",教育前沿大會,波士頓,麻薩諸塞州,2002年, Venkatraman Atti和Andreas Spanias,說明了一種用於在大學課程中介紹碼激勵線性預 測(CELP)編碼概念的教學工具。基本的ACELP算法包含若干級,具體包括預處理和LPC 分析級1000、開環基音(pitch)分析級1002、閉環基音分析級1004以及代數(固定)碼本 搜索級1006。 在預處理和LPC分析級,對輸入信號進行高通濾波以及縮放。用截止頻率為 140Hz的二階零極點濾波器進行高通濾波。為了減小定點實現溢出的可能性,執行縮放操 作。然後,用30ms (240個採樣)的非對稱窗對經過預處理的信號進行加窗。同時使其產 生一定程度的重疊。然後,利用Levinson-Durbin算法,根據與經加窗處理後的語音相對 應的自相關係數計算線性預測係數。將LP係數轉換為稍後將予以量化和發送的線譜對。 Levinson-Durbin算法還輸出反射係數,後者用於開環基音分析方框,開環基音分析方框用 於通過搜索加權語音信號自相關最大值並讀取最大值位置處的時延而計算開環基音T。D。根據此開環基音,閉環基音搜索級1004對T。p附近的小範圍內的採樣加以搜索,最終輸出高度 精確的基音時延和長期預測增益。該長期預測增益還用於代數固定碼本搜索,並最終作為 量化增益值和其他參數信息一同輸出。代數碼本由一組交織排列的含有極少非零元素的碼 字構成,具有特定的碼本結構,其中脈衝位置、脈衝數量、交織深度以及用於描述脈衝位置 的比特數均被引用。搜索碼本向量是通過將選定數量的單位脈衝置於找到的位置,並同其 符號相乘予以確定的。根據碼本向量,執行特定優化操作,從全部可用碼向量中選擇最合適 的碼向量。然後,對從最合適的碼向量中得到的脈衝位置以及脈衝時間進行編碼,並將其同 量化增益值一起作為參數編碼信息而發送。 ACELP輸出信號的數據速率取決於分配脈衝的數量。對於少量脈衝,如單個脈衝而 言,獲得低比特率。對於較多的脈衝,比特率可以從7. 4kb/s增至五個脈衝所對應的8. 6kb/ s的結果比特率,直至十個脈衝所對應的12. 6kb/s的比特率。 依照圖4c所討論的本發明的優選實施例,經修改的ACELP編碼器10包含脈衝數 量控制級1000。具體而言,脈衝數量控制級對閉環基音分析輸出的LTP增益進行測量,如果 LTP增益過低,就進行脈衝數量控制。較低的LTP增益說明,經實際處理得到的信號並不十 分像是脈衝序列,而較高的LTP增益說明,實際信號是脈衝序列狀的,因此非常適於ACELP 編碼器。 圖11示出了圖10中方框1000的優選實現。具體而言,方框1010判定LTP增益 是否大於預先確定的LTP增益閾值。倘若如此,就在1011處判定信號是脈衝狀的。繼而如 1012所示,使用預先確定的或固有的脈衝數量。因此,採用直接的(straightforward)脈衝 設定或ACELP編碼算法的直接的脈衝數量控制,而不進行任何修改,然而如方框1013所示, 需要根據過去的信息將該編碼器所引入的脈衝位置變化部分地或完全限定於周期柵格,以 確保消除閉環實施例的缺陷。具體而言,如果長期預測器(LTP)增益較高,即信號是周期性 的且在過去幀中存在脈衝,即信號是脈衝狀的,就通過將可能的脈衝位置限定於由過去的 脈衝位置和LTP延遲所確定的周期柵格的方式,利用代數碼本改善脈衝形狀。具體而言,如 方框1011所示,對於該模式而言,由代數碼本設置的脈衝數量可以保持不變。
如方框1014所示,如判定長期預測器(LTP)增益較低,如方框1015所示,將在碼 本優化中改變脈衝數量。具體而言,對代數碼本進行控制,允許其在放置脈衝時能夠達到如 下效果使剩餘殘餘能量最小,且脈衝位置形成周期大小等於LTP延遲的周期脈衝序列。然 而,當能量差低於特定閾值時就停止該過程,從而導致代數碼本中的脈衝數量是變化的。
下面,為了提供結合方框1015予以說明的脈衝數量變化的優選實施例,對圖12加 以討論。起初,如1016所示,用少量脈衝,如單個脈衝進行優化。然後,如1017所示,以上 述少量脈衝進行優化。在方框1018中計算最佳匹配碼向量的誤差信號能量,並在方框1019 中同誤差能量閾值(THR)加以比較。閾值是預先確定的,且可以適當設置為能夠確保ACELP 編碼器僅以特定精度對信號的脈衝部分進行編碼而不試圖對信號的非脈衝部分進行編碼 的數值,其中如果不存在圖10的本發明的控制器IOOO,編碼器將試圖對信號的非脈衝部分 進行編碼。 如果步驟1019判定滿足閾值,就停止該過程。然而,如果方框1019中的比較判定 不滿足誤差信號能量閾值,如1020所示,令脈衝數量增加比如1個。然後,重複執行步驟 1017、 1018和1019,然而利用更多數量的脈衝而執行。繼續執行該過程,直至滿足最終的準則,如滿足所允許的脈衝的最大數量。然而,由於閾值準則的緣故,該過程一般會終止,因而 非脈衝狀信號的脈衝數量通常小於脈衝狀信號情況下編碼算法所分配的脈衝數量。
圖13示出了 ACELP編碼器的另一改進方案。在這種編碼器中,如1300所示,對濁 音/清音進行判斷。然後這種編碼器根據濁音/清音的判斷結果,將第一碼本用於濁音部 分,第二碼本用於清音部分。依照本發明的實施例,如果方框1300檢測到濁音部分,那麼如 1310所示,CELP綜合分析過程僅用於確定脈衝編碼信息。然而,如果CELP編碼器檢測到清 音部分,則不計算或至少可以忽略這些清音部分的CELP編碼器輸出,或者不將其包含於經 編碼的脈衝信號當中。依照本發明,用殘餘編碼器對這些清音部分進行編碼,因而這種編碼 器的改進方案包括如1320所示的,忽略編碼器對於清音部分的輸出。 優選情況下,將本發明合併於圖17所示的帶動態可變畸變LPC濾波器的切換編碼 概念。脈衝編碼器使用LPC濾波器,其中脈衝編碼器以方框1724表示。如果基於濾波器組 的殘餘編碼器包含預/後濾波結構,那麼由於未對音頻輸入執行除應用預濾波1722外的處 理,而為了向與圖1殘留信號編碼器16相對應的通用音頻編碼器1726提供輸入應當執行 上述處理,因而可以將圖17c中未示出的統一時頻表示用於脈衝編碼器1724和殘餘編碼 器。這樣,就能夠避免在編碼器端使用兩個分析濾波器,在解碼器端使用兩個綜合濾波器。 如針對圖17c予以說明的那樣,這可以包括動態調節通用濾波器的畸變特性。因此,可以通 過在將信號輸入至通用音頻編碼器1726前對預濾波器1722輸出信號加以處理,並另外通 過在將音頻信號輸入殘餘激勵編碼器1724前從音頻信號中提取脈衝的方式,將本發明實 現於圖17c的框架之中。因此,必需將方框10c、26b和26a置於時變畸變濾波器1722的輸 出端,和與圖4a中的脈衝編碼器10b相對應的殘餘/激勵編碼器1724的輸入端,以及與圖 4a中的基於濾波器組的音頻編碼器16相對應的通用音頻編碼器1726的輸入端。自然,還 可將圖4b的閉環實施例額外實現於圖17c的編碼系統中。 優選情況下,可以採用圖1的心理聲學控制信號編碼器16。優選情況下,在圖15 中實現比如同圖16a中相應方框類似的心理聲學模型1602,以便將其輸入連至音頻信號8。 這樣做能確保線1500上的心理聲學掩蔽閾值信息反映原始音頻信號而不是殘留信號發生 器26輸出端的殘留信號的狀態。因此,量化器1604a受控於在計算殘留信號18前由原始 音頻信號導出的、而不是由實際量化信號導出的掩蔽閾值信息1500。由於還可以利用脈衝 狀信號部分的掩蔽效應,從而能夠進一步降低比特率,因此優選情況下,上述過程優於心理 聲學模型輸入至殘留信號發生器26輸出的連接。然而,另一方面,由於殘留信號是實際音 頻信號,因而具有掩蔽閾值,因此心理聲學模型輸入至殘留信號發生器18的輸出的連接也 可能是有用的。然而,雖然對於某些應用而言這種實現是可行並且有用的,但是同將原始音 頻信號饋入心理聲學模型1602的情形相比,這種實現將產生較高的比特率。
總而言之,本發明的優選實施例具有若干方面,可將其概括如下。
編碼端信號分離方法;始終存在基於濾波器組的層;語音增強為可選層;在編碼 前進行信號分析(脈衝提取);脈衝編碼器只處理輸入信號的特定分量;脈衝編碼器經調整 只處理脈衝;以及基於濾波器組的層是未經修改的基於濾波器組的編碼器。解碼端始終 存在基於濾波器組的層;以及語音增強為可選層。 —般情況下,如果脈衝(例如聲門脈衝激勵)的基本聲源模型非常適合輸入信號, 那麼除基於濾波器組的編碼模式之外還可以選擇脈衝編碼方法,可以在任何便利的時刻開始進行脈衝編碼;如果脈衝(例如聲門脈衝激勵)的基本聲源模型非常適合輸入信號,那麼 除基於濾波器組的編碼模式之外還可以選擇脈衝編碼方法;並且這不涉及對兩種編解碼器 率失真行為的分析,因此在編碼處理方面異常高效。 優選的脈衝編碼或脈衝序列編碼方法是"Speech coding below 4KB/ s usingwaveform interpolation", W. B. Kleijn, Globecom' 91, 第1879至1883頁或 "Aspeech coder based on decomposition of characteristic waveforms", W. B. Kleijn 和J. Haagen, ICASSP 1995,第508至511頁中所述的波形內插技術。 上述實施例僅僅用於說明本發明的原理。應當理解的是,對於所屬領域技術人員 而言,對此處說明的配置以及細節所做的修改和變形是顯而易見的。因而,本意上只受限於 所附專利權利要求的範圍,而不局限於此處以對實施例進行解釋說明的方式所表示的具體 細節。 根據發明方法的特定實現需要,可以硬體或軟體實現本發明的方法。可用數字存 儲介質,特別是其上存儲著同可編程計算機系統協同工作從而實現發明方法的電可讀控制 信號的磁碟、DVD或CD。概括而言,因此本發明可以是含有存儲在機器可讀承載介質上的程 序代碼的電腦程式產品,其中當計算機運行電腦程式產品時,運行程序代碼從而實現 發明方法。換句話說,因此發明方法可以是含有用於在計算機運行電腦程式時實現本發 明方法中至少 一個方法的程序代碼的電腦程式。
參考文獻 [EdlOO] B. Edler, G. Schul ler : "Audio coding using a psychoacoustic pre-andpost-filter", ICASSP 2000,第二巻,2000年6月5-9日,第II881-II884頁,第二 巻; [Sch02]G. Schuller, B. Yu, D. Huang禾口 B. Edler, "Perc印tual Audio Coding usingAdaptive pre-and Post-Filters and Lossless Compression,,, IEEE語音禾口音步員處 理學報,2002年9月,第379-390頁; [Zwi] Zwicker, E. 禾口 H. Fasti , "Psychoacoustics, Facts and models", SpringerVerlag,禾白林; [KHL97]M. Kar jalainen, A. 戰rma, U. K丄aine, "Realizable warped IIR filtersand their propertier", IEEE ICASSP 1997,第2205-2208頁,第3巻
[SA99] J. 0. Smith, J. S. Abel, "Bark and ERB Bilinear Transforms", IEEE語音 和音頻處理學報,第7巻,第6期,1999年11月,第697-708頁 [HKS00] H汪rma, Aki ;Karjalainen, Matti ;Savioja, Lauri ; Valim汪ki, Vesa ;Laine, Unto K. ;Huopaniemi, Jyri,"Frequency-warped Signal Processing for AudioA卯lications", AES期刊,第48巻,第11期,第1011-1031頁;2000年11月
[S0B03]E. Schui jers, W. Oomen, B. den Brinker, J. Breebaart, "Advances inParametric Coding for High-Quality Audio",第114屆大會,阿姆斯特丹,2003年荷 蘭,預印本5852 ; [WSKH05]S. Wabnik, G. Schuller, U. Mmer, J. Hirschfeld, "Frequency Warpingin Low DelayAudio Coding", IEEE聲學、語音、和信號處理國際會議,2005年3月
2418-23日,費城,美國 [TMK94]K. Tokuda, H. Matsumura, T. Kobayashi禾口 S. Imai, "Speech codingbased on ad即tive mel-c印stral analysis, ,, IEEE ICAS SP' 94會議,第197-200頁,1994年3
月 [KTK95]K. Koishida, K. Tokuda, T. kobayashi禾口 S. Imai,"CELP coding based o騰l-c印stral analysis, ,, IEEE ICASSP' 94會議,第33_36頁,1995 ;
[HLM99]Aki Harma, Unto K丄aine, Matti Karjalainen, "Warped low-delay CELPfor wideband audio coding",第17屆國際AES大會,佛羅倫斯,義大利,1999 ;
[BLS05]B. Bessette, R. Lefebvre, R. Salami, "UNIVERSAL SPEECH/AUDI0C0DING USING HYBRID ACELP/TCX TECHNIQUES, " IEEE ICASSP 2005會議,第301-304頁,2005 ;
[Gri97]Gri11, B. ,"A Bit Rate Scalable Perc印tual Coder for MPEG-4 Audio",第103屆AES大會,紐約,1997,預印本4620 ;以及 [Her02] J. Herre, H. Purnhagen "'General Audio Coding", 見F. Pereira, T. Ebrahimi(編輯),"The MPEG-4 Book", Prentice Hall MSC Multimedia Series, 2002. ISBN 0-13-061621-4。
2權利要求
一種音頻編碼器,用於對含脈衝狀部分和平穩部分的音頻信號(8)進行編碼,其特徵在於包括脈衝提取器(10),用於從音頻信號中提取脈衝狀部分,所述脈衝提取器(10)包含脈衝編碼器(10b),用於對脈衝狀部分進行編碼以獲得編碼的脈衝狀信號(12);信號編碼器(16),用於對從音頻信號導出的殘留信號進行編碼,以獲得編碼的殘留信號(20),所述殘留信號從音頻信號中導出,使得音頻信號中的脈衝狀部分得以減小,或從音頻信號中消除脈衝狀部分;輸出接口(22),用於輸出編碼的脈衝狀信號(12)以及編碼的殘留信號(20),從而提供編碼的信號(24)。
2. 根據權利要求1所述的音頻編碼器,其特徵在於對脈衝編碼器(10b)和信號編碼 器(16)進行設計,使得脈衝編碼器(10b)比信號編碼器(16)更適合脈衝狀信號,而信號編 碼器(16)比脈衝編碼器(10b)更適合平穩信號。
3. 根據權利要求1或2所述的音頻編碼器,其特徵在於還包括殘留信號發生器(26), 所述殘留信號發生器適於接收音頻信號(8)以及與提取的脈衝信號部分有關的信息(28), 還適於輸出不含提取的信號部分的殘留信號(18)。
4. 根據權利要求3所述的音頻編碼器,其特徵在於所述殘留信號發生器(26)包含減 法器(26a),用於從音頻信號(8)中減去提取的信號部分(28),從而獲得殘留信號(18)。
5. 根據權利要求3所述的音頻編碼器,其特徵在於 所述脈衝提取器(10)提取脈衝信號部分的參數表示;以及所述殘留信號發生器(26)利用所述參數表示來合成(26c)波形表示,並從音頻信號 (8)中減去(26a)所述波形表示。
6. 根據權利要求3所述的音頻編碼器,其特徵在於所述殘留信號發生器(26)包含脈 衝解碼器(26c),用於計算解碼的脈衝信號;以及減法器(26a),用於從音頻信號(8)中減去 解碼的脈衝信號。
7. 根據權利要求3所述的音頻編碼器,其特徵在於所述脈衝提取器(10)包含LPC分 析級(10a),用於對音頻信號(8)進行LPC分析,從而獲得預測誤差信號(84),所述脈衝提 取器(10)包含預測誤差信號處理器(10c),用於對預測誤差信號進行處理,以增強該信號 的脈衝狀特徵,以及其中,殘留信號發生器(26)利用增強的預測誤差信號執行LPC綜合(26b),並將該LPC 綜合所產生的信號從音頻信號中減去,以獲得殘留信號(18)。
8. 根據權利要求1到7中任意一項權利要求所述的音頻編碼器,其特徵在於所述脈 衝提取器(10)包含脈衝/非脈衝決策級(1300),檢測為脈衝狀部分的音頻信號部分被提供 至脈衝編碼器(10b),而不提供至信號編碼器(16)。
9. 根據權利要求8所述的音頻編碼器,其特徵在於脈衝/非脈衝級是濁音/清音決 策級。
10. 根據權利要求1到9中任意一項權利要求所述的音頻編碼器,其特徵在於音頻信 號具有共振峰結構和精細結構,其中脈衝提取器(10)對音頻信號進行處理,以使經過處理 的信號僅表示精細結構,並且脈衝提取器(10)對精細結構信號進行處理,使得精細結構信 號的脈衝狀特徵得以增強(10c),以及由脈衝編碼器(10b)對增強的精細結構信號進行編碼。
11. 根據權利要求1到10中任意一項權利要求所述的音頻編碼器,其特徵在於信號 編碼器(16)是基於變換或基於濾波器組的通用音頻編碼器,並且脈衝編碼器是基於時域 的編碼器。
12. 根據權利要求1到11中任意一項權利要求所述的音頻編碼器,其特徵在於所述脈衝提取器(10)包括ACELP編碼器(IO),所述ACELP編碼器(10)包含用於獲取短期預測 器信息的LPC分析級(1000)、用於獲取基音信息以及長期預測器增益的基音確定級(1002、 1004)、以及用於確定與殘留信號的參數表示所用的多個脈衝的脈衝位置有關的碼本信息 的碼本級(1006),其中,脈衝提取器(10)根據長期預測增益對ACELP編碼器(10)進行控制 (1000),從而為第一長期預測增益分配可變數量的脈衝或為第二長期預測增益分配固定數 量的脈衝,其中第二長期預測增益大於第一長期預測增益。
13. 根據權利要求12所述的音頻編碼器,其特徵在於脈衝的可變數量的最大值等於 或小於固定數量。
14. 根據權利要求12或13所述的音頻編碼器,其特徵在於所述脈衝提取器(10) 對ACELP編碼器進行控制(IOOO),從而執行從少量脈衝開始(1016)逐漸到更多數量脈衝 (1020)的漸進分配,而且當誤差能量低於預先確定的能量閾值(1019)時,停止所述漸進分配。
15. 根據權利要求12到14中任意一項權利要求所述的音頻編碼器,其特徵在於所述 脈衝提取器(10)對ACELP編碼器進行控制(1000),使得在長期預測器增益高於閾值的情況 下,確定可能的脈衝位置是在基於來自先前幀的至少一個脈衝位置的柵格中(1013)。
16. 根據權利要求3所述的音頻編碼器,其特徵在於所述脈衝編碼器(10b)是計算 脈衝位置和量化脈衝值的碼激勵線性預測(CELP)編碼器,所述殘留信號發生器(26)利用 未經量化的脈衝位置和量化脈衝值,來計算為獲得殘留信號而從音頻信號(8)中減去的信 號。
17. 根據權利要求3所述的音頻編碼器,其特徵在於所述脈衝提取器(10)包括CELP 綜合分析過程,用於確定預測誤差信號中未經量化的脈衝位置,以及,脈衝編碼器(10b)以 比量化的短期預測信息的精度更高的精度,對脈衝位置進行編碼。
18. 根據權利要求3所述的音頻編碼器,其特徵在於所述脈衝提取器(10)確定信號 部分為脈衝狀,殘留信號發生器(26)利用具有縮減結構或非脈衝狀結構的合成信號,來替 代音頻信號的所述信號部分。
19. 根據權利要求18所述的音頻編碼器,其特徵在於殘留信號發生器(26)通過根據 脈衝狀信號和非脈衝狀信號之間的邊界的外插,來計算合成信號。
20. 根據權利要求18所述的音頻編碼器,其特徵在於殘留信號發生器通過使用小於 0. 5的加權因子對脈衝狀部分中的音頻信號進行加權,來計算合成信號。
21. 根據權利要求1到20中任意一項權利要求所述的音頻編碼器,其特徵在於信號 編碼器(16)是心理聲學驅動的音頻編碼器,其中用於對音頻值進行量化(1604a)的心理 聲學掩蔽閾值(1500)是利用音頻信號(8)計算得出的,而且信號編碼器(16)將殘留信號 轉換為頻譜表示(1600),並利用心理聲學掩蔽閾值(1500)對所述頻譜表示的值進行量化 (1604a)。
22. 根據權利要求1到21中任意一項權利要求所述的音頻編碼器,其特徵在於所述 脈衝提取器(10)從音頻信號中提取實際的脈衝狀信號,脈衝提取器(10)對實際的脈衝狀 信號進行處(10c),以獲得增強的脈衝狀信號,所述增強的脈衝狀信號是比實際的脈衝狀信 號更為理想的脈衝狀信號,其中,脈衝編碼器(10b)對增強的脈衝狀信號進行編碼,以獲得經編碼的增強的脈衝 狀信號,以及其中,音頻編碼器包含殘留信號計算器(26),用於從音頻信號中減去脈衝狀信號、或經 頻譜成形的增強的脈衝狀信號、或者通過對編碼的脈衝狀信號進行解碼而導出的信號,以 獲得殘留信號。
23. 根據權利要求1到22中任意一項權利要求所述的音頻編碼器,其特徵在於所述 脈衝提取器用於提取脈衝序列,以及其中,相比於非脈衝序列狀信號,脈衝編碼器適於以更高的效率或更低的編碼誤差來 對脈衝序列狀信號進行編碼。
24. —種用於對含脈衝狀部分和平穩部分的音頻信號(8)進行編碼的方法,其特徵在 於包括從音頻信號中提取(10)脈衝狀部分,其中脈衝提取器包含脈衝編碼器,用於對脈衝狀 部分進行編碼,以獲得編碼的脈衝狀信號;對從音頻信號導出的殘留信號進行編碼(16),以獲得編碼的殘留信號(20),從音頻信 號中導出殘留信號,使得音頻信號中的脈衝狀部分得以減小,或從音頻信號中消除脈衝狀 部分;以及通過發送或存儲,輸出編碼的脈衝狀信號(12)以及編碼的殘留信號(20),以提供編碼 的信號(24)。
25. —種解碼器,用於對具有編碼的脈衝狀信號(12)和編碼的殘留信號(20)的編碼的 音頻信號(24)進行解碼,其特徵在於包括脈衝解碼器(30),使用解碼算法對編碼的脈衝狀信號進行解碼,所述解碼算法適合於 為產生編碼的脈衝狀信號而設計的編碼算法;信號解碼器(32),使用解碼算法對編碼的殘留信號(20)進行解碼,所述解碼算法適合 於為產生編碼的殘留信號(20)而設計的編碼算法;以及信號合併器(34),將解碼的脈衝狀信號和解碼的殘留信號進行合併,從而提供解碼的 輸出信號(36),其中,信號解碼器(32)和脈衝解碼器(30)提供與解碼的信號的同一時刻有 關的輸出值。
26. 根據權利要求25所述的解碼器,其特徵在於信號解碼器(32)連續接收並處理信 號值,使得解碼的殘留信號是連續信號(140),以及其中,脈衝解碼器(30)只在指定時段(142)中接收輸入數據並提供解碼的脈衝信號, 所述指定時段(142)被僅有信號解碼器提供輸出數據的時段(143)所分隔,從而解碼的輸 出信號具有編碼器輸出信號等同於解碼的殘留信號的時段(143),並具有解碼的輸出信號 包含解碼的殘留信號和解碼的脈衝狀信號的時段(142)。
27. 根據權利要求25或26中任意一項權利要求所述的解碼器,其特徵在於脈衝解碼 器(30)是時域解碼器,而信號解碼器(32)是基於濾波器組或基於變換的解碼器。
28. 根據權利要求25到27中任意一項權利要求所述的解碼器,其特徵在於編碼的音 頻信號包含輔助信息(14),所述輔助信息(14)表示同關於殘留信號的編碼或解碼特徵有 關的信息,以及其中,合併器根據輔助信息(14),對解碼的殘留信號和解碼的脈衝狀信號進行合併。
29. 根據權利要求25到27中任意一項權利要求所述的解碼器,其特徵在於輔助信息 (14)指示在脈衝狀部分殘留信號中已生成了合成信號,以及其中,合併器(32)對輔助信息予以響應,在脈衝狀部分中抑制或至少是衰減解碼的殘 留信號。
30. 根據權利要求25到27中任意一項權利要求所述的解碼器,其特徵在於輔助信息 指示,在將脈衝狀信號從音頻信號中減去之前,已利用衰減因子對脈衝狀信號進行了衰減, 以及其中,合併器(34)根據衰減因子對解碼的殘留信號進行衰減,並使用衰減的解碼信號 以同解碼的脈衝狀信號進行合併。
31. 根據權利要求25到30中中任意一項權利要求所述的解碼器,其特徵在於編碼的 脈衝狀信號包括脈衝序列狀信號,以及其中,用於對編碼的脈衝狀信號進行解碼(30)的解碼器使用適合於編碼算法的解碼 算法,相比於非脈衝序列狀信號,所述編碼算法適於以更高的效率或更低的編碼誤差對脈 衝序列狀信號進行編碼。
32. —種用於對具有編碼的脈衝狀信號(12)和編碼的殘留信號(20)的編碼的音頻信 號(24)進行解碼的方法,其特徵在於包括使用解碼算法對編碼的脈衝狀信號進行解碼(30),所述解碼算法適合於為產生編碼的 脈衝信號而設計的編碼算法;使用解碼算法對編碼的殘留信號(20)進行解碼(32),所述解碼算法適合於為產生編 碼的殘留信號(20)而設計的編碼算法;以及將解碼的脈衝狀信號同解碼的殘留信號進行合併(34),以提供解碼的輸出信號(36), 其中,解碼步驟(32、30)提供與解碼的信號的同一時刻有關的輸出值。
33. —種編碼的音頻信號(24),其特徵在於具有編碼的脈衝狀信號(12)、編碼的殘留 信號(20)以及輔助信息(14),所述輔助信息(14)表示同關於殘留信號或脈衝狀信號的編 碼或解碼特徵有關的信息。
34. —種具有程序代碼的電腦程式,其特徵在於當所述電腦程式在處理器上運 行時,所述程序代碼執行根據權利要求24或32所述的方法。
全文摘要
本發明公開了一種用於對音頻信號進行編碼的音頻編碼器,包含用於從音頻信號中提取脈衝狀部分的脈衝提取器(10)。對所述脈衝狀部分進行編碼,並將其傳送至輸出接口(22)。此外,音頻編碼器還包含信號編碼器(16),用於對從音頻信號導出的殘留信號進行編碼,使殘餘音頻信號中的脈衝狀部分得以減小或消除。輸出接口(22)同時傳送兩種編碼信號,即編碼的脈衝信號(12)和編碼的殘留信號(20),以供傳輸或存儲。在解碼器端,分別對兩個信號部分進行解碼,然後對其進行合併,以獲得解碼的音頻信號。
文檔編號G10L19/14GK101743586SQ200880019699
公開日2010年6月16日 申請日期2008年6月5日 優先權日2007年6月11日
發明者B·格裡爾, G·福克斯, J·赫爾, N·裡特爾巴克, R·蓋爾格, S·拜耳, U·卡雷梅爾 申請人:弗勞恩霍夫應用研究促進協會

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀