新四季網

用於低位速率應用的解碼方案選擇的製作方法

2023-09-19 06:44:15 2

專利名稱:用於低位速率應用的解碼方案選擇的製作方法
技術領域:
本發明涉及語音信號的處理。
背景技術:
通過數位技術來發射音頻信號(例如,話音和音樂)尤其在長途電話、例如IP話音(也稱為VoIP,其中IP表示網際網路協議)等包交換式電話和例如蜂窩式電話等數字無線電電話中已變得普遍。此激增已產生對減小用以經由發射信道傳送話音通信的信息量同時維持經重建的語音的感知質量的興趣。舉例來說,需要最佳地利用可用無線系統帶寬。有效率地使用系統帶寬的一種方式為使用信號壓縮技術。對於載運語音信號的無線系統來說, 出於此目的通常使用語音壓縮(或「語音解碼」)技術。
經配置以通過提取與人類語音產生模型有關的參數來壓縮語音的裝置通常稱為聲碼器、「音頻解碼器」或「語音解碼器」。(本文中可互換地使用這三個術語。)語音解碼器通常包括編碼器和解碼器。編碼器通常將傳入的語音信號(表示音頻信息的數位訊號) 劃分成稱為「幀」的時間段,分析每一幀以提取特定相關參數,且將所述參數量化成經編碼的幀。經編碼的幀經由發射信道(即,有線或無線網絡連接)發射到包括解碼器的接收器。 解碼器接收並處理經編碼的幀、將其解量化以產生參數,且使用經解量化的參數來重新建立語音幀。
在典型的通話中,每一說話者在約百分之六十的時間內靜寂。語音編碼器通常經配置以區別語音信號的含有語音的幀(「活動幀」)與語音信號的僅含有靜默或背景噪聲的幀(「非活動幀」)。此編碼器可經配置以使用不同解碼模式和/或速率來編碼活動幀與非活動幀。舉例來說,語音編碼器通常經配置以與編碼活動幀相比使用較少位來編碼非活動幀。語音解碼器可將較低位速率用於非活動幀以支持在極少甚至無感知到的質量損失的情況下以較低平均位速率傳送語音信號。
用以編碼活動幀的位速率的實例包括每幀171個位、每幀80個位和每幀40個位。 用以編碼非活動幀的位速率的實例包括每幀16個位。在蜂窩式電話系統(尤其依照如由電信工業協會(維吉尼亞州阿靈頓市;Arlington,VA)發布的臨時標準(IS)_95或類似工業標準的系統)的情形下,這四個位速率還分別稱作「全速率」、「半速率」、「四分之一速率」和「八分之一速率」。

發明內容
一種根據一個配置對語音信號幀進行編碼的方法包括計算所述幀的殘餘的峰值能量,以及計算所述殘餘的平均能量。此方法包括基於所述所計算的峰值能量與所述所計算的平均能量之間的關係從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合選擇一個解碼方案,以及根據所述選定的解碼方案對所述幀進行編碼。在此方法中,根據所述無差別音調原型解碼方案對所述幀進行編碼包括產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述幀的所估計的音調周期的表不。
一種根據另一配置對語音信號幀進行編碼的方法包括估計所述幀的音調周期,以及計算(A)基於所述所估計的音調周期的第一值與(B)基於所述幀的另一參數的第二值之間的關係的值。此方法包括基於所述所計算的值從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合選擇一個解碼方案,以及根據所述選定的解碼方案對所述幀進行編碼。在此方法中,根據所述無差別音調原型解碼方案對所述幀進行編碼包括產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述所估計的音調周期的表示。
本文中還明確地預期並揭示經配置以執行此類方法的設備和其它裝置,以及具有在由處理器執行時致使所述處理器執行此類方法的元素的指令的計算機可讀媒體。


圖1展示語音信號的有聲段的實例。
圖2A展示語音段的隨時間而變的振幅的實例。
圖2B展示LPC殘餘的隨時間而變的振幅的實例。
圖3A展示根據一般配置的語音編碼方法MlOO的流程圖。
圖3B展示編碼任務ElOO的實施方案E102的流程圖。
圖4展示幀中的特徵的示意性表示。
圖5A展示編碼任務E200的實施方案E202的圖。
圖5B展示方法MlOO的實施方案MllO的流程圖。
圖5C展示方法MlOO的實施方案M120的流程圖。
圖6A展示根據一般配置的設備MF100的框圖。
圖6B展示裝置FE100的實施方案FE102的框圖。
圖7A展示根據一般配置解碼語音信號的激勵信號的方法M200的流程圖。
圖7B展示解碼任務DlOO的實施方案D102的流程圖。
圖8A展示根據一般配置的設備MF200的框圖。
圖8B展示用於解碼的裝置FD100的實施方案FD102的流程圖。
圖9A展示語音編碼器AElO和對應的語音解碼器ADlO。
圖9B展示語音編碼器AElO的例項(instance) AElOa、AElOb和語音解碼器ADlO的例項 ADIOa、ADlOb。
圖IOA展示根據一般配置用於對語音信號的幀進行編碼的設備AlOO的框圖。
圖IOB展示編碼器100的實施方案102的框圖。
圖IlA展示根據一般配置的用於解碼語音信號的激勵信號的設備A200的框圖。
圖IlB展示第一幀解碼器300的實施方案302的框圖。
圖12A展示語音編碼器AElO的多模式實施方案AE20的框圖。
圖12B展示語音解碼器ADlO的多模式實施方案AD20的框圖。
圖13展示殘餘產生器RlO的框圖。
圖14展示用於衛星通信的系統的示意圖。
圖15A展示根據一般配置的方法M300的流程圖。
圖15B展示任務LlOO的實施方案L102的框圖。
圖15C展示任務L200的實施方案L202的流程圖。
圖16A展示由任務L120進行的搜索的實例。
圖16B展示由任務L130進行的搜索的實例。
圖17A展示任務L210的實施方案L210a的流程圖。
圖17B展示任務L220的實施方案L220a的流程圖。
圖17C展示任務L230的實施方案L230a的流程圖。
圖18A到圖18F說明任務L212的反覆的搜索操作。
圖19A展示用於任務L214的測試條件的表。
圖19B和圖19C說明任務L222的反覆的搜索操作。
圖20A說明任務L232的搜索操作。
圖20B說明任務L234的搜索操作。
圖20C說明任務L232的反覆的搜索操作。
圖21展示任務L300的實施方案L302的流程圖。
圖22A說明任務L320的搜索操作。
圖22B和圖22C說明任務L320的替代搜索操作。
圖23展示任務L330的實施方案L332的流程圖。
圖24A展示可供任務L334的實施方案使用的四組不同測試條件。
圖24B展示任務L338的實施方案L338a的流程圖。
圖25展示任務L300的實施方案L304的流程圖。
圖沈展示用於語音編碼器AElO的實施方案的各種解碼方案的位分配的表。
圖27A展示根據一般配置的設備MF300的框圖。
圖27B展示根據一般配置的設備A300的框圖。
圖27C展示根據一般配置的設備MF350的框圖。
圖27D展示根據一般配置的設備A350的框圖。
圖觀展示根據一般配置的方法M500的流程圖。
圖29A到圖29D展示160位幀的各個區域。
圖30A展示根據一般配置的方法M400的流程圖。
圖30B展示方法M400的實施方案M410的流程圖。
圖30C展示方法M400的實施方案M420的流程圖。
圖31A展示包模板PTlO的一個實例。
圖31B展示另一包模板PT20的實例。
圖31C說明部分交錯的兩組不相交的位位置。
圖32A展示方法M400的實施方案M430的流程圖。
圖32B展示方法M400的實施方案M440的流程圖。
圖32C展示方法M400的實施方案M450的流程圖。
圖33A展示根據一般配置的設備MF400的框圖。
圖3!3B展示設備MF400的實施方案MF410的框圖。
圖33C展示設備MF400的實施方案MF420的框圖。
圖34A展示設備MF400的實施方案MF430的框圖。
圖34B展示設備MF400的實施方案MF440的框圖。
圖34C展示設備MF400的實施方案MF450的框圖。
圖35A展示根據一般配置的設備A400的框圖。
圖35B展示設備A400的實施方案A402的框圖。
圖35C展示設備A400的實施方案A404的框圖。
圖35D展示設備A400的實施方案A406的框圖。
圖36A展示根據一般配置的方法M550的流程圖。
圖36B展示根據一般配置的設備A560的框圖。
圖37展示根據一般配置的方法M560的流程圖。
圖38展示方法M560的實施方案M570的流程圖。
圖39展示根據一般配置的設備MF560的框圖。
圖40展示設備MF560的實施方案MF570的框圖。
圖41展示根據一般配置的方法M600的流程圖。
圖42A展示將滯後範圍均勻劃分成頻段的實例。
圖42B展示將滯後範圍非均勻劃分成頻段的實例。
圖43A展示根據一般配置的方法M650的流程圖。
圖4 展示方法M650的實施方案M660的流程圖。
圖43C展示方法M650的實施方案M670的流程圖。
圖44A展示根據一般配置的設備MF650的框圖。
圖44B展示設備MF650的實施方案MF660的框圖。
圖44C展示設備MF650的實施方案MF670的框圖。
圖45A展示根據一般配置的設備A650的框圖。
圖45B展示設備A650的實施方案A660的框圖。
圖45C展示設備A650的實施方案A670的框圖。
圖46A展示方法M650的實施方案M680的流程圖。
圖46B展示設備MF650的實施方案MF680的框圖。
圖46C展示設備A650的實施方案A680的框圖。
圖47A展示根據一般配置的方法M800的流程圖。
圖47B展示方法M800的實施方案M810的流程圖。
圖48A展示方法M800的實施方案M820的流程圖。
圖48B展示根據一般配置的設備MF800的框圖。
圖49A展示設備MF800的實施方案MF810的框圖。
圖49B展示設備MF800的實施方案MF820的框圖。
圖50A展示根據一般配置的設備A800的框圖。
圖50B展示設備A800的實施方案A810的框圖。
圖51展示用於幀分類方案中的特徵的列表。
圖52展示用於計算基於音調的正規化自相關函數的程序的流程圖。
圖53為說明幀分類方案的高階流程圖。
圖M為說明幀分類方案中的狀態之間的可能過渡的狀態圖。
圖55到圖56、圖57到圖59以及圖60到圖63展示幀分類方案的三個不同程序的代碼列表。
圖64到圖71B展示幀重新分類的條件。
圖72展示語音編碼器AE20的實施方案AE30的框圖。
圖73A展示語音編碼器AElO的實施方案AE40的框圖。
圖7 展示周期性幀編碼器E70的實施方案E72的框圖。
圖74展示周期性幀編碼器E72的實施方案E74的框圖。
圖75A到圖75D展示可能需要使用過渡幀解碼模式的一些典型幀序列。
圖76展示代碼列表。
圖77展示用於取消使用過渡幀解碼的決策的四個不同條件。
圖78展示根據一般配置的方法M700的圖。
圖79A展示根據一般配置的方法M900的流程圖。
圖79B展示方法M900的實施方案M910的流程圖。
圖80A展示方法M900的實施方案M920的流程圖。
圖80B展示根據一般配置的設備MF900的框圖。
圖81A展示設備MF900的實施方案MF910的框圖。
圖81B展示設備MF900的實施方案MF920的框圖。
圖82A展示根據一般配置的設備A900的框圖。
圖82B展示設備A900的實施方案A910的框圖。
圖83A展示設備A900的實施方案A920的框圖。
圖8 展示根據一般配置的方法M950的流程圖。
圖84A展示方法M950的實施方案M960的流程圖。
圖84B展示方法M950的實施方案M970的流程圖。
圖85A展示根據一般配置的設備MF950的框圖。
圖85B展示設備MF950的實施方案MF960的框圖。
圖86A展示設備MF950的實施方案MF970的框圖。
圖86B展示根據一般配置的設備A950的框圖。
圖87A展示設備A950的實施方案A960的框圖。
圖87B展示設備A950的實施方案A970的框圖。
參考標記可能出現在一個以上圖中以指示相同結構。
具體實施例方式如本文中所描述的系統、方法和設備(例如,方法M100、M200、M300、M400、M500、 M550、M560、M600、M650、M700、M800、M900和/或M950)可用以支持處於低恆定位速率或處於低最大位速率(例如,每秒二千位)的語音解碼。此受約束位速率語音解碼的應用包括經由衛星鏈路的話音電話的發射(也稱為「衛星上話音」),其可用以支持缺少蜂窩式或有線電話的通信基礎架構的偏遠地區的電話服務。衛星電話還可用以支持用於例如車隊等移動接收器的連續廣域覆蓋,從而實現例如即按即說等服務。更一般來說,此受約束位速率語音解碼的應用並不限於涉及衛星的應用,且可延伸到任何功率受限信道。
除非受其上下文明確地限制,否則術語「信號」在本文中用以指示其普通意義中的任一者,包括如在電線、總線或其它發射媒體上表達的存儲器位置(或存儲器位置的集合) 的狀態。除非受其上下文明確地限制,否則術語「產生」在本文中用以指示其普通意義中的任一者,例如,計算或以其它方式生成。除非受其上下文明確地限制,否則術語「計算」在本文中用以指示其普通意義中的任一者,例如,計算、評估、產生和/或從一組值進行選擇。除非受其上下文明確地限制,否則術語「獲得」用以指示其普通意義中的任一者,例如計算、導出、接收(例如,從外部裝置)和/或檢索(例如,從存儲元件的陣列)。除非受其上下文明確地限制,否則術語「估計」用以指示其普通意義中的任一者,例如,計算和/或評估。在本描述內容和權利要求書中使用術語「包含」或「包括」時,其並不排除其它元件或操作。術語 「基於」(如在「A基於B」中)用以指示其普通意義中的任一者,其包括以下狀況⑴「至少基於」(例如,「A至少基於B」)和(在特定情形下適當時)(ii) 「等於」(例如,「A等於 B」)。以引用的方式對文獻的一部分的任何併入還應理解為併入在所述部分內引用的術語或變量的定義,其中此類定義出現於所述文獻的其它地方。
除非另外指示,否則具有特定特徵的語音編碼器的任何揭示內容還明確地希望揭示具有類似特徵的語音編碼方法(且反之亦然),且根據特定配置的語音編碼器的任何揭示內容還明確地希望揭示根據類似配置的語音編碼方法(且反之亦然)。除非另外指示,否則用於對語音信號的幀執行操作的設備的任何揭示內容還明確地希望揭示用於對語音信號的幀執行操作的對應的方法(且反之亦然)。除非另外指示,否則具有特定特徵的語音解碼器的任何揭示內容還明確地希望揭示具有類似特徵的語音解碼方法(且反之亦然),且根據特定配置的語音解碼器的任何揭示內容還明確地希望揭示根據類似配置的語音解碼方法(且反之亦然)。可互換地使用術語「解碼器」、「編解碼器」和「解碼系統」以表示一系統,所述系統包括經配置以接收語音信號的幀(可能在例如感知加權和/或其它濾波操作等一個或一個以上預處理操作之後)的至少一個編碼器和經配置以產生幀的經解碼的表示的對應的解碼器。
出於語音解碼的目的,語音信號通常經數位化(或量化)以獲得樣本流。可根據此項技術中已知的各種方法中的任一者(包括(例如)脈衝代碼調製(PCM)、壓擴mu律PCM 和壓擴A律PCM)執行數位化過程。窄帶語音編碼器通常使用8kHz的取樣率,而寬帶語音編碼器通常使用較高取樣率(例如,12或16kHz)。
語音編碼器經配置以將經數位化的語音信號處理為一系列幀。雖然處理幀或幀段(也稱為子幀)的操作也可包括其輸入中的一個或一個以上相鄰幀的段,但此系列通常實施為非重疊系列。語音信號的幀通常足夠短以致可預期信號的頻譜包絡在整個幀期間保持相對固定。幀通常對應於5與35毫秒之間的語音信號(或約40到200個樣本),其中10、 20和30毫秒為常用幀大小。經編碼的幀的實際大小可隨編碼位速率而在幀間改變。
20毫秒的幀長度在7千赫茲(kHz)的取樣率下對應於140個樣本,在8kHz的取樣率下對應於160個樣本,且在16kHz的取樣率下對應於320個樣本,但可使用被視為適於特定應用的任何取樣率。可用於語音解碼的取樣率的另一實例為12. 8kHz,且其它實例包括在 12. 8kHz到38. 4kHz的範圍內的其它速率。
通常,所有幀具有相同長度,且在本文中描述的特定實例中假定均勻幀長度。然而,還明確預期到且藉此揭示可使用非均勻的幀長度。舉例來說,本文中所描述的各種設備和方法的實施方案還可用於將不同幀長度用於活動幀和非活動幀和/或用於有聲幀和無聲幀的應用中。
如上所註明,可能需要配置語音編碼器以使用不同解碼模式和/或速率來編碼活動幀和非活動幀。為了區分活動幀與非活動幀,語音編碼器通常包括語音活動檢測器(通常稱為話音活動檢測器或VAD),或以其它方式執行檢測語音活動的方法。此類檢測器或方法可經配置以基於一個或一個以上因素(例如,幀能量、信噪比、周期性和過零率)將幀分類為活動或非活動的。此分類可包括將此類因素的值或量值與閾值進行比較,和/或將此類因素的改變的量值與閾值進行比較。
檢測語音活動的語音活動檢測器或方法還可經配置以將活動幀分類為兩個或兩個以上不同類型中的一者,例如,有聲(例如,表示元音聲)、無聲(例如,表示摩擦音聲)或過渡(例如,表示字的開始或結束)。此分類可基於例如以下各者等因素語音和/或殘餘的自相關、過零率、第一反射係數和/或如(例如,相對於解碼方案選擇器C200和/或幀重新分類器RC10)在本文中更詳細描述的其它特徵。對於語音編碼器來說,可能需要使用不同解碼模式和/或位速率來編碼不同類型的活動幀。
有聲語音的幀傾向於具有長期的(即,持續一個以上幀周期)且關於音調的周期性結構。使用編碼此長期頻譜特徵的描述的解碼模式來編碼有聲幀(或有聲幀的序列) 通常為較有效的。此類編碼模式的實例包括碼激勵線性預測(CELP)和例如原型波形內插 (PWI)等波形內插技術。PWI解碼模式的一個實例稱為原型音調周期(PPP)。另一方面,無聲幀和非活動幀通常缺少任何顯著的長期頻譜特徵,且語音編碼器可經配置以使用不試圖描述此特徵的解碼模式來編碼這些幀。噪聲激勵線性預測(NELP)為此類解碼模式的一個實例。
語音編碼器或語音編碼方法可經配置以在位速率和解碼模式(也稱為「解碼方案」)的不同組合中作出選擇。舉例來說,語音編碼器可經配置以將全速率CELP方案用於含有有聲語音的幀和過渡幀,將半速率NELP方案用於含有無聲語音的幀,且將八分之一速率NELP方案用於非活動幀。此類語音編碼器的其它實例支持一個或一個以上解碼方案的多個解碼速率,例如,全速率CELP方案和半速率CELP方案和/或全速率PPP方案和四分之一速率PPP方案。
如由語音編碼器或語音編碼方法產生的經編碼的幀通常含有可藉以重建語音信號的對應幀的值。舉例來說,經編碼的幀可包括幀內的能量在頻譜上的分布的描述。此類能量分布也稱為幀的「頻率包絡」或「頻譜包絡」。經編碼的幀通常包括描述幀的頻譜包絡的有序值序列。在一些狀況下,有序序列的每一值指示在對應頻率處或在對應頻譜區域上的信號振幅或量值。此類描述的一個實例為有序傅立葉(Rnirier)變換係數序列。
在其它狀況下,有序序列包括解碼模型的參數值。此類有序序列的一個典型實例為線性預測解碼(LPC)分析的係數值集合。這些LPC係數值編碼經編碼的語音的共振(也稱為「共振峰」),且可配置為濾波器係數或反射係數。多數現代語音解碼器的編碼部分包括提取每一幀的LPC係數值集合的分析濾波器。集合(其通常布置為一個或一個以上向量) 中的係數值的數目也稱為LPC分析的「階數」。如由通信裝置(例如,蜂窩式電話)的語音編碼器執行的LPC分析的典型階數的實例包括4、6、8、10、12、16、20、24、觀和32。
語音解碼器通常配置成以經量化形式跨越發射信道發射頻譜包絡的描述(例如, 作為到對應的查找表或「碼簿」中的一個或一個以上索引)。因此,對於語音編碼器來說,可能需要以可經有效地量化的形式計算LPC係數值的集合,例如線頻譜對(LSP)、線頻譜頻率 (LSF)、導抗頻譜對(ISP)、導抗頻譜頻率(ISF)、倒頻譜係數或對數面積比的值的集合。語音編碼器還可經配置以在轉換和/或量化之前對有序值序列執行其它操作(例如,感知加權)。
在一些狀況下,幀的頻譜包絡的描述還包括幀的時間信息的描述(例如,如在傅立葉變換係數的有序序列中)。在其它狀況下,經編碼的幀的語音參數集合還可包括幀的時間信息的描述。時間信息的描述的形式可取決於用以對幀進行編碼的特定解碼模式。對於一些解碼模式來說(例如,對於CELP解碼模式來說),時間信息的描述包括LPC分析的殘餘的描述(也稱為激勵信號的描述)。對應的語音解碼器使用激勵信號來激勵LPC模型(例如,如由頻譜包絡的描述所定義)。激勵信號的描述通常以經量化形式(例如,作為到對應碼簿中的一個或一個以上索引)出現於經編碼的幀中。
時間信息的描述還可包括與激勵信號的音調分量有關的信息。對於PPP解碼模式來說,例如,經編碼的時間信息可包括待由語音解碼器使用以再生激勵信號的音調分量的原型的描述。與音調分量有關的信息的描述通常以經量化形式(例如,作為到對應碼簿中的一個或一個以上索引)出現於經編碼的幀中。對於其它解碼模式來說(例如,對於NELP 解碼模式來說),時間信息的描述可包括幀的時間包絡(也稱為幀的「能量包絡」或「增益包絡」)的描述。
圖1展示有聲語音段(例如,元音)的隨時間而變的振幅的一個實例。對於有聲幀來說,激勵信號通常類似於在音調頻率下周期性的一系列脈衝,而對於無聲幀來說,激勵信號通常類似於白高斯(Gaussian)噪聲。CELP或PWI解碼器可採用為有聲語音段的特性的較高周期性以實現較好解碼效率。圖2A展示隨時間而變的從背景噪聲過渡到有聲語音的語音段的振幅的實例,且圖2B展示隨時間而變的從背景噪聲過渡到有聲語音的語音段的LPC殘餘的振幅的實例。因為LPC殘餘的解碼佔用大量經編碼的信號流,所以已開發各種方案以減小解碼殘餘所需要的位速率。此類方案包括CELP、NELP, PffI和PPP。
可能需要以提供長途質量(toll-quality)的經解碼的信號的方式以低位速率 (例如,每秒2千位)執行語音信號的受約束位速率編碼。長途質量的特徵通常在於具有約 200到3200Hz的帶寬和大於30dB的信噪比(SNR)。在一些狀況下,長途質量的特徵還在於具有小於2%或3%的諧波失真。遺憾的是,以接近每秒2千位的位速率編碼語音的現有技術通常產生聽起來為人工(例如,機器人)、嘈雜和/或過度諧波(例如,嗡嗡聲)的合成語音。
例如靜寂和無聲幀等非有聲幀的高質量編碼可通常使用噪聲激勵線性預測 (NELP)解碼模式以低位速率來執行。然而,可能較難以以低位速率執行有聲幀的高質量編碼。已通過將較高位速率用於例如包括從無聲語音到有聲語音的過渡的幀(也稱為開始幀或向上瞬變幀)等困難幀且將較低位速率用於後續有聲幀以實現低平均位速率而獲得良好結果。然而對於受約束位速率聲碼器來說,將較高位速率用於困難幀的選擇可能為不可用的。
例如增強型可變速率編解碼器(EVRC)等現有可變速率聲碼器通常使用例如CELP 等波形解碼模式以較高位速率編碼此類困難幀。可用於以低位速率存儲或發射有聲語音段的其它解碼方案包括例如PPP解碼方案等PWI解碼方案。此類PWI解碼方案在殘餘信號中周期性地定位具有一個音調周期的長度的原型波形。在解碼器處,所述殘餘信號被內插在原型之間的音調周期上以獲得原始高度周期性殘餘信號的近似。PPP解碼的一些應用使用混合位速率,以使得高位速率編碼的幀為一個或一個以上後續低位速率編碼的幀提供參考。在此狀況下,低位速率幀中的信息的至少一些可被有差別地編碼。
可能需要以無差別方式來編碼過渡幀(例如,開始幀),所述無差別方式為序列中的後續幀的有差別PWI(例如,PPP)編碼提供良好原型(即,良好音調脈衝形狀參考)和/ 或音調脈衝相位參考。
可能需要在位速率受約束的解碼系統中提供用於開始幀和/或其它過渡幀的解碼模式。舉例來說,可能需要在受約束而具有低恆定位速率或低最大位速率的解碼系統中提供此解碼模式。此解碼系統的應用的典型實例為衛星通信鏈路(例如,如本文中參看圖 14所描述)。
如上所論述,語音信號的幀可分類為有聲、無聲或靜寂。有聲幀通常為高度周期性的,而無聲和靜寂幀通常為非周期性的。其它可能幀分類包括開始、瞬變和向下瞬變。(也稱為向上瞬變幀的)開始幀通常出現於字的開始處。如在圖2B中的400與600樣本之間的區域中,開始幀在幀開始時可為非周期性的(例如,無聲),且在幀結束時變為周期性的 (例如,有聲)。瞬變類別包括具有有聲但較小周期性的語音的幀。瞬變幀顯現音調的改變和/或減小的周期性,且通常在有聲段的中間或結束處(例如,在語音信號的音調正改變之處)出現。典型的向下瞬變幀具有低能量有聲語音且在字的結束處出現。開始幀、瞬變幀和向下瞬變幀也可稱為「過渡」幀。
對於語音編碼器來說,可能需要以無差別方式編碼脈衝的位置、振幅和形狀。舉例來說,可能需要編碼開始幀或一系列有聲幀中的第一者,以使得經編碼的幀為後續經編碼的幀的激勵信號提供良好參考原型。此類編碼器可經配置以定位幀的最終音調脈衝,定位相鄰於最終音調脈衝的音調脈衝,根據所述音調脈衝的峰值之間的距離估計滯後值,且產生指示最終音調脈衝的位置和所估計的滯後值的經編碼的幀。此信息在解碼已在無相位信息的情況下編碼的後續幀時可用作相位參考。編碼器還可經配置以產生包括音調脈衝的形狀的指示的經編碼的幀,其在解碼已被有差別地編碼(例如,使用QPPP解碼方案)的後續幀時可用作參考。
在解碼過渡幀(例如,開始幀)時,向後續幀提供良好參考可能比實現幀的準確再生重要。此經編碼的幀可用以向使用PPP或其它編碼方案編碼的後續有聲幀提供良好參考。舉例來說,對於經編碼的幀來說,可能需要包括音調脈衝的形狀的描述(例如,以提供良好形狀參考)、音調滯後的指示(例如,以提供良好滯後參考)和幀的最終音調脈衝的位置的指示(例如,以提供良好相位參考),同時開始幀的其它特徵可使用較少位來編碼或甚至被忽略。
圖3A展示根據一配置的語音編碼方法MlOO的流程圖,所述語音編碼方法MlOO包括編碼任務ElOO和E200。任務ElOO對語音信號的第一幀進行編碼,且任務E200對語音信號的第二幀進行編碼,其中第二幀在第一幀之後。任務ElOO可實施為無差別地對第一幀進行編碼的參考解碼模式,且任務E200可實施為相對於第一幀對第二幀進行編碼的相對解碼模式(例如,有差別解碼模式)。在一個實例中,第一幀為開始幀,且第二幀為緊接在開始幀之後的有聲幀。第二幀還可為緊接在開始幀之後的一系列連續有聲幀中的第一者。
編碼任務ElOO產生包括激勵信號的描述的第一經編碼的幀。此描述包括指示音調脈衝在時域中的形狀(即,音調原型)和音調脈衝重複之處的位置的一組值。音調脈衝位置通過編碼滯後值連同例如幀的終端音調脈衝的位置等參考點來指示。在此描述中,使用音調脈衝峰值的位置來指示音調脈衝的位置,但是本發明的範圍明確地包括音調脈衝的位置等效地由脈衝的另一特徵(例如,其第一或最後樣本)的位置來指示的情形。第一經編碼的幀還可包括其它信息的表示,例如,幀的頻譜包絡的描述(例如,一個或一個以上LSP 索引)。任務ElOO可經配置以將經編碼的幀產生作為符合模板的包。舉例來說,任務ElOO 可包括如本文中所描述的包產生任務E320、E340和/或E440的例項。
任務ElOO包括基於來自第一幀的至少一個音調脈衝的信息選擇一組時域音調脈衝形狀中的一者的子任務E110。任務EllO可經配置以選擇與幀中的具有最高峰值的音調脈衝最緊密匹配(例如,在最小平方意義上)的形狀。或者,任務EllO可經配置以選擇與幀中的具有最高能量(例如,平方樣本值的最高總和)的音調脈衝最緊密匹配的形狀。或者,任務EllO可經配置以選擇與幀的兩個或兩個以上音調脈衝(例如,具有最高峰值和/ 或能量的脈衝)的平均值最緊密匹配的形狀。任務EllO可實施成包括經由音調脈衝形狀 (也稱為「形狀向量」)的碼簿(即,量化表)的搜索。舉例來說,任務EllO可實施為如本文中所描述的脈衝形狀向量選擇任務T660或E430的例項。
編碼任務TlOO還包括計算幀的終端音調脈衝位置(例如,幀的初始音調峰值或幀的最終音調峰值的位置)的子任務E120。可相對於幀的開始、相對於幀的結束或相對於幀內的另一參考位置來指示終端音調脈衝的位置。任務E120可經配置以通過(例如,基於樣本的振幅或能量與幀平均值之間的關係,其中能量通常計算為樣本值的平方)選擇接近幀邊界的樣本並在接近此樣本的區域內搜索具有最大值的樣本而找到終端音調脈衝峰值。 舉例來說,可根據下文描述的終端音調峰值定位任務LlOO的配置中的任一者來實施任務 E120。
編碼任務ElOO還包括估計幀的音調周期的子任務E130。音調周期(也稱為「音調滯後值」、「滯後值」、「音調滯後」或簡稱為「滯後」)指示音調脈衝之間的距離(即,鄰近音調脈衝的峰值之間的距離)。典型的音調頻率範圍為男性說話者的約70到IOOHz到女性說話者的約150到200Hz。對於SkHz的取樣率來說,這些音調頻率範圍對應於典型女性說話者的約40到50個樣本的滯後範圍和典型男性說話者的約90到100個樣本的滯後範圍。為了適應具有在這些範圍外的音調頻率的說話者,可能需要支持約50到60Hz到約300到 400Hz的音調頻率範圍。對於8kHz的取樣率來說,此頻率範圍對應於約20到25個樣本到約130到160個樣本的滯後範圍。
音調周期估計任務E130可經實施以使用任何合適的音調估計程序(例如,作為如下文描述的滯後估計任務L200的實施方案的例項)來估計音調周期。此類程序通常包括找到鄰近於終端音調峰值的音調峰值(或以其它方式找到至少兩個鄰近音調峰值)並將滯後計算為峰值之間的距離。任務E130可經配置以基於樣本的能量的量度(例如,樣本能量與幀平均能量之間的比率)和/或樣本的鄰域與經確認的音調峰值的類似鄰域(例如,終端音調峰值)相關的程度的量度而將樣本識別為音調峰值。
編碼任務ElOO產生包括第一幀的激勵信號的特徵的表示(例如,由任務EllO選擇的時域音調脈衝形狀、由任務E120計算的終端音調脈衝位置,和由任務E130估計的滯後值)的第一經編碼的幀。通常,任務ElOO將經配置以在音調周期估計任務E130之前執行音調脈衝位置計算任務E120,且在音調脈衝形狀選擇任務EllO之前執行音調周期估計任務 E130。
第一經編碼的幀可包括直接指示所估計的滯後值的值。或者,對於經編碼的幀來說,可能需要將滯後值指示為相對於最小值的偏移。對於二十個樣本的最小滯後值來說, 例如,七位數字可用以指示在二十到147(即,20+0到20+127)個樣本的範圍內的任何可能的整數滯後值。對於25個樣本的最小滯後值來說,七位數字可用以指示在25到152(即, 25+0到25+127)個樣本的範圍內的任何可能的整數滯後值。以此方式,將滯後值編碼為相對於最小值的偏移可用以最大化預期滯後值的範圍的覆蓋同時最小化編碼值的所述範圍所要求的位的數目。其它實例可經配置以支持非整數滯後值的編碼。對於第一經編碼的幀來說,還有可能包括關於音調滯後的一個以上值,例如,第二滯後值或以其它方式指示滯後值從幀的一側(例如,幀的開始或結束)到另一側的改變的值。
很可能幀的音調脈衝的振幅將彼此不同。在開始幀中,例如,能量可隨時間增加, 以使得接近幀的結束的音調脈衝與接近幀的開始的音調脈衝相比將具有較大振幅。至少在此類狀況下,對於第一經編碼的幀來說,可能需要包括幀的平均能量隨時間發生的變化 (也稱為「增益簡檔」)的描述,例如,音調脈衝的相對振幅的描述。
圖;3B展示編碼任務ElOO的實施方案E102的流程圖,所述實施方案E102包括子任務E140。任務E140將幀的增益簡檔計算為對應於第一幀的不同音調脈衝的一組增益值。 舉例來說,增益值中的每一者可對應於幀的不同音調脈衝。任務E140可包括經由增益簡檔的碼簿(例如,量化表)的搜索和與幀的增益簡檔最緊密地匹配(例如,在最小平方意義上)的碼簿條目的選擇。編碼任務E102產生包括以下各者的表示的第一經編碼的幀由任務EllO選擇的時域音調脈衝形狀、由任務E120計算的終端音調脈衝位置、由任務E130估計的滯後值和由任務E140計算的所述組增益值。圖4展示幀中的這些特徵的示意性表示, 其中標記「 1,,指示終端音調脈衝位置,標記「2」指示所估計的滯後值,標記「3」指示選定的時域音調脈衝形狀,且標記「4」指示在增益簡檔中編碼的值(例如,音調脈衝的相對振幅)。 通常,任務E102將經配置以在增益值計算任務E140之前執行音調周期估計任務E130,增益值計算任務E140可與音調脈衝形狀選擇任務EllO串行或並行地執行。在一個實例中(如圖沈的表中所示),編碼任務E102以四分之一速率操作以產生四十位的經編碼的幀,其包括指示參考脈衝位置的七個位、指示參考脈衝形狀的七個位、指示參考滯後值的七個位、指示增益簡檔的四個位、載運一個或一個以上LSP索引的十三個位和指示幀的解碼模式的兩個位(例如,「00」指示例如NELP等無聲解碼模式,「01」指示例如QPPP等相對解碼模式,且 「10」指示參考解碼模式E102)。
第一經編碼的幀可包括幀中的音調脈衝(或音調峰值)的數目的明確指示。或者,幀中的音調脈衝或音調峰值的數目可經隱含編碼。舉例來說,第一經編碼的幀可僅使用音調滯後和終端音調脈衝的位置(例如,終端音調峰值的位置)來指示幀中的所有音調脈衝的位置。對應的解碼器可經配置以從滯後值和終端音調脈衝的位置計算音調脈衝的潛在位置並從增益簡檔獲得每一潛在脈衝位置的振幅。對於幀含有少於潛在脈衝位置的脈衝的狀況來說,增益簡檔可針對潛在脈衝位置中的一者或一者以上指示增益值零(或其它極小值)。
如本文中所註明,開始幀可以無聲開始並以有聲結束。對於對應的經編碼的幀來說,與支持整個開始幀的準確再生相比,可能更需要為後續幀提供良好參考,且可實施方法 MlOO以僅提供對編碼此類開始幀的初始無聲部分的有限支持。舉例來說,任務E140可經配置以選擇指示無聲部分內的任何音調脈衝周期的增益值零(或接近零)的增益簡檔。或者,任務E140可經配置以選擇指示無聲部分內的音調周期的非零增益值的增益簡檔。在一個此類實例中,任務E140選擇以零或接近零開始並單調地上升到幀的有聲部分的第一音調脈衝的增益水平的一般增益簡檔。
任務E140可經配置以將所述組增益值計算為對一組增益向量量化(VQ)表中的一者的索引,其中不同的增益VQ表用於不同數目個脈衝。所述組表可經配置以使得每一增益 VQ表含有相同數目個條目,且不同增益VQ表含有不同長度的向量。在此解碼系統中,任務 E140基於終端音調脈衝的位置和音調滯後來計算音調脈衝的所估計的數目,且此所估計的數目用以選擇所述組增益VQ表中的一者。在此狀況下,也可由解碼經編碼的幀的對應方法執行類似操作。如果音調脈衝的所估計的數目大於幀中的音調脈衝的實際數目,那麼任務 E140還可通過如上所描述將幀中的每一額外音調脈衝周期的增益設定為較小值或零而傳達此信息。
編碼任務E200對語音信號的在第一幀之後的第二幀進行編碼。任務E200可實施為相對於第一幀的對應特徵對第二幀進行編碼的特徵的相對解碼模式(例如,有差別解碼模式)。任務E200包括計算當前幀的音調脈衝形狀與先前幀的音調脈衝形狀之間的音調脈衝形狀差別的子任務E210。舉例來說,任務E210可經配置以從第二幀提取音調原型,並將音調脈衝形狀差別計算為所提取的原型與第一幀的音調原型(即,選定的音調脈衝形狀) 之間的差。可通過任務E210執行的原型提取操作的實例包括在2004年6月22日頒布的第6,754,630號美國專利(Das等人)和2006年11月14日頒布的第7,136,812號美國專利(Manjimath等人)中描述的原型提取操作。
可能需要配置任務E210以將音調脈衝形狀差別計算為在頻域中兩個原型之間的差。圖5A展示編碼任務E200的實施方案E202的圖,所述實施方案E202包括音調脈衝形狀差別計算任務E210的實施方案E212。任務E212包括計算當前幀的頻域音調原型的子任務E214。舉例來說,任務E214可經配置以對經提取的原型執行快速傅立葉變換運算,或以其它方式將所提取的原型轉換到頻域。任務E212的此實施方案還可經配置以通過以下操作計算音調脈衝形狀差別將頻域原型劃分為若干頻段(例如,一組非重疊頻段),計算元素為每一頻段中的平均量值的對應的頻率量值向量,以及將音調脈衝形狀差別計算為原型的頻率量值向量與先前幀的原型的頻率量值向量之間的向量差。在此狀況下,任務E212還可經配置以對音調脈衝形狀差別進行向量量化,以使得對應的經編碼的幀包括經量化的差別。
編碼任務E200還包括計算當前幀的音調周期與先前幀的音調周期之間的音調周期差別的子任務E220。舉例來說,任務E220可經配置以估計當前幀的音調滯後並減去先前幀的音調滯後值以獲得音調周期差別。在一個此類實例中,任務E220經配置以將音調周期差別計算為(當前滯後估計-先前滯後估計+7)。為了估計音調滯後,任務E220可經配置以使用任何合適的音調估計技術,例如,上文描述的音調周期估計任務E130的例項、下文描述的滯後估計任務L200的例項,或如在以上參考的EVRC文獻C. S0014-C的章節4. 6. 3 (第 4-44到4-49頁)中描述的程序,所述章節在此作為實例以引用的方式併入。對於先前幀的未經量化的音調滯後值不同於先前幀的經解量化的音調滯後值的狀況來說,可能需要任務 E220通過從當前滯後估計減去經解量化的值來計算音調周期差別。
可使用例如四分之一速率PPP(QPPP)等具有受限時間同步性的解碼方案來實施編碼任務E200。QPPP的實施方案在2007年1月的題目為「用於寬帶擴展頻譜數字系統的增強型可變速率編解碼器、語音服務選擇3、68和70 (Enhanced Variable Rate Codec, Speech Service Options 3,68, and 70for Wideband Spread Spectrum Digital Systems),,白勺第三代合作夥伴計劃2(3GPP2)的文獻C. S0014-C版本1. 0 (在mm. 3rpp. org可線上獲得)的章節4. 2.4(第4-10到4-17頁)和4. 12. 28 (第4-132到4-138頁)中描述,所述章節在此作為實例以引用的方式併入。此解碼方案使用帶寬隨頻率增加的一組非均勻的二十一個頻段來計算原型的頻率量值向量。使用QPPP產生的經編碼的幀的四十個位包括載運一個或一個以上LSP索引的十六個位、載運德耳塔滯後值的四個位、載運幀的振幅信息的十八個位、指示模式的一個位和一個保留位(如圖沈的表中所示)。相對解碼方案的此實例不包括用於脈衝形狀的位和用於相位信息的位。
如上所註明,任務ElOO中編碼的幀可為開始幀,且任務E200中編碼的幀可為緊接在開始幀之後的一系列連續有聲幀中的第一者。圖5B展示方法MlOO的實施方案MllO的流程圖,所述實施方案MllO包括子任務E300。任務E300編碼在第二幀之後的第三幀。舉例來說,第三幀可為緊接在開始幀之後的一系列連續有聲幀中的第二者。編碼任務E300可實施為如本文中所描述的任務E200的實施方案的例項(例如,實施為QPPP編碼的例項)。在一個此類實例中,任務E300包括任務E210的(例如,任務E212的)例項,其經配置以計算第三幀的音調原型與第二幀的音調原型之間的音調脈衝形狀差別;以及任務E220的例項, 其經配置以計算第三幀的音調周期與第二幀的音調周期之間的音調周期差別。在另一此類實例中,任務E300包括任務E210的(例如,任務E212的)例項,其經配置以計算第三幀的音調原型與第一幀的選定的音調脈衝形狀之間的音調脈衝形狀差別;以及任務E220的例項,其經配置以計算第三幀的音調周期與第一幀的音調周期之間的音調周期差別。
圖5C展示方法MlOO的實施方案M120的流程圖,所述實施方案M120包括子任務 T100。任務TlOO檢測包括從非有聲語音到有聲語音的過渡的幀(也稱為向上瞬變幀或開始幀)。任務TlOO可經配置以根據下文描述(例如,關於解碼方案選擇器C200)的EVRC分
22類方案執行幀分類,且還可經配置以將幀重新分類(例如,如下文參考幀重新分類器RClO 所描述)。
圖6A展示經配置以對語音信號的幀進行編碼的設備MF100的框圖。設備MF100 包括用於對語音信號的第一幀進行編碼的裝置FE100和用於對語音信號的第二幀進行編碼的裝置FE200,其中第二幀在第一幀之後。裝置FE100包括用於基於來自第一幀的至少一個音調脈衝的信息來選擇一組時域音調脈衝形狀中的一者(例如,如上文參考任務EllO的各種實施方案所描述)的裝置FE110。裝置FE100還包括用於計算第一幀的終端音調脈衝的位置(例如,如上文參考任務E120的各種實施方案所描述)的裝置FE120。裝置FE100 還包括用於估計第一幀的音調周期(例如,如上文參考任務E130的各種實施方案所描述) 的裝置FE130。圖6B展示裝置FE100的實施方案FE102的框圖,所述實施方案FE102還包括用於計算對應於第一幀的不同音調脈衝的一組增益值(例如,如上文參考任務E140的各種實施方案所描述)的裝置FE140。
裝置FE200包括用於計算第二幀的音調脈衝形狀與第一幀的音調脈衝形狀之間的音調脈衝形狀差別(例如,如上文參考任務E210的各種實施方案所描述)的裝置FE210。 裝置FE200還包括用於計算第二幀的音調周期與第一幀的音調周期之間的音調周期差別 (例如,如上文參考任務E220的各種實施方案所描述)的裝置FE220。
圖7A展示根據一般配置解碼語音信號的激勵信號的方法M200的流程圖。方法 M200包括解碼第一經編碼的幀的一部分以獲得第一激勵信號的任務D100,其中所述部分包括時域音調脈衝形狀、音調脈衝位置和音調周期的表示。任務DlOO包括根據音調脈衝位置將時域音調脈衝形狀的第一副本布置於第一激勵信號內的子任務Dl 10。任務DlOO還包括根據音調脈衝位置和音調周期將時域音調脈衝形狀的第二副本布置於第一激勵信號內的子任務D120。在一個實例中,任務DllO和D120從碼簿獲得時域音調脈衝形狀(例如,根據來自第一經編碼的幀的表示形狀的索引),並將其複製到激勵信號緩衝器。任務DlOO和 /或方法M200還可實施成包括進行以下操作的任務從第一經編碼的幀獲得一組LPC係數值(例如,通過解量化來自第一經編碼的幀的一個或一個以上經量化的LSP向量並對結果進行逆變換),根據所述組LPC係數值配置合成濾波器,以及向經配置的合成濾波器施加第一激勵信號以獲得第一經解碼的幀。
圖7B展示解碼任務DlOO的實施方案D102的流程圖。在此狀況下,第一經編碼的幀的部分也包括一組增益值的表示。任務D102包括將所述組增益值中的一者施加到時域音調脈衝形狀的第一副本的子任務D130。任務D102還包括將所述組增益值中的一不同者施加到時域音調脈衝形狀的第二副本的子任務D140。在一個實例中,任務D130在任務DllO 期間將其增益值施加到所述形狀,且任務D140在任務D120期間將其增益值施加到所述形狀。在另一實例中,任務D130在已執行任務DllO之後將其增益值施加到激勵信號緩衝器的對應部分,且任務D140在已執行任務D120之後將其增益值施加到激勵信號緩衝器的對應部分。包括任務D102的方法M200的實施方案可配置成包括向經配置的合成濾波器施加所得的經增益調整的激勵信號以獲得第一經解碼的幀的任務。
方法M200還包括解碼第二經編碼的幀的一部分以獲得第二激勵信號的任務 D200,其中所述部分包括音調脈衝形狀差別和音調周期差別的表示。任務D200包括基於時域音調脈衝形狀和音調脈衝形狀差別來計算第二音調脈衝形狀的子任務D210。任務D200還包括基於音調周期和音調周期差別來計算第二音調周期的子任務D220。任務D200還包括根據音調脈衝位置和第二音調周期將第二音調脈衝形狀的兩個或兩個以上副本布置於第二激勵信號內的子任務D230。任務D230可包括將第二激勵信號內的副本中的每一者的位置計算為從音調脈衝位置的對應偏移,其中每一偏移為第二音調周期的整數倍。任務 D200和/或方法M200還可實施成包括進行以下操作的任務從第二經編碼的幀獲得一組 LPC係數值(例如,通過解量化來自第二經編碼的幀的一個或一個以上經量化的LSP向量並對結果進行逆變換),根據所述組LPC係數值配置合成濾波器,以及將第二激勵信號施加到經配置的合成濾波器以獲得第二經解碼的幀。
圖8A展示用於解碼語音信號的激勵信號的設備MF200的框圖。設備MF200包括用於解碼第一經編碼的幀的一部分以獲得第一激勵信號的裝置FD100,其中所述部分包括時域音調脈衝形狀、音調脈衝位置和音調周期的表示。裝置FD100包括用於根據音調脈衝位置將時域音調脈衝形狀的第一副本布置於第一激勵信號內的裝置FD110。裝置FD100還包括用於根據音調脈衝位置和音調周期將時域音調脈衝形狀的第二副本布置於第一激勵信號內的裝置FD120。在一個實例中,裝置FDllO和FD120經配置以從碼簿獲得時域音調脈衝形狀(例如,根據來自第一經編碼的幀的表示形狀的索引),並將其複製到激勵信號緩衝器。裝置FD200和/或設備MF200還可實施成包括用於從第一經編碼的幀獲得一組LPC係數值(例如,通過解量化來自第一經編碼的幀的一個或一個以上經量化的LSP向量並對結果進行逆變換)的裝置,用於根據所述組LPC係數值配置合成濾波器的裝置,以及用於向經配置的合成濾波器施加第一激勵信號以獲得第一經解碼的幀的裝置。
圖8B展示用於解碼的裝置FD100的實施方案FD102的流程圖。在此狀況下,第一經編碼的幀的部分還包括一組增益值的表示。裝置FD102包括用於將所述組增益值中的一者施加到時域音調脈衝形狀的第一副本的裝置FD130。裝置FD102還包括用於將所述組增益值中的一不同者施加到時域音調脈衝形狀的第二副本的裝置FD140。在一個實例中,裝置 FD130將其增益值施加到裝置FDl 10內的形狀,且裝置FD140將其增益值施加到裝置FD120 內的形狀。在另一實例中,裝置FD130將其增益值施加到激勵信號緩衝器的裝置FDllO已向其布置第一副本的部分,且裝置FD140將其增益值施加到激勵信號緩衝器的裝置FD120 已向其布置第二副本的部分。包括裝置FD102的設備MF200的實施方案可配置成包括用於將所得經增益調整的激勵信號施加到經配置的合成濾波器以獲得第一經解碼的幀的裝置。
設備MF200還包括用於解碼第二經編碼的幀的一部分以獲得第二激勵信號的裝置FD200,其中所述部分包括音調脈衝形狀差別和音調周期差別的表示。裝置FD200包括用於基於時域音調脈衝形狀和音調脈衝形狀差別來計算第二音調脈衝形狀的裝置FD210。裝置FD200還包括用於基於音調周期和音調周期差別來計算第二音調周期的裝置FD220。裝置FD200還包括用於根據音調脈衝位置和第二音調周期將第二音調脈衝形狀的兩個或兩個以上副本布置於第二激勵信號內的裝置FD230。裝置FD230可經配置以將第二激勵信號內的副本中的每一者的位置計算為從音調脈衝位置的對應偏移,其中每一偏移為第二音調周期的整數倍。裝置FD200和/或設備MF200還可實施成包括用於從第二經編碼的幀獲得一組LPC係數值(例如,通過解量化來自第二經編碼的幀的一個或一個以上經量化的LSP 向量並對結果進行逆變換)的裝置,用於根據所述組LPC係數值配置合成濾波器的裝置,以及用於將第二激勵信號施加到經配置的合成濾波器以獲得第二經解碼的幀的裝置。
圖9A展示語音編碼器AE10,其經布置以接收經數位化的語音信號SlOO (例如,作為一系列幀)並產生對應的經編碼的信號S200(例如,作為一系列對應的經編碼的幀)以供在通信信道ClOO (例如,有線、光學和/或無線通信鏈路)上發射到語音解碼器AD10。 語音解碼器ADlO經布置以解碼經編碼的語音信號S200的所接收的型式S300併合成對應的輸出語音信號S400。語音編碼器AElO可實施成包括設備MF100的例項和/或執行方法 MlOO的實施方案。語音解碼器ADlO可實施成包括設備MF200的例項和/或執行方法M200 的實施方案。
如上文所描述,語音信號SlOO表示已根據在此項技術中已知的各種方法中的任一者(例如,脈衝代碼調製(PCM)、壓擴mu律或A律)數位化並量化的模擬信號(例如,如由麥克風所俘獲)。所述信號還可已在模擬和/或數字域中經受其它預處理操作,例如,噪聲抑制、感知加權和/或其它濾波操作。另外或作為替代,可在語音編碼器AElO內執行此類操作。語音信號SlOO的例項還可表示已數位化並量化的模擬信號(例如,如由麥克風的陣列所俘獲)的組合。
圖9B展示語音編碼器AElO的第一例項AElOa,其經布置以接收經數位化的語音信號SlOO的第一例項SllO並產生經編碼的信號S200的對應例項S210以供在通信信道ClOO 的第一例項CllO上發射到語音解碼器ADlO的第一例項ADIOa。語音解碼器ADlOa經布置以解碼經編碼的語音信號S210的所接收的型式S310併合成輸出語音信號S400的對應例項 S410。
圖9B還展示語音編碼器AElO的第二例項AElOb,其經布置以接收經數位化的語音信號SlOO的第二例項S120並產生經編碼的信號S200的對應例項S220以供在通信信道 ClOO的第二例項C120上發射到語音解碼器ADlO的第二例項ADlOb。語音解碼器ADlOb經布置以解碼經編碼的語音信號S220的所接收的型式S320併合成輸出語音信號S400的對應例項S420。
語音編碼器AElOa和語音解碼器ADlOb (類似地,語音編碼器AElOb和語音解碼器 ADlOa)可在用於發射並接收語音信號的任何通信裝置(包括(例如)下文參考圖14所描述的用戶終端、地面臺或網關)中一起使用。如本文中所描述,語音編碼器AElO可以許多不同方式來實施,且語音編碼器AElOa和AElOb可為語音編碼器AElO的不同實施方案的例項。同樣,語音解碼器ADlO可以許多不同方式來實施,且語音解碼器ADlOa和ADlOb可為語音解碼器ADlO的不同實施方案的例項。
圖IOA展示根據一般配置的用於對語音信號的幀進行編碼的設備AlOO的框圖,所述設備包括第一幀編碼器100,其經配置以對語音信號的第一幀進行編碼作為第一經編碼的幀;以及第二幀編碼器200,其經配置以對語音信號的第二幀進行編碼作為第二經編碼的幀,其中第二幀在第一幀之後。語音編碼器AElO可實施成包括設備AlOO的例項。第一幀編碼器100包括音調脈衝形狀選擇器110,其經配置以基於來自第一幀的至少一個音調脈衝的信息選擇一組時域音調脈衝形狀中的一者(例如,如上文參考任務EllO的各種實施方案所描述)。編碼器100還包括音調脈衝位置計算器120,其經配置以計算第一幀的終端音調脈衝的位置(例如,如上文參考任務E120的各種實施方案所描述)。編碼器100還包括音調周期估計器130,其經配置以估計第一幀的音調周期(例如,如上文參考任務E130 的各種實施方案所描述)。編碼器100可經配置以將經編碼的幀產生作為符合模板的包。舉例來說,編碼器100可包括如本文中所描述的包產生器170和/或570的例項。圖IOB 展示編碼器100的實施方案102的框圖,所述實施方案102還包括增益值計算器140,其經配置以計算對應於第一幀的不同音調脈衝的一組增益值(例如,如上文參考任務E140的各種實施方案所描述)。
第二幀編碼器200包括音調脈衝形狀差別計算器210,其經配置以計算第二幀的音調脈衝形狀與第一幀的音調脈衝形狀之間的音調脈衝形狀差別(例如,如上文參考任務 E210的各種實施方案所描述)。編碼器200還包括音調脈衝差別計算器220,其經配置以計算第二幀的音調周期與第一幀的音調周期之間的音調周期差別(例如,如上文參考任務 E220的各種實施方案所描述)。
圖IlA展示根據一般配置用於解碼語音信號的激勵信號的設備A200的框圖,所述設備A200包括第一幀解碼器300和第二幀解碼器400。解碼器300經配置以解碼第一經編碼的幀的一部分以獲得第一激勵信號,其中所述部分包括時域音調脈衝形狀、音調脈衝位置和音調周期的表示。解碼器300包括第一激勵信號產生器310,其經配置以根據音調脈衝位置將時域音調脈衝形狀的第一副本布置於第一激勵信號內。激勵產生器310還經配置以根據音調脈衝位置和音調周期將時域音調脈衝形狀的第二副本布置於第一激勵信號內。舉例來說,產生器310可經配置以執行如本文中所描述的任務DllO和D120的實施方案。在此實例中,解碼器300還包括合成濾波器320,其根據由解碼器300從第一經編碼的幀獲得的一組LPC係數值(例如,通過解量化來自第一經編碼的幀的一個或一個以上經量化LSP 向量並對結果進行逆變換)來配置,且經布置以對激勵信號進行濾波從而獲得第一經解碼的幀。
圖IlB展示第一激勵信號產生器310的實施方案312的框圖,所述實施方案312 針對第一經編碼的幀的部分也包括一組增益值的表示的狀況包括第一乘法器330和第二乘法器340。第一乘法器330經配置以將所述組增益值中的一者施加到時域音調脈衝形狀的第一副本。舉例來說,第一乘法器330可經配置以執行如本文中所描述的任務D130的實施方案。第二乘法器340經配置以將所述組增益值中的一不同者施加到時域音調脈衝形狀的第二副本。舉例來說,第二乘法器340可經配置以執行如本文中所描述的任務D140的實施方案。在包括產生器312的解碼器300的實施方案中,合成濾波器320可經布置以對所得經增益調整的激勵信號進行濾波從而獲得第一經解碼的幀。可使用不同結構或在不同時間使用同一結構來實施第一乘法器330和第二乘法器340。
第二幀解碼器400經配置以解碼第二經編碼的幀的一部分以獲得第二激勵信號, 其中所述部分包括音調脈衝形狀差別和音調周期差別的表示。解碼器400包括第二激勵信號產生器440,所述第二激勵信號產生器440包括音調脈衝形狀計算器410和音調周期計算器420。音調脈衝形狀計算器410經配置以基於時域音調脈衝形狀和音調脈衝形狀差別來計算第二音調脈衝形狀。舉例來說,音調脈衝形狀計算器410可經配置以執行如本文中所描述的任務D210的實施方案。音調周期計算器420經配置以基於音調周期和音調周期差別來計算第二音調周期。舉例來說,音調周期計算器420可經配置以執行如本文中所描述的任務D220的實施方案。激勵產生器440經配置以根據音調脈衝位置和第二音調周期將第二音調脈衝形狀的兩個或兩個以上副本布置於第二激勵信號內。舉例來說,產生器440 可經配置以執行本文中所描述的任務D230的實施方案。在此實例中,解碼器400還包括合成濾波器430,其根據由解碼器400從第一經編碼的幀獲得的一組LPC係數值(例如,通過解量化來自第一經編碼的幀的一個或一個以上經量化的LSP向量並對結果進行逆變換)來配置,且經布置以對第二激勵信號進行濾波從而獲得第二經解碼的幀。可使用不同結構或在不同時間使用同一結構來實施合成濾波器320、430。語音解碼器ADlO可實施成包括設備 A200的例項。
圖12A展示語音編碼器AElO的多模式實施方案AE20的框圖。編碼器AE20包括 第一幀編碼器100的實施方案(例如,編碼器102)、第二幀編碼器200的實施方案、無聲幀編碼器UElO (例如,QNELP編碼器)和解碼方案選擇器C200。解碼方案選擇器C200經配置以分析語音信號SlOO的傳入幀的特性(例如,根據如下文描述的經修改的EVRC幀分類方案),以經由選擇器50a、50b來選擇用於每一幀的編碼器100、200和UElO中的一適當者。 可能需要實施第二幀編碼器200以應用四分之一速率PPP (QPPP)解碼方案且實施無聲幀編碼器UElO以應用四分之一速率NELP (QNELP)解碼方案。圖12B展示語音編碼器ADlO的類似多模式實施方案AD20的框圖,所述多模式實施方案AD20包括第一幀解碼器300的實施方案(例如,解碼器302)、第二幀編碼器400的實施方案、無聲幀解碼器UDlO (例如,QNELP 解碼器)和解碼方案檢測器C300。解碼方案檢測器C300經配置以確定所接收的經編碼的語音信號S300的經編碼的幀的格式(例如,根據例如第一和/或最後位等經編碼的幀的一個或一個以上模式位),以經由選擇器90a、90b選擇用於每一經編碼的幀的解碼器300、400 和UDlO中的一適當對應者。
圖13展示可包括於語音編碼器AElO的實施方案內的殘餘產生器RlO的框圖。產生器RlO包括LPC分析模塊Rl 10,其經配置以基於語音信號SlOO的當前幀計算一組LPC係數值。變換塊R120經配置以將所述組LPC係數值轉換為一組LSF,且量化器R130經配置以量化LSF(例如,作為一個或一個以上碼簿索引)以產生LPC參數SL10。逆量化器R140經配置以從經量化的LPC參數SLlO獲得一組經解碼的LSF,且逆變換塊R150經配置以從所述組經解碼的LSF獲得一組經解碼的LPC係數值。根據所述組經解碼的LPC係數值配置的白化濾波器R160(也稱為分析濾波器)處理語音信號SlOO以產生LPC殘餘SR10。殘餘產生器RlO還可經實施以根據被視為適合於特定應用的任何其它設計產生LPC殘餘。殘餘產生器RlO的例項可實施於幀編碼器104、204和UElO中的任何一者或一者以上內和/或在所述任何一者或一者以上間共享。
圖14展示用於衛星通信的系統的示意圖,所述系統包括衛星10、地面臺20a、20b 和用戶終端30a、30b。衛星10可經配置以可能經由一個或一個以上其它衛星在地面臺20a 與20b之間、用戶終端30a與30b之間或地面臺與用戶終端之間的半雙工或全雙工信道上中繼話音通信。用戶終端30a、30b中的每一者可為用於無線衛星通信的可攜式裝置,例如, 行動電話或裝備有無線數據機的可攜式計算機、安裝於陸地載具或太空載具內的通信單元或用於衛星話音通信的另一裝置。地面臺20a、20b中的每一者經配置以將話音通信信道投送到相應網絡40a、40b,所述網絡40a、40b可為模擬或脈衝代碼調製(PCM)網絡(例如,公眾交換電話網絡或PSTN)和/或數據網絡(例如,網際網路、區域網(LAN)、校園網絡 (CAN)、都會網絡(MAN)、廣域網(WAN)、環形網絡、星形網絡和/或令牌環形網絡)。地面臺 20a、20b中的一者或兩者還可包括網關,其經配置以將話音通信信號進行代碼轉換為另一形式(例如,模擬、PCM、較高位速率解碼方案等)和/或從所述另一形式對話音通信信號進行代碼轉換。本文中所描述的方法中的一者或一者以上可由圖14中所展示的裝置10、20a、 20b,30a和30b中的任何一者或一者以上來執行,且本文中所描述的設備中的一者或一者以上可包括於此類裝置中的任何一者或一者以上中。
在PWI編碼期間提取的原型的長度通常等於音調滯後的當前值,其在幀間可改變。量化原型以發射到解碼器因此呈現量化維度可變的向量的問題。在常規PWI和PPP解碼方案中,通常通過將時域向量轉換為複合值頻域向量(例如,使用離散時間傅立葉變換 (DTFT)運算)來執行可變維度原型向量的量化。上文參考音調脈衝形狀差別計算任務E210 來描述此運算。接著對此複合值可變維度向量的振幅取樣以獲得固定維度的向量。振幅向量的取樣可能為非均勻的。舉例來說,可能需要在低頻率下與在高頻率下相比以更高解析度對向量進行取樣。
可能需要執行對在開始幀之後的有聲幀的有差別PWI編碼。在全速率PPP解碼模式中,頻域向量的相位以類似于振幅的方式取樣以獲得固定維度的向量。然而在QPPP解碼模式中,無位可用於將此相位信息載運到解碼器。在此狀況下,音調滯後經有差別編碼(例如,相對於先前幀的音調滯後),且還必須基於來自一個或一個以上先前幀的信息來估計相位信息。舉例來說,當過渡幀解碼模式(例如,任務E100)用以編碼開始幀時,可從音調滯後和脈衝位置信息導出後續幀的相位信息。
對於編碼開始幀來說,可能需要執行可預期檢測幀內的所有音調脈衝的程序。舉例來說,可預期使用穩健的音調峰值檢測操作以提供後續幀的較好滯後估計和/或相位參考。可靠的參考值對於後續幀是使用例如有差別解碼方案等相對解碼方案(例如,任務 E200)進行編碼的狀況可為尤其重要的,因為此類方案通常容易發生誤差傳播。如上所註明,在此描述中,音調脈衝的位置由其峰值的位置來指示,但在另一情形下,音調脈衝的位置可等效地由脈衝的另一特徵(例如,其第一樣本或最後樣本)的位置來指示。
圖15A展示根據一般配置的方法M300的流程圖,所述方法M300包括任務L100、 L200和L300。任務LlOO定位幀的終端音調峰值。在特定實施方案中,任務LlOO經配置以根據(A)基於樣本振幅的量與(B)用於幀的量的平均值之間的關係選擇一樣本作為終端音調峰值。在一個此類實例中,所述量為樣本量值(即,絕對值),且在此狀況下,可將幀平均值計算為,其中s表示樣本值(即,振幅),N表示幀中的樣本的數目,且i為樣本索 N
引。在另一此類實例中,所述量為樣本能量(即,振幅平方),且在此狀況下,可將幀平均值
Ys2
計算為m。在下文的描述中,使用能量。 N 任務LlOO可經配置以將終端音調峰值定位為幀的初始音調峰值或幀的最終音調峰值。為了定位初始音調峰值,任務LlOO可經配置以在幀的第一樣本處開始且在時間上向前運作。為了定位最終音調峰值,任務LlOO可經配置以在幀的最後樣本處開始且在時間上向後運作。在下文描述的特定實例中,任務LlOO經配置以將終端音調峰值定位為幀的最終音調峰值。
圖15B展示任務LlOO的實施方案L102的框圖,所述實施方案L102包括子任務 L110、L120和L130。任務LllO定位幀中的有資格成為終端音調峰值的最後樣本。在此實
28例中,任務LllO定位相對於幀平均值的能量超出(或者,不小於)對應閾值THl的最後樣本。在一個實例中,THl的值為六。如果在幀中未發現此樣本,那麼方法M300終止且另一解碼模式(例如,QPPP)用於幀。否則,任務L120(如圖16A中所示)在此樣本之前的窗口內進行搜索以找到具有最大振幅的樣本,且選擇此樣本作為臨時峰值候選者。對於任務L120 中的搜索窗口來說,可能需要具有等於最小容許滯後值的寬度WL1。在一個實例中,WLl的值為二十個樣本。對於搜索窗口中的一個以上樣本具有最大振幅的狀況來說,任務L120可經不同地配置以選擇第一此類樣本、最後此類樣本或任何其它此類樣本。
任務L130(如圖16B中所示)通過在臨時峰值候選者之前的窗口內找到具有最大振幅的樣本而驗證最終音調峰值選擇。對於任務L130中的搜索窗口來說,可能需要具有在初始滯後估計的50%與100%之間或50%與75%之間的寬度WL2。初始滯後估計通常等於最新滯後估計(即,來自先前幀)。在一個實例中,WL2的值等於初始滯後估計的八分之五。如果新樣本的振幅大於臨時峰值候選者的振幅,那麼任務L130改為選擇新樣本作為最終音調峰值。在另一實施方案中,如果新樣本的振幅大於臨時峰值候選者的振幅,那麼任務 L130選擇新樣本作為新臨時峰值候選者,並重複在新臨時峰值候選者之前的寬度WL2的窗口內的搜索,直到找不到此類樣本為止。
任務L200計算幀的所估計的滯後值。任務L200通常經配置以定位鄰近於終端音調峰值的音調脈衝的峰值並將滯後估計計算為這兩個峰值之間的距離。可能需要配置任務 L200以僅在幀邊界內進行搜索和/或要求終端音調峰值與鄰近音調峰值之間的距離大於 (或者,不小於)最小容許滯後值(例如,二十個樣本)。
可能需要配置任務L200以使用初始滯後估計來找到鄰近峰值。然而首先,對於任務L200來說,可能需要檢查初始滯後估計以查看音調加倍誤差(其可包括音調三倍和/或音調四倍誤差)。通常,將已使用基於相關的方法來確定初始滯後估計。音調加倍誤差對於音調估計的基於相關的方法為常見的,且通常為完全聽得到的。圖15C展示任務L200的實施方案L202的流程圖。任務L202包括檢查初始滯後估計以查看音調加倍誤差的可選但推薦的子任務L210。任務L210經配置以在距終端音調峰值(例如)1/2、1/3和1/4滯後的距離處的窄窗口內搜索音調峰值,且可如下所描述反覆。
圖17A展示任務L210的實施方案L210a的流程圖,所述實施方案L210a包括子任務L212、L214和L216。對於待檢查的最小音調分數(例如,滯後/4),任務L212在中心從終端音調峰值偏移實質上等於音調分數(例如,在截斷或捨入誤差內)的距離的小窗口 (例如,五個樣本)內進行搜索,以找到具有(例如,在振幅、量值或能量方面的)最大值的樣本。圖18A說明此操作。
任務T214評估最大值樣本(即,「候選者」)的一個或一個以上特徵,且將這些值與相應的閾值進行比較。經評估的特徵可包括候選者的樣本能量、候選者能量與平均幀能量(例如,峰值對RMS能量)的比率和/或候選者能量與終端峰值能量的比率。任務L214 可經配置以按任何次序執行此類評估,且評估可彼此串行和/或並行地執行。
對於任務L214來說,還可能需要使候選者的鄰域與終端音調峰值的類似鄰域相關。對於此特徵評估來說,任務L214通常經配置以使以候選者為中心的長度為m個樣本的段與以終端音調峰值為中心的相等長度的段相關。在一個實例中,m的值等於十七個樣本。可能需要配置任務L214以執行正規化相關(例如,具有在零到一的範圍內的結果)。可能需要配置任務L214以重複以(例如)候選者之前和之後的一個樣本為中心的長度為 Nl的段的相關(例如,以考量定時偏移和/或取樣誤差)並選擇最大相關結果。對於相關窗口將延伸超出幀邊界的狀況來說,可能需要移位或截斷相關窗口。(對於相關窗口經截斷的狀況來說,可能需要正規化相關結果,除非所述相關結果已被正規化。)在一個實例中, 如果滿足展示為圖19A中的各欄的三組條件中的任一者,那麼接受候選者作為鄰近音調峰值,其中閾值T可等於六。
如果任務T214找到鄰近音調峰值,那麼任務L216將當前滯後估計計算為終端音調峰值與鄰近音調峰值之間的距離。否則,任務L210a在終端峰值的另一側上反覆(如圖 18B中所示),接著對於待檢查的其它音調分數在終端峰值的兩側之間從最小到最大交替, 直到找到鄰近音調峰值為止(如圖18C到圖18F中所示)。如果在終端音調峰值與最接近的幀邊界之間找到鄰近音調峰值,那麼終端音調峰值被重新標記為鄰近音調峰值,且新峰值被標記為終端音調峰值。在替代實施方案中,任務L210經配置以在前導側之前在終端音調峰值的末尾側(即,在任務LlOO中已搜索的側)上進行搜索。
如果分數滯後測試任務L210並不定位音調峰值,那麼任務L220根據初始滯後估計(例如,在從終端峰值位置偏移初始滯後估計的窗口內)搜索鄰近於終端音調峰值的音調峰值。圖17B展示任務L220的實施方案L220a的流程圖,所述實施方案L220a包括子任務L222、L224、L226和L228。任務L222在以距最終峰值的左側一個滯後的距離為中心的寬度為WL3的窗口內找到候選者(例如,具有在振幅或量值方面的最大值的樣本)(如圖19B 中所示,其中開圓指示終端音調峰值)。在一個實例中,WL3的值等於初始滯後估計的0.55 倍。任務L224評估候選樣本的能量。舉例來說,任務L224可經配置以確定候選者的能量的量度(例如,樣本能量與幀平均能量的比率,例如,峰值對RMS能量)是否大於(或者,不小於)對應的閾值TH3。TH3的實例值包括1、1· 5、3和6。
任務L226使候選者的鄰域與終端音調峰值的類似鄰域相關。任務L226通常經配置以使以候選者為中心的長度為N2個樣本的段與以終端音調峰值為中心的相等長度的段相關。N2的值的實例包括十、十一和十七個樣本。可能需要配置任務L226以執行正規化相關。可能需要配置任務L226以重複以(例如)候選者之前和之後的一個樣本為中心的段的相關(例如,以考量定時偏移和/或取樣誤差)並選擇最大相關結果。對於相關窗口將延伸超出幀邊界的狀況來說,可能需要移位或截斷相關窗口。(對於相關窗口經截斷的狀況來說,可能需要正規化相關結果,除非所述相關結果已被正規化。)任務L226還確定相關結果是否大於(或者,不小於)對應的閾值TH4。TH4的實例值包括0. 75、0.65和0.45。可根據不同組的TH3和TH4值來組合任務L224和L226的測試。在一個此類實例中,如果以下若干組值中的任一者產生正結果,那麼L224和L226的結果為正TH3 = 1且TH4 = 0. 75 ; TH3 = 1. 5 且 TH4 = 0. 65 ;TH3 = 3 且 TH4 = 0. 45 ;TH3 = 6 (在此狀況下,任務 L226 的結果被視為正)。
如果任務L224和L226的結果為正,那麼候選者被接受作為鄰近音調峰值,且任務 L228將當前滯後估計計算為此樣本與終端音調峰值之間的距離。任務L224和L226可以任一次序和/或彼此並行地執行。任務L220還可實施成僅包括任務L224和L226中的一者。如果任務L220在未找到鄰近音調峰值的情況下結束,那麼可能需要在終端音調峰值的末尾側上反覆任務L220(如圖19C中所示,其中開圓指示終端音調峰值)。
如果任務L210和L220中的任一者均不定位音調峰值,那麼任務L230在終端音調峰值的前導側上執行對音調峰值的開放窗口搜索。圖17C展示任務L230的實施方案L230a 的流程圖,所述實施方案L230a包括子任務L232、L234、L236和L238。在距終端音調峰值某一距離Dl的樣本處,任務L232找到相對於平均幀能量的能量超出(或者,不小於)閾值 (例如,THl)的樣本。圖20A說明此操作。在一個實例中,Dl的值為最小容許滯後值(例如,二十個樣本)。任務L234在此樣本的寬度為WL4的窗口內找到候選者(例如,具有在振幅或量值方面的最大值的樣本)(如圖20B中所示)。在一個實例中,WL4的值等於二十個樣本。
任務L236使候選者的鄰域與終端音調峰值的類似鄰域相關。任務L236通常經配置以使以候選者為中心的長度為N3個樣本的段與以終端音調峰值為中心的相等長度的段相關。在一個實例中,N3的值等於十一個樣本。可能需要配置任務L326以執行正規化相關。可能需要配置任務L326以重複以(例如)候選者之前和之後的一個樣本為中心的段的相關(例如,以考量定時偏移和/或取樣誤差)並選擇最大相關結果。對於相關窗口將延伸超出幀邊界的狀況來說,可能需要移位或截斷相關窗口。(對於相關窗口經截斷的狀況來說,可能需要正規化相關結果,除非所述相關結果已被正規化。)任務T326確定相關結果是否超出(或者,不小於)閾值TH5。在一個實例中,TH5的值等於0.45。如果任務L236 的結果為正,那麼候選者被接受作為鄰近音調峰值,且任務T238將當前滯後估計計算為此樣本與終端音調峰值之間的距離。否則,任務L230a跨越幀反覆(例如,如圖20C中所示, 開始於先前搜索窗口的左側),直到找到音調峰值或搜索完為止。
當滯後估計任務L200已結束時,任務L300執行以定位幀中的任何其它音調脈衝。 任務L300可經實施以使用相關和當前滯後估計來定位更多脈衝。舉例來說,任務L300可經配置以使用例如相關和樣本對RMS能量值等準則來測試圍繞滯後估計的窄窗口內的最大值樣本。與滯後估計任務L200相比,任務L300可經配置以使用較小搜索窗口和/或寬鬆的準則(例如,較低閾值),尤其在已找到鄰近於終端音調峰值的峰值的情況下。舉例來說, 在開始幀或其它過渡幀中,脈衝形狀可改變,以使得幀內的一些脈衝可能並非強烈相關,且可能需要對於第二脈衝之後的脈衝放鬆或甚至忽略相關準則,只要脈衝的振幅足夠高且位置(例如,根據當前滯後值)為正確的便可。可能需要最小化漏掉有效脈衝的機率,且尤其對於大滯後值來說,幀的有聲部分可能並非非常有峰的。在一個實例中,方法M300實現每幀最多八個音調脈衝。
任務L300可經實施以計算下一音調峰值的兩個或兩個以上不同候選者並根據這些候選者中的一者選擇音調峰值。舉例來說,任務L300可經配置以基於樣本值來選擇候選樣本並基於相關結果來計算候選距離。圖21展示任務L300的實施方案L302的流程圖,其包括子任務L310、L320、L330、L340和L350。任務L310初始化候選者搜索的錨定位置。舉例來說,任務L310可經配置以使用最新接受的音調峰值的位置作為初始錨定位置。在任務 L302的第一反覆中,例如,錨定位置可為鄰近於終端音調峰值的音調峰值的位置(如果此類峰值由任務L200定位)或另外為終端音調峰值的位置。對於任務L310來說,還可能需要初始化滯後乘數m (例如,初始化為值1)。
任務L320選擇候選樣本並計算候選距離。任務L320可經配置以如圖22k中所示搜索窗口內的這些候選者,其中大的有界水平線指示當前幀,左側大垂直線指示幀開始,右側大垂直線指示幀結束,點指示錨定位置,且陰影框指示搜索窗口。在此實例中,窗口以距錨定位置的距離為當前滯後估計與滯後乘數m的乘積的樣本為中心,且所述窗口向左(即, 在時間上向後)延伸WS個樣本且向右(即,在時間上向前)延伸(WS-I)個樣本。
任務L320可經配置以將窗口大小參數WS初始化為當前滯後估計的五分之一的值。對於窗口大小參數WS來說,可能需要至少具有最小值(例如,十二個樣本)。或者,如果尚未找到鄰近於終端音調峰值的音調峰值,那麼對於任務L320來說,可能需要將窗口大小參數WS初始化為可能較大值(例如,當前滯後估計的一半)。
為了找到候選樣本,任務L320搜索窗口以找到具有最大值的樣本並記錄此樣本的位置和值。任務L320可經配置以在搜索窗口內選擇值具有最高振幅的樣本。或者,任務 L320可經配置以在搜索窗口內選擇值具有最高量值或最高能量的樣本。
候選距離對應於搜索窗口內的與錨定位置的相關為最高的樣本。為了找到此樣本,任務L320使窗口內的每一樣本的鄰域與錨定位置的類似鄰域相關,且記錄最大相關結果和對應的距離。任務L320通常經配置以使以每一測試樣本為中心的長度為N4個樣本的段與以錨定位置為中心的相等長度的段相關。在一個實例中,N4的值為十一個樣本。對於任務L320來說,可能需要執行正規化相關。
如上所陳述,任務T320可經配置以使用同一搜索窗口來找到候選樣本和候選距離。然而,任務T320還可經配置以將不同搜索窗口用於這兩個操作。圖22B展示任務L320 在具有大小參數WSl的窗口上執行對候選樣本的搜索的實例,且圖22C展示任務L320的同一例項在具有為不同值的大小參數WS2的窗口上執行對候選距離的搜索的實例。
任務L302包括選擇候選樣本和對應於候選距離的樣本中的一者作為音調峰值的子任務L330。圖23展示任務L330的實施方案L332的流程圖,所述實施方案L332包括子任務 L334、L336 和 L338。
任務L334測試候選距離。任務L334通常經配置以將相關結果與閾值進行比較。 對於任務L334來說,還可能需要將基於對應樣本的能量的量度(例如,樣本能量與幀平均能量的比率)與閾值進行比較。對於已識別僅一個音調脈衝的狀況來說,任務L334可經配置以驗證候選距離至少等於最小值(例如,最小容許滯後值,例如二十個樣本)。圖24A的表的各欄展示基於此類參數的值的四組不同測試條件,所述參數值可由任務L334的實施方案使用以確定是否接受對應於候選距離的樣本作為音調峰值。
對於任務L334接受對應於候選距離的樣本作為音調峰值的狀況來說,如果所述樣本具有較高振幅(或者,較高量值),那麼可能需要向左或向右調整峰值位置(例如,調整一個樣本)。作為替代或另外,對於任務L334來說,在此類狀況下可能需要針對任務L300 的其它反覆將窗口大小參數WS的值設定為較小值(例如,十個樣本)(或將參數WSl和WS2 中的一者或兩者設定為此類值)。如果新音調峰值僅為對於幀確認的第二者,那麼對於任務 L334來說,還可能需要將當前滯後估計計算為錨定位置與峰值位置之間的距離。
任務L302包括測試候選樣本的子任務L336。任務L336可經配置以確定樣本能量的量度(例如,樣本能量與幀平均能量的比率)是否超出(或者,不小於)閾值。可能需要依據對於幀已確認多少個音調峰值而改變閾值。舉例來說,對於任務L336來說,可能需要使用較低閾值(例如,T-3)(如果對於幀已確認僅一個音調峰值)且使用較高閾值(例如, T)(如果對於幀已確認一個以上音調峰值)。
對於任務L336選擇候選樣本作為第二經確認的音調峰值的狀況,對於任務L336 來說,還可能需要基於與終端音調峰值的相關的結果而向左或向右調整峰值位置(例如, 調整一個樣本)。在此狀況下,任務L336可經配置以使以每一此樣本為中心的長度為N5個樣本的段與以終端音調峰值為中心的相等長度的段相關(在一個實例中,N5的值為十一個樣本)。作為替代或另外,對於任務L336來說,在此類狀況下可能需要針對任務L300的其它反覆將窗口大小參數WS的值設定為較小值(例如,十個樣本)(或將參數WSl和WS2中的一者或兩者設定為此類值)。
對於測試任務L334和L336中的兩者已失敗且對於幀已確認僅一個音調峰值的狀況來說,任務L302可經配置以(經由任務L350)遞增滯後估計乘數m的值,以m的新值反覆任務L320從而選擇新候選樣本和新候選距離,且對於新候選者重複任務L332。
如圖23中所示,任務L336可經布置以在候選距離測試任務L334失敗後即刻執行。在任務L332的另一實施方案中,候選樣本測試任務L336可經布置以首先執行,以使得候選距離測試任務L334僅在任務L336失敗後即刻執行。
任務L332還包括子任務L338。對於測試任務L334和L336中的兩者已失敗且對於幀已確認一個以上音調峰值的狀況來說,任務L338測試候選者中的一者或兩者與當前滯後估計的一致性。
圖24B展示任務L338的實施方案L338a的流程圖。任務L338a包括測試候選距離的子任務L362。如果候選距離與當前滯後估計之間的絕對差小於(或者,不大於)閾值, 那麼任務L362接受候選距離。在一個實例中,閾值為三個樣本。對於任務L362來說,還可能需要驗證相關結果和/或對應樣本的能量是否為高得可接受。在一個此實例中,如果相關結果不小於0. 35且樣本能量與幀平均能量的比率不小於0. 5,那麼任務L362接受小於 (或者,不大於)閾值的候選距離。對於任務L362接受候選距離的狀況來說,如果此樣本具有較高振幅(或者,較高量值),那麼對於任務L362來說,還可能需要向左或向右調整峰值位置(例如,調整一個樣本)。
任務L338a還包括測試候選樣本的滯後一致性的子任務L364。如果(A)候選樣本與最接近的音調峰值之間的距離與(B)當前滯後估計之間的絕對差小於(或者,不大於) 閾值,那麼任務L364接受候選樣本。在一個實例中,閾值為低值,例如兩個樣本。對於任務 L364來說,還可能需要驗證候選樣本的能量為高得可接受。在一個此實例中,如果候選樣本通過滯後一致性測試且如果樣本能量與幀平均能量的比率不小於(T-5),那麼任務L364接受所述候選樣本。
展示於圖24B中的任務L338a的實施方案還包括另一子任務L366,其對照比任務 L364的低閾值寬鬆的界限測試候選樣本的滯後一致性。如果(A)候選樣本與最接近的經確認峰值之間的距離與(B)當前滯後估計之間的絕對差小於(或者,不大於)閾值,那麼任務 L366接受候選樣本。在一個實例中,閾值為(0. 175*滯後)。對於任務L366來說,還可能需要驗證候選樣本的能量為高得可接受。在一個此實例中,如果樣本能量與幀平均能量的比率不小於(T-3),那麼任務L366接受候選樣本。
如果候選樣本和候選距離兩者均未通過所有測試,那麼任務L302(經由任務 L350)遞增滯後估計乘數m,以m的新值反覆任務L320從而選擇新候選樣本和新候選距離, 並針對新候選者重複任務L330直到到達幀邊界為止。一旦已確認新音調峰值,便可能需要
33在同一方向搜索另一峰值直到到達幀邊界為止。在此狀況下,任務L340將錨定位置移動到新音調峰值,並將滯後估計乘數m的值復位為一。當到達幀邊界時,可能需要將錨定位置初始化到終端音調峰值位置並在相反方向上重複任務L300。
滯後估計從一個幀到下一幀的較大程度減小可指示音調溢出錯誤。此類錯誤由音調頻率的下降引起,以使得當前幀的滯後值超出最大容許滯後值。對於方法M300來說,可能需要將先前滯後估計與當前滯後估計之間的絕對或相對差與閾值(例如,在計算新滯後估計時或在方法結束時)進行比較並在檢測到錯誤的情況下僅保持幀的最大音調峰值。在一個實例中,閾值等於先前滯後估計的50%。
對於具有兩個擁有大量值平方比的脈衝的分類為瞬變的幀(例如,通常朝向字的結束的具有大音調改變的幀)來說,可能需要在接受較小峰值作為音調峰值之前在整個當前滯後估計上而非僅在較小窗口上進行相關。此類狀況可在男性話音中出現,所述男性話音通常具有可在小窗口上與主峰值良好相關的次峰值。任務L200和L300中的一者或兩者可實施成包括此類操作。
應明確地注意到,方法M300的滯後估計任務L200可為與方法MlOO的滯後估計任務E130相同的任務。應明確地注意到,方法M300的終端音調峰值定位任務LlOO可為與方法MlOO的終端音調峰值位置計算任務E120相同的任務。對於執行方法MlOO和M300兩者的應用來說,可能需要布置音調脈衝形狀選擇任務EllO以在結束方法M300後即刻執行。
圖27A展示經配置以檢測語音信號的幀的音調峰值的設備MF300的框圖。設備 MF300包括用於定位幀的終端音調峰值(例如,如上文參考任務LlOO的各種實施方案所描述)的裝置ML100。設備MF300包括用於估計幀的音調滯後(例如,如上文參考任務L200 的各種實施方案所描述)的裝置ML200。設備MF300包括用於定位幀的額外音調峰值(例如,如上文參考任務L300的各種實施方案所描述)的裝置ML300。
圖27B展示經配置以檢測語音信號的幀的音調峰值的設備A300的框圖。設備A300 包括終端音調峰值定位器A310,其經配置以定位幀的終端音調峰值(例如,如上文參考任務LlOO的各種實施方案所描述)。設備A300包括音調滯後估計器A320,其經配置以估計幀的音調滯後(例如,如上文參考任務L200的各種實施方案所描述)。設備A300包括額外音調峰值定位器A330,其經配置以定位幀的額外音調峰值(例如,如上文參考任務L300的各種實施方案所描述)。
圖27C展示經配置以檢測語音信號的幀的音調峰值的設備MF350的框圖。設備 MF350包括用於檢測幀的音調峰值(例如,如上文參考任務LlOO的各種實施方案所描述) 的裝置ML150。設備MF350包括用於選擇候選樣本(例如,如上文參考任務L320和L320b 的各種實施方案所描述)的裝置ML250。設備MF350包括用於選擇候選距離(例如,如上文參考任務L320和L320a的各種實施方案所描述)的裝置ML260。設備MF350包括用於選擇候選樣本與對應於候選距離的樣本中的一者作為幀的音調峰值(例如,如上文參考任務 L330的各種實施方案所描述)的裝置ML350。
圖27D展示經配置以檢測語音信號的幀的音調峰值的設備A350的框圖。設備A350 包括峰值檢測器150,其經配置以檢測幀的音調峰值(例如,如上文參考任務LlOO的各種實施方案所描述)。設備A350包括樣本選擇器250,其經配置以選擇候選樣本(例如,如上文參考任務L320和L320b的各種實施方案所描述)。設備A350包括距離選擇器260,其經配置以選擇候選距離(例如,如上文參考任務L320和L320a的各種實施方案所描述)。設備 A350包括峰值選擇器350,其經配置以選擇候選樣本和對應於候選距離的樣本中的一者作為幀的音調峰值(例如,如上文參考任務L330的各種實施方案所描述)。
可能需要實施語音編碼器AE10、任務E100、第一幀編碼器100和/或裝置FE100以產生唯一地指示幀的終端音調脈衝的位置的經編碼的幀。終端音調脈衝的位置與滯後值組合為解碼可能缺乏此類時間同步性信息的隨後的幀(例如,使用例如QPPP等解碼方案編碼的幀)提供重要的相位信息。還可能需要將傳達此位置信息所需的位的數目最小化。雖然通常將需要8個位(一般來說為!"Iog2W"!個位)來表示160位(一般來說為N位)幀中的唯一位置,但可使用如本文中所描述的方法來僅以7個位(一般來說為Llog2 JVj個位)編碼終端音調脈衝的位置。此方法保留所述7位值中的一者(例如,127(—般來說為(2Ll08^J-l) )以用作音調脈衝位置模式值。在此描述中,術語「模式值」指示參數(例如,音調脈衝位置或所估計的音調周期)可能值,其經指派以指示操作模式的改變而並非所述參數的實際值。
對於給出終端音調脈衝相對於最後樣本(即,幀的最終邊界)的位置的情形,幀將與以下三種狀況中的一者匹配 狀況1 終端音調脈衝相對於幀的最後樣本的位置小於(2Llog^J-l )(例如,對於如圖29A中所展示的160位幀,小於127),且幀含有一個以上音調脈衝。在此狀況下,將終端音調脈衝的位置編碼成Llog2 #」個位(7個位),且還發射音調滯後(例如,以7個位)。
狀況2 終端音調脈衝相對於幀的最後樣本的位置小於(2Ll082ivJ-l )(例如,對於如圖29A中所展示的160位幀,小於127),且幀僅含有一個音調脈衝。在此狀況下,將終端音調脈衝的位置編碼成Llog2 #」個位(例如,7個位),且將音調滯後設定為滯後模式值(在此實例中,為(2Llog^J-l)(例如,127))。
狀況3 如果終端音調脈衝相對於幀的最後樣本的位置大於(-2)(例如,對於如圖29B中所展示的160位幀,大於126),那麼未必可能幀含有一個以上音調脈衝。對於 160位幀和8kHz的取樣率,此將暗示幀的約第一個20%中的至少250Hz的音調下的活動, 在幀的剩餘部分中無音調脈衝。對於此類幀來說,將未必可能分類為開始幀。在此狀況下, 代替實際脈衝位置發射音調脈衝位置模式值(例如,如上文所註明的2Ltog…」-1或127),且使用滯後位來載運終端音調脈衝相對於幀的第一樣本(即,幀的初始邊界)的位置。對應的解碼器可經配置以測試經編碼的幀的位置位是否指示音調脈衝位置模式值(例如,脈衝位置(2Ll°fciV」-l))。如果是,那麼解碼器可接著改為從經編碼的幀的滯後位獲得終端音調脈衝相對於幀的第一樣本的位置。
在如應用於160位幀的狀況3中,33個此類位置是可能的(即,0到32)。通過將所述位置中的一者捨入到另一者(例如,通過將位置159捨入到位置158,或通過將位置127 捨入到位置128),可僅以5個位來發射實際位置,進而使經編碼的幀的7個滯後位中的兩者保持空閒以載運其它信息。將音調脈衝位置中的一者或一者以上捨入到其它音調脈衝位置的此類方案還可用於任何其它長度的幀以減少待編碼的唯一音調脈衝位置的總數目,可能減少二分之一(例如,通過將每一對鄰近位置捨入到用於編碼的單一位置)或甚至二分之一以上。
圖28展示根據一般配置的方法M500的流程圖,所述方法M500根據上述三種狀況操作。方法M500經配置以使用r個位編碼q位幀中的終端音調脈衝的位置,其中r小於 log2q。在一個如上文所論述的實例中,q等於160且r等於7。可在語音編碼器AElO的實施方案內(例如,在任務ElOO的實施方案、第一幀編碼器100的實施方案和/或裝置FE100 的實施方案內)執行方法M500。可大體針對r的大於1的任何整數值應用此類方法。對於語音應用來說,r通常具有在6到9 (對應於q的從65到1023的值)的範圍中的值。
方法M500包括任務T510、T520和Τ530。任務Τ510確定終端音調脈衝位置(相對於幀的最後樣本)是否大於(2r-2)(例如,大於126)。如果結果為真,那麼幀與上述狀況3 匹配。在此狀況下,任務T520將終端音調脈衝位置位(例如,載運經編碼的幀的包的終端音調脈衝位置位)設定為音調脈衝位置模式值(例如,如上文所註明的2r-l或127)且將滯後位(例如,所述包的滯後位)設定為等於終端音調脈衝相對於幀的第一樣本的位置。
如果任務T510的結果為假,那麼任務T530確定幀是否僅含有一個音調脈衝。如果任務T530的結果為真,那麼幀與上述狀況2匹配,且不需要發射滯後值。在此狀況下,任務T540將滯後位(例如,所述包的滯後位)設定為滯後模式值(例如,2匸1)。
如果任務T530的結果為假,那麼幀含有一個以上音調脈衝且終端音調脈衝相對於幀的結束的位置不大於(2〔2)(例如,不大於126)。此類幀與上述狀況1匹配,且任務 T550以r個位對所述位置進行編碼且將滯後值編碼成滯後位。
對於給出終端音調脈衝相對於第一樣本(即,初始邊界)的位置的情形來說,幀將與以下三種狀況中的一者匹配 狀況1 終端音調脈衝相對於幀的第一樣本的位置大於(N-2Ll。g2iV」)(例如,對於如圖29C中所展示的160位幀,大於32),且幀含有一個以上音調脈衝。在此狀況下,將終端音調脈衝的位置負(N-2Ltog^」)編碼成[_log2 #」個位(例如,7個位),且還發射音調滯後(例如,以7個位)。
狀況2 終端音調脈衝相對於幀的第一樣本的位置大於(N-2Ll°g2JVj)(例如,對於如圖29C中所展示的160位幀,大於32),且幀僅含有一個音調脈衝。在此狀況下,將終端音調脈衝的位置負(N_2U。g2〃」)編碼成Llog2 #」個位(例如,7個位),且將音調滯後設定為滯後模式值(在此實例中,為2Ll°g2iV」-l (例如,127))。
狀況3 如果終端音調脈衝的位置不大於(N-2Ll°g2iV」)(例如,對於如圖29D中所展示的160位幀,不大於32),那麼未必可能幀含有一個以上音調脈衝。對於160位幀和 8kHz的取樣率,此將暗示幀的約第一個20%中的至少250Hz的音調下的活動,在幀的剩餘部分中無音調脈衝。對於此類幀來說,將未必可能分類為開始幀。在此狀況下,代替實際脈衝位置發射音調脈衝位置模式值(例如,2Ll。g2jv」-l或127),且使用滯後位來發射終端音調脈衝相對於幀的第一樣本(即,初始邊界)的位置。對應的解碼器可經配置以測試經編碼的幀的位置位是否指示音調脈衝位置模式值(例如,脈衝位置(2^_"」-1))。如果是,那麼解碼器可接著改為從經編碼的幀的滯後位獲得終端音調脈衝相對於幀的第一樣本的位置。
在如應用於160位幀的狀況3中,33個此類位置是可能的(0到32)。通過將所述位置中的一者捨入到另一者(例如,通過將位置0捨入到位置1,或通過將位置32捨入到位置31),可僅以5個位來發射實際位置,進而使經編碼的幀的7個滯後位中的兩者保持空閒以載運其它信息。將脈衝位置中的一者或一者以上捨入到其它脈衝位置的此類方案還可用於任何其它長度的幀以減少待編碼的唯一位置的總數目,可能減少二分之一(例如,通過將每一對鄰近位置捨入到用於編碼的單一位置)或甚至二分之一以上。所屬領域的技術人員將認識到,可針對給出終端音調脈衝相對於第一樣本的位置的情形修改方法M500。
圖30A展示根據一般配置的處理語音信號幀的方法M400的流程圖,所述方法M400 包括任務E310和E320。可在語音編碼器AElO的實施方案內(例如,在任務ElOO的實施方案、第一幀編碼器100的實施方案和/或裝置FE100的實施方案內)執行方法M400。任務 E310計算第一語音信號幀內的位置(「第一位置」)。所述第一位置為所述幀的終端音調脈衝相對於所述幀的最後樣本(或者,相對於所述幀的第一樣本)的位置。任務E310可實施為如本文中所描述的脈衝位置計算任務E120或LlOO的例項。任務E320產生載運第一語音信號幀且包括第一位置的第一包。
方法M400還包括任務E330和E340。任務E330計算第二語音信號幀內的位置 (「第二位置」)。所述第二位置為所述幀的終端音調脈衝相對於(A)所述幀的第一樣本和 (B)所述幀的最後樣本中的一者的位置。任務E330可實施為如本文中所描述的脈衝位置計算任務E120的例項。任務E340產生載運第二語音信號幀且包括幀內的第三位置的第二包。所述第三位置為終端音調脈衝相對於幀的第一樣本和幀的最後樣本中的另一者的位置。換句話說,如果任務T330計算相對於最後樣本的第二位置,那麼第三位置相對於第一樣本,且反之亦然。
在一個特定實例中,第一位置為第一語音信號幀的最終音調脈衝相對於幀的最終樣本的位置,第二位置為第二語音信號幀的最終音調脈衝相對於幀的最終樣本的位置,且第三位置為第二語音信號幀的最終音調脈衝相對於幀的第一樣本的位置。
通過方法M400處理的語音信號幀通常為LPC殘餘信號的幀。第一和第二語音信號幀可來自同一話音通信會話或可來自不同話音通信會話。舉例來說,第一和第二語音信號幀可來自由一人說出的語音信號或可來自各自由不同的人說出的兩個不同語音信號。語音信號幀可在計算音調脈衝位置之前和/或之後經歷其它處理操作(例如,感知加權)。
對於第一包與第二包兩者來說,可能需要符合指示不同信息項的在包內的對應位置的包描述(也稱為包模板)。產生包的操作(例如,如由任務E320和E340執行)可包括根據此類包模板將不同信息項寫入到緩衝器。可能需要根據此類模板產生包以促進包的解碼(例如,通過根據由包載運的值在包內的位置使所述值與對應的參數相關聯)。
包模板的長度可等於經編碼的幀的長度(例如,對於四分之一速率解碼方案,為 40個位)。在一個此類實例中,包模板包括用以指示LSP值和編碼模式的17位區域、用以指示終端音調脈衝的位置的7位區域、用以指示所估計的音調周期的7位區域、用於指示脈衝形狀的7位區域和用以指示增益簡檔的2位區域。其它實例包括用於LSP值的區域較小且用於增益簡檔的區域對應地較大的模板。或者,包模板可比經編碼的幀長(例如,對於包載運一個以上經編碼的幀的狀況)。包產生操作或經配置以執行此類操作的包產生器還可經配置以產生不同長度的包(例如,對於某一幀信息不如其它幀信息頻繁地編碼的狀況)。
在一個一般狀況下,方法M400經實施以使用包括第一和第二組位位置的包模板。 在此類狀況下,任務E320可經配置以產生第一包以使得第一位置佔用第一組位位置,且任務E340可經配置以產生第二包以使得第三位置佔用第二組位位置。對於第一組位位置與第二組位位置來說,可能需要不相交(即,使得無包的位在兩組中)。圖31A展示包括不相交的第一組位位置和第二組位位置的包模板PTlO的一個實例。在此實例中,第一組和第二組中的每一者為一系列連續的位位置。然而,大體來說,一組內的位位置不需要彼此鄰近。 圖31B展示包括不相交的第一組位位置和第二組位位置的另一包模板PT20的實例。在此實例中,第一組包括彼此由一個或一個以上其它位位置分離的兩個位位置系列。包模板中的兩組不相交的位位置甚至可至少部分地交錯,如(例如)圖31C中所說明。
圖30B展示方法M400的實施方案M410的流程圖。方法M410包括將第一位置與閾值進行比較的任務E350。任務E350產生在第一位置小於所述閾值時具有第一狀態且在第一位置大於所述閾值時具有第二狀態的結果。在此狀況下,任務E320可經配置以響應於具有第一狀態的任務E350的結果產生第一包。
在一個實例中,任務E350的結果在第一位置小於閾值時具有第一狀態且否則 (即,在第一位置不小於閾值時)具有第二狀態。在另一實例中,任務E350的結果在第一位置不大於閾值時具有第一狀態且否則(即,在第一位置大於閾值時)具有第二狀態。任務 E350可實施為如本文中所描述的任務T510的例項。
圖30C展示方法M410的實施方案M420的流程圖。方法M420包括將第二位置與閾值進行比較的任務E360。任務E360產生在第二位置小於所述閾值時具有第一狀態且在第二位置大於所述閾值時具有第二狀態的結果。在此狀況下,任務E340可經配置以響應於具有第二狀態的任務E360的結果產生第二包。
在一個實例中,任務E360的結果在第二位置小於閾值時具有第一狀態且否則 (即,在第二位置不小於閾值時)具有第二狀態。在另一實例中,任務E360的結果在第二位置不大於閾值時具有第一狀態且否則(即,在第二位置大於閾值時)具有第二狀態。任務 E360可實施為如本文中所描述的任務T510的例項。
方法M400通常經配置以基於第二位置來獲得第三位置。舉例來說,方法M400可包括通過從幀長度減去第二位置且遞減結果或通過從比幀長度小一的值減去第二位置或通過執行基於第二位置和幀長度的另一操作計算第三位置的任務。然而,方法M400可以其它方式配置以根據本文中所描述(例如,參考任務E120)的音調脈衝位置計算操作中的任一者獲得第三位置。
圖32A展示方法M400的實施方案M430的流程圖。方法M430包括估計幀的音調周期的任務E370。任務E370可實施為如本文中所描述的音調周期估計任務E130或L200的例項。在此狀況下,包產生任務E320經實施以使得第一包包括指示所估計的音調周期的經編碼的音調周期值。舉例來說,任務E320可經配置以使得經編碼的音調周期值佔用包的第二組位位置。方法M430可經配置以計算經編碼的音調周期值(例如,在任務E370內)以使得其將所估計的音調周期指示為相對於最小音調周期值(例如,20)的偏移。舉例來說, 方法M430(例如,任務E370)可經配置以通過從所估計的音調周期減去最小音調周期值而計算經編碼的音調周期值。
圖32B展示方法M430的實施方案M440的流程圖,所述實施方案M440還包括如本文中所描述的比較任務E350。圖32C展示方法M440的實施方案M450的流程圖,所述實施方案M450還包括如本文中所描述的比較任務E360。
圖33A展示經配置以處理語音信號幀的設備MF400的框圖。設備MF100包括用於計算第一位置(例如,如上文參考任務E310、E120和/或LlOO的各種實施方案所描述) 的裝置FE310和用於產生第一包(例如,如上文參考任務E320的各種實施方案所描述)的裝置FE320。設備MF100包括用於計算第二位置(例如,如上文參考任務E330、E120和/ 或LlOO的各種實施方案所描述)的裝置FE330和用於產生第二包(例如,如上文參考任務 E340的各種實施方案所描述)的裝置FE340。設備MF400還可包括用於計算第三位置(例如,如上文參考方法M400所描述)的裝置。
圖33B展示設備MF400的實施方案MF410的框圖,所述實施方案MF410還包括用於將第一位置與閾值進行比較(例如,如上文參考任務E350的各種實施方案所描述)的裝置FE350。圖33C展示設備MF410的實施方案MF420的框圖,所述實施方案MF420還包括用於將第二位置與閾值進行比較(例如,如上文參考任務E360的各種實施方案所描述)的裝置 FE360。
圖34A展示設備MF400的實施方案MF430的框圖。設備MF430包括用於估計第一幀的音調周期(例如,如上文參考任務E370、E130和/或L200的各種實施方案所描述)的裝置FE370。圖34B展示設備MF430的實施方案MF440的框圖,所述實施方案MF440包括裝置FE370。圖34C展示設備MF440的實施方案MF450的框圖,所述實施方案MF450包括裝置 FE360。
圖35A展示根據一般配置用於處理語音信號幀的設備(例如,幀編碼器)A400的框圖,所述設備A400包括音調脈衝位置計算器160和包產生器170。音調脈衝位置計算器 160經配置以計算第一語音信號幀內的第一位置(例如,如上文參考任務E310、E120和/ 或LlOO所描述)且計算第二語音信號幀內的第二位置(例如,如上文參考任務E330、E120 和/或LlOO所描述)。舉例來說,音調脈衝位置計算器160可實施為如本文中所描述的音調脈衝位置計算器120或終端峰值定位器A310的例項。包產生器170經配置以產生表示第一語音信號幀且包括第一位置的第一包(例如,如上文參考任務E320所描述)且產生表示第二語音信號幀且包括第二語音信號幀內的第三位置的第二包(例如,如上文參考任務 E340所描述)。
包產生器170可經配置以產生包括指示經編碼的幀的其它參數值(例如,編碼模式、脈衝形狀、一個或一個以上LSP向量和/或增益簡檔)的信息的包。包產生器170可經配置以從設備A400的其它元件和/或從包括設備A400的裝置的其它元件接收此信息。舉例來說,設備A400可經配置以執行LPC分析(例如,以產生語音信號幀)或從另一元件(例如,殘餘產生器RGlO的例項)接收LPC分析參數(例如,一個或一個以上LSP向量)。
圖35B展示設備A400的實施方案A402的框圖,所述實施方案A402還包括比較器 180。比較器180經配置以將第一位置與閾值進行比較並產生在第一位置小於所述閾值時具有第一狀態且在第一位置大於所述閾值時具有第二狀態的第一輸出(例如,如上文參考任務E350的各種實施方案所描述)。在此狀況下,包產生器170可經配置以響應於具有第一狀態的第一輸出而產生第一包。
比較器180還可經配置以將第二位置與閾值進行比較並產生在第二位置小於所述閾值時具有第一狀態且在第二位置大於所述閾值時具有第二狀態的第二輸出(例如,如上文參考任務E360的各種實施方案所描述)。在此狀況下,包產生器170可經配置以響應於具有第二狀態的第二輸出而產生第二包。
圖35C展示設備A400的實施方案A404的框圖,所述實施方案A404包括經配置以估計第一語音信號幀的音調周期(例如,如上文參考任務E370、E130和/或L200所描述) 的音調周期估計器190。舉例來說,音調周期估計器190可實施為如本文中所描述的音調周期估計器130或音調滯後估計器A320的例項。在此狀況下,包產生器170經配置以產生第一包以使得指示所估計的音調周期的一組位佔用第二組位位置。圖35D展示設備A402的實施方案A406的框圖,所述實施方案A406包括音調周期估計器190。
語音編碼器AElO可實施成包括設備A400。舉例來說,語音編碼器AE20的第一幀編碼器104可實施成包括設備A400的例項以使得音調脈衝位置計算器120還充當計算器 160 (音調周期估計器130可能還充當估計器190)。
圖36A展示根據一般配置解碼經編碼的幀(例如,包)的方法M550的流程圖。方法 M550 包括任務 D305、D310、D320、D330、D340、D350,和 D360。任務 D305 從經編碼的幀提取值P和L。對於經編碼的幀符合如本文中所描述的包模板的狀況來說,任務D305可經配置以從經編碼的幀的第一組位位置提取P且從經編碼的幀的第二組位位置提取L。任務 D310將P與音調位置模式值進行比較。如果P等於所述音調位置模式值,那麼任務D320從 L獲得相對於經解碼的幀的第一樣本和最後樣本中的一者的脈衝位置。任務D320還將值1 指派給幀中的脈衝的數目N。如果P不等於所述音調位置模式值,那麼任務D330從P獲得相對於經解碼的幀的第一樣本和最後樣本中的另一者的脈衝位置。任務D340將L與音調周期模式值進行進行比較。如果L等於所述音調周期模式值,那麼任務D350將值1指派給幀中的脈衝的數目N。否則,任務D360從L獲得音調周期值。在一個實例中,任務D360經配置以通過將最小音調周期值與L相加來計算音調周期值。如本文中所描述的幀解碼器300 或裝置FD100可經配置以執行方法M550。
圖37展示根據一般配置解碼包的方法M560的流程圖,所述方法M560包括任務 D410、D420和D430。任務D410從第一包(例如,如由方法M400的實施方案產生)提取第一值。對於第一包符合如本文中所描述的模板的狀況來說,任務D410可經配置以從所述包的第一組位位置提取第一值。任務D420將第一值與音調脈衝位置模式值進行比較。任務 D420可經配置以產生在第一值等於所述音調脈衝位置模式值時具有第一狀態且否則具有第二狀態的結果。任務D430根據第一值將音調脈衝布置於第一激勵信號內。任務D430可實施為如本文中所描述的任務DllO的例項且可經配置以響應於任務D420的結果具有第二狀態而執行。任務D430可經配置以將音調脈衝布置於第一激勵信號內以使得音調脈衝的峰值相對於第一樣本和最後樣本中的一者的位置與第一值一致。
方法M560還包括任務D440、D450、D460和D470。任務D440從第二包提取第二值。對於第二包符合如本文中所描述的模板的狀況來說,任務D440可經配置以從所述包的第一組位位置提取第二值。任務D470從第二包提取第三值。對於包符合如本文中所描述的模板的狀況來說,任務D470可經配置以從所述包的第二組位位置提取第三值。任務D450 將第二值與音調脈衝位置模式值進行比較。任務D450可經配置以產生在第二值等於所述音調脈衝位置模式值時具有第一狀態且否則具有第二狀態的結果。任務D460根據第三值將音調脈衝布置於第二激勵信號內。任務D460可實施為如本文中所描述的任務DllO的另一例項且可經配置以響應於任務D450的結果具有第一狀態而執行。
任務D460可經配置以將音調脈衝布置於第二激勵信號內以使得音調脈衝的峰值相對於第一樣本和最後樣本中的另一者的位置與第三值一致。舉例來說,如果任務D430將音調脈衝布置於第一激勵信號內以使得音調脈衝的峰值相對於第一激勵信號的最後樣本的位置與第一值一致,那麼任務D460可經配置以將音調脈衝布置於第二激勵信號內以使得音調脈衝的峰值相對於第二激勵信號的第一樣本的位置與第三值一致,且反之亦然。如本文中所描述的幀解碼器300或裝置FD100可經配置以執行方法M560。
圖38展示方法M560的實施方案M570的流程圖,所述實施方案M570包括任務D480 和D490。任務D480從第一包提取第四值。對於第一包符合如本文中所描述的模板的狀況來說,任務D480可經配置以從所述包的第二組位位置提取第四值(例如,經編碼的音調周期值)。基於第四值,任務D490將另一音調脈衝(「第二音調脈衝」)布置於第一激勵信號內。任務D490還可經配置以基於第一值將第二音調脈衝布置於第一激勵信號內。舉例來說,任務D490可經配置以相對於第一經配置的音調脈衝將第二音調脈衝布置於第一激勵信號內。任務D490可實施為如本文中所描述的任務D120的例項。
任務D490可經配置以布置第二音調峰值以使得兩個音調峰值之間的距離等於基於第四值的音調周期值。在此狀況下,任務D480或任務D490可經配置以計算所述音調周期值。舉例來說,任務D480或任務D490可經配置以通過將最小音調周期值與第四值相加來計算音調周期值。
圖39展示用於解碼包的設備MF560的框圖。設備MF560包括用於從第一包提取第一值(例如,如上文參考任務D410的各種實施方案所描述)的裝置FD410、用於將第一值與音調脈衝位置模式值進行比較(例如,如上文參考任務D420的各種實施方案所描述) 的裝置FD420,以及用於根據第一值將音調脈衝布置於第一激勵信號內(例如,如上文參考任務D430的各種實施方案所描述)的裝置FD430。裝置FD430可實施為如本文中所描述的裝置FDllO的例項。設備MF560還包括用於從第二包提取第二值(例如,如上文參考任務 D440的各種實施方案所描述)的裝置FD440、用於從第二包提取第三值(例如,如上文參考任務D470的各種實施方案所描述)的裝置FD470、用於將第二值與音調脈衝位置模式值進行比較(例如,如上文參考任務D450的各種實施方案所描述)的裝置FD450,以及用於根據第三值將音調脈衝布置於第二激勵信號內(例如,如上文參考任務D460的各種實施方案所描述)的裝置FD460。裝置FD460可實施為裝置FDllO的另一例項。
圖40展示設備MF560的實施方案MF570的框圖。設備MF570包括用於從第一包提取第四值(例如,如上文參考任務D480的各種實施方案所描述)的裝置FD480,以及用於基於第四值將另一音調脈衝布置於第一激勵信號內(例如,如上文參考任務D490的各種實施方案所描述)的裝置FD490。裝置FD490可實施為如本文中所描述的裝置FD120的例項。
圖36B展示用於解碼包的設備A560的框圖。設備A560包括經配置以從第一包提取第一值(例如,如上文參考任務D410的各種實施方案所描述)的包解析器510、經配置以將第一值與音調脈衝位置模式值進行比較(例如,如上文參考任務D420的各種實施方案所描述)的比較器520,以及經配置以根據第一值將音調脈衝布置於第一激勵信號內(例如, 如上文參考任務D430的各種實施方案所描述)的激勵信號產生器530。包解析器510還經配置以從第二包提取第二值(例如,如上文參考任務D440的各種實施方案所描述)且從第二包提取第三值(例如,如上文參考任務D470的各種實施方案所描述)。比較器520還經配置以將第二值與音調脈衝位置模式值進行比較(例如,如上文參考任務D450的各種實施方案所描述)。激勵信號產生器530還經配置以根據第三值將音調脈衝布置於第二激勵信號內(例如,如上文參考任務D460的各種實施方案所描述)。激勵信號產生器530可實施為如本文中所描述的第一激勵信號產生器310的例項。
在設備A560的另一實施方案中,包解析器510還經配置以從第一包提取第四值 (例如,如上文參考任務D480的各種實施方案所描述),且激勵信號產生器530還經配置以基於第四值將另一音調脈衝布置於第一激勵信號內(例如,如上文參考任務D490的各種實施方案所描述)。
語音解碼器ADlO可實施成包括設備A560。舉例來說,語音解碼器AD20的第一幀解碼器304可實施成包括設備A560的例項以使得第一激勵信號產生器310還充當激勵信號產生器530。
四分之一速率實現每幀40個位。在如由編碼任務E100、編碼器100或裝置FE100 的實施方案應用的過渡幀解碼格式(例如,包模板)的一個實例中,17位區域用以指示LSP 值和編碼模式,7位區域用以指示終端音調脈衝的位置,7位區域用以指示滯後,7位區域用以指示脈衝形狀,且2位區域用以指示增益簡檔。其它實例包括用於LSP值的區域較小且用於增益簡檔的區域對應地較大的格式。
對應的解碼器(例如,解碼器300或560或裝置FD100或MF560的實施方案,或執行解碼方法M550或M560或解碼任務DlOO的實施方案的裝置)可經配置以通過將所指示的脈衝形狀向量複製到由終端音調脈衝位置和滯後值指示的位置中的每一者且根據增益 VQ表輸出按比例縮放所得信號而從脈衝形狀VQ表輸出建構激勵信號。對於所指示的脈衝形狀向量比滯後值長的狀況來說,可通過將每一對重疊值求平均、通過選擇每一對中的一個值(例如,最高值或最低值,或屬於左側或右側的脈衝的值)或通過簡單地廢除超過滯後值的樣本來處置鄰近脈衝之間的任何重疊。類似地,當布置激勵信號的第一音調脈衝或最後音調脈衝(例如,根據音調脈衝峰值位置和/或滯後估計)時,可將落在幀邊界外部的任何樣本與鄰近幀的對應樣本求平均或簡單地將其廢除。
激勵信號的音調脈衝並不簡單地為脈衝或尖峰(spike)。事實上,音調脈衝通常具有取決於說話者的隨時間而變的振幅簡檔或形狀,且保存此形狀對於說話者辨識可為重要的。可能需要編碼音調脈衝形狀的良好表示以充當用於後續有聲幀的參考(例如,原型)。
音調脈衝的形狀提供對於說話者識別和辨識來說感知上重要的信息。為了將此信息提供到解碼器,過渡幀解碼模式(例如,如由任務E100、編碼器100或裝置FE100的實施方案執行)可經配置以在經編碼的幀中包括音調脈衝形狀信息。編碼音調脈衝形狀可呈現量化維度可變的向量的問題。舉例來說,殘餘中的音調周期的長度和因此音調脈衝的長度可在較寬範圍上變化。在如上文所描述的一個實例中,容許音調滯後值在20到146個樣本的範圍內。
可能需要編碼音調脈衝的形狀而並不將所述脈衝轉換到頻域。圖41展示根據一般配置對幀進行編碼的方法M600的流程圖,所述方法M600可在任務ElOO的實施方案內、 由第一幀編碼器100的實施方案和/或由裝置FE100的實施方案執行。方法M600包括任務T610、T620、T630、T640和Τ650。任務Τ610依據幀具有單一音調脈衝還是多個音調脈衝
42而選擇兩個處理路徑中的一者。在執行任務T610之前,可能需要至少足夠地執行用於檢測音調脈衝的方法(例如,方法M300)以確定幀具有單一音調脈衝還是多個音調脈衝。
對於單脈衝幀來說,任務T620選擇一組不同單脈衝向量量化(VQ)表中的一者。在此實例中,任務T620經配置以根據幀內的音調脈衝的位置(例如,如由任務E120或L100、 裝置FE120或ML100、音調脈衝位置計算器120或終端峰值定位器A310計算)選擇VQ表。 任務T630接著通過選擇選定的VQ表的向量(例如,通過找到選定的VQ表內的最佳匹配且輸出對應的索引)來量化脈衝形狀。
任務T630可經配置以選擇能量最接近於待匹配的脈衝形狀的脈衝形狀向量。待匹配的脈衝形狀可為整個幀或包括峰值的幀的某一較小部分(例如,峰值的某一距離(例如,幀長度的四分之一)內的段)。在執行匹配操作之前,可能需要將待匹配的脈衝形狀的振幅正規化。
在一個實例中,任務T630經配置以計算待匹配的脈衝形狀與選定的表的每一脈衝形狀向量之間的差,且選擇具有最小能量的對應於所述差的脈衝形狀向量。在另一實例中,任務T630經配置以選擇能量最接近於待匹配的脈衝形狀的能量的脈衝形狀向量。在此類狀況下,可將序列樣本(例如,音調脈衝或其它向量)的能量計算為平方樣本的總和。任務T630可實施為如本文中所描述的脈衝形狀選擇任務EllO的例項。
所述組單脈衝VQ表中的每一表具有可與幀的長度(例如,160個樣本)一樣大的向量維度。對於每一表來說,可能需要具有與待與所述表中的向量匹配的脈衝形狀相同的向量維度。在一個特定實例中,所述組單脈衝VQ表包括三個表,每一表具有高達128個條目,以使得脈衝形狀可編碼為7位索引。
對應的解碼器(例如,解碼器300、MF560或A560或裝置FD100的實施方案,或執行解碼任務DlOO或方法M560的實施方案的裝置)可經配置以在經編碼的幀的脈衝位置值 (例如,如由如本文中所描述的提取任務D305或D440、裝置FD440或包解析器510確定) 等於音調脈衝位置模式值(例如,(2〔1)或127)的情況下將幀識別為單脈衝。此類決策可基於如本文中所描述的比較任務D310或D450、裝置FD450或比較器520的輸出。作為替代或另外,此解碼器可經配置以在滯後值等於音調周期模式值(例如,(2匸1)或I27)的情況下將幀識別為單脈衝。
任務T640從多脈衝幀提取待匹配的至少一個音調脈衝。舉例來說,任務T640可經配置以提取具有最大增益的音調脈衝(例如,含有最高峰值的音調脈衝)。對於所提取的音調脈衝的長度來說,可能需要等於所估計的音調周期(如(例如)由任務E370、E130或 L200計算)。當提取脈衝時,可能需要確保所述峰值並非所提取的脈衝的第一樣本或最後樣本(此可導致一個或一個以上重要樣本的不連續性和/或省略)。在一些狀況下,對於語音質量來說,峰值之後的信息可能比峰值之前的信息重要,因此可能需要提取脈衝以使得峰值靠近開始。在一個實例中,任務T640從在音調峰值之前的兩個樣本開始的音調周期提取形狀。此做法允許俘獲在峰值之後出現且可能含有重要形狀信息的樣本。在另一實例中,可能需要俘獲峰值之前的也可能含有重要信息的更多樣本。在另一實例中,任務T640 經配置以提取以所述峰值為中心的音調周期。對於任務T640來說,可能需要從幀提取一個以上音調脈衝(例如,提取具有最高峰值的兩個音調脈衝)且從所提取的音調脈衝計算待匹配的平均脈衝形狀。對於任務T640和/或任務T660來說,可能需要在執行脈衝形狀向量選擇之前將待匹配的脈衝形狀的振幅正規化。
對於多脈衝幀來說,任務T650基於滯後值(或所提取的原型的長度)選擇脈衝形狀VQ表。可能需要提供一組9個或10個脈衝形狀VQ表以編碼多脈衝幀。所述組中的VQ 表的每一者具有不同的向量維度且與不同的滯後範圍或「頻段」相關聯。在此狀況下,任務 T650確定哪一頻段含有當前所估計的音調周期(如(例如)由任務E370、E130或L200計算)且選擇對應於所述頻段的VQ表。如果當前所估計的音調周期等於105個樣本,那麼 (例如)任務T650可選擇對應於包括101到110個樣本的滯後範圍的頻段的VQ表。在一個實例中,多脈衝脈衝形狀VQ表中的每一者具有高達128個條目,以使得脈衝形狀可編碼為7位索引。通常,VQ表中的所有脈衝形狀向量將具有相同向量維度,而所述VQ表中的每一者通常將具有不同向量維度(例如,等於對應頻段的滯後範圍中的最大值)。
任務T660通過選擇選定的VQ表的向量(例如,通過尋找選定的VQ表內的最佳匹配且輸出對應的索引)而量化脈衝形狀。因為待量化的脈衝形狀的長度可能不確切地與表條目的長度匹配,所以任務T660可經配置以在從表選擇最佳匹配之前對脈衝形狀(例如, 在結束處)填零以與對應的表向量大小匹配。作為替代或另外,任務T660可經配置以在從表選擇最佳匹配之前將脈衝形狀截斷以與對應的表向量大小匹配。
可以均勻方式或以非均勻方式將可能的(容許)滯後值的範圍劃分成頻段。在如圖42A中所說明的均勻劃分的一個實例中,將20到146個樣本的滯後範圍劃分成以下九個頻段:20-33、34-47、48-61、62-75、76-89、90-103、104-117、118-131 和 132-146 個樣本。在此實例中,所有頻段具有14個樣本的寬度(具有15個樣本的寬度的最後頻段除外)。
如上文所闡述的均勻劃分可在高音調頻率下導致降低的質量(與低音調頻率下的質量相比)。在上述實例中,任務T660可經配置以在匹配之前使具有20個樣本的長度的音調脈衝延伸(例如,填零)65%,而具有132個樣本的長度的音調脈衝可能僅延伸(例如,填零)11%。使用非均勻劃分的一個潛在優點是使在不同滯後頻段中最大相對延伸等化。在如圖42B中所說明的非均勻劃分的一個實例中,將20到146個樣本的滯後範圍劃分成以下九個頻段20-23,24-29,30-37,38-47,48-60,61-76,77-96,97-120 和 121-146 個樣本。在此狀況下,任務T660可經配置以在匹配之前使具有20個樣本的長度的音調脈衝延伸(例如,填零)15%且使具有121個樣本的長度的音調脈衝延伸(例如,填零)21%。在此劃分方案中,20-146個樣本的範圍中的任何音調脈衝的最大延伸僅為25%。
對應的解碼器(例如,解碼器300、MF560或A560或裝置FD100的實施方案,或執行解碼任務DlOO或方法M560的實施方案的裝置)可經配置以從經編碼的幀獲得滯後值和脈衝形狀索引值,使用所述滯後值選擇適當的脈衝形狀VQ表,且使用所述脈衝形狀索引值從選定的脈衝形狀VQ表選擇所要的脈衝形狀。
圖43A展示根據一般配置編碼音調脈衝的形狀的方法M650的流程圖,所述方法 M650包括任務E410、E420和E430。任務E410估計語音信號幀(例如,LPC殘餘的幀)的音調周期。任務E410可實施為如本文中所描述的音調周期估計任務E130、L200和/或E370 的例項。基於所估計的音調周期,任務E420選擇脈衝多個形狀向量表中的一者。任務E420 可實施為如本文中所描述的任務T650的例項。基於來自語音信號幀的至少一個音調脈衝的信息,任務E430在脈衝形狀向量的選定的表中選擇脈衝形狀向量。任務E430可實施為如本文中所描述的任務T660的例項。
表選擇任務E420可經配置以將基於所估計的音調周期的值與多個不同值中的每一者進行比較。為了確定如本文中所描述的一組滯後範圍頻段中的哪一者包括所估計的音調周期,(例如)任務E420可經配置以將所估計的音調周期與所述組頻段中的兩個或兩個以上中的每一者的上限(或下限)進行比較。
向量選擇任務E430可經配置以在脈衝形狀向量的選定的表中選擇能量最接近於待匹配的音調脈衝的脈衝形狀向量。在一個實例中,任務E430經配置以計算待匹配的音調脈衝與選定的表的每一脈衝形狀向量之間的差,且選擇具有最小能量的對應於所述差的脈衝形狀向量。在另一實例中,任務E430經配置以選擇能量最接近於待匹配的音調脈衝的能量的脈衝形狀向量。在此類狀況下,可將序列樣本(例如,音調脈衝或其它向量)的能量計算為平方樣本的總和。
圖43B展示方法M650的實施方案M660的流程圖,所述實施方案M660包括任務 E440。任務E440產生包括(A)基於所估計的音調周期的第一值和(B)識別選定的表中的選定的脈衝形狀向量的第二值(例如,表索引)的包。第一值可將所估計的音調周期指示為相對於最小音調周期值(例如,20)的偏移。舉例來說,方法M660(例如,任務E410)可經配置以通過從所估計的音調周期減去最小音調周期值而計算第一值。
任務E440可經配置以產生包括相應組不相交的位位置中的第一值和第二值的包。舉例來說,任務E440可經配置以根據如本文中所描述的具有第一組位位置和第二組位位置的模板產生包,所述第一組位位置與所述第二組位位置不相交。在此狀況下,任務E440 可實施為如本文中所描述的包產生任務E320的例項。任務E440的此實施方案可經配置以產生包括第一組位位置中的音調脈衝位置、第二組位位置中的第一值和第三組位位置中的第二值的包,所述第三組與第一組和第二組不相交。
圖43C展示方法M650的實施方案M670的流程圖,所述實施方案M670包括任務 E450。任務E450從語音信號幀的多個音調脈衝中提取音調脈衝。任務E450可實施為如本文中所描述的任務T640的例項。任務E450可經配置以基於能量量度選擇音調脈衝。舉例來說,任務E450可經配置以選擇峰值具有最高能量的音調脈衝,或具有最高能量的音調脈衝。在方法M670中,向量選擇任務E430可經配置以選擇與所提取的音調脈衝(或基於所提取的音調脈衝的脈衝形狀,例如所提取的音調脈衝與另一所提取的音調脈衝的平均值) 最佳地匹配的脈衝形狀向量。
圖46A展示方法M650的實施方案M680的流程圖,所述實施方案M680包括任務 E460、E470和E480。任務E460計算第二語音信號幀(例如,LPC殘餘的幀)的音調脈衝的位置。第一和第二語音信號幀可來自同一話音通信會話或可來自不同話音通信會話。舉例來說,第一和第二語音信號幀可來自由一人說出的語音信號或可來自各自由不同的人說出的兩個不同語音信號。語音信號幀可在計算音調脈衝位置之前和/或之後經歷其它處理操作(例如,感知加權)。
基於所計算的音調脈衝位置,任務E470選擇多個脈衝形狀向量表中的一者。任務 E470可實施為如本文中所描述的任務T620的例項。可響應於第二語音信號幀僅含有一個音調脈衝的確定(例如,通過任務E460或另外通過方法M680)執行任務E470。基於來自第二語音信號幀的信息,任務E480在脈衝形狀向量的選定的表中選擇脈衝形狀向量。任務 E480可實施為如本文中所描述的任務T630的例項。
圖44A展示用於編碼音調脈衝的形狀的設備MF650的框圖。設備MF650包括用於估計語音信號幀的音調周期(例如,如上文參考任務E410、E130、L200和/或E370的各種實施方案所描述)的裝置FE410、用於選擇脈衝形狀向量的表(例如,如上文參考任務E420 和/或T650的各種實施方案所描述)的裝置FE420,以及用於選擇選定的表中的脈衝形狀向量(例如,如上文參考任務E430和/或T660的各種實施方案所描述)的裝置FE430。
圖44B展示設備MF650的實施方案MF660的框圖。設備MF660包括用於產生包括 (A)基於所估計的音調周期的第一值和(B)識別選定的表中的選定的脈衝形狀向量的第二值的包(例如,如上文參考任務E440所描述)的裝置FE440。圖44C展示設備MF650的實施方案MF670的框圖,所述實施方案MF670包括用於從語音信號幀的多個音調脈衝中提取音調脈衝(例如,如上文參考任務E450所描述)的裝置FE450。
圖46B展示設備MF650的實施方案MF680的框圖。設備MF680包括用於計算第二語音信號幀的音調脈衝的位置(例如,如上文參考任務E460所描述)的裝置FE460、用於基於所計算的音調脈衝位置選擇多個脈衝形狀向量表中的一者(例如,如上文參考任務E470 所描述)的裝置FE470,以及用於基於來自第二語音信號幀的信息在脈衝形狀向量的選定的表中選擇脈衝形狀向量(例如,如上文參考任務E480所描述)的裝置FE480。
圖45A展示用於編碼音調脈衝的形狀的設備A650的框圖。設備A650包括經配置以估計語音信號幀的音調周期(例如,如上文參考任務E410、E130、L200和/或E370的各種實施方案所描述)的音調周期估計器540。舉例來說,音調周期估計器540可實施為如本文中所描述的音調周期估計器130、190或A320的例項。設備A650還包括經配置以基於所估計的音調周期來選擇脈衝形狀向量的表(例如,如上文參考任務E420和/或T650的各種實施方案所描述)的向量表選擇器550。設備A650還包括經配置以基於來自語音信號幀的至少一個音調脈衝的信息來選擇選定的表中的脈衝形狀向量(例如,如上文參考任務 E430和/或T660的各種實施方案所描述)的脈衝形狀向量選擇器560。
圖45B展示設備A650的實施方案A660的框圖,所述實施方案A660包括經配置以產生包括(A)基於所估計的音調周期的第一值和(B)識別選定的表中的選定的脈衝形狀向量的第二值的包(例如,如上文參考任務E440所描述)的包產生器570。包產生器570可實施為如本文中所描述的包產生器170的例項。圖45C展示設備A650的實施方案A670的框圖,所述實施方案A670包括經配置以從語音信號幀的多個音調脈衝中提取音調脈衝(例如,如上文參考任務E450所描述)的音調脈衝提取器580。
圖46C展示設備A650的實施方案A680的框圖。設備A680包括經配置以計算第二語音信號幀的音調脈衝的位置(例如,如上文參考任務E460所描述)的音調脈衝位置計算器590。舉例來說,音調脈衝位置計算器590可實施為如本文中所描述的音調脈衝位置計算器120或160或終端峰值定位器A310的例項。在此狀況下,向量表選擇器550還經配置以基於所計算的音調脈衝位置選擇多個脈衝形狀向量表中的一者(例如,如上文參考任務 E470所描述),且脈衝形狀向量選擇器560還經配置以基於來自第二語音信號幀的信息來選擇選定的脈衝形狀向量表中的脈衝形狀向量(例如,如上文參考任務E480所描述)。
語音編碼器AElO可實施成包括設備A650。舉例來說,語音編碼器AE20的第一幀編碼器104可實施成包括設備A650的例項以使得音調周期估計器130還充當估計器540。 第一幀編碼器104的此類實施方案還可包括設備A400的例項(例如,設備A402的例項,以使得包產生器170還充當包產生器570)。
圖47A展示根據一般配置解碼音調脈衝的形狀的方法M800的框圖。方法M800包括任務D510、D520、D530和D540。任務D510從經編碼的語音信號的包(例如,如由方法 M660的實施方案產生)中提取經編碼的音調周期值。任務D510可實施為如本文中所描述的任務D480的例項。基於所述經編碼的音調周期值,任務D520選擇多個脈衝形狀向量表中的一者。任務D530從所述包中提取索引。基於所述索引,任務D540從所述選定的表獲得脈衝形狀向量。
圖47B展示方法M800的實施方案M810的框圖,實施方案M810包括任務D550和 D560。任務D550從所述包中提取音調脈衝位置指示符。任務D550可實施為如本文中所描述的任務D410的例項。基於所述音調脈衝位置指示符,任務D560將基於所述脈衝形狀向量的音調脈衝布置於激勵信號內。任務D560可實施為如本文中所描述的任務D430的例項。
圖48A展示方法M800的實施方案M820的框圖,實施方案M820包括任務D570、 D575、D580和D585。任務D570從第二包中提取音調脈衝位置指示符。所述第二包可來自與第一包相同的話音通信會話或可來自不同的話音通信會話。任務D570可實施為如本文中所描述的任務D410的例項。基於來自第二包的音調脈衝位置指示符,任務D575選擇第二多個脈衝形狀向量表中的一者。任務D580從所述第二包中提取索引。基於來自第二包的索引,任務D585從所述第二多個表中的所述選定者獲得脈衝形狀向量。方法M820還可經配置以基於所獲得的脈衝形狀向量產生激勵信號。
圖48B展示用於解碼音調脈衝的形狀的設備MF800的框圖。設備MF800包括用於從包提取經編碼的音調周期值(例如,如本文中參考任務D510的各種實施方案所描述)的裝置FD510、用於選擇多個脈衝形狀向量表中的一者(例如,如本文中參考任務D520的各種實施方案所描述)的裝置FD520、用於從所述包提取索引(例如,如本文中參考任務D530的各種實施方案所描述)的裝置FD530,以及用於從所述選定的表獲得脈衝形狀向量(例如, 如本文中參考任務D540的各種實施方案所描述)的裝置FD540。
圖49A展示設備MF800的實施方案MF810的框圖。設備MF810包括用於從包提取音調脈衝位置指示符(例如,如本文中參考任務D550的各種實施方案所描述)的裝置 FD550,以及用於將基於所述脈衝形狀向量的音調脈衝布置於激勵信號內(例如,如本文中參考任務D560的各種實施方案所描述)的裝置FD560。
圖49B展示設備MF800的實施方案MF820的框圖。設備MF820包括用於從第二包提取音調脈衝位置指示符(例如,如本文中參考任務D570的各種實施方案所描述)的裝置FD570,以及用於基於來自第二包的位置指示符來選擇第二多個脈衝形狀向量表中的一者(例如,如本文中參考任務D575的各種實施方案所描述)的裝置FD575。設備MF820還包括用於從第二包提取索引(例如,如本文中參考任務D580的各種實施方案所描述)的裝置FD580,以及用於基於來自第二包的索引從所述第二多個表中的所述選定者獲得脈衝形狀向量(例如,如本文中參考任務D585的各種實施方案所描述)的裝置FD585。
圖50A展示用於解碼音調脈衝的形狀的設備A800的框圖。設備A800包括經配置以從包提取經編碼的音調周期值(例如,如本文中參考任務D510的各種實施方案所描述) 且從所述包提取索引(例如,如本文中參考任務D530的各種實施方案所描述)的包解析器 610。包解析器620可實施為如本文中所描述的包解析器510的例項。設備A800還包括經配置以選擇多個脈衝形狀向量表中的一者(例如,如本文中參考任務D520的各種實施方案所描述)的向量表選擇器620,以及經配置以從所述選定的表獲得脈衝形狀向量(例如,如本文中參考任務D540的各種實施方案所描述)的向量表讀取器630。
包解析器610還可經配置以從第二包提取脈衝位置指示符和索引(例如,如本文中參考任務D570和D580的各種實施方案所描述)。向量表選擇器620還可經配置以基於來自第二包的位置指示符來選擇多個脈衝形狀向量表中的一者(例如,如本文中參考任務 D575的各種實施方案所描述)。向量表讀取器630還可經配置以基於來自第二包的索引從所述第二多個表中的所述選定者獲得脈衝形狀向量(例如,如本文中參考任務D585的各種實施方案所描述)。圖50B展示設備A800的實施方案A810的框圖,所述實施方案A810包括經配置以將基於所述脈衝形狀向量的音調脈衝布置於激勵信號內(例如,如本文中參考任務D560的各種實施方案所描述)的激勵信號產生器640。激勵信號產生器640可實施為如本文中所描述的激勵信號產生器310和/或530的例項。
語音編碼器AElO可實施成包括設備A800。舉例來說,語音編碼器AE20的第一幀編碼器104可實施成包括設備A800的例項。第一幀編碼器104的此類實施方案還可包括設備A560的例項,在此狀況下,包解析器510還可充當包解析器620且/或激勵信號產生器530還可充當激勵信號產生器640。
根據一配置(例如,根據語音編碼器AE20的實施方案)的語音編碼器使用三個或四個解碼方案來編碼不同類別的幀如上文所描述的四分之一速率NELP(QNELP)解碼方案、四分之一速率PPP(QPPP)解碼方案和過渡幀解碼方案。QNELP解碼方案用以編碼無聲幀和向下瞬變幀。QNELP解碼方案或八分之一速率NELP解碼方案可用以編碼靜寂幀(例如, 背景噪聲)。QPPP解碼方案用以編碼有聲幀。過渡幀解碼方案可用以編碼向上瞬變(即, 開始)幀和瞬變幀。圖26的表展示用於這四種解碼方案中的每一者的位分配的實例。
現代聲碼器通常執行語音幀的分類。舉例來說,此類聲碼器可根據將幀分類為上文所論述的六種不同類別(靜寂、無聲、有聲、瞬變、向下瞬變和向上瞬變)中的一者的方案操作。此類方案的實例描述於第2002/0111798號(Huang)美國公開專利申請案中。此分類方案的一個實例還描述於3GPP2(第三代合作夥伴計劃2)文獻「用於寬帶擴展頻譜數字系統的增強型可變速率編解碼器、語音服務選擇3、68和70 (Enhanced Variable Rate Codec, Speech Service Options 3,68, and 70 for Wideband Spread Spectrum Digital Systems) 」 (3GPP2 C. S0014-C, 2007 年 1 月,在 www. 3_2· org 可線上獲得)章節 4. 8 (第 4-57到4-71頁)中。此方案使用圖51的表中所列的特徵將幀分類,且此章節4. 8在此以引用的方式併入作為如本文中所描述的「EVRC分類方案」的實例。在圖55-63的代碼列表中描述EVRC分類方案的類似實例。
在圖51的表中出現的參數E、EL和EH可如下計算(針對160位幀)
權利要求
1.一種對語音信號幀進行編碼的方法,所述方法包含計算所述幀的殘餘的峰值能量;計算所述殘餘的平均能量;基於所述所計算的峰值能量與所述所計算的平均能量之間的關係,從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合中選擇一個解碼方案;以及根據所述選定的解碼方案對所述幀進行編碼,其中根據所述無差別音調原型解碼方案對所述幀進行編碼包括產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述幀的所估計的音調周期的表示。
2.根據權利要求1所述的方法,其中所述噪聲激勵解碼方案為噪聲激勵線性預測 (NELP)解碼方案。
3.根據權利要求1所述的方法,其中所述方法包括計算所述幀中的音調脈衝峰值的數目,且其中所述選擇基於所述幀中的音調脈衝峰值的所述所計算的數目。
4.根據權利要求3所述的方法,其中所述方法包括將所述幀中的音調峰值的所述所計算的數目與閾值進行比較,且其中所述選擇基於所述比較的結果。
5.根據權利要求1所述的方法,其中所述選擇基於所述幀的至少一部分的信噪比。
6.根據權利要求5所述的方法,其中所述選擇基於所述幀的低頻帶部分的信噪比。
7.根據權利要求1所述的方法,其中所述方法包含確定所述語音信號的第二幀為有聲的,所述第二幀在所述語音信號中緊接在所述幀之後;以及對於其中所述選擇選擇無聲解碼方案的狀況來說,且響應於所述確定,根據所述無差別解碼模式對所述第二幀進行編碼。
8.根據權利要求7所述的方法,其中所述方法包括對所述語音信號的第三幀執行有差別編碼操作,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述對所述第三幀執行有差別編碼操作包括產生經編碼的幀,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
9.一種用於對語音信號幀進行編碼的設備,所述設備包含用於計算所述幀的殘餘的峰值能量的裝置;用於計算所述殘餘的平均能量的裝置;用於基於所述所計算的峰值能量與所述所計算的平均能量之間的關係從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合中選擇一個解碼方案的裝置;以及用於根據所述選定的解碼方案對所述幀進行編碼的裝置,其中根據所述無差別音調原型解碼方案對所述幀進行編碼包括產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述幀的所估計的音調周期的表示。
10.根據權利要求9所述的設備,其中所述噪聲激勵解碼方案為噪聲激勵線性預測(NELP)解碼方案。
11.根據權利要求9所述的設備,其中所述設備包括用於計算所述幀中的音調脈衝峰值的數目的裝置,且其中所述用於選擇的裝置經配置以基於所述幀中的音調脈衝峰值的所述所計算的數目從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的所述集合中選擇所述一個解碼方案。
12.根據權利要求9所述的設備,其中所述用於選擇的裝置經配置以基於所述幀的低頻帶部分的信噪比從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的所述集合中選擇所述一個解碼方案。
13.根據權利要求9所述的設備,其中所述設備包含用於指示所述語音信號的第二幀為有聲的裝置,所述第二幀在所述語音信號中緊接在所述幀之後;以及用於響應於(A)所述用於選擇的裝置選擇無聲解碼方案和(B)所述用於指示的裝置指示所述第二幀為有聲的而根據所述無差別解碼模式對所述第二幀進行編碼的裝置。
14.根據權利要求13所述的設備,其中所述設備包括用於對所述語音信號的第三幀執行有差別編碼操作的裝置,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述用於對所述第三幀執行有差別編碼操作的裝置包括產生經編碼的幀,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
15.一種計算機可讀媒體,其包含在由處理器執行時致使所述處理器進行以下動作的指令計算語音信號的幀的殘餘的峰值能量;計算所述殘餘的平均能量;基於所述所計算的峰值能量與所述所計算的平均能量之間的關係,從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合中選擇一個解碼方案;以及根據所述選定的解碼方案對所述幀進行編碼,其中所述致使所述處理器根據所述無差別音調原型解碼方案對所述幀進行編碼的指令包括致使所述處理器產生經編碼的幀的指令,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述幀的所估計的音調周期的表示。
16.根據權利要求15所述的計算機可讀媒體,其中所述噪聲激勵解碼方案為噪聲激勵線性預測(NELP)解碼方案。
17.根據權利要求15所述的計算機可讀媒體,其中所述媒體包括致使所述處理器計算所述幀中的音調脈衝峰值的數目的指令,且其中所述致使所述處理器選擇的指令包括致使所述處理器基於所述幀中的音調脈衝峰值的所述所計算的數目從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的所述集合中選擇所述一個解碼方案的指令。
18.根據權利要求15所述的計算機可讀媒體,其中所述致使所述處理器選擇的指令包括致使所述處理器基於所述幀的低頻帶部分的信噪比從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的所述集合中選擇所述一個解碼方案的指令。
19.根據權利要求15所述的計算機可讀媒體,其中所述媒體包含在由處理器執行時致使所述處理器進行以下動作的指令指示所述語音信號的第二幀為有聲的,所述第二幀在所述語音信號中緊接在所述幀之後;以及響應於(A)所述致使所述處理器選擇的指令選擇無聲解碼方案和(B)所述致使所述處理器指示的指令指示所述第二幀為有聲的而根據所述無差別解碼模式對所述第二幀進行編碼。
20.根據權利要求19所述的計算機可讀媒體,其中所述媒體包括致使所述處理器對所述語音信號的第三幀執行有差別編碼操作的指令,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述致使所述處理器對所述第三幀執行有差別編碼操作的指令包括致使所述處理器產生經編碼的幀的指令,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
21.一種用於對語音信號幀進行編碼的設備,所述設備包含峰值能量計算器,其經配置以計算所述幀的殘餘的峰值能量;平均能量計算器,其經配置以計算所述殘餘的平均能量;第一幀編碼器,其可選擇地經配置以根據噪聲激勵解碼方案對所述幀進行編碼;第二幀編碼器,其可選擇地經配置以根據無差別音調原型解碼方案對所述幀進行編碼;以及解碼方案選擇器,其經配置以基於所述所計算的峰值能量與所述所計算的平均能量之間的關係可選擇地致使所述第一幀編碼器和所述第二幀編碼器中的一者對所述幀進行編碼,其中所述第二幀編碼器經配置以產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述幀的所估計的音調周期的表示。
22.根據權利要求21所述的設備,其中所述噪聲激勵解碼方案為噪聲激勵線性預測 (NELP)解碼方案。
23.根據權利要求21所述的設備,其中所述設備包括經配置以計算所述幀中的音調脈衝峰值的數目的音調脈衝峰值計數器,且其中所述解碼方案選擇器經配置以基於所述幀中的音調脈衝峰值的所述所計算的數目選擇所述第一幀編碼器和所述第二幀編碼器中的所述一者。
24.根據權利要求21所述的設備,其中所述解碼方案選擇器經配置以基於所述幀的低頻帶部分的信噪比選擇所述第一幀編碼器和所述第二幀編碼器中的所述一者。
25.根據權利要求21所述的設備,其中所述解碼方案選擇器經配置以確定所述語音信號的第二幀為有聲的,所述第二幀在所述語音信號中緊接在所述幀之後,且其中所述解碼方案選擇器經配置以響應於(A)可選擇地致使所述第一幀編碼器對所述幀進行編碼和(B)所述第二幀為有聲的所述確定而致使所述第二幀編碼器對所述第二幀進行編碼。
26.根據權利要求25所述的設備,其中所述設備包括經配置以對所述語音信號的第三幀執行有差別編碼操作的第三幀編碼器,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述第三幀編碼器經配置以產生經編碼的幀,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
27.—種對語音信號幀進行編碼的方法,所述方法包含估計所述幀的音調周期;計算(A)基於所述所估計的音調周期的第一值與(B)基於所述幀的另一參數的第二值之間的關係的值;基於所述所計算的值,從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合中選擇一個解碼方案;以及根據所述選定的解碼方案對所述幀進行編碼,其中根據所述無差別音調原型解碼方案對所述幀進行編碼包括產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述所估計的音調周期的表示。
28.根據權利要求27所述的方法,其中所述噪聲激勵解碼方案為噪聲激勵線性預測 (NELP)解碼方案。
29.根據權利要求27所述的方法,其中所述另一參數為所述幀的終端音調脈衝的位置,且其中所述計算包含將所述第一值與所述第二值進行比較。
30.根據權利要求27所述的方法,其中所述另一參數為使所述幀的殘餘的自相關函數最大化的滯後值,且其中所述計算包含將所述第一值與所述第二值進行比較。
31.根據權利要求27所述的方法,其中所述方法包含計算所述幀的終端音調脈衝的位置;定位所述幀的多個其它音調脈衝;以及基於所述所估計的音調周期和所述終端音調脈衝的所述所計算的位置,計算多個音調脈衝位置,其中所述計算值包含將(A)所述經定位的音調脈衝的位置與(B)所述所計算的音調脈衝位置進行比較。
32.根據權利要求27所述的方法,其中所述選擇基於將基於所述所估計的音調周期的值與先前幀的音調周期進行比較的結果。
33.根據權利要求27所述的方法,其中所述方法包含確定所述語音信號的第二幀為有聲的,所述第二幀在所述語音信號中緊接在所述幀之後;以及對於其中所述選擇選擇無聲解碼方案的狀況來說,且響應於所述確定,根據所述無差別解碼模式對所述第二幀進行編碼。
34.根據權利要求33所述的方法,其中所述方法包括對所述語音信號的第三幀執行有差別編碼操作,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述對所述第三幀執行有差別編碼操作包括產生經編碼的幀,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
35.一種用於對語音信號幀進行編碼的設備,所述設備包含用於估計所述幀的音調周期的裝置;用於計算(A)基於所述所估計的音調周期的第一值與(B)基於所述幀的另一參數的第二值之間的關係的值的裝置;用於基於所述所計算的值從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合中選擇一個解碼方案的裝置;以及用於根據所述選定的解碼方案對所述幀進行編碼的裝置,其中根據所述無差別音調原型解碼方案對所述幀進行編碼包括產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述所估計的音調周期的表示。
36.根據權利要求35所述的設備,其中所述噪聲激勵解碼方案為噪聲激勵線性預測 (NELP)解碼方案。
37.根據權利要求35所述的設備,其中所述另一參數為所述幀的終端音調脈衝的位置,且其中所述用於計算的裝置經配置以將所述第一值與所述第二值進行比較。
38.根據權利要求35所述的設備,其中所述另一參數為使所述幀的殘餘的自相關函數最大化的滯後值,且其中所述用於計算的裝置經配置以將所述第一值與所述第二值進行比較。
39.根據權利要求35所述的設備,其中所述設備包含用於計算所述幀的終端音調脈衝的位置的裝置;用於定位所述幀的多個其它音調脈衝的裝置;以及用於基於所述所估計的音調周期和所述終端音調脈衝的所述所計算的位置計算多個音調脈衝位置的裝置,其中所述用於計算值的裝置經配置以將(A)所述經定位的音調脈衝的位置與(B)所述所計算的音調脈衝位置進行比較。
40.根據權利要求35所述的設備,其中所述用於選擇的裝置經配置以基於將基於所述所估計的音調周期的值與先前幀的音調周期進行比較的結果從(A)噪聲激勵解碼方案和 (B)無差別音調原型解碼方案的所述集合中選擇所述一個解碼方案。
41.根據權利要求35所述的設備,其中所述設備包含用於指示所述語音信號的第二幀為有聲的裝置,所述第二幀在所述語音信號中緊接在所述幀之後;以及用於響應於(A)所述用於選擇的裝置選擇無聲解碼方案和(B)所述用於指示的裝置指示所述第二幀為有聲的而根據所述無差別解碼模式對所述第二幀進行編碼的裝置。
42.根據權利要求41所述的設備,其中所述設備包括用於對所述語音信號的第三幀執行有差別編碼操作的裝置,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述用於對所述第三幀執行有差別編碼操作的裝置包括產生經編碼的幀,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
43.一種計算機可讀媒體,其包含在由處理器執行時致使所述處理器進行以下動作的指令估計幀的音調周期;計算(A)基於所述所估計的音調周期的第一值與(B)基於所述幀的另一參數的第二值之間的關係的值;基於所述所計算的值從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的集合中選擇一個解碼方案;以及根據所述選定的解碼方案對所述幀進行編碼,其中所述致使所述處理器根據所述無差別音調原型解碼方案對所述幀進行編碼的指令包括致使所述處理器產生經編碼的幀的指令,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述所估計的音調周期的表示。
44.根據權利要求43所述的計算機可讀媒體,其中所述噪聲激勵解碼方案為噪聲激勵線性預測(NELP)解碼方案。
45.根據權利要求43所述的計算機可讀媒體,其中所述另一參數為所述幀的終端音調脈衝的位置,且其中所述致使所述處理器計算的指令包括致使所述處理器將所述第一值與所述第二值進行比較的指令。
46.根據權利要求43所述的計算機可讀媒體,其中所述另一參數為使所述幀的殘餘的自相關函數最大化的滯後值,且其中所述致使所述處理器計算的指令包括致使所述處理器將所述第一值與所述第二值進行比較的指令。
47.根據權利要求43所述的計算機可讀媒體,其中所述媒體包含在由處理器執行時致使所述處理器進行以下動作的指令計算所述幀的終端音調脈衝的位置;定位所述幀的多個其它音調脈衝;以及基於所述所估計的音調周期和所述終端音調脈衝的所述所計算的位置計算多個音調脈衝位置,其中所述致使所述處理器計算值的指令包括致使所述處理器將(A)所述經定位的音調脈衝的位置與(B)所述所計算的音調脈衝位置進行比較的指令。
48.根據權利要求43所述的計算機可讀媒體,其中所述致使所述處理器選擇的指令包括致使所述處理器基於將基於所述所估計的音調周期的值與先前幀的音調周期進行比較的結果從(A)噪聲激勵解碼方案和(B)無差別音調原型解碼方案的所述集合中選擇所述一個解碼方案的指令。
49.根據權利要求43所述的計算機可讀媒體,其中所述媒體包含在由處理器執行時致使所述處理器進行以下動作的指令指示語音信號的第二幀為有聲的,所述第二幀在所述語音信號中緊接在所述幀之後;以及響應於(A)所述致使所述處理器選擇的指令選擇無聲解碼方案和(B)所述致使所述處理器指示的指令指示所述第二幀為有聲的而根據所述無差別解碼模式對所述第二幀進行編碼。
50.根據權利要求49所述的計算機可讀媒體,其中所述媒體包括致使所述處理器對所述語音信號的第三幀執行有差別編碼操作的指令,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述致使所述處理器對所述第三幀執行有差別編碼操作的指令包括致使所述處理器產生經編碼的幀的指令,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
51.一種用於對語音信號幀進行編碼的設備,所述設備包含 音調周期估計器,其經配置以估計所述幀的音調周期;計算器,其經配置以計算(A)基於所述所估計的音調周期的第一值與(B)基於所述幀的另一參數的第二值之間的關係的值;第一幀編碼器,其可選擇地經配置以根據噪聲激勵解碼方案對所述幀進行編碼; 第二幀編碼器,其可選擇地經配置以根據無差別音調原型解碼方案對所述幀進行編碼;以及解碼方案選擇器,其經配置以基於所述所計算的值可選擇地致使所述第一幀編碼器和所述第二幀編碼器中的一者對所述幀進行編碼,其中所述第二幀編碼器經配置以產生經編碼的幀,所述經編碼的幀包括所述幀的音調脈衝的時域形狀、所述幀的音調脈衝的位置和所述幀的所估計的音調周期的表示。
52.根據權利要求51所述的設備,其中所述噪聲激勵解碼方案為噪聲激勵線性預測 (NELP)解碼方案。
53.根據權利要求51所述的設備,其中所述另一參數為所述幀的終端音調脈衝的位置,且其中所述計算器經配置以將所述第一值與所述第二值進行比較。
54.根據權利要求51所述的設備,其中所述另一參數為使所述幀的殘餘的自相關函最大化數的滯後值,且其中所述計算器經配置以將所述第一值與所述第二值進行比較。
55.根據權利要求51所述的設備,其中所述設備包含第一音調脈衝位置計算器,其經配置以計算所述幀的終端音調脈衝的位置; 音調脈衝定位器,其經配置以定位所述幀的多個其它音調脈衝;以及第二音調脈衝位置計算器,其經配置以基於所述所估計的音調周期和所述終端音調脈衝的所述所計算的位置計算多個音調脈衝位置,其中所述計算器經配置以將(A)所述經定位的音調脈衝的位置與(B)所述所計算的音調脈衝位置進行比較。
56.根據權利要求51所述的設備,其中所述解碼方案選擇器經配置以基於將基於所述所估計的音調周期的值與先前幀的音調周期進行比較的結果從(A)噪聲激勵解碼方案和 (B)無差別音調原型解碼方案的集合中選擇所述一個解碼方案。
57.根據權利要求51所述的設備,其中所述解碼方案選擇器經配置以確定所述語音信號的第二幀為有聲的,所述第二幀在所述語音信號中緊接在所述幀之後,且其中所述解碼方案選擇器經配置以響應於(A)可選擇地致使所述第一幀編碼器對所述幀進行編碼和(B)所述第二幀為有聲的所述確定而致使所述第二幀編碼器對所述第二幀進行編碼。
58.根據權利要求57所述的設備,其中所述設備包括經配置以對所述語音信號的第三幀執行有差別編碼操作的第三幀編碼器,所述第三幀在所述語音信號中緊接在所述第二幀之後,且其中所述第三幀編碼器經配置以產生經編碼的幀,所述經編碼的幀包括(A)所述第三幀的音調脈衝形狀與所述第二幀的音調脈衝形狀之間的差別和(B)所述第三幀的音調周期與所述第二幀的音調周期之間的差別的表示。
全文摘要
本發明揭示用於過渡語音幀的低位速率解碼的系統、方法和設備。
文檔編號G10L19/14GK102203855SQ200980143476
公開日2011年9月28日 申請日期2009年10月29日 優先權日2008年10月30日
發明者阿洛科·庫馬爾·古普塔, 阿南塔帕德馬納卜漢·A·坎達哈達伊 申請人:高通股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀