新四季網

用於頻譜對比加強的系統、方法、設備及電腦程式產品的製作方法

2023-05-07 01:58:41 3

專利名稱:用於頻譜對比加強的系統、方法、設備及電腦程式產品的製作方法
技術領域:
本發明涉及語音處理。
背景技術:
以前在安靜的辦公室或家庭環境中進行的許多活動現今在像汽車、街道或咖啡館 的聲音可變情景中進行。舉例來說,一人可能希望使用話音通信信道來與另一人進行通信。 所述信道可(例如)由移動無線手持機或頭戴式耳機、對講機、雙向無線電、車載設備或另 一通信裝置提供。因此,在用戶由其它人包圍的環境中,在具有人們傾向於聚集之處通常碰 到的種類的噪聲內容的情況下,相當大數量的話音通信是使用移動裝置(例如,手持機及/ 或頭戴式耳機)來進行的。此噪聲傾向於使電話會話的遠端處的用戶分心或感到惱火。此 外,許多標準自動化商業交易(例如,帳戶餘額或股票報價檢查)使用基於話音辨識的數據 查詢,且這些系統的準確性可能會受到幹擾噪聲的顯著妨礙。對於通信發生於有噪聲環境中的應用來說,可能希望將所要語音信號與背景噪聲 分離。可將噪聲界定為幹擾所要信號或以其它方式使所要信號降級的所有信號的組合。背 景噪聲可包括在聲環境內產生的眾多噪聲信號(例如,其它人的背景會話)以及從所述信 號中的每一者產生的反射及迴響。除非將所要語音信號與背景噪聲分離,否則可能難以可 靠且有效地使用所述語音信號。有噪聲聲環境還可能傾向於屏蔽或以其它方式使得難以聽到所要的再生音頻信 號,例如電話會話中的遠端信號。聲環境可具有與由通信裝置正在再生的遠端信號競爭的 許多非可控噪聲源。此噪聲可引起令人不滿意的通信體驗。除非可將遠端信號與背景噪聲 區別開,否則可能難以可靠且有效地使用所述遠端信號。

發明內容
根據通用配置,一種處理語音信號的方法包括使用經配置以處理音頻信號的裝置 來對多通道感測音頻信號執行空間選擇性處理操作以產生源信號及噪聲參考,且對所述語 音信號執行頻譜對比加強操作以產生經處理語音信號。在此種方法中,執行頻譜對比加強 操作包括基於來自噪聲參考的信息來計算多個噪聲子帶功率估計;基於來自所述語音信 號的信息來產生加強向量;及基於所述多個噪聲子帶功率估計、來自所述語音信號的信息 及來自所述加強向量的信息來產生所述經處理語音信號。在此種方法中,所述經處理語音 信號的多個頻率子帶中的每一者是基於所述語音信號的對應頻率子帶。根據通用配置,一種用於處理語音信號的設備包括用於對多通道感測音頻信號 執行空間選擇性處理操作以產生源信號及噪聲參考的裝置,及用於對所述語音信號執行頻 譜對比加強操作以產生經處理語音信號的裝置。用於對所述語音信號執行頻譜對比加強操 作的所述裝置包括用於基於來自噪聲參考的信息來計算多個噪聲子帶功率估計的裝置; 用於基於來自所述語音信號的信息來產生加強向量的裝置;及用於基於所述多個噪聲子帶 功率估計、來自所述語音信號的信息及來自所述加強向量的信息來產生所述經處理語音信 號的裝置。在此種設備中,所述經處理語音信號的多個頻率子帶中的每一者是基於所述語 音信號的對應頻率子帶。根據另一通用配置,一種用於處理語音信號的設備包括空間選擇性處理濾波器, 其經配置以對多通道感測音頻信號執行空間選擇性處理操作以產生源信號及噪聲參考;及 頻譜對比加強器,其經配置以對所述語音信號執行頻譜對比加強操作以產生經處理語音信 號。在此種設備中,所述頻譜對比加強器包括功率估計計算器,其經配置以基於來自噪聲 參考的信息來計算多個噪聲子帶功率估計;及加強向量產生器,其經配置以基於來自所述 語音信號的信息來產生加強向量。在此種設備中,所述頻譜對比加強器經配置以基於所述 多個噪聲子帶功率估計、來自所述語音信號的信息及來自所述加強向量的信息來產生所述 經處理語音信號。在此種設備中,所述經處理語音信號的多個頻率子帶中的每一者是基於 所述語音信號的對應頻率子帶。根據通用配置,一種計算機可讀媒體包括在由至少一個處理器執行時使所述至少 一個處理器執行處理多通道音頻信號的方法的指令。這些指令包括在由處理器執行時使 所述處理器對多通道感測音頻信號執行空間選擇性處理操作以產生源信號及噪聲參考的 指令;及在由處理器執行時使所述處理器對所述語音信號執行頻譜對比加強操作以產生經 處理語音信號的指令。用以執行頻譜對比加強操作的指令包括用以基於來自噪聲參考的 信息來計算多個噪聲子帶功率估計的指令;用以基於來自所述語音信號的信息來產生加強 向量的指令;及用以基於所述多個噪聲子帶功率估計、來自所述語音信號的信息及來自所 述加強向量的信息來產生所述經處理語音信號的指令。在此種方法中,所述經處理語音信 號的多個頻率子帶中的每一者是基於所述語音信號的對應頻率子帶。根據通用配置,一種處理語音信號的方法包括使用經配置以處理音頻信號的裝 置來使所述語音信號的頻譜平滑以獲得第一平滑信號;使所述第一平滑信號平滑以獲得第 二平滑信號;且產生基於所述第一平滑信號及所述第二平滑信號的比率的對比加強語音信 號。還揭示經配置以執行此方法的設備,以及具有在由至少一個處理器執行時使所述至少 一個處理器執行此方法的指令的計算機可讀媒體。


圖pattern)O
卜實例的波束圖(beam雙平滑型式及所述平滑頻譜與所述雙平滑頻譜的比率的實例.圖角波形的應用, 4勺轉移函數的i 角波形的應用,11
圖27包括指示一組七個巴克標度(Bark scale)子帶的邊緣的一行點。圖28展示子帶濾波器陣列SGlO的實施方案SG12的框圖。圖^A說明通用無限脈衝響應(IIR)濾波器實施方案的轉置直接形式II。圖^B說明UR濾波器的雙二階實施方案的轉置直接形式II結構。圖30展示IIR濾波器的雙二階實施方案的一個實例的幅度及相位響應曲線圖。圖31展示一連串七個雙二階濾波器的幅度及相位響應。圖32展示加強器ENlO的實施方案ENllO的框圖。圖33A展示混合因子計算器FC200的實施方案FC250的框圖。圖3 展示混合因子計算器FC250的實施方案F(^60的框圖。圖33C展示增益因子計算器FC300的實施方案FC310的框圖。圖33D展示增益因子計算器FC300的實施方案FC320的框圖。圖34A展示偽碼列表。圖34B展示圖34A的偽碼列表的修改。圖35A及圖35B分別展示圖34A及圖34B的偽碼列表的修改。圖36A展示增益控制元件CEllO的實施方案CEl 15的框圖。圖36B展示子帶濾波器陣列FA100的包括並聯布置的一組帶通濾波器的實施方案 FAllO的框圖。圖37A展示子帶濾波器陣列FA100的帶通濾波器串聯布置的實施方案FA120的框 圖。圖37B展示IIR濾波器的雙二階實施方案的另一實例。圖38展示加強器ENlO的實施方案EN120的框圖。圖39展示增益控制元件CE120的實施方案CE130的框圖。圖40A展示設備AlOO的實施方案A160的框圖。圖40B展示設備A140(及設備A165)的實施方案A165的框圖。圖41展示圖35A的偽碼列表的修改。圖42展示圖35A的偽碼列表的另一修改。圖43A展示設備AlOO的實施方案A170的框圖。圖4 展示設備A170的實施方案A180的框圖。圖44展示加強器ENllO的包括峰值限制器LlO的實施方案EN160的框圖。圖45A展示描述峰值限制操作的一個實例的偽碼列表。圖45B展示圖45A的偽碼列表的另一型式。圖46展示設備AlOO的包括分離評估器EVlO的實施方案A200的框圖。圖47展示設備A200的實施方案A210的框圖。圖48展示加強器EN200(及加強器EN110)的實施方案EN300的框圖。圖49展示加強器EN300的實施方案EN310的框圖。圖50展示加強器EN300 (及加強器EN310)的實施方案EN320的框圖。圖51A展示子帶信號產生器EC210的框圖。圖51B展示子帶信號產生器EC210的實施方案EC220的框圖。圖52展示加強器EN320的實施方案EN330的框圖。
圖53展示加強器ENllO的實施方案EN400的框圖。圖M展示加強器ENllO的實施方案EN450的框圖。圖55展示設備AlOO的實施方案A250的框圖。圖56展示加強器EN450 (及加強器EN400)的實施方案EN460的框圖。圖57展示設備A210的包括話音活動檢測器V20的實施方案A230。圖58A展示加強器EN400的實施方案EN55的框圖。圖58B展示功率估計計算器EC120的實施方案EC125的框圖。圖59展示設備AlOO的實施方案A300的框圖。圖60展示設備A300的實施方案A310的框圖。圖61展示設備A310的實施方案A320的框圖。圖62展示設備AlOO的實施方案A400的框圖。圖63展示設備AlOO的實施方案A500的框圖。圖64A展示音頻預處理器APlO的實施方案AP20的框圖。圖64B展示音頻預處理器AP20的實施方案AP30的框圖。圖65展示設備A310的實施方案A330的框圖。圖66A展示回音消除器EClO的實施方案EC12的框圖。圖66B展示回音消除器EC20a的實施方案EC22a的框圖。圖66C展示設備AllO的實施方案A600的框圖。圖67A展示第一操作配置中的雙麥克風手持機HlOO的圖。圖67B展示手持機HlOO的第二操作配置。圖68A展示手持機HlOO的包括三個麥克風的實施方案HllO的圖。圖68B展示手持機HllO的兩個其它視圖。圖69A到圖69D分別展示多麥克風音頻感測裝置D300的仰視圖、俯視圖、正視圖 及側視圖。圖70A展示頭戴式耳機的不同操作配置的範圍的圖。圖70B展示免持車載設備的圖。圖7IA到圖71D分別展示多麥克風音頻感測裝置D350的仰視圖、俯視圖、正視圖 及側視圖。圖72A到圖72C展示媒體播放裝置的實例。圖73A展示通信裝置DlOO的框圖。圖7 展示通信裝置DlOO的實施方案D200的框圖。圖74A展示聲碼器VClO的框圖。圖74B展示編碼器ENC100的實施方案ENCllO的框圖。圖75A展示設計方法MlO的流程圖。圖75B展示經配置以用於記錄訓練數據的消聲腔室的實例。圖76A展示自適應濾波器結構FSlO的雙通道實例的框圖。圖76B展示濾波器結構FSlO的實施方案FS20的框圖。圖77說明無線電話系統。圖78說明經配置以支持包交換數據通信的無線電話系統。
圖79A展示根據通用配置的方法MlOO的流程圖。圖79B展示方法MlOO的實施方案Ml 10的流程圖。圖80A展示方法MlOO的實施方案M120的流程圖。圖80B展示任務T130的實施方案T230的流程圖。圖81A展示任務T140的實施方案T240的流程圖。圖8IB展示任務T240的實施方案T340的流程圖。圖81C展示方法Ml 10的實施方案M130的流程圖。圖82A展示方法MlOO的實施方案M140的流程圖。圖82B展示根據通用配置的方法M200的流程圖。圖83A展示根據通用配置的設備FlOO的框圖。圖8 展示設備FlOO的實施方案FllO的框圖。圖84A展示設備FlOO的實施方案F120的框圖。圖84B展示裝置G130的實施方案G230的框圖。圖85A展示裝置G140的實施方案G240的框圖。圖85B展示裝置G240的實施方案G340的框圖。圖85C展示設備FllO的實施方案F130的框圖。圖86A展示設備FlOO的實施方案F140的框圖。圖86B展示根據通用配置的設備F200的框圖。在這些圖式中,除非上下文另有指示,否則相同標記的使用指示相同結構的例子。
具體實施例方式在移動環境中影響語音信號的噪聲可包括各種不同組成部分,例如競爭談話者、 音樂、串音、街道噪聲及/或飛機場噪聲。由於此噪聲的特徵通常為非穩定的且接近於語 音信號的頻率特徵(frequency signature),所以可能難以使用傳統單一麥克風或固定波 束成形類型的方法來為所述噪聲建模。單一麥克風噪聲減少技術通常需要顯著參數調諧 (parameter tuning)以實現最佳性能。舉例來說,在所述情況下,合適的噪聲參考可能並非 直接可用,且可能有必要間接地導出噪聲參考。因此,可能需要用基於多個麥克風的高級信 號處理來支持在有噪聲環境中使用移動裝置進行話音通信。在一個特定實例中,在有噪聲 環境中感測語音信號,且使用語音處理方法來將所述語音信號與環境噪聲(也被稱作「背 景噪聲」或「周圍噪聲」)分離。在另一特定實例中,在有噪聲環境中再生語音信號,且使用 語音處理方法來將所述語音信號與環境噪聲分離。語音信號處理在日常通信的許多領域中 是重要的,因為在真實世界狀況中幾乎總是存在噪聲。可使用如本文所描述的系統、方法及設備來支持所感測語音信號及/或再生語音 信號的增加的可懂度(intelligibility),尤其在有噪聲環境中。所述技術可大體上應用 於任何記錄、音頻感測、收發及/或音頻再生應用中,尤其所述應用的移動或其它便攜型例 子。舉例來說,本文所揭示的配置範圍包括駐留於經配置以使用碼分多址(CDMA)無線接口 的無線電話通信系統中的通信裝置。然而,所屬領域的技術人員將理解,具有如本文中所描 述的特徵的方法及設備可駐留於使用所屬領域的技術人員所已知的各種各樣的技術的各 種通信系統中的任一者中,所述通信系統例如是經由有線及/或無線(例如,CDMA、TDMA、14FDMA、TD-SCDMA或OFDM)發射信道使用話音IP( 「VoIP」)的系統。除非受其上下文明確地限制,否則術語「信號」在本文中用以指示其普通意義中的 任一者,包括在導線、總線或其它傳輸媒體上表示的存儲器位置(或存儲器位置的集合)的 狀態。除非受其上下文明確地限制,否則術語「產生」在本文中用以指示其普通意義中的任 一者,例如計算或以其它方式得到。除非受其上下文明確地限制,否則術語「計算」在本文中 用以指示其普通意義的任一者,例如計算、評估、平滑及/或從多個值中進行選擇。除非受 其上下文明確地限制,否則術語「獲得」用以指示其普通意義中的任一者,例如計算、導出、 接收(例如,從外部裝置)及/或檢索(例如,從存儲元件的陣列)。在術語「包含」用於本 描述及權利要求書中時,其並不排除其它元件或操作。術語「基於」(如在「A是基於B」中) 用以指示其普通意義中的任一者,包括以下情況⑴「導出自」(例如,「B為A的前體」); ( ) 「至少基於」(例如,「A至少基於B」),及在特定情形下適當時,(iii) 「等於」(例如, 「A等於B」)。類似地,術語「響應於」用以指示其普通意義中的任一者,包括「至少響應於」。除非另外指示,否則對具有特定特徵的設備的操作的任何揭示還明確地希望揭示 具有類似特徵的方法(且反之亦然),且對根據特定配置的設備的操作的任何揭示還明確 地希望揭示根據類似配置的方法(且反之亦然)。如由其特定上下文所指示,術語「配置」 可參考方法、設備及/或系統來使用。除非由特定上下文另外指示,否則一般地且可互換地 使用術語「方法」、「過程」、「程序」及「技術」。除非由特定上下文另外指示,否則還一般地且 可互換地使用術語「設備」與「裝置」。術語「元件」及「模塊」通常用以指示較大配置的一 部分。除非由其上下文明確地限制,否則術語「系統」在本文中用以指示其普通意義中的任 一者,包括「相互作用以實現共同目標的一群組元件」。通過引用文檔的一部分而做出的任 何併入還應理解為併入在所述部分內提及的術語或變量的定義(其中所述定義出現於文 檔中的別處)以及所述併入部分中提及的任何圖。可互換地使用術語「編碼器」、「編解碼器」及「編碼系統」以表示一系統,所述系統 包括經配置以接收音頻信號的幀並對其進行編碼(可能在例如感知加權及/或其它濾波操 作的一個或一個以上預處理操作後)的至少一個編碼器及經配置以接收所述經編碼幀及 產生所述幀的對應經解碼表示的對應解碼器。此種編碼器及解碼器通常部署於通信鏈路的 相對終端處。為了支持全雙工通信,編碼器及解碼器兩者的例子通常部署於此種鏈路的每 一端處。在此描述中,術語「所感測音頻信號」表示經由一個或一個以上麥克風接收到的信 號。音頻感測裝置(例如,通信或記錄裝置)可經配置以存儲基於所述所感測音頻信號的 信號及/或將此信號輸出到經由導線或用無線方式耦合到所述音頻發送裝置的一個或一 個以上其它裝置。在此描述中,術語「再生音頻信號」表示由從存儲裝置檢索及/或經由到另一裝置 的有線或無線連接接收到的信息來再生的信號。音頻再生裝置(例如,通信或播放裝置) 可經配置以將再生音頻信號輸出到所述裝置的一個或一個以上揚聲器。或者,此裝置可經 配置以將再生音頻信號輸出到耳機、其它頭戴式耳機或經由導線或用無線方式耦合到所述 裝置的外部揚聲器。參考用於話音通信的收發器應用(例如,電話),所感測音頻信號為將 由收發器發射的近端信號,且再生音頻信號為由收發器接收到(例如,經由有線及/或無線 通信鏈路)的遠端信號。參考移動音頻再生應用(例如,所記錄音樂或語音(例如,MP3、音頻圖書、播客)的播放或此內容的流式傳輸),再生音頻信號為所播放或流式傳輸的音頻信號。語音信號的可懂度可相對於所述信號的頻譜特性而改變。舉例來說,圖1的清晰 度指數曲線圖展示語音可懂度的相關組成如何隨著音頻頻率而改變。此曲線圖說明在IkHz 與4kHz之間的頻譜分量對於可懂度來說尤其重要,相對重要峰值大約在2kHz。圖2展示經由電話應用的典型窄帶信道來發射及/或接收的語音信號的功率譜。 此圖說明此信號的能量在頻率增加高於500Hz時快速地減少。然而,如圖1所示,達4kHz 的頻率對於語音可懂度來說可能非常重要。因此,在500Hz與4000Hz之間的頻帶中人工提 升能量可預期改善此電話應用中語音信號的可懂度。由於高於4kHz的音頻頻率通常不如IkHz到4kHz帶對可懂度那麼重要,所以經由 典型帶限通信信道發射窄帶信號通常足以具有可懂的會話。然而,對於通信信道支持寬帶 信號的傳輸的情況來說,可預期個人語音特點的增加的清晰性及更好的通信。在話音電話 情形中,術語「窄帶」指代從約OHz到500Hz (例如,0、50、100或200Hz)到約3kHz到5kHz (例 如,3500、4000或4500Hz)的頻率範圍,且術語「寬帶」指代從約OHz到500Hz (例如,0、50、 100或200Hz)到約7kHz到8kHz (例如,7000、7500或8000Hz)的頻率範圍。可能需要通過提升語音信號的選定部分來增加語音可懂度。舉例來說,在助聽器 應用中,可使用動態範圍壓縮技術來通過提升再生音頻信號中的特定頻率子帶來補償所述 子帶中的已知聽力損失。真實世界充滿多個噪聲源(包括單點噪聲源),其通常侵入多個聲音中,從而造成 迴響。背景聲噪聲可包括由一般環境產生的眾多噪聲信號及由其它人的背景會話產生的幹 擾信號,以及從所述信號中的每一者產生的反射及迴響。環境噪聲可影響所感測音頻信號(例如,近端語音信號)及/或再生音頻信號(例 如,遠端語音信號)的可懂度。對於通信發生於有噪聲環境中的應用來說,可能需要使用語 音處理方法來將語音信號與背景噪聲區別開且加強語音信號的可懂度。此處理在日常通信 的許多領域中可為重要的,因為在真實世界狀況中幾乎總是存在噪聲。自動增益控制(AGC,也被稱作自動音量控制或AVC)為可用以增加在有噪聲環境 中感測或再生的音頻信號的可懂度的處理方法。可使用自動增益控制技術來將所述信號的 動態範圍壓縮到有限振幅帶中,藉此提升所述信號的具有低功率的區段並減少具有高功率 的區段中的能量。圖3展示典型語音功率譜(其中自然語音功率滾降使功率隨頻率減少) 及典型噪聲功率譜(其中功率大體上在至少語音頻率範圍內恆定)的實例。在此情況下, 語音信號的高頻率分量可具有比噪聲信號的對應分量少的能量,從而導致對高頻率語音帶 的屏蔽。圖4A說明AVC對此實例的應用。如此圖中所示,通常實施AVC模塊以無差別地提 升語音信號的所有頻帶。此方法可能需要將放大信號的大動態範圍用於高頻率功率的適度 提升。背景噪聲對高頻率語音內容的淹沒速度通常比對低頻率內容快得多,因為高頻帶 中的語音功率通常遠小於低頻帶中的語音功率。因此,僅提升信號的總音量將不一定提升 低於IkHz的低頻率內容,此可能不會顯著地有助於可懂度。可能需要改為調整音頻子帶功 率以補償對語音信號的噪聲屏蔽效應。舉例來說,可能需要與噪聲語音子帶功率的比率成 反比地提升語音功率,且在高頻率子帶中不成比例地提升語音功率,以便朝著高頻率補償語音功率的固有滾降。 可能需要在由環境噪聲佔主導的頻率子帶中補償低話音功率。舉例來說,如圖4B 所示,可能需要對選定子帶起作用以通過將不同增益提升應用於語音信號的不同子帶(例 如,根據語音噪聲比率)來提升可懂度。與圖4A所示的AVC實例對比,可預期所述均衡提 供更清楚及更可懂的信號,同時避免對低頻率分量的不必要提升。為了以此方式選擇性地提升語音功率,可能需要獲得對環境噪聲電平的可靠且同 時的估計。然而,在實際應用中,可能難以使用傳統單一麥克風或固定波束成形類型的方法 來根據所感測音頻信號為環境噪聲建模。雖然圖3表明噪聲電平隨頻率而恆定,但在通信 裝置或媒體播放裝置的實際應用中,環境噪聲電平通常隨時間及頻率兩者而顯著且快速地 改變。在典型環境中,聲噪聲可包括串音噪聲、飛機場噪聲、街道噪聲、競爭談話者的話 音,及/或來自幹擾源(例如,電視機或收音機)的聲音。因此,此噪聲通常為非穩定的且 可具有接近於用戶自身話音的頻譜的平均頻譜。根據單一麥克風信號計算出的噪聲功率參 考信號通常僅為近似穩定噪聲估計。此外,此計算通常必然伴有噪聲功率估計延遲,使得可 僅在顯著延遲後才執行對子帶增益的對應調整。可能需要獲得對環境噪聲的可靠且同時的 估計。圖5展示根據通用配置的經配置以處理音頻信號的設備AlOO的框圖,所述設備 包括空間選擇性處理濾波器SSlO及頻譜對比加強器EN10。空間選擇性處理(SSP)濾波器 SSlO經配置以對M通道感測音頻信號SlO (其中M為大於一的整數)執行空間選擇性處理 操作以產生源信號S20及噪聲參考S30。加強器ENlO經配置以基於來自噪聲參考S30的 信息來動態地更改語音信號S40的頻譜特性以產生經處理語音信號S50。舉例來說,加強 器ENlO可經配置以使用來自噪聲參考S30的信息來相對於語音信號S40的至少一個頻率 子帶來提升語音信號S40的至少一個其它頻率子帶及/或使其衰減以產生經處理語音信號 S50。可實施設備A100,使得語音信號S40為再生音頻信號(例如,遠端信號)。或者, 可實施設備A100,使得語音信號S40為所感測音頻信號(例如,近端信號)。舉例來說,可 實施設備A100,使得語音信號S40基於多通道感測音頻信號S10。圖6A展示設備AlOO的 此實施方案AllO的框圖,其中加強器ENlO經布置以將源信號S20作為語音信號S40來接 收。圖6B展示設備AlOO (及設備A110)的另一實施方案A120的框圖,實施方案A120包括 加強器ENlO的兩個例子EmOa及ENlOb。在此實例中,加強器EWOa經布置以處理語音信 號S40 (例如,遠端信號)以產生經處理語音信號S50a,且加強器EmOa經布置以處理源信 號S20(例如,近端信號)以產生經處理語音信號S50b。在設備AlOO的典型應用中,所感測音頻信號SlO的每一通道是基於來自M個麥克 風的陣列中的對應一者的信號,其中M為具有大於一的值的整數。可經實施以包括具有此 麥克風陣列的設備AlOO的實施方案的音頻感測裝置的實例包括助聽器、通信裝置、記錄裝 置及音頻或視聽播放裝置。所述通信裝置的實例包括(不限於)電話機(例如,有繩或無 繩電話、蜂窩式電話手持機、通用串行總線(USB)手持機)、有線及/或無線頭戴式耳機(例 如,藍牙頭戴式耳機),及免持車載設備。所述記錄裝置的實例包括(不限於)手持型音頻 及/或視頻記錄器及數字相機。所述音頻或視聽播放裝置的實例包括(不限於)經配置以17再生流式傳輸或預記錄的音頻或視聽內容的媒體播放器。可經實施以包括具有此麥克風陣 列的設備AlOO的實施方案且可經配置以執行通信、記錄及/或音頻或視聽播放操作的音頻 感測裝置的其它實例包括個人數字助理(PDA)及其它手持型計算裝置;上網本(netbook) 計算機、筆記本計算機、膝上型計算機及其它便攜型計算裝置;及桌上型計算機及工作站。可實施M個麥克風的陣列以具有經配置以接收聲信號的兩個麥克風(例如,立體 聲陣列)或兩個以上的麥克風。所述陣列中的每一麥克風可具有全向、雙向或單向(例如, 心形線)的響應。可使用的各種類型的麥克風包括(不限於)壓電式麥克風、動圈式麥克 風(dynamic microphone)及駐極體麥克風(electret microphone)。在用於可攜式話音通 信的裝置(例如,手持機或頭戴式耳機)中,此陣列中的相鄰麥克風之間的中心到中心間隔 通常在約1. 5cm到約4. 5cm的範圍中,但在例如手持機的裝置中,較大間隔(例如,達IOcm 或15cm)也是可能的。在助聽器中,此陣列中的相鄰麥克風之間的中心到中心間隔可小如 約4mm或5mm。此陣列中的麥克風可沿著一條線布置,或替代地,使得其中心位於二維(例 如,三角形)或三維形狀的頂點處。可能需要通過對由所述陣列的麥克風產生的信號執行一個或一個以上預處理操 作來獲得所感測音頻信號S10。所述預處理操作可包括取樣、濾波(例如,用於回音消除、噪 聲減少、頻譜整形等等)及可能甚至預分離(例如,通過如本文所描述的另一 SSP濾波器或 自適應濾波器)以獲得所感測音頻信號S10。對於例如語音的聲應用來說,典型取樣速率的 範圍是從8kHz到16kHz。其它典型預處理操作包括模擬及/或數字域中的阻抗匹配、增益 控制及濾波。空間選擇性處理(SSP)濾波器SSlO經配置以對所感測音頻信號SlO執行空間選 擇性處理操作以產生源信號S20及噪聲參考S30。此操作可經設計以確定所述音頻感測 裝置與特定聲音源之間的距離、減少噪聲、加強從特定方向到來的信號分量,及/或將一個 或一個以上聲音分量與其它環境聲音分離。所述空間處理操作的實例描述於2008年8月 25日申請的題為「用於信號分離的系統、方法及設備(SYSTEMS,METHODS, AND APPARATUS FOR SIGNAL SEPARATION) 」的第12/197,924號美國專利申請案及於2008年11月24日 申請的題為「用於加強的可懂度的系統、方法、設備及電腦程式產品(SYSTEMS,METHODS, APPARATUS, AND COMPUTER PROGRAM PRODUCTS FOR ENHANCED INTELLIGIBILIIT) 」 的第 12/277,283號美國專利申請案中且包括(不限於)波束成形及盲源分離操作。噪聲分量的 實例包括(不限於)漫射環境噪聲(例如,街道噪聲、汽車噪聲及/或串音噪聲)及方向性 噪聲(例如,幹擾揚聲器及/或來自例如電視、收音機或播音系統的另一點源的聲音)。空間選擇性處理濾波器SSlO可經配置以將所感測音頻信號SlO的方向性所要分 量(例如,用戶的話音)與所述信號的一個或一個以上其它分量(例如,方向性幹擾分量及 /或漫射噪聲分量)分離。在此情況下,SSP濾波器SSlO可經配置以集中所述方向性所要 分量的能量,使得源信號S20包括比所感測音頻通道SlO的每一通道包括的能量多的所述 方向性所要分量的能量(也就是說,使得源信號S20包括比所感測音頻通道SlO的任何個 別通道包括的能量多的所述方向性所要分量的能量)。圖7展示SSP濾波器SSlO的此實例 的波束圖,其表明濾波器響應相對於麥克風陣列的軸的方向性。可使用空間選擇性處理濾波器SSlO來提供對環境噪聲的可靠且同時的估計。在 一些噪聲估計方法中,通過對輸入信號的不活動幀(例如,僅含有背景噪聲或為寂靜的幀)求平均來估計噪聲參考。所述方法可能會對環境噪聲的改變反應緩慢,且通常對於為非穩 定噪聲(例如,脈衝噪聲)建模為無效的。空間選擇性處理濾波器SSlO可經配置以將噪聲 分量甚至與輸入信號的活動幀分離以提供噪聲參考S30。通過SSP濾波器SSlO分離到此噪 聲參考的幀中的噪聲可基本上與源信號S20的對應幀中的信息內容同時,且此噪聲參考還 被稱作「瞬時」噪聲估計。空間選擇性處理濾波器SSlO通常經實施以包括由濾波器係數值的一個或一個以 上矩陣表徵的固定濾波器FF10。可使用如下文更詳細描述的波束成形、盲源分離(BSS)或 組合的BSS/波束成形方法來獲得這些濾波器係數值。空間選擇性處理濾波器SSlO還可經 實施以包括一個以上的級。圖8A展示SSP濾波器SSlO的此實施方案SS20的框圖,實施方 案SS20包括固定濾波器級FFlO及自適應濾波器級AF10。在此實例中,固定濾波器級FFlO 經布置以對所感測音頻信號SlO的通道S10-1及S10-2進行濾波以產生經濾波信號S15的 通道S15-1及S15-2,且自適應濾波器級AFlO經布置以對通道S15-1及S15-2進行濾波以 產生源信號S20及噪聲參考S30。在此情況下,如下文更詳細地描述,可能需要使用固定濾 波器級FFlO來為自適應濾波器級AFlO產生初始條件。還可能需要對SSP濾波器SSlO的 輸入執行自適應縮放(例如,以確保IIR固定或自適應濾波器組的穩定性)。在SSP濾波器SS20的另一實施方案中,自適應濾波器AFlO經布置以將經濾波的 通道S15-1及所感測音頻通道S10-2作為輸入來接收。在此情況下,可能需要自適應濾波 器AFlO經由與固定濾波器FFlO的預期處理延遲匹配的延遲元件來接收所感測音頻通道 S10-2。可能需要實施SSP濾波器SSlO以包括多個固定濾波器級,其經布置使得可在操 作期間選擇所述固定濾波器級中的適當一者(例如,根據各種固定濾波器級的相對分離性 能)。此結構揭示於(例如)於2008年12月12日申請的題為「用於基於多麥克風的語音 加強的系統、方法及設備(SYSTEMS ,METHODS,AND APPARATUS FOR MULT I-MICROPHONE BASED SPEECH ENHANCEMENT) 」的第12/334,246號美國專利申請案(代理人案號080426)中。空間選擇性處理濾波器SSlO可經配置以在時域中處理所感測音頻信號SlO且產 生源信號S20及噪聲參考S30作為時域信號。或者,SSP濾波器SSlO可經配置以在頻域 (或另一變換域)中接收所感測音頻信號SlO或將所感測音頻信號SlO轉換到此域,且在所 述域中處理所感測音頻信號S10。可能需要在SSP濾波器SSlO或SS20後跟著噪聲減少級,所述噪聲減少級經配置 以應用噪聲參考S30以進一步減少源信號S20中的噪聲。圖8B展示設備AlOO的實施方案 A130的框圖,實施方案A130包括此噪聲減少級NRlO。噪聲減少級NRlO可實施為維納濾波 器(Wiener filter),其濾波係數值是基於來自源信號S20及噪聲參考S30的信號及噪聲 功率信息。在此情況下,噪聲減少級NRlO可經配置以基於來自噪聲參考S30的信息來估計 噪聲頻譜。或者,噪聲減少級NRlO可經實施以基於噪聲參考S30的頻譜來對源信號S20執 行頻譜相減(spectral substraction)操作。或者,噪聲減少級NRlO可實施為卡爾曼濾波 器,其噪聲協方差是基於來自噪聲參考S30的信息。噪聲減少級NRlO可經配置以在頻域(或另一變換域)中處理源信號S20及噪聲 參考S30。圖9A展示設備A130的實施方案A132的框圖,實施方案A132包括噪聲減少級 NRlO的此實施方案NR20。設備A132還包括變換模塊TR10,其經配置以將源信號S20及噪聲參考S30變換到變換域中。在典型實例中,變換模塊TRlO經配置以對源信號S20及噪聲 參考S30中的每一者執行快速傅立葉變換(FFT)(例如,128點、256點或512點FFT)以產 生相應頻域信號。圖9B展示設備A132的實施方案A134的框圖,實施方案A134還包括逆 變換模塊TR20,逆變換模塊TR20經布置以將噪聲減少級NR20的輸出變換到時域(例如,通 過對噪聲減少級NR20的輸出執行逆FFT)。噪聲減少級NR20可經配置以通過根據噪聲參考S30的對應頻段(bin)的值來對 源信號S20的頻域頻段進行加權來計算噪聲減少的語音信號S45。在此情況下,噪聲減少級 NR20可經配置以根據例如Bi = WiAi的表達式來產生噪聲減少的語音信號S45,其中Bi指示 噪聲減少的語音信號S45的第i個頻段,Ai指示源信號S20的第i個頻段,且Wi指示幀的 權重向量的第i個元素。每一頻段可包括對應頻域信號的僅一個值,或噪聲減少級NR20可 經配置以根據所要子帶劃分方案來將每一頻域信號的所述值分組成多個頻段(例如,如在 下文參考頻段化(binning)模塊SG30所描述)。噪聲減少級NR20的此實施方案可經配置以計算權重Wi,使得所述權重對於噪聲參 考S30具有低值的頻段來說為較高的(例如,較接近於一)且對於噪聲參考S30具有高值 的頻段來說為較低的(例如,較接近於零)。噪聲減少級NR20的一個此實例經配置以通過 根據一表達式來計算權重Wi中的每一者來阻斷源信號S20的頻段或使其通過,所述表達式 例如在頻段Ni中的值的總和(或者,平均值)小於(或者,不大於)閾值Ti時為Wi = 1且 否則為Wi = 0。在此實例中,Ni指示噪聲參考S30的第i個頻段。可能需要配置噪聲減少 級NR20的此實施方案,使得閾值Ti彼此相等,或替代地,使得閾值Ti中的至少兩者彼此不 同。在另一實例中,噪聲減少級NR20經配置以通過在頻域中從源信號S20中減去噪聲參考 S30(即,通過從源信號S20的頻譜中減去噪聲參考S30的頻譜)來計算噪聲減少的語音信 號 S45。如下文更詳細地描述,加強器ENlO可經配置以在頻域或另一變換域中對一個或 一個以上信號執行操作。圖IOA展示設備AlOO的實施方案A140的框圖,實施方案A140包 括噪聲減少級NR20的例子。在此實例中,加強器ENlO經布置以將噪聲減少的語音信號S45 作為語音信號S40來接收,且加強器ENlO還經布置以將噪聲參考S30及噪聲減少的語音信 號S45作為變換域信號來接收。設備A140還包括逆變換模塊TR20的例子,其經布置以將 經處理語音信號S50從變換域變換到時域。明確地提到,對於語音信號S40具有高取樣速率(例如,44. IkHz或高於十千赫的 另一取樣速率)的情況,可能需要加強器ENlO通過在時域中處理信號S40來產生對應經處 理語音信號S50。舉例來說,可能需要避免對此信號執行變換操作的計算代價。從媒體文件 或文件流再生的信號可具有此取樣速率。圖IOB展示設備A140的實施方案A150的框圖。設備A150包括加強器ENlO的例 子ENlOa,其經配置以在變換域中處理噪聲參考S30及噪聲減少的語音信號S45 (例如,如 上文參考設備A140所描述)以產生第一經處理語音信號S50a。設備A150還包括加強器 ENlO的例子ENlOb,其經配置以在時域中處理噪聲參考S30及語音信號S40(例如,遠端或 其它再生信號)以產生第二經處理語音信號S50b。在經配置以執行方向性處理操作的替代方案中,或除了經配置以執行方向性處理 操作外,SSP濾波器SSlO可經配置以執行距離處理操作。圖IlA及圖IlB分別展示SSP濾波器SSlO的實施方案SSllO及SS120的框圖,所述實施方案包括經配置以執行此操作的 距離處理模塊DS10。距離處理模塊DSlO經配置以產生(作為距離處理操作的結果)距離 指示信號DI10,所述信號指示多通道感測音頻信號SlO的分量的源相對於麥克風陣列的距 離。距離處理模塊DSlO通常經配置以產生距離指示信號DIlO作為兩個狀態分別指示近場 源及遠場源的二元值指示信號,但產生連續及/或多值信號的配置也是可能的。在一個實例中,距離處理模塊DSlO經配置,使得距離指示信號DIlO的狀態是基 於麥克風信號的功率梯度之間的類似程度。距離處理模塊DSlO的此實施方案可經配置以 根據(A)麥克風信號的功率梯度之間的差異與(B)閾值之間的關係來產生距離指示信號 DI10。一種此關係可表達為否則 ,其中θ表示距離指示信號DIlO的當前狀態,I表示所感測音頻信號SlO的主要 通道(例如,對應於通常最直接地接收來自所要源(例如,用戶的話音)的聲音的麥克風的 通道)的功率梯度的當前值,▽,表示所感測音頻信號Sio的次要通道(例如,對應於通常比 所述主要通道的麥克風較不直接地接收來自所要源的聲音的麥克風的通道)的功率梯度 的當前值,且Td表示閾值,所述閾值可為固定的或自適應的(例如,基於所述麥克風信號中 的一者或一者以上的當前電平)。在此特定實例中,距離指示信號DIlO的狀態1指示遠場 源,且狀態0指示近場源,但當然在需要時可使用相反實施方案(即,使得狀態1指示近場 源且狀態0指示遠場源)。可能需要實施距離處理模塊DSlO以將功率梯度的值計算為相繼幀上所感測音頻 信號SlO的對應通道的能量之間的差異。在一個此實例中,距離處理模塊DSlO經配置以將 功率梯度力及▽,中的每一者的當前值計算為通道的當前幀的值的平方的總和與通道的先 前幀的值的平方的總和之間的差。在另一個此實例中,距離處理模塊DSlO經配置以將功率 梯度力及1中的每一者的當前值計算為對應通道的當前幀的值的量值的總和與通道的先 前幀的值的量值的總和之間的差。另外或在替代方案中,距離處理模塊DSlO可經配置,使得距離指示信號DIlO的狀 態是基於在一系列頻率上所感測音頻信號Sio的主要通道的相位與次要通道的相位之間 的相關程度。距離處理模塊DSlO的此實施方案可經配置以根據(A)通道的相位向量之間 的相關性與(B)閾值之間的關係來產生距離指示信號DI10。一個此關係可表達為=Jo, οοτν(φρ,φ3)>Τα μ = \ι,否則 其中μ表示距離指示信號DIlO的當前狀態,辦表示所感測音頻信號SlO的主要 通道的當前相位向量,外表示所感測音頻信號SlO的次要通道的當前相位向量,且Τ。表示閾 值,所述閾值可為固定或自適應的(例如,基於通道中的一者或一者以上的當前電平)。可 能需要實施距離處理模塊DSlO以計算相位向量,使得相位向量的每一元素表示在對應頻 率下或在對應頻率子帶上對應通道的當前相位角。在此特定實例中,距離指示信號DIlO的狀態1指示遠場源且狀態0指示近場源,但當然在需要時可使用相反實施方案。距離指示 信號DIlO可作為控制信號應用於噪聲減少級NR10,使得在距離指示信號DIlO指示遠場源 時,由噪聲減少級NRlO執行的噪聲減少得以最大化。可能需要配置距離處理模塊DS10,使得距離指示信號DIlO的狀態是基於上文所 揭示的功率梯度及相位相關性準則兩者。在此情況下,距離處理模塊DSlO可經配置以將距 離指示信號DIlO的狀態計算為θ與μ的當前值的組合(例如,邏輯OR或邏輯AND)。或 者,距離處理模塊DSlO可經配置以根據這些準則(即,功率梯度類似性或相位相關性)中 的一者來計算距離指示信號DIlO的狀態,使得對應閾值的值是基於另一準則的當前值。SSP濾波器SSlO的替代實施方案經配置以對所感測音頻信號SlO執行相位相關性 屏蔽操作以產生源信號S20及噪聲參考S30。SSP濾波器SSlO的此實施方案的一個實例經 配置以確定在不同頻率下所感測音頻信號SlO的不同通道之間的相對相位角。如果多數頻 率下的相位角大體上相等(例如,在百分之五、十或二十內),則濾波器使所述頻率通過作 為源信號S20且將其它頻率下的分量(即,具有其它相位角的分量)分離到噪聲參考S30 中。加強器ENlO可經布置以接收來自時域緩衝器的噪聲參考S30。替代地或另外,加 強器ENlO可經布置以接收來自時域緩衝器的第一語音信號S40。在一個實例中,每一時域 緩衝器具有十毫秒的長度(例如,在八kHz的取樣速率下的八十個樣本或在十六kHz的取 樣速率下的160個樣本)。加強器ENlO經配置以對語音信號S40執行頻譜對比加強操作以產生經處理語 音信號S50。可將頻譜對比界定為信號頻譜中相鄰峰值與谷值之間的差異(例如,以分 貝為單位),且加強器ENlO可經配置以通過在語音信號S40的能量譜或幅度譜中增加峰 值與谷值之間的差異來產生經處理語音信號S50。語音信號的頻譜峰值還被稱作「共振 峰」(formant)。頻譜對比加強操作包括基於來自噪聲參考S30的信息來計算多個噪聲子 帶功率估計;基於來自所述語音信號的信息來產生加強向量EVlO ;及基於所述多個噪聲子 帶功率估計、來自語音信號S40的信息及來自加強向量EVlO的信息來產生經處理語音信號 S50。在一個實例中,加強器ENlO經配置以基於語音信號S40來產生對比加強信號 SClO (例如,根據本文所描述的技術中的任一者)、計算噪聲參考S30的每一幀的功率估計, 且通過根據對應噪聲功率估計將語音信號S30與對比加強信號SClO的對應幀混合來產生 經處理語音信號S50。舉例來說,加強器Emo的此實施方案可經配置以在對應噪聲功率估 計為高時相稱地更多使用對比加強信號SCio的對應幀,且在對應噪聲功率估計為低時相 稱地更多使用語音信號S40的對應幀來產生經處理語音信號S50的幀。加強器ENlO的此實 施方案可經配置以根據例如PSS (n) = P CES (η)+ (I-P) SS (η)的表達式來產生經處理語音 信號S50的幀PSS (η),其中CES (η)及SS (η)分別指示對比加強信號SClO及語音信號S40 的對應幀,且P指示噪聲電平指示,所述噪聲電平指示具有基於對應噪聲功率估計的在零 到一的範圍中的值。圖12展示頻譜對比加強器ENlO的實施方案ΕΝ100的框圖。加強器ΕΝ100經配置 以產生基於對比加強語音信號SClO的經處理語音信號S50。加強器ΕΝ100還經配置以產生 經處理語音信號S50,使得經處理語音信號S50的多個頻率子帶中的每一者是基於語音信號S40的對應頻率子帶。加強器EN100包括加強向量產生器VG100,其經配置以產生基於語音信號S40的 加強向量EVlO ;加強子帶信號產生器EG100,其經配置以基於來自加強向量EVlO的信息 來產生一組加強子帶信號;及加強子帶功率估計產生器EP100,其經配置以產生一組加強 子帶功率估計,其各自基於來自所述加強子帶信號中的對應一者的信息。加強器EN100還 包括子帶增益因子計算器FC100,其經配置以計算多個增益因子值,使得所述多個增益因 子值中的每一者是基於來自加強向量EVlO的對應頻率子帶的信息;語音子帶信號產生器 SG100,其經配置以基於來自語音信號S40的信息來產生一組語音子帶信號;及增益控制元 件CE100,其經配置以基於所述語音子帶信號及來自加強向量EVlO的信息(例如,所述多個 增益因子值)來產生對比加強信號SC10。加強器Emoo包括噪聲子帶信號產生器NG100,其經配置以基於來自噪聲參考 S30的信息來產生一組噪聲子帶信號;及噪聲子帶功率估計計算器NP100,其經配置以產生 一組噪聲子帶功率估計,其各自基於來自所述噪聲子帶信號中的對應一者的信息。加強器 EN100還包括子帶混合因子計算器FC200,其經配置以基於來自對應噪聲子帶功率估計的 信息來計算所述子帶中的每一者的混合因子;及混合器X100,其經配置以基於來自所述混 合因子、語音信號S40及對比加強信號SClO的信息來產生經處理語音信號S50。明確地提到,在應用加強器EN100 (及本文所揭示的加強器ENlO的其它實施方案 中的任一者)的過程中,可能需要從已經受回音消除操作(例如,如下文參考音頻預處理器 AP20及回音消除器EClO所描述)的麥克風信號獲得噪聲參考S30。對於語音信號S40為 再生音頻信號的情況來說,此操作可尤其合意。如果聲回音保留於噪聲參考S30中(或可 由下文所揭示的加強器ENlO的其它實施方案使用的其它噪聲參考中的任一者中),則可在 經處理語音信號S50與子帶增益因子計算路徑之間產生正反饋環路。舉例來說,此環路可 具有經處理語音信號S50將遠端揚聲器驅動得越大聲則加強器將傾向於使增益因子增加 得更多的效應。在一個實例中,加強向量產生器VG100經配置以通過使語音信號S40的幅度譜或 功率譜升高到M次冪(M大於一(例如,在1. 2到2. 5的範圍中的值,例如1. 2,1. 5,1. 7,1. 9 或二))來產生加強向量EV10。加強向量產生器VG100可經配置以根據例如yi = MXi的表 達式來對對數頻譜值執行此操作,其中Xi表示以分貝為單位的語音信號S40的頻譜的值, 且Yi表示以分貝為單位的加強向量EVlO的對應值。加強向量產生器VG100還可經配置以 使功率升高操作的結果正規化及/或將加強器向量EVlO作為功率升高操作的結果與原始 幅度譜或功率譜之間的比率來產生。在另一實例中,加強向量產生器VG100經配置以通過使語音信號S40的頻譜的二 階導數平滑來產生加強向量EV10。加強向量產生器VG100的此實施方案可經配置以根據例 如込00 = χ^+χ,^^χ,的表達式來將離散項中的二階導數計算為二階差分,其中頻譜值Xi 可為線性或對數的(例如,以分貝為單位)。二階差分D2(Xi)的值在頻譜峰值處小於零且 在頻譜谷值處大於零,且可能需要配置加強向量產生器VG100以將所述二階差分計算為此 值的負數(或對經平滑二階差分求反)以獲得在頻譜峰值處大於零且在頻譜谷值處小於零 的結果。加強向量產生器VG100可經配置以通過應用平滑濾波器(例如,加權平均濾波器(例如,三角濾波器))來使頻譜二階差分平滑。平滑濾波器的長度可基於頻譜峰值的 估計帶寬。舉例來說,可能需要平滑濾波器使具有小於所估計峰值帶寬的兩倍的周期的頻 率衰減。典型平滑濾波器長度包括三個、五個、七個、九個、十一個、十三個及十五個分接頭 (tap)。加強向量產生器VG100的此實施方案可經配置以連續地執行差分及平滑計算或作 為一個操作來執行。圖13展示語音信號S40的幀的幅度譜的實例,且圖14展示計算為由 十五分接頭三角濾波器平滑的二階頻譜差分的加強向量EVlO的對應幀的實例。
在類似實例中,加強向量產生器VG100經配置以通過用高斯差(DoG)濾波器來卷 積語音信號S40的頻譜來產生加強向量EV10,所述高斯差濾波器可根據例如下式的表達式 來實施
權利要求
1.一種處理語音信號的方法,所述方法包含在經配置以處理音頻信號的裝置內執行以 下動作中的每一者對多通道所感測音頻信號執行空間選擇性處理操作以產生源信號及噪聲參考;以及對所述語音信號執行頻譜對比加強操作以產生經處理語音信號,其中所述執行頻譜對比加強操作包括基於來自所述噪聲參考的信息來計算多個噪聲子帶功率估計;基於來自所述語音信號的信息來產生加強向量;以及基於所述多個噪聲子帶功率估計、來自所述語音信號的信息及來自所述加強向量的信 息來產生所述經處理語音信號,且其中所述經處理語音信號的多個頻率子帶中的每一者是基於所述語音信號的對應頻 率子帶。
2.根據權利要求1所述的處理語音信號的方法,其中所述執行空間選擇性處理操作包 括將所述多通道所感測音頻信號的方向性分量的能量集中到所述源信號中。
3.根據權利要求1所述的處理語音信號的方法,其中所述方法包含對所述裝置用無線 方式接收到的信號進行解碼以獲得經解碼語音信號,且其中所述語音信號是基於來自所述經解碼語音信號的信息。
4.根據權利要求1所述的處理語音信號的方法,其中所述語音信號是基於所述多通道 所感測音頻信號。
5.根據權利要求1所述的處理語音信號的方法,其中所述執行空間選擇性處理操作包 括確定在多個不同頻率中的每一者下所述多通道所感測音頻信號的通道的相位角之間的 關係。
6.根據權利要求1所述的處理語音信號的方法,其中所述產生加強向量包含使所述 語音信號的頻譜平滑以獲得第一平滑信號,且使所述第一平滑信號平滑以獲得第二平滑信 號,且其中所述加強向量是基於所述第一平滑信號與第二平滑信號的比率。
7.根據權利要求1所述的處理語音信號的方法,其中所述產生加強向量包含減少所 述語音信號的頻譜峰值的幅度之間的差異,且其中所述加強向量是基於所述減少的結果。
8.根據權利要求1所述的處理語音信號的方法,其中所述產生經處理語音信號包含 計算多個增益因子值,使得所述多個增益因子值中的每一者是基於來自所述加強向量的對應頻率子帶的信息;將所述多個增益因子值中的第一者應用於所述語音信號的第一頻率子帶,以獲得所述 經處理語音信號的第一子帶;以及將所述多個增益因子值中的第二者應用於所述語音信號的第二頻率子帶,以獲得所述 經處理語音信號的第二子帶,其中所述多個增益因子值中的所述第一者不同於所述多個增益因子值中的所述第二者ο
9.根據權利要求8所述的處理語音信號的方法,其中所述多個增益因子值中的每一者 是基於所述多個噪聲子帶功率估計中的對應一者。
10.根據權利要求8所述的處理語音信號的方法,其中所述產生經處理語音信號包括 使用濾波器級的級聯來對所述語音信號進行濾波;且其中所述將所述多個增益因子值中的第一者應用於所述語音信號的第一頻率子帶包 含將所述增益因子值應用於所述級聯的第一濾波器級;且其中所述將所述多個增益因子值中的第二者應用於所述語音信號的第二頻率子帶包 含將所述增益因子值應用於所述級聯的第二濾波器級。
11.根據權利要求1所述的處理語音信號的方法,其中所述方法包含 使用回音消除器來從所述多通道所感測音頻信號中消除回音;以及 使用所述經處理語音信號來訓練所述回音消除器。
12.根據權利要求1所述的處理語音信號的方法,其中所述方法包含基於來自所述噪聲參考的信息,對所述源信號執行噪聲減少操作以獲得所述語音信 號;以及基於所述源信號與所述語音信號之間的關係來執行話音活動檢測操作, 其中所述產生經處理語音信號是基於所述話音活動檢測操作的結果。
13.一種用於處理語音信號的設備,所述設備包含用於對多通道所感測音頻信號執行空間選擇性處理操作以產生源信號及噪聲參考的 裝置;以及用於對所述語音信號執行頻譜對比加強操作以產生經處理語音信號的裝置, 其中所述用於執行頻譜對比加強操作的裝置包括 用於基於來自所述噪聲參考的信息來計算多個噪聲子帶功率估計的裝置; 用於基於來自所述語音信號的信息來產生加強向量的裝置;以及 用於基於所述多個噪聲子帶功率估計、來自所述語音信號的信息及來自所述加強向量 的信息來產生所述經處理語音信號的裝置,其中所述經處理語音信號的多個頻率子帶中的每一者是基於所述語音信號的對應頻 率子帶。
14.根據權利要求13所述的用於處理語音信號的設備,其中所述空間選擇性處理操作 包括將所述多通道所感測音頻信號的方向性分量的能量集中到所述源信號中。
15.根據權利要求13所述的用於處理語音信號的設備,其中所述設備包含用於對所述 設備用無線方式接收到的信號進行解碼以獲得經解碼語音信號的裝置;且其中所述語音信號是基於來自所述經解碼語音信號的信息。
16.根據權利要求13所述的用於處理語音信號的設備,其中所述語音信號是基於所述 多通道所感測音頻信號。
17.根據權利要求13所述的用於處理語音信號的設備,其中所述用於執行空間選擇性 處理操作的裝置經配置以確定在多個不同頻率中的每一者下所述多通道所感測音頻信號 的通道的相位角之間的關係。
18.根據權利要求13所述的用於處理語音信號的設備,其中所述用於產生加強向量的 裝置經配置以使所述語音信號的頻譜平滑以獲得第一平滑信號,且使所述第一平滑信號 平滑以獲得第二平滑信號,且其中所述加強向量是基於所述第一平滑信號與第二平滑信號的比率。
19.根據權利要求13所述的用於處理語音信號的設備,其中所述用於產生加強向量的 裝置經配置以執行減少所述語音信號的頻譜峰值的幅度之間的差異的操作,且其中所述 加強向量是基於所述操作的結果。
20.根據權利要求13所述的用於處理語音信號的設備,其中所述用於產生經處理語音 信號的裝置包含用於計算多個增益因子值使得所述多個增益因子值中的每一者是基於來自所述加強 向量的對應頻率子帶的信息的裝置;用於將所述多個增益因子值中的第一者應用於所述語音信號的第一頻率子帶以獲得 所述經處理語音信號的第一子帶的裝置;以及用於將所述多個增益因子值中的第二者應用於所述語音信號的第二頻率子帶以獲得 所述經處理語音信號的第二子帶的裝置,其中所述多個增益因子值中的所述第一者不同於所述多個增益因子值中的所述第二者ο
21.根據權利要求20所述的用於處理語音信號的設備,其中所述多個增益因子值中的 每一者是基於所述多個噪聲子帶功率估計中的對應一者。
22.根據權利要求20所述的用於處理語音信號的設備,其中所述用於產生經處理語音 信號的裝置包括經布置以對所述語音信號進行濾波的濾波器級的級聯;且其中所述用於將所述多個增益因子值中的第一者應用於所述語音信號的第一頻率子 帶的裝置經配置以將所述增益因子值應用於所述級聯的第一濾波器級,且其中所述用於將所述多個增益因子值中的第二者應用於所述語音信號的第二頻率子 帶的裝置經配置以將所述增益因子值應用於所述級聯的第二濾波器級。
23.根據權利要求13所述的用於處理語音信號的設備,其中所述設備包含用於從所述 多通道所感測音頻信號中消除回音的裝置;且其中所述用於消除回音的裝置經配置及經布置以通過所述經處理語音信號來加以訓練。
24.根據權利要求13所述的用於處理語音信號的設備,其中所述設備包含 用於基於來自所述噪聲參考的信息對所述源信號執行噪聲減少操作以獲得所述語音信號的裝置;以及用於基於所述源信號與所述語音信號之間的關係來執行話音活動檢測操作的裝置, 其中所述用於產生經處理語音信號的裝置經配置以基於所述話音活動檢測操作的結 果來產生所述經處理語音信號。
25.一種用於處理語音信號的設備,所述設備包含空間選擇性處理濾波器,其經配置以對多通道所感測音頻信號執行空間選擇性處理操 作以產生源信號及噪聲參考;以及頻譜對比加強器,其經配置以對所述語音信號執行頻譜對比加強操作以產生經處理語音信號,其中所述頻譜對比加強器包括功率估計計算器,其經配置以基於來自所述噪聲參考的信息來計算多個噪聲子帶功率 估計;以及加強向量產生器,其經配置以基於來自所述語音信號的信息來產生加強向量,且其中所述頻譜對比加強器經配置以基於所述多個噪聲子帶功率估計、來自所述語音信 號的信息及來自所述加強向量的信息來產生所述經處理語音信號,且其中所述經處理語音信號的多個頻率子帶中的每一者是基於所述語音信號的對應頻 率子帶。
26.根據權利要求25所述的用於處理語音信號的設備,其中所述空間選擇性處理操作 包括將所述多通道所感測音頻信號的方向性分量的能量集中到所述源信號中。
27.根據權利要求25所述的用於處理語音信號的設備,其中所述設備包含解碼器,所 述解碼器經配置以對所述設備用無線方式接收到的信號進行解碼以獲得經解碼語音信號; 且其中所述語音信號是基於來自所述經解碼語音信號的信息。
28.根據權利要求25所述的用於處理語音信號的設備,其中所述語音信號是基於所述 多通道所感測音頻信號。
29.根據權利要求25所述的用於處理語音信號的設備,其中所述空間選擇性處理操作 包括確定在多個不同頻率中的每一者下所述多通道所感測音頻信號的通道的相位角之間 的關係。
30.根據權利要求25所述的用於處理語音信號的設備,其中所述加強向量產生器經配 置以使所述語音信號的頻譜平滑以獲得第一平滑信號,且使所述第一平滑信號平滑以獲 得第二平滑信號,且其中所述加強向量是基於所述第一平滑信號與第二平滑信號的比率。
31.根據權利要求25所述的用於處理語音信號的設備,其中所述加強向量產生器經配 置以執行減少所述語音信號的頻譜峰值的幅度之間的差異的操作,且其中所述加強向量是基於所述操作的結果。
32.根據權利要求25所述的用於處理語音信號的設備,其中所述頻譜對比加強器包 括增益因子計算器,其經配置以計算多個增益因子值,使得所述多個增益因子值中的每一 者是基於來自所述加強向量的對應頻率子帶的信息;以及增益控制元件,其經配置以將所述多個增益因子值中的第一者應用於所述語音信號的 第一頻率子帶,以獲得所述經處理語音信號的第一子帶;且其中所述增益控制元件經配置以將所述多個增益因子值中的第二者應用於所述語音 信號的第二頻率子帶,以獲得所述經處理語音信號的第二子帶,其中所述多個增益因子值中的所述第一者不同於所述多個增益因子值中的所述第二者ο
33.根據權利要求32所述的用於處理語音信號的設備,其中所述多個增益因子值中的 每一者是基於所述多個噪聲子帶功率估計中的對應一者。
34.根據權利要求32所述的用於處理語音信號的設備,其中所述增益控制元件包括經 布置以對所述語音信號進行濾波的濾波器級的級聯;且其中所述增益控制元件經配置以通過將所述多個增益因子值中的所述第一者應用於 所述級聯的第一濾波器級而將所述增益因子值應用於所述語音信號的所述第一頻率子帶, 且其中所述增益控制元件經配置以通過將所述多個增益因子值中的所述第二者應用於 所述級聯的第二濾波器級而將所述增益因子值應用於所述語音信號的所述第二頻率子帶。
35.根據權利要求25所述的用於處理語音信號的設備,其中所述設備包含回音消除 器,所述回音消除器經配置以從所述多通道所感測音頻信號中消除回音,且其中所述回音消除器經配置及經布置以通過所述經處理語音信號來加以訓練。
36.根據權利要求25所述的用於處理語音信號的設備,其中所述設備包含噪聲減少級,其經配置以基於來自所述噪聲參考的信息對所述源信號執行噪聲減少操 作,以獲得所述語音信號;以及話音活動檢測器,其經配置以基於所述源信號與所述語音信號之間的關係來執行話音 活動檢測操作,其中所述頻譜對比加強器經配置以基於所述話音活動檢測操作的結果來產生所述經處理語音信號。
37.一種計算機可讀媒體,其包含在由至少一個處理器執行時使所述至少一個處理器 執行處理多通道音頻信號的方法的指令,所述指令包含在由處理器執行時使所述處理器對多通道所感測音頻信號執行空間選擇性處理操作 以產生源信號及噪聲參考的指令;以及在由處理器執行時使所述處理器對語音信號執行頻譜對比加強操作以產生經處理語 音信號的指令,其中在由處理器執行時使所述處理器執行頻譜對比加強操作的所述指令包括在由處理器執行時使所述處理器基於來自所述噪聲參考的信息來計算多個噪聲子帶 功率估計的指令;在由處理器執行時使所述處理器基於來自所述語音信號的信息來產生加強向量的指 令;以及在由處理器執行時使所述處理器基於所述多個噪聲子帶功率估計、來自所述語音信號 的信息及來自所述加強向量的信息來產生經處理語音信號的指令,其中所述經處理語音信號的多個頻率子帶中的每一者是基於所述語音信號的對應頻 率子帶。
38.根據權利要求37所述的計算機可讀媒體,其中在由處理器執行時使所述處理器執 行空間選擇性處理操作的所述指令包括在由處理器執行時使所述處理器將所述多通道所 感測音頻信號的方向性分量的能量集中到所述源信號中的指令。
39.根據權利要求37所述的計算機可讀媒體,其中所述媒體包含在由處理器執行時使 所述處理器對包括所述媒體的裝置用無線方式接收到的信號進行解碼以獲得經解碼語音 信號的指令;且其中所述語音信號是基於來自所述經解碼語音信號的信息。
40.根據權利要求37所述的計算機可讀媒體,其中所述語音信號是基於所述多通道所 感測音頻信號。
41.根據權利要求37所述的計算機可讀媒體,其中在由處理器執行時使所述處理器執 行空間選擇性處理操作的所述指令包括在由處理器執行時使所述處理器確定在多個不同 頻率中的每一者下所述多通道所感測音頻信號的通道的相位角之間的關係的指令。
42.根據權利要求37所述的計算機可讀媒體,其中在由處理器執行時使所述處理器產 生加強向量的所述指令包含在由處理器執行時使所述處理器使所述語音信號的頻譜平滑 以獲得第一平滑信號的指令;以及在由處理器執行時使所述處理器使所述第一平滑信號平 滑以獲得第二平滑信號的指令,且其中所述加強向量是基於所述第一平滑信號與第二平滑信號的比率。
43.根據權利要求37所述的計算機可讀媒體,其中在由處理器執行時使所述處理器產 生加強向量的所述指令包含在由處理器執行時使所述處理器減少所述語音信號的頻譜峰 值的幅度之間的差異的指令,且其中所述加強向量是基於所述減少的結果。
44.根據權利要求37所述的計算機可讀媒體,其中在由處理器執行時使所述處理器產 生經處理語音信號的所述指令包含在由處理器執行時使所述處理器計算多個增益因子值使得所述多個增益因子值中的 每一者是基於來自所述加強向量的對應頻率子帶的信息的指令;在由處理器執行時使所述處理器將所述多個增益因子值中的第一者應用於所述語音 信號的第一頻率子帶以獲得所述經處理語音信號的第一子帶的指令;以及在由處理器執行時使所述處理器將所述多個增益因子值中的第二者應用於所述語音 信號的第二頻率子帶以獲得所述經處理語音信號的第二子帶的指令,其中所述多個增益因子值中的所述第一者不同於所述多個增益因子值中的所述第二者。
45.根據權利要求44所述的計算機可讀媒體,其中所述多個增益因子值中的每一者是 基於所述多個噪聲子帶功率估計中的對應一者。
46.根據權利要求44所述的計算機可讀媒體,其中在由處理器執行時使所述處理器產 生經處理語音信號的所述指令包括在由處理器執行時使所述處理器使用濾波器級的級聯 來對所述語音信號進行濾波的指令;且其中在由處理器執行時使所述處理器將所述多個增益因子值中的第一者應用於所述 語音信號的第一頻率子帶的所述指令包含在由處理器執行時使所述處理器將所述增益因 子值應用於所述級聯的第一濾波器級的指令;且其中在由處理器執行時使所述處理器將所述多個增益因子值中的第二者應用於所述 語音信號的第二頻率子帶的所述指令包含在由處理器執行時使所述處理器將所述增益因 子值應用於所述級聯的第二濾波器級的指令。
47.根據權利要求37所述的計算機可讀媒體,其中所述媒體包含在由處理器執行時使所述處理器從所述多通道所感測音頻信號中消除回音的指令;且其中在由處理器執行時使所述處理器消除回音的所述指令經配置及經布置以通過所 述經處理語音信號來加以訓練。
48.根據權利要求37所述的計算機可讀媒體,其中所述媒體包含在由處理器執行時使所述處理器基於來自所述噪聲參考的信息對所述源信號執行噪 聲減少操作以獲得所述語音信號的指令;以及在由處理器執行時使所述處理器基於所述源信號與所述語音信號之間的關係來執行 話音活動檢測操作的指令,其中在由處理器執行時使所述處理器產生經處理語音信號的所述指令經配置以基於 所述話音活動檢測操作的結果來產生所述經處理語音信號。
49.一種處理語音信號的方法,所述方法包含在經配置以處理音頻信號的裝置內執行 以下動作中的每一者使所述語音信號的頻譜平滑以獲得第一平滑信號;使所述第一平滑信號平滑以獲得第二平滑信號;以及產生基於所述第一平滑信號與第二平滑信號的比率的對比加強語音信號。
50.根據權利要求49所述的處理語音信號的方法,其中所述產生對比加強語音信號包 含對於所述語音信號的多個子帶中的每一者,基於來自對應子帶的所述第一平滑信號與 第二平滑信號的所述比率的信息來控制所述子帶的增益。
全文摘要
本發明揭示用於基於來自由空間選擇性處理濾波器從多通道所感測音頻信號導出的噪聲參考的信息對語音信號進行的頻譜對比加強的系統、方法及設備。
文檔編號G10L21/02GK102047326SQ200980119650
公開日2011年5月4日 申請日期2009年5月29日 優先權日2008年5月29日
發明者埃裡克·維塞, 傑裡米·託曼, 林鴻春 申請人:高通股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀