處理音頻信號的製作方法
2023-05-19 06:56:06 1
處理音頻信號的製作方法
【專利摘要】一種對通信會話期間在用戶設備與遠程節點之間的音頻信號進行處理的方法、用戶設備和電腦程式產品,所述方法包括:接收在所述用戶設備處的音頻輸入裝置處的多個音頻信號,該多個音頻信號包括至少一個主音頻信號和不希望的信號;在增益控制裝置處接收所述音頻信號的到達方向信息;向所述增益控制裝置提供代表至少一些所述不希望信號的已知的到達方向信息;通過施加某一水平的增益來處理在所述增益控制裝置處的音頻信號,以生成供發送至遠程節點用的增益控制的信號,其中所施加的增益水平取決於所述音頻信號的到達方向信息與已知的到達方向信息之間的比較。
【專利說明】處理音頻信號 發明領域
[0001] 本發明涉及在通信會話期間處理音頻信號。
【背景技術】
[0002] 通信系統允許用戶在網絡上彼此通信。網絡可W是例如網際網路或公眾交換電話網 絡(PSTN)。可W在網絡的節點之間傳輸音頻信號,從而允許用戶在通信系統上在通信會話 中向彼此發送和接收音頻信號巧日語音數據等)。
[0003] 用戶設備可W具有諸如麥克風等可W用來接收來自用戶的諸如語音等音頻信號 的音頻輸入裝置。用戶可W進入諸如私人電話(只有兩人在通話中)或會議電話(多於兩人 在通話中)等與另一用戶的通信會話。用戶的語音在麥克風處被接收、處理,然後在網絡上 被發送至通話中的其它用戶。
[0004] 不僅是來自用戶的音頻信號,麥克風還可W接收諸如背景噪聲等其它音頻信號, 該些其它音頻信號可能會干擾從用戶接收到的音頻信號。
[0005] 用戶設備還可W具有諸如揚聲器等音頻輸出裝置,用於將在通話期間在網絡上從 用戶接收到的音頻信號輸出給用戶。然而,揚聲器還可W被用來輸出來自在用戶設備處執 行的其它應用的音頻信號。例如,用戶設備可W是執行諸如用於在網絡上通信的通信客戶 端等應用的TV。當用戶設備忙於通話時,連接至用戶設備的麥克風意圖接收由用戶提供的、 意在發送至通話中的其它用戶的語音或其它音頻信號。然而,麥克風可能會拾取從用戶設 備的揚聲器輸出的不希望的音頻信號。從用戶設備輸出的不希望的音頻信號可能會對在麥 克風處從用戶接收到的用於在通話中發送的音頻信號帶來幹擾。
[0006] 當在具有可W被麥克風拾取的其它噪聲源的房間中使用用戶設備時,也會出現問 題。
[0007] 為了改進如用於通話中等信號的品質,希望抑制在用戶設備的音頻輸入裝置處接 收到的不希望的音頻信號(背景噪聲和不希望的音頻信號)。
[0008] 使用立體聲麥克風和麥克風陣列(其中多個麥克風作為單個設備而工作)正變得 愈來愈普通。該些使得除了可W在單個麥克風中實現的W外、還可W使用所提取的空間信 息。當使用該種設備時,抑制不希望的音頻信號的一種方法是應用波束形成器。波束形成 是試圖通過施加信號處理來增強從一個或更多想要的方向來的聲音而使麥克風陣列所接 收的信號會聚的處理。為了簡化,我們將在下面描述僅有單個想要的方向的情況,但當有更 多感興趣的方向時也適用相同的方法。波束形成是通過首先估計在麥克風處接收到希望信 號的角度即所謂到達方向(D0A)信息而實現的。適應性波束形成器使用D0A信息來處理來 自陣列中的麥克風的信號,W形成一個或更多該樣的波束:其中在麥克風陣列處接收到希 望信號的方向上增益高,而在其它任何方向上增益低。
[0009] 儘管波束形成器企圖抑制從不希望方向而來的不希望的音頻信號,但是麥克風的 數量W及麥克風陣列的形狀和尺寸會限制波束形成器的效果,結果,不希望的音頻信號雖 然被抑制,但是仍然聽得見。
[0010] 為了後續的單信道處理,波束形成器的輸出通常被作為輸入信號供給自動增益控 巧IJ(AGC)處理級。AGC處理級對信道上的整個信號施加增益並且基於輸入信號電平將增益 隨時間調整到適宜的水平。
[0011] 當有遠端活動時,可W估計從卿趴到達的回波來自哪個方向。相同的卿趴可W被 用來播放例如音樂,或者,如果端點是TV則它可W是來自當前觀看的節目的音頻。當揚聲 器正播放音頻而不是遠端語音時,它通常被歸類為近端活動,並且自動增益控制會將它放 大到常規語音水平。當近端揚聲器隨後發聲時,自動增益控制可能已針對錯誤的信號調整, 並且可能不得不再調整到近端語音。在調整回到最佳增益所花的時間期間,信號可能被削 波和/或嚴重地壓縮,或是信號幅度(即音量)在與代表聽得見的語音的目標水平相比時可 能太低。
[0012] 在W下說明的本發明的實施例中,關於聲音到來的角度的信息也可W用於自動模 擬和數字增益控制。D0A信息被用來使得增益控制對於從某些方向到達的音頻是魯棒的。 憑藉當前發明的實施例,可W檢測到音頻是從揚聲器的角度到達的並且使增益保持恆定、 直到還是該聲音又從(人的)近端揚聲器的角度到達為止。該樣,將會防止增益對於從不希 望的方向到達的聲音而增加。
【發明內容】
[0013] 根據本發明的第一方面,提供了一種對通信會話期間在用戶設備與遠程節點之間 的音頻信號進行處理的方法,所述方法包括:接收在所述用戶設備處的音頻輸入裝置處的 多個音頻信號,該多個音頻信號包括至少一個主音頻信號和不希望的信號;在增益控制裝 置處接收所述音頻信號的到達方向信息;向所述增益控制裝置提供代表至少一些所述不希 望信號的已知的到達方向信息;W及通過施加某一水平的增益來處理在所述增益控制裝置 處的音頻信號,W生成供發送至遠程節點用的增益控制信號,其中所述施加的增益的水平 取決於所述音頻信號的所述到達方向信息與所述已知的到達方向信息之間的比較。
[0014] 優選地,所述音頻輸入裝置處理所述多個音頻信號W生成包括峽序列的單信道音 頻輸出信號,所述增益控制裝置按順序處理每一所述峽。
[0015] 優選地,在所述增益控制裝置處接收到正在被處理的當前峽的主信號成分的到達 方向信息,所述方法進一步包括:將所述當前峽的所述主信號成分的到達方向信息與所述 已知的到達方向信息作比較。可W基於所述比較對是否禁止所述增益控制裝置的活動做出 決定。
[0016] 所述已知的到達方向信息可W包括在所述音頻輸入裝置處接收到遠端信號的至 少一個方向,所述決定基於是否在所述音頻輸入裝置處、從在所述音頻輸入裝置處接收到 遠端信號的所述至少一個方向接收到所述當前峽的所述主信號成分。
[0017] 替代地或附加地,所述已知的到達方向信息可W包括至少一個歸類的方向,所述 決定基於是否在所述音頻輸入裝置處、從所述至少一個歸類的方向接收到當前峽的所述主 信號成分,所述至少一個歸類的方向可W是至少一個不希望的音頻信號到達所述音頻輸入 裝置的方向,並且基於所述至少一個不希望的音頻信號的信號特性被識別。
[0018] 替代地或附加地,所述已知的到達方向信息可W包括在所述音頻輸入裝置處接收 到所述至少一個主音頻信號的至少一個主方向,所述決定基於是否在所述音頻輸入裝置 處、從所述至少一個主方向接收到所述當前峽的所述主信號成分。
[0019] 優選地,所述至少一個主方向是通過該樣來確定的;確定使在所述音頻輸入裝置 處接收到的所述音頻信號之間的互相關最大化的時間延遲;W及檢測在所述音頻輸入裝置 處接收到的、帶有最大互相關的時間延遲的所述音頻信號中的語音特性。
[0020] 所述音頻輸入裝置可W包括波束形成器,該波束形成器被配置為;估計所述至少 一個主方向;W及處理所述多個音頻信號,W通過在所述至少一個主方向上形成波束並且 實質地抑制來自除所述主方向W外其它任何方向的音頻信號而生成所述單信道音頻輸出 信號。所述已知的到達方向信息可W包括所述波束形成器的波束圖。
[0021] 如果從所述比較確定為應禁止所述增益控制裝置的活動,則所述增益控制裝置可 W被配置為對正在被處理的當前峽施加曾對就在所述當前峽之前處理的峽施加的某一水 平的增益。替代地,如果從所述比較確定為應禁止所述增益控制裝置的活動,則所述增益控 制裝置可W被配置為取決於就在所述當前峽之前處理的峽的信號電平、受被約束(capped) 的當前峽和前一峽之間的增益的變化的影響、對所述當前峽施加某一水平的增益。
[0022] 如果從所述比較確定為不應禁止所述增益控制裝置的活動,則所述增益控制裝置 可W被配置為將所處理的峽的信號電平與就在所述當前峽之前處理的峽的信號電平做比 較;並且如果所述當前峽的信號電平比所述就在當前峽之前處理的峽的信號電平更高,貝U 所述增益控制裝置被配置為減小增益的水平並且將所述減小的增益的水平施加至所述當 前峽;並且如果所述當前峽的信號電平比所述就在當前峽之前處理的峽的信號電平更低, 則所述增益控制裝置被配置為增加增益的水平並且將所述增加的增益的水平施加至所述 當前中貞。
[0023] 在一種實施例中,所述音頻輸入裝置包括第一和第二音頻輸入裝置,每一音頻輸 入裝置處理所述多個音頻信號W生成輸出信道,所述方法進一步包括:通過對每一輸出信 道施加某一水平的增益來處理在各個增益控制裝置處的每一輸出信道,W生成供發送至遠 程節點用的第一和第二增益控制信號,其中所述增益的水平取決於所述音頻信號的到達方 向信息與所述已知的到達方向信息之間的比較,並且對於每一輸出信道都相同。
[0024] 優選地,在所述通信會話中在所述用戶設備處從所述遠程節點接收到的音頻數據 從所述用戶設備的音頻輸出裝置輸出。
[0025] 所述不希望的信號可W由在所述用戶設備處的源生成,所述源包括W下中的至少 一個:所述用戶設備的音頻輸出裝置;在所述用戶設備處的活動的源,其中所述活動包括 點擊活動,該點擊活動包括按鈕點擊活動、鍵盤點擊活動和滑鼠器點擊活動。
[0026] 替代地,所述不希望的信號可W由所述用戶設備外部的源生成。
[0027] 優選地,所述至少一個主音頻信號是在所述音頻輸入裝置處接收到的語音信號。
[0028] 根據本發明的第二方面,提供了一種對通信會話期間在用戶設備與遠程節點之間 的音頻信號進行處理的用戶設備,所述用戶終端包括:音頻輸入裝置,所述音頻輸入裝置接 收多個音頻信號,該多個音頻信號包括至少一個主音頻信號和不希望的信號;W及增益控 制裝置,所述增益控制裝置接收所述音頻信號的到達方向信息和代表至少一些所述不希望 信號的已知的到達方向信息,所述增益控制裝置被配置為通過施加某一水平的增益來處理 所述音頻信號,W生成供發送至遠程節點用的增益控制信號,其中所述施加的增益的水平 取決於所述音頻信號的所述到達方向信息與所述已知的到達方向信息之間的比較。
[0029] 根據本發明的第H方面,提供了一種包括由在用戶設備處的計算機處理裝置執行 的、對通信會話期間在所述用戶設備與遠程節點之間的音頻信號進行處理的計算機可讀指 令的電腦程式產品,所述指令包括用於施行根據本發明的第一方面的方法的指令。
【專利附圖】
【附圖說明】
[0030] 為了更好地理解本發明並且示出本發明可W如何投入實用,下面通過示例參照W 下附圖,在附圖中: 圖1表示根據優選實施例的通信系統; 圖2表示根據優選實施例的用戶終端的示意圖; 圖3表示用戶終端的示例環境; 圖4a表示根據一個實施例的用戶終端處的音頻輸入裝置的示意圖; 圖4b表示根據替代實施例的用戶終端處的音頻輸入裝置的示意圖; 圖5表示代表如何估計D0A信息的圖; 圖6圖示了可W被用來對施加至音頻信道的增益的水平進行調整的兩種方法。
【具體實施方式】
[0031] 在下列本發明的實施例中,說明了該樣的技術;其中,不是完全依賴波束形成器使 不從聚焦方向來的聲音衰減,相反,使用自動增益控制中的D0A信息明確地增加了對來自 任何其它方向的聲音的魯棒性。該在可W通過使用空間信息將不想要的信號與想要的近端 語音信號區分開時非常有利。該種源的實例是播放音樂的卿趴、吹風的風扇和關閉的口。
[0032] 通過使用信號歸類也可W找到其它源的方向。該種源的實例可能是例如致涼風扇 /空調系統、背景音樂播放和鍵盤敲擊。
[0033] 可W採取兩種補充方法。第一,可W識別從某些方向到達的不想要的源,並且將該 角度從允許增益控制做出反應的角度中排除。
[0034] 第二,可W使得增益控制對除期待近端語音到達的方向外的任何其它方向都更不 敏感。第二種方法會確保沒有基於移動噪聲源的調整,該移動噪聲源不與主揚聲器從相同 方向到達,並且也還未被檢測為噪聲源。
[00巧]首先參照圖1,圖1示出了優選實施例的通信系統100。通信系統的第一用戶(用 戶A 102)操作用戶設備104。用戶設備104可W是例如行動電話、電視、個人數字助理 ("PDA")、個人計算機("PC")(包括例如Windows ?、Mac 0S?和Linux? PC)、遊戲設備或其 它能夠在通信系統100上通信的嵌入式設備。
[0036] 用戶設備104包括中央處理裝置(CPU) 108,它可W被配置為諸如執行在通信系統 100上通信的通信客戶端等應用。該應用允許用戶設備104從事通信系統100上的通話和 其它通信會話(例如,即時消息通信會話)。用戶設備104可W經由可W是例如網際網路或公 眾交換電話網絡(PSTN)的網絡106在通信系統100上通信。用戶設備104可W在鏈路110 上向網絡106發送數據和從網絡106接收數據。
[0037] 圖1還示出了用戶設備104可W與之在通信系統100上通信的遠程節點。在圖1 中示出的例子中,遠程節點是可W被第二用戶112使用的、並且包括CPU 116的第二用戶 設備114,其中CPU 116可W執行應用(例如通信客戶端)W便W與用戶設備104在通信系 統100中的通信網絡106上通信相同的方式在通信網絡106上通信。用戶設備114可w是 例如行動電話、電視、個人數字助理(叩DA")、個人計算機("PC")飽括例如Windows ?、Mac OS?和Linux? PC)、遊戲設備或其它能夠在通信系統100上通信的嵌入式設備。用戶設備 114可W在鏈路118上向網絡106發送數據和從網絡106接收數據。因此用戶A 102和用 戶B 112可W在通信網絡106上彼此通信。
[0038] 圖2示出了執行客戶應用的用戶終端104的示意圖。用戶終端104包括連接有諸 如屏幕等顯示器204、諸如鍵盤214等輸入設備和諸如滑鼠器212等指點設備的CPU 108。 顯示器204可W包括用於向CPU 108輸入數據的觸控螢幕。輸出音頻設備206 (例如揚聲器) 連接至CPU 108。諸如麥克風208等輸入音頻設備經由自動增益控制裝置228連接至CPU 108。儘管在圖2中自動增益控制裝置228被表示為獨立的硬體設備,但是自動增益控制裝 置228可軟體來實施。例如,自動增益控制裝置可W被包括在客戶端中。
[0039] CPU 108連接至諸如用於與網絡106通信的數據機等網絡接口 226。
[0040] 下面參照圖3,圖3示出了用戶終端104的示例環境300。
[0041] 當音頻信號在已在麥克風208處被接收到後被處理時,識別想要的音頻信號。在 處理期間,基於類語音特性的檢測來識別想要的音頻信號並且確定主揚聲器的主方向。該 在圖3中示出,其中主揚聲器(用戶102)被圖示為從主方向dl到達麥克風208處的想要的 音頻信號的源302。儘管為簡單起見在圖3中示出單個主揚聲器,但應當明白,在環境300 中可W存在任何數量的希望的音頻信號的源。
[0042] 在環境300中可W存在不希望的噪聲信號的源。圖3示出了在環境300中可W從 方向d3到達麥克風208處的不希望的噪聲信號的噪聲源304。不希望的噪聲信號的源包括 例如致涼風扇、空調系統和播放音樂的設備。
[0043] 不希望的噪聲信號例如滑鼠器212的點擊、鍵盤214的敲擊和從揚聲器206輸出 的音頻信號,還可W從用戶終端104處的噪聲源到達麥克風208。圖3示出了連接至麥克 風208和揚聲器206的用戶終端104。在圖3中,揚聲器206是可W從方向d2到達麥克風 208處的不希望的音頻信號的源。
[0044] 儘管麥克風208和揚聲器206被圖示為連接至用戶終端的外部設備,但應當明白, 麥克風208和揚聲器206可W集成在用戶終端104中。
[0045] 在傳統方法中,AGC處理級將取決於輸入信號電平將整個信道上的增益水平調整 至適宜的水平。從不希望的方向接收到的、存在於AGC處理級的輸入處的不希望的噪聲信 號當任何時候被誤W為是語音時,都被AGC處理級放大至常規語音水平。該影響到通話中 所傳輸的語音品質。
[0046] 現在參照圖4a,圖4a示出了根據一個實施例的麥克風208和自動增益控制裝置 228的更詳細的視圖。
[0047] 麥克風208包括將多個麥克風包含在內的麥克風陣列402, W及波束形成器404。 麥克風陣列402中的每一麥克風的輸出被禪合至波束形成器404。本領域的技術人員應明 白,需要多輸入來實施波束形成。在圖4中麥克風陣列402被圖示為具有3個麥克風,但應 當理解,該麥克風的數量僅是示例而不W任何方式進行限制。
[0048] 波束形成器404包括從麥克風陣列402接收音頻信號的處理塊409。處理塊409 包括語音活動檢測器(VAD) 411和D0A估計塊413 (它的工作將在後面說明)。處理塊409 確認由麥克風陣列402接收到的音頻信號的性質,並且基於由VAD 411檢測到的類語音品 質的檢測和在塊413中估計的DOA信息,確定主揚聲器的一個或更多主方向。波束形成器 404通過形成在來自一個或更多主方向的、在麥克風陣列處接收到希望信號的方向上具有 高增益而在任何其它方向上具有低增益的波束,從而使用DOA信息來處理音頻信號。儘管 W上說明了處理塊409能確定任何數量的主方向,但所確定的主方向的數量影響波束形成 器的特性,例如,與只確定單個主方向相比,在麥克風陣列處從其它(不希望的)方向接收到 的信號的衰減更少。波束形成器404的輸出W單個要處理的信道的形式在線406上提供給 自動增益控制裝置228。
[0049] 自動增益控制裝置228對波束形成器的輸出施加某一水平的增益。從波束形成器 施加至信道輸出的增益的水平取決於在自動增益控制裝置228處接收到的D0A信息。後面 將參照圖6來說明如何確定增益的水平。
[0050] 波束形成器404的輸出可W受到進一步信號處理巧日噪聲抑制等)的影響。在圖4 中未示出該種進一步信號處理的電路。噪聲抑制可W被施加至自動增益控制裝置228的輸 出處的放大信號,然後再在線410上被送至客戶端W供在網絡106上經由網絡接口 226傳 輸。然而,優選地,噪聲抑制在由自動增益控制裝置228即在線406上施加增益的水平之前 被施加至波束形成器的輸出。該是因為噪聲抑制理論上會輕微地降低語音水平(無意地), 並且自動增益控制裝置228會在噪聲抑制後增加語音水平並且為由噪聲抑制造成的語音 水平的輕微降低做出補償。
[0051] 下面參照圖4b,圖4b示出了根據替代實施例的麥克風208和自動增益控制裝置 228的更詳細的視圖。
[0052] 用戶可能希望使用兩個或更多獨立音頻信道的立體聲效果,可W提供從波束形成 器輸出的立體聲,然而在一些情況下可能不希望應用波束形成器。在該種替代實施例中不 使用波束形成器。
[0053] 麥克風208包括多個麥克風402 (包括麥克風403和麥克風405)和處理塊409。
[0054] 在該種實施例中,在多個麥克風402處接收到音頻信號。為簡單起見,圖4b示出 了包括兩個麥克風403和405的多個麥克風402,但應當理解,該麥克風的數量僅是示例而 不W任何方式進行限制。
[00巧]多個麥克風402分別在麥克風403和405處接收兩個輸入信道上的音頻信號。麥 克風403和405的信道輸出被禪合至相應自動增益控制裝置228、229。麥克風403和405 的輸出還分別通過線420、422禪合至處理塊409。自動增益控制裝置228、229將相同水平 的增益施加至它們各自的麥克風208的信道輸出。施加至麥克風208的輸出的增益的水平 取決於在自動增益控制裝置228、229處接收到的D0A信息。後面將參照圖6來說明如何確 定增益的水平。
[005引麥克風208的輸出可受到進一步信號處理巧日噪聲抑制等)的影響。噪聲抑制可W 被施加至自動增益控制裝置228、229的輸出處的放大信號,然後再在線414、415上被送至 客戶端W便經由網絡接口 226在網絡106上傳輸。然而,優選地,噪聲抑制在由自動增益控 制裝置228、229施加增益的水平之前被施加至麥克風208的輸出;W上已參照圖4討論了 為何該是優選的解釋。
[0057] 下面參照圖5更詳細地說明D0A估計塊413的工作。
[0058] 在DOA估計塊413中,通過(例如使用相關方法)估計在多個麥克風處接收到的音 頻信號之間的時間延遲、並且使用關於所述多個麥克風的位置的先驗知識來估計音頻信號 的源,從而估計D0A信息。
[0059] 作為一例,圖5示出從音頻源516接收兩個獨立輸入信道上的音頻信號的麥克風 403和405。在被分開了距離d的麥克風403和405處的音頻信號的到達方向可W使用公 式(1)來估計: 爵=arc藍化(學) (1) 其中V是聲速,而T D是來自源516的音頻信號到達麥克風403和405的時間差--即 時間延遲。時間延遲是作為使在麥克風403和405的輸出處的信號之間的互相關最大化的 時延而得到的。然後可得到與該時間延遲對應的角度0。在接收到的帶有最大互相關的延 遲的信號中可W檢測語音特性,W確定主揚聲器的一個或更多主方向。
[0060] 應當注意,計算信號的互相關是信號處理領域中的普通技術,因而此處不再更詳 細地說明了。
[0061] 應當注意,在單信道和多信道實施例該兩者中,本發明都不要求使用波束形成器。
[0062] 下面更詳細地說明自動增益控制裝置228的工作。對於圖4b的實施例,應當注意, 自動增益控制裝置229 W相同方式發揮功能。在本發明的所有實施例中,自動增益控制裝 置228使用在用戶終端處已知的、並且由D0A塊427代表的D0A信息,並且接收要處理的音 頻信號。自動增益控制裝置228在逐峽的基礎上處理音頻信號。在自動增益控制裝置228 中執行的處理包括對輸入到自動增益控制裝置228的音頻信號的每一峽施加某一水平的 增益。由自動增益控制裝置228施加至音頻信號的每一峽的增益的水平取決於正在被處理 的當前峽的所提取的D0A信息與在用戶終端處已知的各種音頻源的D0A信息的現有知識之 間的比較。所提取的D0A信息沿著峽被傳遞,從而它被用作除了峽自身W外的、到自動增益 控制裝置228的輸入參數。
[0063] 在傳統方法中,AGC處理級可W在逐峽的基礎上處理輸入音頻信號,但是要憑藉被 允許從一個取樣值到下一個取樣值平滑變化的增益。AGC處理級取決於正在被處理的當前 中貞的信號電平與就在當前峽之前處理的峽的信號電平之間的比較對正在被處理的當前峽 施加某一水平的增益,而不將D0A信息考慮在內。
[0064] 如果正在被處理的當前峽的信號電平比就在當前峽之前處理的峽的信號電平更 低,則AGC處理級將增加增益的水平並將增加的增益的水平施加至正在被處理的當前峽。
[0065] 如果正在被處理的當前峽的信號電平比就在當前峽之前處理的峽的信號電平更 高,則AGC處理級將減少增益的水平並將減少的增益的水平施加至正在被處理的當前峽。
[0066] 根據本發明的實施例,由自動增益控制裝置228施加至輸入音頻信號的增益的水 平可W被D0A信息W多種方式影響。
[0067] 從被識別為來自希望的源的方向到達麥克風208的音頻信號是基於類語音特性 的檢測來識別的,並且被識別為來自主揚聲器的主方向。
[006引在用戶終端處已知的D0A信息可W包括波束形成器的波束圖408。自動增益控制 裝置228在逐峽的基礎上處理音頻輸入信號。在峽的處理期間,自動增益控制裝置228讀 取峽的D0A信息,W找出在麥克風208處接收到峽中音頻信號的主成分的角度。峽的D0A 信息與在用戶終端處已知的DOA信息427作比較。該比較決定是否在麥克風208處從希望 的源的方向接收到正在被處理的峽中音頻信號的主成分。
[0069] 替代地或附加地,在用戶終端處已知的D0A信息427可W包括在麥克風208處從 用戶終端處的揚聲器巧日206等)接收到(在線407上供給自動增益控制裝置228、229的)遠 端信號的角度0。
[0070] 替代地或附加地,在用戶終端處已知的D0A信息427可W從功能425得來,該功能 425對來自不同方向的音頻進行歸類W定位非常增雜的、可能是由固定噪聲源產生的某一 方向。
[0071] 當D0A信息427代表主要希望的方向並且通過比較確定在麥克風208處從主方向 接收到正在被處理的峽的主成分時,自動增益控制裝置228使用W上說明的傳統方法確定 增益的水平。
[0072] 在第一種辦法中,如果確定在麥克風208處從主方向W外的方向接收到正在被處 理的峽主成分,則禁止自動增益控制裝置228的正常操作,並且自動增益控制裝置228對正 在被處理的當前峽施加曾對就在當前峽之前處理的峽施加的某一水平的增益,即增益的水 平保持恆定。
[0073] 該防止了當在通話期間在麥克風208處接收到不希望的音頻信號時自動增益控 制裝置228調整要施加至峽的增益。替代地,可W防止自動增益控制裝置228在帶有不希 望的音頻信號的峽上增加。
[0074] 圖6示出了在一種示例場景中根據第一種辦法的自動增益控制裝置228的操作。 [00巧]在通話期間,自動增益控制裝置228接收識別主揚聲器的主方向的D0A信息(波束 圖408),並且它被保持在塊427中。當處理第一峽時,自動增益控制裝置228讀取第一峽的 D0A信息,W找出在麥克風208處接收到第一峽中音頻信號的主成分的角度。第一峽的D0A 信息與在用戶終端處已知的D0A信息427作比較。作為該比較的結果,自動增益控制裝置 228確定在麥克風208處從主方向接收到正在被處理的第一峽中音頻信號的主成分。基於 該D0A信息,自動增益控制裝置228通過施加某一水平的增益gl來處理第一峽(信號電平 為 si)。
[0076] 當處理第二峽時,自動增益控制裝置228讀取第二峽的DOA信息,W找出在麥克風 208處接收到第二峽中音頻信號的主成分的角度。第二峽的D0A信息與在用戶終端處已知 的D0A信息作比較。作為該比較的結果,自動增益控制裝置228確定在麥克風208處從主 方向未接收到正在被處理的第二峽中音頻信號的主成分。基於該D0A信息,自動增益控制 裝置228通過施加增益水平gl來處理第二峽(信號電平為s2),即增益的水平保持恆定。
[0077] 在傳統方法中,由於正在被處理的第二峽的信號電平s2比(就在第二峽之前處理 的)第一峽的信號電平si更低,因而增加了增益水平並將增加的增益水平施加至第二峽中 的音頻信號,即第二峽中的音頻信號被提升至常規語音水平。
[007引通常可W假設語音加噪聲的信號電平比噪聲的信號電平更高,但是語音爆發之間 的噪聲的信號電平在極少情況下能夠比語音更高。在所說明的實施例中,自動增益控制裝 置228使用兩者中的較大者來確定增益因子。
[0079] 當處理第H峽時,自動增益控制裝置228讀取第H峽的D0A信息,W找出在麥克風 208處接收到第H峽中音頻信號的主成分的角度。第H峽的D0A信息與在用戶終端處已知 的DOA信息作比較。作為該比較的結果,自動增益控制裝置228確定在麥克風208處從主 方向接收到正在被處理的第H峽中音頻信號的主成分。基於該D0A信息,自動增益控制裝 置228通過施加增益水平g3來處理第H巾貞(信號電平為S3)。
[0080] 增益水平的與在傳統方法中同樣地被調整。在本例中,第H峽具有比第二峽的信 號電平更高的信號電平,即s3〉s2,因此自動增益控制裝置228將增益水平從gl減小至的 並將減小後的增益水平的施加至輸入自動增益控制裝置228的音頻信號。
[0081] 該樣,在該第一種辦法中可W取決於是否在麥克風208處從主方向接收到正在被 處理的峽中音頻信號的主成分來允許或禁止由自動增益控制裝置228對增益水平的調整。
[0082] 如上述,自動增益控制裝置228可W從功能425接收D0A信息,該功能425識別從 不同方向的噪聲源到達麥克風208的不希望的音頻信號。該些不希望的音頻信號是從它 們的特徵識別的,例如來自鍵盤上的鍵盤敲擊或風扇的音頻信號具有與人類語音不同的特 徵。不希望的音頻信號到達麥克風208的角度可W從自動增益控制裝置228可能做出反應 的角度中排除。因此,當在麥克風208處從被排除的方向接收到正在被處理的峽中音頻信 號的主成分時,自動增益控制裝置228對正在被處理的峽施加曾對就在當前峽之前處理的 峽施加的某一水平的增益,即增益的水平保持恆定。
[0083] 還可W進一步包括驗證裝置423。例如,一旦已經(例如在波束形成器的情況下基 于波束圖408)檢測到一個或更多主方向,則客戶端將檢測到的主方向經過客戶端用戶界面 通知給用戶102並且詢問用戶102所檢測到的主方向是否正確。如圖4a中的虛線所示,該 驗證是可選的。
[0084] 如果用戶102確認所檢測到的主方向正確,則將所檢測到的主方向作為D0A信息 發至自動增益控制裝置228,並且自動增益控制裝置228如W上說明的那樣操作。一旦用 戶102登入客戶端並且確認所檢測到的主方向正確,則通信客戶端可W將所檢測到的主方 向存儲在存儲器210中,隨後繼續登入客戶端,如果所檢測到的主方向與存儲器中已確認 的正確的主方向一致,則認為所檢測到的主方向正確。該防止了用戶102被迫在每次登入 客戶端時都確認主方向。
[0085] 如果用戶示意所檢測到的主方向不正確,則不將所檢測到的主方向作為D0A信息 發至自動增益控制裝置228。在該種情況下,處理塊409將繼續檢測主方向,並且只待用戶 102確認所檢測到的主方向正確時才將所檢測到的主方向發至自動增益控制裝置228。
[0086] 在第一種辦法中,操作模式是使得可W基於D0A信息完全地阻止對增益水平的調 整。
[0087] 在第二種辦法中,自動增益控制裝置228不W該種嚴格的操作模式操作。
[0088] 相反,在該第二種辦法中,自動增益控制裝置228可W在第一種辦法會阻止它的 情況下調整要施加至音頻信號的峽的增益的水平;然而僅對增益的水平做出小的調整。對 增益的水平的小的調整可W通過採取更小的增益階或更少的增益階來實施。在任一情況下 自動增益控制裝置都做出反應,但是比在傳統場景中反應得更少。
[0089] W下說明在圖6中示出的示例場景中根據第二種辦法的自動增益控制裝置228的 操作。
[0090] 與在第一種辦法中相同,在通話期間,自動增益控制裝置228具有識別主揚聲器 的主方向的D0A信息427。當處理第一峽時,自動增益控制裝置228讀取第一峽的D0A信 息,W找出在麥克風208處接收到第一峽中音頻信號的主成分的角度。第一峽的DOA信息 與在用戶終端處已知的D0A信息作比較。作為該比較的結果,自動增益控制裝置228確定 在麥克風208處從主方向接收到正在被處理的第一峽中音頻信號的主成分。基於該D0A信 息,自動增益控制裝置228通過施加某一水平的增益gl來處理第一峽(信號電平為si)。
[0091] 當處理第二峽時,自動增益控制裝置228讀取第二峽的D0A信息,W找出在麥克風 208處接收到第二峽中音頻信號的主成分的角度。第二峽的D0A信息與在用戶終端處已知 的D0A信息作比較。作為該比較的結果,自動增益控制裝置228確定在麥克風208處從主方 向未接收到正在被處理的第二峽中音頻信號的主成分。基於該D0A信息,自動增益控制裝 置228通過與傳統方法相同地施加更高或更低的增益水平來處理第二峽(信號電平為s2)。 在該例中第二峽具有比第一峽更低的信號電平,即s2<sl,自動增益控制裝置228將增益水 平從gl增加至g2並將增加後的增益水平g2施加至第二峽。該與傳統方法更接近,但在該 種情況下增益的變化A g = g2 - gl被約束在例如0. 1地的小的數量處。
[0092] 當處理第H巾貞時,自動增益控制裝置228讀取第H巾貞的D0A信息,W找出在麥克風 208處接收到第H峽中音頻信號的主成分的角度。第H峽的D0A信息與在用戶終端處已知 的D0A信息作比較。作為該比較的結果,自動增益控制裝置228確定在麥克風208處從主 方向接收到正在被處理的第H峽中音頻信號的主成分。基於該D0A信息,自動增益控制裝 置228通過施加增益水平的來處理第H峽(信號電平為S3)。增益水平的與傳統方法相同 地向上或向下變動。在本例中,第H峽具有比第二峽的信號電平更高的信號電平,即s3〉s2, 因此自動增益控制裝置228將增益水平從g2減小至的並將減小後的增益水平的施加至 輸入自動增益控制裝置228的音頻信號。在該種情況下,從g2到的的改變不被約束但是 進行操作W使信號電平為S3的峽提升至常規語音水平。
[0093] 在W上說明的示例場景中,如圖6所示,自動增益控制裝置228施加至在自動增益 控制裝置228處輸入的音頻信號的增益水平將W小的遞減或"階"來減小。理想的是,自動 增益控制裝置228在麥克風208接收背景音頻信號時不調整增益,而僅當需要達到目標水 平的語音時才平滑地調整增益。非平滑增益改變會影響通話的品質,因此第二種辦法因其 提供導致改進的通話品質的更平滑的增益控制而比第一種辦法更具優勢。
[0094] 儘管W上說明的實施例指的是從單個用戶102接收音頻信號的麥克風208,但應 當理解,麥克風可W例如在會議電話中接收來自多個用戶的音頻信號。在該種場景中,多個 不希望的音頻信號的源到達麥克風208。
[0095] 儘管已經參照優選實施例特別地示出和說明了本發明,但本領域的技術人員應當 理解,可W在形式上和細節上做出各種改變而不脫離由所附權利要求所定義的本發明的範 圍。
【權利要求】
1. 一種對通信會話期間在用戶設備與遠程節點之間的音頻信號進行處理的方法,所 述方法包括: 接收在所述用戶設備處的音頻輸入裝置處的多個音頻信號,該多個音頻信號包括至少 一個主音頻信號和不希望的信號; 在增益控制裝置處接收所述音頻信號的到達方向信息; 向所述增益控制裝置提供代表至少一些所述不希望信號的已知的到達方向信息; 通過施加某一水平的增益來處理在所述增益控制裝置處的音頻信號,以生成供發送至 遠程節點用的增益控制信號,其中所施加的增益水平取決於所述音頻信號的到達方向信息 與所述已知的到達方向信息之間的比較。
2. 根據權利要求1所述的方法,其中所述音頻輸入裝置處理所述多個音頻信號以生 成包括幀序列的單信道音頻輸出信號,所述增益控制裝置按順序處理每一所述幀。
3. 根據權利要求2所述的方法,其中在所述增益控制裝置處接收到正在被處理的當 前幀的主信號成分的到達方向信息,所述方法進一步包括: 將所述當前幀的所述主信號成分的到達方向信息與所述已知的到達方向信息作比較。
4. 根據權利要求3所述的方法,進一步包括:基於所述比較來決定是否禁止所述增益 控制裝置的活動。
5. 根據權利要求4所述的方法,其中所述已知的到達方向信息包括在所述音頻輸入 裝置處接收到遠端信號的至少一個方向,所述決定基於是否在所述音頻輸入裝置處從在所 述音頻輸入裝置處接收到遠端信號的所述至少一個方向接收到所述當前幀的所述主信號 成分。
6. 根據權利要求4或5中的任一項所述的方法,其中所述已知的到達方向信息包括至 少一個歸類的方向,所述決定基於是否在所述音頻輸入裝置處從所述至少一個歸類的方向 接收到所述當前幀的所述主信號成分。
7. 根據權利要求6所述的方法,其中所述至少一個歸類的方向是至少一個不希望的 音頻信號到達所述音頻輸入裝置的方向,並且基於所述至少一個不希望的音頻信號的信號 特性來識別。
8. 根據權利要求4?7中的任一項所述的方法,其中所述已知的到達方向信息包括在 所述音頻輸入裝置處接收到所述至少一個主音頻信號的至少一個主方向,所述決定基於是 否在所述音頻輸入裝置處從所述至少一個主方向接收到所述當前幀的主信號成分。
9. 根據權利要求8所述的方法,其中所述至少一個主方向是通過這樣來確定的: 確定使在所述音頻輸入裝置處接收到的所述音頻信號之間的互相關最大化的時間延 遲;以及 檢測在所述音頻輸入裝置處接收到的、帶有最大互相關的所述時間延遲的所述音頻信 號中的語音特性。
10. 根據權利要求8或9中的任一項所述的方法,其中所述音頻輸入裝置包括波束形 成器,該波束形成器被配置為: 估計所述至少一個主方向;以及 處理所述多個音頻信號,以通過在所述至少一個主方向上形成波束並且實質地抑制來 自除所述主方向以外其它任何方向的音頻信號而生成所述單信道音頻輸出信號。
11. 根據權利要求10所述的方法,其中所述已知的到達方向信息進一步包括所述波 束形成器的波束圖。
12. 根據權利要求4?11中的任一項所述的方法,其中如果從所述比較確定為應禁止 所述增益控制裝置的活動,則所述增益控制裝置被配置為對所述正在被處理的當前幀施加 曾對就在所述當前幀之前處理的幀施加的某一水平的增益。
13. 根據權利要求4?11中的任一項所述的方法,其中如果從所述比較確定為應禁止 所述增益控制裝置的活動,則所述增益控制裝置被配置為取決於就在所述當前幀之前處理 的幀的信號電平、受被約束的當前幀和前一幀之間的增益的變化的影響而對所述當前幀施 加某一水平的增益。
14. 根據權利要求4?11中的任一項所述的方法,其中如果從所述比較確定為不禁止 所述增益控制裝置的活動,則所述增益控制裝置被配置為將所處理的幀的信號電平與就在 所述當前幀之前處理的幀的信號電平做比較;並且 如果所述當前幀的信號電平比所述就在當前幀之前處理的幀的信號電平更高,則所述 增益控制裝置被配置為減小增益的水平並且將所述減小的增益的水平施加至所述當前幀; 以及 如果所述當前幀的信號電平比所述就在當前幀之前處理的幀的信號電平更低,則所述 增益控制裝置被配置為增加增益的水平並且將所述增加的增益的水平施加至所述當前幀。
15. 根據權利要求1所述的方法,其中所述音頻輸入裝置包括第一和第二音頻輸入裝 置,每一音頻輸入裝置處理所述多個音頻信號以生成輸出信道,所述方法進一步包括: 通過對每一輸出信道施加某一水平的增益來處理在各個增益控制裝置處的每一輸出 信道,以生成供發送至遠程節點用的第一和第二增益控制的信號,其中所述增益的水平取 決於所述音頻信號的所述到達方向信息與所述已知的到達方向信息之間的比較,並且對於 每一輸出信道都相同。
16. 根據任一項前述權利要求所述的方法,進一步包括:從所述用戶設備的音頻輸出 裝置輸出在所述通信會話中在所述用戶設備處從所述遠程節點接收到的音頻數據。
17. 根據任一項前述權利要求所述的方法,其中所述不希望的信號由在所述用戶設備 處的源生成,所述源包括以下中的至少一個:所述用戶設備的音頻輸出裝置;在所述用戶 設備處的活動的源,其中所述活動包括點擊活動,該點擊活動包括按鈕點擊活動、鍵盤點擊 活動和滑鼠器點擊活動。
18. 根據權利要求1至16中的任一項所述的方法,其中所述不希望的信號由所述用戶 設備外部的源生成。
19. 根據任一項前述權利要求所述的方法,其中所述至少一個主音頻信號是在所述音 頻輸入裝置處接收到的語音信號。
20. -種對通信會話期間在用戶設備與遠程節點之間的音頻信號進行處理的用戶設 備,所述用戶終端包括: 音頻輸入裝置,所述音頻輸入裝置接收多個音頻信號,該多個音頻信號包括至少一個 主音頻信號和不希望的信號;以及 增益控制裝置,所述增益控制裝置接收所述音頻信號的到達方向信息和代表至少一些 所述不希望信號的已知的到達方向信息,所述增益控制裝置被配置為通過施加某一水平的 增益來處理所述音頻信號,以生成供發送至遠程節點用的增益控制的信號,其中所施加的 增益水平取決於所述音頻信號的所述到達方向信息與所述已知的到達方向信息之間的比 較。
21. -種電腦程式產品,包括由在用戶設備處的計算機處理裝置執行的、對通信會 話期間在所述用戶設備與遠程節點之間的音頻信號進行處理的計算機可讀指令,所述指令 包括用於施行根據權利要求1所述的方法的指令。
【文檔編號】H04R3/00GK104488224SQ201280025394
【公開日】2015年4月1日 申請日期:2012年5月28日 優先權日:2011年5月26日
【發明者】V. 索倫森 K. 申請人:斯凱普公司