聚焦於用於音頻信號的音頻場景的一部分的製作方法

2023-04-30 09:55:41 6

專利名稱：聚焦於用於音頻信號的音頻場景的一部分的製作方法
技術領域：
本發明涉及處理多通道音頻信號，以聚焦於音頻場景。
背景技術：
隨著持續的全球化，為了在多個地理位置上有效通信，電話會議逐漸變得重要。電話會議可包括位於工業園區的不同公司建築物、美國的不同城市、或遍及世界的不同國家中的參與者。因此，重要的是將空間化的音頻信號進行組合以便於在電話會議的參與者之間通信。空間注意力處理典型地依賴於採用上混(upmix)算法或重平移(rearming)算法。在電話會議時，當僅一個通道可用於播放時，這是可能的，通過使用3D音頻處理或通過放大信號將活動語音源移動至更接近於收聽者。處理典型地發生在會議混合器中，所述會議混合器檢測活動談話者，並由此處理該語音。
可在3D音頻電話會議中組合視覺和聽覺表示。可使用行動裝置的顯示器的視覺表示可作為定位圖像而示出具有會議參與者的表。然後，從雙耳耳機上的右側收聽在表右側的參與者的話音。用戶可在屏幕上重新定位參與者的圖像，這樣還可改變聲音的相應方向。例如，如果用戶將在右側的參與者的圖像移動至中心，則參與者的話音也從右移動至中心。這個性能給予用戶一種修改聽覺表示的交互方法。空間聽覺以及通過雙耳耳機再現3D聲音的導出的主體可應用於處理音頻電話會議。雙耳技術在收聽者的耳膜處再現了與由實際聲源將在那裡生成的聲音相同的聲音。典型地，雙耳技術存在兩個主要應用。一個是用於在立體聲音樂記錄中虛擬化靜態源(例如左通道和右通道)。另一個是用於根據用戶的行為(對於遊戲的情況)或根據預定義腳本的規範(對於3D振鈴音的情況)實時地虛擬化移動源。因此，存在這樣一個真實的市場，即需要提供可由電話會議系統實踐性實施的空間化音頻信號的有效電話會議性能。

發明內容
本發明的一方面提供用於在頭戴式耳機上空間操作向收聽者播放的聲音的方法、計算機可讀介質、和裝置。收聽者可將空間注意力指引到聲級的一部分，類似於使用放大鏡來取出圖片中的細節。在例如電話會議的應用中，聚焦於音頻場景是有益的，在所述應用中若干人、或甚至若干群人位於圍繞收聽者的虛擬環境中。除了電話會議的特定實例，通常當空間音頻是用戶體驗的重要部分時可使用本發明。因此，本發明還可應用於遊戲的立體聲音樂和3D音頻。通過本發明的某些方面，可結合頭部追蹤，以相對於環境穩定音頻場景。頭部追蹤使得收聽者能夠在相對於環境的固定位置處聽見電話會議中的遠程參與者，而不管收聽者的頭部的方位。通過本發明的另一方面，獲得由多個音頻源生成的輸入多通道音頻信號；確定針對每個音頻源的方向信息。用戶提供空間注意力的期望方向，從而音頻處理可聚焦於期望方向，並向用戶呈現相應的多通道音頻信號。通過本發明的另一方面，圍繞期望方向擴展音頻場景的區域，同時在音頻場景的另一部分中壓縮音頻場景，並且保持第三區域未修改。一個區域可包括若干不連續的空間部分。通過本發明的另一方面，將音頻場景的輸入方位角重映射至輸出方位角值，所述輸出方位角值不同於所述輸入方位角值。可使用非線性重映射函數來重映射方位角值。

考慮附圖，參照以下說明，可獲得本發明的更完整理解及其優點，在附圖中類似標號指示類似特徵，其中圖IA示出根據本發明實施例的針對多通道音頻信號而聚焦於音頻場景的一部分的架構。圖IB示出根據本發明實施例的針對多通道音頻信號而聚焦於音頻場景的一部分的第二架構。圖2示出根據本發明實施例用於重平移音頻信號的架構。圖3示出根據本發明實施例的用於定向音頻編碼(DirAC)分析的架構。圖4示出根據本發明實施例的用於定向音頻編碼合成的架構。圖5示出根據本發明實施例的收聽者為了聚焦於聲源而面向聲源的情形。圖6示出根據本發明實施例的線性重映射函數。圖7示出根據本發明實施例的非線性重映射函數。圖8示出根據本發明實施例的聚焦於音頻源的情形。圖9示出根據本發明實施例的用於處理多通道音頻信號的一排濾波器。圖10示出根據本發明實施例的定位虛擬聲源的實例。圖11示出根據本發明實施例的用於重平移音頻信號的裝置。
具體實施例方式在各個實施例的以下描述中，參照形成本發明一部分的附圖，其中通過可實踐本發明的示例性實施例示出附圖。可理解，在不脫離本發明的範圍的情況下，可利用其他實施例，以及可做出結構和功能上的修改。進一步將討論的是，本發明的實施例可通過應用空間提示編碼(spatialcue coding)來支持重平移多音頻(聲音)信號。在將信號混合成組合信號之前，可對於每個信號中的聲源進行重平移。例如，如將進一步討論的，可在接收兩個全向記錄的(或合成的) 聲場信號的會議橋中應用處理。會議橋隨後將信號之一重平移至左側收聽者，以及將該信號重平移至右側。源圖像映射和平移還可自適應地基於內容和使用情況。在定向解碼之前或在定向混合之前，可通過操作方向參數進行映射。如將進一步討論的，本發明的實施例支持對於再現中使用的轉換器系統未知的信號格式。因此，可通過頭戴式耳機和不同的揚聲器設置來播放所處理的信號。人類聽覺系統具有根據他們的空間特徵分離流的能力。這個能力通常稱為「雞尾酒會效應」，因為這可很容易地通過我們都熟悉的現象來說明。在聚會上的吵雜擁擠的房間中，可能出現一個談話，由於收聽者可將注意力聚焦於說話的個人，實際上過濾掉來自其他方向的聲音。因此，如果在空間上很好地將該聲源與其他聲源分離，以及如果感興趣的聲源是最大聲，則很容易地完成集中於特定聲源的任務。圖1示出根據本發明實施例的架構10，其用於針對多通道音頻信號51而聚焦於音頻場景的一部分。收聽者(未示出)可通過藉助頭戴式耳機(未示出)或另一組轉換器 (例如音頻揚聲器)收聽雙耳音頻信號53來聚焦於期望聲源(將空間注意力聚焦於聲音場景的所選部分)。本發明實施例還支持通過多於兩個轉換器對所處理的多通道音頻信號的合成。如將進一步討論的，通過使用與空間內容分析模塊1和3D音頻處理模塊3對應的 3D音頻技術來實施空間聚焦。架構10提供了可通過頭戴式耳機向收聽者播放聲音的空間操作。收聽者可通過類似於可如何使用放大鏡來取出圖片中的細節的方式將空間注意力指引到聲級的一部分。聚焦可用於例如電話會議的應用中，其中若干個人或甚至若干群人位於收聽者周圍的虛擬環境中。除了電話會議之外，當空間音頻是用戶體驗的重要部分時，也可使用架構10。因此，可將架構10應用於遊戲的立體聲音樂和3D音頻。架構10可合併有頭部追蹤(headtracking)，用於相對於環境穩定音頻場景。頭部追蹤使得收聽者在相對於環境的固定位置聽見電話會議中的遠程參與者，而不管收聽者頭部的方位。通常在語音通信中存在這樣的情形，其中收聽者可能期望聚焦於某個人的談話，同時抑制其他聲音。在真實世界情形中，如果收聽者可移動至更接近談話的個人，在某種程度上是可能的。通過3D音頻處理(與3D音頻處理模塊3相應)，這個效果可通過實施空間注意力的「超自然」焦點來擴大，這不僅使得聲級的所選部分更大聲，而且可空間地操縱聲級，從而音頻場景的所選部分更加明顯地突出。聲音場景的期望部分可以是在電話會議中若干其他人中一個特定談話的個人，或音軌中的歌手。如果頭部追蹤器可用，則用戶(收聽者)只能旋轉他的頭，以便控制空間焦點的期望方向來提供頭部追蹤參數57。備選地，可由用戶控制輸入55通過輸入設備(例如鍵板或操縱杆)提供空間焦點參數59。多通道音頻信號51可以是例如電話會議中的多個音頻輸入的一組獨立信號，或包含與彼此關係相關的空間信息的一組信號，例如作為高保真立體聲Ambisonics B-格式。立體聲音樂和雙耳內容是包含空間信息的雙通道信號的實例。在立體聲音樂，以及通過麥克風陣列做出的記錄的情況下，在可執行聲級的空間操縱之前，空間內容分析(與空間內容分析模塊1相應)是必要的。一個方法是DirAC (如參照圖3和4將討論的)。全DirAC 分析的特定實例是從可用於立體聲音樂的雙通道信號中進行中心通道提取。圖IB示出根據本發明實施例的架構100，其用於針對多通道音頻信號151而聚焦於音頻場景的一部分。處理模塊101根據修改的參數163提供音頻輸出153，以聚焦於音頻場景。用修改值161代替聲源位置參數159 (方位角、仰角、距離)。重映射模塊103根據重映射函數或向量155修改方位角和仰角，其中所述向量155有效地限定在多個離散點處的函數值。重映射控制器105從將討論的方位角157和映射預設輸入163確定重映射函數/向量155。位置控制模塊107控制每個聲源、或通道的3D定位。例如，如圖8所示，在會議系統中，模塊107定義參與者的聲音所在的位置。定位可以是自動的，或可由用戶控制。示例性實施例在支持分布式3D電話會議系統的終端中執行。終端從所有其他參與終端接收單音音頻信號，並局部地空間化音頻信號。重映射函數/向量155定義了從輸入參數值集到輸出參數值集的映射。例如，一個輸入方位角值可映射為新方位角值(例如10度-> 15度)，或輸入方位角值的範圍可線性地(或非線性地)映射為方位角值的另一範圍(例如0-90度-> 0-45度)。重平移操作的另一可能形式是作為從輸入方位角值到輸出方位角值的映射。作為實例，如果定義了如下類型的S型(sigmoid)重映射函數R(v) 其中v是正負180度之間的方位角，kl和k2是適當選擇的正常數，然後圍繞0度角集中的源被擴展，圍繞正負180度集中的源被壓縮。對於kl的值為1. 0562以及k2的值為0. 02，如表1所示以下給出相應輸入_輸出方位角對的列表(輸出值被取整為最接近度數)。
表1輸入-180-150-120-90-60-300306090120150180輸出-180-172-158-136-102-55055102136158172180可通過定義映射向量來做出映射函數描述的近似值。該向量定義在離散點處的映射函數的值。如果輸入值在這些離散點之間，則可使用線性內插或某些其他內插方法來內插這些點之間的值。映射向量的實例可以是表1中的「輸出」行。該向量具有30度的解析度，並定義在用於某些輸入方位角值的離散點處的輸出方位角的值。使用向量表示，可通過表查詢和可選內插操作組合的簡單方式來實施映射。當定義空間焦點方向(方位角)或映射預設163的控制信號改變時，生成新映射函數(或向量)155。從輸入設備(例如操縱杆)獲得的輸入信號157的改變導致新重映射函數/向量155的生成。示例性的實時修改可以是旋轉操作。當用戶針對不同方向設置焦點時，可由此修改重映射向量。可通過向重映射函數R(v)的結果增加角度vO並計劃從-180至180的範圍的總和對360取模來實施方位角的改變。例如，如果R(v)是150，v0 是70，則由於70加150是220，這等同於-140對360取模，並且-140在-180和180之間的範圍內，所以新的重映射角是-140。映射預設163可用於選擇將什麼函數用於重映射或哪些靜態映射向量模板。實例包括映射預設 0 (禁用)
8 映射預設映射預設 2(寬束) 此外，本發明實施例可支持重映射向量的動態生成。圖2示出根據本發明實施例用於重平移音頻信號251的架構200。(平移 (Panning)是將單聲信號擴頻為立體聲或多通道聲場。通過重平移，平移控制典型地改變在總功率恆定的多個揚聲器上的音頻功率的分布。)
架構200可應用於知曉原始聲場的空間特徵並且可再合成來自音頻信號251的聲場和可用空間元數據(例如方向信息253)的系統。空間元數據可通過分析方法可用(通過模塊201執行)，或可與音頻信號251包括在一起。空間重平移模塊203隨後修改方向信息253，以獲得修改的方向信息257。(如圖4所示，方向信息可包括方位角、仰角、和擴散度評估)。定向再合成模塊205根據音頻信號255和修改的方向信息257形成重平移的信號 259。在重平移之後，數據流(包括音頻信號255和修改的方向信號257)典型地具有定向編碼的格式(例如將討論的B-格式)。此外，可組合若干數據流，其中每個數據流包括具有相應方向信息的不同音頻信號。然後，重平移的信號可通過定向再合成模塊205來組合(混合)，以形成輸出信號259。如果再合成模塊205執行信號合成，則混合的輸出流可具有與輸入流相同或相似的格式(例如具有方向信息的音頻信號)。2006年6月30日提交的美國專利申請 No.11/478792 ( "DIRECTENCODING INTO A DIRECTIONAL AUDIO CODING FORMAT", Jarmo Hiipakka)公開了執行混合的系統，其通過引用合併於此。例如，通過分析用於組合空間數據的信號來組合與方向信息關聯的兩個音頻信號。將實際信號混合(累加)在一起。備選地，混合可發生在再合成之後，從而混合來自若干再合成模塊(例如模塊205)的信號。通過一組揚聲器或耳機指引聲音信號，向收聽者呈現輸出信號。通過本發明的實施例，輸出信號可被發送至用戶，並然後被呈現(例如在會議橋中發生處理時)。備選地，在存儲設備(未示出)中存儲輸出。空間信息(例如方向信息253)的修改可包括位置的任何範圍(2D)或區域(3D) 到新範圍或區域的重映射。重映射的範圍可包括整個原始聲場，或可足夠小以基本覆蓋原始聲場中的僅一個聲源。還可使用加權函數來定義重映射的範圍，從而可部分地重映射與邊界接近的聲源。重平移還可包括在一起的若干單獨重平移操作。因此，本發明的實施例支持在原始聲場中的兩個聲源的位置交換的情形。空間重平移模塊203根據重映射控制器207提供的重映射向量263修改原始方位角、仰角和擴散度評估(方向信息253)，以獲得修改的方位角、仰角和擴散度評估(修改的方向信息257)。重映射控制器207從典型地由輸入設備(例如操縱杆、頭部追蹤器)提供的方位角信息261確定重映射向量263。方位角信息261指定收聽者期望聚焦注意力的位置。映射預設265是指定將使用的映射的類型的控制信號。特定映射描述了聲級的哪些部分被空間地壓縮、擴展、或未修改。可通過質量上相同的方式重平移聲音場景的若干部分，從而例如擴展圍繞正左方和正右方集中的源，而壓縮圍繞前方和後方集中的源。如果方向信息253包含與聲場的擴散度相關的信息，則當重平移聲場時典型地通過模塊203處理擴散。因此，可能的來保持擴散場的自然性質。然而，還可能將聲場的原始擴散分量映射為修改聲場的特定位置或位置範圍以用於特效。例如，可對於空間焦點被設置在非其他區域的空間區域而使用不同擴散值。可根據取決於對空間焦點注意力設置的方向的函數來改變擴散值。為了記錄B-格式信號，期望的聲場通過一個點中的其球諧波分量來代表。然後，使用任意適合數目的揚聲器或一對耳機來再生成聲場。通過1階方案，使用第0階分量(聲音壓力信號W)和三個1階分量(沿著3個笛卡爾坐標軸的壓力梯度信號X、Y和Z)來描述聲場。本發明的實施例還可確定高階分量。包括4個通道W、X、Y和Z的1階信號通常稱為B-格式信號。典型地，通過使用特定麥克風設置記錄聲場來獲得B-格式信號，所述特定麥克風設置直接地或通過轉換生成期望的信號。除了記錄B-格式的信號之外，還可合成B-格式信號。為了將單音音頻信號編碼成B-格式，需要以下編碼等式 (等式1)其中X(t)是單音輸入信號，θ是方位角(從前中的逆時針角)，Φ.是仰角，ff(t)、 X(t)、Y(t)和Z(t)是得到的B-格式信號的各個通道。應注意，W信號的乘數是從在4個通道之間得到更多偶數級分布的需求生成的約數。(某些參考文獻使用近似值0.707代替。) 還應注意方向角可自然地隨時間改變，即時在等式中沒有明確示出。還可對於所有的源單獨使用相同等式並混合(累加在一起)得到的B-格式信號來對多個單音源編碼。如果預先已知輸入信號的格式，則可用簡化的計算代替B-格式轉換。例如，如果可假設信號為標準的2通道立體聲(具有+/-30度角的揚聲器)，則轉換等式簡化成與常數的乘法。目前，這個假設對於許多應用情形成立。本發明的實施例支持對於多聲音場景信號通過應用空間提示編碼進行參數空間重平移。每個信號中的聲源在被混合到組合信號之前被重平移。例如，可在接收2個全向記錄(或合成)的聲場信號的會議橋中應用處理，隨後將這些信號之一重平移至左側收聽者，將其他信號重平移至右側。源圖像映射和平移還可基於內容和使用自適應。可在定向解碼之前或定向混合之前，通過操縱方向參數執行映射。本發明的實施例在電話會議系統中支持以下功能重平移解決了從若干會議房間組合聲場信號的問題；會議參與者的現實表示；在參數空間中用於空間重平移的一般方案。圖3示出根據本發明實施例的架構300，其用於定向音頻編碼(DirAC)分析模塊 (例如圖2中所示的模塊201)。通過本發明的實施例，在圖2中，DirAC分析模塊201從輸入信號251提取音頻信號255和方向信息253。DirAC分析提供依賴時間和頻率的信息以指引聲能，所述信息關於涉及收聽者的聲源的方向以及擴散的關係。然後，該信息用於選擇位於揚聲器之間的期望軸附近或其上的聲源，並將他們指引至期望通道中。可通過從原始立體聲信號減去那些聲源的直接聲音部分來生成用於揚聲器的信號，從而保持回聲到達的正確方向。
如圖3所示，B格式信號包括W(t) 351、X(t)353、Y (t) 355和Z (t) 357。使用短時傅立葉變換(STFT)，每個分量被轉換成頻帶361a-361n(相應於W(t)351)、363a-363n(相應於 X (t) 353)、365a-365n (相應於 Y (t) 355)、以及 367a_367n (相應於 Z (t) 357)。對於每個時間實例的每個頻帶303和305，評估到達方向參數(包括方位角和仰角)和擴散參數。如圖3所示，參數369-373相應於第一頻帶，參數375-379相應於第N頻帶。圖4示出根據本發明實施例的架構400，其用於定向音頻編碼(DirAC)合成器(例如圖2所示的定向再合成模塊205)。通過轉換處理401將基信號W(t)451分成多個頻帶。合成基於基信號W(t)451的頻率分量的處理。典型地，通過全向麥克風記錄W(t)451。聲音定位和再現處理405-407根據在分析階段採集的方向和擴散評估453-457來分布和處理 W(t)451的頻率分量，以將處理的信號提供至揚聲器459和461。DirAC再現(再合成)基於採用全向麥克風記錄的信號，並根據在分析階段採集的方向和擴散評估來分布該信號。DirAC再合成可通過支持用於聲場的相同表示來使得系統通用，並使用再現中的任意揚聲器(或一般而言轉換器)設置。聲場可在獨立於用於再現的實際轉換器設置的參數(即到達角的方向(方位角、仰角)和擴散度)中被編碼。圖5示出根據本發明實施例的收聽者505a、505b為了聚焦於聲源(例如聲源501 或503)而面向聲源的情形551和553。用戶(505a、505b)可通過輸入設備控制空間注意力。輸入設備可以是通常用於行動裝置中的類型，例如鍵板或操縱杆，或者其可使用傳感器 (例如加速計、磁力計、或陀螺儀)來檢測用戶的移動。頭部追蹤器例如可根據如圖5所示收聽者所面向的方向將注意力指引到聲級的某個部分。期望的方向(空間注意力角)可線性地或非線性地取決於收聽者頭部方位。通過某些實施例，更加便捷的是僅轉頭30度，以將空間注意力設置為90度。向後傾斜可確定施加於聲音場景的所選部分的增益。通過頭部追蹤，可通過例如按壓按鈕來打開和關閉空間注意力控制的方向控制。因此，可將空間注意力鎖定在某個位置。通過本發明實施例，在3D電話會議會話中可能有利的是，向具有比其他人更弱聲音的某個參與者給出恆定的提升。如果期望的話，則可通過增益函數561 (相應於場景551)和563 (相應於場景553) 減弱位於如圖所示的聲音場景的所選部分外部的聲音，以保持總體音量。圖6示出根據本發明實施例的線性重映射函數601。線性重映射函數601不改變音頻場景中任意音頻源的位置，因為原始方位角和重映射的方位角之間的關係與一個的斜率成線性(如導數函數603)。圖7示出根據本發明實施例的非線性重映射函數701。當空間地轉換音頻場景時，關係不再是線性。大於1的導數(如導數函數703所示)等於空間的擴展，而小於1的導數意味著等於空間的壓縮。這在圖7中示出，其中在頂部的字母表705的圖形表示(其代表與不同音頻源相關的壓縮和擴展，其中字母表的字母代表音頻源)指示接近0方位角的字母被拉伸，接近正負90度的字母被擠壓。通過本發明實施例，音頻處理模塊3(如圖IA所示)利用重映射函數(例如函數 701)，以針對向收聽者呈現的輸出多通道音頻信號而改變音頻源的關係。圖8示出根據本發明實施例的聚焦於音頻源的情形851、853和855。當若干音頻源在音頻場景中彼此接近時(例如情形853中的源803、804和805，以及情形855中的源801,802和803)，具有方位角重映射的空間焦點處理可使得音頻源彼此離開，從而在與對於收聽者希望聚集的音頻源進行同時談話期間提升了理解力。此外，可更加容易識別哪個人正在談話，因為收聽者能夠可靠地將演講者從左至右排序。通過離散語音輸入信號，可通過控制各個聲源被空間化的位置來實施重映射。在通過空間內容的多通道記錄的情況下，可使用重平移方法或使用上混合方法來實施重平移。
圖9示出根據本發明實施例的一排濾波器905，其用於處理多通道音頻信號。多通道音頻信號包括由相應音頻源生成的信號分量951-957。該排濾波器包括頭部相關的傳輸功能(HRTF)濾波器901和903，其分別處理針對通過頭戴式耳機、揚聲器、或其他適合轉換器向收聽者播放的雙耳輸出的左通道961和右通道963的信號分量。濾波器排905還包括用於其他信號分量的額外HRTF濾波器。對於圖9所示的實例，由7個參與者生成音頻信號，其為1個遠程收聽者空間化，其中7個語音信號中的每個單獨可用。通過頭部相關的傳輸函數對(HRTF)來處理每個聲音信號，以生成2通道雙耳輸出。然後，通過將所有左輸出包括在1個通道中(左通道961)，將所有右輸出包括在另一通道中(右通道963)，來將7個信號混合在一起。作為其屬性相應於空間化源的期望位置的數字濾波器來實施HRTF。可能的預設映射使得7個空間化源從-90度方位角(正左方)至90度方位角(正右方)平均地分布於聲級。參照圖8，當收聽者期望聚焦於音頻場景中的特定源時，例如源804，其在直前方，用新位置來更新實施HRTF 的數字濾波器。從左至右，方位角(度數)變為(-90 -70 -50 0 50 70 90)。如果收聽者現在決定聚焦於源802，則方位角變為(-90 -45 0 22.5 45 67.5 90)。因此，信號處理結構保持相同，但是必須根據期望的空間重映射更新在結構中的濾波器參數。作為另一實例，參照圖2和8，輸入的音頻信號251是定向音頻(DirAC)格式(具有空間參數的單音頻信道)。當收聽者期望聚焦於源802時，生成新映射模式以創建修改的方向信息257，並將其提供至空間重平移模塊203。在這種情況下，可在沒有重平移情況下將映射至(-90 -30 -60 0 60 3090)的音頻源映射至例如方位角位置(_90 -70 -50 0 50 70 90)。當收聽者改變焦點時，可使用新映射模式來生成不同的修改的方向信息257。這還可包括例如通過對位於收聽者聚焦注意力的區域中的那些頻帶使用更少的擴散度來修改擴散值。可使用擴散修改提供來自該方向的更清晰(更純淨)的聲音。圖10示出根據本發明實施例的定位虛擬聲源1005的實例。虛擬源1005位於揚聲器1001和1003之間，如夾角1051-1055所指示。(本發明的實施例還支持立體聲頭戴式耳機，其中一側相應於揚聲器1001，另一側相應於揚聲器1003。)使用相對於收聽者1061測量的夾角來確定振幅平移。當使用正弦平移法則時，根據以下等式確定揚聲器1001和1003 的振幅
sin θ g 廣 g 2 ΓΠΠΟ 1 『一」-iS. ( —P* θ\
Sin ^ gs+g'2、寸、乂其中gl和&是分別用於揚聲器1001和1003的ILD值。因此，使用揚聲器Ls和 Lf對虛擬中心通道(VC)的振幅平移被確定如下等式 3) S^C1+^o J^) Mu + Sv
圖11示出根據本發明實施例的裝置1100，其用於將音頻信號1151重平移為經過重平移的輸出信號1169。(儘管圖11中未示出，但是本發明的實施例可支持1至N個輸入信號。)處理器1103通過音頻輸入接口 1101獲得輸入信號1151。通過本發明實施例，信號 1151可按B-格式記錄，或者音頻輸入接口可使用等式1轉換B-格式的信號1151。模塊1 和3(如圖IA所示)可通過執行在存儲器1107上存儲的計算機可執行指令的處理器1103 來實施。處理器1103通過音頻輸出接口 1105提供組合的重平移的信號1169，以向用戶呈現輸出信號。裝置1100可假設不同的形式，包括離散邏輯電路、微處理器系統、或集成電路，例如專用集成電路(ASIC)。本領域普通技術人員可理解，可利用具有關聯計算機可讀介質的計算機系統來實施這裡公開的示例性實施例，其中所述介質包含用於控制計算機系統的指令。計算機系統可包括至少一個計算機，例如微處理器、數位訊號處理器、和關聯外圍電子電路。儘管參照特定實例描述了本發明，其中所述實例包括執行本發明的當前優選實施方式，但是本領域普通技術人員將理解，存在落入如所附權利要求闡述的精神和範圍內的上述系統和技術的各種變型和排列。
權利要求
一種方法，包括獲得由多個音頻源生成的輸入多通道音頻信號；確定針對所述多個音頻源中的每個的方向信息；獲得空間注意力的至少一個期望方向；向所述至少一個期望方向聚焦所述輸入多通道音頻信號，以形成輸出多通道音頻信號；以及向用戶呈現所述輸出多通道音頻信號。
2.如權利要求1所述的方法，還包括圍繞所述至少一個期望方向擴展音頻場景的第一區域。
3.如權利要求2所述的方法，還包括壓縮所述音頻場景的第二區域。
4.如權利要求3所述的方法，還包括將輸入方位角值重映射為輸出方位角值，所述輸出方位角值不同於所述輸入方位角值。
5.如權利要求4所述的方法，還包括利用重映射函數來重映射所述輸入方位角值。
6.如權利要求5所述的方法，所述重映射函數的特徵在於，所述重映射函數對於所述輸入方位角值的子集是非線性的，並具有大於1的導數。
7.如權利要求1所述的方法，還包括當呈現所述輸出多通道音頻信號時，保持所述輸入多通道音頻信號的總響度。
8.如權利要求2所述的方法，還包括放大關於所述音頻場景的第一區域的所述輸入多通道音頻信號。
9.如權利要求1所述的方法，所述輸出多通道音頻信號包括雙耳音頻信號。
10.如權利要求1所述的方法，空間注意力的所述至少一個期望方向是從固定於用戶的頭部追蹤器獲得。
11.一種裝置，包括輸入模塊，被配置為獲得由多個音頻源生成的輸入多通道音頻信號；空間內容分析器，被配置為確定針對所述多個音頻源中的每個的方向信息；輸入設備，被配置為獲得空間注意力的期望的方向；音頻處理模塊，被配置為向所述期望的方向聚焦所述輸入多通道音頻信號，以形成聚焦的多通道音頻信號；以及合成器，被配置為向用戶呈現所述聚焦的多通道音頻信號。
12.如權利要求11所述的裝置，所述音頻處理模塊還被配置為圍繞所述期望的方向擴展音頻場景的第一區域；以及壓縮所述音頻場景的第二區域。
13.如權利要求12所述的裝置，所述音頻處理模塊還被配置為將輸入方位角值重映射為輸出方位角值，所述輸出方位角值不同於所述輸入方位角值。
14.如權利要求13所述的裝置，所述音頻處理模塊還被配置為利用重映射函數來重映射所述輸入方位角值。
15.如權利要求14所述的裝置，所述音頻處理模塊還被配置為利用所述重映射函數，其中所述重映射函數的特徵在於，對於所述輸入方位角值的子集是非線性的，並具有大於1 的導數。
16.一種具有計算機可執行指令的計算機可讀介質，包括獲得由多個音頻源生成的輸入多通道音頻信號；確定針對所述多個音頻源中的每個的方向信息；獲得空間注意力的期望的方向；向所述期望的方向聚焦所述輸入多通道音頻信號，以形成輸出多通道音頻信號；以及向用戶呈現所述輸出多通道音頻信號。
17.如權利要求16所述的計算機可讀介質，還包括圍繞所述期望的方向擴展音頻場景的第一區域；以及壓縮所述音頻場景的第二區域。
18.如權利要求17所述的計算機可讀介質，還包括將輸入方位角值重映射為輸出方位角值，所述輸出方位角值不同於所述輸入方位角值。
19.如權利要求18所述的計算機可讀介質，還包括利用重映射函數來重映射所述輸入方位角值，所述重映射函數的特徵在於，對於所述輸入方位角值的子集是非線性的，並具有大於1的導數。
20.一種裝置，包括用於獲得由多個音頻源生成的輸入多通道音頻信號的裝置；用於確定針對所述多個音頻源中的每個的方向信息的裝置；用於獲得空間注意力的期望的方向的裝置；用於向所述期望的方向聚焦所述輸入多通道音頻信號，以形成輸出多通道音頻信號的裝置；以及用於向用戶呈現所述輸出多通道音頻信號的裝置。
21.如權利要求20所述的裝置，還包括用於圍繞所述期望的方向擴展音頻場景的第一區域的裝置；以及用於壓縮所述音頻場景的第二區域的裝置。
22.如權利要求21所述的裝置，還包括用於將輸入方位角值重映射為輸出方位角值的裝置，所述輸出方位角值不同於所述輸入方位角值。
23.一種集成電路，包括輸入組件，被配置為獲得由多個音頻源生成的輸入多通道音頻信號；空間內容分析組件，被配置為確定針對所述多個音頻源中的每個的方向信息；輸入組件，被配置為獲得空間注意力的期望的方向；音頻處理組件，被配置為向所述至少一個期望方向聚焦所述輸入多通道音頻信號，以形成聚焦的多通道音頻信號；以及合成組件，被配置為向用戶呈現所述聚焦的多通道音頻信號。
24.如權利要求23所述的集成電路，所述音頻處理組件還被配置為圍繞所述期望的方向擴展音頻場景的第一區域；以及壓縮所述音頻場景的第二區域。
25.如權利要求24所述的集成電路，所述音頻處理組件還被配置為將輸入方位角值重映射為輸出方位角值，所述輸出方位角值不同於所述輸入方位角值。
全文摘要
本發明的多個方面提供了用於在輸出轉換器組(例如頭戴式耳機)上空間操作向收聽者播放的聲音的方法、計算機可讀介質、和裝置。收聽者可指引空間注意力，以聚焦於音頻場景的一部分，類似於使用放大鏡來取出圖片中的細節。獲得由音頻源生成的輸入多通道音頻信號；確定針對每個音頻源的方向信息。用戶提供空間注意力的期望方向，從而音頻處理可聚焦於期望方向，並向用戶呈現相應的多通道音頻信號。圍繞期望方向擴展音頻場景的區域，同時在音頻場景的另一區域中壓縮音頻場景。
文檔編號H04S7/00GK101843114SQ200880113925
公開日2010年9月22日申請日期2008年10月29日優先權日2007年11月1日
發明者J·維羅萊寧, O·柯克比申請人:諾基亞公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

聚焦於用於音頻信號的音頻場景的一部分的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法