用於擴展現實的高精度3維音頻的系統和方法

2023-04-27 03:47:26 4

專利名稱：用於擴展現實的高精度3維音頻的系統和方法
技術領域：
本發明涉及用於擴展現實的高精度3維音頻的系統和方法。
背景技術：
公知的是，人類具有使用他們的耳朵在即使沒有任何視覺線索的情況下識別聲音源的能力。人類通過採用從一隻耳朵導出的線索並且通過比較在兩隻耳朵處所接收的線索(差異線索或雙耳線索)來估計源的位置。在這些差異線索之中有到達的時間差和強度差。單耳線索來自聲音源與人類解剖結構之間的交互，在人類解剖結構中，原始源聲音在其進入耳道以前被修改，以供由聽覺系統進行處理。在現實世界情況下，聲音實際上是從特定位置處發出的。所期望的可能是，使聽者能夠感受到由音頻揚聲器產生的聲音似乎來自3維空間中的特定位置。一種可能的技術包括讓用戶佩戴亦稱「頭戴式耳機」的「頭戴耳機」。也就是說，一個音頻揚聲器被放置在每個耳朵之上或附近。該技術可以採用使用「與頭部相關的傳輸函數」(HRTF)來創建音頻信號以製造聲音源自3D空間中的某位置這一錯覺。在此，製造聲音來自3D空間中的某位置這一錯覺的音頻信號被稱為3D音頻信號。HRTF可以基於自由空間中的聲音與到達耳膜時的聲音之間的差異來定義。HRTF 描述給定的聲波輸入(其被參數化為頻率和聲音位置)在該聲音達到耳膜和內耳以前如何被頭部和耳廓的衍射和反射性質過濾。HRTF可以與人的頭部形狀和他們耳朵的物理特性密切相關。因此，HRTF可能因人而顯著不同。因此，儘管HRTF可以用於幫助創建3D音頻信號，但是在使HRTF適應於每個用戶方面仍然存在挑戰。3D音頻的一種可能的應用是在擴展的現實場景中。擴展的現實可以被定義為使用某種計算機生成的技術來擴展現實世界情況。擴展的現實、以及其他3D應用需要精確的 3-D音頻。例如，用戶應當能夠將聲音精確定位為來自虛擬聲音源。儘管存在3D音頻技術，但是期望改進。如已經提到的那樣，一種改進是為用戶提供精確的HRTF。但是，還期望其它改進。3D音頻信號應當是精確的、消費者友好的、節省成本的，並且與現有音頻系統兼容。

發明內容
提供了用於提供3D音頻的技術。3D音頻可以用在擴展的現實中，但是這不是必需的。在此所公開的技術是精確的、節省成本的、用戶友好的，並且與現有音頻系統兼容。技術可以使用一個或多個傳感器來收集描述聽者所處的環境(例如房間)以及聽者在房間中的位置的現實世界數據。逼真的3D音頻信號可以基於從傳感器收集的數據生成。一種選擇是使用傳感器來收集描述聽者的物理特性(例如頭部和耳廓形狀和大小)的數據以便為該聽者確定合適的HRTF。一個實施例包括一種方法，該方法包括基於傳感器數據確定房間的物理特性；確定聽者在該房間中的位置；以及基於該房間的物理特性和聽者在該房間中的位置確定3D音頻信號。一個實施例包括一種裝置，該裝置包括一個或多個傳感器、處理器以及計算機可讀存儲介質。該計算機可讀存儲介質其上存儲有指令，所述指令在處理器上執行時致使該處理器使用傳感器來收集關於環境和聽者的數據。處理器基於傳感器數據確定環境的物理特性以及聽者在該環境中的位置。處理器基於環境的物理特性和聽者在該環境中的位置來確定3D音頻信號的不同分量。處理器將針對聽者的與頭部相關的傳輸函數(HRTF)應用於 3D音頻信號的每個分量，並且提供3D音頻信號。一個實施例包括一種用於提供3D音頻信號的方法。該方法可以包括收集傳感器數據，該傳感器數據可以包括深度信息。基於深度信息確定聽者的物理參數。可以基於 HRTF庫確定與頭部相關的傳輸函數(HRTF)——該確定可以基於聽者的物理參數。可以收集包括關於房間的深度信息的傳感器數據。可以基於該深度信息確定房間的物理參數。可以在房間中確定聽者的位置。可以基於房間的物理參數以及聽者在該房間中的位置來確定虛擬聲音源與該聽者之間的聲音路徑。基於房間的物理參數，可以為每個聲音路徑確定3D 音頻信號的分量。針對聽者的HRTF可以應用於3D音頻信號的每個分量，並且可以提供該 3D音頻信號。提供本發明內容以便以簡化形式介紹將在以下的具體實施方式
中進一步描述的一些概念。本發明內容並不旨在標識出所要求保護的主題的關鍵特徵或必要特徵，也不旨在用於限定所要求保護的主題的範圍。

圖1描繪了運動捕捉系統的示例性實施例。圖2描繪了圖1的運動捕捉系統的示例性框圖。圖3是用於提供3D音頻信號的過程的一個實施例的流程圖。圖4A描繪了用於確定房間的模型的過程的流程圖。圖4B描繪了用於基於虛擬特性和真實特性來構建房間模型的過程的一個實施例的流程圖。圖5A是用於確定3D音頻信號的音頻分量的過程的一個實施例的流程圖。圖5B描繪了房間的頂視圖以以2維示出可能的聲音路徑。圖6示出了用於確定聽者在房間中的位置和旋轉的過程的流程圖。圖7描述了用於為特定聽者確定HRTF的過程的一個實施例。圖8描繪了用於基於之前收集的詳細特性來為聽者選擇HRTF的過程的一個實施例的流程圖。圖9是描繪用於基於這樣的數據修改房間模型的過程的一個實施例的流程圖。圖10描繪了用於生成3D音頻信號的一個實施例的框圖。圖11描繪了可以在圖1的運動捕捉系統中使用的計算環境的示例框圖。圖12描繪了可以在圖1的運動捕捉系統中使用的計算環境的另一示例框圖。
具體實施例方式提供了用於提供3D音頻的技術。3D音頻可以用於擴展現實，但是其他應用也是可能的。在此所公開的技術是精確的、節省成本的、用戶友好的，並且與現有音頻系統兼容。 3D音頻信號可以基於從聽者所在的實際房間中所收集的傳感器數據以及聽者在該房間中的實際位置來生成。該音頻信號可以表示「虛擬聲音」，該虛擬聲音表示來自3D空間中的某個特定位置的聲音。該位置可以表示在視頻屏幕上所顯示的某個物體、或者甚至聽者房間中的真實實物物體。在一些實施例中，3D音頻信號通過一組頭戴耳機被提供給聽者。該3D 音頻信號可以包括多個分量，這些分量基於所收集的傳感器數據和聽者的位置來確定。例如，牆壁和家具的位置可以從傳感器數據中確定。還可以確定虛擬聲音源與聽者之間的多個(虛擬)聲音路徑。該傳感器數據可以用於估計房間中的材料，使得可以確定這些材料在聲音在沿著這些路徑傳播時可能對聲音造成的影響。在一些實施例中，可以分析傳感器數據以確定聽者的物理特性，使得可以從HRTF庫中確定合適的HRTF。針對聽者的HRTF可以應用於3D音頻信號的不同分量。下面討論其他細節。在一些實施例中，生成3D音頻信號被用於運動捕捉系統中。因此，將描述示例性的運動捕捉系統。然而，可以理解，本文所描述的技術不限於運動捕捉系統。圖1描繪了運動捕捉和3D音頻系統10的示例，其中房間(或其他環境)中的人與應用交互。運動捕捉和3D音頻系統10包括顯示器196、深度相機系統20、以及計算環境或裝置12。深度相機系統20可以包括圖像相機組件22，該圖像相機組件22具有光發射器M、光傳感器25、以及紅綠藍(RG^相機觀。在一個實施例中，光發射器M發射準直光束。準直光束的示例可包括但不限於，紅外(IR)和雷射。在一個實施例中，光發射器M是LED。從視野6內的聽者8、物體33、牆壁35等等反射離開的光由光傳感器25來檢測。在一些實施例中，系統10 使用該信息來確定如何生成3D音頻信號。描述該房間的諸如RGB信息(其在下面予以討論)之類其他信息可以用於確定如何生成3D音頻信號。亦稱為聽者的用戶站在深度相機系統20的視野6中。聽者8佩戴了用來提供3D 音頻聲音的頭戴耳機27。在該示例中，頭戴耳機27包括兩個音頻揚聲器37，所述音頻揚聲器37之一佩戴在每隻耳朵之上或附近。系統10可以提供驅動音頻揚聲器37的3D音頻信號。該3D音頻信號可以使用無線或有線連接來提供。在某個實施例中，系統10將3D音頻信號提供給另一組件，比如高保真度立體聲系統、HDTV等等。對於聽者8而言，3D音頻信號中的聲音可能似乎源自某個虛擬聲音源四。作為一個示例，虛擬聲音源29a可以是顯示器196上所顯示的物體。然而，虛擬聲音源29a可以對應於房間中的某個真實物體^b。例如，可以指示用戶將玩偶侏儒(gnome)放置在他們面前的桌上，其中系統10可以使得對用戶而言就好像該玩偶侏儒正在與他們交談(由於通過頭戴27所播放的3D音頻的緣故)。虛擬聲音源四甚至可能好像源自房間之外。在一些實施例中，用戶「佩戴」一個或多個話筒31，所述話筒可以被系統10用於確定房間的聲學性質以提供更逼真的3D音頻信號。在該示例中，話筒31位於頭戴耳機27 上，但是用戶可以將話筒31 「佩戴」在另一位置處。在一些實施例中，用戶「佩戴」一個或多個慣性傳感器38，所述慣性傳感器可以被系統10用於確定聽者8的位置和旋轉。在該示例中，慣性傳感器38位於用戶的頭上，但是用戶可以將慣性傳感器38 「佩戴」在另一位置處。例如，慣性傳感器38可以集成到頭戴耳機27中。在一些實施例中，用戶8可以攜帶相機，該相機可以用於向系統10提供與深度相機系統20所生成的深度和/或RGB信息類似的深度和/或RGB信息。
線2和4表示視野6的邊界。可以定義笛卡兒世界坐標系，其包括沿著深度相機系統20的焦距例如水平地延伸的ζ軸；垂直地延伸的y軸；以及側向地且水平地延伸的χ 軸。注意，附圖的透視被修改成簡化表示，顯示器196在y軸方向上垂直延伸，ζ軸垂直於y 軸和χ軸且與用戶所站立的地面平行地從深度相機系統20延伸出來。一般而言，運動捕捉系統10用於識別、分析和/或跟蹤對象。計算環境12可包括計算機、遊戲系統或控制臺等等，以及執行應用程式的硬體組件和/或軟體組件。深度相機系統20可以包括相機，該相機用於可視地監視諸如用戶之類的一個或多個物體8，使得可以捕捉、分析並跟蹤用戶所作出的姿勢和/或運動，以執行應用中的一個或多個控制或動作，比如選中用戶界面(UI)中的菜單項。運動捕捉系統10可以連接到諸如顯示器196等可向用戶提供視覺和音頻輸出的視聽設備，如電視機、監視器、高畫質電視機(HDTV)等，或甚至是牆或其他表面上的投影。還可以經由單獨的設備來提供音頻輸出。注意，3D音頻信號通常通過頭戴耳機27來提供。為驅動顯示器，計算環境12可包括提供與應用相關聯的視聽信號的諸如圖形卡之類的視頻適配器和/或諸如音效卡之類的音頻適配器。顯示器196可以通過例如S-視頻電纜、同軸電纜、HDMI電纜、DVI電纜、VGA電纜等等連接到計算環境12。圖2描繪了圖1的運動捕捉和3D音頻系統10的示例性框圖。系統10包括深度相機系統20和計算環境12。在該實施例中，計算環境12具有3D音頻生成195。計算環境 12輸入來自深度相機系統20的深度信息和RGB信息，並且將3D音頻信號輸出給音頻放大器197。音頻放大器197可以是諸如HDTV、立體聲系統等等之類的單獨設備的一部分。3D 音頻生成195可以通過在處理器192上執行指令來實現。注意，硬體執行的實施方式、以及混合型軟體/硬體實施方式也是可能的。深度相機系統20可被配置成生成深度圖像，該深度圖像可以包括深度值。深度相機系統20可以將深度圖像組織成「Z層」，或者可以與從深度相機系統20沿其視線延伸的Z 軸垂直的層。深度圖像可包括所捕捉的場景的二維O-D)像素區域，其中該2-D像素區域中的每個像素具有代表距離圖像相機組件22的線性距離(徑向距離)的或由像素觀察的 3D位置的Z分量(垂直距離)的相關聯的深度值。圖像相機組件22可以包括光發射器M和一個或多個光傳感器25來捕捉從視野內的物體反射離開的光的強度。例如，深度相機系統20可使用光發射器M將光發射到物理空間上並使用光傳感器25來檢測從物理空間內一個或多個對象的表面所反射的光。在一些實施例中，深度值基於光強來確定。例如，隨著時間的過去，越來越多的光子達到給定的像素。在收集時間段以後，每個像素處的光強被採樣。深度圖像中的深度值可以基於每個像素處的光強來確定。在一些實施例中，光發射器M發射脈衝紅外光。在一些實施例中，光被調製到所期望的頻率。紅綠藍(RGB)相機洲可用於捕捉可見光圖像。深度相機系統20還可以包括話筒 30，其包括例如接收聲波並將其轉換成電信號的換能器或傳感器。另外，話筒30可用於接收也可由人提供的諸如聲音之類的音頻信號，以控制可由計算環境12運行的應用程式。音頻信號可包括人的口聲，如說的話、口哨聲、喊聲及其他發聲，以及非口聲，如掌聲或跺腳。在一些實施例中，話筒30是話筒陣列，它可具有一起運行的任何數量的話筒。如圖1中所述，還可以由用戶8佩戴一個或多個話筒31。這些話筒31的輸出可以被提供給計算環境12以供由3D音頻生成195來使用。如果期望的話，則話筒30的輸出也可以由3D音頻生成 195來使用。深度相機系統20可包括與圖像相機組件22進行通信的處理器32。處理器32可以包括可執行例如包括用於生成3D音頻信號的指令在內的指令的標準化處理器、專用處理器、微處理器等等。深度相機系統20還可包括存儲器組件34，存儲器組件34可存儲可由處理器32執行的指令、以及存儲RGB相機所捕捉的圖像或圖像幀、或任何其他合適的信息、圖像等等。根據一個示例實施方式，存儲器組件34可包括隨機存取存儲器(RAM)、只讀存儲器(ROM)、高速緩存、快閃記憶體、硬碟或任何其他合適的有形計算機可讀存儲組件。存儲器組件34可以是經由總線21與圖像捕捉組件22和處理器32通信的單獨的組件。根據另一實施例，存儲器組件34可被集成到處理器32和/或圖像捕捉組件22中。深度相機系統20可以通過通信鏈路36與計算環境12進行通信。通信鏈路36可以是有線和/或無線連接。根據一個實施方式，計算環境12可以經由通信鏈路36向深度相機系統20提供時鐘信號，該時鐘信號指出何時從位於深度相機系統20的視野中的物理空間捕捉圖像數據。此外，深度相機系統20可通過通信鏈路36向計算環境12提供深度信息和由RGB 相機觀捕捉的圖像。計算環境12然後可使用深度信息和所捕捉的圖像來控制應用。例如，如圖2所示，計算環境12可包括諸如姿勢過濾器集合等姿勢庫190，每一姿勢過濾器具有關於可(在用戶移動時)執行的姿勢的信息。例如，可以為各種手勢(如手的猛擊或投擲)提供姿勢過濾器。通過將檢測到的運動與每一個過濾器進行比較，可以標識由人執行的指定的姿勢或運動。還可以確定執行運動的程度。計算環境還可包括處理器192，其用於執行存儲在存儲器194中的指令以向顯示設備196提供音頻-視頻輸出信號並實現其他功能。圖3是用於提供3D音頻信號的過程300的一個實施例的流程圖。過程300可以在系統10內實現，但是可以使用不同的系統。在步驟301，收集傳感器數據。該傳感器數據可以包括、但不限於深度信息、GRB數據以及音頻數據。例如，可以使用深度相機系統20來用光傳感器25收集其(使用光發射器24)所發射的光。還可以使用RGB相機觀。在一個實施例中，使用由用戶8佩戴的一個或多個話筒31來收集傳感器數據。也可以使用深度相機系統20中的話筒30。在一個實施例中，用戶8握住相機並且將其在四周移動以收集房間周圍的傳感器數據。該數據可以包括深度信息和RGB數據。在步驟302，基於傳感器數據來確定聽者所在的房間或其他環境的物理特性。該傳感器數據可以用於確定諸如牆壁和各個物體位於何處之類的信息。而且，該傳感器數據可以用於估計房間中的材料。例如，傳感器數據可以用於確定地面是硬木還是地毯。在步驟304，確定聽者在房間中的位置。在一個實施例中，使用傳感器數據來確定聽者的位置。例如，可以使用在步驟302所收集的傳感器數據來確定聽者的位置。在步驟306，基於聽者在房間中的位置以及該房間的一個或多個物理特性來確定 3D音頻信號。作為一個示例，可以確定虛擬聲音源與聽者之間的多個聲音路徑。此外，可以將房間的物理特性作為因素計入。作為一個示例，從硬木地面反射離開的聲音將不同於從地毯反射的聲音。因此，對於具有這樣的路徑的聲音路徑而言，這可以作為因素計入。在一些實施例中，應用針對聽者的HRTF以形成3D音頻信號。在一些實施例中，基於傳感器確定的特性來確定針對聽者的HRTF。例如，圖像相機組件20中的傳感器可以捕捉深度和/或 RGB數據。可以存在HRTF庫，其中基於匹配過程從該庫中選擇(或以其他方式確定)合適的 HRTF。在步驟308中，提供3D音頻信號。例如，3D音頻信號被提供給用於驅動頭戴耳機 27的音頻放大器197。注意，過程300可以通過如下方式重複收集更多傳感器數據(301)；重新確定房間的物理特性(步驟30 ；重新確定聽者的位置(步驟304)等等。然而，不需要連續地重複所有步驟。例如，過程300可以以任何所期望的間隔來重新確定房間特性。可以預期某些信息保持不變(例如牆壁的位置)。然而，諸如物體位置之類的其他房間信息可能隨時間改變。由於聽者的位置可能非常頻繁地改變，因此可以仔細地跟蹤聽者的位置。圖4A描繪了用於確定房間模型的過程400的一個實施例的流程圖。過程400可以用在過程300的步驟301、302和306中。例如，該模型可以從在步驟301所收集的傳感器數據中構建，並且在步驟306被用於確定音頻分量。在步驟402，生成房間中的一個或多個物體的深度圖像。在一個實施例中，通過由深度相機系統20將頂射束髮射到視野內並且在一個或多個圖像傳感器處收集所反射的數據來形成深度圖像。然後，處理該傳感器數據以確定深度值(例如與各個物體相距的距離)。注意，由於視野可能是有限的，因此深度相機系統20可以調節視野並且重複收集附加的深度信息。在一些實施例中，圖像相機組件 22由電機來控制，該電機允許移動視野以捕捉房間的更完整的照片。如上所述，用戶8可以握住相機並且將其用於掃描房間以收集深度數據。在步驟404，生成房間中的一個或多個物體的RGB圖像。在一個實施例中，由深度相機系統20使用紅綠藍(RGB)相機28來形成RGB圖像。如上所述，用戶8可以握住相機並且將其用於掃描房間以收集RGB數據。RGB圖像可以與深度圖像一起從一個以上的數據收集步驟中形成。步驟402和404是步驟301的一個實施例。在步驟406，確定房間和該房間中的物體的物理尺寸。還可以確定物體的物理位置。該信息可以基於在步驟402和404所收集的數據。在一些實施例中，基於所收集的數據來外插出該物理尺寸。如所述那樣，深度相機系統20可能不能不收集整個房間的數據。例如，參考圖1，視野可能不能捕捉整個牆壁35。在這樣的情況下，一種選擇是對所收集的數據進行外插以針對沒有數據的區域估計牆壁35的位置。步驟406是步驟302的一個實施例。在步驟408，對房間中的物體的材料進行估計。作為一個示例，對各件家具、牆壁、天花板、地面等等的材料進行估計。在一些實施例中，使用深度信息來輔助該確定。例如，該深度信息可以用於確定地板是光滑的(以及可能確定是硬木的或是鋪了地板磚的)還是粗糙的(可能確定是鋪了地毯的)。還可以使用RGB信息。注意，不需要估計實際材料，但是這是一種選擇。估計材料的原因是能夠確定該材料將如何影響聲音。因此，可以確定和排序可用於確定材料將如何影響聲音從物體離開的反射的任何參數。在步驟410，基於在步驟406和408確定的物理尺寸和材料來構造房間的模型。之後，可以基於該房間模型生成3D音頻信號。例如，該模型可以用在過程300的步驟306。因此，可以用3D音頻信號來擴展用戶房間的實際現實。步驟406、408和410是步驟302的一個實施例。
圖4B描繪了用於基於虛擬特性和真實特性來構建房間模型的過程450的一個實施例。作為一個示例，可以使用處理器450來使得對於聽者而言好像他們的房間被以某種方式變換。例如，如果用戶玩視頻遊戲，其中用戶想像他們處於監獄牢房中，則處理器450 可以用於構建具有監獄牢房的特性的房間模型。該模型可以使用用戶房間的一些實際特性，比如物體的大小和位置。然而，替代於使用真實物體的實際材料，可以使用虛擬特性。例如，替代於實際的厚地毯，可以對水泥地面進行建模。因此，聽者的房間的現實可以基於該模型由3D音頻信號來擴展。在步驟452，訪問物體在實際房間中的物理尺寸和位置。這些特性可以已經使用過程400被確定。然而，實際房間特性在期望時可以重新確定。在步驟454，確定虛擬環境的特性。例如，實現虛擬遊戲的軟體應用可以提供定義虛擬環境的參數。在本示例中，該應用可以提供描述牆壁、地面、天花板等等的虛擬材料的參數。注意，這些參數可以以另一方式來確定。在步驟456，將虛擬特性應用於實際房間特性。因此，替代於確定用戶的實際地面是鋪了地毯的以及確定聲音將如何受到地毯影響，將用戶的地面建模為水泥。然後，作出關於水泥將如何影響聲音反射的確定。如果期望的話，則可以讓虛擬特性應用於房間中的各個物體。例如，如果期望讓沙發模擬大石(bolder)，則可以讓石頭的特性應用於沙發。在步驟458，基於來自步驟456的信息來構建用戶房間的模型。該模型可以在生成 3D音頻信號時使用。例如，該模型可以用在圖3的過程300的步驟306。注意，用戶房間中的實際物體(家具、牆壁、天花板等等)可以用於確定該模型。因此，可以通過3D音頻信號來擴展用戶的實際房間的現實。圖5A是用於確定3D音頻信號的分量的過程500的一個實施例的流程圖。過程500 是過程300的步驟306的一個實施例。在步驟502，確定虛擬聲音源四的位置。例如，如果用戶與顯示器196上所示的虛擬世界交互，則虛擬聲音源四可以是該虛擬世界中所顯示的某個物體。然而，虛擬聲音源四可以是用戶房間中的實際物體或虛擬物體。例如，用戶可以將物體放置在該房間中的所期望的位置處。然後，系統可以標識出該物體的位置。作為特定的示例，系統可以指示用戶將物體放置在用戶想要放置的地方。作為響應，用戶可以在桌上放置玩偶侏儒。然後，系統例如通過使用深度相機系統來確定物體的位置。如前面所討論的那樣，系統可以跟蹤用戶的物理位置。因此，系統能夠通過跟蹤用戶的運動來確定用戶已經將玩偶侏儒放置在了桌上。可以將其他技術用於該系統以確定虛擬聲音源四的實際位置。虛擬聲音源四甚至可以處於房間之外。例如，系統可以使得某人好像在敲門或者從門的另一側談話。在步驟504，確定虛擬聲音源四與聽者8之間的聲音路徑。這可以包括確定直接路徑和一個或多個間接路徑。步驟504可以基於已經在過程300的步驟302確定的房間信息。圖5B描繪了房間的頂視圖以以2維示出可能的聲音路徑。注意，系統10可以以3維確定聲音路徑；然而使用2維來簡化說明。在步驟504以前，系統可以確定聽者8和房間中的其他物體33的位置。作為一個示例，其他物體33可以是沙發。在該示例中，聲音路徑包括直接聲音路徑和兩個間接聲音路徑。一個間接聲音路徑是包括從一個物體的聲音反射的一階路徑。還描繪了包括從兩個物體的反射的二階路徑。在該示例中，物體33阻擋潛在的一階路徑(其由指向物體33的虛線箭頭來指示)。還可以確定三階和更高階的路徑。注意，可以考慮從牆壁以外的物體離開的反射。圖5B的具體視圖未描繪離開地面和天花板的聲音反射，但是也可以考慮這些聲音路徑。在步驟506，為每個聲音路徑確定3D音頻信號的分量。這些不同分量可以聯合以形成3D音頻信號。關於房間中的材料的信息可以用在步驟506。例如，如果已經確定沿著一階路徑存在關閉的窗，則可以將聲音從玻璃反射離開的影響作為因素計入。另一方面，可能確定該窗當前為打開的，在這種情況下，一階路徑可以不加以考慮。作為另一示例，窗簾可能被關閉，在這種情況下，考慮窗簾對一階路徑上傳播的聲音的影響。如之前所述，關於房間的信息可以以任何所期望的間隔更新。因此，當用戶進行交互時，所生成的3D音頻信號可能由於諸如用戶打開窗、關閉窗簾等等之類的情況而改變。在步驟508，將針對聽者的HRTF應用於每個音頻分量。下面討論為聽者確定合適 HRTF的進一步細節。在將HRTF應用於每個音頻分量以後，這些分量可以合併以生成3D音頻信號。注意，在輸出3D音頻信號以前可以執行其他處理。圖6示出了用於確定聽者在房間中的位置和旋轉的過程600的流程圖。例如，過程 600可以用於確定用戶的頭旋轉到哪個方位。過程600是過程300的步驟304的一個實施例。注意，過程600不一定包括收集用於為聽者8確定合適HRTF的信息。該信息可以如下面所述那樣以更加受限的基礎來收集。該示例性方法例如可以使用深度相機系統20來實現。可以掃描用戶8來生成模型，比如骨架模型、網格人類模型、或人的任何其他合適的表示。然後，該模型可以與房間信息一起用於確定用戶在該房間中的位置。用戶的旋轉(例如用戶的頭所取向的方位)也可以從該模型中確定。根據一個實施方式，在步驟602中，例如，從深度相機系統接收深度信息。可以將深度圖像下採樣到較低的處理解析度，使得其可以更容易地用較少的計算開銷來使用和處理。另外，可從深度圖像中移除和/或平滑掉一個或多個高變度和/或含噪聲的深度值；可填入和/或重構缺少的和/或移除的深度信息的部分；和/或可對所接收的深度信息執行任何其他合適的處理，使得該深度信息可用於生成諸如骨架模型等模型。在判定步驟604，判定深度圖像是否包括人類目標。這可以包括對深度圖像中的每一個目標或物體進行泛色填充，將該目標或物體與圖案進行比較以判斷深度圖像是否包括人類目標。例如，可以如上文所描述的那樣將深度圖像的選定區域或點中的像素的各種深度值進行比較，以確定可以定義目標或對象的邊緣。可基於所確定的邊緣來對Z層的可能Z 值進行泛色填充。例如，與確定的邊緣相關聯的像素和該邊緣內的區域的像素可以彼此相關聯，以定義可以與圖案相比較的捕捉區域中的目標或對象，這在下面將更詳細地描述。如果判定步驟604為真，則執行步驟606。如果判斷步驟604為假，則在步驟602 中接收附加的深度信息。每一個目標或對象與其比較的圖案可包括一個或多個數據結構，這些數據結構具有共同地定義人的典型身體的變量集合。可以將與例如視野內的人類目標和非人類目標的像素相關聯的信息與變量進行比較，以標識人類目標。在一個實施例中，可以基於身體部位，對該集合中的每一個變量賦予權重。例如，圖案中的諸如頭和/或肩之類的各種身體部位可以具有與其相關聯的權重值，這些權重值可以大於諸如腿之類的其他身體部位的權重值。根據一個實施方式，當將目標與變量進行比較以判斷目標是否可能是人類以及哪些目標可能是人類時，可以使用權重值。例如，變量和目標之間具有較大的權重值的匹配與具有較小權重值的匹配相比可產生目標是人類的更大似然性。步驟606包括掃描人類目標以尋找身體部位。可以掃描人類目標，以提供與人的一個或多個身體部位相關聯的諸如長度、寬度等等之類的測量值，以提供該人的準確模型。在一示例實施例中，人類目標可以被隔離，並且可以創建人類目標的位掩模來掃描一個或多個身體部位。可以通過例如對人目標進行泛色填充來創建位掩模，以便人類目標可以與捕捉區域元素中的其他目標或對象分離。然後，可以對於一個或多個身體部位分析位掩碼，以生成人類目標的模型，如骨架模型、網格人類模型等等。步驟608包括生成人類目標的模型。在一個實施方式中，可以使用由掃描的位掩模確定的測量值來定義骨架模型中的一個或多個關節。一個或多個關節被用來定義對應於人類的身體部位的一個或多個骨頭。一般而言，每個身體部位可被表徵為定義骨架模型的關節和骨骼的數學向量。身體部位在關節處可以相對於彼此移動。模型可以包括描述用戶的頭的旋轉的信息，使得得知用戶的耳朵的取向。在步驟610，在用戶上的慣性傳感器收集數據。在一個實施例中，至少一個慣性傳感器位於用戶的頭上以允許跟蹤用戶的頭。在步驟611中，通過每秒鐘多次更新人的位置來跟蹤模型。隨著用戶在物理空間中移動，使用來自深度相機系統的信息來調整骨架模型，以使該骨架模型表示人。來自慣性傳感器的數據也可以用於跟蹤用戶。具體而言，可以向骨架模型的一個或多個受力面施加一個或多個力，以將骨架模型調整為更加緊密地對應於物理空間中的人類目標的姿態的姿態。一般而言，可使用用於跟蹤一個或多個人的運動的任何已知技術。在步驟612，基於對模型的跟蹤來確定用戶在房間中的位置。在步驟614，基於對模型的跟蹤來確定用戶的頭的旋轉。過程600可以繼續跟蹤用戶，使得位置和旋轉可以更新。在一些實施例中，基於聽者8的物理特性從HRTF庫中確定針對用戶8的HRTF。這些物理特性可以基於諸如深度信息和RGB信息之類的來自傳感器的輸入來確定。圖7描述了用於為特定聽者8確定HRTF的過程700的一個實施例。該HRTF可以用在過程300的步驟306或者過程500的步驟508。注意，HRTF可以在任何時間確定。作為一個示例，為用戶確定一次HRTF，並且將其存儲以供反覆使用。當然，可能修訂HRTF (例如選擇新的HRTF)。在步驟702，系統10指示用戶8採取某個位置或姿態。例如，系統指示用戶向左看。在步驟704，系統10收集用戶處於該位置的情況下的數據。例如，使用深度相機系統 20來收集深度信息(利用傳感器25)以及RGB信息(利用傳感器觀)。在步驟706，系統數據是否有效。例如，如果系統曾預期針對右耳的數據，則系統確定該數據是否與針對右耳所預期的數據相匹配。如果否，步驟702可以重複，使得再次指示用戶採取正確的姿態。如果數據有效(步驟706為「是」)，則系統確定是否存在該用戶要採取的更多位置/姿態。在接下來的迭代中，可以要求用戶向正前方看，向右看等等。可以收集針對多種多樣的位置的數據。當收集到合適的數據時，過程700繼續到步驟710以在步驟710為聽者8確定 HRTF。在一些實施例中，存在可從中進行選擇的HRTF庫。這些HRTF可以與用戶的各種物理特性相關聯。示例包括、但不限於頭大小和寬度、耳廓特性、身體尺寸。例如，特定的HRTF 可以與同頭大小和耳廓相關的特定測量結果相關聯。這些測量結果可以是某個範圍或單個
12值。例如，一個測量結果可以是頭寬度，這可以表達根據單個值或某個範圍來表達。然後，系統可以通過將用戶的物理特性與同庫中HRTF相關聯的物理特性進行匹配來為用戶選擇 HRTF0可以使用任何技術來確定最佳匹配。在一個實施例中，系統進行內插以為用戶確定 HRTF0例如，用戶的測量結果可以處於兩個HRTF的測量結果之間，在這種情況下，可以通過對兩個HRTF的參數進行內插來確定針對該用戶的HRTF。接著，系統可以執行附加的步驟以驗證該HRTF確定是良好的，並且可能為該聽者選擇更好的HRTF。在步驟712，系統為該用戶播放3D音頻信號。這可以通過用戶佩戴的頭戴耳機來播放。在步驟714，可以要求用戶指向3D音頻信號的明顯的源。在一個實施例中，該過程被製成遊戲，其中要求用戶對著該聲音射擊。例如，系統在沒有任何視覺表示的情況下播放鴨子聲音。在步驟716，系統確定用戶所指向的位置。步驟716可以包括使用深度相機系統來收集深度信息。系統還可以向用戶要求話音輸入，該語音輸入可以由該系統使用語音識別來識別。可以針對其他聲音重複步驟712-716，直到在步驟717確定收集到足夠的數據。在步驟718，系統確定HRTF的有效程度。例如，系統確定用戶能夠多精確地對虛擬聲音進行定位。在一個實施例中，如果用戶命中聲音源(例如用戶射中鴨子)，則系統在顯示器196上顯示該鴨子。然後，系統確定是否應當為該用戶確定不同的HRTF。如果是，則通過返回到步驟710來確定新的HRTF。過程700可以重複步驟712-718，直到找到令人滿意的 HRTF。在步驟722，為用戶存儲HRTF。注意，這不一定是在過程700中被測試的最後一個 HRTF。也就是說，系統可以確定之前在過程700曾被測試的HRTF之一可能是最好的。還應注意，可以為給定用戶存儲一個以上的HRTF。例如，可以針對佩戴眼鏡和未佩戴眼鏡的用戶重複過程700，為每種情況存儲一個HRTF。如所述那樣，用於確定聽者8的詳細特性使得可以為該用戶存儲HRTF的這個過程可以不頻繁地進行——可能僅僅進行一次。圖8描繪了用於基於之前收集的詳細特性來為聽者8選擇HRTF的過程800的一個實施例的流程圖。例如，過程700可以在過程800以前執行一次。然後，過程800可以執行許多次。在步驟802，使用生物測定信息來標識出聽者 8。注意，該信息不同於在過程700收集的信息。然而，可能的是，可能存在信息的一些重疊。收集生物測定信息可以包括收集深度信息和RGB信息。在一個實施例中，系統能夠例如基於面部識別來識別聽者。在步驟804，為在步驟802所標識出的用戶選擇合適的HRTF。在一個實施例中，選擇在過程700為該用戶存儲的HRTF。在另一實施例中，詳細的用戶特性已經在過程700被存儲。然後，在過程800，可以基於所存儲的詳細用戶特性來選擇HRTF。如果期望的話，這些所存儲的詳細用戶特性可以被當前所收集的信息擴充例如，用戶可能在此時戴著帽子。因此，系統可以在過程700期間選擇與用戶未戴帽子的情況不同的HRTF。如上所述，用戶可能佩戴可收集關於房間的聲學數據的一個或多個話筒。圖9是描繪用於基於這樣的數據修改房間模型的過程900的一個實施例的流程圖。作為一個示例，過程400可能已經執行了至少一次以基於深度圖像和/或RGB圖像來確定房間模型。然後，過程900可以用於修改該房間模型。在步驟902，通過位於聽者所在的房間中的揚聲器來播放聲音。該步驟可以在任何時間執行以幫助細化房間的模型。在任選步驟904，指示用戶在播放聲音時在房間四周走動。不一定具體地告知用戶應走到那裡。另一方面，可以指示用戶走到房間四周的不同位置；然而，這不是必需的。注意，步驟904是任選的。在一個實施例中，不是指示用戶他們應當在房間四周自動，而是簡單地假定用戶作為正常玩遊戲或其他交互的一部分而將在四周移動。在步驟906，在播放聲音時收集來自用戶所佩戴的一個或多個話筒31的數據。用戶可以將這些話筒31佩戴在其耳朵附近，但是這不是必需的。在步驟908，確定用戶的位置並且將該位置與從話筒31收集的數據相關。一種選擇是使用深度信息和RGB信息來對用戶進行定位。在步驟910，基於在步驟906被收集、在步驟908與用戶位置相關的數據來確定房間聲學特性。在步驟912，基於在步驟910所確定的聲學性質來更新房間模型。如所述那樣，過程400可以以所期望的頻繁程度執行。因此，一種選擇是使用過程 400構建房間模型。然後，可以使用過程900來更新房間模型。接著，可以再次使用過程400 一次或多次來更新(或重新創建)房間模型。另一選擇是將過程900與過程400相組合。例如，所生成的初始房間模型可以基於過程400和900 二者的使用。圖10描繪了用於生成3D音頻信號的一個實施例的框圖。該框圖提供了過程300 的一個實施例的附加細節。聲音源1002表示3D音頻信號所基於的虛擬聲音。例如，該聲音源可以是狗叫的(錄製的或計算機生成的)數字數據。總的來說，聲音源1002是沿著若干路徑——直接路徑和若干反射路徑——被處理的。圖5B中提供了這些路徑的一個示例。對於直接路徑而言，通過施加增益和濾波器1006來處理聲音源1002 ；然後為聽者應用HRTF 1008。對於間接路徑而言，首先為每個反射路徑計算1004方位角和仰角。然後，該處理類似於針對直接路徑所描述的處理。該結果可以在施加所估計的混響尾音(reverb tail) 1010 以產生最終的3D音頻信號以前相加，該3D音頻信號可以通過頭戴耳機來播放1012。圖10的圖描繪了可以出於不同原因使用的傳感器輸入。傳感器輸入可以用於計算用戶的位置和旋轉，這如框1020中所示。傳感器輸入可以用於構建房間模型，以及用於估計房間材料，這如框1030所示。最後，傳感器輸入可以用於確定用戶特性，比如耳廓和頭部特性，這如框1040所示。這些用戶特性可以用於為該用戶確定HRTF。注意，針對用戶的 HRTF不要求是來自庫的HRTF。例如，可以使用內插來從庫中的兩個或更多個HRTF中形成 HRTF。框1020的傳感器輸入(其用於計算用戶位置)可以包括、但不限於深度信息、RGB 信息、以及慣性數據(其來自在用戶上的慣性傳感器)。框1030的傳感器輸入(其用於計算房間模型)可以包括、但不限於深度信息、RGB信息、以及聲學數據(其例如來自用戶佩戴的話筒)。框1040的傳感器輸入(其用於確定HRTF)可以包括、但不限於深度信息和RGB
fn息ο為了計算反射的方位角和仰角，可以使用來自框1020和1030的數據。類似地，增益和濾波器可以使用來自框1020和1030的數據。注意，該傳感器數據可以在任何時間更新。例如，用戶可能移動，使得捕捉用戶位置的傳感器數據非常頻繁地變化。這些改變例如可以被饋送給方位角和仰角計算1004，使得不斷地因改變的用戶位置而更新3D音頻信號。類似地，用戶位置的改變可以實時地饋送給增益和濾波器1006。在一些實施例中，針對用戶的HRTF不是實時地更新。然而，實時地更新針對用戶的HRTF是一種選擇。在接近生成3D音頻信號結束時添加的混響尾音可以基於房間模型和對材料的估計。因此，框1030可以是用於估計混響尾音1010的輸入。在一個實施例中，系統存儲與諸如房間大小和材料之類的因素相關的混響尾音的庫。系統能夠基於房間模型選擇混響尾音之一。系統還可以在兩個所存儲的混響尾音之間內插。因此，通過選擇所存儲的混響尾音，節省了計算時間。圖11描繪了可用於生成3D音頻信號的計算環境的示例性框圖。該計算環境可以用在圖1的運動捕捉系統中。上文所描述的諸如計算環境12等的計算環境可包括諸如遊戲控制臺等的多媒體控制臺100。控制臺100可以從圖2的深度相機系統20接收輸入。控制臺還可以從話筒31和慣性傳感器38接收輸入，所述話筒31和慣性傳感器38 二者都可以由用戶佩戴。控制臺 100可以將3D音頻信號輸出給音頻放大器197。多媒體控制臺100包括具有1級高速緩存102、2級高速緩存104和快閃記憶體R0M(只讀存儲器)106的中央處理單元(CPU) 101。一級高速緩存102和二級高速緩存104臨時存儲數據並因此減少存儲器訪問周期數，由此改進處理速度和吞吐量。CPU 101可以設置成具有一個以上的內核，以及由此的附加的一級和二級高速緩存102和104。諸如快閃記憶體ROM之類的存儲器106可存儲當多媒體控制臺100通電時在引導過程的初始階段期間加載的可執行代碼。圖形處理單元(GPU) 108和視頻編碼器/視頻編解碼器(編碼器/解碼器)114形成用於高速和高解析度圖形處理的視頻處理流水線。經由總線從圖形處理單元108向視頻編碼器/視頻編解碼器114運送數據。視頻處理流水線向A/V(音頻/視頻)埠 140輸出數據，用於傳輸至電視或其他顯示器。存儲器控制器110連接到GPU 108，以便於處理器對各種類型的存儲器112，比如RAM(隨機存取存儲器)的處理器訪問。A/V埠 140可以連接到顯示器196。多媒體控制臺100包括可在模塊118上實現的I/O控制器120、系統管理控制器 122、音頻處理單元123、網絡接口 124、第一 USB主控制器126、第二 USB控制器1 和前面板 I/O子部件130。USB控制器126和128用作外圍控制器142 (1)-142 (2)、無線適配器148、和外置存儲器設備146(例如快閃記憶體、外置CD/DVD ROM驅動器、可移動介質等)的主機。網絡接口(NW IF) IM和/或無線適配器148提供對網絡(例如，網際網路、家庭網絡等)的訪問並且可以是包括乙太網卡、數據機、藍牙模塊、電纜數據機等的各種不同的有線或無線適配器組件中任何一種。提供系統存儲器143來存儲在引導過程期間加載的應用數據。提供了媒體驅動器 144，其可以包括DVD/CD驅動器、硬碟驅動器、或其他可移動媒體驅動器。介質驅動器144 可以在多媒體控制臺100的內部或外部。應用數據可經由介質驅動器144訪問，以由多媒體控制臺100執行、回放等。媒體驅動器144經由諸如串行ATA總線或其他高速連接等總線連接到I/O控制器120。系統管理控制器122提供涉及確保多媒體控制臺100的可用性的各種服務功能。音頻處理單元123和音頻編解碼器132形成具有高保真度和立體聲處理的對應的音頻處理流水線。音頻數據經由通信鏈路在音頻處理單元123與音頻編解碼器132之間傳輸。音頻處理流水線將數據輸出到A/V埠 140以供外置音頻播放器或具有音頻能力的設備再現。在一些實施例中，3D音頻信號通過A/V埠 140來提供，但是3D音頻信號可以通過不同的連接來提供。前面板I/O子部件130支持暴露在多媒體控制臺100的外表面上的電源按鈕150 和彈出按鈕152以及任何LED(發光二極體)或其他指示器的功能。系統供電模塊136向多媒體控制臺100的組件供電。風扇138冷卻多媒體控制臺100內的電路。CPU 101、GPU 108、存儲器控制器110、和多媒體控制臺100內的各個其他組件經由一條或多條總線互連，包括串行和並行總線、存儲器總線、外圍總線、和使用各種總線架構中任一種的處理器或局部總線。當多媒體控制臺100通電時，應用數據可從系統存儲器143加載到存儲器112和/ 或高速緩存102、104中並在CPU 101上執行。應用可呈現在導航到多媒體控制臺100上可用的不同媒體類型時提供一致的用戶體驗的圖形用戶界面。在操作中，介質驅動器144中包含的應用和/或其他媒體可從介質驅動器144啟動或播放，以向多媒體控制臺100提供附加功能。多媒體控制臺100可通過將該系統連接到電視機或其他顯示器而作為獨立系統來操作。在該獨立模式中，多媒體控制臺100允許一個或多個用戶與該系統交互、看電影、或聽音樂。然而，隨著通過網絡接口 1 或無線適配器148可用的寬帶連接的集成，多媒體控制臺100還可作為較大網絡社區中的參與者來操作。當多媒體控制臺100通電時，可以保留指定量的硬體資源以供多媒體控制臺作業系統作系統使用。這些資源可以包括存儲器保留(例如，16MB)、CPU和GPU周期(例如， 5%)、網絡帶寬(例如，SlAs)等。因為這些資源是在系統引導時保留的，所以所保留的資源對應用程式而言是不存在的。具體地，存儲器保留可以是足夠大以包含啟動內核、並發系統應用和驅動程序。 CPU保留可以是恆定的，使得若所保留的CPU使用不被系統應用使用，則空閒線程將消耗任何未使用的周期。對於GPU保留，通過使用GPU中斷來顯示由系統應用生成的輕量消息(例如，彈出窗口)，以調度代碼來將彈出窗口呈現為覆蓋圖。覆蓋圖所需的存儲器量取決於覆蓋區域大小，並且覆蓋圖可與屏幕解析度成比例縮放。在並發系統應用使用完整用戶界面的情況下，優選使用獨立於應用解析度的解析度。定標器可用於設置該解析度，從而無需改變頻率並引起TV重新同步。在多媒體控制臺100引導且系統資源被保留之後，就執行並發系統應用來提供系統功能。系統功能被封裝在上述所保留的系統資源中執行的一組系統應用中。作業系統內核標識了是系統應用線程而非遊戲應用線程的線程。系統應用可被調度為在預定時間並以預定時間間隔在CPU 101上運行，來為應用提供一致的系統資源視圖。進行調度是為了把對於控制臺上運行的遊戲應用的高速緩存分裂最小化。當並發系統應用需要音頻時，則由於時間敏感性而異步調度音頻處理給遊戲應用。多媒體控制臺應用管理器(如下所述)在系統應用活動時控制遊戲應用的音頻水平 (例如，靜音、衰減)。輸入設備(例如，控制器142(1)和142( )由遊戲應用和系統應用共享。輸入設備不是所保留的資源，但卻在系統應用和遊戲應用之間切換以使其各自具有設備的焦點。應用管理器可控制輸入流的切換，而無需知曉遊戲應用的知識，並且驅動程序維持有關焦點切換的狀態信息。圖12描繪了可用於提供3D音頻信號的計算環境的另一示例性框圖。計算環境可以從圖2的深度相機系統20接收輸入。計算環境還可以從話筒31和慣性傳感器38接收輸入，所述話筒31和慣性傳感器38 二者都可以由用戶佩戴。計算環境可以將3D音頻信號輸出給頭戴耳機27。計算環境220包括通常包括各種有形計算機可讀存儲介質的計算機Ml。這可以是能由計算機241訪問的任何可用介質，而且包含易失性和非易失性介質、可移動和不可移動介質。系統存儲器222包括易失性和/或非易失性存儲器形式的計算機存儲介質，如只讀存儲器(ROM) 223和隨機存取存儲器(RAM06O。基本輸入/輸出系統224 ￠10 包括如在啟動時幫助在計算機Ml內的元件之間傳輸信息的基本例程，它通常儲存在ROM 223 中。RAM 260通常包含處理單元259可以立即訪問和/或目前正在操作的數據和/或程序模塊。圖形接口 231與GPU 2 進行通信。作為示例而非局限，圖12描繪了作業系統225、應用程式226、其他程序模塊227和程序數據228。計算機241也可以包括其他可移動/不可移動、易失性/非易失性計算機存儲介質，例如，讀寫不可移動、非易失性磁性介質的硬碟驅動器238，讀寫可移動、非易失性磁碟 254的磁碟驅動器239，以及讀寫諸如CD ROM或其他光學介質之類的可移動、非易失性光碟 253的光碟驅動器M0。可以在該示例性操作環境中使用的其他可移動/不可移動、易失性 /非易失性有形計算機可讀存儲介質包括但不限於，磁帶盒、快閃記憶體卡、數字多功能盤、數字錄像帶、固態RAM、固態ROM等等。硬碟驅動器238通常由例如接口 234等不可移動存儲器接口連接至系統總線221，而磁碟驅動器239和光碟驅動器240通常由例如接口 235等可移動存儲器接口連接至系統總線221。以上討論並在圖12中描繪的驅動器及其相關聯的計算機存儲介質為計算機241 提供了對計算機可讀指令、數據結構、程序模塊和其他數據的存儲。例如，硬碟驅動器238 被描繪為存儲了作業系統258、應用程式257、其他程序模塊256、以及程序數據255。注意，這些組件可以與作業系統225、應用程式226、其他程序模塊227和程序數據2 相同，也可以與它們不同。在此給作業系統258、應用程式257、其他程序模塊256、以及程序數據255 提供了不同的編號，以說明至少它們是不同的副本。用戶可以通過諸如鍵盤251和定點設備252(通常被稱為滑鼠、跟蹤球或觸摸墊)之類的輸入設備向計算機241輸入命令和信息。其他輸入設備(未示出)可包括話筒、遊戲杆、遊戲手柄、圓盤式衛星天線、掃描儀等。這些和其他輸入設備通常由耦合至系統總線的用戶輸入接口 236連接至處理單元259，但也可以由諸如並行埠、遊戲埠或通用串行總線(USB)等其他接口和總線結構來進行連接。圖2的包括相機觀的深度相機系統20可以定義附加的輸入設備。顯示器196也經由諸如視頻接口 232之類的接口連接至系統總線221。除監視器之外，計算機還可以包括可以通過輸出外圍接口 233連接的諸如頭戴耳機27和印表機243之類的其他外圍輸出設備。計算機241可使用至諸如遠程計算機246之類的一個或多個遠程計算機的邏輯連接在聯網環境中操作。遠程計算機246可以是個人計算機、伺服器、路由器、網絡PC、對等設備或其他常見的網絡節點，且通常包括許多或所有以上相對於計算機241描述的元件，但是在圖12中僅示出了存儲器存儲設備M7。邏輯連接包括區域網(LAN)245和廣域網 (WAN) M9，但也可以包括其他網絡。這樣的聯網環境在辦公室、企業範圍計算機網絡、內聯網和網際網路中是常見的。當在LAN聯網環境中使用時，計算機241通過網絡接口或適配器245連接至LAN 237。當在WAN聯網環境中使用時，計算機241通常包括數據機250或用於通過諸如網際網路等WAN 249建立通信的其他手段。數據機250可以是內置或外置的，它可以經由用戶輸入接口 236或其他適當的機制連接至系統總線221。在聯網環境中，相對於計算機 241所描述的程序模塊或其部分可被存儲在遠程存儲器存儲設備中。作為示例而非限制，圖 12描繪了遠程應用程式248駐留在存儲器設備247上。應當理解，所示的網絡連接是示例性的，並且可使用在計算機之間建立通信鏈路的其他手段。前面的對本技術的詳細描述只是為了說明和描述。它不是為了詳盡的解釋或將本技術限制在所公開的準確的形式。鑑於上述教導，許多修改和變型都是可能的。所描述的實施例只是為了最好地說明本技術的原理以及其實際應用，從而使精通本技術的其他人在各種實施例中最佳地利用本技術，適合於特定用途的各種修改也是可以的。本技術的範圍由所附的權利要求進行定義。
權利要求
1.一種方法，包括基於傳感器數據確定房間的物理特性(302)；確定聽者在該房間中的位置(304)；以及基於該房間的物理特性和該聽者在該房間中的位置來確定3D音頻信號(306)。
2.如權利要求1所述的方法，其特徵在於，確定3D音頻信號包括基於該房間的物理參數以及該聽者在該房間中的位置來確定虛擬聲音源與該聽者之間的多個聲音路徑。
3.如權利要求2所述的方法，其特徵在於，確定3D音頻信號包括確定3D音頻信號的多個分量，其中為所述多個聲音路徑中的每個確定分量；以及將針對該聽者的與頭部相關的傳輸函數(HRTF)應用於所述多個分量中的每個(308)。
4.如權利要求1至3中的任一項所述的方法，其特徵在於，還包括基於該傳感器數據估計該房間中的物體的材料，確定3D音頻信號是基於該材料將對聲音造成的影響的。
5.如權利要求1至4中的任一項所述的方法，其特徵在於，確定該聽者在該房間中的位置包括收集圖像傳感器數據；以及基於該圖像傳感器數據確定該聽者在該房間中的位置和旋轉。
6.如權利要求1至5中的任一項所述的方法，其特徵在於，確定該聽者在該房間中的位置包括跟蹤該聽者在該房間中的位置。
7.如權利要求1至6中任一項所述的方法，其特徵在於，還包括收集該聽者的圖像傳感器數據；從該聽者的圖像傳感器數據中確定該聽者的物理特性；以及基於該聽者的物理特性從HRTF庫中為該聽者確定HRTF，確定3D音頻信號是基於針對該聽者的HRTF的。
8.如權利要求7所述的方法，其特徵在於，還包括在第一時間存儲該聽者的物理特性；在晚於第一時間的第二時間基於生物測定信息標識出該聽者，該生物測定信息不同於該聽者的物理特性；以及基於針對所標識出的聽者所存儲的物理特性從該庫中選擇HRTF。
9.如權利要求1至8中任一項所述的方法，其特徵在於，該傳感器數據包括來自該聽者上的一個或多個話筒的傳感器數據。
10.一種裝置，包括一個或多個傳感器(25，28，31，38)；處理器(32，192，101，259)，該處理器(32，192，101，259)耦合到所述一個或多個傳感器；以及耦合到該處理器的計算機可讀存儲介質(34，194，102，106，112，143，22 ，該計算機可讀存儲介質其上存儲有指令，所述指令在該處理器上執行時致使計算機使用該傳感器收集關於環境和聽者的數據；該處理器基於所收集的傳感器數據確定該環境的物理特性；該處理器基於所收集的傳感器數據確定該聽者在該環境中的位置；該處理器基於該環境的物理特性以及該聽者在該環境中的位置確定3D音頻信號的多個分量；該處理器將針對該聽者的與頭部相關的傳輸函數(HRTF)應用於所述多個分量中的每個；以及該處理器提供3D音頻信號。
全文摘要
本發明涉及用於擴展現實的高精度3維音頻的系統和方法。提供了用於提供3D音頻的技術，該3D音頻可以用於擴展的現實。3D音頻信號可以基於從聽者所在的實際房間中所採集的傳感器數據以及聽者在該房間中的實際位置來生成。該3D音頻信號可以包括基於所採集的傳感器數據和聽者的位置所確定的多個分量。例如，可以確定虛擬聲音源與聽者之間的多個(虛擬)聲音路徑。該傳感器數據可以用於估計房間中的材料，使得可以確定這些材料在聲音在沿著這些路徑傳播時可能對聲音造成的影響。在一些實施例中，傳感器數據可以用於收集聽者的物理特性，使得可以從HRTF庫中確定合適的HRTF。
文檔編號H04S3/00GK102413414SQ20111032127
公開日2012年4月11日申請日期2011年10月12日優先權日2010年10月13日
發明者A·巴-澤埃夫, J·塔迪夫, J·弗萊克斯申請人:微軟公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於擴展現實的高精度3維音頻的系統和方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法