用於合併基於幾何的空間音頻編碼流的設備和方法

2023-07-05 13:31:21 5

用於合併基於幾何的空間音頻編碼流的設備和方法
【專利摘要】本發明提供了一種用於產生合併的音頻數據流的設備。該設備包括解復用器(180)，該解復用器用於獲得多個單層音頻數據流，其中解復用器(180)適合於接收一個或更多個輸入音頻數據流，其中每個輸入音頻數據流包括一層或更多層，其中該解復用器(180)適合於將具有一層或更多層的每個輸入音頻數據流解復用成具有正好一層的兩個或更多個經解復用的音頻數據流，使得兩個或更多個的經解復用的音頻數據流合在一起包括一層或更多層的輸入音頻數據流。此外，該設備包括合併模塊(190)，該合併模塊用於基於多個單層音頻數據流來產生具有一層或更多層的合併的音頻數據流。輸入數據音頻流的、所述經解復用的音頻數據流的、單層數據流的、以及合併的音頻數據流的每個層包括壓力信號的壓力值、位置值以及散射值作為音頻數據。
【專利說明】用於合併基於幾何的空間音頻編碼流的設備和方法

【技術領域】
[0001]本發明涉及音頻處理，更具體地，涉及一種用於產生合併的音頻數據流的設備和方法。

【背景技術】
[0002]音頻處理，特別是空間音頻編碼，變得越來越重要。傳統的空間錄音目的在於捕捉聲場，使得在再現側聆聽者將聲像(sound image)視作在錄音地點的聲像。從現有技術水平得知實現空間聲音錄製和再現技術的不同方法，這些方法可基於聲道式表示、對象式表示或參數式表示。
[0003]聲道式表示(channel-based representat1n)表示利用N個離散音頻信號的聲音場景，N個離散音頻信號意味著要由以一種已知設置(例如5.1環繞聲效設置)布置的N個揚聲器回放。空間聲音錄製的方法通常採用分隔開的全向麥克風(例如，在AB立體聲中)或者一致定向麥克風(例如，在強度立體聲中)。或者，例如在高保真度立體聲響複製(Ambisonics)中，可採用更複雜的麥克風，例如B-格式麥克風，參見:
[0004][I] 「Michael A.Gerzon.Ambisonics in multichannel broadcasting andvide0.J.Aud1 Eng.Soc, 33(11):859 - 871，1985.」。
[0005]已知設置的期望揚聲器信號直接源於錄製的麥克風信號，並且然後離散地進行傳輸或儲存。通過將音頻編碼應用於離散信號來獲得更有效的表示，該音頻編碼在某些情況下為了增加效率而對不同聲道的信息聯合地編碼，例如在5.1的MPEG環繞聲(MPEG-Surround)中，參見:
[0006][21]「 J.Herre, K.KjdriiHg, J.Breebaart, C.Faller, S.Disch, H.Purnhagen, J.Koppens, J.Hilpert, J.Roden, W.0omen, K.Linzmeier, K.S.Chong:「MPEG Surround - The
IS0/MPEG Standard for Efficient and Compatible Multichannel Aud1 Coding，，，122ndAES Convent1n, Vienna, Austria, 2007, Preprint 7084.，，。
[0007]這些技術的主要缺點是:一旦已經計算了揚聲器信號，聲音場景就不能修改。
[0008]對象式表示(object-based representat1n)例如用在空間音頻對象編碼(SA0C, Spatial Aud1 Object Coding)中，參見
[0009][25] 「 Jeroen Breebaart, Jonas Lngdegiird, Cornelia Falch, Oliver
Hellmuth,Johannes Hilpert, Andreas Hoelzer, Jeroens Koppens,WernerOomen,Barbara Resch, Erik Schuijers, and Leonid Terentiev.Spatial aud1 objectcoding(saoc)-the upcoming mpeg standard on parametric object based aud1coding.1n Aud1 Engineering Society Convent1n 124, 52008.」。
[0010]對象式表示表示具有N個離散音頻對象的聲音場景。這種表示因為能夠通過改變例如每個對象的位置和響度(loudness)來操控聲音場景所以在再現側提供了高靈活性。雖然從例如多軌錄音可容易地得到這種表示，但卻很難從利用一些麥克風錄音的複合聲音場景獲得這種表示(例如，參見[21])。事實上，講話者(或其它聲音發射對象)必須首先進行定位並且然後從混合中被提取出來，這可能導致假象(artifacts)。
[0011]參數式表現(parametric representat1n)常常採用空間麥克風來確定一個或更多個音頻縮混(downmix)信號和描述空間聲音的空間側信息。一個不例是定向音頻編碼(DirAC, Direct1nal Aud1 Coding),如在以下文獻中所討論的:
[0012][29] 「Ville Pulkk1.Spatial sound reproduct1n with direct1nal aud1coding.J.Aud1 Eng.Soc, 55 (6): 503 - 516, June 2007.」。
[0013]術語「空間麥克風」指用於獲得能夠找回聲音到達方向(direct1n of arrivalof sound)的空間聲音的任何設備(例如，定向麥克風的組合、麥克風陣列等)。
[0014]術語「非空間麥克風」指不適合用於找回聲音到達方向的任何設備，例如單個全向或定向麥克風。
[0015]另一示例在下面的文獻中提出:
[0016][4] 「C.Faller.Microphone front-ends for spatial aud1 coders.1n Proc.0f the AES 125th Internat1nal Convent1n, San Francisco, Oct.2008.」。
[0017]在DirAC中，空間線索信息包括在時-頻域(time-frequency domain)中計算的聲音的到達方向(D0A, direct1n of arrival)和聲場的散射。對聲音再現而言，可基於參數描述得到音頻回放信號。因為可採用任意的揚聲器設置，因為該表示特別靈活和緊湊，因為其包括縮混單聲道音頻信號和側信息，以及因為其允許對於聲音場景的簡單修改，例如，聲學縮放(acoustic zooming)、定向濾波、場景合併等,所以這些技術在再現側提供了很大的靈活性。
[0018]然而，這些技術仍然受限制之處在於，錄製的空間聲像總是與所使用的空間麥克風相關聯。因此，聲學視點(acoustic viewpoint)無法變更且聲音場景內的聆聽位置不能改變。
[0019]一種虛擬麥克風方法在以下文獻中提出:
[0020][20] 「G1vanni Del Galdo, Oliver Thiergart, Tobias Weller, andE.A.P.Habets.Generating virtual microphone signals using geometricalinformat1n gathered by distributed arrays.1n Third Joint Workshop onHands-free Speech Communicat1n and Microphone Arrays(HSCMA^11), Edinburgh, United Kingdom, May 2011.」。
[0021]其允許計算出實際上隨意地(即，任意位置和方向)置放在環境中的任意的空間麥克風的輸出信號。虛擬麥克風(VM，virtual microphone)方法所特有的靈活性允許在後處理步驟中實際上隨意地捕捉聲音場景，但不能得到能夠用於有效地傳輸和/或儲存和/或修改聲音場景的任何聲場表示。此外，假設每個時-頻點(time-frequency bin)只有一個源是有效的，因此，如果在同一時-頻點中兩個或更多個源是有效的，則其無法正確描述聲音場景。再者，如果在接收機側應用虛擬麥克風(VM)，則所有麥克風信號需要通過聲道送出，這使表示效率低下，而如果在發射機側應用VM，則不能進一步操控聲音場景，並且該模型會喪失靈活性並變成受限於某個揚聲器設置。此外，其並不基於參數信息考慮聲音場景的操控。
[0022]在以下文獻中:
[0023][24] 「Emmanuel Gallo and Nicolas Tsingos.Extracting and re-renderingstructured auditory scenes from field recordings.1n AES30th Internat1nalConference on Intelligent Aud1 Environments, 2007，，，
[0024]聲源位置估計基於利用配置的麥克風測量的成對的到達時間差。再者，接收機取決於錄製，且需要所有麥克風信號用於合成(例如，揚聲器信號的產生)。
[0025]在以下文獻中給出的方法中:
[0026][28]「Svein Berge.Device and method for converting spatial aud1 signal.US patent applicat1n, Appl.N0.10/547,151，，，
[0027]類似於DirAC，使用到達方向作為參數，從而將表示限制於聲音場景的特定視點。此外，因為在通訊系統的同一側需要應用分析和合成兩者，所以該方法並未提出傳輸/儲存聲音場景表不的可能性。
[0028]另一個例子可以是視頻會議應用，其中在不同環境中正進行錄製的各方需要在唯一的聲音場景中回放。多點控制單元(MCU,Multipoint Control Unit)必須確保回放唯一的聲音場景。
[0029]在以下文獻中:
[0030][22] 「G.Del Galdo, F.Kuech, M.Kallinger, and R.Schultz-Amling.Efficientmerging of multiple aud1 streams for spatial sound reproduct1n in direct1nalaud1 coding.1n Internat1nal Conference on Acoustics, Speech, and SignalProcessing (ICASSP 2009)，2009.，，
[0031]和在以下文獻中:
[0032][23] 「US 20110216908!Apparatus for Merging Spatial Aud1 Streams，，，
[0033]提出了結合聲音場景的兩個或更多個參數式表示的想法。
[0034]然而，如果能提供根據兩個或更多個聲音場景表示以有效的方式來構建唯一的聲音場景，足夠靈活修改該聲音場景的一些構思，則將會是非常有利的。

【發明內容】

[0035]本發明的目的是提供用於產生合併的音頻數據流例如GAC流的改進的構思。本發明的目的是通過根據權利要求1的設備，通過根據權利要求17的方法以及通過根據權利要求18的電腦程式來解決。
[0036]根據一個實施例，提供了一種用於產生合併的音頻數據流的設備。該設備包括解復用器，該解復用器用於獲得多個單層音頻數據流，其中該解復用器適合於接收一個或更多個輸入音頻數據流，其中每個輸入音頻數據流包括一層或更多層，其中該解復用器適合於將具有一層或更多層的每個輸入音頻數據流解復用成具有正好一層的兩個或更多個的經解復用的音頻數據流，使得一個或更多個經解復用的音頻數據流合在一起包括輸入音頻數據流的一層或更多層，以提供兩個或更多個的單層音頻數據流。此外，該設備包括合併模塊，該合併模塊用於基於多個單層音頻數據流例如基於多個經解復用的單層音頻數據流來產生具有一層或更多層的合併的音頻數據流。輸入數據音頻流的、經解復用的音頻數據流的、單層數據流的、以及合併的音頻數據流的每個層包括壓力信號的壓力值、位置值以及散射值作為音頻數據。
[0037]在另一個實施例中，該設備可包括用於獲得多個單層音頻數據流的解復用器，其中解復用器適合於接收兩個或更多個輸入音頻數據流，其中每個輸入音頻數據流包括一層或更多層，其中解復用器適合於將具有兩個或更多個層的每個輸入音頻數據流解復用成具有正好一層的兩個或更多個的經解復用的音頻數據流，使得兩個或更多個經解復用的音頻數據流合在一起包括輸入音頻數據流的兩個或更多個層，以獲得兩個或更多個單層音頻數據流。此外，該設備可包括合併模塊，該合併模塊用於基於多個單層音頻數據流來產生具有一層或更多層的合併的音頻數據流。
[0038]在一個實施例中，該設備可適合於將具有正好一層的一個或更多個所接收的輸入音頻數據流直接提供至合併模塊中，而無需將它們提供至解復用器中。
[0039]輸入數據音頻流的、經解復用的音頻數據流的、單層數據流的、以及合併的音頻數據流的每個層包括壓力信號的壓力值、位置值以及散射值作為音頻數據，針對多個時-頻點的一個時-頻點來定義該音頻數據。
[0040]根據本實施例，藉助於合併兩個或更多個音頻數據流例如GAC流並且通過輸出單個音頻數據流例如單個GAC流來將兩個或更多個錄製的聲音場景合併成一個。
[0041]合併聲音場景可用在例如視頻會議應用中，其中在不同環境中正進行錄製的各方需要在唯一的聲音場景中回放。因此合併可能發生在多點控制單元(MCU，MultipointControl Unit)中，以減少網絡流量，或發生在最終用戶處以減少合成的計算成本，例如揚聲器信號的計算。
[0042]在一個實施例中，合併模塊可包括成本函數模塊,該成本函數模塊用於將成本值分配給每個單層音頻數據流，以及其中，合併模塊可適合於基於分配給單層音頻數據流的成本值來產生合併的音頻數據流。
[0043]根據另一個實施例，成本函數模塊可適合於根據單層音頻數據流的壓力值或散射值中的至少一個來將成本值分配給每個單層音頻數據流。
[0044]在另一個實施例中，成本函數模塊可適合於通過應用下述公式來將成本值分配給單層音頻數據流的群的每個音頻數據流:
[0045]= (1-Ψ^.IPiI2
[0046]其中，例如對於每個時-頻點，？1是壓力值，而Vi是單層音頻數據流的群的第i個音頻數據流的層的散射值。
[0047]根據另一個實施例，合併模塊還可包括壓力合併單元，其中，壓力合併單元可適合於確定包括多個單層音頻數據流的一個或更多個單層音頻數據流的第一群並且適合於確定包括不同的多個單層音頻數據流的一個或更多個單層音頻數據流的第二群，其中第一群的每個單層音頻數據流的成本值可大於第二群的每個單層音頻數據流的成本值，或者其中，第一群的每個單層音頻數據流的成本值可小於第二群的每個單層音頻數據流的成本值，其中，壓力合併單元可適合於產生合併的音頻數據流的一層或更多層的一個或更多個壓力值，使得第一群的每個單層音頻數據流的每個壓力值可以是合併的音頻數據流的其中一層的壓力值，並且使得第二群的單層音頻數據流的壓力值的組合可以是合併的音頻數據流的層中的其中一層的壓力值。
[0048]在另一個實施例中，合併模塊還可包括散射合併單元，其中，散射合併單元可適合於確定包括多個單層音頻數據流的一個或更多個單層音頻數據流的第三群並且適合於確定包括不同的多個單層音頻數據流的一個或更多個單層音頻數據流的第四群。第三群的每個單層音頻數據流的成本值可大於第四群的每個單層音頻數據流的成本值，或者其中，第三群的每個單層音頻數據流的成本值可小於第四群的每個單層音頻數據流的成本值，其中散射合併單元可適合於產生合併音頻數據流的一層或更多層的一個或更多個散射值，使得第三群的每個單層音頻數據流的每個散射值可以是合併的音頻數據流的層中的其中一層的散射值，並且使得第四群的單層音頻數據流的散射值的組合可以是合併的音頻數據流的層中的其中一層的散射值。
[0049]根據另一個實施例，合併模塊還可包括位置混合單元(1403)，其中位置混合單元(1403)可適合於確定包括多個單層音頻數據流的一個或更多個單層音頻數據流的第五群，其中第五群的每個單層音頻數據流的成本值可大於未包括在多個單層音頻數據流的第五群中的任何單層音頻數據流的成本值，或者其中第五群的每個單層音頻數據流的成本值小於未包括在多個單層音頻數據流的第五群中的任何單層音頻數據流的成本值。位置混合單元(1403)可適合於產生合併的音頻數據流的一層或更多層的一個或更多個位置值，使得第五群的每個單層音頻數據流的每個位置值可以是合併的音頻數據流的層中的其中一層的位置值。
[0050]在另一個實施例中，合併模塊還可包括聲音場景適配模塊，該聲音場景適配模塊用於操控多個單層音頻數據流的一個或更多個單層音頻數據流的位置值。
[0051]根據另一個實施例，聲音場景適配模塊可適合於通過對位置值應用旋轉、平移或非線性變換來操控多個單層音頻數據流的一個或更多個單層音頻數據流的位置值。
[0052]在另一個實施例中，解復用器可包括多個解復用單元，其中，每個解復用單元可配置成對一個或更多個輸入音頻數據流進行解復用。
[0053]根據另一個實施例，還設備還可包括人工聲源產生器，該人工聲源產生器用於產生包括正好一層的人工數據流，其中，人工源產生器可適合於接收在時域中表示的壓力信息，並且適合於接收位置信息，其中，人工源產生器可適合於複製壓力信息以針對多個時-頻點產生位置信息，且其中人工源產生器還可適合於基於壓力信息來計算散射信息。
[0054]在另一個實施例中，人工源產生器可適合於將在時域中表示的壓力信息變換至時-頻域。
[0055]根據另一個實施例，人工源產生器可適合於將混響(reverberat1n)增加至壓力信息。
[0056]另一個實施例允許將人工聲源插入聲音場景中。人工聲源的插入在虛擬實境和視頻遊戲類應用中特別有用，其中複合聲音場景可以由合成來源所滋生(populated)。在電訊會議場景中，在將通過單聲道通信(例如，經由行動電話的撥號)的各方結合過程中，插入是有用的。

【專利附圖】

【附圖說明】
[0057]下面將描述本發明的優選實施例，其中:
[0058]圖1例示了根據一個實施例的用於產生合併的音頻數據流的設備。
[0059]圖2a例示了根據一個實施例的基於包括涉及一個或更多個聲源的音頻數據的音頻數據流來產生至少一個音頻輸出信號的設備。
[0060]圖2b例示了根據一個實施例的用於產生包括涉及一個或更多個聲源的聲源數據的音頻數據流的設備。
[0061]圖3a_3c例示了根據不同實施例的音頻數據流。
[0062]圖4例示了根據另一個實施例的用於產生包括涉及一個或更多個聲源的聲源數據的音頻數據流的設備。
[0063]圖5例示了包括兩個聲源和兩個規格一致的線形麥克風陣列的聲音場景。
[0064]圖6a例示了根據一個實施例的基於音頻數據流產生至少一個音頻輸出信號的設備 600。
[0065]圖6b例示了根據一個實施例的用於產生包括涉及一個或更多個聲源的聲源數據的音頻數據流的設備660。
[0066]圖7描繪了根據一個實施例的修改模塊。
[0067]圖8描繪了根據另一個實施例的修改模塊。
[0068]圖9例示了根據一個實施例的發射機/分析單元和接收機/合成單元。
[0069]圖1Oa描繪了根據一個實施例的合成模塊。
[0070]圖1Ob描繪了根據一個實施例的第一合成級單元。
[0071]圖1Oc描繪了根據一個實施例的第二合成級單元。
[0072]圖11描繪了根據另一個實施例的合成模塊。
[0073]圖12例不了根據一個實施例的用於產生虛擬麥克風的音頻輸出信號的設備。
[0074]圖13例不了根據一個實施例的用於產生虛擬麥克風的音頻輸出信號的設備和方法的輸入和輸出。
[0075]圖14例不了根據一個實施例的用於產生虛擬麥克風的音頻輸出信號的設備的基本結構，該基本結構包括聲音事件位置估計器和信息計算模塊。
[0076]圖15示出了一個示例性場景，其中將真實空間麥克風均描繪成3個麥克風的規格一致的線形陣列。
[0077]圖16描繪了 3D中的用於估計在3D空間中的到達方向的兩個空間麥克風。
[0078]圖17例示了一個幾何形狀，其中，當前時-頻點(k，n)的等向性點狀聲源定位在位置 Pipls (k, η)。
[0079]圖18描繪了根據一個實施例的信息計算模塊。
[0080]圖19描繪了根據另一個實施例的信息計算模塊。
[0081]圖20示出了兩個真實空間麥克風、定位的聲音事件及虛擬空間麥克風的位置。
[0082]圖21例示了根據一個實施例的如何獲得相對於虛擬麥克風的到達方向。
[0083]圖22描繪了根據一個實施例的從虛擬麥克風的視點獲得聲音的DOA的可能方式。
[0084]圖23例示了根據一個實施例的包括散射計算單元的信息計算塊。
[0085]圖24描繪了根據一個實施例的散射計算單元。
[0086]圖25例示了一個場景，其中，聲音事件位置估計是不可能的。
[0087]圖26例示了根據一個實施例的用於產生虛擬麥克風數據流的設備。
[0088]圖27例示了根據另一個實施例的基於音頻數據流產生至少一個音頻輸出信號的設備。
[0089]圖28描繪了根據另一個實施例的用於產生合併的音頻數據流的設備的輸入和輸出。
[0090]圖29例示了根據另一個實施例的用於產生合併的音頻數據流的設備。
[0091]圖30描繪了根據一個實施例的合併模塊。
[0092]圖31a_31c描繪了可能的聲音現場場景。
[0093]圖32a_32b例示了根據實施例的人工源產生器。
[0094]圖33a_33c例示了一些場景，其中，兩個麥克風陣列接收直達聲音，牆壁所反射的聲音以及散射聲音。

【具體實施方式】
[0095]在提供本發明的實施例的詳細描述之前,將描述用於產生虛擬麥克風的音頻輸出信號的設備，以提供本發明的構思相關的背景信息。
[0096]圖12例示了用於產生用以模擬在環境中位於可配置的虛擬位置posVmic處的麥克風的錄製的音頻輸出信號的設備。該設備包括聲音事件位置估計器110和信息計算模塊120。聲音事件位置估計器110接收來自第一真實空間麥克風的第一方向信息dil和來自第二真實空間麥克風的第二方向信息di2。聲音事件位置估計器110適合於估計表示聲源在環境中的位置的聲源位置ssp，聲源發射聲波，其中聲音事件位置估計器110適合於基於第一方向信息dil與第二方向信息di2來估計聲源位置ssp,其中第一方向信息dil是由設置在環境中的第一真實麥克風位置poslmic處的第一真實空間麥克風所提供，而第二方向信息di2是由設置在環境中的第二真實麥克風位置處的第二真實空間麥克風所提供。信息計算模塊120適合於基於由第一真實空間麥克風所錄製的第一錄製音頻輸入信號isl，基於第一真實麥克風位置poslmic以及基於虛擬麥克風的虛擬位置posVmic來產生音頻輸出信號。信息計算模塊120包括傳播補償器，該傳播補償器適合於通過修改第一錄製音頻輸入信號isl來產生第一修改的音頻信號，以獲得音頻輸出信號，所述修改第一錄製音頻輸入信號isl是通過補償在第一真實空間麥克風處的聲源所發出的聲波的抵達與在虛擬麥克風處的聲波的抵達之間的第一延遲或振幅衰減來進行，所述補償是通過調整第一錄製音頻輸入信號isl的振幅值、大小值或相位值來進行。
[0097]圖13例示了根據一個實施例的設備和方法的輸入和輸出。將來自兩個或更多個真實空間麥克風111、112、…、IlN的信息提供至該設備/通過該方法進行處理。該信息包括真實空間麥克風所拾取的音頻信號和來自真實空間麥克風的方向信息，例如，到達方向(DOA)估計。可在時-頻域中表示音頻信號和例如到達方向估計的方向信息。如果例如期望2D幾何重建並且為了信號的表示而選擇傳統STFT(短時傅立葉變換，short time Fouriertransformat1n)域,則DOA可能根據k和η,即，頻率和時間指數(index)表示成方位角(azimuth angle)。
[0098]在多個實施例中，可基於共同坐標系統中的真實空間麥克風和虛擬空間麥克風的位置和方向來進行空間中的聲音事件定位和對虛擬麥克風的位置的描述。該信息能夠通過圖13中的輸入121...12Ν和輸入104表示。輸入104可附加地指明虛擬空間麥克風的特徵，例如，如將在下面所討論的，其位置和拾取模式。如果虛擬空間麥克風包括多個虛擬傳感器，則可以考慮它們的位置和相應的不同拾取模式。
[0099]該設備或相應的方法的輸出在需要時可以是一個或更多個聲音信號105,這些聲音信號105可以已由如104所指明的來限定並放置的空間麥克風所拾取。此外，該設備(或者說方法)可提供相應的空間側信息106作為輸出，該相應的空間側信息106可通過採用虛擬空間麥克風來估計。
[0100]圖14例示了根據一個實施例的設備，該設備包括兩個主要處理單元，聲音事件位置估計器201和信息計算模塊202。聲音事件位置估計器201可基於輸入111...IlN中所包括的DOA並且基於真實空間麥克風的位置和方向的知識來進行幾何的重建，這裡已計算了 D0A。聲音事件位置估計器205的輸出包括聲源的位置估計(在2D中或在3D中)，其中針對每個時間和頻率點產生聲音事件。第二處理塊202是信息計算模塊。根據圖14的實施例，第二處理塊202計算虛擬麥克風信號和空間側信息。因此，第二處理塊202還稱為虛擬麥克風信號和側信息計算塊202。虛擬麥克風信號和側信息計算塊202使用聲音事件的位置205來處理111...IlN中所包括的音頻信號以輸出虛擬麥克風音頻信號105。如果需要的話，塊202還可計算與虛擬空間麥克風對應的空間側信息106。以下的實施例例示了塊201和202會如何操作的可能性。
[0101]下面，更詳細地描述根據一個實施例的聲音事件位置估計器的位置估計。
[0102]根據問題的維數(2D或3D)和空間麥克風的數目，可能有幾個位置估計的解決方案。
[0103]如果在2D中存在兩個空間麥克風，則(最簡單的可能情況)簡單的三角測量是可能的。圖15示出了一個示例性場景，其中真實空間麥克風均描繪成3個麥克風的規格一致的線形陣列(ULA, Uniform Linear Array)。針對時-頻點(k, η)來計算表示成方位角al (k, η)和a2 (k, η)的D0A。這是通過將適當的DOA估計器例如ESPRIT (參見下列文獻
[13])或(根(root))MUSIC(參見下列文獻[14])應用於變換至時-頻域的壓力信號來實現。
[0104][13] 「R.Roy, A.Paulraj, and Τ.Kailath, 〃Direct1n_of-arrival estimat1nby subspace rotat1n methods - ESPRIT, 〃in IEEE Internat1nal Conference onAcoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986，，，；
[0105][14] 「R.Schmidt, 「Multiple emitter locat1n and signal parameterestimat1n, 」 IEEE Transact1ns on Antennas and Propagat1n, vol.34, n0.3, pp.276-280，1986」。
[0106]在圖15中，例示了兩個真實空間麥克風，這裡指，兩個真實空間麥克風陣列410、420。兩個估計的DOA al (k, η)和a2 (k, η)通過兩條線表示,第一線430表示DOA al (k, η),而第二線440表示DOA a2(k，n)。已知每個陣列的位置和方向，通過簡單的幾何的考慮，三角測量是可能的。
[0107]當兩條線430、440正好平行時，三角測量失敗。然而，在實際應用中，這種情況不大可能。然而，並非所有三角測量結果都會對應於在所考慮的空間中的聲音事件的物理位置或可行位置。例如，聲音事件的估計位置可能是太遠或甚至在假設的空間之外，表示DOA可能並不對應於能夠用所使用的模型物理地解釋的任何聲音事件。這種結果可能是傳感器噪音或太強大的房間混響所導致。因此，根據一個實施例，對這種不希望的結果進行標記，使得信息計算模塊202能夠對它們進行適當地處理。
[0108]圖16描繪了一個場景，其中在3D空間中估計聲音事件的位置。採用了合適的空間麥克風，例如，平面或3D麥克風陣列。在圖16中，例示了第一空間麥克風510 (例如，第一3D麥克風陣列)和第二空間麥克風520 (例如，第一 3D麥克風陣列)。3D空間中的DOA可例如表示成方位角和仰角(elevat1n)。可採用單位向量530、540以表示D0A。根據DOA來投射兩條線550、560。在3D中，即使有很可靠的估計，根據DOA所投射的兩條線550、560仍可能不相交。然而，仍然可例如通過選擇連接兩條線的最小段的中點來進行三角測量。
[0109]類似於2D的情況，三角測量可能失敗或可能對於方向的某些組合產生不可行的結果，那麼也可將這樣的情況進行標記，例如標記到圖14的信息計算模塊202。
[0110]如果存在兩個或更多個空間麥克風，則可以有幾個解決方案。例如，可以針對所有的真實空間麥克風對(如果N = 3，則I與2，I與3，以及2與3)來執行上面所解釋的三角測量。然後可對得到的位置取平均(沿著X和y，且如果考慮3D的話，沿著z)。
[0111]可選地，可使用更複雜的構思。例如，可能應用概率的方法，如在下面的文獻中所描述的:
[0112][15] 「J.Michael Steele, ^Optimal Triangulat1n of Random Samples in thePlane", The Annals of Probability, Vol.10, N0.3 (Aug., 1982), pp.548-553.」。
[0113]根據一個實施例，可在例如經由短時傅立葉變換(STFT)獲得的時-頻域中分析聲場，其中k和η分別表示頻率指數k和時間指數η。針對特定的k和η,在任意位置pv的複合壓力 Pv(k, η)是模仿成窄帶等向性點狀源(narrow-band isotropic point-like source)所發射的例如通過採用下述公式的單個球面波:
[0114]Pv (k, n) = Pipls (k, η).Y (k, pIPLS (k, η), ρν), (I)
[0115]其中，Pms(k，η)是IPLS在其位置pms(k，η)所發射的信號。複合因子Y (k, Pipls, pv)表示從Pms (k, η)至Pv的傳播,例如,其引入適當的相位和大小修改。在此，可假設，在每個時-頻點中，只有一個IPLS是有效的。然而，位於不同位置的多個窄帶IPLS在單個時間瞬間也可以是有效的。
[0116]每個IPLS不是模仿直達聲音就是模仿不同的房間反射。其位置pms(k，n)理論上可分別對應於位於房間內的實際聲源，或位於外部的鏡像聲源。因此，位置Pms (k，η)也可表不聲音事件的位置。
[0117]請注意術語「真實聲源」表示在錄製環境中物理上存在的實際聲源，例如講話者或樂器。相反，對於「聲源」或「聲音事件」或「 IPLS」，我們指有效聲源，它們在某些時間瞬間或在某些時-頻點是有效的，其中聲源例如可表示真實聲源或鏡像源。
[0118]圖33a_33b例示了對聲源進行定位的麥克風陣列。被定位的聲源根據它們的性質可具有不同的物理解釋。當麥克風陣列接收直達聲音時，它們可能夠定位真實聲源(例如，講話者)的位置。當麥克風陣列接收反射時，它們可定位鏡像源的位置。鏡像源也是聲源。
[0119]圖33a例示了一個場景，其中，兩個麥克風陣列151和152接收來自實際聲源153 (物理上存在的聲源)的直達聲音。
[0120]圖33b例示了一個場景，其中兩個麥克風陣列161、162接收反射的聲音，其中聲音已被牆壁反射。由於反射，麥克風陣列161、162將聲音似乎來自的位置定位在鏡像源165的位置，此位置不同於揚聲器163的位置。
[0121]圖33a的實際聲源153和鏡像源165兩者都是聲源。
[0122]圖33c例示了一個場景，其中，兩個麥克風陣列171、172接收散射聲音並且不能對聲源進行定位。
[0123]雖然這種單波模型只對假定源信號滿足W-分離正交(WDO，w-dis jointorthogonality)條件(即，時-頻重迭足夠小)的輕度混響環境是正確的。但這對於語音信號而言通常是正確的，例如，參見:
[0124][12] 「S.Rickard and Z.Yilmaz，"0n the approximate ff-disjointorthogonality of speech, 〃in Acoustics, Speech and Signal Processing, 2002.1CASSP2002.1EEE Internat1nal Conference on, April 2002，vol.L，，。
[0125]然而，此模型也提供對其它環境的良好估計，並因此也適合於那些環境。
[0126]以下，解釋了根據實施例的位置pms (k，η)的估計。基於在至少兩個不同觀察點測得的聲音的到達方向(DOA)經由三角測量來估計在某個時-頻點中有效的IPLS的位置Pipls (k, η),從而,估計了時-頻點中的聲音事件。
[0127]圖17例示了一種幾何形狀,其中，當前時-頻隙(time-frequency slot) (k, η)的IPLS位於未知位置Pms (k, η)。為了確定需要的DOA信息,採用具有已知的幾何形狀、位置及方向的兩個真實空間麥克風，這裡是兩個麥克風陣列，它們分別放置在位置610和620。向量？1和？2分別指向位置610、620。陣列方向是由單位向量C1和C2來定義。使用例如如DirAC分析(參見[2]、[3])所提供的DOA估計算法針對每個(k，η)在位置610和620確定聲音的DOA0由此,可提供相對於麥克風陣列的視點的第一視點單位向量ef°vik，n)和第二視點單位向量(k, η)(兩者都未在圖17中示出)作為DirAC分析的輸出。例如，當在2D中操作時，第一視點單位向量變成:
[0128]
Pm" 、 Γ., /I)}^ _
€?ι (A., n) —./".?、.(2)

SinirTdf,', ft))\ ^ t
[0129]這裡，如圖17所描繪的，Ip1 ( k，n )表示在第一麥克風陣列處估計的DOA的方位角。相對於在原點的全局坐標系統，相應的DOA單位向量ei (k, η)和62(1^]1)可通過應用下述公式來計算:
e](h\ n) = R\ - e!|<n (k.ι?).
[0130].€2(1%.".) = Λ_>.p.%.(k, 〃).《3 )
[0131]其中，R是坐標變換矩陣，例如，
[0132]?I 卜r —'''."1.Lrj r1--J(4)
[0133]當在2D中操作並且C1= [Cl,x，Cl,y]T時。為了執行三角測量，方向向量Cl1 (k，η)和d2(k，n)可計算為:
d\ (k.11) -:= d\ (k.11) e j (Zr.η).
[0134]cl-j(A., u):- - η) e_?(A..?).( 5 )
[0135]其中，(I1(k, η) = | d^, η) | | 和 d2k, η) = | d2k, η) | | 是在 IPLS 與兩個麥克風陣列之間的未知距離。下述方程式
[0136]P^d1 (k, n) =p2+d2(k，n) (6)
[0137]可能解出(I1 (k, η)。最後,通過下述方程式給出IPLS的位置pms (k, η):
[0138]pIPLS (k, n) = (I1 (k, n)e1(k, n)+P1.(7)
[0139]在另一個實施例中，方程式(6)可能解出d2(k，n)，並且採用d2(k，n)類似地計算
Pipls (k，η)。
[0140]除非ei(k，n) e2(k, η)平行，否則，當在2D中操作時，方程式(6)總會提供解。然而，當使用超過兩個的麥克風陣列時或當在3D中操作時，在方向向量d不相交時不能獲得解。根據一個實施例，在這種情況下，計算最靠近所有方向向量d的點，並且結果可用作IPLS的位置。
[0141]在實施例中，所有觀察點Pl、p2、…應定位成使得IPLS所發射的聲音落入相同的時間塊η中。當任意兩個觀察點之間的距離△小於下述方程式時，可簡單地滿足該要求。

【權利要求】
1.一種用於產生合併的音頻數據流的設備，包括: 解復用器(180)，所述解復用器用於獲得多個單層音頻數據流，其中所述解復用器(180)適合於接收一個或更多個輸入音頻數據流，其中每個所述輸入音頻數據流包括一層或更多層，其中所述解復用器(180)適合於將具有一層或更多層的每個所述輸入音頻數據流解復用成具有正好一層的兩個或更多個經解復用的音頻數據流，使得所述兩個或更多個經解復用的音頻數據流合在一起包括所述輸入音頻數據流的一層或更多層，以獲得兩個或更多個所述單層音頻數據流；以及合併模塊(190)，所述合併模塊用於基於多個所述單層音頻數據流來產生具有一層或更多層的所述合併的音頻數據流，其中，所述輸入數據音頻流的、所述經解復用的音頻數據流的、所述單層數據流的、以及所述合併的音頻數據流的每個層包括壓力信號的壓力值、位置值以及散射值作為音頻數據。
2.根據權利要求1所述的設備，其中，所述解復用器(180)適合於接收兩個或更多個所述輸入音頻數據流，並且其中所述解復用器(180)適合於將具有兩個或更多個層的每個所述輸入音頻數據流解復用成具有正好一層的兩個或更多個經解復用的音頻數據流，使得所述兩個或更多個經解復用的音頻數據流合在一起包括所述輸入音頻數據流的兩個或更多個層，以獲得所述兩個或更多個所述單層音頻數據流。
3.根據權利要求1或2所述的設備，其中，針對多個時-頻點中的一個時-頻點來限定所述音頻數據。
4.根據權利要求1至3中的一項所述的設備，其中，所述合併模塊(190)包括成本函數模塊(1401)，所述成本函數模塊用於將成本值分配給每個所述單層音頻數據流，以及其中，所述合併模塊(190)適合於基於分配給所述單層音頻數據流的成本值來產生所述合併的音頻數據流。
5.根據權利要求4所述的設備，其中，所述成本函數模塊(1401)適合於根據所述單層音頻數據流的壓力值或散射值中的至少一個來將所述成本值分配給每個所述單層音頻數據流。
6.根據權利要求5所述的設備，其中，所述成本函數模塊(1401)適合於通過應用下述公式來將所述成本值分配給單層音頻數據流的群的每個音頻數據流:
^(Ψ?,Ρ?) = (1-Ψ?).PiI2 其中，Pi是壓力值，而Vi是單層音頻數據流的群的第i個音頻數據流的層的散射值。
7.根據權利要求4至6中的一項所述的設備，其中，所述合併模塊(190)還包括壓力合併單元(1404)，其中，所述壓力合併單元(1404)適合於確定包括多個所述單層音頻數據流的一個或更多個單層音頻數據流的第一群並且適合於確定包括不同的多個所述單層音頻數據流的一個或更多個單層音頻數據流的第二群，其中，所述第一群的每個所述單層音頻數據流的成本值大於所述第二群的每個所述單層音頻數據流的成本值，或者其中，所述第一群的每個所述單層音頻數據流的成本值小於所述第二群的每個所述單層音頻數據流的成本值，其中，所述壓力合併單元(1404)適合於產生所述合併的音頻數據流的一層或更多層的一個或更多個壓力值，使得所述第一群的每個所述單層音頻數據流的每個壓力值是所述合併的音頻數據流的層中的其中一層的壓力值，並且使得所述第二群的所述單層音頻數據流的壓力值的組合是所述合併的音頻數據流的層中的其中一層的壓力值。
8.根據權利要求4至7中的一項所述的設備，其中，所述合併模塊(190)還包括散射合併單元(1405)，其中，所述散射合併單元(1405)適合於確定包括多個所述單層音頻數據流的一個或更多個單層音頻數據流的第三群並且適合於確定包括不同的多個所述單層音頻數據流的一個或更多個單層音頻數據流的第四群，其中，所述第三群的每個所述單層音頻數據流的成本值大於所述第四群的每個所述單層音頻數據流的成本值，或者其中，所述第三群的每個所述單層音頻數據流的成本值小於所述第四群的每個所述單層音頻數據流的成本值，其中，所述散射合併單元(1405)適合於產生所述合併的音頻數據流的一層或更多層的一個或更多個散射值，使得所述第三群的每個所述單層音頻數據流的每個散射值是所述合併的音頻數據流的層中的其中一層的散射值，並且使得所述第四群的所述單層音頻數據流的散射值的組合是所述合併的音頻數據流的層中的其中一層的散射值。
9.根據權利要求3至8任意一項所述的設備，其中，所述合併模塊(190)還包括位置混合單元，其中，所述位置混合單元(1403)適合於確定包括多個所述單層音頻數據流的一個或更多個單層音頻數據流的第五群，其中，所述第五群的每個所述單層音頻數據流的成本值大於未包括在所述多個所述單層音頻數據流的第五群中的任何單層音頻數據流的成本值，或者其中，所述第五群的每個所述單層音頻數據流的成本值小於未包括在所述多個單層音頻數據流的第五群中的任何單層音頻數據流的成本值，其中，所述位置值單元適合於產生所述合併的音頻數據流的一層或更多層的一個或更多個位置值，使得所述第五群的每個所述單層音頻數據流的每個位置值是所述合併的音頻數據流的層中的其中一層的位置值。
10.根據權利要求3至9中的一項所述的設備，其中，所述合併模塊(190)還包括聲音場景適配模塊(1402)，所述聲音場景適配模塊用於操控多個單層音頻數據流的一個或更多個單層音頻數據流的位置值。
11.根據權利要求10項所述的設備，其中，所述聲音場景適配模塊(1402)適合於通過對所述位置值應用旋轉、平移或非線性變換來操控多個單層音頻數據流的一個或更多個單層音頻數據流的位置值。
12.根據上述權利要求中任意一項所述的設備，其中，所述解復用器(180)適合於通過將所述經解復用的音頻數據流的其中一個的壓力值中的其中一個的大小乘以標量值，來修改所述大小。
13.根據上述權利要求中任意一項所述的設備，其中，所述解復用器(180)包括多個解復用單元(1201)，其中，每個所述解復用單元(1201)配置成對一個或更多個輸入音頻數據流進行解復用。
14.根據上述權利要求中任意一項所述的設備，其中，所述設備還包括人工源產生器(1202)，所述人工源產生器用於產生包括正好一層的人工數據流，其中，所述人工源產生器(1202)適合於接收在時域中表示的壓力信息，並且適合於接收位置信息，其中，所述人工源產生器(1202)適合於複製所述壓力信息以針對多個時-頻點產生位置信息，以及其中，所述人工源產生器(1202)還適合於基於所述壓力信息來計算散射信息。
15.根據權利要求14所述的設備，其中，所述人工源產生器(1202)適合於將在時域中表示的所述壓力信息變換至時-頻域。
16.根據權利要求14所述的設備，其中，所述人工源產生器(1202)適合於將混響增加至所述壓力信息。
17.一種用於產生合併的音頻數據流的方法，包括: 獲得多個單層音頻數據流，其中解復用器適合於接收一個或更多個輸入音頻數據流，其中每個輸入音頻數據流包括一層或更多層，其中所述解復用器適合於將具有一層或更多層的每個所述輸入音頻數據流解復用成具有正好一層的兩個或更多個的經解復用的音頻數據流，使得所述兩個或更多個經解復用的音頻數據流合在一起包括所述輸入音頻數據流的一層或更多層，以獲得兩個或更多個所述單層音頻數據流；以及基於多個所述單層音頻數據流來產生具有一層或更多層的所述合併的音頻數據流，其中，所述輸入數據音頻流的、所述經解復用的音頻數據流的、所述單層數據流的、以及所述合併的音頻數據流的每個層包括壓力信號的壓力值、位置值以及散射值作為音頻數據，針對多個時-頻點中的一個時-頻點來限定所述音頻數據。
18.一種電腦程式，所述電腦程式在計算機或信號處理器上執行時實施權利要求17所述的方法。
【文檔編號】G10L19/008GK104185869SQ201280067983
【公開日】2014年12月3日申請日期:2012年11月30日優先權日:2011年12月2日
【發明者】吉奧範尼·德加爾多, 奧利弗·蒂爾加特, 于爾根·赫勒, 法比安·屈希, 埃馬努埃爾·哈貝特斯, 亞歷山德拉·克勒瓊, 阿希姆·孔茨申請人:弗蘭霍菲爾運輸應用研究公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於合併基於幾何的空間音頻編碼流的設備和方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法