2d或3d會議場景中的講話者的部署的製作方法

2023-12-07 22:11:11 2

2d或3d會議場景中的講話者的部署的製作方法
【專利摘要】本文檔涉及設置並且管理用於音頻會議的二維或三維場景。描述了會議控制器(111,175)，該會議控制器(111,175)被配置為將與會議參加者相關聯的上遊音頻信號(123,173)部署在將被呈現給收聽者(211)的2D或3D會議場景內。在會議場景內設置具有X個不同空間講話者位置(212)的X點會議場景，其中，X個講話者位置(212)被定位在收聽者的頭部前面的圍繞中線(215)的圓錐體內。該圓錐體的母線(216)和中線(215)形成小於或等於預定最大圓錐角的角度。將上遊音頻信號(123,173)分配到講話者位置(212)之一，並且產生識別所分配的講話者位置(212)的元數據，從而使得能夠實現空間化音頻信號。
【專利說明】2D或3D會議場景中的講話者的部署
[0001]相關申請的交叉引用
[0002]本申請要求2012年3月23日提交的美國專利臨時申請N0.61/614，592的優先權，該申請的全部內容通過引用併入此。

【技術領域】
[0003]本文檔涉及音頻會議。特別地，本文檔涉及用於設置並且管理用於音頻會議的二維或三維場景的方法和系統。

【背景技術】
[0004]當前多方語音(voice)會議中的缺陷之一是語音典型地作為單耳音頻流被全部(基本上相互覆蓋)呈現給收聽者，並且當使用耳機時，通常「在頭部內」呈現給收聽者。用於例如模擬不同人從不同呈現位置說話的空間化技術可以改進特別是當有多個人在講話時的語音會議中的言語的可懂度。本文檔解決了設計合適的用於音頻會議的二維(2D)或三維(3D)場景的技術問題，該設計使得收聽者可以容易地區分音頻會議的不同講話者。此夕卜，描述了用於用參加者和/或系統聲音(例如，通知或背景音樂)填充2D或3D會議場景的方案，這些方案使得當加入新的參加者時和/或當將系統聲音插入到會議場景中時可以減小對進行中的音頻會議的影響。另外，描述了合適的用於在各種呈現裝置(諸如耳機和/或擴音器構造)上呈現會議場景的方案。

【發明內容】

[0005]根據一方面，描述一種會議控制器，該會議控制器被配置為將與會議參加者相關聯的上遊音頻信號部署在2D或3D會議場景內。會議場景將被呈現給收聽者。典型地，收聽者定位在會議場景的中心位置處(例如，如果會議場景被建模為圓或球體，則定位在圓或球體的中心)。上遊音頻信號可以是在會議參加者的終端(例如，計算裝置或電話裝置)處產生的音頻信號。因而，上遊音頻信號典型地包括會議參加者的言語(speech)信號。由於這個原因，上遊音頻信號也可以被稱為講話者音頻信號。會議控制器可以定位在通信網絡內(的中心位置處)(例如，在所謂的集中式會議架構中)，和/或會議控制器可以定位在會議參加者的終端處(例如，在所謂的分布式會議架構中)。在使用2D或3D呈現系統的情況下，會議控制器也可以被稱為場景管理器。會議控制器可以使用計算裝置(例如，伺服器)來實現。
[0006]會議控制器可以被配置為設置X點會議場景，在該會議場景內有X個不同空間講話者位置，X是整數，x>0(例如，X>1，特別地，X = 1，2，3，4，5，6，7，8或10)。在這個背景下，會議控制器可以被配置為基於本文檔中描述的會議場景設計規則中的一個或多個來計算具有X個不同空間講話者位置的X點會議場景。一個這樣的設計規則可以例如是，X個講話者位置定位在圍繞收聽者的頭部前面的中線的圓錐體內。其他設計規則可以與X個講話者位置的角間距相關。可替代地或另外地，會議控制器可以被配置為從包括預定揚聲器位置的預定會議場景的集合中選擇具有X個不同空間講話者位置的X點會議場景。舉例來說，所述集合可以包括具有X個不同的預定空間講話者位置的一個或多個預定X點會議場景。因而，X點會議場景可以是具有X個預定揚聲器位置的預定X點會議場景。
[0007]會議控制器可以被配置為設置不同會議場景(例如，具有被不同地部署的講話者位置的不同X點會議場景和/或具有不同X值的會議場景)。X點會議場景的X個講話者位置定位在圍繞收聽者的頭部前面的中線的圓錐體內。該中線可以是如下假想線，該假想線從收聽者的耳朵之間的假想線上的中間點開始，並且在收聽者的頭部的前面垂直於收聽者的耳朵之間的假想線延伸。圓錐體的母線和中線形成小於或等於預定的最大圓錐角的(絕對)角度。根據圓錐體的總體(populat1n)，該最大圓錐角可以優選地為30°，或者更窄，諸如20°，或者甚至15°。
[0008]會議控制器被進一步配置為將上遊音頻信號分配到X個講話者位置之一。通過將上遊音頻信號分配到會議場景內的特定講話者位置，會議控制器使得呈現裝置(例如，會議場景的收聽者的終端)能夠如同上遊音頻信號源出於該特定講話者位置一樣呈現上遊音頻信號。為了這個目的，會議控制器被配置為產生元數據，該元數據識別所分配的講話者位置並且使得音頻處理單元(在收聽者的終端處)能夠基於上遊音頻信號產生空間化音頻信號。當將空間化音頻信號呈現給收聽者時，收聽者將感知上遊音頻信號來自所分配的講話者位置。音頻處理單元可以定位在收聽者的終端內、或者處理音頻流的中心音頻伺服器中。空間化音頻信號可以是例如在收聽者的終端處的耳機或擴音器上呈現的雙耳音頻信號。可替代地或另外地，空間化音頻信號可以是多聲道(環繞聲)信號，例如，5.1或7.1多聲道信號。
[0009]可以將X個講話者位置部署在如下的圓或球體上，其中收聽者部署在該圓或球體的中心。可替代的會議場景可以包括被部署在橢圓或橢圓體上的講話者位置。收聽者不一定需要被部署在中心。舉例來說，為了模擬圍繞桌子的會議，其中，該會議包括會議參加者和收聽者，可以將收聽者部署在形成會議場景的幾何形狀的邊緣處，例如，圓或球體、或者橢圓或橢圓體的邊緣處。在後一種情況下(以及在收聽者被部署在橢圓或橢圓體的中心的情況下)，X個講話者位置與收聽者之間的距離將根據講話者位置而不同。
[0010]X個講話者位置中的兩個相鄰講話者位置可以相隔至少最小角距。最小角距可以是5°或更大。以上提及的條件可以由X個講話者位置中的所有相鄰講話者位置對來滿足。最小角距使得收聽者可以清楚地區分從不同講話者位置呈現的上遊音頻信號。X個講話者位置中的相鄰講話者位置之間的角距對於不同講話者位置可以是不同的。舉例來說，X個講話者位置中的相鄰講話者位置之間的角距可以隨著這些相鄰講話者位置離中線的距離增大而增大。通過這樣做，可以考慮變化的收聽者區分來自不同角度的聲音的源的能力。
[0011]X個講話者位置可以相對於中線是不對稱的。這可在為了避免當將會議場景呈現給收聽者時的影像效應方面是有益的。然而，如果X是奇數，則X個講話者位置可以相對於X個講話者位置中的中心講話者位置是對稱的；其中，中心講話者位置典型地不位於中線上。通過使用講話者位置相對於中心講話者位置的對稱性，可以實現收聽者的左耳與右耳之間的會議場景的平衡。
[0012]如果X是偶數，則X個講話者位置中的一半可以在中線的一側或穿過中線的垂直平面的一側，並且X個講話者位置中的另一半可以在中線的另一側或穿過中線的垂直平面的另一側。如果X是奇數，則X個講話者位置中的(X-l)/2個講話者位置可以在中線或該垂直平面的一側，(X+D/2個講話者位置可以在中線或該垂直平面的另一側。該條件的目標是平衡的會議場景。
[0013]X個講話者位置可以定位在從收聽者的頭部射出的X個射線上，其中，這些X個射線分別與中線形成X個講話者角度。一個方向上的與中線形成的講話者角度可以是正的，相反方向上的與中線形成的講話者角度可以是負的。X個講話者角度的和可以不同於零。然而，講話者角度的和可以小於或等於2°。因而，會議場景可以相對於會議場景的中線稍不對稱，同時足夠平衡。
[0014]應指出，會議場景的加載可以稍不平衡，並且根據中心線的哪一側首先被填充，可以趨向於「偏向」場景的一側(即，從收聽者的頭部前面的中線偏向一個方向)。開始朝著收聽者將自然地使用其打電話的一側填充場景可能更加自然。該側典型地是與收聽者用其寫字的手相反的一側。例如，慣用右手的人用他/她的左手拿電話，並且用於在左側(即，用他/她的左側耳朵)聆聽單聲道流。用戶偏好可被用於通知場景管理者(例如，定位在終端或端點處)。此外，可以詢問附加附件以確定收聽者的用手習慣，諸如對於計算機的滑鼠設置。
[0015]因而，會議控制器可以被配置為確定收聽者的優選側，其中，優選側可以是相對於收聽者的頭部前面的中線的左側或右側。為了這個目的，會議控制器可以被配置為從收聽者的終端接收關於優選側的指示。關於優選側的指示可以基於收聽者的終端處的偏好設置(例如，滑鼠設置)。收聽者的優選側可以與收聽者的左手性/右手性相關。如以上所指示的，慣用左手的收聽者典型地具有優選右側，慣用右手的收聽者典型地具有優選左側。會議控制器可以被配置為將傳入的音頻信號分配到在收聽者的優選側的X個講話者位置之一，例如，收聽者的優選側的最中心的講話者位置。
[0016]在實施例中，X = 3，並且X個講話者位置定位為與中線大致成-2°、+6°和-10°的講話者角度。在另一實施例中，X = 6，並且X個講話者位置定位為與中線大致成-2°、+3°、-7°、+8°、-12°和+13°的講話者角度。在優選實施例中，X = 6，並且X個講話者位置定位為與中線大致成+2°、-5。、+9°、-12°、+16°和-19°的講話者角度。
[0017]典型地，會議控制器被配置為將與多個會議參加者相關聯的多個上遊音頻信號部署在X點會議場景內。因而，可以使得會議場景的收聽者能夠感知來自會議場景內的不同的(多達X個不同的)空間位置的多個上遊音頻信號。會議控制器可以被配置為根據所述多個上遊音頻信號的順序次序將所述多個上遊音頻信號分配到X個講話者位置。順序次序可以是指會議控制器用於將上遊音頻信號部署在會議內的等待線。可替代地或另外地，所述多個上遊音頻信號的順序次序可以基於會議控制器對於所述多個上遊音頻信號的檢測次序。換句話講，所述多個上遊音頻信號的順序次序可以與不同會議參加者撥進音頻會議的次序相關聯，從而影響會議控制器檢測相應的上遊音頻信號的順序次序。首要的、最中心的位置可以為會議呼叫的會議組織者或主席保留，會議組織者或主席通過來自源端點(例如，來自會議組織者或主席的終端)的元數據被識別。因此，即使其他會議參加者在主席之前到達會議，也不可能為這些會議參加者分配場景中的優質位置。因而，會議控制器可以被配置為對於來自特定終端(例如，來自組織者/主席的終端)的特定上遊音頻信號保留X個講話者位置之一。所保留的講話者位置可以是最中心的講話者位置。
[0018]會議控制器可以被配置為按相對於中線的絕對角距增大的次序分配X個講話者位置。換句話講，會議控制器可以將第一上遊音頻信號分配到最中心的講話者位置，將第二上遊音頻信號分配到次最中心的講話者位置，依此類推，直到到達最外側講話者位置為止。在將多個上遊音頻信號中的上遊音頻信號分配到X個講話者位置中的最外側講話者位置的條件下，會議控制器可以被配置為將多個上遊音頻信號中的下一個上遊音頻信號分配給X個講話者位置中的最內側(也被稱為最中心的)講話者位置。
[0019]因此，會議控制器可以被配置為將多個上遊音頻信號中的多個上遊音頻信號分配到X個講話者位置中的至少一個。會議控制器可以被配置為特別是在將被部署在會議場景內的上遊音頻信號的數量(M-ι)大於講話者位置的數量X的情況下這樣做。如果圓錐體總體超過X個講話者位置，則如果正在使用3D會議場景(以及收聽者的終端處的3D呈現引擎)，則可以在場景內部署的附加的垂直的講話者層。例如，前6個參加者可被分配到O度標高(在耳朵水平面處)的6個講話者位置，接下來的6個參加者可被分配與前6個參加者相同的方位角，但是位於例如8°的標高。數量M可以是活躍會議參加者的總數量，I是特定會議場景的收聽者，其他(M-1)是將被部署在X點會議場景內的X個講話者位置上的講話者。在多個上遊音頻信號分配到同一講話者位置的情況下，會議控制器可以被配置為發起分配到同一講話者位置的多個上遊音頻信號的混合，從而產生將在該講話者位置處呈現的混合音頻信號。上遊音頻信號的實際混合可以由音頻伺服器(包括例如數位訊號處理器)執行，或者在收聽者的端點(即，終端)處的音頻呈現引擎內執行。音頻伺服器可以與會議控制器分開。
[0020]特別地，如果將被部署在會議場景內的上遊音頻信號的數量(M-1)小於或等於X，則會議控制器可以被配置為將多個上遊音頻信號中的每一個分配到X個講話者位置中的不同的講話者位置。典型地，僅將一個上遊音頻信號分配到X個講話者位置中的單個講話者位置。在某些情況下，可以將單個流分配到兩個相鄰的講話者位置，以便創建空間擴展。
[0021]會議控制器可以被配置為根據以下部署規則中的一個或多個來部署多個上遊音頻信號。第一部署規則可以是將多個上遊音頻信號中的下一個上遊音頻信號分配到X個講話者位置中的如下講話者位置，其中，所述講話者位置尚未被分配，並且其中所述講話者位置儘可能地靠近中線。換句話講，優選的是，將專用講話者位置提供給上遊音頻信號(即，會議參加者)，和/或優選的是，將上遊音頻信號儘可能靠近地分配到會議場景的中線。第二部署規則可以是確保所分配的講話者位置相對於中線和/或相對於X個講話者位置中的最中心講話者位置的最大平衡。換句話講，可優選的是，確保圍繞會議場景的中線以平衡的方式分配被分配的上遊音頻信號。第三部署規則可以是重新分配X個講話者位置中的空的講話者位置，其中，所述空的講話者位置因多個上遊音頻信號中的已經分配的上遊音頻信號的中斷而變成空的。中斷可以例如是會議參加者離開會議場景，或者參加者沒有說話，或者被降級為只能收聽。這可以由會議控制器通過從已經離開會議場景的會議參加者的終端接收的適當信號而檢測。
[0022]會議控制器可以被配置為確定呈現空間化音頻信號的音頻收發器的呈現特性。舉例來說，會議控制器可以被配置為確定收聽者的終端處的音頻收發器能夠呈現雙耳音頻信號、立體聲音頻信號或環繞聲音頻信號、或僅單聲道信號。會議控制器可以被配置為產生一組下遊音頻信號以及適當的元數據，使得收聽者的終端處的音頻收發器能夠適當地呈現會議場景。該組下遊音頻信號典型地包括上遊音頻信號或所述多個上遊音頻信號。元數據典型地包括使得可以根據上遊音頻信號或所述多個上遊音頻信號在X點會議場景內的部署來對它們進行空間化呈現的信息。
[0023]舉例來說，會議控制器可以被配置為根據音頻收發器的呈現特性來發起多個上遊音頻信號中的一個或多個的混合。特別地，會議控制器可以被配置為:如果呈現特性指示音頻收發器限於呈現單聲道音頻信號，則發起將被部署在會議場景中的多個上遊音頻信號中的全部上遊音頻信號的混合。音頻信號的實際混合可以由包括例如數位訊號處理器的音頻伺服器執行。
[0024]本文檔中概述的各方面可以與2D會議場景和/或3D會議場景有關。因而，關於講話者位置的角度布置的各方面可以與方位角和/或傾角有關。方位角可以在包括中線的水平平面中限定。傾角可以在包括中線的垂直平面中限定。在2D會議場景中，X個不同空間講話者位置可以相對於中線處於不同方位角。在3D會議場景中，X個不同空間講話者位置中的至少一些可以相對於中線處於不同方位角和/或傾角。
[0025]在3D會議場景中，X個不同空間講話者位置可以布置在不同傾角的多個層中。每個層可以包括X個空間講話者位置中的處於不同方位角的多個不同空間講話者位置。特別地，第一層中的不同空間講話者位置和第二層中的不同空間講話者位置可以具有相應的方位角，從而創建規則分層結構。
[0026]會議控制器可以被配置為接收關於上遊音頻信號的狀態的信息。該狀態可以作為與上遊音頻信號相關聯的元數據被發送。該狀態可以例如指示上遊音頻信號對應於會議的主席或組織者。換句話講，該狀態可以指示上遊音頻信號包括主席或組織者的言語信號。可替代地或另外地，該狀態可以與優質或基本狀態相關(例如，與不同會議參加者支付的不同費用相關)。
[0027]會議控制器可以被配置為基於上遊音頻信號的狀態將上遊音頻信號分配到空間講話者位置。舉例來說，該狀態可以指示會議的組織者的上遊音頻信號，並且該上遊音頻信號被分配到的空間講話者位置可以是最中心的空間講話者位置。在另一個例子中，該狀態可以指示基本狀態(即，基本會議參加者)。可以為基本會議參加者分配不太突出的講話者位置(例如，最外側講話者位置或不同層的講話者位置)。
[0028]會議控制器可以被配置為為具有預定狀態的上遊音頻信號保留X個空間講話者位置中的一個或多個。舉例來說，可以為會議的組織者或具有優質狀態的會議參加者保留最中心的講話者位置。
[0029]根據另一方面，描述了一種音頻會議系統。該音頻會議系統包括講話者終端，該講話者終端被配置為產生與會議參加者相關聯的上遊音頻信號(例如，通過使用麥克風記錄會議參加者的言語信號)。該系統還包括根據本文檔中概述的任一方面的會議控制器。會議控制器被配置為將上遊音頻信號分配到2D或3D會議場景內的講話者位置。此外，會議控制器被配置為產生識別所分配的講話者位置的元數據。另外，該系統包括收聽者終端，該收聽者終端被配置為使用元數據將上遊音頻信號呈現給音頻會議的收聽者。呈現可被執行為使得收聽者感知上遊音頻信號來自所分配的講話者位置。
[0030]根據另一方面，描述一種用於將與會議參加者相關聯的上遊音頻信號部署在將被呈現給收聽者的2D或3D會議場景內的方法。該方法包括設置X點會議場景，在該會議場景內有X個不同空間講話者位置，X是整數，X>0。X個講話者位置定位在圍繞收聽者的頭部前面的中線的圓錐體內。圓錐體的母線和中線形成小於或等於預定最大圓錐角的角度。此外，該方法包括將上遊音頻信號分配到X個講話者位置之一。另外，該方法包括產生元數據，該元數據識別所分配的講話者位置，並且使得音頻處理單元能夠基於上遊音頻信號產生空間化音頻信號。當將空間化音頻信號呈現給收聽者時，收聽者感知上遊音頻信號來自所分配的講話者位置。
[0031]根據另一方面，描述一種軟體程序。該軟體程序可以適於在處理器上執行並且當在該處理器上實行時執行本文檔中所概述的方法步驟。
[0032]根據另一方面，描述一種存儲介質。該存儲介質可以包括軟體程序，該軟體程序適於在處理器上執行並且當在計算裝置上進行時執行本文檔中所概述的方法步驟。
[0033]根據另一方面，描述一種電腦程式。該電腦程式可以包括用於當在計算機上實行時執行本文檔中所概述的方法步驟的可執行指令。
[0034]應指出，在本專利申請中概述的所述方法和系統(包括其優選實施例)可以獨立使用、或者與本文檔中公開的其他方法和系統組合使用。此外，本專利申請中概述的方法和系統的所有方面可以任意組合。特別地，權利要求的特徵可以以任意的方式彼此組合。

【專利附圖】

【附圖說明】
[0035]以下以示例性的方式參照附圖對本發明進行說明，其中:
[0036]圖1a示出示例集中式音頻會議系統的框圖；
[0037]圖1b示出示例分布式音頻會議系統的框圖；
[0038]圖2示出用於音頻會議系統的場景管理器的示例圖形用戶界面(GUI)；
[0039]圖3a和圖3b例不了不例首頻會議場景；和
[0040]圖4例示了音頻會議場景的示例聚類(cluster)。

【具體實施方式】
[0041]如引言章節中所概述的，目前的多方音頻會議系統典型地將參加音頻會議的多方的音頻信號疊加為單耳音頻信號，該單耳音頻信號被作為單個音頻流提供給每個參加方。這使得參加方(在收聽時)難以將其他參加者彼此區分開來(當其他方正在說話時)。在本文檔中，描述了如下的多方音頻會議系統，該系統使得可以空間化音頻會議的多方，即使得可以將音頻會議的不同參加方部署在二維(2D)或三維(3D)音頻場景內的不同空間位置處。結果，收聽方感知其他參加方從不同的各個空間位置說話，從而使得收聽方能夠更好地區分其他參加方。
[0042]圖1a例示了具有集中式架構的示例多方音頻會議系統100。集中式會議伺服器110接收來自對應的多個終端120的多個上遊音頻信號123。上遊音頻信號123典型地被作為音頻流(例如比特流)發送。舉例來說，上遊音頻信號123可以被編碼為G.711、G722.2 (AMR-WB)、MPEG2或MPEG4音頻比特流。典型地，上遊音頻信號123是單聲道音頻信號。因此，集中式會議伺服器110(例如，會議伺服器110內所包括的音頻伺服器112)可以被配置為對上遊音頻流(表示上遊音頻信號123)進行解碼並且提取與上遊音頻流相關聯的可選元數據。
[0043]會議伺服器110可以例如是電信網絡內的音頻會議服務提供商的應用伺服器。終端120可以例如是計算裝置，諸如膝上型計算機、臺式計算機、平板計算機和/或智慧型電話；以及電話，諸如行動電話、無繩電話、臺式手機等。會議伺服器110包括中央會議控制器111，該中央會議控制器111被配置為組合多個上遊音頻信號123以形成音頻會議。中央會議控制器111可以被配置為:將多個上遊音頻信號123部署在2D或3D會議場景內的特定位置處，並且產生關於所述多個上遊音頻信號123在會議場景內的布置(即，位置)的信息。
[0044]此外，會議伺服器110包括分別用於多個終端120的多個音頻伺服器112。應指出，在單個計算裝置/數位訊號處理器內，可以提供多個音頻伺服器112。所述多個音頻伺服器112可以例如是伺服器內的專用處理模塊或專用軟體線程，以服務於對應的多個終端120的音頻信號。因此，音頻伺服器112可以是根據各個終端120的需要而對音頻信號進行處理的「邏輯」實體。音頻伺服器112(或組合式伺服器內的等同處理模塊或線程)接收多個上遊音頻信號123(例如，為音頻流的形式)中的一些或全部、以及關於所述多個上遊音頻信號123在會議場景內的布置的信息。關於所述多個上遊音頻信號123在會議場景內的布置的信息典型地由會議控制器111提供，會議控制器111繼而向音頻伺服器112 (或處理模塊/線程)通知如何對音頻信號進行處理。通過使用該信息，音頻伺服器112產生一組下遊音頻信號124以及相應的元數據，該元數據被發送到各個終端120，以便使得各個終端120能夠根據會議控制器111內建立的會議場景來呈現參加方的音頻信號。該組下遊音頻信號124典型地被作為一組下遊音頻流，例如比特流發送。舉例來說，該組下遊音頻信號124可以被編碼為G.711、G722.2(41?-18)、10^62或10^64或專有音頻比特流。關於下遊音頻信號124在會議場景內的部署的信息可被編碼為元數據，例如在該組下遊音頻流內。因此，會議伺服器110 (特別地，音頻伺服器112)可以被配置為將該組下遊音頻信號124編碼為包括元數據的一組下遊音頻流，用於在終端120處呈現會議場景。應指出，該元數據可以被作為單獨的流發送到終端120，例如該流具有用於與下遊音頻流同步的時間戳。這意味著，不需要元數據的或不知道如何對元數據進行解碼的終端120仍可以對基本下遊音頻流進行處理(並且將音頻信號呈現給終端120處的收聽者)。換句話講，可以以向下兼容的方式對該組下遊音頻信號124和元數據進行編碼，以使得不能夠呈現2D或3D會議場景的終端120仍可以用於呈現(例如，混合形式的)下遊音頻信號。
[0045]因而，音頻伺服器112可以被配置為執行多個上遊音頻流和/或多個上遊音頻信號的實際信號處理(例如，通過使用數位訊號處理器)，以便產生多個下遊音頻流和/或多個下遊音頻信號、以及描述會議場景的元數據。音頻伺服器112可以專用於相應的終端120(如圖1a中所示)。可替代地，音頻伺服器112可以被配置為對於多個終端120，例如，對於所有終端120，執行信號處理。
[0046]應指出，終端120的上遊音頻信號123也可以被稱為講話者音頻信號123，因為它包括正在終端120處講話(例如，對著終端120的麥克風講話)的會議參加者產生的音頻信號。以類似的方式，發送到終端120的一組下遊音頻信號124可以被稱為一組聽眾音頻信號124，因為該組信號124包括終端120處的參加者例如使用耳機或擴音器收聽的多個音頻信號。
[0047]用於特定終端120的一組下遊音頻信號124是通過使用中央會議控制器111和音頻伺服器112(例如，用於該特定終端120的音頻伺服器112 (或處理模塊或軟體線程))從多個上遊音頻信號123產生的。中央會議控制器111和音頻伺服器112產生2D或3D會議場景的影像，該影像要原樣被特定終端120處的會議參加者感知。如果音頻會議有M個參加者，即，如果有M個終端120連接到會議伺服器110，則會議伺服器110可以被配置為將M組(M-1)個上遊音頻信號123布置在M個2D或3D會議場景內(M是整數，M>2，例如，M>3, 4，5，6，7，8，9，10)。更確切地，會議伺服器110可以被配置為對於M個終端120產生M個會議場景，其中，對於每個終端120，將其餘的(M-1)個其他的上遊音頻信號123布置在2D或3D會議場景內。
[0048]舉例來說，會議伺服器110可以使用主會議場景，該主會議場景描述M個會議參加者在2D或3D空間布置內的布置。會議伺服器110可以被配置為對於M個會議參加者(即，分別為M個會議參加者的M個終端120)產生主會議場景的不同視角。通過這樣做，可以確保所有的會議參加者都具有相同的其他會議參加者正被部署在何處的相對視圖。如果M個會議參加者在主會議場景內「圍繞桌子」(例如，圓形)定位，並且如果M個「個體」會議場景中的收聽者定位在該「桌子」的邊緣處(例如，該圓形上)，則情況尤其如此。
[0049]在另一個例子中，會議伺服器110可以根據會議參加者到會議場景的順序到達來分配會議場景的講話者位置。可以如本文檔中所描述的那樣將講話者位置從最內側講話者位置到最外側講話者位置進行分配。作為這樣的順序次序的結果，會議參加者可在指定用於不同收聽者的會議場景內部署於相同講話者位置處。會議伺服器可以使用會議場景的這個相似性(或一致性)，以便節省計算複雜度。
[0050]在另一個例子中，會議伺服器110可以對於所有的M個會議參加者使用單個會議場景，並且將所有的M個會議參加者部署在該單個會議場景內的預定講話者位置處。在這樣的情況下，所有的M個會議參加者都將感知同一 2D或3D會議場景。當將該單個會議場景提供給特定終端120 (針對作為收聽者的特定會議參加者)時，可以使該特定會議參加者的講話者位置變成空的。該例子的實現可以是高效的，因為它僅需要通過會議伺服器110管理單個會議場景。
[0051]M個會議場景的不同之處典型地在於將M個參加者中的不同個體被部署在會議場景的中心。舉例來說，用於第一終端120的會議場景典型地假定第一終端120要位於會議場景的中心，而其他(M-1)個終端要圍繞第一終端120部署。因而，用於第一終端120的音頻伺服器112從除了來自第一終端120的上遊音頻信號123之外的(M-1)個上遊音頻信號123產生一組多達(M-1)個的下遊音頻信號124 (以及相應的元數據)。該終端特定的一組下遊音頻信號124描述了用於第一終端120的會議場景，其中第一終端120典型地被部署在會議場景的中心位置處。以類似的方式，對於其他終端120，產生一組下遊音頻信號124。
[0052]在實施例中，中央會議控制器111負責控制音頻會議，其中，音頻伺服器112操作上遊音頻信號123，並且在受到中央會議控制器111的控制的情況下產生一組下遊音頻信號124以用於它們相應的終端120。舉例來說，中央會議控制器111可以不對承載信息(即，上遊音頻信號123內的實際音頻數據)進行處理，但是可以對信令信息(例如，被呼叫方和呼叫方的尋址信息、終端120的能力等)進行處理。中央會議控制器111可以使用信令信息來設置音頻會議。上遊音頻信號123的實際混合、一組下遊音頻信號124的產生、定義終端特定會議場景的適當元數據的產生、以及從音頻比特流解碼音頻信號/將音頻信號編碼為音頻比特流可以由音頻伺服器112例如使用數位訊號處理器來執行。
[0053]終端120接收其終端特定的一組下遊音頻信號124 (以及相應的元數據)，並且經由音頻收發器122 (例如，耳機或擴音器)呈現該組下遊音頻信號124。為了這個目的，終端120 (例如，終端120內所包括的音頻處理單元121)可以被配置為對一組下遊音頻比特流進行解碼，以便提取下遊音頻信號和相應的元數據。此外，音頻處理單元121可以被配置為產生供音頻收發器122呈現的混合雙耳音頻信號，其中，該混合雙耳音頻信號反映在會議伺服器110處針對該終端120設計的終端特定會議場景。換句話講，音頻處理單元121可以被配置為對所接收的元數據進行分析並且將所接收的一組下遊音頻信號124部署到終端特定會議場景中。結果，會議參加者感知到如下的雙耳音頻信號，該雙耳音頻信號給予終端120處的會議參加者其他參加者被部署在會議場景內的特定位置處的印象。
[0054]對於下遊音頻信號124中的每一個產生雙耳音頻信號可以通過用空間化算法對(單聲道)下遊音頻信號進行處理來執行。這樣的算法可以是使用一對頭部相關傳遞函數(HRTF)來對下遊音頻信號的採樣進行濾波，以便提供左耳信號和右耳信號。HRTF描述了在定位在空間中的特定位置處的(下遊音頻信號的)聲源與收聽者的耳朵之間將必然發生的濾波。HRTF包括用於聲音的雙耳呈現的所有線索(cue)，諸如耳間時間差、耳間聲級差和頻譜線索。HRTF取決於聲源的位置(即，下遊音頻信號的講話者位置)。對於會議場景內的每個特定位置可使用不同的特定的HRTF對。可替代地，特定位置的濾波特性可以通過HRTF可用的相鄰位置之間的插值來創建。因此，終端120可以被配置為從相關聯的元數據識別下遊音頻信號的講話者位置。此外，終端120可以被配置為確定適合於所識別的講話者位置的一對HRTF。另外，終端120可以被配置為將該對HRTF應用於下遊音頻信號，從而得到被感知為來自所識別的講話者位置的雙耳音頻信號。如果終端120接收到一組下遊音頻信號123內的多於一個的下遊音頻信號，則可以對每個下遊音頻信號執行以上處理，並且可以疊加所得的雙耳信號，以得到組合的雙耳信號。
[0055]應指出，作為混合雙耳音頻信號的產生的替代或者附加地，終端120 (例如，音頻處理單元121)可以被配置為產生可以在終端120處使用適當部署的擴音器122呈現的環繞聲(例如，5.1或7.1環繞聲)信號。此外，終端120可以被配置為從一組下遊音頻信號124產生用於使用單聲道擴音器122呈現的混合音頻信號。
[0056]與常規的單耳音頻會議系統(其中，單個混合音頻信號被從會議伺服器發送到終端)相反，在圖1a的音頻會議系統100中，一組多達(M-1)個的下遊音頻信號124和相應的元數據(例如，作為比特流)從會議伺服器110發送到每個終端120。考慮到底層通信網絡的帶寬限制，可能有益的是，限制在一組下遊音頻信號124內發送的音頻信號(例如，比特流)的數量。在下面，假定N是用於特定終端120的一組下遊音頻信號124內包括的下遊音頻信號124的數量，其中，N是整數，例如，N〈M。應指出，N可以取決於終端120和/或取決於終端120與會議伺服器110之間的通信網絡，即，對於不同終端120，N可以是不同的。舉例來說，終端120可以是經由無線網絡連接到會議伺服器110的行動電話。在這樣的情況下，可能有益的是，選擇相對少量的用於發送到行動電話的下遊音頻信號，例如，N =1，或者改變用於產生下遊音頻流的編解碼器的參數。
[0057]如以上所概述的，會議伺服器110接收被部署在2D或3D會議場景內的多達M個的上遊音頻信號123。會議伺服器110可以確定並且分析M個上遊音頻信號123在多個接連時刻(和/或在多個接連幀)的講話者活躍程度。上遊音頻信號的講話者活躍程度可以基於上遊音頻信號的能量(例如，均方能量)。基於講話者活躍程度，會議參加者(以及相應的上遊音頻信號)可以分類為「活躍」講話者(在特定時刻)或「非活躍」講話者(在該特定時刻)。該分類可隨時刻而改變。會議伺服器110然後可以通過考慮講話者活躍程度來確定用於特定會議參加者(即，用於特定終端120)的一組下遊音頻信號124(以及相關聯的元數據)。插入到一組下遊音頻信號124的上遊音頻信號123的選擇可隨時刻而改變(作為講話者活躍程度的函數)。舉例來說，會議伺服器110可以被配置為針對一組下遊音頻信號124僅考慮在特定時刻「活躍」講話者的上遊音頻信號123。
[0058]作為考慮講話者活躍程度的結果，會議伺服器110可以被配置為減小將一組下遊音頻信號124發送到不同終端120所需的帶寬。在單個活躍講話者的情況下，一組下遊音頻信號124可以僅包括單個音頻信號(即，活躍講話者的上遊音頻信號)，從而顯著地減小會議伺服器110與終端120之間的通信鏈路上的帶寬。儘管如此，該組下遊音頻信號124仍可以包括指示(一個或多個)活躍講話者的空間位置的元數據(或與該元數據相關聯)。因此，儘管如此，仍可以使得終端120能夠以空間化的方式呈現活躍講話者的音頻信號。元數據可以在不同時刻隨著講話者活躍性的改變而改變。因此，元數據可以指示在每個時刻、反映在一組下遊音頻信號124內的(一個或多個)活躍講話者的空間布置。
[0059]作為減小帶寬的另一措施，可以使用從源裝置(S卩，從終端120)到會議伺服器110的斷續傳輸。舉例來說，終端120可以被配置為基於終端120處記錄的音頻信號來確定講話者活躍程度。如果講話者活躍程度低(例如，低於預定能量閾值)，則終端120可以被配置為中止從終端120到伺服器110的上遊音頻信號123的傳輸，從而減小所需帶寬。因此，可以將講話者分配到會議場景內的相同空間位置，但是將僅在講話者同時說話的情況下引起衝突。
[0060]圖1a例示了具有集中式架構的2D或3D會議系統110。如圖1b的會議系統150所示，還可以使用分布式架構來提供2D或3D音頻會議。在所示的例子中，終端170包括本地會議控制器175，該本地會議控制器175被配置為混合會議參加者的音頻信號和/或將音頻信號部署到會議場景中。以與集中式會議伺服器110的中央會議控制器111類似的方式，本地會議控制器175可以限於分析所接收的音頻信號的信令信息以便產生會議場景。音頻信號的實際操作可以由單獨的音頻處理單元171執行。
[0061]在分布式架構中，終端170被配置為經由通信網絡160將其上遊音頻信號173(例如，作為比特流)發送到其他參加終端170。為了這個目的，終端170可以使用其他參加終端170的多播方案和/或直接尋址方案。因此，在M個參加終端170的情況下，每個終端170接收對應於(M-1)個其他終端170的上遊音頻信號173的多達(M-1)個的下遊音頻信號174 (例如，作為比特流)。接收終端170的本地會議控制器175被配置為將所接收的下遊音頻信號174部署到2D或3D會議場景中，其中，接收終端170典型地被部署在會議場景的中心。接收終端170的音頻處理單元171被配置為從所接收的下遊音頻信號174產生混合雙耳信號，其中，該混合雙耳信號反映由本地會議控制器175設計的2D或3D會議場景。音頻收發器122然後呈現該混合雙耳信號。
[0062]應指出，集中式會議系統100和非集中式會議系統150可以組合形成混合架構。舉例來說，終端170還可以結合會議伺服器110使用(例如，在其他用戶可以使用終端120的同時)。在示例實施例中，終端170從會議伺服器110接收一組下遊音頻信號124(以及相應的元數據)。終端170內的本地會議控制器175可以設置由會議伺服器110提供的會議場景作為默認場景。另外，可以使得終端170的使用能夠修改由會議伺服器110提供的默認場景。
[0063]可替代地或另外地，會議伺服器110的組件可以分布在網絡內，例如，以便減小音頻會議所需的帶寬。舉例來說，中央會議控制器111可以定位在第一位置(例如，中心位置)處，音頻伺服器112可以定位在網絡內的一個或多個其他不同位置。為了對於音頻伺服器112選擇減小處理音頻會議所需的總體網絡容量的位置，這可以是有益的。例如根據音頻會議的參加終端120的區域分布部署音頻伺服器112可能是有益的。音頻伺服器112與中央會議控制器111之間的通信可以限於信令信息(無需交換實際音頻數據)。
[0064]在下面，將論述集中式會議系統100。然而，應指出，本公開還可適用於非集中式架構150和任何混合形式的會議系統。
[0065]圖2例示了可以在會議伺服器100和/或終端120處提供的會議場景的圖形用戶界面(⑶I) 200。如果在終端120處提供，則⑶I 200可以使得參加者能夠修改在終端120感知到的會議場景。在實施例中，GUI 200使得音頻會議的主席能夠將會議參加者部署在會議場景內。⑶I 200可以指示音頻會議的參加者201。參加者201可以對應於一組下遊音頻信號內所包括的音頻信號的始發者。因而，GUI 200可以指示多達(M-1)個的參加者201。此外，⑶I 200可以例示會議場景210。在圖2中，2D(二維)會議場景被例示，例如例示為一個圓。應指出，⑶I 200可適於例示3D(三維)會議場景，例如例示為一個球體。收聽者211 (即，接收終端特定的一組下遊音頻信號124的終端120)可以默認地被部署在場景210的中心。⑶I 200可以被配置為允許修改收聽者211的位置。此外，⑶I 200提供多個講話者位置212 (在圖2中被例示為空心點212)。所述多個講話者位置212可被預先定義，或者可以由⑶I 200的用戶選擇。可以將講話者位置212分配到會議參加者201中的一個或多個。這可以自動地完成(例如，基於連同該組下遊音頻信號124—起被接收的元數據)。可替代地或另外地，GUI 200可以允許用戶特定分配(例如，通過使用所指示的參加者201到講話者位置212的「拖放」操作)。可以例如使用彈出窗口 213來指示參加者201和講話者位置212的分配。另外，GUI 200可以允許指示和/或修改另外的聲音位置214 (在圖2中被示為實心點214)。這樣的聲音位置214可以用於呈現除了參加者的音頻信號(典型的，語音信號)之外的聲音，例如，會議通知和/或音樂。
[0066]會議系統100可以被配置為基於多個部署規則中的一個或多個來自動地確定會議場景210的講話者位置212。這些部署規則基於將講話者201部署在會議場景210內的不同位置212處以及確定對於收聽者211的優選呈現位置212的感知測試。這些感知實驗表明:
[0067]?收聽者211典型地優選如下情況:會議中的講話者201被空間化位於收聽者211的頭部的前面、並且優選地不在收聽者211的頭部的後面。
[0068]?更確切地，收聽者211通常優選如下情況:講話者201被部署在收聽者的頭部前面的與收聽者211前面的中心線215大致成-30°至30°的角度的圓錐體內，並且優選地在甚至更窄的圓錐體內，即在由與中心線215成小於+/-30°的角度限定的圓錐體中。已經觀察到，如果講話者被部署在大的偏心距處，例如與中心線215成遠大於20°的角度，則收聽者211長時間收聽講話者201可能會不舒服。因此，可能有益的是選擇講話者位置212，以使得講話者位置212定位在收聽者211的頭部前面的圓錐體內。該圓錐體可以為使得該圓錐體的中心軸215與該圓錐體的母線216之間的角度小於預定最大圓錐角,例如，15°、20°或30°。本文檔中所提及的角度是指相對於收聽者211的頭部前面的中心線215的角度。負角度是指逆時針方向上與中心線215所成的角度，正角度是指順時針方向上與中心線215所成的角度。
[0069]?能夠使講話者201彼此分離典型地要求有一定的角間距(大約5°或更大角度)，以幫助講話者識別和可懂度。因此，可能有益的是，選擇講話者位置212以使得兩個相鄰講話者位置212之間的角間距大於例如5°的最小角距。
[0070]?圍繞中線215(也被稱為中心線)的完全對稱的呈現不是優選的。其原因是，對稱呈現有時可能導致在收聽者211正前面的成像效應(例如當在被部署在相對於中線215對稱的點212處的兩個講話者201之間發生對話時)。因此，可能有益的是，以相對於中心線215不對稱的方式布置講話者位置212。
[0071]?不對稱呈現具有如下的額外的優點，即當由於額外的參加者201呼叫到音頻會議中而將講話者201添加到場景210時，提供相對「平衡的」場景210。舉例來說，包括圍繞中線215以對稱方式布置的最多六個預定義講話者位置212的默認會議場景210在僅I個、3個或5個講話者201被部署在場景內的情況下(即，當六個預定義講話者位置212尚未被實際講話者201填充時)跨越中線215明顯不平衡。
[0072]以上提及的規則中的一些或全部可以用於定義具有默認講話者位置212的默認場景210。此外，這些規則中的一些或全部可以用於指定(例如，由中央會議控制器111和/或本地會議控制器175體現的)自動場景管理器的確定性行為。場景管理器可以被配置為當參加者201進入會議場景210時自動地將參加者201部署到會議場景210中。換句話講，場景管理器(在中央會議控制器111和/或本地會議控制器175上運行)可以被配置為基於默認會議場景210並且基於已經被部署在會議場景210內的參加者201來自動地確定新的會議參加者201的講話者位置212。
[0073]在下面，描述示例三點場景管理器(填充默認三點會議場景)和示例六點場景管理器(填充默認六點會議場景)。應指出，通過使用本文檔中所描述的部署規則，可以指定一般的X點場景和相應的X點場景管理器(其中，X是整數，X = 1,2, 3，4，5，6，7，8，9，10，例如，對於具有部署在不同空間位置處的M個會議參加者的會議，X = M-1)。
[0074]圖3a例示了示例三點場景300，其中，中心講話者位置303偏離中線3012°，並且其中，周圍的一對講話者位置302、304分別偏離中心講話者位置303+/-8°。在所示的例子中，每個聲源(即，每個講話者位置302、303、304)距收聽者211的感知徑向距離相同。
[0075]更一般地，三點場景可以具有以下特性:
[0076]?在三點場景的優選實現中，會議參加者201被分配到三個固定講話者位置302、303,304之一。會議參加者201被分配到的實際講話者位置可以取決於會議參加者201加入音頻會議的順序次序。
[0077]?中心講話者位置303(場景的中心點)被部署於圍繞場景300的中線301為-5°到5°的中心角度。優選的實現不是0°的中心角度，而是為1°至5°或-1°至-5°的中心角度。作為偏離中線301定位中心講話者位置303的結果，總體會議場景可以相對於中線301不對稱。
[0078]?可以將場景的其他兩個點(即，其他講話者位置302、303)部署在人前面的-30°與30°之間的圓錐體內的任何地方。其他講話者位置302、303的優選的實現在-15°與15°之間的圓錐體內。
[0079]?應將其他兩個講話者位置302、303部署在中心講話者位置303的任一側，並且與講話者位置302、303的中心點相隔至少5°的角度。
[0080]?講話者位置的優選間隔應相對於中線301是不對稱的。這可以通過將其他講話者位置302、304以相對於中心點303對稱的方式部署來實現(假定中心點303未被部署於0° )0
[0081]圖3b例示了示例六點場景310，其中，每個講話者201彼此相隔5°，並且其中，整個場景310相對於中線301旋轉固定角度2°。換句話講，六點場景310的講話者位置311、312、313、314、315、316相對於旋轉2°的角度的中線是對稱的。每個聲源(即，每個講話者位置311、312、313、314、315、316)距收聽者211的感知徑向距離相同。六點場景310使得講話者可以被分配到六個不同的固定點311、312、313、314、315、316。應指出，可以使用本文檔中提供的部署規則來指定六點場景310的其他配置。
[0082]圖3a和圖3b示出了場景300、310，其中，講話者位置被部署於彼此遠離的固定角度，並且其中，講話者位置的布置從中線301旋轉固定角度。然而，應指出，講話者位置無需被部署於彼此固定的角度，只要最小角度大於最小優選角度或最小角距，例如5°即可。此夕卜，相鄰講話者位置之間的徑向距離可以改變以提供額外的距離線索。
[0083]場景管理器(例如，中央或本地會議控制器)可以使用預定X點場景(例如，圖3a和圖3b中分別示出的3點場景300和/或6點場景310)，以便當每個講話者進入會議時將講話者部署到會議場景中。X點場景(其中，X= (M-D)可以用於會議參加者總數為M個的會議，以使得可以將M個會議參加者中的每個分配到不同的講話者位置。
[0084]典型地，音頻會議中的講話者的實際數量在會議開始時是未知的。因此，場景管理器可以被配置為當會議參加者呼進時將會議參加者添加到預定X點場景。特別地，場景管理器可以被配置為將預定X點場景內的特定位置分配給加入的參加者。為了這個目的，場景管理器可以使用用於將會議參加者添加到預定X點場景中(或移除預定X點場景中的會議參加者)的規則的集合。示例部署規則可以是:
[0085]?將新的會議參加者部署在可供使用的講話者位置上，該講話者位置儘可能地靠近X點場景的中線301 ；
[0086]?確保所分配的講話者位置相對於X點場景的中線301和/或相對於X點場景的中心位置303的最大平衡；
[0087]?填補因會議參加者離開X點場景而變為空的空講話者位置。
[0088]以上提及的部署規則可以單獨或組合使用，以便將新的參加者部署在X點場景中。因而，可以將新的參加者從X點場景的內部點向外地添加到會議場景，和/或以最大化圍繞X點場景的中心講話者位置303或場景的中線301的平衡的方式被添加。如果會議場景中的講話者的數量(M-1)超過X點場景的講話者位置的數量X，則場景管理器可以被配置為將多個講話者分配到同一講話者位置。對於圖3a中所示的三點場景300，場景管理器可以如下部署上遊參加者:
[0089]?參加者1:部署於-2° (即，部署在講話者位置303處)，
[0090]?參加者2:部署於6° (即，部署在講話者位置304處)，
[0091]?參加者3:部署於-10° (即，部署在講話者位置302處)，
[0092]?參加者4:部署於-2° (即，部署在講話者位置303處)，
[0093]?參加者5:部署於6° (即，部署在講話者位置304處)，
[0094]?依此類推。
[0095]請注意，在本文檔中，角度值或者用符號「。」表示、或者用術語「度」表示、或者可以用這兩者表示。對於六點場景310，新的會議參加者可以如下加入場景(使用圖3b作為參考):
[0096]?參加者1:部署於-2° (即，部署在講話者位置313處)，
[0097]?參加者2:部署於3° (即，部署在講話者位置314處)，
[0098]?參加者3:部署於-7° (即，部署在講話者位置312處)，
[0099]?參加者4:部署於8° (即，部署在講話者位置315處)，
[0100]?參加者5:部署於-12° (即，部署在講話者位置311處)，
[0101]?參加者6:部署於13° (即，部署在講話者位置316處)，
[0102]?參加者7:部署於-2° (即，部署在講話者位置313處)，
[0103]?依此類推。
[0104]被示為就收聽者211區分部署在不同講話者位置311、312、313、314、315、316處的不同參加者的能力而言具有特別良好的性質的特定六點場景310對於講話者位置311、312、313、314、315、316使用以下角度。該特定六點場景滿足相鄰講話者位置之間的最小間距的約束，保持在+-20°圓錐體內，並且相對於中線301稍不對稱:
[0105]?與中線301成2°的講話者位置314(例如，用於第一參加者)；
[0106]?與中線301成-5°的講話者位置313(例如，用於第二參加者)；
[0107]?與中線301成9°的講話者位置315(例如，用於第三參加者)；
[0108]?與中線301成-12°的講話者位置312(例如，用於第四參加者)；
[0109]?與中線301成16°的講話者位置316(例如，用於第五參加者)；
[0110]?與中線301成-19°的講話者位置311 (例如，用於第六參加者)。
[0111]以上提及的對於默認場景的描述限於示例三點場景300和示例六點場景310。應指出，場景內的點的其他數量也是可能的，範圍為從兩點場景管理器直到(M-1)點場景(對於具有M個參加者的會議)。場景內的點的數量典型地僅由本文檔中所描述的設計和部署規則限制。此外，應指出，所指示的角度值僅僅是例子。所選的角度值可以變化+/-1度或+/-2度。因而，本文檔中所描述的角度值應被理解為近似指示。
[0112]應指出，作為將多個講話者分配到同一講話者位置的替代或者附加地(例如，當講話者的數量(M-1)超過講話者位置的數量X時)，場景管理器可以被配置為將會議場景升級為具有更多講話者位置的會議場景(例如，從3點場景升級到6點場景)。舉例來說，場景管理器(例如，會議伺服器110)可以提示音頻會議的組織者(位於終端120之一處)是否應升級會議場景(例如，根據額外費用)。如果被接受，則場景管理器可以將會議參加者轉移到升級的會議場景。通過這樣做，可以使會議場景的大小靈活地適應會議參加者的實際數量。此外，會議服務提供商可以將具有不同大小的會議場景作為增值服務來提供。
[0113]應指出，作為會議場景內的講話者的水平分布的替代或者附加地，會議場景可以被垂直地延展，在端點能夠實現3D呈現的情況下尤其如此。例如，在不同講話者位置之間可以使用相同的方位角間距，但是它們具有例如10度的標高間距。這樣，可以創建多層講話者，從而進一步提高不同講話者在會議內的空間分離的可能性。更一般地，會議場景內的多個講話者位置可以用方位角Φ (在收聽者211的頭部前面的水平平面內，其中，該水平平面包括中線215)和傾角Θ (在收聽者的頭部前面的垂直平面內，其中，該垂直平面包括中線215)描述。會議場景可以包括多行講話者位置(一行內的每個講話者位置用不同方位角Φ和相同的傾角Θ描述)，其中，每行以不同傾角Θ被定位。
[0114]在下面，概述用於減少音頻會議所需網絡資源的各種方案。如以上所討論的，本文檔中所描述的音頻會議系統旨在允許在音頻會議的終端120處的會議場景的雙耳呈現(或多聲道呈現)。雙耳呈現應允許在會議場景中在2D或3D空間內的講話者部署。這與將兩個(單聲道)音頻信號混合(即，相加)為單個(單聲道)信號(這不允許兩個音頻信號的空間分離)大不相同。會議場景中的講話者的雙耳呈現可以在會議系統內的各個位置處實現。圖1a的示例會議系統100使用產生元數據的集中式會議伺服器110，該元數據指定如何組合相應的一組下遊音頻信號124以便形成特定會議場景。反映該特定場景的雙耳信號在對應的終端120處被確定，從而使得雙耳呈現可以靈活地適應終端120 (也被稱為端點)處的音頻收發器122的呈現特性。典型地，雙耳信號的產生基於一組下遊音頻信號124，並且基於元數據內所包括的部署信息。此外，雙耳信號的產生可以取決於音頻收發器122的類型(例如，擴音器或耳機)。集中式會議伺服器110可能不知道終端120中所使用的音頻收發器122的類型，因此，可能有益的是，在終端120處執行雙耳信號的產生。
[0115]舉例來說，端點120可能需要在音頻會議期間動態地改變。例如，端點120處的收聽者211可以通過使用雙耳耳機來開始音頻會議。在稍後的階段，可以通過第二會議參加者將收聽者211加入房間，所以他們斷開雙耳耳機，並且使用端點擴音器和麥克風，所以他們可以都參加。因此，為了從耳機切換到擴音器，將需要改變會議場景的呈現。因而，端點120可以被配置為使2D或3D會議場景的呈現適應端點120處所使用的音頻收發器122。
[0116]因此，可能有益的是，將一組多達(M-1)個的單獨的下遊音頻信號(對應於音頻會議內的(M-1)個講話者)以及相關聯的元數據發送到終端120。如果會議場景限於X個講話者位置，則可以將多個講話者分配到同一講話者位置。可以混合已經分配到同一講話者位置的講話者的音頻信號，以便形成用於對應講話者位置的下遊音頻信號。因而，可以將一組多達X個的下遊音頻信號(對應於X點會議場景的X個講話者位置)以及相關聯的元數據發送到終端120。終端120可以被配置為使用該組下遊音頻信號和相關聯的元數據來呈現2D或3D X點會議場景。此外，終端120 (例如，終端170)可以被配置為使用本地會議控制器175來修改會議場景(例如，交換講話者和講話者位置、使會議場景移位等)。然而，為了使得終端120能夠執行X點會議場景的雙耳或多聲道呈現，必須將一組多達X個的單獨的下遊音頻信號和相關聯的元數據發送到終端120。
[0117]可替代地，可以在會議伺服器110處產生用於終端120的雙耳信號。這可關於會議伺服器110與終端120之間的鏈路上的所需帶寬是有益的，因為與一組多達(M-1)個的下遊音頻信號和相應的元數據(它們典型地以比特流的形式被發送，例如，G.711、G722.2 (AMR-WB,自適應多速率-寬帶)、MPEG2或MPEG4比特流)的傳輸相比，雙耳信號(即，立體聲信號)的傳輸可能需要較少帶寬。另一方面，關於目的地終端120處所使用的音頻收發器122和/或目的地終端120 (也被稱為收聽者終端120)處的會議場景的操作，會議伺服器110處的雙耳信號的產生所允許的靈活性較低。
[0118]當在終端120處執行雙耳信號的產生(在圖1a和圖1b的上下文中進行了概述)時，一組下遊音頻信號124中的音頻信號的數量可限於最大數量的N個同時活躍的音頻信號(其中，N小於參加者的數量M，例如，N〈M-1，和/或其中，N小於X點場景內的講話者位置的數量X，即，N〈X)。這可能是由於會議伺服器110與終端120之間的鏈路上的帶寬限制而導致的。換句話講，為了限制伺服器110與端點120之間的帶寬，可能有必要限制從伺服器110發送到端點120的同時活躍的流(即，音頻信號)的最大數量。因此，即使會議參加者201被部署在會議場景210內的(M-1)個離散點121 (例如，M = 7)處，即使當實現(M-1)點場景310時，同時遞送到端點120的流的數量也可限於N個同時活躍的流，例如，N=1，2或3。可以選擇同時活躍的流的最大數量N，以便限制伺服器110與端點120之間的所需帶寬，同時提供多方會議的感知上愉悅的呈現。對於N= I的情況，僅一個下遊音頻信號124(例如，作為音頻流)從伺服器110發送到端點120，並且呈現或混合可以在伺服器110中執行。在這種情況下，終端120處的呈現可限於單聲道輸出。對於N = 2，可以將最多兩個同時音頻信號124(例如，作為音頻流)從伺服器110發送到端點120以進行呈現。對於N = 3，可以將最多三個同時音頻信號124 (例如，作為音頻流)從伺服器110發送到端點120。在以上情況中的每一種中，當會議內的同時講話者的數量(M-1)大於預定義最大值N時，伺服器110可以混合一些流。在對於三點場景300或六點場景310的實施例中，場景管理器可以被配置為使將發送到端點120的流的數量限於N = 3個流。換句話講，一組下遊音頻信號內的音頻信號的數量可限於N = 3。
[0119]應指出，N個下遊音頻信號可以連同相應的元數據一起被提供。因而，可以使得終端120能夠以空間化的方式呈現N個下遊音頻信號。舉例來說，即使N = 1，也可以將單個下遊音頻信號與元數據一起發送，該元數據指示將單個下遊音頻信號部署在2D或3D空間會議場景中的何處。如果僅單個講話者是活躍的，則可以將下遊音頻信號(對應於該單個活躍講話者的上遊音頻信號)部署在該單個講話者的講話者位置處。這不同於常規的單聲道呈現(不具有空間化)。只有在多個講話者(並且N = I)的情況下，由於多個講話者混合為單個下遊音頻信號，多個講話者的空間歧義消除將損失。
[0120]如以上所概述的，會議伺服器110可以包括中央會議控制器111和多個音頻伺服器112。會議控制器111可以被配置為定義會議場景中的會議參加者的部署。此外，會議控制器111可以被配置為確定是否需要混合一個或多個會議參加者的音頻信號、應混合哪些音頻信號、以及混合操作的優先級。換句話講，會議控制器111可以被配置為:
[0121]?確定對於混合一個或多個會議參加者的音頻信號的需要。為了這個目的，可以將會議參加者的數量M和一組下遊音頻信號124內的音頻信號的最大數量N進行比較。
[0122]?確定應混合哪些音頻信號。在該上下文中，會議控制器111可以使用一個或多個混合規則。例如，可能優選的是，使在會議場景內被部署於較大角度的講話者以比在會議場景的中線301附近呈現的講話者更高的優先級混合。換句話說，可能有益的是避免部署於收聽者211前面的講話者混合。這是由於下述事實，S卩如果在收聽者211的正前面發生移動，則與以更大角度發生的移動相比，收聽者211典型地更多地觀察到會議場景內的移動。此外，可以假定，加入會議的第一個人有可能是會議的組織者。如以上所概述的，場景管理器可以被配置為根據加入會議的次序從中心位置朝外側位置將講話者位置212分布在會議場景210內。因此，可以假定會議的組織者位於中心位置處，因此，可能可取的是為會議的組織者提供優先分離(即，與其他會議參加者混合的風險較低)。
[0123]?確定混合的講話者的部署。為了這個目的，會議控制器111可以應用一個或多個部署規則(例如，本文檔中所描述的一個或多個部署規則)。換句話講，會議控制器111可以使用將混合的講話者部署在會議場景中的何處的預定義策略。舉例來說，會議控制器111可以包括多個預定義X點會議場景，其中X的值不同。如果確定所允許的音頻信號N的數量小於所需的音頻信號數量(M-1)，其中，M為會議參加者的數量，則會議控制器111可以被配置為根據預定義的N點會議場景來部署混合音頻信號。換句話講，會議控制器111可以被配置為選擇會議場景，其中，可以將該會議場景內的講話者位置的數量改動為可以單獨發送到終端120的音頻信號的數量N。
[0124]因而，對於會議控制器111使用的混合策略，存在至少兩個元素。這些元素是確定哪些講話者將被混合在一起、以及確定混合的講話者在會議場景內所處的最終空間位置。舉例來說，對於六點場景，會議控制器111可以被配置為識別用於混合的相鄰部署的角度(即，講話者位置)。這使得可以從六點場景縮減至三點場景(如果N = 3)。這在圖4中的示例六點會議場景400中示出。如果在場景400中只有四個人講話，則優選混合策略可以是，如果在這些位置410處的講話者活躍，則混合聚類1403和/或聚類2401，以便將音頻信號的數量減少至最大數量N = 3。只有當這不夠時，才在伺服器110處混合聚類3402內的講話者。如以下將更詳細地概述的，混合典型地基於講話者活躍性的分析來執行。這意味著，在多個時刻中的每個時刻，可以確定活躍的上遊音頻信號的數量。如果特定時刻的活躍的上遊音頻信號的數量大於N，則可以混合活躍的上遊音頻信號中的一些或全部(根據本文檔中所描述的混合規則)。
[0125]換句話講，會議控制器111可以被配置為基於會議內存在的流的數量並且基於容許流的最大數量來混合音頻流(即，混合音頻信號)。如果流的數量超過N個流，則應用限制被發送到端點120的流124的數量的混合策略。該混合策略可以包括總是首先混合大偏心距的混合規則。此外，會議控制器111可以被配置為將混合流部署在最初部署這些混合流的兩個(或更多個)預定義講話者位置之一處。可替代地，可以將混合流部署在該兩個(或更多個)預定義講話者位置之間的某處。在優選實現中，將混合流部署在已經被混合的流的講話者位置之間的中途。會議控制器111僅作為最後的手段(即，優先級降低)才可以執行被部署在會議場景的中線301附近的講話者(例如，圖4的聚類3402)的混合。
[0126]如以上所討論的，典型地，只有活躍講話者的數量(即，對於具有M個參加者的會議，M-1)超過一組音頻信號124內的容許音頻信號的最大數量N，和/或只有活躍講話者的數量(M-1)超過X點場景內的講話者位置212的數量(S卩，M-1>X)，才需要會議參加者的音頻信號的混合。舉例來說，六點場景內的混合僅在存在4個或更多個講話者時才需要。在這種情況下，場景「繁忙」，因此，小的聲音移動將難以注意到。換句話說，隨著會議中的參加者的數量增加，即，隨著會議變得「繁忙」，由音頻信號的混合導致的聲音的空間移動趨向於不太可以被收聽者211感知到。
[0127]音頻伺服器112可以被配置為實現會議控制器111定義的音頻信號的混合。換句話講，音頻伺服器112可以對音頻信號進行處理，並且執行這些音頻信號的合併。換句話講，在基於數據包的通信網絡中，音頻伺服器112可以逐個音頻信號的數據包地來決定是否實現混合，以便減少流的總數。舉例來說，音頻伺服器112可以被配置為在多個接連的時刻(其中，這些時刻可以例如與音頻比特流的數據包一致)中的每個時刻確定M個上遊音頻信號的活躍程度。會議控制器可以對活躍程度進行分析，並且決定上遊音頻信號的選擇和/或混合以使下遊音頻信號的總數降至容許最大值N。此外，會議控制器可以提供關於N個下遊音頻信號的部署信息。然後音頻伺服器112可以基於會議控制器提供的決定和部署信息來執行元數據的實際混合和產生。
[0128]用於使朝向終端120的音頻流的數量限於最大數量N個音頻流的以上例子是基於發送到終端120的(可能混合的)音頻流的固定選擇的。典型地，會議內的活躍講話者的數量是有限的。在理想的高度組織化的音頻會議中，將僅存在一個活躍的講話者，而其他會議參加者將收聽。因而，在這樣的高度組織化的音頻會議中僅將單個音頻流(即，活躍講話者的音頻流)與指示活躍講話者在會議場景內的部署的元數據一起發送可能是足夠的。當位於不同講話者位置處的另一個參加者變為活躍講話者時，可以將單個發送的音頻流變為與新的活躍講話者相應的音頻流，連同指示該新的講話者位置的元數據。因而，所有的不同講話者可以在終端120處在它們各自的講話者位置處被呈現，同時僅發送單個音頻流(以及相關的元數據)。
[0129]更一般地，會議控制器111可以被配置為基於部署在X點會議場景內的X個(混合的或未混合的)音頻信號的講話者活躍程度來動態地選擇一組N個下遊音頻信號124。在特定時刻，會議控制器111可以選擇用於向終端120發送(連同用於將所選音頻信號部署在會議場景內的相關元數據一起)的X個(混合的或未混合的)音頻信號中的N個最活躍音頻信號。對於接連的時刻(例如，每I秒或每100ms)，可以重複用於發送到終端120的音頻信號的選擇。因而，可以保持可以在終端120處呈現的空間位置的數量X，同時提供發送到終端120的減少數量的N個音頻流。在實施例中，選擇X個(混合的或未混合的)音頻信號中的(N-1)個最活躍音頻信號以向終端120發送。因而，可以在終端120處以空間化的方式呈現(N-1)個最活躍講話者。
[0130]在本文檔中，已經描述了用於管理音頻會議的2D或3D場景的各方面。這些方面可以在API (應用程式接口)或GUI (圖形用戶界面)的上下文中被提供，以便使得語音會議系統的開發者或語音會議系統的用戶可以管理語音信號(來源於不同會議參加者)和/或聲音信號(例如，通知、語音提示、音樂)在會議場景中的部署。本文檔提供了可被場景管理器用於定義預定X點場景和/或自動地將講話者定位在會議場景內的規則和邏輯。場景管理器可以被配置為使用裝置特定空間位置(例如，場景內的終端特定位置)和/或裝置特定X點場景，這些位置和/或場景可以根據場景是通過耳機、還是通過擴音器被呈現而不同。
[0131]本文檔中所描述的方法和系統可以被實現為軟體、固件和/或硬體。某些組件可以例如被實現為在數位訊號處理器或微處理器上運行的軟體。其他組件可以例如被實現為軟體和/或專用集成電路。所描述的方法和系統中遇到的信號可以被存儲在諸如隨機存取存儲器或光學存儲介質的介質上。它們可以經由網絡(諸如無線電網絡、衛星網絡、無線網絡或有線網絡(例如，網際網路))傳送。使用本文檔中所描述的方法和系統的典型裝置是用於存儲和/或呈現音頻信號的可攜式電子裝置或其他消費類設備。
【權利要求】
1.一種會議控制器(111，175)，所述會議控制器(111，175)被配置為將與會議參加者相關聯的上遊音頻信號(123，173)部署在將被呈現給收聽者(211)的2D或3D會議場景內，其中，所述會議控制器(111，175)被配置為: -設置X點會議場景，其中，在所述會議場景內有X個不同空間講話者位置(212)，X是整數，X>0 ;其中，所述X個講話者位置(212)定位在圍繞收聽者(211)的頭部前面的中線(215)的圓錐體內；其中，所述圓錐體的母線(216)和所述中線(215)形成小於或等於預定最大圓錐角的角度； -將所述上遊音頻信號(123，173)分配到所述X個講話者位置(212)之一；和 -產生識別所分配的講話者位置(212)的元數據，並且使得音頻處理單元(121，171)能夠基於所述上遊音頻信號(123，173)產生空間化音頻信號；其中，當將所述空間化音頻信號呈現給收聽者(211)時，收聽者(211)感知所述上遊音頻信號(123，173)來自所分配的講話者位置(212)。
2.根據權利要求1所述的會議控制器(111，175)，其中，所述X個講話者位置(212)被部署在圓或球體上，其中收聽者(211)被部署在所述圓或球體的中心。
3.根據前面任一權利要求所述的會議控制器(111，175)，其中， -所述X個講話者位置(212)中的兩個相鄰講話者位置至少相隔最小角距；並且 -所述最小角距為5度或更大。
4.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述X個講話者位置(212)中的相鄰講話者位置之間的角距對於不同講話者位置是不同的。
5.根據權利要求4所述的會議控制器(111，175)，其中，所述X個講話者位置(212)中的相鄰講話者位置之間的角距隨著所述相鄰講話者位置離所述中線(215)的距離增大而增大。
6.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述最大圓錐角為30度。
7.根據權利要求1至5中的任一個所述的會議控制器(111，175)，其中，所述最大圓錐角為20度。
8.根據權利要求1至5中的任一個所述的會議控制器(111，175)，其中，所述最大圓錐角為15度。
9.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述X個講話者位置(212)相對於所述中線(215)是不對稱的。
10.根據前面任一權利要求所述的會議控制器(111，175)，其中，如果X是奇數，則所述X個講話者位置(212)相對於所述X個講話者位置(212)的中心講話者位置(212)是對稱的。
11.根據前面任一權利要求所述的會議控制器(111，175)，其中， -如果X是偶數，則所述X個講話者位置(212)中的一半在所述中線(215)的一側或在穿過所述中線(215)的垂直平面的一側，並且所述X個講話者位置(212)中的另一半在所述中線(215)的另一側或在穿過所述中線(215)的所述垂直平面的另一側；和/或 -如果X是奇數，則所述X個講話者位置(212)中的(X-1)/2個講話者位置在所述中線(215)或所述垂直平面的所述一側，(X+1)/2個講話者位置在所述中線(215)或所述垂直平面的所述另一側。
12.根據前面任一權利要求所述的會議控制器(111，175)，其中， -所述X個講話者位置(212)定位在出自收聽者(212)的頭部的X個射線上，所述X個射線分別與所述中線(215)形成X個講話者角度； -一個方向上的與所述中線(215)形成的講話者角度是正的，而相反方向上的與所述中線(215)形成的講話者角度是負的；並且-所述X個講話者角度的和不同於零。
13.根據權利要求12所述的會議控制器(111，175)，其中，所述講話者角度的和小於或寸乙/又O
14.根據權利要求12至13中的任一個所述的會議控制器(111，175)，其中，X= 3 ;並且其中，所述X個講話者位置(212)定位為與所述中線(215)成-2度、+6度和-10度的講話者角度。
15.根據權利要求12至13中的任一個所述的會議控制器(111，175)，其中，X= 6 ;並且其中，所述X個講話者位置(212)定位為與所述中線(215)成-2度、+3度、-7度、+8度、-12度和+13度的講話者角度。
16.根據權利要求12至13中的任一個所述的會議控制器(111，175)，其中，X= 6 ;並且其中，所述X個講話者位置(212)定位為與所述中線(215)成+2度、-5度、+9度、-12度、+16度和-19度的講話者角度。
17.根據前面任一權利要求所述的會議控制器(111，175)，被配置為將與多個會議參加者相關聯的多個上遊音頻信號(123，173)部署在X點會議場景內；其中，會議控制器(111，175)被配置為根據所述多個上遊音頻信號(123，173)的順序次序將所述多個上遊音頻信號(123，173)分配到所述X個講話者位置(212)。
18.根據權利要求17所述的會議控制器(111，175)，其中，所述多個上遊音頻信號(123，173)的順序次序基於會議控制器(111，175)對於所述多個上遊音頻信號(123，173)的檢測次序。
19.根據權利要求17至18中的任一個所述的會議控制器(111，175)，其中，會議控制器(111，175)被配置為按離所述中線(215)的絕對角距增大的次序分配所述X個講話者位置(212)。
20.根據權利要求19所述的會議控制器(111，175)，其中，在將所述多個上遊音頻信號(123，173)中的上遊音頻信號(123，173)分配到所述X個講話者位置(212)中的最外側講話者位置(212)的條件下，會議控制器(111，175)被配置為將所述多個上遊音頻信號(123，173)中的下一個上遊音頻信號(123，173)分配到所述X個講話者位置(212)中的最內側講話者位置(212)。
21.根據權利要求17至20中的任一個所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為:如果上遊音頻信號(123，173)的數量大於講話者位置(212)的數量X，則將所述多個上遊音頻信號(123，173)中的複數個上遊音頻信號(123，173)分配到所述X個講話者位置(212)中的至少一個。
22.根據權利要求21所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為發起被分配到同一講話者位置(212)的所述複數個上遊音頻信號(123，173)的混人口 O
23.根據權利要求17至22中的任一個所述的會議控制器(111，175)，其中，將所述多個上遊音頻信號(123，173)中的每一個僅分配到所述X個講話者位置(212)中的單個講話者位置(212)。
24.根據前權利要求17至23中的任一個所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為根據以下部署規則中的一個或多個來部署所述多個上遊音頻信號(123，173)； -將所述多個上遊音頻信號(123，175)中的下一個上遊音頻信號(123，175)分配到所述X個講話者位置(212)中的尚未被分配並且儘可能地靠近所述中線(215)的講話者位置(212)； -確保所分配的講話者位置相對於所述中線(215)和/或相對於所述X個講話者位置(212)的中心講話者位置的最大平衡； -重新分配所述X個講話者位置(212)中的空的講話者位置，其中，所述空的講話者位置(212)是因所述多個上遊音頻信號(123，175)中的已被分配的上遊音頻信號的中斷而變成空的。
25.根據權利要求17至24中的任一個所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為: -確定呈現空間化音頻信號的音頻收發器(122)的呈現特性； -根據音頻收發器(122)的呈現特性來發起所述多個上遊音頻信號(123，175)中的一個或多個的混合。
26.根據權利要求25所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為:如果所述呈現特性指示音頻收發器(212)被限於呈現單聲道音頻信號，則發起將被部署在會議場景中的所述多個上遊音頻信號(123，175)中的全部上遊音頻信號(123，175)的混合。
27.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為確定上遊音頻信號(123，173)包括言語信號。
28.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為: -確定收聽者(211)的優選側；其中，所述優選側是所述中線(215)的左側或右側；和 -將傳入的音頻信號(123，173)分配到位於收聽者(211)的所述優選側的講話者位置(212)。
29.根據權利要求28所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為從收聽者(211)的終端(120，170)接收關於所述優選側的指示，所述優選側例如基於收聽者(211)的終端(120，170)處的偏好設置。
30.根據前面任一權利要求所述的會議控制器(111，175)，其中， -所述會議場景是3D會議場景；並且 -所述X個不同空間講話者位置(212)中的至少一些相對於所述中線(215)成不同方位角和/或傾角。
31.根據權利要求30所述的會議控制器(111，175)，其中， -所述X個不同空間講話者位置(212)布置在處於不同傾角的多個垂直層中；和/或-每個垂直層包括處於不同方位角的多個不同空間講話者位置(212);和/或-第一垂直層中的不同空間講話者位置(212)和第二垂直層中的不同空間講話者位置(212)具有相應的方位角。
32.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為: -接收關於上遊音頻信號(123，173)的狀態的信息；和 -基於上遊音頻信號(123，173)的狀態將上遊音頻信號(123，173)分配到空間講話者位置(212)。
33.根據權利要求32所述的會議控制器(111，175)，其中， -所述狀態指示上遊音頻信號(123，173)對應於會議的主席或組織者；並且-所述上遊音頻信號(123，173)被分配到的空間講話者位置(212)是最中心的空間講話者位置(212)。
34.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為為具有預定狀態的上遊音頻信號(123，173)保留所述X個空間講話者位置(212)中的一個或多個。
35.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為計算具有X個不同空間講話者位置(212)的X點會議場景，以使得所述X個講話者位置(212)定位在圍繞收聽者(211)的頭部前面的中線(215)的圓錐體內。
36.根據前面任一權利要求所述的會議控制器(111，175)，其中，所述會議控制器(111，175)被配置為從具有X個不同預定空間講話者位置(212)的一組預定X點會議場景選擇具有X個不同空間講話者位置(212)的X點會議場景。
37.一種音頻會議系統(100，150)，包括: -講話者終端(120，170)，所述講話者終端(120，170)被配置為產生與會議參加者相關聯的上遊音頻信號(123，173)； -根據權利要求1至36中的任一個所述的會議控制器(111，175)，所述會議控制器(111，175)被配置為將上遊音頻信號(123，173)分配到2D或3D會議場景內的講話者位置，並且被配置為產生識別所分配的講話者位置的元數據；和 -收聽者終端(120，170)，所述收聽者終端(120，170)被配置為使用所述元數據將上遊音頻信號(123，173)呈現給收聽者(211)，以使得收聽者(211)感知上遊音頻信號(123，173)來自所分配的講話者位置(212)。
38.一種用於將與會議參加者相關聯的上遊音頻信號(123，173)部署在將被呈現給收聽者(211)的2D或3D會議場景內的方法，其中，所述方法包括: -設置X點會議場景，其中，在所述會議場景內有X個不同空間講話者位置(212)，X是整數，X>0 ;其中，所述X個講話者位置(212)定位在圍繞收聽者(211)的頭部前面的中線(215)的圓錐體內；其中，所述圓錐體的母線(216)和所述中線(215)形成小於或等於預定最大圓錐角的角度； -將所述上遊音頻信號(123，173)分配到講話者位置(212)之一；和 -產生識別所分配的講話者位置(212)的元數據，並且使得音頻處理單元(121，171)能夠基於所述上遊音頻信號(123，173)產生空間化音頻信號；其中，當將所述空間化音頻信號呈現給收聽者(211)時，收聽者(211)感知所述上遊音頻信號(123，173)來自所分配的講話者位置(212)。
39.一種軟體程序，所述軟體程序適於在處理器上執行並且當在所述處理器上進行時執行權利要求38所述的方法步驟。
40.一種存儲介質，所述存儲介質包括軟體程序，所述軟體程序適於在處理器上執行並且當在計算裝置上進行時執行權利要求38所述的方法步驟。
41.一種電腦程式，所述電腦程式可包括用於當在計算機上進行時執行權利要求38所述的方法步驟的可執行指令。
【文檔編號】H04M3/56GK104205790SQ201380014466
【公開日】2014年12月10日申請日期:2013年3月21日優先權日:2012年3月23日
【發明者】M·伊科特, G·斯比特爾, M·P·霍裡爾申請人:杜比實驗室特許公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

2d或3d會議場景中的講話者的部署的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法