對輸入數據流進行混合以及從中產生輸出數據流的製作方法

2023-06-25 08:14:06 3

專利名稱：對輸入數據流進行混合以及從中產生輸出數據流的製作方法
技術領域：
根據本發明的實施例涉及對多個輸入數據流進行混合以獲得輸出數據流，並且相應地通過對第一和第二輸入數據流進行混合來產生輸出數據流。輸出數據流例如可以在包括視頻會議系統和電話會議系統在內的會議系統領域中使用。
背景技術：
在許多應用中，要以以下方式來處理多於ー個音頻信號根據多個音頻信號，要產生ー個信號或至少減小數目的信號，這通常稱為「混合」。因此，混合音頻信號的過程可以稱為將多個單獨音頻信號捆綁為生成信號。例如在創建音樂用於緻密光碟(「配音」)時，使用這ー過程。在這種情況下，典型地，將不同樂器的不同音頻信號與包括聲樂表演(歌唱)·的一個或多個音頻信號混合為歌曲。混合處理扮演重要角色的其他應用領域是視頻會議系統和電話會議系統。典型地，這種系統能夠通過採用中心伺服器來對會議中的多個在空間上分散的參與者進行連接，中心伺服器對註冊參與者的輸入視頻和音頻數據進行適當混合，並將生成信號返回發送給每個參與者。該生成信號或輸出信號包括所有其他會議參與者的音頻信號。在現代數字會議系統中，多個部分矛盾的目標和方面互相競爭。必須考慮重構音頻信號的質量，以及針對不同類型音頻信號(例如話音信號相比於一般音頻信號和音樂信號)，一些編碼和解碼技術的實用性和有效性。在設計和實現會議系統時還要考慮的其他方面是可用帶寬和延遲問題。例如，在對一方面質量和另一方面帶寬進行平衡吋，在多數情況下，折衷不可避免。然而，可以通過實現現代編碼和解碼技術，如AAC-ELD技術(AAC=高級音頻編解碼；ELD=增強低延遲)，來實現與質量相關的改迸。然而，可實現的質量可能以更多的基本問題和方面對採用這種現代技術的系統造成負面影響。僅列出要滿足的一個挑戰，所有數位訊號傳輸面臨所需量化的問題，至少在原理上，該問題在無噪聲的模擬系統中的理想環境下是可避免的。由於量化過程，不可避免地將特定量的量化噪聲引入要處理的信號。為了對抗可能和可聽的失真，可能嘗試增加量化級的數目，從而相應提高了量化解析度。然而，這導致要發送更大數目的信號值，從而導致要發送的數據量増大。換言之，通過減小由量化噪聲引入的可能失真來提高質量，在特定環境下將增大要發送的數據量，並且可能最終違反施加於傳輸系統上的帶寬限制。在會議系統的情況下，由於典型地要處理多於ー個輸入音頻信號，因此對質量、可用帶寬和其他參數之間的權衡進行改進的挑戰甚至更加複雜。因此，在產生由會議系統產生的輸出信號或生成信號吋，必須考慮多於一個音頻信號所施加的邊界條件。尤其是考慮到實現具有充分低延遲的會議系統的另ー挑戰在不引入參與者認為不可接受的實質延遲的情況下，實現會議參與者之間的直接通信，這種挑戰進ー步提升。在會議系統的低延遲實現中，典型地在延遲源的數目方面對其進行限制，另一方面，這可能導致在通過疊加或添加相應信號可以實現音頻信號混合的時域之外處理數據的挑戰。一般而言，贊成仔細選擇適合於會議系統的質量、可用帶寬與其他參數之間的權衡，以便應對用於實時混合的處理開銷、降低所需的硬體數量、並且保持硬體以及不包括音頻質量的合理傳輸開銷的成本。為了減少傳輸的數據量，現代音頻編解碼器通常利用高複雜度工具來描述與相應音頻信號的頻譜分量有關的頻譜信息。通過利用這種基於心理聲學現象和檢查結果的エ具，可以實現部分矛盾參數與邊界條件(例如，根據傳輸數據的重構音頻信號的質量、計算複雜度、比特率、以及其他參數)之間改進的權衡。例如，針對這種工具的示例是感知噪聲替換(PNS)、時間噪聲成形(TNS)、以及頻·譜帶複製(SBR)，僅列舉少數。所有這些技術基於描述具有與不使用這些工具所基於的數據流相比減少比特數目的頻譜信息的至少一部分，可以將更多比特分配給頻譜中頻譜的重要部分。因此，在保持比特率的同時，可以通過使用這樣的工具來提高質量感知級。當然，可以選擇不同權衡，從而減少音頻信號的每幀傳輸的比特數目，同時保持總音頻印象。還可以同樣極好地實現這兩個極端之間的不同權衡。這些工具也可以使用在電信應用中。然而，當在這種通信情況下存在多於兩個參與者時，採用會議系統用於混合多於兩個參與者的兩個或多個比特流是有利的。類似於上述的情況出現在純基於音頻的或電話會議情況以及視頻會議情況。例如，在US 2008/0097764A1中描述了ー種在頻域中工作的會議系統，該系統執行頻域中的實際混合，並從而省略將輸入音頻信號重變換到時域中的操作。然而，這裡所描述的會議系統不考慮如上所述實現以更緊縮的方式對至少ー個頻譜分量的頻譜信息進行描述的工具的可能性。因此，這樣的會議系統需要額外的變換步驟來將被提供給會議系統的音頻信號至少重構到以下程度相應音頻信號存在於頻域中。此夕卜，還需要基於上述附加工具對生成的混合音頻信號進行重新變換。然而，這些重新變換和變換步驟要求複雜算法的應用，這會導致計算複雜度的增加，例如，在可攜式、能量方面要求嚴格的應用中，導致增加的能量消耗，並因此導致受限的操作時間。因此，根據本發明的實施例要解決的問題是，實現一種適合於會議系統的質量、可用帶寬和其他參數之間的改進權衡，或者實現如上所述會議系統中所需計算複雜度的降低。

發明內容
該目的可以通過ー種根據權利要求I或12所述的設備、ー種根據權利要求10或26所述用於對多個輸入數據流進行混合的方法、或者ー種根據權利要求11或27所述的電腦程式來實現。根據第一方面，根據本發明的實施例基於以下發現當混合多個輸入數據流時，通過基於比較來確定輸入數據流並且將至少部分頻譜信息從確定的輸入數據流中拷貝到輸出數據流中，上述參數與目標之間的改進權衡是可實現的。通過從ー個輸入數據流中拷貝至少一部分頻譜信息，可以省略重新量化，並從而消除了與重新量化相關聯的重新量化噪聲。在不可確定主導輸入流的頻譜信息情況下，在頻域中混合相應頻譜信息可以由根據本發明的實施例來執行。例如，比較可以基於心理聲學模型。比較還可以涉及與來自至少兩個不同輸入數據流的公共頻譜分量(例如，頻率或頻帶)相對應的頻譜信息。因此，該比較可以是聲道間比較。在比較基於心理聲學模型的情況下，從而可以考慮聲道間掩蔽來描述比較。根據第二方面，根據本發明的實施例基於以下發現在混合第一輸入數據流和第ニ輸入數據流以產生輸出數據流期間所執行的操作複雜度可以通過考慮與相應輸入數據流的有效載荷數據相關聯的控制值來降低，其中，控制值指示有效載荷數據表示相應音頻信號的相應頻譜信息或頻譜域的至少一部分的方式。在兩個輸入數據流的控制值相等的情況下，可以省略輸出數據流的相應幀處的頻譜域的方式的新判定，取而代之，輸出流產生可以僅依賴於已經存在的判定，並且統一由輸入數據流的編碼器來確定，即，採用輸入數據流的控制值。根據控制值所指示的方式，甚至能夠且優選地避免將相應有效載荷數據重新變換回到表示頻譜域的另一方式(例如，具有每時間/空間採樣ー個頻譜值的正常或普通方·式)。在後一種情況下，對有效載荷數據直接進行處理以獲得輸出數據流的相應效載荷數據，以及等於第一和第二輸入數據流的控制值的控制值可以例如通過PNS或以下更詳細描述的類似音頻特徵，利用意味著「不改變表示頻譜域的方式」的「方向性」來產生。在根據本發明實施例的實施例中，控制值僅與至少ー個頻譜分量有夫。此外，在根據本發明的實施例中，當第一輸入數據流和第二數據數據流的幀與關於兩個輸入數據流的適當幀序列的公共時間索引相對應時，可以執行這樣的操作。在第一和第二數據流的控制值不相等的情況下，根據本發明的實施例可以執行以下步驟將第一和第二輸入數據流之一的一個幀的有效載荷數據進行變換，以獲得另ー個輸入數據流的幀的有效載荷數據的表示。然後可以基於變換後的有效載荷數據和其他兩個流的有效載荷數據，產生輸出數據流的有效載荷數據。在一些情況下，根據本發明實施例，可以直接執行將一個輸入數據流的幀的有效載荷數據變換成其他輸入數據流的幀的有效載荷數據的表示，而無需將相應音頻信號變換回到普通(Plain)頻域。

以下，參考以下附圖來描述根據本發明的實施例。圖I示出了會議系統的框圖；圖2示出了基於一般音頻編解碼器的會議系統的框圖；圖3示出了使用比特流混合技術，在頻域中操作的會議系統的框圖；圖4示出了包括多個幀在內的數據流的示意圖；圖5示意了頻譜分量和頻譜數據或信息的不同形式；圖6更詳細示出了根據本發明實施例的用於對多個輸入數據流進行混合的設備；圖7示出了根據本發明實施例的圖6的設備的操作模式；圖8示出了在會議系統環境中根據本發明另ー實施例用於對多個輸入數據流進行混合的設備的框圖；圖9示出了根據本發明實施例的用於產生輸出數據流的設備的簡要框圖10示出了根據本發明實施例的用於產生輸出數據流的設備的更詳細框圖；圖11示出了在會議系統環境中根據本發明另ー實施例的用於從多個輸入數據流產生輸出數據流的設備的框圖；圖12a示出了用於PNS實現的根據本發明實施例的輸出數據流產生的操作；圖12b示出了用於SBR實現的根據本發明實施例的輸出數據流產生設備的操作；以及圖12c示出了用於M/S實現的根據本發明實施例的輸出數據流產生設備的操作。
具體實施例方式參照圖4至12C，更詳細描述根據本發明的不同實施例。然而，在更詳細描述這些實施例之前，首先參照圖I至3，考慮在會議系統的框架中可能變得重要的挑戰和需求，來給出簡要介紹。圖I示出了會議系統100的框圖，會議系統100也可以稱為多點控制單元(MCU)。從與其功能相關的描述中變得顯而易見，如圖I所示，會議系統100是在時域中操作的系統。如圖I所示，會議系統100適於經由合適數目的輸入110-1，110-2，110-3，...(圖I中僅示出其中3個)來接收多個輸入數據流。每個輸入110耦合至相應解碼器120。更準確地，針對第一輸入數據流的輸入110-1耦合至第一解碼器120-1，而第二輸入110-2耦合至第二解碼器120-2，第三輸入110-3耦合至第三解碼器120-3。會議系統100還包括合適數目的加法器130-1，130-2，130-3，...圖I仍示出了其中3個。姆個加法器與會議系統100的輸入110之一相關聯。例如，第一加法器130-1與第一輸入110-1和對應的解碼器120-1相關聯。每個加法器130耦合至所有解碼器120的輸出，但是輸入110所耦合的解碼器120除外。換言之，第一加法器130-1耦合至所有解碼器120，但第一解碼器120-1除外。相應地，第二加法器130-2耦合至所有解碼器120，但第二解碼器120-2除外。每個加法器130還包括耦合至一個編碼器140的輸出。因此，第一加法器130-1輸出耦合至第一編碼器140-1。相應地，第二和第三加法器130-2、130-3也分別耦合至第~■和第二編碼器140-2、140-3。繼而，每個編碼器140耦合至相應輸出150。換言之，例如第一編碼器耦合至第一輸出150-1。第二和第三編碼器140-2、140-3也分別耦合至第二和第三輸出150-2、150-3。為了能夠更詳細地描述圖I所示的會議系統100的操作，圖I還示出了第一參與者的會議終端160。會議終端160例如可以是數字電話(例如ISDN電話(ISDN =綜合業務數字網))、包括IP語音基礎設施的系統、或類似終端。會議終端160包括編碼器170，編碼器170耦合至會議系統100的第一輸入110_1。會議終端160還包括解碼器180，解碼器180耦合至會議系統100的第一輸出150-1。在其他參與者的站點處還可以有類似的會議終端160。僅為了簡單起見，圖I中未示出這些會議終端。還應當注意，會議系統100和會議終端160目前不需要在物理上彼此緊鄰。會議終端160和會議系統100可以布置在不同站點，例如可以僅通過WAN技術(WAN=廣域網)連接。
會議終端160還可以包括或連接至附加組件，如麥克風、放大器和揚聲器或耳機，以實現以更全面的方式與人類用戶交換音頻信號。僅為了簡單起見，圖I中未示出這些。如上所述，圖I中示出的會議系統100是在時域中操作的系統。例如，當第一參與者對麥克風(圖I中未示出)說話時，會議終端160的編碼器170將相應音頻信號編碼為對應比特流，並將比特流發送至會議系統100的第一輸入110-1。在會議系統100內，比特流由第一解碼器120-1解碼，並變換回時域。由於第一解碼器120-1耦合至第二和第三混合器130-1、130-3，因此通過簡單地將重構的音頻信號與分別來自第二和第三參與者的其他重構音頻信號相加，在時域中對第一參與者產生的音頻信號進行混合。對於分別由第二和第三輸入110-2、110_3接收並由第二和第三解碼器120-2、120-3處理的、由第二和第三參與者提供的音頻信號而言，也同樣如此。然後，將第二和第三參與者的這些重構音頻信號提供給第一混合器130-1，第一混合器130-1繼而將時域中的相加後的音頻信號提供給第一編碼器140-1。編碼器140-1對相加後的音頻信號進行重新·編碼，以形成比特流，並在第一輸出150-1處將其提供給第一參與者會議終端160。類似地，第二和第三編碼器140-2、140-3也對分別從第二和第三加法器130_2、130-3接收到的時域中相加後的音頻信號進行編碼，井分別經由第二和第三輸出150-2、150-3將編碼的數據發送回相應參與者。為了執行實際混合，以非壓縮形式對音頻信號進行完全解碼並相加。此後，可選地，可以通過對相應輸出信號進行壓縮來執行等級調整，以防止限幅效應(即超過允許值範圍)。當單採樣值升至允許值範圍以上或降至允許值範圍以下，使得對應值被截止(限幅)時，可能出現限幅。在16比特量化的情況下(如在CD情況下所採用的)，針對每採樣值，-32768與32767之間的整數值範圍可用。為了對抗對信號的可能的過度操作或操作不足，採用壓縮算法。這些算法限制了特定閾值以上或以下的發展，以將採樣值保持在可允許的值範圍內。在會議系統(如圖I所示的會議系統100)中對音頻數據進行編碼時，接受ー些缺點，從而以最容易可實現的方式，在未編碼狀態下執行混合。此外，附加地，編碼的音頻信號的數據速率被限制在所傳輸頻率的較小範圍，因為根據奈奎斯持-仙農採樣定理，較小的帶寬允許較低的採樣頻率，從而允許較少的數據。奈奎斯持-仙農採樣定理指出，採樣頻率取決於採樣信號的帶寬並且大小需要(至少)為該帶寬的2倍。國際電信聯盟(ITU)及其電信標準化部門(ITU-T)已經開發了針對多媒體會議系統的多個標準。H. 320是針對ISDN的標準會議協議。H. 323定義了針對基於分組的網絡(TCP/IP)的標準會議系統。H. 324定義了針對模擬電話網絡和無線通信系統的會議系統。在這些標準內，不僅定義了信號的傳輸，還定義了音頻數據的編碼和處理。由ー個或多個伺服器，根據標準H. 321的所謂多點控制單元(MCU)來進行會議的管理。多點控制単元還負責多個參與者的視頻和音頻數據的處理和分發。為了實現這一點，多點控制單元向姆個參與者發送包括所有其他參與者的音頻數據在內的混合輸出或生成信號，並將該信號提供給相應參與者。圖I不僅示出了會議系統100的框圖，還示出了這種會議情形下的信號流。在H. 323和H. 320標準的框架中，定義了 G. 7xx類別的音頻編解碼器以在相應會議系統中操作。標準G. 711用於線纜綁定的電話系統中的ISDN傳輸。在SkHz的採樣頻率處，G. 711標準覆蓋300至3400Hz之間的音頻帶寬，需要8比特(量化)深度的64Kbit/s的比特率。該編碼由產生僅0.125ms的非常低延遲的、稱為y律或A律的簡單對數編碼形成。G. 722標準以16kHz的採樣頻率，對從50至7000Hz的較大音頻帶寬進行編碼。因此，以1.5ms的延遲，在比特率48、56或64Kbit/s處，與頻帶更窄的G. 7xx音頻編解碼器相比，該編解碼器實現了更好的質量。此外，存在兩個其他改進G. 722. I和G. 722. 2，在甚至更低的比特率提供了可比的話音質量。G722. 2允許以25ms的延遲，在6. 6kbit/s與23. 85kbit/s之間進行比特率選擇。

G. 729標準典型用於IP電話通信(也稱為IP語音通信(VoIP))的情況。該編解碼器針對話音進行了優化，並發送分解的話音參數的集合，以便隨後與誤差信號一起進行合成。因此，與G. 711標準相比，G. 729標準以可比的採樣率和音頻帶寬，實現了近似Skbit/s的明顯更好的編碼。然而，這種更加複雜的算法造成了近似15ms的延遲。作為缺點，G. 7xx編解碼器是針對話音編碼進行優化的，除了較窄的頻率帶寬之夕卜，在對音樂與話音一起或者純音樂進行編碼時，表現出明顯的問題。因此，儘管在發送和處理話音信號時，如圖I所示的會議系統100可以用於可接受的質量，但是在採用針對話音優化的低延遲編解碼器吋，不能令人滿意地處理一般音頻信號。換言之，採用用於對話音信號進行編碼和解碼的編解碼器來處理一般音頻信號，包括例如具有音樂的音頻信號，在質量方面不能產生滿意的結果。如圖I所示，通過在會議系統100的框架中採用用於對一般音頻信號進行編碼和解碼的音頻編解碼器，能夠提高質量。然而，如在圖2的上下文中更詳細闡述的，在這種會議系統中採用一般音頻編解碼器可能導致其他不利效果，例如増大延遲(僅列出ー項)。然而，在更詳細地描述圖2之前，應當注意，在本描述中，當對象在實施例或附圖中出現多於一次，或者在多個實施例或附圖中出現時，使用相同或相似的參考標記來表示相應對象。除非另外進行顯式或隱式表示，使用相同或相似參考標記來表示的對象可以以相似或相等的方式來實現，例如在其電路、編程、特徵或其他參數方面。因此，在附圖的多個實施例中出現並且使用相同或相似的參考標記來表示的對象可以被實現為具有相同的規格、參數和特徵。自然，也可以實現改變和適配，例如在邊界條件或其他參數根據不同附圖或根據不同實施例而改變的情況下。此外，在以下概括中，參考標記將用於表示ー組或ー類對象，而不是單個對象。在圖I的框架中已經這樣做，例如在將第一輸入表不為110-1,將第二輸入表不為110-2,將第三輸入表示為110-3吋，已經僅以概括參考標記110的方式討論了這些輸入。換言之，除非另外顯式註明，與使用概括參考標記來表示的對象相關的描述的部分也與具有相應單獨參考標記的其他對象相關。由於對於使用相同或相似參考標記來表示的對象而言也是如此，這些措施有助於縮短描述並以更清楚和簡要的方式來描述其中公開的實施例。圖2示出了另ー會議系統100以及會議終端160的框圖，兩者都與圖I中所示的類似。圖2中示出的會議系統100還包括輸入110、解碼器120、加法器130、編碼器140和輸出150，這些以與圖I所示的會議系統100同樣的方式進行互連。圖2中所示的會議終端160也包括編碼器170和解碼器180。因此，參照圖I所示的會議系統100的描述。然而，圖2所示的會議系統100，以及圖2所示的會議終端160適於使用一般音頻編解碼器(編碼器-解碼器)。因此，編碼器140、170中的每ー個包括在量化器/編碼器200之前耦合的時間/頻率轉換器190的串聯連接。時間/頻率轉換器190在圖2中也示意為「T/F」，而圖2中將量化器/編碼器200標記為「Q/C」。解碼器120、180均包括解碼器/解量化器210 (圖2中稱為「Q/C-1 」)，與頻率/時間轉換器220(圖2中稱為「T/F-1」)串聯連接。僅為了簡單起見，僅在編碼器140-3和解碼器120-3的情況下，將時間/頻率轉換器190、量化器/編碼器200和解碼器/解量化器210以及頻率/時間轉換器220如此標記。然而，以下描述也涉及其他這種元件。從編碼器開始，如編碼器140或編碼器170，轉換器190將提供給時間/頻率轉換器190的音頻信號從時域轉換至頻域或頻率相關域。此後，在時間/頻率轉換器190產生的·頻譜表示中，對轉換後的音頻數據進行量化和編碼，以形成比特流，然後例如在編碼器140的情況下，將比特流提供給會議系統100的輸出150。對於解碼器，如解碼器120或解碼器180，首先對提供給解碼器的比特流進行解碼和重新量化，以形成至少一部分音頻信號的頻譜表示，然後，頻率/時間轉換器220將頻譜表示轉換回時域。因此，時間/頻率轉換器190，以及反轉元件，頻率/時間轉換器220，分別適於產生向其提供的至少一段音頻信號的頻譜表示和將頻譜表示重新變換為時域中的音頻信號的對應部分。再將音頻信號從時域轉換為頻域、以及從頻域轉換回時域的過程中，可能出現偏差，使得重新建立的、重構的、或解碼的音頻信號可能不同於原始或源音頻信號。在量化器編碼器200和重新編碼器210的框架中執行的量化和解量化的附加步驟可能加入另外的偽像。換言之，原始音頻信號，以及重新建立的音頻信號，可能互不相同。例如，時間/頻率轉換器190，以及頻率/時間轉換器220可以基於MDCT (修正離散餘弦變換)、MDST (修正離散正弦變換)、基於FFT的轉換器(FFT =快速傅立葉變換)或另一基於傅立葉的轉換器來實現。在量化器/編碼器200和解碼器/解量化器210的框架中的量化和重新量化可以例如基於線性量化、對數量化、或另一更複雜的量化算法(例如更具體地考慮人類的聽覺特性)來實現。量化器/編碼器200和解碼器/解量化器210的編碼器和解碼器部分可以例如通過採用霍夫曼編碼或霍夫曼解碼方案來工作。然而，在這裡描述的不同實施例和系統中，也可以採用更複雜的時間/頻率和頻率/時間轉換器190、220以及更複雜的量化器/編碼器和解碼器/解量化器200、210，作為例如AAC-ELD編碼器(作為編碼器140、170)和AAC-ELD解碼器(作為解碼器120、180)的一部分或形成AAC-ELD編碼器和AAC-ELD解碼器。不言自明，在會議系統100和會議終端160的框架中，實現相同或至少兼容的編碼器170、140和解碼器180、120是可取的。如圖2所示，基於一般音頻信號編碼和解碼方案的會議系統100還在時域中執行音頻信號的實際混合。向加法器130提供時域中的重構音頻信號，以執行疊加並向後續編碼器140的時間/頻率轉換器190提供時域中的混合信號。因此，會議系統再次包括解碼器120和編碼器140的串聯連接，這是如圖I和2所示的會議系統100典型地被稱為「串聯編碼系統」的原因。串聯(tandem)編碼系統通常表現出高複雜度的缺點。混合的複雜度高度依賴於所採用的解碼器和編碼器的複雜度，並且在多個音頻輸入和音頻輸出信號的情況下可能明顯倍増。此外，由於多數編碼和解碼方案是無損的事實，在圖I和2所示的會議系統100中採用的串聯編碼方案典型地造成對質量的負面影響。作為另ー缺點,解碼和編碼的重複步驟也加大了會議系統的輸入110和輸出150之間的總體延遲(也稱為端到端延遲)。根據所使用的解碼器和編碼器的初始延遲，會議系統100本身可能將延遲増大至使得在會議系統的框架中的使用變得沒有吸引力(如果不是惱人或甚至不可能的話)的程度。通常，50ms的延遲被認為是會話中參與者可以接受的最大延遲。作為延遲的主要來源，時間/頻率轉換器190以及頻率/時間轉換器220對會議系統110的端到端延遲負責，附加延遲由會議終端160施加。其他元件，即量化器/編碼器·200和解碼器/解量化器210造成的延遲相對次要，因為與時間/頻率轉換器和頻率/時間轉換器190、220相比，這些組件可以在更高得多的頻率上操作。多數時間/頻率轉換器和頻率/時間轉換器190、220是塊操作或幀操作的，這意味著，在許多情況下，必須考慮作為時間量的最小延遲，該最小延遲等於填充具有塊的幀的長度的緩衝器或存儲器所需的時間。然而該時間受到採樣頻率的顯著影響，採樣頻率典型地在幾kHz至幾十kHz的範圍內；而量化器/編碼器200以及解碼器/解量化器210的操作速度主要由基礎系統的時鐘頻率確定。這典型地要更大至少2、3、4或更多個數量級。因此，在採用一般音頻信號編解碼器的會議系統中，已經引入了所謂比特流混合技木。例如，比特流混合方法可以基於MPEG-4AAC-ELD編解碼器來實現，該編解碼器提供了避免上述由串聯編碼引入的至少ー些缺陷的可能性。然而，應當注意，原則上，如圖2所示的會議系統100還可以基幹與先前描述的G. 7xx編解碼器族的基於話音的碼相比具有類似比特率和明顯更大頻率帶寬的MPEG-4AAC-ELD編解碼器來實現。這直接還意味著，可以以明顯增大的比特率為代價，能夠實現針對所有信號類型的明顯更好的音頻質量。儘管MPEG-4AAC-ELD提供了在G. 7xx編解碼器延遲範圍內的延遲，但是，在圖2所示的會議系統的框架中實現MPEG-4AAC-ELD可能不能產生實際會議系統100。以下將關於圖3來概述基於前述所謂比特流混合的更實際的系統。應當理解，僅為了簡單起見，將主要關注MPEG-4AAC-ELD編解碼器及其數據流和比特流。然而，在如圖3中示意和示出的會議系統100的環境中，也可以採用其他編碼器和解碼器。圖3示出了如在圖2的上下文中描述的根據比特流混合原理來工作的會議系統100以及會議終端160的框圖。會議系統100本身是圖2中示出的會議系統100的簡化版本。更精確地，圖2中的會議系統100的解碼器120已經由圖3中示出的解碼器/解量化器220-1，220-2，210-3，...所取代。換言之，與圖2和3中示出的會議系統100相比，已經去除了解碼器120的頻率/時間轉換器120。類似地，圖2的會議系統100的編碼器140已經由量化器/編碼器200-1，200-2，200-3所取代。因此，與圖2和3中示出的會議系統100相比，已經去除了編碼器140的時間/頻率轉換器190。因此，加法器130不再在時域中操作，而是由於缺少頻率/吋間轉換器220和時間/頻率轉換器190而在頻域或頻率相關域中操作。例如，在MPEG-4AAC-ELD編解碼器的情況下，僅在會議終端160中出現的時間/頻率轉換器190和頻率/時間轉換器220基於MDCT變換。因此，在會議系統100內，混合器130直接在MDCT頻率表示中的音頻信號成分處。由於在圖2所示的會議系統100的情況下，轉換器190、220表示了延遲的主要來源，因此通過去除這些轉換器190、220，明顯減小了延遲。此外，還明顯減小了會議系統100內由兩個轉換器190、220引入的複雜度。例如，在MPEG-2AAC解碼器的情況下，在頻率/吋間轉換器220的框架中執行的逆MDCT變換佔總複雜度的近似20 %。由於MPEG-4轉換器也是基於類似變換，因此，通過從會議系統100中僅去除頻率/吋間轉換器220，可以去除總複雜度中並非無關緊要的成分。由於在MDCT變換的情況下或在類似的基於傅立葉的變換的情況下，這些變換是線性變換，因此可以在MDCT域或另ー頻域中混合音頻信號。因此，這些變換具有數學加性屬性，即f(x+y) = f(x)+f(y), (I)以及數學同質性，SP f (a X) = a f (X), (2)其中f (X)是變換函數，X和y是其適當自變量，a是實值或復值常數。MDCT變換或另一基於傅立葉的變換的這兩種特徵允許以在時域中混合相似的方式，在相應頻域中進行混合。因此，可以同樣地基於頻譜值來執行所有計算。不需要將數據變換至時域。在一些情況下，可能要滿足另一條件。針對所有相關頻譜分量，在混合過程中，所有相關頻譜數據就其時間索引而言應當相等。如果在變換期間採用所謂塊切換技術，使得會議終端160的編碼器可以根據特定條件在不同塊長度之間自由切換，則最終可能不滿足上述條件。由於在不同塊長度和對應的MDCT窗長度之間進行切換，除非要混合的數據已經以相同的窗進行處理，否則塊切換可能危及將各個頻譜值唯一分配給時域中的採樣的可能性。由於在具有分布式會議終端160的一般系統中，這可能最終得不到保證，因此可能需要複雜的插值，這繼而可能造成附加延遲和複雜度。因此，最終不基於塊長度切換來實現比特流混合過程可能是可取的。相反，AAC-ELD編解碼器基於單ー塊長度，因此能夠更容易地保證上述分配或頻率數據的同步，從而可以更容易地實現混合。換言之，圖3中所示的會議系統100是ー種能夠在變換域或頻域中執行混合的系統。如上所述，為了消除圖2所示的會議系統100中的轉換器190、200所引入的附加
延遲，在會議終端160中使用的編解碼器使用具有固定長度和形狀的窗。這使得在不將音頻流變換回時域的情況下，能夠直接實現所描述的混合處理。這種方式能夠限制額外引入的算法延遲量。此外，由於解碼器中不存在逆變換步驟，編碼器中不存在正變換步驟，因此降低了複雜度。然而，同樣在如圖3所示的會議系統100的框架中，可能需要在加法器130進行混合之後對音頻數據進行重新量化，這可能引入附加的量化噪聲。例如，由於提供給會議系統100的不同音頻信號的不同量化步長，可能造成附加量化噪聲。因此，例如在非常低比特率傳輸的情況下(其中量化步長的數目已經有限)，在頻域或變換域中混合兩個音頻信號的過程可能導致所產生的信號中不期望的附加噪聲量或其他失真。在以用於對多個輸入數據流進行混合的設備的形式來描述根據本發明的第一實施例之前，關於圖4來簡要描述數據流或比特流以及其中包括的數據。圖4示意性示出了比特流或數據流250，比特流或數據流250包括頻譜域中的至少ー個(或者更經常多於ー個)音頻數據幀260。更準確地，圖4示出了頻譜域中的3個音頻數據幀260-1、260-2和260-3。此外，數據流250還可以包括附加信息或附加信息塊270，例如指示音頻數據的編碼方式的控制值、其他控制值或與時間索引或其他相關數據有關的信息。自然，圖4中所示的數據流250還可以包括附加幀，或者幀260可以包括對於ー個聲道的音頻數據。例如，在立體聲音頻信號的情況下，每個幀260可以例如包括來自左聲道、右聲道的音頻數據，從左和右聲道導出的音頻數據、或上述數據的任何組合。因此，圖4示意了數據流250可以不僅包括頻譜域中的音頻數據幀，還包括附加控制信息、控制值、狀態值、狀態信息、協議相關值(例如校驗和)等等。根據如圖I至3的上下文所述的會議系統的具體實現，或者根據如下所述依照本發明實施例的設備的具體實現，具體地，根據關於圖9至12C描述的那些具體實現，指示幀的關聯有效載荷數據表示音頻信號的頻譜域或頻譜信息的至少一部分的方式的控制值可以同樣包括在幀260本身中，或者包括在附加信息的關聯塊270中。在控制值與頻譜分量有關的情況下，可以將控制值編碼到幀260本身中。然而，如果控制值與整個幀有關，則該控制值同樣可以包括在附加信息的塊270中。然而，如上所述，包括控制值的上述位置不需要包括在幀260或附加塊的塊270中。在控制值僅與單個或幾個頻譜分量有關的情況下，該控制值同樣可以包括在塊270中。另ー方面，與整個幀260有關的控制值也可以包括在中貞260中。圖5示意性示出了例如數據流250的幀260中包括的與頻譜分量有關的(頻譜)信息。更準確地，圖5示出了幀260的單一聲道的頻譜域中的信息的簡化圖。在頻譜域中，音頻數據幀可以例如以其強度值I (作為頻率f 的函數)來描述。在離散系統(例如數字系統)中，頻率解析度也是離散的，使得頻譜信息典型地僅針對特定頻譜分量(如單獨頻率或窄帶或子帯)而存在。單獨頻率或窄帶以及子帶被稱為頻譜分量。圖5示意性示出了針對6個單獨頻率300-1，. . .，300-6以及在圖5所示的情況下包括4個單獨頻率的頻帶或子帶310的強度分布。單獨頻率或對應窄帶300以及子帶或頻帶310形成頻譜分量，對於所述頻譜分量，幀包括與頻譜域中的音頻數據有關的信息。與子帶310有關的信息可以例如是總體強度或平均強度值。除了強度或其他與能量有關的值(如幅度)之外，相應頻譜分量本身的能量，或從能量或幅度、相位信息和其他信息導出的另ー值也可以包括在幀中，從而被視為與頻譜分量有關的信息。在描述了會議系統中所涉及的ー些問題以及ー些背景之後，對根據本發明第一方面的實施例進行描述，根據實施例，基於比較來確定輸入數據流，以便將至少部分頻譜信息從所確定的輸入數據流拷貝到輸出數據流，從而使得能夠省略重新量化，並因此消除了與重新量化相關聯的重新量化噪聲。
圖6示出了用於對多個輸入數據流510進行混合的設備500的框圖，示出了其中的兩個輸入數據流510-1、510-2。設備500包括適於接收數據流510並產生輸出數據流530的處理單元520。輸入數據流510-1、510-2中的每ー個分別包括類似於圖5的上下文中圖4所示的巾貞260的巾貞540-1、540-2，包括頻譜域中的音頻數據。這再次通過圖6所示的坐標系統來示意，在橫坐標上，示出了音頻數據的頻率f，在縱坐標上示出了音頻數據的強度I。輸出數據流530還包括輸出幀550，輸出幀550包括頻譜域中的音頻數據，並同樣由對應的坐標系統來示意。處理單元520適於將多個輸入數據流510的幀540-1、540-2進行比較。如以下更詳細概括，該比較例如可以基於心理聲學模型，考慮掩蔽效應以及人類聽カ特性的其他屬性。基於該比較結果，處理単元520還適於至少針對同時存在於兩個幀540-1、540-2中的一個頻譜分量(例如圖6所示的頻譜分量560)，精確確定多個數據流510中的一個數據流。然後，處理單元520可以適於產生包括輸出幀550在內的輸出數據流530，使得從相應輸入數據流510的確定的幀540拷貝與頻譜分量560有關的信息。
·
為了更精確，處理単元520適於對多個輸入數據流510的幀540的比較基於至少兩個信息段強度值是有關的能量值的信息、與兩個不同輸入數據流510的幀540中相同頻譜分量560相對應的信息。為了進一歩示意上述，圖7示意性示出了與頻譜分量560相對應的信息段(強度
I)的情況，這裡假定頻譜分量560是第一輸入數據流510-1的幀540-1的頻率或窄頻帯。將該信息與對應的強度值I進行比較，對應的強度值I是與第二輸入數據流510-2的幀540-2的頻譜分量560有關的信息段。例如，可以基於僅包括一些輸入流的混合信號與完整混合信號之間的能量比值的評估來進行比較。例如，這可以根據以下等式來實現En(3)
21 = 1以及Ef^ " S ￡i(4)
n / I根據以下等式來計算比值r(n)
Er (n) = 20 ■ Iog^-(5)其中n是輸入數據流的索引，N是所有或有關輸入數據流的數目。如果比值r(n)足夠高，則可以認為輸入數據流510的次要聲道或次要幀被主要聲道或主要幀所掩蔽。因此，可以處理不相關性減小，意即僅包括流中完全可察覺的頻譜分量，而丟棄其他流。在等式(3)至(5)的框架中要考慮的能量值可以例如通過計算相應強度值的平方而從圖6所示強度值導出。在與頻譜分量有關的信息可以包括其他值的情況下，可以根據幀510中包括的信息的形式來執行類似計算。例如，在復值信息的情況下，可能必須執行計算組成與頻譜分量有關的信息的各個值的實部和虛部的摸。除了各個頻率之外，針對根據等式(3)至(5)的心理聲學模型的應用，等式(3)和
(4)中的和值可以包括多於ー個頻率。換言之，在等式(3)和⑷中，可以使用與多個單獨頻率相對應的總能量值(頻帶的能量)來代替相應能量值￡，或者更一般而言，可以使用與一個或多個頻譜分量有關的單一頻譜信息或多個頻譜信息來代替相應能量值En。例如，由於AAC-ELD以逐頻帶方式對頻譜線進行操作，與人類聽覺系統同時處理的頻率組相似，可以以類似方式執行不相關性估計或心理聲學模型。通過以這種方式來應用心理聲學模型，可以在必要時僅去除或取代単一頻帶的信號的部分。如心理聲學實驗已經表明，信號被另一信號掩蔽取決於相應信號類型。可以應用最壞情況場景作為不相關性確定的最小閾值。例如，為了使用正弦或另ー獨特而良好定義的聲音來掩蔽噪聲，典型地需要21至28dB的差值。測試已經表明，近似28. 5dB的閾值得到良好的替代結果。還考慮所考慮的實際頻帶，可以最終改進該值。因此，在心理聲學評估或者基於所考慮的頻譜分量的不相關性評估方面，根據等式(5)大於-28.5dB的值r(n)可以被認為不相關。對於不同的頻譜分量，可以使用不同的值。因此，對於所考慮的幀，使用IOdB至40dB、20dB至30dB、或25dB至30dB的閾值作為輸·入數據流的心理聲學不相關性的指示符可以被認為是有用的。在圖7所示的情況下，這意味著關於頻譜分量560，確定第一輸入數據流510-1，而關於頻譜分量560丟棄第二輸入數據流510-2。因此，至少部分將與頻譜分量560相關的信息段從第一輸入數據流510-1的幀540-1拷貝到輸出數據流530的輸出幀550。這如圖7中的箭頭570所示。同時，如虛線580所示，省略與其他輸入數據流510的幀540(即，在圖7中輸入數據流510-2的幀540-2)的頻譜分量560相關的信息。換言之，例如可以用作MCU或會議系統100的設備500適於，與其輸出幀550 —起產生輸出數據流530，使得僅從確定的輸入數據流510-1的幀540-1拷貝對輸出數據流530的輸出幀550的頻譜分量560加以描述的對應頻譜分量的信息。自然地，設備500還可以適於，從輸入數據流拷貝與多於ー個頻譜分量相關的信息，省略至少關於這些頻譜分量的其他輸入數據流。此外，設備500或其處理單元520適於，使得對於不同的頻譜分量，確定不同的輸入數據流510。輸出數據流530的相同輸出幀550可以包括與來自不同輸入數據流510的不同頻譜分量相關的拷貝頻譜信息。自然，實現設備，使得在輸入數據流510中的幀序列540的情況下，在比較和確定期間僅考慮與相似或相同的時間索引相對應的幀540是可取的。換言之，圖7示出了根據實施例的用於對如上所述多個輸入數據流進行混合的設備的操作原理。如上所述，在對所有輸入流進行解碼的情況下，以直接方式進行混合，這包括到時域的逆變換、混合以及再次對信號進行重新編碼。圖6至8的實施例基於在相應編解碼器的頻域中進行的混合。可能的編解碼器應當是AAC-ELD編解碼器，或者具有均勻變換窗的任何其他編解碼器。在這樣的情況下，不需要時間/頻率變換以能夠混合相應數據。根據本發明實施例的實施例利用以下事實能夠訪問所有比特流參數，例如量化步長和其他參數，以及可以使用這些參數來產生混合的輸出比特流。圖6至8的實施例利用以下事實可以通過源頻譜線或頻譜信息的加權求和來執行與頻譜分量相關的頻譜線或頻譜信息的混合。加權因子可以是0或1，或者原則上，可以是0和I之間的任何值。0值意味著將源視為無關並且根本不使用源。諸如頻帶或縮放因子頻帶之類的線組可以使用相同加權因子。然而，如上所述，加權因子(例如，0和I的分布)可以針對單個輸入數據流510的單個幀540的頻譜分量而變化。此外，在混合頻譜信息時不必專門使用加權因子0或I。可以是以下情況不針對輸入數據流510的幀540的總體頻譜信息中的單一一個頻譜信息，而是針對多個頻譜信息，相應加權因子可以不同於0或I。ー種具體情況是，將ー個源(輸入數據流510)的所有頻帶或頻譜分量設置為因子1，將其他源的所有因子設置為O。在這種情況下，一個參與者的完整輸入比特流相同地被拷貝為最後混合比特流。可以逐幀地計算加權因子，但是也可以基於較長幀組或幀序列來計算。自然，甚至在這樣的幀序列內或者單個幀內，如上所述，加權因子也可以針對不同頻譜分量而不同。可以根據心理聲學模型的結果來計算或確定加權因子。已經利用等式(3)、(4)和(5)在上文中描述了心理聲學模型的示例。心理聲學模型或相應模型計算僅包括一些輸入流來產生能量值Ef的混合信號與具有能量值E。的完整混合信號之間的能量比值r(n)。然後，將能量比值r(n)計算為Ef除以E。的對數的20倍。如果該比值足夠高，則可以認為主要聲道掩蔽了次要聲道。因此，處理不相關性減小，意味著僅包括完全不可察覺的、具有加權因子I的流，而所有其他流(一個頻譜分量的至少ー個頻譜信息)被丟棄。換言之，使這些流具有加權因子O。可以得到以下優點由於重新量化步長的數目減少，串聯編碼的效應較少出現或不出現。由於每個量化步長表現出減小附加量化噪聲的顯著風險，因此可以通過採用用於對多個輸入數據流進行混合的設備的形式的根據本發明的實施例來提高音頻信號的總體質量。這可以是以下情況，當如圖6所示的設備500的處理單元520適於產生輸出數據流530，以便維持與確定的輸入流或輸入流的一部分的幀的量化級分布可比的量化等分布。換言之，通過拷貝並因此通過重新使用相應數據，而不對頻譜信息進行重新編碼，可以忽略附加量化噪聲的引入。此外，會議系統，例如具有多於兩個參與者採用以上關於圖6至8描述的任何實施例的電視/視頻會議系統，可以提供與時域混合相比複雜度較低的優點，這是由於可以省略時間-頻率變換步驟和重新編碼步驟。此外，與時域中進行混合相比，由於不存在濾波器組延遲，這些組件未造成另外的延遲。總之，例如，上述實施例可以適於，使得不對與完全從ー個源獲取的頻譜分量相對應的頻帶或頻譜信息進行重新量化。因此，僅對被混合的頻帶或頻譜信息進行重新量化，這減少了附加量化噪聲。因此，上述實施例也可以在不同應用中使用，例如感知噪聲替換(PNS)、時間噪聲成形(TNS)、頻譜帶複製(SBR)、和立體聲編碼模式。在描述能夠處理PNS參數、TNS參數、SBR參數或立體聲編碼參數中的至少ー個的設備的操作之前,將參照圖8對這種實施例進行更詳細描述。圖8示出了用於對多個輸入數據流進行混合的設備500的示意框圖，設備500包括處理單元520。更準確地，圖8示出了一種高靈活性的設備500，能夠處理輸入數據流(比特流)中編碼的差異較大的音頻信號。因此，以下將描述的ー些組件是可選組件，不需要在所有情況下都實現。針對處理單元520要處理的每個輸入數據流或編碼的音頻比特流，處理單元520包括比特流解碼器700。僅為了簡單起見，圖8僅示出了兩個比特流解碼器700-1、700-2。自然，根據要處理的輸入數據流的數目，可以實現更多數目或更少數目的比特流解碼器700(如果例如比特流解碼器700能夠順序處理多於ー個輸入數據流)。比特流解碼器700-1以及其他比特流解碼器700-2，...均包括比特流讀取器710，比特流讀取器710適於接收信號並處理接收的信號，以及隔離和提取比特流中包括的數據。例如，比特流讀取器710可以適於將輸入數據與內部時鐘同步，還可以適於將輸入比特流分離為合適的幀。比特流解碼器700還包括=Huffman解碼器720，耦合至比特流讀取器710的輸出以從比特流讀取器710接收隔離的數據。Huffman解碼器720的輸出耦合至解量化器730 (也稱為反量化器)。耦合在Huffman解碼器720之後的解量化器730後接縮放器740。Huffman解碼器720、解量化器730和縮放器740形成第一單元750，在第一單元750的輸出處，相應輸入數據流的音頻信號的至少一部分在參與者的編碼器(圖8中未示出)所操作的頻域或頻率相關域中可用。比特流解碼器700還包括第二単元760，按數據耦合在第一単元750之後。第二單元760包括立體聲解碼器770 (M/S模塊)，其後耦合有PNS解碼器。PNS解碼器780按數據後接TNS解碼器790，TNS解碼器790與PNS解碼器780 —起在立體聲解碼器770處形成第二單元760。除了所描述的音頻數據的流程之外，比特流解碼器700還包括與控制數據有關的不同模塊之間的多個連接。更準確地，比特流讀取器710也耦合至Huffman解碼器720以接收合適的控制數據。此外，Huffman解碼器720直接耦合至縮放器740以向縮放器740發送縮放信息。立體聲解碼器770、PNS解碼器780和TNS解碼器790也均耦合至比特流讀取器710以接收合適的控制數據。處理單元520還包括混合単元800，混合単元800繼而包括頻譜混合器810，頻譜混合器810按輸入耦合至比特流解碼器700。頻譜混合器810可以例如包括ー個或多個加法器，以在頻域中執行實際混合。此外，頻譜混合器810還可以包括乘法器，以允許比特流解碼器700提供的頻譜信息的任意線性組合。混合単元800還包括優化模塊820，按數據耦合至頻譜混合器810的輸出。然而，優化模塊820還耦合至頻譜混合器810以向頻譜混合器810提供控制信息。優化模塊820按數據表示混合單元800的輸出。混合単元800還包括SBR混合器830，直接耦合至不同比特流解碼器700的比特流讀取器710的輸出。SBR混合器830的輸出形成混合單元800的另ー輸出。處理單元520還包括比特流編碼器850，耦合至混合単元800。比特流編碼器850包括第三單元860，第三單元860包括TNS編碼器870、PNS編碼器880和立體聲編碼器890 (以所描述的順序串聯耦合)。因此，第三単元860形成比特流解碼器700的第一単元750的反單元。比特流編碼器850還包括第四単元900，第四単元900包括縮放器910、量化器920和Huffman編碼器930 (形成第四単元的輸入與其輸出之間的串聯連接)。因此，第四単元900形成第一單元750的反模塊。相應地，縮放器910直接耦合至Huffman編碼器930，以向Huffman編碼器930提供相應控制數據。比特流編碼器850還包括比特流寫入器940，耦合至Huffman編碼器930的輸出。此外，比特流寫入器940還耦合至TNS編碼器870、PNS編碼器ggO、立體聲編碼器890和Huffman編碼器930，以從這些模塊接收控制數據和信息。比特流寫入器940的輸出形成處理單元520的輸出和設備500的輸出。比特流編碼器850還包括心理聲學模塊950，也耦合至混合単元800的輸出。比特流編碼器850適於向第三単元860的模塊提供合適的控制信息，例如指示在第三単元860的単元的框架中，哪個單元可以用於對混合単元800輸出的音頻信號進行編碼。因此，原則上，在第二単元760的輸出直至第三単元860的輸入處，如發送方側使用的編碼器所定義的，可以在頻譜域中處理音頻信號。然而，如上所述，如果例如輸入數據流之ー的幀的頻譜信息是主要的，則最終可以不需要完整的解碼、解量化、解縮放和另外的處理步驟。然後將相應頻譜分量的頻譜信息的至少一部分拷貝至輸出數據流的相應幀的頻譜分量。為了允許這種處理，設備500和處理單元520包括另外的信號線來進行優化的數據交換。為了在圖8所示的實施例中允許這種處理，Huffman解碼器720的輸出，以及縮放器740、立體聲解碼器770和PNS解碼器780的輸出，與其他比特流讀取器710的相應組件·一起，耦合至混合単元g00的優化模塊820，以進行相應處理。在相應處理之後，為了便於比特流編碼器850內的相應數據流，還實現了針對優化數據流的對應數據線。更準確地，優化模塊820的輸出耦合至PNS編碼器780的輸入，立體聲編碼器890、第四單元900的輸入和縮放器910，以及Huffman編碼器930的輸入。此夕卜，優化模塊820的輸出還直接耦合至比特流寫入器940。如上所述，幾乎所有上述模塊都是可選模塊，不必需實現這些可選模塊。例如，在音頻數據流僅包括單一聲道的情況下，可以省去立體聲編碼和解碼單元770、890。相應地，在沒有基於PNS的信號要處理的情況下，也可以省去對應的PNS解碼器和PNS編碼器780、880。在要處理的信號和要輸出的信號不基於TNS數據的情況下，還可以省去TNS模塊790、870。在第一和第四單元750、900內，還可以最終省去反量化器730、縮放器740、量化器920以及縮放器910。Huffman解碼器720和Huffman編碼器930可以以不同方式實現,使用不同算法，或者完全省略。例如，如果不存在數據的SBR參數，則最終也可以省略SBR混合器830。此外，可以以不同方式實現頻譜混合器810，以與優化模塊820和心理聲學模塊860協作。因此，認為這些模塊也是可選組件。對於設備500以及其中包括的處理單元520的操作模式，比特流讀取器710首先讀取輸入的輸入數據流並將其分離為合適的信息。在Huffman解碼之後，最終，得到的頻譜的信息可以由解量化器730重新量化，並由解縮放器740進行合適縮放。此後，根據輸入數據流中包括的控制信息，在立體聲解碼器770的框架中，可以將輸入數據流中編碼的音頻信號分解為兩個或多個聲道的音頻信號。如果例如音頻信號包括中聲道(M)和側聲道(S)，則通過將中聲道和側聲道數據相加或相減，可以獲得對應的左聲道和右聲道數據。在許多實現中，中聲道與左聲道和右聲道音頻數據之和成比例，而側聲道與左聲道(L)與右聲道(R)之差成比例。根據實現方式，可以考慮因子1/2來對上述聲道進行相加和/或相減，以防止限幅效應。一般而言，線性組合可以處理不同聲道以產生對應聲道。換言之，在立體聲解碼器770之後，如果合適，可以將音頻數據分解為兩個単獨的聲道。自然，立體聲解碼器770還可以執行反解碼。如果例如比特流讀取器710接收的音頻信號包括左和右聲道，則立體聲解碼器770同樣可以計算或確定合適的中聲道和側聲道數據。不僅根據設備500的實現，還根據提供相應輸入數據流的參與者的編碼器的實現，相應數據流可以包括PNS參數(PNS=感知噪聲替換)。PNS基於以下事實在有限的頻率範圍或頻譜分量(如頻帶或単獨的頻率)中，人耳很可能無法將類似噪聲的聲音與合成產生的噪聲區分開。因此，PNS將音頻信號中實際類似噪聲的成分替換為指示要合成引入相應頻譜分量的噪聲電平並忽略實際音頻信號的能量值。換言之，PNS解碼器780可以在一個或多個頻譜分量中，基於輸入數據流中包括的PNS參數，來產生實際類似噪聲的音頻信號成分。對於TNS解碼器790和TNS編碼器870，可能必須將相應音頻信號變換回相對於在發送方側操作的TNS模塊而言未修改的版本。時間噪聲成形(TNS)是用於減小量化噪聲導致的預回聲偽像的手段，該偽像可能存在於音頻信號幀中類似瞬變的信號的情況下。為了對抗這種瞬變，從頻譜的低側、頻譜的高側或者頻譜的兩側開始，對頻譜信息應用至少ー個·自適應預測濾波器。可以對預測濾波器的長度以及應用相應濾波器的頻率範圍進行適配。換言之，TNS模塊的操作基於計算ー個或多個自適應IIR濾波器(IIR =無限衝激響應)，並通過編碼和發送對預測和實際音頻信號之間的差值進行描述的誤差信號以及預測濾波器的濾波器係數來進行。因此，可以提高音頻質量，同時通過在頻域中應用預測濾波器來處理類似瞬變的信號，以減小其餘誤差信號的幅度(然後，可以使用與以類似的量化噪聲對類似瞬變的音頻信號進行直接編碼相比較少的量化步長來對其餘誤差信號進行編碼)，從而維持發送方數據流的比特率。對於TNS應用，在一些情況下採用TNS解碼器760的功能來對輸入數據流的TNS部分進行解碼，以達到所使用的編解碼器所確定的、頻譜域中的「純」表示是可取的。如果不能基於TNS參數中包括的預測濾波器的濾波器係數已經估計出心理聲學模型(例如應用於心理聲學模塊950中的心理聲學模型)的估計，則應用TNS解碼器790的功能是有用的。在至少ー個輸入數據流使用TNS而另ー個不使用TNS的情況下，這尤其重要。當處理單元基於輸入數據流的幀的比較確定要使用來自使用TNS的輸入數據流的幀的頻譜信息吋，TNS參數可以用於輸出數據的幀。如果例如出於不兼容性的原因，輸出數據流的接收者不能解碼TNS數據，則不拷貝誤差信號的相應頻譜數據以及和另外的TNS參數，而根據TNS相關數據來處理重構數據以獲得頻譜域中的信息，並且不使用TNS編碼器870可能是有用的。這再次示意了，不需要實現圖8中所示的組件或模塊的部分，但可選地可以保留。在對PNS數據進行比較的至少ー個音頻輸入流的情況下，可以應用類似的策略。如果在針對輸入數據流的頻譜分量對幀進行的比較中表明一個輸入數據流在其當前幀和相應頻譜分量方面是主導的，則也可以將相應PNS參數(即相應能量值)直接拷貝至輸出幀的相應頻譜分量。然而，如果接收者不能接受PNS參數，則可以通過使用相應能量值指示的合適的能量等級來產生噪聲，從而根據相應頻譜分量的PNS參數來重構頻譜信息。然後，可以在頻譜域中相應地處理噪聲數據。如上所述，發送的數據還包括SBR數據，可以在SBR混合器830中處理該SBR數據。頻譜帶複製(SBR)是ー種基於相同頻譜的貢獻和較低部分來複製音頻信號的頻譜的一部分的技木。因此不需要傳輸頻譜的較高部分，除了通過採用適當的時間/頻率柵格以頻率相關和時間相關方式描述能量值的SBR參數以外。因此，根本不需要傳輸頻譜的較高部分。為了能夠進ー步提高重構信號的質量，可以在頻譜的較高部分中添加附加的噪聲貢獻和正弦波貢獻。更具體地，對於交叉頻率fx之上的頻率，根據創建了特定數目的子帶信號(例如，32個子帶信號)的QMF濾波器組(QMF =正交鏡像濾波器)來分析音頻信號，這些子帶信號具有通過等於或與QMF濾波器組子帶數目(例如，32或64)成比例的因子所降低的時間解析度。因此，可以確定時間/頻率柵格，時間/頻率柵格在時間軸上包括兩個或多個所謂的包封，並且對於每個包封，包括描述頻譜的相應較高部分的7到16個能量值。此外，SBR參數可以包括與附加噪聲和正弦波相關的信息，然後這些附加噪聲和正弦波通過上述時間頻率柵格，在強度方面被衰減或確定。·在基於SBR的輸入數據流相對於當前幀是主要輸入數據流的情況下，可以執行將相應SBR參數連同頻譜分量一同拷貝。再次，如果接收方不能對基於SBR的信號進行解碼，則可以執行到頻域中的相應重構，然後根據接收方的需要對重構信號進行編碼。由於SBR允許兩個編碼立體聲聲道，對左聲道和右聲道單獨編碼，以及在耦合聲道(C)方面對左聲道和右聲道進行編碼，因此，根據本發明的實施例，對相應SBR參數或至少其部分進行拷貝可以包括根據比較結果和確定結果，將SBR參數的C元素拷貝至要確定和發送的SBR參數的左和右元素，或者反之。此外，由於在本發明的不同實施例中，輸入數據流可以分別包括單聲道以及包括一個和兩個單獨聲道的立體聲音頻信號，因此，在產生輸出數據流的幀的相對頻譜分量的信息的一部分時，可以附加地執行單聲道至立體聲上混或立體聲至單聲道下混。如之前的描述所示，對與頻譜分量和頻譜信息相關的頻譜信息和/或相應參數(例如，TNS參數、SBR參數、PNS參數)進行拷貝的程度可以基於不同數目的要拷貝數據，並且可以確定是否還需要拷貝基本頻譜信息或基礎頻譜信息中的頻譜信息。例如，以下操作是可取的在拷貝SBR數據的情況下，拷貝相應數據流的整個幀，以防止針對不同頻譜分量的頻譜信息的複雜混合。混合這些信息需要實際上可以減少量化噪聲的重新量化。在TNS參數方面，拷貝相應TNS參數以及從主要輸入數據流至輸出數據流的整個幀的頻譜信息，以防止重新量化是可取的。在基於PNS的頻譜信息的情況下，拷貝各個能量值而不對作為基礎頻譜分量進行拷貝是可行的方式。此外，在這種情況下，通過僅將相應PNS參數從多個輸入數據流的幀的主要頻譜分量拷貝至輸出數據流的輸出幀的對應頻譜分量，不引入附加的量化噪聲。應當注意，同樣通過對PNS參數形式的能量值的重新量化，不會引入附加量化噪聲。如上所述，上述實施例還可以通過以下來實現在比較多個輸入數據流的幀之後，以及在基於所述比較，針對輸出數據流的輸出幀的頻譜分量，確定正好一個數據流為頻譜信息的源之後，簡單地拷貝與頻譜分量相關的頻譜信息。在心理聲學模塊950的框架中執行的替換算法檢查與生成的信號的基礎頻譜分量(例如頻帶)相關的每個頻譜信息，以標識僅具有單一有效分量的頻譜分量。對於這些頻帶，可以從編碼器拷貝輸入比特流的相應輸入數據流的量化值，而不對指定頻譜分量的相應頻譜數據進行重新編碼或重新量化。在一些情況下，所有量化數據可以從單一有效輸入信號取得，以形成輸出比特流或者輸出數據流，使得對於設備500而言能夠實現輸入數據流的無損編碼。此外，可以省略編碼器內如心理聲學分析之類的處理步驟。這允許縮短編碼過程，從而降低計算複雜度，因為原則上僅將數據從ー個比特流拷貝入另ー比特流必須在特定情況下執行。例如，在PNS的情況下，可以執行替換，因為PNS編碼的頻帶的噪聲因子可以從輸出數據流之ー拷貝至輸出數據流。可以使用合適的PNS參數來替換各個頻譜分量，因為PNS參數是針對頻譜分量指定的，或者換言之，是互相獨立的非常好的近似。然而，可能出現以下情況所描述的算法的兩個有力應用可能得到退化的收聽體驗或者不利的質量降低。因此，將替換限制在各個幀，而不是與各個頻譜分量相關的頻譜信息，是可取的。在這種操作模式中，可以不變地執行不相關性估計或不相關性確定以及替換分析。然而，在這種操作模式中，僅當有效幀內的所有或至少大量頻譜分量可替換時，才執行替換。儘管這可能導致較少次數的替換，在一些情況下，可以改進頻譜信息的內在強度，得到甚至略微改進的質量。在下文中，根據本發明第二方面的實施例可以根據以下來描述考慮那些與相應輸入數據流的有效載荷數據相關聯的控制值，控制值指示有效載荷數據表示相應音頻信號的相對頻譜信息或頻譜域的至少一部分的方式，其中，在兩個輸入數據流的控制值相等的情況下，可以避免對輸出數據流的相應幀處的頻譜域的方式的新判定，取而代之，輸出流產生依賴於輸入數據流的編碼器已經確定的判定。根據以下描述的ー些實施例，可以避免將相應有效載荷數據重新變換回到表示頻譜域的另ー種方式(例如，具有每時間/頻譜採樣ー個頻譜值的正常或普通方式)。如上所述，根據本發明的實施例基於在所有輸入流被解碼的意義上以直接的方式進行的混合，這包括反變換至時域、混合和再次對信號重新編碼。根據本發明的實施例基於在相應編解碼器的頻域中進行的混合。ー種可能的編解碼器可以是AAC-ELD編解碼器，或者具有均勻變換窗的任何其他編解碼器。在這種情況下，不需要時間/頻率變換以能夠對相應數據進行混合。此外，可以訪問所有比特流參數，如量化步長和其他參數，可以使用這些參數來產生混合的輸出比特流。此外，與頻譜分量相關的頻譜線或頻譜信息的混合可以通過源頻譜線或頻譜信息的加權和來執行。加權因子可以是0或1，或者原則上可以是0和I之間的任何值。0值意味著將源視為不相關並且將完全不使用。線組，如頻帶或縮放因子頻帶，可以使用相同的加權因子。針對單一輸入數據流的單ー幀的頻譜分量，加權因子(例如0和I的分布)可以改變。此外，以下描述的實施例在混合頻譜信息時，不需要排他地使用0或I的加權因子。可以有如下情況在一些情況下，不是針對單ー情況，而是針對輸入數據流的幀的多個總體頻譜信息，相應加權因子可以不同於0或I。ー種特殊情況在於，ー個源(輸入數據流)的所有頻帶或頻譜分量被設置為因子1，而其他源的所有因子被設置為O。在這種情況下，一個參與者的完整輸入比特流被相同地拷貝為最終混合比特流。可以逐幀計算加權因子，但是可以基於更長的幀組或序列來計算或確定加權因子。自然，如上所述，即使在這種幀序列之內或者在單ー幀之內，加權因子也可以針對不同頻譜分量而不同。在一些實施例中，可以根據心理聲學模型的結果來計算或確定加權因子。例如，這樣的比較可以基於其中僅包括一些輸入流的混合信號與完整混合信號之間的能量比值的評估。例如，這可以如關於等式(3)至(5)所描述的來實現。換言之，心理聲學模型可以計算僅包括一些輸入流以得到能量值Ef的混合信號與具有能量值E。的完整混合信號之間的能量比值r(n)。然後，將能量比值r(n)計算為Ef除以E。的對數的20倍。相應地，類似於關於圖6至8的上述實施例描述，如果該比值足夠高，則可以認為主要聲道掩蔽了次要聲道。因此，處理不相關性減小，意味著僅包括完全不可察覺的、具有加權因子I的流，而所有其他流(一個頻譜分量的至少ー個頻譜信息)被丟棄。換言之，使這些流具有加權因子O。可以得到以下優點由於重新量化步長的數目減少，串聯編碼的效應較少出現或不出現。由於每個量化步長表現出減小附加量化噪聲的顯著風險，因此可以提高音頻信號的總體質量。·
類似於圖6至8的上述實施例，以下描述的實施例可以與會議系統(例如具有多於兩個參與者的電話/視頻會議系統)一同使用，並且與時域混合相比，這種會議系統可以提供較低複雜度的優點，因為可以省略時間-視頻變換步驟和重新編碼步驟。此外，與在時域中進行混合相比，由於不存在濾波器組延遲，這些組件未造成另外的延遲。圖9示出了根據本發明實施例的用於對輸入數據流進行混合的設備500的簡要框圖。採用了圖6至8的實施例中的多數附圖標記，以便容易理解並避免重複描述。其他附圖標記大於1000，以便表示與以上圖6至8的實施例相比，以不同方式定義的相同功能，附加功能或備選功能，但是具有可比較的相應元件的一般功能。基於第一輸入數據流510-1、和第二輸入數據流510-2，包括在設備1500中的處理單元1520適於產生輸出數據流1530。第一和第二輸入數據流510分別包括幀541-1、540-2，相應地幀541-1、541-2分別包括控制值1541-1、1541-2，控制值1541-1、1541-2分別指示幀540的有效載荷數據表示音頻信號的頻譜域或頻譜信息的至少一部分的方式。輸出數據流530還包括具有控制值555的輸出幀1550，控制值555以類似的方式指示輸出幀550的有效載荷數據表示在輸出數據流530中編碼的音頻信號的頻譜域中的頻譜信息的方式。設備1500的處理器單元1520適於，將第一輸入數據流510_1的幀540_1的控制值1541-1與第二輸入數據流510-2的幀540-2的控制值1542-2進行比較，以獲得比較結果。基於該比較結果，處理器單元1520還適於產生包括輸出幀550在內的輸出數據流530，使得當比較結果指示第一和第二輸入數據510的幀540的控制值1541等同或相等時，輸出幀550包括等於兩個輸入數據流510的幀540的控制值1545的值作為控制值1550。通過在頻譜域中進行的處理(即，不訪問時域)，針對幀540的相同控制值1545，從幀540的對應有效載荷數據中導出輸出幀550中包括的有效載荷數據。例如，如果控制值1545指示一個或多個頻譜分量(例如，PNS數據)的頻譜信息的專用編碼，並且兩個輸入數據流的相應控制值1545相同，則可以通過直接對頻譜域中的對應有效載荷數據進行處理(即，不離開頻譜域的表示類型)，來獲得輸出幀550中與相同頻譜分量相對應的對應頻譜信息。如下所述，在基於PNS頻譜表示的情況下，這可以通過以下來實現對相應PNS數據進行求和，可選地，通過歸ー化處理來完成。即，均不將兩個輸入數據流的PNS數據轉換回到具有每頻譜採樣ー個值的普通表示中。圖10示出了主要針對處理單元1520的內部結構不同於圖9的設備1500的更詳細框圖。為了更具體，處理單元1520包括比較器1560，比較器1560耦合至針對第一和第二輸入數據流510的適當輸入，並且適於將它們的相應幀540的控制值1545進行比較。此外，將輸入數據流提供至針對兩個輸入數據流510中的每ー個的可選變換器1570-1、1570-2。比較器1560還耦合至可選變換器1570，以向可選變換器1570提供比較結果。處理單元1520還包括混合器1580，混合器1580按輸入耦合至可選變換器1570，或者在沒有實現ー個或多個變換器1570的情況下，耦合至輸入數據流510的對應輸入。混合器1580的輸出耦合至可選歸ー化器1590，如果實現了歸ー化器1590，則歸ー化器1590與處理器單元1520的輸出和設備1500的輸出耦合，以提供輸出數據流530。

如上所述，比較器1560適於將兩個輸入數據流510的幀1540的控制值進行比較。比較器1560向變換器1570(如果實現)提供對相應幀540的控制值1545是否相同加以指示的信號。如果表示比較結果的信息指示兩個控制值1545至少相對於ー個頻譜分量是相同或相等的，則變換器1570不對幀540中所包括的相應有效載荷數據進行變換。然後包括在輸入數據流510的幀540中的有效載荷數據由混合器1580進行混合，並且向歸ー化器1590 (如果實現)輸出，以執行歸ー化步驟，從而確保生成的值高於或低於允許的值範圍。以下在圖12a至12c的上下文中更詳細描述對有效載荷數據進行混合的示例。可以將歸一化器1590實現為適於根據有效載荷數據的相應值分別對有效載荷數據進行重新量化的量化器，備選地，歸ー化器1590還適於根據其具體實現僅改變指示量化步驟的分布縮放因子，或最小或最大量化級的絕對值。在比較器1560指示控制值1545至少相對於ー個或多個頻譜分量是不同的情況下，比較器1560可以向變換器1570中的一個或兩個變換器1570提供相應控制信號，該相應控制信號指示相應變換器1570將輸入數據流510中的至少ー個的有效載荷數據變換成其他輸入數據流的有效載荷數據。在這種情況下，變換器可以適於同時改變變換後的幀的控制值，使得混合器1580能夠產生輸出數據流530的輸出幀550，該輸出幀550具有等於兩個輸入數據流中沒有變換的幀540的控制值的控制值1555，或者具有兩個幀540的有效載荷數據的公共值。以下在分別針對不同應用(例如，PNS實現、SBR實現和M/S實現)的圖12a至12c的上下文中描述更詳細示例。應當指出，圖9至圖12C的實施例不限於圖9、10和即將描述的圖11中所示的兩個輸入數據流1510-1、1510-2。而是，這些實施例可以適於對包括多於兩個輸入數據流510的多個輸入數據流進行處理。在這種情況下，例如，比較器1560可以適於將適當數目的輸入數據流510進行比較，以及將輸入數據流510中包括的幀540進行比較。此外，根據具體實現，也可以實現適當數目的變換器1570。混合器1580連同可選歸ー化器1590 —起可以最終適於增加數目的要處理數據流。在僅多於兩個輸入數據流510的情況下，比較器1560可以適於將輸入數據流510的所有相關控制值進行比較，以判斷是否通過ー個或多個可選實現的變換器1570來執行變換步驟。備選或附加地，比較器1560還可以適於，在比較結果指示至有效載荷數據的表示的通常方式的變換是可實現的情況下，確定要由變換器1570變換的輸入數據流集合。例如，除非所涉及的有效載荷數據的不同表示需要特定表示，否則比較器例如可以適於，以使總複雜度最小化的方式來激活變換器1570。例如，這可以基於存儲在比較器1560內或者以不同方式可用於比較器1560的複雜度值的預定估計。此外，應當注意，例如當可選地根據需要通過混合器1580執行到頻域的變換吋，變換器1570最終是可省略的。備選或附加地，變換器1570的功能也可以合併到混合器1580中。此外，應當注意，幀540可以包括多於ー個控制值，例如，感知噪聲替換(PNS)、時間噪聲成形(TNS)、和立體聲編碼模式。在描述能夠處理PNS參數、TNS參數或立體聲編碼參數中的至少ー個的設備的操作之前，參照圖11，圖11與圖8相同，但是其中用附圖標記1500和1520分別代替500和520，以便示出圖8已經示出了用於根據第一和第二輸入數據·流產生輸出數據流的實施例，其中，處理單元520和1520還可以分別適於執行關於圖9和10描述的功能。具體地，在處理單元1520內，包括頻譜混合器810、優化模塊820和SBR混合器830的混合単元800執行關於圖9和10提出的上述功能。如上所述，包括在輸入數據流的幀中的控制值同樣可以是PNS參數、SBR參數或與立體聲編碼相關的控制數據，換言之，M/S參數。在相應控制值相等或等同的情況下，混合単元800可以對有效載荷數據進行處理，來產生要進ー步處理以包括在輸出數據流的輸出幀中的對應有效載荷數據。關於這一點，如上所述，由於SBR允許針對兩個編碼立體聲聲道，來分別對左聲道和右聲道進行編碼，以及在耦合聲道(C)方面對左聲道和右聲道進行編碼，因此，根據本發明的實施例，對相應SBR參數或至少其部分進行拷貝可以包括根據比較結果和確定結果，將SBR參數的C元素拷貝至要確定和發送的SBR參數的左和右元素，或者反之。類似的，對與頻譜分量相關的頻譜信息和/或相應參數(例如，TNS參數、SBR參數、PNS參數)進行處理的程度可以基於不同數目的要處理數據，並且可以確定是否還需要對基本頻譜信息或基礎頻譜信息中的頻譜信息進行解碼。例如，在拷貝SBR數據的情況下，對相應數據流的整個幀進行處理，以防止針對不同頻譜分量的頻譜信息的複雜混合是可取的。混合這些信息需要實際上可以減少量化噪聲的重新量化。在TNS參數方面，將相應TNS參數以及整個幀的頻譜信息從主要輸入數據流分解至輸出數據流，以防止重新量化是可取的。在基於PNS的頻譜信息的情況下，對各個能量值進行處理而不對基礎頻譜分量進行拷貝是可行的方式。此外，在這種情況下，通過僅處理從多個輸入數據流的幀的主要頻譜分量至輸出數據流的輸出幀的對應頻譜分量的相應PNS參數，不引入附加的量化噪聲。應當注意，同樣通過對PNS參數形式的能量值的重新量化，不會引入附加量化噪聲。關於圖12A至12C，將更詳細描述基於相應控制值的比較對有效載荷數據進行混合的三種不同模式。圖12a示出了根據本發明實施例的設備500的基於PNS的實現的示例，而圖12b示出了設備500的類似SBR實現，圖12c示出了設備500的M/S實現。圖12a示出了具有第一和第二輸入數據流510-1、510_2的示例,第一和第二輸入數據流510-1、510-2分別具有適當輸入幀540-1、540-2以及相應控制值545_1、545_2。如圖Ila中的箭頭所示，輸入數據流510的幀540的控制值1545指示，沒有在頻譜信息方面間接描述頻譜分量，但是在噪聲源的能量值方面(換言之，通過適當PNS參數)描述頻譜分量。更具體地，圖12a示出了第一 PNS參數2000-1和包括PNS參數2000-2的第二輸入數據流510-2的幀540-2。關於圖12a，由於假定兩個輸入數據流510的兩個幀540的控制值1545指示特定頻譜分量要其相應PNS參數2000來代替，如上所述，處理單元1520和設備1500能夠對兩個PNS參數2000-1、2000-2進行混合，以獲得要包括在輸出數據流530中的輸出幀550的PNS參數2000-3。輸出幀550的相應控制值1555實質上還指示，相應頻譜分量要由混合後的PNS參數2000-3來代替。通過示出PNS參數2000-2，在圖12a中示出了該混合過程，PNS參數2000-2是相應幀540-1、540-2的組合的PNS參數2000-1、2000-2。然而，PNS參數2000-3 (也被稱作PNS輸出參數)的確定也可以基於線性組合根據以下等式來實現
權利要求
1.一種用於對多個輸入數據流進行混合的設備(500)，其中輸入數據流(510)各包括頻譜域中的音頻數據的幀，輸入數據流(510)的幀(540)包括針對多個頻譜分量的頻譜信息，所述設備(500)包括處理單元(520)，適於基於心理聲學模型，考慮聲道間掩蔽，比較多個輸入數據流(510)的幀，其中，處理單元(520)還適於基於所述比較，針對輸出數據流(530)的輸出幀(550)的頻譜分量，確定多個輸入數據流(510)的正好一個輸入數據流(510)；其中，處理單元(520)還適於通過拷貝確定的輸入數據流(510)的幀(540)的對應頻譜分量的信息中的至少一部分，以描述輸出數據流(530)的輸出幀(550)的頻譜分量，來產生輸出數據流。
2.根據權利要求I所述的設備(500)，其中，處理單元(520)適於使得對多個輸入數據流(510)的幀的比較是基於與兩個不同輸入數據流(510)的幀(540)的相同頻譜分量相對應的至少兩個頻譜信息的。
3.根據權利要求I所述的設備，其中，設備(500)適於使得多個頻譜分量中的頻譜分量與頻率或頻帶相對應。
4.根據權利要求I所述的設備(500)，其中，處理單元(520)適於使得產生輸出數據流包括僅從確定的輸入數據流(510)的幀拷貝對應頻譜分量的信息中的至少一部分，以描述輸出數據流(530)的輸出幀(550)的頻譜分量。
5.根據權利要求I所述的設備(500)，其中，處理單元(520)適於使得產生輸出數據流包括從確定的輸入數據流(510)的幀拷貝頻譜域中與頻譜分量相對應的音頻數據。
6.根據權利要求I所述的設備(500)，其中，多個輸入數據流(510)的輸入數據流(510)各包括關於時間的頻譜域中的音頻數據的幀序列，其中，處理單元(520)適於使得對幀(540)的比較基於僅與幀序列的公共時間索引相對應的幀。
7.根據權利要求I所述的設備(500)，其中，處理單元(520)適於使得產生輸出數據流(530)保持與確定的輸入流(510)的幀的對應頻譜分量的信息中的至少一部分的量化級分布可比的量化級分布。
8.根據權利要求I所述的設備(500)，其中，對應頻譜分量的信息中的至少一部分包括與量化級、感知噪聲替換(PNS)參數、時間噪聲替換(TNS)參數或頻譜帶複製(SBR)參數有關的信息。
9.根據權利要求I所述的設備(500)，其中，處理單元(520)還適於基於比較來執行確定，以使得針對不同頻譜分量中的每一個，確定多個輸入數據流(510)的正好一個輸入數據流(510)，以及其中，處理單元(520)還適於通過以下操作來產生輸出數據流針對不同頻譜分量中的每一個，拷貝確定後的輸入數據流(510)的幀(540)的相應頻譜分量的信息中的至少一部分，以描述輸出數據流(530)的輸出幀(550)的相應頻譜分量，使得輸出數據流(530)的輸出幀已經在其中拷貝了來自多個輸入數據流中的不同輸入數據流的相應頻譜分量的信息中的至少一部分，或者，其中，處理單元(520)還適於基於比較來執行確定，以使得針對第一頻譜分量，確定多個輸入數據流(510)的正好一個輸入數據流(510)，並且針對第二頻譜分量不確定主導輸入數據流，以及處理單元(520)還適於通過以下操作來產生輸出數據流針對第一頻譜分量，拷貝確定後的輸入數據流(510)的幀(540)的相應頻譜分量的信息中的至少一部分，以描述輸出數據流(530)的輸出幀(550)的第一頻譜分量，使得輸出數據流(530)的輸出幀已經在其中拷貝了來自確定後的輸入數據流的第一頻譜分量的信息中的至少一部分，並且混合頻譜域中的多個數據輸入流的第二頻譜分量，以描述輸出數據流(530)的輸出幀(550)的第二頻譜分量。
10.一種用於對多個輸入數據流(510)進行混合的方法，其中，輸入數據流(510)各包括頻譜域中的音頻數據的幀(540)，輸入數據流(510)的幀(540)包括多個頻譜分量，所述方法包括基於心理聲學模型，考慮聲道間掩蔽，比較多個輸入數據流(510)的巾貞(540), 基於所述比較，針對輸出數據流(530)的輸出幀(550)的頻譜分量，確定多個輸入數據流(510)的正好一個輸入數據流(510)；通過拷貝確定的輸入數據流(510)的幀的對應頻譜分量的信息中的至少一部分，來描述輸出數據流(530)的輸出幀的頻譜分量，來產生輸出數據流(530)。
11.一種電腦程式，當在處理器上運行時，執行根據權利要求10所述的用於對多個輸入數據流(510)進行混合的方法。
全文摘要
描述了一種用於對多個輸入數據流(510)進行混合的設備(500)，其中輸入數據流(510)各包括頻譜域中的音頻數據的幀(540)，輸入數據流(510)的幀(540)包括針對多個頻譜分量的頻譜信息。所述設備(500)包括處理單元(520)，適於比較多個輸入數據流(510)的幀(540)；基於所述比較，針對輸出數據流(530)的輸出幀(550)的頻譜分量，確定多個輸入數據流(510)的正好一個輸入數據流(510)；通過拷貝確定的輸入數據流(510)的幀的對應頻譜分量的信息中的至少一部分，以描述輸出數據流(530)的輸出幀(550)的頻譜分量，來產生輸出數據流。
文檔編號G10L21/02GK102789782SQ201210232608
公開日2012年11月21日申請日期2009年3月4日優先權日2008年3月4日
發明者曼弗雷德·盧茨基, 馬庫斯·施內爾, 馬庫斯·馬特拉斯申請人:弗勞恩霍夫應用研究促進協會

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

對輸入數據流進行混合以及從中產生輸出數據流的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法