會議系統的音頻處理方法及裝置與流程

2023-05-13 10:40:31 5

本發明涉及通信技術領域，具體涉及一種會議系統的音頻處理方法及裝置。

背景技術：

在信息化越來越發達的今天，視頻會議系統(包括如qq、msn等即時通訊的多人視頻對話)也越來越重要，其中，聲音作為視頻系統中的一個組成部分有著舉足輕重的地位。

當下大多數會議系統都將所有與會終端的音頻數據發送到一個媒體平臺即媒體處理單元(mediaprocessunit，簡稱為mpu)，由該媒體處理單元統一進行解碼、混音、編碼的處理。

在終端數量不多的情況下，該設計模式具有較好的工作性能。然而隨著現在會議系統越來越大，接入的終端越來越多，從而導致流入中心媒體處理單元的待解碼音頻數據越來越多。因此，在進行數據解碼的過程中，佔用大量的系統核心處理器性能，使得整個系統的性能下降。例如，一個8方會議，音頻解碼的核心處理器佔用比率只有8％；一個192方會議，音頻解碼的核心處理器佔用比率達到300％。由此可見，隨著與會終端數量的上升，即便與會終端中絕大多數都是不說話的，語音數據是靜音雜音的終端，但是系統性能下降非常明顯。

為解決上述技術問題，目前採用的技術是：在接收到音頻碼流之後通過音量值判斷是否對相應的音頻碼流進行解碼。如公開號cn101489091a的專利文獻公開了，發送端獲取語音數據碼流及其對應的音量值；將語音數據碼流及對應的音量值一起發送給接收端，其中所述的語音數據碼流實質上是指接收端接收到的音頻數據碼流。在該方案中，接收端接收語音數據碼流及其對應的音量值之後，判斷音量值的大小，如果大於業務策略所需的音量在值，則對該音量值對應的語音數據碼流進行解碼。然而，該方案對於人聲音量很小的終端則會產生問題，導致該類音頻直接被丟棄，而不會進行相應的解碼處理。例如電話的採集的人聲音量通常都比較小，而採用上述技術方案在進行語音信息的處理過程中，會將電話的聲音直接丟棄，從而導致其他終端都無法獲取到電話的聲音。

技術實現要素：

因此，本發明要解決的技術問題在於現有技術中容易將包含有人聲但音量比較小的終端發送過來的音頻碼流丟棄、不解碼，從而提供一種會議系統的音頻處理方法及裝置。

根據第一方面，本發明實施例提供一種會議系統的音頻處理方法，包括如下步驟：

接收終端側發送的音頻碼流，所述音頻碼流的每一音頻幀攜帶有對應的音頻信息；

對當前音頻幀對應的音頻信息進行解析，得到解析結果；

判斷所述解析結果中是否存在有效語音信息，其中，所述有效語音信息用於表示參會人員講話發出的音頻；

當所述解析結果中存在所述有效語音信息時，對所述當前音頻幀進行解碼。

可選地，當所述解析結果中不存在所述有效語音信息時，獲取所述解析結果中用於表示所述當前音頻幀能量的能量值；

判斷所述能量值是否大於等於預設閾值；

當所述能量值大於等於所述預設閾值時，對所述當前音頻幀進行解碼。

可選地，當所述能量值小於所述預設閾值時，判斷所述當前音頻幀的前一音頻幀是否解碼；

當所述當前音頻幀的前一音頻幀已經解碼，則對所述當前音頻幀及後續連續n幀音頻幀進行解碼，其中，n為預設值。

可選地，對所述當前音頻幀及後續連續n幀音頻幀進行解碼包括：

對所述當前音頻幀進行解碼，並且解碼狀態值加1；

判斷所述解碼狀態值是否達到預設值；

當所述解碼狀態值未達到所述預設值時，則獲取下一音頻幀，將所述下一音頻幀作為當前音頻幀，返回對所述當前音頻幀進行解碼的步驟。

可選地，當所述解碼狀態值達到所述預設值時，則將當前音頻幀丟棄，將所述解碼狀態值復位；獲取下一音頻幀，將下一音頻幀作為當前音頻幀，返回所述對當前音頻幀對應的音頻信息進行解析，得到解析結果的步驟。

根據第二方面，本發明提供一種會議系統的音頻處理裝置，包括：

接收單元，用於接收終端側發送的音頻碼流，所述音頻碼流的每一音頻幀攜帶有對應的音頻信息；

解析單元，用於對當前音頻幀對應的音頻信息進行解析，得到解析結果；

第一判斷單元，用於判斷所述解析結果中是否存在有效語音信息，其中，所述有效語音信息用於表示參會人員講話發出的音頻；

第一解碼單元，用於當所述解析結果中存在所述有效語音信息時，對所述當前音頻幀進行解碼。

可選地，該音頻處理裝置還包括：

獲取單元，用於當所述解析結果中不存在所述有效語音信息時，獲取所述解析結果中用於表示所述當前音頻幀能量的能量值；

第二判斷單元，用於判斷所述能量值是否大於等於預設閾值；

第二解碼單元，用於當所述能量值大於等於所述預設閾值時，對所述當前音頻幀進行解碼。

可選地，該音頻處理裝置還包括：

第三判斷單元，用於當所述能量值小於所述預設閾值時，判斷所述當前音頻幀的前一音頻幀是否解碼；

第三解碼單元，用於當所述當前音頻幀的前一音頻幀已經解碼，則對所述當前音頻幀及後續連續n幀音頻幀進行解碼，其中，n為預設值。

可選地，所述第三解碼單元包括：

解碼子單元，用於對所述當前音頻幀進行解碼，並且解碼狀態值加1；

判斷子單元，用於判斷所述解碼狀態值是否達到預設值；

獲取子單元，用於當所述解碼狀態值未達到所述預設值時，則獲取下一音頻幀，將所述下一音頻幀作為當前音頻幀，返回對所述當前音頻幀進行解碼的步驟。

根據第三方面，本發明實施例提供一種媒體平臺，包括至少一個處理器；以及與所述至少一個處理器通信連接的存儲器；其中，所述存儲器存儲有可被所述一個處理器執行的指令，所述指令被所述至少一個處理器執行，以使所述至少一個處理器執行本發明第一方面任一項所述的音頻處理方法。

本發明技術方案，具有如下優點：

1.本發明提供的會議系統的音頻處理方法，包括如下步驟：接收終端側發送的音頻碼流，音頻碼流的每一音頻幀攜帶有對應的音頻信息；對當前音頻幀對應的音頻信息進行解析，得到解析結果；判斷解析結果中是否存在有效語音信息，其中，有效語音信息用於表示參會人員講話發出的音頻；當解析結果中存在有效語音信息時，對當前音頻幀進行解碼。本發明通過判斷音頻碼流中是否包含有效語音信息，即是否包含有人聲，從而能夠對參會人員的所有講話信息進行解碼，一方面能夠避免將終端側發送的音頻碼流全部解碼，進而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬於人聲音的音頻碼流丟棄、不解碼，進而提高了會議系統的音頻處理效果。

2.本發明提供的音頻處理方法，當所述解析結果中不存在所述有效語音信息時，獲取所述解析結果中用於表示所述當前音頻幀能量的能量值；判斷所述能量值是否大於等於預設閾值；當所述能量值大於等於所述預設閾值時，對所述當前音頻幀進行解碼。本發明通過在判斷出音頻碼流中不存在有效語音時，再次對不存在有效語音的音頻碼流進行能量值的判斷，將能量值大於等於預設閾值的音頻信息進行解碼，從而能夠避免在有效語音判斷過程中出現誤差，進而提高了會議系統音頻處理的效果。

3.本發明提供的音頻處理方法，當所述能量值小於所述預設閾值時，判斷所述當前音頻幀的前一音頻幀是否解碼；當所述當前音頻幀的前一音頻幀已經解碼，則對所述當前音頻幀及後續連續n幀音頻幀進行解碼，其中，n為預設值。通過對能量值小於預設閾值的音頻信息進行連續解碼的判斷，一方面能夠為音頻碼流的能量值判斷提供一定的誤差範圍，另一方面連續的解碼能夠保證會議系統的音頻的連貫性。

4.本發明提供的音頻處理裝置，包括：接收單元，用於接收終端側發送的音頻碼流，所述音頻碼流的每一音頻幀攜帶有對應的音頻信息；解析單元，用於對當前音頻幀對應的音頻信息進行解析，得到解析結果；第一判斷單元，用於判斷所述解析結果中是否存在有效語音信息，其中，所述有效語音信息用於表示參會人員講話發出的音頻；第一解碼單元，用於當所述解析結果中存在所述有效語音信息時，對所述當前音頻幀進行解碼。本發明提供的音頻處理裝置通過判斷音頻碼流中是否包含有效語音信息，即是否包含有人聲，從而能夠對參會人員的所有講話信息進行解碼，一方面能夠避免將終端側發送的音頻碼流全部解碼，進而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬於人聲音的音頻碼流丟棄、不解碼，進而提高了會議系統的音頻處理效果。

附圖說明

為了更清楚地說明本發明具體實施方式或現有技術中的技術方案，下面將對具體實施方式或現有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖是本發明的一些實施方式，對於本領域普通技術人員來講，在不付出創造性勞動的前提下，還可以根據這些附圖獲得其他的附圖。

圖1為本發明實施例的應用場景示意圖；

圖2為本發明實施例1中會議系統的音頻處理方法的一個具體示例的方法流程圖；

圖3為本發明實施例2中會議系統的音頻處理方法的一個具體示例的方法流程圖；

圖4為本發明實施例3中會議系統的音頻處理方法的一個具體示例的方法流程圖；

圖5為本發明實施例3中會議系統的音頻處理方法的一個具體示例的方法流程圖；

圖6為本發明實施例4中會議系統的音頻處理裝置的一個具體示例的結構框圖；

圖7為本發明實施例4中會議系統的音頻處理裝置的一個具體示例的結構框圖；

圖8為本發明實施例4中會議系統的音頻處理裝置的一個具體示例的結構框圖；

圖9為本發明實施例4中會議系統的音頻處理裝置的一個具體示例的結構框圖；

圖10為本發明實施例4中會議系統的音頻處理裝置的一個具體示例結構框圖；

圖11為本發明實施例5中媒體平臺的一個具體示例的結構框圖。

具體實施方式

下面將結合附圖對本發明的技術方案進行清楚、完整地描述，顯然，所描述的實施例是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都屬於本發明保護的範圍。

在本發明的描述中，需要說明的是，術語「第一」、「第二」、「第三」僅用於描述目的，而不能理解為指示或暗示相對重要性。

此外，下面所描述的本發明不同實施方式中所涉及的技術特徵只要彼此之間未構成衝突就可以相互結合。

圖1示出了本發明實施例的應用場景示意圖。會議系統包括終端側和媒體平臺，其中終端可以為多臺。圖1中示出了包括兩個會議終端的情況，即會議系統包括媒體平臺、第一終端和第二終端。其中，第一終端和第二終端可以是音頻碼流採集終端，例如智慧型手機、平板電腦等移動客戶端，也可以是專用的音視頻會議系統終端。

通常情況下，會議系統的工作過程如下，終端側實時採集與會人員的音頻信息，將其轉換成音頻幀封裝後發送給媒體平臺，媒體平臺對所接收的音頻幀進行音頻處理後，發送給其他終端。

具體地，在本發明實施例中，終端側實時採集參會人員的音頻，對該音頻信息進行採樣、量化和編碼轉換為離散的數字音頻碼流。在將數字音頻碼流封裝成數據幀進行發送時，是根據傳輸協議進行的。常用的音頻傳輸協議有基於http的流媒體傳輸協議，(httplivestreaming)、實時消息傳送協議(realtimemessagingprotocol，簡稱為rtmp)以及實時傳輸協議(real-timetransportprotocol，簡稱為rtp)等等。在本發明實施例中，根據rtp協議進行音頻幀的封裝。在該音頻幀除了包括有音頻數據的內容，在幀的rtp擴展頭上增加有效狀態值的變量標記bhasvioce，用於表示該音頻幀中是否包含有效語音信息，以及能量值的變量標記byrms，用於表示該音頻幀的能量值。

其中，有效語音信息用於表示參會人員講話發出的音頻，本發明實施例中的有效語音信息是通過語音活動檢測(voiceactivitydetection，簡稱為vad)來識別的，具體地，對音頻碼流的頻率進行採樣，通過分析採樣點中的頻率信息來識別，由於人的有效發生頻率基本不超過4khz，因此，只需要檢測4khz以下頻率中攜帶的能量值大小即可，從而能夠簡化計算過程，提高工作效率。若通過vad識別出該音頻碼流中存在有效語音，則將bhasvioce設置為第一參數；若通過vad識別出該音頻碼流中不存在有效語音，則將bhasvioce設置為第二參數；其中，第一參數、第二參數可以為任意字符或數字。作為一種可選的實施方式，本實施例中，第一參數設置為1，表示該音頻幀中存在有效語音；第二參數設置為0，表示該音頻幀中不存在有效語音。通過1、0分別表示第一參數和第二參數，從而能夠簡化音頻幀的封裝，為媒體平臺的解碼提供了便利。

此外，本發明實施例中對音頻幀的音量進行採樣，對採樣值進行處理後，形成上述的變量byrms的具體數值。作為一種可選的實施方式，對該音頻碼流的能量值進行均方根歸一化處理，具體採用如下公式計算：

其中，byrms為能量值，n為採樣點的個數，ai為能量的各採樣值。

作為另一種可選的實施方式，對該音頻幀的能量值進行對數歸一化處理，具體採用如下公式計算：

其中，a為常數，byrms為能量值，n為採樣點的個數，ai為能量的各採樣值，m為採樣深度。

本發明實施例中，將音頻幀的能量值通過上述公式進行歸一化處理，即將能量值的數值設置為(-∞，0)。作為一種可選的實施方式，將能量值的最小值歸一化處理為-127，即能量值的數值為(-127，0)。由於音頻能量值在-127以下時，人耳不能識別出該音頻，因此，選用-127作為能量值的最小值能夠簡化計算過程，提高工作效率。

本發明實施例中，a可以為5、10或20等等，採樣深度可以為8位、16位，也可以為24位，本發明實施例中採用的採樣深度為16位，a＝20，既能保證採樣精度，又能簡化計算過程，提高工作效率。

本發明實施例中的終端側，通過將有效語音狀態值以及能量值的變量標記以及對應的數值封裝至音頻幀中。終端側實時採集參會人員的音頻，經過採樣、量化編碼後，形成由音頻幀構成的音頻碼流，發送至媒體平臺。

實施例1

本實施例提供一種會議系統的音頻處理方法，應用於媒體平臺的音頻處理裝置中，流程圖如圖2所示，包括如下步驟：

步驟s11，接收終端側發送的音頻碼流，音頻碼流的每一音頻幀攜帶有對應的音頻信息；其中，該音頻信息可以是封裝在音頻幀內的音頻碼流的屬性信息，例如能量值、有效語音狀態值等等。

步驟s12，對當前音頻幀對應的音頻信息進行解析，得到解析結果。

本實施例中，通過對當前音頻幀所攜帶的音頻信息進行解析，提取出當前音頻幀幀頭上的音頻信息。

步驟s13，判斷解析結果中是否存在有效語音信息，若是則進入步驟s14，否則執行其他操作。

本實施例中的有效語音信息是通過音頻幀幀頭上的有效狀態值對應的變量標記bhasvioce進行標記的，作為本實施例的一種可選實施方式，當bhasvioce＝1時，表示該音頻幀中存在有效語音；當bhasvioce＝0時，表示該音頻幀中不存在有效語音。因此，在步驟s13中，只需判斷解析結果中變量bhasvioce的數值，即可判斷出該音頻幀中是否存在有效語音。

此外，本實施例中的其他操作，可以是將不存在有效語音信息的音頻幀丟棄，也可以是根據解析結果中的其他音頻信息，例如能量值，對該音頻幀進行解碼。

步驟s14，對當前音頻幀進行解碼。

本實施例中，可以採用pcm解碼、mp3解碼、ogg解碼以及mpc解碼方式對當前音頻幀進行解碼。作為一種可選的實施方式，本實施例中採用pcm解碼方式進行，能夠保證解碼過程具有很強的抗幹擾性，而且可以很方便的利用計算機編程，不增加或少增加成本，實現該會議系統的各種智能化設計。

上述會議系統的音頻處理方法，通過判斷音頻碼流中是否包含有效語音信息，即是否包含有人聲，從而能夠對參會人員的所有講話信息進行解碼，一方面能夠避免將終端側發送的音頻碼流全部解碼，進而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬於人聲音的音頻碼流丟棄、不解碼，進而提高了會議系統的音頻處理效果。

實施例2

本實施例提供一種會議系統的音頻處理方法，應用於媒體平臺的音頻處理裝置中，流程圖如圖3所示，包括如下步驟：

步驟s21，接收終端側發送的音頻碼流，音頻碼流的每一音頻幀攜帶有對應的音頻信息。與實施例1中的步驟s11相同，不再贅述。

步驟s22，對當前音頻幀對應的音頻信息進行解析，得到解析結果。與實施例1中的步驟s12相同，不再贅述。

步驟s23，判斷解析結果中是否存在有效語音信息，若是則進入步驟s24，否則執行步驟s25。

步驟s24，對當前音頻幀進行解碼。與實施例1中的步驟s14相同，不再贅述。

步驟s25，獲取解析結果中用於表示當前音頻幀能量的能量值。

本實施例中，音頻幀的能量值是通過在該音頻幀幀頭上的能量值的變量標記byrms進行表示的。通過對能量值進行歸一化處理，轉換為(-127,0)之間的數值，即byrms∈(-127,0)。

步驟s26，判斷能量值是否大於等於預設閾值，若是則進入步驟s24，否則執行其他操作。

本實施例中，將上述步驟s25中所獲取的當前音頻幀能量的能量值與預設閾值進行比較。該預設閾值為[-55，-45]，作為本實施例的一種可選實施方式，預設閾值為-50，從而既能夠較好地隔絕當前音頻幀中噪音，又能夠保證在終端側誤判為無效語音值的音頻幀信號提取出，進而提高了音頻處理的效果。因此，在步驟s26中，僅需判斷音頻幀幀頭上的能量值的變量標記byrms的具體數值是否大於等於-50，即可將能量值較小但屬於有效語音的音頻幀提取出來。

此外，本實施例中的其他操作，可以是將能量值小於預設閾值的音頻幀丟棄，也可以是根據前一音頻幀的解碼狀態，對該音頻幀進行解碼。

實施例3

本實施例提供一種會議系統的音頻處理方法，應用於媒體平臺的音頻處理裝置中，流程圖如圖4所示，包括如下步驟：

步驟s31，接收終端側發送的音頻碼流，音頻碼流的每一音頻幀攜帶有對應的音頻信息。與實施例2中的步驟s21相同，不再贅述。

步驟s32，對當前音頻幀對應的音頻信息進行解析，得到解析結果。與實施例2中的步驟s22相同，不再贅述。

步驟s33，判斷解析結果中是否存在有效語音信息，若是則進入步驟s34，否則執行步驟s35。與實施例2中的步驟s23相同，不再贅述。

步驟s34，對當前音頻幀進行解碼。與實施例2中的步驟s24相同，不再贅述。

步驟s35，獲取解析結果中用於表示當前音頻幀能量的能量值。與實施例2中的步驟s25相同，不再贅述。

步驟s36，判斷能量值是否大於等於預設閾值，若是則進入步驟s34，否則執行步驟s37。

步驟s37，判斷當前音頻幀的前一音頻幀是否解碼，若是則進入步驟s38，否則執行步驟s39。

步驟s38，對當前音頻幀及後續連續n幀音頻幀進行解碼，其中，n為預設值。

其中，預設值根據終端側與媒體平臺之間的音頻傳輸協議進行設置的。本實施例中的音頻傳輸協議採用rtp協議，每一幀rtp數據就對應著一幀音頻數據。作為本實施例的一種可選實施方式，預設值為20，即本實施例中的音頻處理方法可以對當前音頻幀及後續連續20幀音頻幀進行解碼。上述20幀對應著一個時間概念，一般20幀的時間長度就能達到500ms。而人說話吐字間隔基本在100ms-300ms，只有持續的解碼超過300ms才能保證該終端不會被頻繁替換。因此，本實施例中的保證連續20幀音頻幀解碼的音頻處理方法，從而能夠保證音頻質量與處理之前無差別。

作為本實施例的一種可選實施方式，如圖5所示，步驟s38具體包括以下步驟：

步驟s381，對當前音頻幀進行解碼，並且解碼狀態值加1。

本實施例中，在對音頻幀進行處理之前，解碼狀態值設置為0，在音頻處理過程中，每執行一次解碼操作，解碼狀態值加1。作為本實施例的一種可選實施方式，可以在步驟s381之前，對當前音頻幀的能量值進行放大，然後在執行步驟s381，從而使得媒體平臺輸出的處理後音頻幀的能量能夠滿足與會人員的需求。

步驟s382，判斷所述解碼狀態值是否達到預設值，若是則進入步驟s383，否則執行步驟s384。

本實施例中解碼狀態值對應的預設值為20，即在上述步驟s382中，只需判斷解碼狀態值是否達到20，即可判斷出是否需要連續解碼。

步驟s383，將當前音頻幀丟棄，將解碼狀態值復位；獲取下一音頻幀，將下一音頻幀作為當前音頻幀，返回步驟s32。

在解碼狀態值大於20的情況下，表示已經完成連續20幀的音頻幀的解碼，連續解碼完成。同時，當前音頻幀不滿足解碼條件，即當前音頻幀中不存在有效語音，且當前音頻幀的能量值小於-50，表示當前音頻幀中不存在聲音，將當前音頻幀丟棄，從而保證在大量與會終端存在時，該以媒體平臺集中進行音頻解碼的會議系統的核心處理器佔用率下降，進而提升會議接入能力，降低成本並保證音頻質量與處理之前無差別。

本實施例中，將當前幀丟棄後，需要將解碼狀態值復位，即將解碼狀態值設置為0，為下一音頻幀的解碼做準備。同時，獲取下一音頻幀，並將該下一音頻幀作為當前音頻幀，返回對當前音頻幀對應的音頻信息進行解析，得到解析結果的步驟，即返回步驟s32。

步驟s384，獲取下一音頻幀，將下一音頻幀作為當前音頻幀，返回對當前音頻幀進行解碼的步驟s381。

在解碼狀態值小於或等於20的情況下，表示連續20幀的音頻幀的解碼尚未完成，可以繼續進行連續解碼操作。即，獲取下一音頻幀，將下一音頻幀作為當前音頻幀，返回對當前音頻幀進行解碼的步驟s381。

步驟s39，將當前音頻幀丟棄，將解碼狀態值復位；獲取下一音頻幀，將下一音頻幀作為當前音頻幀，返回步驟s32。與實施例3中的步驟s383相同，不再贅述。

實施例4

本施例提供一種會議系統的音頻處理裝置，用於執行實施例1中的會議系統的音頻處理方法。如圖6所示，該音頻處理裝置包括：

接收單元41，用於接收終端側發送的音頻碼流，該音頻碼流的每一音頻幀攜帶有對應的音頻信息；

解析單元42，用於對當前音頻幀對應的音頻信息進行解析，得到解析結果；

第一判斷單元43，用於判斷解析結果中是否存在有效語音信息，其中，所述有效語音信息用於表示參會人員講話發出的音頻；

第一解碼單元44，用於當所述解析結果中存在所述有效語音信息時，對所述當前音頻幀進行解碼。

作為本實施例的一種可選實施方式，如圖7所示，該音頻處理裝置還包括：

獲取單元45，用於當所述解析結果中不存在所述有效語音信息時，獲取所述解析結果中用於表示所述當前音頻幀能量的能量值；

第二判斷單元46，用於判斷所述能量值是否大於等於預設閾值；

第二解碼單元47，用於當所述能量值大於等於所述預設閾值時，對所述當前音頻幀進行解碼。

作為本實施例的一種可選實施方式，如圖8所示，該音頻處理裝置還包括：

第三判斷單元48，用於當所述能量值小於所述預設閾值時，判斷所述當前音頻幀的前一音頻幀是否解碼；

第三解碼單元49，用於當所述當前音頻幀的前一音頻幀已經解碼，則對所述當前音頻幀及後續連續n幀音頻幀進行解碼，其中，n為預設值。如圖9所示，該第三解碼單元具體包括：

解碼子單元491，用於對當前音頻幀進行解碼，並且解碼狀態值加1；

判斷子單元492，用於判斷解碼狀態值是否達到預設值；

獲取子單元493，用於當解碼狀態值未達到預設值時，則獲取下一音頻幀，將下一音頻幀作為當前音頻幀，返回對當前音頻幀進行解碼的步驟。

作為本實施例的另一種可選實施方式，如圖10所示，上述第三解碼單元還包括：

復位子單元494，用於當解碼狀態值達到預設值時，則將當前音頻幀丟棄，將解碼狀態值復位；獲取下一音頻幀，將下一音頻幀作為當前音頻幀，返回對當前音頻幀對應的音頻信息進行解析，得到解析結果的步驟。

本實施例提供的音頻處理裝置，通過判斷音頻碼流中是否包含有效語音信息，即是否包含有人聲，從而能夠對參會人員的所有講話信息進行解碼，一方面能夠避免將終端側發送的音頻碼流全部解碼，進而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬於人聲音的音頻碼流丟棄、不解碼，進而提高了會議系統的音頻處理效果。

實施例5

圖11是本發明實施例提供的媒體平臺的硬體結構示意圖，如圖11所示，該設備包括一個或多個處理器51以及存儲器52，圖11中以一個處理器51為例。

媒體平臺還可以包括：音頻圖像顯示器(未示出)，用於顯示音頻的電平幅值圖像。處理器51、存儲器52和音頻圖像顯示器可以通過總線或者其他方式連接，圖5中以通過總線連接為例。

處理器51可以為中央處理器(centralprocessingunit，cpu)。處理器51還可以為其他通用處理器、數位訊號處理器(digitalsignalprocessor，dsp)、專用集成電路(applicationspecificintegratedcircuit，asic)、現場可編程門陣列(field-programmablegatearray，fpga)或者其他可編程邏輯器件、分立門或者電晶體邏輯器件、分立硬體組件等晶片，或者上述各類晶片的組合。通用處理器可以是微處理器或者該處理器也可以是任何常規的處理器等。

存儲器52作為一種非暫態計算機可讀存儲介質，可用於存儲非暫態軟體程序、非暫態計算機可執行程序以及模塊，如本發明實施例中的會議系統的音頻處理方法對應的程序指令/模塊。處理器51通過運行存儲在存儲器52中的非暫態軟體程序、指令以及模塊，從而執行伺服器的各種功能應用以及數據處理，即實現上述實施例中，會議系統的音頻處理方法。

存儲器52可以包括存儲程序區和存儲數據區，其中，存儲程序區可存儲作業系統、至少一個功能所需要的應用程式；存儲數據區可存儲根據回聲消除的測試裝置的使用所創建的數據等。此外，存儲器52可以包括高速隨機存取存儲器，還可以包括非暫態存儲器，例如至少一個磁碟存儲器件、快閃記憶體器件、或其他非暫態固態存儲器件。在一些實施例中，存儲器52可選包括相對於處理器51遠程設置的存儲器，這些遠程存儲器可以通過網絡連接至會議系統的音頻處理裝置。上述網絡的實例包括但不限於網際網路、企業內部網、區域網、移動通信網及其組合。

所述一個或者多個模塊存儲在所述存儲器52中，當被所述一個或者多個處理器51執行時，執行實施例1中所述的會議系統的音頻處理方法。

上述產品可執行本發明實施例所提供的方法，具備執行方法相應的功能模塊和有益效果。未在本實施例中詳盡描述的技術細節，具體可參見如圖2所示的實施例中的相關描述。

實施例6

本發明實施例還提供了一種非暫態計算機存儲介質，所述計算機存儲介質存儲有計算機可執行指令，該計算機可執行指令可執行實施例1中所述的會議系統的音頻處理方法。其中，所述存儲介質可為磁碟、光碟、只讀存儲記憶體(read-onlymemory，rom)、隨機存儲記憶體(randomaccessmemory，ram)、快閃記憶體(flashmemory)、硬碟(harddiskdrive，縮寫：hdd)或固態硬碟(solid-statedrive，ssd)等；所述存儲介質還可以包括上述種類的存儲器的組合。

本領域技術人員可以理解，實現上述實施例方法中的全部或部分流程，是可以通過電腦程式來指令相關的硬體來完成，所述的程序可存儲於一種計算機可讀取存儲介質中，該程序在執行時，可包括如上述各方法的實施例的流程。其中，所述的存儲介質可為磁碟、光碟、只讀存儲記憶體(rom)或隨機存儲記憶體(ram)等。

顯然，上述實施例僅僅是為清楚地說明所作的舉例，而並非對實施方式的限定。對於所屬領域的普通技術人員來說，在上述說明的基礎上還可以做出其它不同形式的變化或變動。這裡無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處於本發明創造的保護範圍之中。

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

會議系統的音頻處理方法及裝置與流程

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法