音視頻緩存同步播放的方法
2023-09-20 18:24:10
專利名稱:音視頻緩存同步播放的方法
技術領域:
本發明涉及一種音視頻緩存同步播放的方法。
技術背景音視頻同步(即唇音同步)是檢測一個視頻會議產品的重要技術指標。好的視頻會議產 品需要唇音同步,這樣有助於提高溝通的效果。在檢測是否能實現唇音同步時,常由操作發 送端的人員從一到十報數,報數的同時用手指示意,然後在接收端觀察效果來判斷唇音同步 的好壞。在視頻會議系統中,產生唇音不同步的原因是由於音頻信號和視頻信號分別編碼、分別 傳輸,由於IP優先級、音視頻包大小、網絡傳輸延時等因素的影響,會使音視頻包到達順序 不同,從而打亂音頻包與相應的視頻包的同步關係,最終的結果導致聲音與口型失去同步。目前支持唇音同步的視頻設備通常是通過使用IP包中的RTP時間戳信息來糾正這一問 題。利用RTP時間戳,設備能夠確定哪一音頻包與哪一視頻包對應,然後在接收端重新調整 相應的音視頻包對應關係,以保證聲音與口型的同步。如在中國專利號為02128329的"一種 實現多種視音頻流格式轉換的裝置"中,公開了一唇音同步模塊,其根據RTP時間信息及RTCP 包的同步時間信息確定音頻、視頻數據的網絡延遲時間,再根據得到的相對網絡時延填充靜 音或緩存圖像來實現音頻和視頻的同步,此種通過填充靜音或緩存圖像來實現同步的方式不 可避免會存在圖像和聲音的不協調。而且,在一大型視頻會議系統,往往會存在多路音視頻 信息的傳輸,而多路流的網絡傳輸延時並非完全一致,如此當同一終端在播放多路音視頻信 息時存在的圖像和聲音的不同步以及相互之間通訊時的不協調顯得尤為突出,嚴重影響會議 質量。因此,如何解決現有唇音同步存在的問題,實已成為本領域技術人員亟待解決的技術課題。發明內容本發明的目的在於提供一種音視頻緩存同步播放的方法,以實現音視頻的唇音同步,同 時又能改善多路音視頻通訊間的協調性。為了達到上述目的,本發明提供的用於具有音視頻編碼裝置及播放裝置的系統的音視頻緩存同步播放的方法,包括步驟1)音視頻編碼裝置在對採集的音視頻信息進行編碼時,分 別給每一音頻及視頻包打上當前時間信息的時間戳;2)設定播放裝置存儲接收的音視頻包的 初始緩存時間;3)播放裝置接收傳送至的已打上對間戳的音頻及視頻包,並將接收的音頻及 視頻包予以存儲;4)根據已存儲的音頻及視頻包所具有的時間戳判斷其中最小的時間戳與最 新存儲的音頻或視頻包所具有的時間戳的差值是否超過初始緩存時間;5)當最小的時間戳與 最新存儲的音頻及視頻包所具有的時間戳的差值超過初始緩存時間時,搜索已存儲的音頻包 和視頻包以找出時間戳落入以所述最小時間戳為起點,長度為初始緩存時間這一時間段內的 相應音頻包和視頻包,並判K 搜索出的音頻包和視頻包是否相互對應;6)當搜索出的音頻包 和視頻包不相互對應時,修改存儲的音視頻包的緩存時間以使搜索出的音頻包和視頻包能相 互對應;7)當搜索出的音頻包和視頻包相互對應時,播放裝置播放搜索出的相互對應的音視 頻包,並將巳播放的音視頻包予以刪除。
較佳的,所述具有音視頻編碼裝置及播放裝置的系統為視頻會議系統。 較佳的,所述音視頻編碼裝置在對多路音視頻信息進行編碼打時間戳時,採用同一時鐘 提供的時間;同時當播放裝置存儲接收的音視頻包為多路音視頻信息的音視頻包時,在步驟2) 中設定的多路音視頻信息的音視頻包的初始緩存時間都相同,而且在步驟6)中,當僅搜索出 一路的音頻包和視頻包不相互對應時,修改該路的音頻包和視頻包的緩存時間,同時其他路 的音頻包和視頻包的緩存時間也作相應的修改。
綜上所述,本發明的音視頻緩存同步播放的方法通過採集編碼時打上的時間戳和自動調 整緩存時間,可實現每路音視頻唇音同步,並可改善多路音視頻通訊間的協調性。
圖1為本發明的音視頻緩存同步播放的方法的操作流程示意圖。
具體實施例方式
本發明的音視頻緩存同步播放的方法用於具有音視頻編碼裝置及播放裝置的系統中,例 如,用於具有多路音視頻信息的視頻會議系統中,每一參與視頻會議系統的終端都能通過攝 像裝置等提供相應音視頻信息,同時也能通過播放裝置播放接收的其他終端傳送來的音視頻信息。
請參閱圖1,本發明的音視頻緩存同步播放的方法主要包括以下步驟-第一步音視頻編碼裝置在對採集的音視頻信息進行編碼時,分別給每一音頻及視頻包打上 當前時間信息的時間戳,由於存在多路需要編碼的音視頻信息,對每一路進行編碼時都採用 同一時鐘提供的時間作為當前時間,如此可有效保證來自不同終端的音視頻信息被打上的時 間戳的參考時間是一致的,不僅可以作為單路音視頻唇音同步的校正依據,還可作為會議各 路之間協調校正的延緩修正依據。
第二步設定播放裝置存儲接收的音視頻包的初始緩存時間,可由操作人員預先通過程序設 定,也可由操作人員通過提供的操作界面來設定,操作界面的提供方法已為本領域技術人員 所熟悉,故在此不再詳述,不過,當播放裝置存儲接收的音視頻包為多路音視頻信息的音視 頻包時,所設定的多路音視頻信息的音視頻包的初始緩存時間都是一致的。 第三步播放裝置根據用戶的需要接收傳送至的已打上時間戳的音頻及視頻包,並將接收的 音頻及視頻包予以存儲,通常是存儲在文件中,所述音視頻編碼裝置通常先將打上時間戳的 音頻和視頻包傳送至流媒體伺服器,所述播放裝置根據用戶的需要向流媒體伺服器發送傳送 指令,由所述流媒體伺服器根據指令發送相應的各路音頻及視頻包。
第四步根據己存儲的音頻及視頻包所具有的時間戳判斷其中最小的時間戳與最新存儲的音 頻或視頻包所具有的時間戳的差值是否超過初始緩存時間,若是,進至第五步,否則播放裝 置繼續接收音頻及視頻包,當存儲的僅一路音頻及視頻包時,則只需判斷該路的相應的時間 戳的差值是否超過初始緩存時間,若是,則進至第五步,否則就繼續接收音頻及視頻包;當 存儲有多路音頻及視頻包時,則需判斷每一路的相應的時間戳的差值是否超過初始緩存時間, 若是,則進至第五步,若其中有某一路相應的時間戳的差值未超過初始緩存時間則需繼續接 收音頻及視頻包。
第五步在緩存中搜索已存儲的音頻包和視頻包以找出時間戳落入以所述最小時間戳為起點, 長度為初始緩存時間這一時間段內的相應音頻包和視頻包。
第六步,判斷搜索出的音頻包和視頻包是否相互對應,若不能相互對應,則進至第七步,否 則進至第八步,其中,對於多路音頻包和視頻包,當僅搜索出一路的音頻包和視頻包不相互 對應時,則進至第七步,只有當所有路的音頻包和視頻包分別相互對應時,則進至第八步。
第七步修改存儲的音視頻包的緩存時間以使搜索出的音頻包和視頻包能相互對應,即延長 緩存時間,通常是通過預設規則來進行修改,例如每次增加5秒等,需注意的是,當只修改 一路的音頻包和視頻包的緩存時間,相應其他路的音頻包和視頻包的緩存時間也作相應的修 改以使各路的音頻包和視頻包的緩存時間保持一致。第八步播放裝置播放搜索出的相互對應的音視頻包,並將己播放的音視頻包從緩存中刪除。 綜上所述,本發明的音視頻緩存同步播放的方法在校正音視頻還原播放時,並不參考本 地接收包的時間而是直接根據音視頻包上的時間戳做延緩播放的修正,可很好的實現會議協 調,音視頻完美同步,此外,其通過自動調整音視頻包的緩存時間,可有效將一路或多路音 頻和視頻協調一致,提高視頻會議系統的會議質量,同時對同一終端播放多路音視頻時能有 足夠的緩存數據來實現音視頻的還原播放,提高播放的多路音頻和視頻的協調性。
權利要求
1.一種音視頻緩存同步播放的方法,用於具有音視頻編碼裝置及播放裝置的系統,其特徵在於包括步驟1)音視頻編碼裝置在對採集的音視頻信息進行編碼時,分別給每一音頻及視頻包打上當前時間信息的時間戳;2)設定播放裝置存儲接收的音視頻包的初始緩存時間;3)播放裝置接收由所述音視頻編碼裝置打上時間戳的音頻及視頻包,並將接收的音頻及視頻包予以存儲;4)根據已存儲的音頻及視頻包所具有的時間戳判斷其中最小的時間戳與最新存儲的音頻或視頻包所具有的時間戳的差值是否超過初始緩存時間;5)當最小的時間戳與最新存儲的音頻及視頻包所具有的時間戳的差值超過初始緩存時間時,搜索已存儲的音頻包和視頻包以找出時間戳落入以所述最小時間戳為起點,長度為初始緩存時間這一時間段內的相應音頻包和視頻包,並判斷搜索出的音頻包和視頻包是否相互對應;6)當搜索出的音頻包和視頻包不相互對應時,修改存儲的音視頻包的緩存時間以使搜索出的音頻包和視頻包能相互對應;7)當搜索出的音頻包和視頻包相互對應時,播放裝置播放搜索出的相互對應的音視頻包,並將已播放的音視頻包予以刪除。
2. 如權利要求1所述的音視頻緩存同步播放的方法,其特徵在於所述具有音視頻編碼 裝置及播放裝置的系統為視頻會議系統。
3. 如權利要求1所述的音視頻緩存同步播放的方法,其特徵在於所述音視頻編碼裝置 在對多路音視頻信息進行編碼打時間戳時,採用同一時鐘提供的時間。
4. 如權利要求1所述的音視頻緩存同步播放的方法,其特徵在於當播放裝置存儲接收 的音視頻包為多路音視頻信息的音視頻包時,在步驟2)中設定的多路音視頻信息的 音視頻包的初始緩存時間都相同。
5. 如權利要求4所述的音視頻緩存同步播放的方法,其特徵在於在步驟6)中,當僅 搜索出一路的音頻包和視頻包不相互對應時,修改該路的音頻包和視頻包的緩存時 間,同時其他路的音頻包和視頻包的緩存時間也作相應的修改。
全文摘要
一種音視頻緩存同步播放的方法,其在對採集的音視頻信息進行編碼時,分別給每一音頻及視頻包打上當前時間信息的時間戳,然後設定播放裝置存儲接收的音視頻包的緩存時間,接著播放裝置接收傳送至的已打上時間戳的音頻及視頻包,並存儲之,並當已存儲的音頻及視頻包所具有的最小時間戳與最新存儲的音頻或視頻包所具有的時間戳的差值超過初始緩存時間時,搜索已存儲的音頻包和視頻包以找出時間戳落入以所述最小時間戳為起點,長度為初始緩存時間這一時間段內的相應音頻包和視頻包,並判斷搜索出的音頻包和視頻包是否相互對應,當不對應時則修改緩存時間以使搜索出的音頻包和視頻包能相互對應,由此可完美實現音視頻唇音同步,並可改善多路音視頻通訊間的協調性。
文檔編號H04N7/62GK101237586SQ20081003382
公開日2008年8月6日 申請日期2008年2月22日 優先權日2008年2月22日
發明者杜權勝 申請人:上海華平信息技術股份有限公司