新四季網

用於視頻通信系統中的差錯彈性和隨機接入的系統和方法

2023-11-10 10:05:02

專利名稱:用於視頻通信系統中的差錯彈性和隨機接入的系統和方法
技術領域:
本發明涉及視頻數據通信系統。具體地,本發明涉及在視頻會議應用中提供差錯 彈性和隨機訪問能力的技術。
背景技術:
通過基於分組的現代通信網絡(例如,基於網際協議(IP)的網絡)在發送者與接 收者之間提供高質量數字視頻通信至少由於此類網絡上的數據傳輸通常是以盡力為基礎 執行的這個事實而成為技術上的難題。現代通信網絡中的傳輸差錯通常將其自身表現為分 組丟失而非比特差錯,後者是早期通信系統中的特性。分組丟失常常是中間路由器中的擁 塞的結果,而非物理層差錯的結果。
當在數字視頻通信系統中發生傳輸差錯時,確保接收器可從差錯快速恢復並返回 傳入視頻信號的無差錯顯示是很重要的。然而,在傳統數字視頻通信系統中,接收器的穩健 性因傳入數據被嚴重壓縮以節約帶寬這個事實而降低。此外,用在通信系統中的視頻壓縮 技術(例如,最新編解碼器ITU-T H. 264和H. 263或者ISO MPEG-2和MPEG-4編解碼器) 可在連續視頻分組或幀之間形成十分強的時間依存性。具體地,運動補償預測(例如,涉及 P幀或B幀的使用)編解碼器的使用形成其中所顯示的幀依賴於先前幀的幀依存性鏈。依 存性鏈可一直擴展到視頻序列的開頭。作為依存鏈的結果,給定分組的丟失可影響接收器 處多個連續分組的解碼。由於給定分組的丟失而導致的差錯傳播僅以「內」(I)刷新點或者 完全不使用任何時間預測的幀終止。
數字視頻通信系統中的差錯彈性要求在傳送信號中有至少某一級別的冗餘度。然 而,這種要求與力圖消除或最小化所傳送信號中的冗餘度的視頻壓縮技術的目的相反。
在提供區分型服務的網絡(例如,基於區分型服務IP的網絡、租用線路上的專用 網等)上,視頻數據通信應用可採用網絡特徵來以無損或近似無損的方式向接收器遞送視 頻信號數據的部分或全部。然而,在未提供區分型服務的任意盡力型網絡(諸如網際網路) 中,數據通信應用必須依賴其自身的特徵來實現差錯彈性。在文本或字母數字數據通信中 有用的已知技術(例如,傳輸控制協議-TCP)不適於視頻或音頻通信,這對由人類接口需求 所導致的較低的端對端延遲有額外的約束。例如,TCP技術可用於文本或字母數字數據輸送中的差錯彈性。TCP保持重發數據直至確認所有數據被接收,即使其包括若干秒的延遲。 然而,TCP不適用於現場或交互式視頻會議應用中的視頻數據輸送,因為無限制的端對端延 遲對於參與者而言是無法接受的。相關的問題是隨機接入。假定接收器加入現行視頻信號的傳輸。典型示例是加入 視頻會話的用戶,或者調諧至廣播的用戶。此類用戶將必須在傳入比特流中找到他/她能 夠開始解碼或與編碼器同步的點。然而,提供這種隨機接入點對壓縮效率具有相當大的影 響。注意根據定義,隨機接入點是從該點開始任何差錯傳播終止的差錯彈性特徵(即,其 是差錯恢復點)。因此,由特定編碼方案提供的隨機接入支持越好,其可提供差錯恢復支持 越佳。逆過程可能並非總為真;其依賴於關於差錯彈性技術已被設計成要解決的差錯的持 續時間和範圍所作出的假設。對於差錯彈性,某些狀態信息可被假定為在接收器處發生差 錯時可用。視頻通信系統中差錯彈性的一方面涉及對壓縮效率具有相當大的影響的隨機接 入(例如,當接收方加入現行視頻信號的傳輸時)。例如,隨機接入的實例是加入視頻會議 的用戶,或者調諧至廣播的用戶。這樣的用戶將必須在傳入比特流信號中尋找開始解碼或 要與編碼器同步的合適的點。隨機接入點是從該點開始任何傳播差錯終止的有效的差錯彈 性特徵(或差錯恢復點)。因此,提供良好的隨機接入支持的特定編碼方案通常具有提供較 快速差錯恢復的差錯彈性技術。然而,逆過程依賴於關於差錯彈性技術被設計要解決的差 錯的持續時間和範圍的特定假設。差錯彈性技術可假定某些狀態信息在接收器處發生差錯 時可用。在此情形中,差錯彈性技術不確保良好的隨機接入支持。在用於數位電視系統(數字電纜TV或衛星TV)的MPEG-2視頻編解碼器中,以周 期間隔(通常為0. 5秒)使用I畫面來實現快速切換成流。然而,1畫面顯著大於其P或B 對應物(通常大3到6倍),並由此被避免使用,在低帶寬和/或低延遲應用中尤其如此。在諸如視頻會議的交互式應用中,請求幀內更新的概念通常被用於差錯彈性。在 操作中,更新涉及從接收方對發送方的、關於使得解碼器被同步的內畫面傳輸的請求。此操 作的帶寬開銷是顯著的。另外,當分組差錯發生時,也存在此開銷。如果分組丟失是由擁塞 導致的,則使用內畫面只會惡化擁塞問題。另一種用於差錯穩健性的傳統技術——在過去用於減輕由IDCT實現(例如,在 H. 261標準中)中的失配而導致的漂移——是周期性地編碼每個宏塊幀內模式。H. 261標 準要求每132次強制幀內編碼傳送_宏塊。隨著強制要被編碼為給定幀中幀內的宏塊的百分比的增大,編碼效率下降。相反, 當此百分比較低時,從分組丟失恢復的時間增加。強制幀內編碼過程要求額外的精力以避 免運動相關漂移,該漂移由於必須避免某些運動矢量值——即使它們是最有效的——而進 一步限制了編碼器的性能。除傳統之外,單層編解碼器、分層或可縮放編碼是多媒體數據編碼中的公知技術。 可縮放編碼用於生成以帶寬效率方式共同代表給定媒體的兩個或多個「經縮放」比特流。 可縮放性可以多個維度——即時間、空間和質量(也稱為SNR 「信噪比」可縮放性)——來 提供。例如,視頻信號可以CIF或QCIF解析度且每秒7.5、15和30幀(fps)的幀速率下的 不同層來可縮放地編碼。取決於編解碼器的結構,空間解析度和幀速率的任何組合可從編 解碼器比特流獲得。與不同層相對應的比特可作為單獨的比特流傳送(即,每層一個流)或它們可在一個或多個比特流中被復用在一起。為了便於本文的描述,與給定層相對應的 經編碼比特可稱為該層的比特流,即使各個層被復用且在單個比特流中傳送。專門設計成 提供可縮放特徵的編解碼器包括例如MPEG-2(也稱為ITU-T H. 262的IS0/IEC 13818-2) 和目前開發的SVC (稱為ITU-T H. 264 Annex G或MPEG-4第10部分SVC)。在共同轉讓國際專利申請 No. PCT/US06/028365-"SYSTEM ANDMETHOD FOR SCALABLE AND LOW-DELAYVIDEOCONFERENCINGUSING SCALABLE VIDEO CODING(用於使用可縮放視頻編碼的可縮放和 低延遲視頻會議的系統和方法)」一中描述了為視頻通信專門設計的可縮放編碼技術。注 意,即使並非專門設計成可縮放的編解碼器也可以時間維度呈現可縮放性的特性。例如,考 慮DVD和數字TV環境中使用的非可縮放編解碼器——MPEG-2 Main Profile (主型)編解 碼器。此外,假定以30fps操作的編解碼器以及使用IBBPBBPBBPBBPBB (周期N= 15幀)的 GOP結構。通過連續消除B畫面,接著消除P畫面,得到總共三個時間解析度——30fps (包 括所有畫面類型)、IOfps (僅有I和P)以及2fps (僅有I)——是可能的。連續消除過程導 致可解碼的比特流,因為MPEG-2Main Profile編解碼器被設計成使得P畫面編碼不依賴於 B畫面,並且類似的I畫面的編碼不依賴於其它P或B畫面。在以下,具有時間可縮放特徵 的單層編解碼器被認為是可縮放視頻編碼的特例,因此被包括在術語可縮放視頻編碼,除 非另外明確指明。
可縮放編解碼器通常具有錐形比特流結構,其中組成比特流之一(稱為「基層」) 在恢復某種基本質量的原始媒體時是必需的。連同基層一起使用一個或多個剩餘比特流 (稱為「增強層」)提升了所恢復媒體的質量。增強層中的數據丟失是容許的,但是基層中 的數據丟失會導致所恢復媒體的顯著畸變或完全失敗。
可縮放編解碼器提出了類似於由單層編解碼器針對差錯彈性和隨機接入所提出 的那些挑戰。然而,可縮放編解碼器的編碼結構具有單層視頻編解碼器中不存在的獨特特 性。此外,與單層編碼不同,可縮放編碼可能涉及從一個可縮放性層切換到另一個(例如, 在CIF與QCIF解析度之間來回切換)。
聯播是用於視頻會議的編碼解決方案,它不如可縮放視頻編碼複雜但具有後者的 優點中的某些。在聯播中,兩個不同版本的源被編碼(例如,以兩種不同空間解析度)並傳 送。每個版本是獨立的,因為其解碼並不依賴於另一版本的接收。類似於可縮放和單層編 碼,聯播提出了類似的隨機接入和穩健性問題。在下文中,聯播被認為是可縮放編碼(其中 不執行層間預測)的特例,並且兩者皆簡稱為可縮放視頻編碼技術,除非另外明確指明。
現在針對改進對視頻通信系統中經編碼比特流的差錯彈性和隨機接入能力作出 考慮。關注開發對由端對端延遲和系統所用的帶寬具有最小影響的差錯彈性和隨機接入技 術。合需的差錯彈性和隨機接入技術將可應用於可縮放和單層視頻編碼兩者。
發明_既述
本發明提供了用於在基於單層以及可縮放視頻編碼的視頻通信系統中提升差錯 彈性並提供隨機接入能力的系統和方法。
在第一示例性實施例中,本發明提供了一種用於在不增加端對端延遲的情況下可 靠地傳送經編碼的視頻信號的最低或單個時間層的全部或部分,並在隨後使用它來從分組 丟失中恢復的機制。提供特定技術以通過RTP以及在使用H. 264 Annex G(SVC)NAL單元時 進行傳送。
在第二示例性實施例中,本發明提供了一種使用基於伺服器的內幀來可靠地傳送 經編碼的視頻信號的最低或單個時間層,並隨後在不會不利地影響其它接收器的情況下使 用它來使特定接收器從分組丟失中恢復的機制。
在第三示例性實施例中,本發明提供了一種通過以精心協調的方式使用內宏塊編 碼使得從單層或可縮放視頻編碼的分組丟失中恢復成為可能的機制。
在第四示例性實施例中,本發明提供了一種收集和聚集來自一個或多個接收方的 反饋以便任選地選擇畫面參考幀以及分配內宏塊的機制。
在第五示例性實施例中,本發明提供了一種通過使用來自低解析度空間層的信息 來從高解析度空間可縮放層的分組丟失中恢復的機制。
此外,在第六示例性實施例中,本發明提供了一種在很少的延遲或沒有延遲的情 況下從低空間或質量解析度切換到高空間或質量解析度的機制。
通過與速率-失真最優化量化器以及運動模式和矢量選擇相耦合,這些實施例在 或者獨立或者相互組合的情況下允許構建具有高穩健性和較小帶寬開銷的十分有效的視 頻通信系統。
本文的描述說明了如何使用這些技術來實現對給定視頻系統的隨機接入,以及藉 由其接收器——無需對較低層進行完全解碼——就可使用來自所述較低層的信息來有效 地重構較高層的高空間解析度數據的機制。本發明利用可縮放視頻編碼技術的特定屬性 來最小化對端對端延遲和帶寬的影響。在諸如通過端對端要求苛刻(端對端的最大值為 200ms)以及分組丟失率會很嚴重(即,較低的平均分組丟失率但有較長的突發)的IP網絡 的視頻會議的通信應用中,本發明尤其有用。
一旦適當地選擇畫面編碼結構和傳輸模式,本發明的技術就使得在極小的帶寬開 銷的情況下允許接近即時地進行層切換成為可能。
附圖簡述


圖1是示出根據本發明原理的用於遞送可縮放的經編碼視頻數據的示例性視頻 會議系統的框圖2是示出根據本發明原理的與單層視頻編碼的使用相兼容的示例性最終用戶 終端的框圖3是示出根據本發明原理的與可縮放或聯播編碼的使用相兼容的示例性最終 用戶終端的框圖4是示出根據本發明原理的多點SVCS的內部交換結構的框圖5是示出SVCS的操作原理的框圖6是示出根據本發明原理的示例性視頻編碼器的結構的框圖7是示出根據本發明原理的用於編碼基層和時間增強層的視頻編碼器的示例 性架構的框圖8是示出根據本發明原理的用於空間增強層的視頻編碼器的示例性架構的框 圖9是示出根據本發明原理的示例性分層畫面編碼結構的框圖10是示出根據本發明原理的另一示例性分層畫面編碼結構的框圖11是示出根據本發明原理的包括時間和空間可縮放性的示例性畫面編碼結構的框圖;圖12是示出根據本發明原理的用於差錯彈性視頻通信的示例性分層畫面編碼結 構的框圖;圖13是示出根據本發明原理的具有空間/質量可縮放性的用於差錯彈性視頻通 信的示例性分層畫面編碼結構的框圖;圖14是示由根據本發明原理的用於使用肯定確認進行LR畫面的可靠遞送的通信 協議的操作的時序圖;圖15是示出根據本發明原理的用於使用否定確認進行的LR畫面的可靠遞送的通 信協議的操作的時序圖;圖16是示出根據本發明原理的、當R分組技術被用於通過RTP傳輸時傳送終端的 LRP發送模塊的示例性架構的框圖;圖17是示出根據本發明原理的、當R分組技術被用於通過RTP傳輸時接收終端的 UR接收模塊的示例性架構的框圖;圖18是示出根據本發明原理的、當R分組技術被用於通過RTP傳輸時伺服器的 LRP發送和接收模塊的示例性架構的框圖;圖19示出根據本發明原理的用於RTP分組的命名RTP報頭擴展的示例性結構;圖20示出根據本發明原理的RNACK分組的反饋控制信息欄位的示例性結構;圖21示出現有技術系統中在發生分組丟失時H. 264 SVC解碼器如何達到非正確 狀態;圖22示出目前針對現有技術系統定義的H. 264 SVC NAL報頭擴展;圖23示出根據本發明原理的具有幀索引的經更改H.264 SVC NAL報頭擴展定義;圖24示出根據本發明原理的、幀索引位於報頭的擴展中的經更改H. 264SVC NAL 報頭擴展定義;圖25示出根據本發明原理的用於快速轉發內恢復的示例性切片編碼結構;圖26示出根據本發明原理的快速轉發內恢復可如何結合SR(增強層)畫面使用;貫穿附圖中相同附圖標記用於指代所例示的實施例的類似特徵、元件、組件或部 分,除非另外聲明。此外,現在參照附圖詳細描述本發明是結合示例性實施例進行的。本發明的詳細描述本發明提供了用於視頻通信系統中差錯彈性和隨機接入的系統和方法。這些機制 與可在視頻通信系統中使用的具有時間可縮放性的可縮放編碼技術以及單層和聯播視頻 編碼相兼容。這些系統和方法涉及在視頻信號傳輸中指定一組視頻幀或畫面來向接收方可靠 或有保證地遞送。指定組視頻幀的可靠遞送可通過使用安全或高可靠性的鏈路、或通過重 傳技術來實現。可靠遞送的視頻幀被用作參考畫面用於使接收器在差錯發生或隨機接入之 後與所傳送視頻信號重新同步。在優選實施例中,示例性視頻通信系統可以是在基於分組的網絡上操作的多點視 頻會議系統10。(參看例如圖1)。多點視頻會議系統可包括任選網橋120a和120b (例如, 多點控制單元(MCU)或可縮放視頻通信伺服器(SVCS))以協調網絡上的端點(例如,用戶 Ι-k和1-m)之間的可縮放多層或單層視頻通信。對於結合或不結合任選網橋120a和120b使用的點對點連接而言,示例性視頻通信系統的操作是相同的且是有益的。
在共同轉讓的國際專利申請No. PCT/US06/28365- "SYSTEM ANDMETHOD FORSCALABLE AND LOW-DELAY VIDEOCONFERENCINOTSING SCALABLE VIDEO CODING (用於使用 可縮放視頻編碼的可縮放和低延遲視頻會議的系統和方法)」以及No.PCT/US06/^8366—— "SYSTEM ANDMETHOD FOR A CONFERENCE SERVER ARCHITECTURE FOR LOffDELAY AND DISTRIBUTED CONFERENCING APPLICATIONS (用於低延遲和分布式會議應用的會議伺服器 架構的系統和方法)」中提供了基於可縮放視頻編碼的可縮放視頻編碼技術和視頻會議系 統的詳細描述。此外,在2005年12月22日提交的美國臨時專利申請No. 60,753,343—— "C0MP0SITINGSCALABLE VIDEO CONFERENCE SERVER(合成可縮放視頻會議伺服器)」中提供 了基於可縮放視頻編碼的可縮放視頻編碼技術和視頻會議系統的描述。所有前述國際和美 國臨時專利申請皆通過引用全部結合於此。
圖1示出了視頻會議系統10的一般結構。視頻會議系統10包括經由LANl和2鏈 接在網絡100上的多個最終用戶終端(例如,用戶Ι-k和用戶1-m)和伺服器120a和120b。 伺服器可以是傳統MCU,或者可縮放視頻編碼伺服器(SVCQ或合成可縮放視頻編碼伺服器 (CSVCS)。後者伺服器具有與傳統MCU相同的用途,但是具有顯著減小的複雜度和改進的功 能。(參看例如國際專利申請No. PCT/US06/28366)以及2005年12月22日提交的美國臨 時專利申請No. 60/753,343。在本文的描述中,術語「伺服器」可用於統指或者SVCS或者 CSVCS。
圖2示出被設計成與基於單層編碼的視頻會議系統(例如,系統10) —起使用的 最終用戶終端10的架構。圖3示出被設計成與基於多層編碼的視頻會議系統(例如,系 統10) —起使用的最終用戶終端140的架構。終端140包括人機輸入/輸出設備(例如, 相機210A、話筒210B、視頻顯示器250C、揚聲器250D),以及耦合至輸入和輸出信號復用器 和分用器單元(例如,分組MUX 220A和分組DMUX 220B)的一個或多個網絡接口控制器卡 (NIC) 230。NIC 230可以是標準硬體組件,諸如乙太網LAN適配器或任何其它合適的網絡接 口設備或者其組合。
相機210A和話筒210B被設計成分別捕捉參與者的視頻和音頻信號以傳輸給其他 會議參與者。相反,視頻顯示器250C和揚聲器250D被設計成分別顯示和回放從其他參與 者接收到的視頻和音頻信號。視頻顯示器250C也被配置成任選地顯示參與者/終端140 自身的視頻。相機210A和話筒210B輸出分別經由模數轉換器210E和210F耦合到視頻和 音頻編碼器210G和210H。視頻和音頻編碼器210G和210H被設計成壓縮輸入視頻和音頻 數位訊號以減小在電子通信網絡上傳輸信號所需的帶寬。輸入視頻信號可以是實況或預先 錄製和存儲的視頻信號。編碼器壓縮本地數位訊號以使傳輸信號所需的帶寬最小化。
在本發明的示例性實施例中,音頻信號可用本領域中已知的任何合適的技術(例 如,G. 711、G. 729、G. 729EV、MPEG-1等)來編碼。在本發明的優選實施例中,可縮放音頻編 解碼器G. 729EV被音頻編碼器210G用來編碼音頻信號。音頻編碼器210G的輸出被發送到 復用器MUX 220A以經由NIC 230通過網絡100傳輸。
分組MUX 220A可使用RTP協議執行傳統復用。分組MUX 220A也可執行可由網絡 100提供的任何相關服務質量(QoQ處理。來自終端140的每個數據流在其自身的虛擬信 道或IP技術中的「埠號」中傳送。14
圖3示出被配置成與其中使用可縮放或聯播視頻編碼的視頻會議系統一起使用 的最終用戶終端140。在此情形中,視頻編碼器210G具有多個輸出。圖3示出例如標示為 「基」和「增強」的兩個層輸出。終端140的輸出(例如,單層輸出(圖2)或多層輸出(圖 3))經由LRP處理模塊270A連接到分組MUX 220A。LRP處理模塊270A (和模塊270B)被設 計成通過處理特定類型的幀(例如,圖12和13中的「R」幀)以及諸如視頻序列報頭數據 的需要可靠傳輸的任何其它信息的傳輸來進行差錯彈性通信(「差錯彈性LRP操作」)。如 果視頻編碼器210G產生一個以上的增強層輸出,則增強層輸出的每一個可以與圖3中所示 的相同的方式連接到LRP處理模塊270A。類似地,在此情形中,附加增強層將經由LRP處理 模塊270B提供給視頻編碼器230A。或者,增強層輸出的一個或多個可直接連接到分組MUX 220A,而非經由LRP處理模塊270A。終端140還可配有一組視頻和音頻解碼器對230A和230B,其中每一對對應於在視 頻會議中終端140處可看到或聽到的每個參與者。應當理解,儘管在圖2和3中示出解碼 器230A和230B的若干實例,但是使用單個解碼器對230A和230B來連續處理來自多個參 與者的信號是可能的。因此,終端140可配有單個解碼器對230A和230B或比參與者的數 目少的解碼器對230A和230B。音頻解碼器230B的輸出被連接到混音器240,後者又與驅動揚聲器250B的數模轉 換器(DA/C)250A連接。混音器將各個信號組合成用於回放的單個輸出信號。如果到達的 音頻信號是預先混合的,則可能不需要混音器240。類似地,視頻解碼器230A的輸出可經由 合成器260在視頻顯示器250C的幀緩衝器250B中被組合。合成器260被設計成將每個經 解碼的畫面置於輸出畫面顯示的適當區域。例如,如果顯示器被劃分成四個較小的區域,則 合成器260從視頻解碼器230A的每一個處獲得像素數據並將其放置在適當的幀緩衝器位 置(例如,通過填充右下方的畫面)。為了避免雙重緩衝(例如,一次在解碼器230A的輸出 以及一次在幀緩衝器250B),合成器260可被實現為驅動解碼器230A的輸出像素的放置的 地址生成器。用於最優化各個視頻輸出對顯示器250C的放置的其它技術也可用於類似效 果。例如,在II. 264標準規範中,通過使用靈活宏塊排序(FMO)方案將多個參與者的 視圖組合在單個經編碼的畫面中是可能的。在此方案中,每個參與者佔用經編碼圖像的一 部分——包括其切片之一。在概念上,單個解碼器可用於解碼所有參與者的信號。然而,從 實踐角度看來,接收器/終端將必須解碼四個較小的獨立編碼的切片。因此,圖2和3中所 示具有解碼器230A的終端140可用在H. 264規範的應用中。注意用於轉發切片的伺服器 是 CSVCS。在終端140中,分用器DMUX 220B接收來自NIC 320的分組並經由接收LRP模塊 270B將它們重定向到適當的解碼器單元230A,如圖2和圖3中所示。視頻解碼器230A的 輸入處的LRP模塊270B終止接收終端的那一端處的差錯彈性LRP操作(圖12和13)。MCU或伺服器控制塊280協調伺服器(SVCS/CSVCS)與最終用戶終端之間的交互。 在沒有中間伺服器的點對點通信系統中,不需要伺服器控制塊。類似地,在非會議應用中, 在接收最終用戶終端處僅需要單個解碼器。對於涉及所存儲的視頻(例如,預先錄製的廣 播、預先編碼的材料)的應用中,傳送最終用戶終端可不涉及音頻和視頻編碼塊或它們之 前的所有終端塊(例如,相機、話筒等)的整體功能。具體地,僅需要提供如下所說明的、與視頻分組的選擇性傳輸有關的部分。
應當理解,終端140的各個組件可以是彼此互聯的、物理上單獨的軟體和硬體設 備或單元(例如,集成在個人計算機中),或者可以是其任何組合。
圖4示出用於差錯彈性處理應用中的示例性SVCS 400的結構。SVCS 400的核心 是確定來自每一個可能源的哪個分組被傳送到哪個目的地和通過什麼信道的交換機410。 (參見例如 PCT/US06/(^8366)。
示例性SVCS 400的操作原理可參照圖5來理解。在此示例中,傳送終端或端點處 的SVC編碼器510產生除多個時間層(未在圖中示出)之外的三個空間層。各個經編碼的 視頻層在各個分組中自傳送端點(SVC編碼器)傳送到SVCS 400。取決於網絡條件或用戶 偏好,SVCS 400決定哪個分組要被轉發到所示三個接收方/解碼器520的每一個。在圖5 所示示例中,SVCS 400僅將第一和第二空間層轉發到SVC解碼器520(0)、將所有三個空間 層轉發到SVC解碼器520 (1)、以及僅將第一(基)層轉發到SVC解碼器520 (2)。
再次參看圖4,除PCT/US06/(^8366中描述的交換機之外,SVCS 400還包括分別 設置在交換機的輸入和輸出處的LRP單元470A和470B。SVCS 400被配置成在其傳入交換 機連接處終止彈性LRP處理,以及在其傳出交換機連接處發起彈性LRP處理。在使用SVCS 400的本發明的實現中,差錯彈性LRP處理並非在網絡上端對端地執行,而是僅在每個單獨 的連接段(例如,發送方到SVCS、SVCS到SVCS以及SVCS到接收方)上執行。然而,應當 理解,本發明的差錯彈性LRP處理可在使用或不使用SVCS的情況下以端對端方式在網絡上 執行。沒有LRP單元470A和470B的SVCS 400可在使用SVCS的網絡中用於端對端LRP處 理。此外,SVCS 400可配備有一個以上NIC 230,如果SVCS 400通過不同網絡連接用戶,則 通常是這種情形。
圖6示出可用於差錯彈性視頻通信系統中的示例性視頻編碼器600的架構。視頻 編碼器600可例如是基於塊的經運動補償的轉換編碼器。H. 264/MPEG-4AVC設計是視頻編 碼器600的優選設計。然而,也可使用其它編解碼器設計。例如,圖7示出用於編碼基於SVC 設計的基層和時間增強層的示例性視頻編碼器600』的架構,而圖8示出用於編碼空間增強 層的示例性視頻編碼器600」的架構。(參見例如ΡσΓ/υΞΟθΛδβθδ和PCT/US06/(^8366)。 視頻編碼器600』和600」包括可用於使用空間可縮放性降低系統中的輸入解析度(例如, 從CIF到CIF)的任選輸入下採樣器640。
圖6還示出可使用視頻編碼器600實現的編碼過程。編碼器600中的增強參考控 制(ENC REF C0NTR0L)620用於創建「線程化」編碼結構。(參見例如PCT/US06/28365和 PCT/US06/028366)。基於標準塊的經運動補償的編解碼器基於I、P和B畫面的常規結構。 例如,在諸如IBBPBBP的畫面序列(按顯示次序)中,『P』幀是從前一 P幀或I幀預測的,而 B畫面是使用前一以及後一 P或I幀兩者來預測的。儘管連續的I或P畫面之間的B畫面 的數目如同I畫面出現的速率一樣可變化,但是例如P畫面不可能用作在時間上比最近的 P畫面早的另一 P畫面的參考。H. 264是個例外,因為編碼器和解碼器保持兩個參考畫面列 表。選擇哪些畫面用作參考以及哪些參考用於要被編碼的特定畫面是可能的。圖6中的幀 緩衝器塊610代表存儲參考畫面列表的存儲器,而編碼器側的增強參考控制620決定對當 前畫面使用哪些參考畫面。
參照示出示例性分層畫面編碼結構900的圖9可更好地理解增強參考控制520的操作。為了實現多個時間解析度,用於視頻通信系統中的編解碼器可生成多個單獨的畫面 「線程」。給定級的線程被定義為使用或者來自相同線程的畫面、或者來自較低級線程的畫 面來進行運動補償的畫面序列。線程的使用允許實現時間可縮放性,因為可消去任何數日 的頂級線程而不影響其餘線程的解碼過程。在本發明的優選實施例中,使用具有一組三個線程的編碼結構(例如,圖9中的結 構900)。在圖9中,畫面標誌中的字母『L』指示任何可縮放層。L之後的數字(0、1和2) 標識時間層,例如,其中「0」對應於最低、或最粗糙的時間層,而「2」對應於最高或最細的時 間層。圖9中所示的箭頭指示預測的方向、源和目標。在多數應用中,將僅使用P畫面,因 為使用B畫面增加編碼延遲達捕捉和編碼用於B畫面的參考畫面所佔用的時間。然而,在 並非延遲敏感的應用中,可能除LO畫面之外,畫面的一部分或全部可以是B畫面。類似的, LO畫面可以是形成傳統畫面組(GOP)的I畫面。繼續參看圖9,層LO僅是相隔四個畫面的常規P畫面序列。層Ll具有與LO相同 的幀速率,但是僅允許根據前一 LO幀進行預測。層L2幀是根據最近的LO或Ll幀預測的。 LO提供完全時間解析度的四分之一(1 4),Ll是LO幀速率的兩倍(1 2),而L2是L0+L1 幀速率的兩倍(1:1)。可在設計成適應本發明的特定實現的不同帶寬/可縮放性要求的編碼結構中類 似地構造比以上討論的三個層L0、Ll和L2更多或更少的層。圖10示出在僅有兩個層LO 和Ll的線程化編碼結構1000中轉換一系列傳統預測幀IPPP...的示例。此外,圖11示出 用於空間可縮放性的線程化編碼結構1100的示例。編碼結構1100包括由字母『S』指示的 用於增強層的線程。應當注意,增強層的幀可具有與基層的幀不同的線程結構。用於編碼時間層的視頻編碼器600』 (圖7)可被擴充以編碼空間和/或質量增強 層。(參見例如PCT/US06/28365和PCT/US06/028366)。圖8示出用於空間增強層的示例性 編碼器600」。除基層信息也可用於編碼器600」之外,編碼器600」的結構和功能類似於基 層編解碼器600,。此信息可包括運動矢量數據、宏塊模式數據、經編碼的預測差錯數據或經 重構的像素數據。編碼器600」可重用此數據中的部分或全部以針對增強層S作出編碼決 定。該數據必須被縮放成增強層的目標解析度(如果基層為QCIF且增強層為CIF,則縮放2 的倍數)。儘管空間可縮放性通常需要維護兩個編碼環路,但是通過將基層中用於增強層編 碼的數據僅限於可從當前畫面的基層中編碼的信息計算出的那些值來執行單環路解碼是 可能的(例如,在H. 264 SVC草案標準中)。例如,如果基層宏塊是幀間編碼(inter-code) 的,則增強層不能使用該宏塊的經重構像素作為預測的基礎。然而,它可使用其運動矢量和 預測差錯值,因為它們可通過只解碼當前基層畫面中包含的信息來獲得。由於解碼器的復 雜度被顯著降低,因此單環路解碼是可取的。質量或SNR可縮放性增強層編解碼器可以與空間可縮放性編解碼器相同的方式 來構造。對於質量可縮放性,與在較高解析度版本的輸入上構建增強層不同,編解碼器以相 同空間解析度編碼殘餘預測差錯。關於空間解析度,在單或雙環路編碼配置中,基層的所有 宏塊數據可在增強層被重用。出於簡便起見,本文的描述一般針對使用空間可縮放性的技 術。然而,應當理解,相同的技術可應用於質量可縮放性。通過引用結合於此的國際專利申請PCT/US06/28365 [SVC編碼]描述了線程編碼 結構(例如,編碼結構900)在其針對存在傳輸差錯的穩健性方面所具有的不同優點。在基於運動補償預測的傳統技術水平的視頻編解碼器中,時間依存性是固有的。給定畫面處的 任何分組丟失不僅影響該特定畫面的質量,而且或者直接或者間接地影響以給定畫面作為 參考的所有將來畫面。這是因為解碼器對將來的預測可構建的參考幀將與編碼器處所用的 參考幀不同。隨後的差異或漂移會對傳統技術水平的視頻編解碼器造成極大的影響。
相反,圖9中所示的線程結構創建三個完備線程或依存鏈。關於L2畫面發生的分 組丟失將僅影響L2畫面;LO和Ll畫面仍可被解碼和顯示。類似地,關於Ll畫面發生的分 組丟失將僅影響Ll和L2畫面;LO畫面仍可被解碼和顯示。此外,線程結構可被創建成包括 S畫面的線程或依存鏈(例如,圖11)。圖11中所示的示例性S分組線程結構1100具有與 圖9中所示的L畫面線程結構900相類似的特性。S2畫面處的分組丟失僅影響特定畫面, 而Sl畫面處的丟失還將影響隨後的S2畫面。在任一情形中,一旦將下一 SO畫面解碼,漂 移就將終止。
再次參看圖9,在畫面質量方面,LO畫面處發生的分組丟失可能是災難性的,因為 將會影響所有畫面類型。如前所述,對此問題的傳統解決方案是周期性地編碼LO畫面作為 內畫面或I畫面。然而,實現這種解決方案的帶寬開銷會是顯著的,因為I畫面通常比P畫 面大3-6倍。此外,導致需要使用I畫面的分組丟失通常是網絡擁塞的結果。試圖通過網 絡發送I畫面來補救分組丟失只會惡化擁塞問題。
比使用I畫面傳輸來補救分組丟失更好的技術是將LO的特定百分比的內宏塊編 碼為在任何給定畫面中內部。這種技術有助於將比特率負荷分攤到多個畫面上而不是將負 荷集中到單個畫面中。已被編碼為在給定畫面中內部的宏塊在同一周期中無需再次被強制 編碼為在內部。在有限數目的畫面之後,接收器/解碼器將具有接收到的、關於畫面中的所 有宏塊位置的內部信息。在使用這種技術時,在編碼器處必須注意不將失真預測引入到已 經由運動預測編碼為內部的區域中(即,「安全」對「非安全」幀區域)。因此,在編碼器處, 在給定周期中出於穩健性目的已將宏塊編碼為內部之後,對同一幀區域的將來時間預測可 僅從同一周期中已被編碼為內部的位置開始進行。在給定LO畫面中以幀內模式編碼宏塊 的約10-15%可實現良好的權衡。結果,在約十個LO幀(即,40個畫面、或每秒30幀下的 1.3秒)之後,解碼器將與編碼器在LO層處重新同步。應當注意,當解碼器在內部刷新周 期開始之後立即加入流時,它必須等待下一周期開始以及等待直至下一周期完成,以便進 行同步(即,總共接近兩個周期的延遲)。由於畫面編碼結構(例如,結構900)的層依存 性,隨後的Ll和L2畫面也將被準確解碼,只要它們的數據被準確接收到。因此,如果基層 LO和某些增強層畫面以其遞送被保證的方式傳送,則在分組丟失的情形中沒有嚴重後果的 情況下其餘層可基於盡力來傳送。這種有保證傳輸可使用諸如區分型和FEC等已知技術來 執行。在本文的描述中,也可參照提供這種區分型服務質量的作為兩個實際或虛擬信道的 高可靠性信道(HRC)和低可靠性信道(LRC)(圖1)。(參見例如PCT/US06/28365和PCT/ US06/28366)。在使用可縮放視頻編碼結構(圖11中的結構1100)的視頻通信系統中,層 L0-L2和SO可例如在HRC上可靠傳送,而Sl和S2可在LRC上傳送。儘管Sl或S2分組的 丟失可導致有限的漂移,但是仍期望能夠儘可能多地避免信息丟失。
內宏塊編碼技術的一個缺點是在某些差錯狀況下,實現充分的1塊所需的LO幀之 一可能丟失,由此阻礙了過程的收斂。這種技術的另一個缺點是無論信道的狀況如何都有 編碼效率懲罰。換言之,強制內宏塊將產生帶寬開銷,即使通信中完全沒有分組丟失也是如此。本發明的差錯彈性技術通過採用LO層的子集或整個LO層的可靠傳輸來克服用於 補償分組丟失的傳統技術的前述限制。差錯彈性或可靠性通過重發來確保。本發明的差錯 彈性技術不僅出於顯示目的而被設計成恢復丟失的畫面,還被設計成創建正確的參考畫面 以便於解碼依賴於丟失分組中所包含的那些畫面(整體或部分)的將來畫面。在本發明的 系統實現中,LO畫面的可靠傳輸可通過LRP模塊(例如,圖2中的模塊270A和270B以及 圖4中的模塊470A和470B)根據適當的保護協議(例如,圖14中的協議1400)在發送和 接收方之間使用肯定或否定確認來執行。圖12示出示例性畫面編碼結構1200,其中LO基層和L1-L2時間增強層與至少一 個可靠傳送的基層畫面相耦合以進行差錯彈性視頻通信。在編碼結構1200中,除標示為 L0-L2畫面的常規基層和增強層之外,還有稱為LR( 『R』代表可靠)的新的畫面類型。注 意在圖12中所示的編碼結構1200中,層LR和L0-L2可等效於分別被標示為L0-L3,因為 LR畫面總是經編碼的視頻信號的最低時間層。根據用於差錯彈性視頻通信的本發明,可以 是P畫面的LR畫面被指定成將被可靠地遞送到接收方目的地。本發明的差錯彈性技術的操作可通過考慮其中LO畫面之一因分組丟失而被破壞 或丟失的示例來理解。如前所述,在傳統通信系統中,丟失LO畫面對所有後續L0-L2畫面 的影響是嚴重的。使用本發明的畫面編碼結構1200,在丟失LO畫面之後的下一「可靠遞 送」 LR畫面提供了重新同步點,接收方/編碼器可在該點之後繼續無失真地解碼和顯示。在圖12中所示的編碼結構1200中,LR畫面之間的時間距離例如為12幀。LR畫 面的可靠遞送利用了具有極長時間距離(6幀或更多)的P畫面約為I畫面的大小的一半, 並且可靠遞送並非旨在確保相關畫面的及時顯示而是旨在創建合適的參考畫面以備將來 使用這個事實。因此,LR畫面的遞送可通過在連續LR畫面之間的一段時間內極輕微地增 加系統中的帶寬來實現。編碼結構1200可使用現有的H. 264 AVC標準——在該標準下LR畫面可例如被存 儲在解碼器處作為長期參考畫面並可用MMCO命令來替換——來實現。圖13示出示例性畫面編碼結構1300,其中LR畫面的概念被應用於增強層畫面 (或者空間或者質量可縮放性)。這裡,要被可靠傳送的畫面被標示為SR,而對於LR畫面, 它們組成空間或質量增強層的最低時間層。注意儘管出於例示的目的LR畫面的概念在此通常被描述成應用於經編碼的視 頻信號的最低時間層,但此概念也可根據本發明原理被擴展或應用到附加層。此擴展應用 將導致以可靠方式傳送附加層。例如,參看圖12,除LR畫面之外,LO畫面也可被納入可靠 (重)傳送機制中。類似地,可包括任何空間/質量增強層的畫面(來自最低或附加時間 層)。此外,視頻序列報頭或其它數據可被當作或視為與系統中的LR等效,以使得它們(報 頭或其它數據)被可靠地傳送。在下文中,出於描述簡便的目的,假定只有LR畫面被可靠 傳送,除非另外明確指明。然而,應當容易理解,附加層或數據可以完全相同的方法來可靠 傳送。當沒有分組丟失時,用於LR幀的可靠遞送的帶寬開銷為零或可忽略是合乎需要 的。這意味著動態閉環算法應當被用於可靠遞送機制。在例如LR幀被主動重發多次的情 況中,使用開環算法也是可能的。
圖14示出用於LR幀的可靠遞送的優選機制或協議1400。協議1400採用基於肯 定確認(ACK)消息的機制向發送方(例如,發送器、SVCSl或SVCS^指示特定LR畫面已被 預期接收方(例如,SVCS1、SVCS2或接收器)接收到。參看圖14中的時間軸,如果在指定時 間間隔內(例如,一次往返行程的時間(RTT))未接收到確認,則發送器處的定時器發起給 定LR畫面的重傳。除針對LR畫面使用常規、周期或靜態結構定義之外,還可採用動態結構。 在此情形中,在系統操作中動態地定義LR畫面。在發送器從所有接收器接收到對傳送流中 特定幀的接收的肯定確認之後,視頻通信系統隨後可將此幀指定為LR幀並使用它作為新 的錨定或同步點。換言之,在所有接收器已確認它們皆已正確接收到特定畫面之後,發送編 碼器將使用該特定畫面作為LR畫面。如果特定LR畫面變得陳舊,則發送器可放棄該特定 LR畫面,並且在任何時候嘗試建立與較新畫面的重新同步點。如果使用否定確認(NACK)消 息取代肯定ACK消息,則協議1200的操作是類似的。在此情形中,發送器一旦接收到NACK 就立即重發給定畫面。
當通信系統中存在SVCS時,它可任選地充當ACK消息的聚集點。在此情形中,SVCS 可僅向發送器發送單個歸納確認消息以指示所有預期上遊接收器皆已接收到LR畫面。這 種特徵有助於使通信系統的不同組件之間的控制消息通信量最小化。或者,SVCS可充當 ACK消息的終止點(『ACK終止模式』)。在此模式中,SVCS立即確認接收到的LR畫面並對 其進行高速緩存。在此情形中,發送器不希望來自SVCS的上遊的其他接收器的其它確認。 然後,『終止模式』 SVCS按需執行對下遊SVCS或接收器的重發以確保可靠遞送,並在所有接 收器皆已確認接收之後從其高速緩衝器中移除LR畫面。可利用此模式來將特定接收器/ 端點與有問題的連接隔離開,從而使其它端點之間的通信不受到影響。注意在ACK終止模 式中,不再可能在發送器處動態地將畫面定義為LR畫面,因此在此情形中周期性或靜態模 式是適當的。
示例性協議1200 (使用肯定確認,但不用ACK聚集或終止)的操作的細節可參照 圖14來理解。附圖示出例如通過兩個單獨的SVCS單元1和2通信的發送器和接收器。應 當理解,協議1200的操作通常與其中不使用SVCS的系統(例如,具有發送器與接收器之間 的直接連接的系統)以及其中使用一個或多個SVCS的系統中的相同。
參看圖14,發送器在時刻t0傳送作為LR狀態的候選的LO幀。該幀可在一個或多 個傳輸層分組中輸送。在此出於描述方便起見,可假定使用單個分組。此外,如果使用幀分 段——在此情形中重傳會影響丟失的特定片段,但不一定是整個巾貞——則操作是相同的。
在SVCSl處期望在給定時刻tl-tO內接收到包含LR幀(LR)的分組。此時,發送 器期望SVCSl生成針對該幀的肯定確認消息(ACK)。如果在系統的往返行程時間(RTT)內 沒有接收到這種ACK,則發送器假定分組已丟失並在時間t2重傳LR幀。現在假定在SVCSl 處接收到幀。針對發送器的ACK可由SVCSl生成,該SVCSl還將幀轉發到SVCS2。與發送器 相類似,SVCSl還將經歷多次幀重傳直至SVCS2確認其接收。圖14示出在時間t6由SVCS2 接收到由SVCSl發送的LR幀。然後,SVCS2將持續向接收器傳送該幀直至其接收到來自接 收器的ACK(例如,ACK 1410)(例如,在時間t8)。當最終用戶接收器(並非中間SVCS)接 收到LR幀時,它通知初始發送器其現在具有可用作供將來畫面的編碼用的參考畫面的此 新的正確接收到的幀。此ACK14010經由SVCS傳播到達發送器(例如,在時間tlO)。在特 定視頻通信會話中的所有接收器確認對新的LR幀的正確接收之後,發送器可隨後使用所傳送的幀作為參考畫面。
如前所述,在H. 264視頻編碼標準中,通過將候選傳送畫面標記為長期參考畫面 來便於使用所傳送的幀作為參考畫面。類似的標記技術可與其它編碼方案一起使用。候選 傳送畫面未被用作參考畫面直至已從所有接收器收集到肯定ACK。注意在LR協議1400運 行的整個時間內,發送器持續傳送經編碼的視頻。換言之,由於協議要求可能的重傳,因此 不引發附加的端對端延遲。LR處理機制的目標是創建用於將來畫面的編碼的可靠參考畫 面。實際上,LR畫面的初始傳送被破壞且在特定接收器處無法適當的播放是可能的。發送 器(或SVCQ將持續傳送畫面直至其被特定接收器正確地接收到,而接收器將持續嘗試解 碼和回放發送器將繼續傳送的後續視頻幀。
圖15示出使用否定確認(NACK)的協議1500的操作。與使用ACK的協議的操作 的不同之處在於現在接收端點或SVCS具有檢測何時LR畫面未被接收到且已丟失的任務。 RTP或H. 264傳輸中丟失檢測用的具體技術將在下文中描述(例如,參照圖16-24)。這些 技術使得-接收到任何後續畫面就能夠檢測到丟失。在協議1500的操作中,當接收端點或 SVCS檢測到LR畫面已丟失時,它就向傳送端點或SVCS發送NACK消息。然後,傳送端點或 SVCS從其高速緩衝器獲得丟失的畫面,並重傳或者丟失的幀或者將使得接收器能夠重新同 步其解碼器的更近的LR畫面。
繼續參看圖15,假定使用圖9的畫面編碼結構(四個時間層,即LR和L0-L2),以 及發送器和接收器通過SVCS通信。此外,假定由發送器在時間t0傳送的LR畫面丟失,而 後續的畫面——LO畫面——被成功地傳送到SVCS。一接收到LO畫面,SVCS就檢測作為參 考的LR畫面已丟失,並傳送NACK,後者由發送器在時間tR接收到。同時,發送器也已在時 間t2傳送Ll幀。一旦在時間tR接收到NACK,發送器就向SVCS重傳最近的LR畫面。發送 器繼續以適當的時間間隔傳送初始畫面流,例如,在時間t3傳送L2畫面而在時間t4傳送 Ll畫面。注意無論所需的LR畫面是否已丟失,SVCS都立即向下遊接收器轉發已從接收器 處成功接收到的任何畫面。假定針對接收器的所有傳輸都成功,則當在接收器處接收到重 傳的LR畫面時,接收器將具有用以解碼在較早時間t3和t4接收到的LO和Ll所必需的所 有信息。儘管可能太遲而不能顯示這些畫面,但是接收器(例如,在解碼畫面而非顯示它們 的「恢復模式」中)可將其解碼以便具有用於正確解碼在時間t5到達的L2畫面的正確參 考畫面。如果接收器具有足夠的CPU能力,則這種解碼可比實時更快地完成。在時間t5,接 收器可隨後開始常規地解碼和顯示沒有差錯的傳入視頻信號,並且沒有因丟失而導致任何 延遲。應當注意,如果所選的接收器改為在L2之前顯示LR、L0和Ll畫面,則通信會話的常 規(沒有丟失的情況下)端對端延遲將增加SVCS恢復所丟失的LR畫面所用的時間量。在 交互式通信中,附加延遲是不合需要的,並且消除該附加延遲是本發明的優點之一。
使用RTCP或其它反饋機制,可使用例如上述的肯定和否定確認技術通知發送器 特定接收器正經歷丟失分組。反饋可與針對每個單獨分組的各個ACK/NACK消息一樣詳細。 使用反饋使得編碼器能夠計算(確切或大致地)解碼器的狀態,並相應地進行動作。此反 饋被生成並由可靠性和隨機接入控制(RFC)模塊530(圖6)來收集。RRC模塊可隨後指令 編碼器使用內宏塊,或適當地增加其頻率以在需要時進一步幫助同步過程。
當使用肯定確認時並且為了使已經歷丟失分組的接收器能夠重新同步到經編碼 的比特流,發送器可使用最近的LR畫面作為參考畫面來選擇編碼當前幀。在知道此LR畫面已被可靠接收到的情況下,發送器可使用LR畫面作為參考來將當前畫面編碼為P畫面。 在接收器正確地接收到當前畫面之後,從此時開始它可在參考畫面緩衝器方面與編碼器同 步。換言之,將消除解碼器中出現的任何漂移。類似地,當使用否定確認時,解碼器可通過解碼給定畫面的所有必要參考畫面來 與比特流重新同步,即使它們太遲到達而不能被顯示時也是如此。如果解碼器可比實時更 快地(換言之,所佔用的解碼時間少於畫面之間的時間)解碼,則其最終可與接收到的比特 流同步。通過在同步點開始顯示,解碼器可繼續常規解碼和顯示操作而沒有任何附加的端 對端延遲被添加到通信會話。用於重新同步接收器的這些技術在涉及例如5-10個參與者的中型到大型視頻會 議中具有明顯的優勢。在此類會議中,使用I幀實現已經歷分組丟失的接收器的重新同步 會對所有參與者施加相當可觀的帶寬懲罰。實際上,最弱鏈路(即,具有最多差錯的鏈路) 上的參與者將影響具有最強鏈路的參與者的質量。通過使用LR畫面,消除了內畫面的使 用。儘管基於LR畫面的P畫面也具有帶寬開銷,只要幀之間的時間距離不是太大,開銷就 會顯著小於I畫面的。用於重新同步的LRP技術也適於諸如往返行程延遲、伺服器的分布 等的系統參數。系統越好,在接收器處準確接收到時LR畫面將建立得更快,從而導致對基 於LR畫面的更好預測,這又將導致更小的開銷。注意,當使用反饋時,可能不必先驗決定LR幀的結構。實際上,LR幀的結構可通 過收集和整理來自所有接收器的反饋來統計和動態地建立。被確認為被所有接收器接收到 的幀可被自動視為LR幀。在某些情形中,LR畫面的缺點在於到視頻會議的單個較差的連接仍會使針對所涉 及的所有參與者的質量下降。在此類情形中,中間SVCS可扮演發送器代理的角色,並在其 餘參與者未受影響地繼續會議的同時持續重發所需的數據。例如,在轉發SVCS到毗連SVCS 或所連接的端點的連接使得實現來自其對等設備的肯定確認的時間大於預先配置的值的 情況中,轉發SVCS可被配置成就像端點確實發回肯定確認(包括發回適當的ACK)那樣對 待該端點。這種配置限制了有問題的端點或SVCS連接對整體系統的影響。從此時開始,轉 發SVCS將僅向其有問題的對等設備傳送LR幀,因為它是最終與解碼過程重新同步所需的 最小信息。如果較新的LR幀自發送器到達轉發SVCS,則它們將繼續被重傳到有問題的SVCS 或端點,由此給予有問題的SVCS或端點與發送器比特流同步的其它機會。由於沒有其它幀 (除LR之外的)在此鏈路上傳送,因此不會因這種重傳導致附加擁塞。實際上,如果此類經 高速緩衝和重傳的LR幀的數目超過特定預定義數目(例如,2-3),則轉發SVCS可考慮要終 止特定的有問題的SVCS或端點連接。所終止的SVCS或端點隨後將必須使用其可用的任何 合適的隨機進入機制來重新加入視步頻會議會話。在連接或鏈路中斷是暫時的情況中,接收端點可以其正確次序解碼重傳的LR幀 並重新加入會話。期望由於LR幀的數目遠小於幀的總數,因此CPU負載將不會是個問題且 接收端點可跟得上解碼過程。應當理解,圖14中所示的協議1400是示例性的,並且其可易於針對其它系統性能 的改進進行更改。例如,在經更改的協議1400中,一直傳回到發送器的確認(例如,圖14 中所示的ACK[RCVR]消息)不必從接收端點發起,而是可僅從最靠近鏈中端點的最後SVCS 發起。連接到端點的最後SVCS可首先發同ACK[RCVR],並隨後如上所述地繼續向端點可靠傳送或重傳LR幀。協議1400的這種更改避免在發回ACK[RCVR]之前必須等待預先配置的 時間。
如可為本領域技術人員所顯見的,根據本發明的原理,可用其它合適的傳輸層機 制替代用於實現LR幀的可靠傳輸的ARQ協議(例如,協議1400)。用於LR幀的合適傳輸的 合適傳輸層機制包括諸如主動重傳、以及諸如使用交織的Reed-Solomon (理德-所羅門) 碼更複雜的FEC(前向糾錯)技術和混合式FEC-ARQ技術(參見例如Rubenstein等人在 2001年3月的計算機通信雜誌上發表)。
在本發明的實現中重點考慮接收器(例如,接收端點或SVCS)如何在最小延遲的 情況下檢測到LR畫面已丟失。本發明包括基於畫面編號和畫面編號引用的技術。此技術 通過向LR畫面指派與這些LR畫面分組一起被運送的序號來操作。接收器維護其已接收到 的LR畫面的編號的列表。另一方面,非LR畫面包含最近LR畫面在解碼次序中的序號。此 序號引用允許接收器甚至在接收後一 LR畫面之前檢測丟失的LR畫面。當接收器接收到LR 畫面時,其可通過將其畫面編號與其所維護的畫面編號列表(接收到的畫面的編號應當比 前一畫面的編號大一,或者如果計數重新開始則為0)作比較來檢測是否已丟失先前LR畫 面中的一個或多個。當接收器接收到非LR畫面時,它進行測試以查看所引用的LR畫面的 編號是否存在於其編號列表中。如果不存在,則假定為丟失,並且可發起糾正動作(例如, NACK消息被傳回發送器)。
LR畫面可使用標誌或其它信令手段(例如,根據其分組報頭或分組有效載荷參數 導出)等來標識,或者它們的存在被暗示(例如,通過它們在經編碼的視頻序列中的次序)。 作為LR畫面編號的使用的例示,假定兩個畫面LR和LO的序列以此次序被傳送。接收器的 編號列表最初為空。此外,假定對LR畫面指派序號0。LR畫面將在其分組中指示編號0的 情況下被傳送。LO畫面也在包括編號0作為對其所依賴的LR畫面——最近LR畫面——的 參考的情況下被傳送。如果LR畫面丟失,則接收器將接收到包含對具有編號0的LR畫面 的引用的幀L0。由於此編號在其列表中不存在(列表仍為空),因此接收器檢測到具有編 號0的LR畫面已丟失。它可隨後請求重發丟失的LR畫面。
注意,使用LR畫面編號技術檢測丟失的LR畫面可在接收端點以及中間SVCS兩者 處執行。例如在LRP (接收)模塊270B(圖2和;3)或模塊470B(圖4)處執行此操作。
本文描述了 LR畫面編號技術的兩個不同實施例。一個實施例(在下文中稱為『R 分組』技術)適用於系統使用RTP協議進行傳輸的情況。另一實施例適用於系統使用H. 264 Annex G(SVC)草案標準的情況。
對於R分組技術,假定RTP協議(在UDP和IP上)被用於兩個終端之間——可能 經由一個或多個中間伺服器——的通信。注意媒體傳送終端可執行實時編碼,或者可從本 地或其它存儲(RAM、硬碟、存儲區網、文檔伺服器等)訪問媒體數據。類似地,接收終端可執 行實時解碼,以及它可將接收到的數據存儲在本地或其它存儲中以備將來回放,或者兩者。 對於在此的描述,假定(並非限制)實時編碼和解碼正在進行。
圖16示出傳送終端的LRP發送模塊(例如,圖2中的模塊270A)的架構。LRP發 送模塊包括具有用於可能要求重傳的分組的本地存儲(例如,緩衝器1605)的分組處理器 (R分組控制器1610)。R分組控制器1610對R分組作標記,並且還對RNACK作出響應。R分 組控制器被連接到實現RTP/UDP/IP協議棧的復用器MUX 1620和分用器DMUX 1630。儘管MUX 1620和DMUX1630在圖16中被示為單獨的實體,但它們可被組合在同一單元中。MUX 1620和DMUX 1630被連接到提供物理層接口的一個或多個網絡接口控制器(NIC)。在優選 實施例中,NIC是乙太網適配器,但可使用任何其它NIC,這對於本領域技術人員是顯而易 見的。類似地,圖17示出接收終端的LRP接收模塊(例如,圖2中的模塊270B)的示例性 架構。在此,R分組控制器(例如,控制器1610』)負責分組丟失檢測和適當NACK消息的生 成。此外,圖18示出伺服器的LRP發送和接收模塊(例如,圖4中的模塊420A和420B)—— 可與接收終端的組件以及背靠背(back-to-back)連接的傳送終端的那些組件相同——的 結構。在優選實施例中,傳送終端根據RTP規範對媒體數據進行分組。注意盡 管針對RTP定義了不同的分組(稱為「有效載荷」)格式,但它們可共享同一公共報 頭。本發明針對RTP分組引入命名報頭擴展機制(參見2006年2月D. Singer的
draft_ietf_avt_rtp_hdrext_01 (進#於中)-"A general mechanismfor RTP Header
Extensions (RTP報頭擴展的通用機制)」)以使得R分組可被適當處理。根據本發明,在包含R分組的RTP會話中,用命名報頭擴展機制來對各個分組作標 記。R分組報頭擴展元素標識R分組自身以及先前發送的R分組。例如,此報頭擴展元素具
有名稱"com. layeredmedia. avtr-packet/200606」。每個R分組包括-且每個非R分組
應當包括——此類形式的報頭擴展元素。圖19示出發明性命名報頭擴展的示例性數據欄位格式,其中這些欄位定義如下。ID:4 比特針對此報頭擴展元素協商的本地標識符,如例如D. Singer在2006年12月的
draft_ietf_avt_rtp_hdrext_01 (進#於中)-"A general mechanism for RTPHeader
Extensions (RTP報頭擴展的通用機制),,中所定義的。長度(Ien)4 比特此報頭擴展元素的數據字節的長度減一,不計入報頭字節(ID和Ien)。如果存在 第二個字(取代範圍),則這將具有值6,如果不存在,則為2。因此,其值必須或者為2或者 為6。R:1 比特指示包含此報頭擴展元素的分組是系列SER中具有R序號RSEQ的R分組的比特。 如果此比特未被置位,則報頭擴展元素替代地指示媒體流在系列SER中的最近R分組具有 R序號RSEQ。如果此比特未被置位,則取代範圍應當不存在(即,Ien欄位應當為2)並且 在存在的情況下必須被忽略。保留,必須為零(MBZ) 3比特保留比特。這些必須在傳送時被設為零,並且在接收時被忽略。系列ID(SER) 4 比特R分組系列的標識符由此報頭擴展元素來描述。如果媒體編碼器僅描述單個R分 組系列,則此應當具有值0。例如,使用圖13中所示的可縮放視頻畫面編碼結構,L分組(空 間增強基層,所有線程)可比方將SER設為零,而S分組(空間增強層,所有線程)可將SER 設為1。
R分組序號(RSEQ) 16比特
指示此R分組在系列SER中的編號的無符號序號。在給定系列中每發送一個R分 組,此值遞增1 (mod 2~16)。各個序列的RSEQ值是獨立的。
取代範圍的起始(SUPERSEDE_START) :16比特
被此R分組取代的最早R分組(包括此分組)的R序號,通過模2~16計算出。(由 於此值使用模運算,因此值RSEQ+1可用於SUPERSEDE_START以指示在取代範圍末端之前的 所有R分組已被取代。)此欄位是任選的,並且僅在Ien = 6時存在。
取代範圍的末端(SUPERSEDE_END) :16比特
被此R分組取代最後R分組(包括此分組)的R序號,通過模2~16計算出。此值 必須位於閉合範圍[SUPERSEDE_START. . RSEQ]模2~16中。此欄位是任選的,並且僅在Ien =6時存在。
RTP分組可包含多個R分組標記元素,只要這些元素的每一個都具有一不同的SER 值。然而,RTP分組不能包含一個以上的、R比特被置位的這種報頭擴展元素,S卩,R分組不 可屬於一個以上的系列。
媒體流中使用R分組的所有RTP分組應當包括針對所有活躍系列的標記元素。
當此報頭擴展元素的第二個字存在時,它指示此R分組取代某些先前接收到的R 分組,這意味著這些分組不再是重構流狀態所必需的。第二個字必須僅在其R比特被置位 的報頭擴展元素中出現。
R分組可僅取代系列中由元素的SER欄位標識的R分組。R分組不能取代其它系 列中的分組。
對於取代元素而言,具有SUPERSEDE_END = RSEQ是有效的。這指示R分組 取代其自身,即,此R分組直接變成與流狀態無關。實際上,這樣做的最通常原因是 要結束一系列;這可通過發送具有取代範圍(SUPERSEDE_START,SUPERSEDE_END)= (RSEQ+1, RSEQ)的空分組(例如,RTP No-op分組,參見F. Andreasen在2005年5月的 draft-ietf-avt_rtp-no-op-00(進行中)的 「ANo-opPayload Format for RTP(RTP 的 No-op有效載荷格式)」),以使得該系列不再包含任何未經取代的分組。
在系列中發送的第一 R分組應當在取代範圍為(SUPERSEDE_START,SUPERSEDE, END) = (RSEQ+1,RSEQ-I)下發送,以明確該範圍內沒有其它R分組存在。
R分組可冗餘地包括要被取代的分組範圍內已被取代的分組。
R分組的丟失由接收器來檢測,並且由該接收器用RTCP反饋消息向發送器進行指 示。R分組否定確認(NACK)消息是由PT = RTPFB且FMT = 4 (作為示例)標識的RTCP反 饋消息(例如,參見J. Ott等人在2006年7月的RFC4585的「Extended RTP Profile for RTCP-based Feedback (RTP/AVPF)(基於 RTCP 反饋的擴展 RTP 概況(RTP/AVPF)) 」)。根據 本發明,也可選擇其它值。FCI欄位必須包含至少一個且可包含一個以上的RNACK。
RNACK分組用於指示一個或多個R分組的丟失。丟失分組經由分組序號、系列標識 符和位屏蔽來標以。
RNACK消息的結構和語義類似於AVPF通用NACK消息的那些。
圖20示出了 RNACK反饋控制信息(FCI)的示例性語法,其中各個欄位定義如下
R分組序號(RSEQ) 16比特
RSEQ欄位指示接收器尚未接收到的RSEQ值。系列ID(SER) 4 比特哪個R分組序列正被此報頭擴展元素描述為丟失的標識符。後續丟失R分組的位屏蔽(BLR) 12比特BLR允許報告緊隨由RSEQ指示的RTP分組之後的12個R分組中的任一個的丟失。 指示BLP的最低有效位為比特1,且其最高有效位為比特12,如果接收器尚未接收到系列 SER(模2~16)中的R分組號(RSEQ+i),則位屏蔽的比特i被設為比特1,並且指示此分組丟 失;否則比特i被設為0。注意發送器不能假定接收器已接收到R分組,因為其位屏蔽被 設為0。例如,如果序列中對應於RSEQ的分組和後續的R分組已丟失,則BLR的最低有效 位可被設為1。然而,發送器不能僅因為比特BLR的比特2到15為0就推斷已接收到分組 RSEQ+2到RSEQ+16 ;所有發送器都知道接收器此時尚未將它們當作丟失來報告。當接收器檢測到其尚未接收到非替代的R分組時,它遵照RTCP (參見J. Ott和 S. Wenger 在 2004 年 8 月的 draft-ietf-avt-rtcp-feedback-ll (進行中)」『Extended RTP Profile for RTCP-based Feedback(RTP/AVPF)(基於 RTCP 反饋的擴展 RTP 概況(RTP/ AVPF)) 」)儘可能快地發送RNACK消息。在多點情況中,這包括監聽來自其它接收器的RNACK 分組但不針對已被報告的丟失R分組發送RNACK。當發送器接收到RNACK分組時,其檢查該分組是否已被取代。如果其尚未被取代, 則發送器重傳被發送的RNACK所針對的分組(使用例如RTP重傳有效載荷,參見J. Rey等 人在 2006 年 7 月的 RFC 4588 的「RTPRetransmission Payload Format (RTP 重傳有效載荷 格式)」)。如果分組已被取代,則它重傳最近的分組,後者的R分組元素指示包括所請求分 組的取代分組範圍。取代重傳先前已發送的分組,發送器還可選擇生成和發送取代RNACK中所請求分 組的新的R分組。在某一時間段之後,如果接收器尚未接收到或者被發送的RNACK所針對的R分組 或者取代該分組的R分組的重傳,則它應當重傳RNACK消息。接收器不能以超過AVPF所準 許的頻率發送RNACK消息。它在可能的情況下應當執行對到發送器的往返行程時間的估 計,並且不應當以超過每往返行程時間一次的頻率發送RNACK消息。(如果接收器也充當 RTP發送器,且發送器正發送關於接收器的流的RTCP接收報告,則可根據發送器報告的LSR 和DLSR欄位推斷出往返行程時間。)如果往返行程時間不可用,則接收器不應當比設置時 間段更頻繁地發送RNACK消息。可能值為100毫秒,儘管根據應當環境其它值也可能是合 適的,這對本領域技術人員是顯而易見的。上述RNACK機制也可作為肯定確認『RACK』消息來應用。在此情形中,接收器向發 送器指示哪些分組已被正確接收。根據本發明的原理,在對分組報頭的語義進行適當修改 的情況下,與RNACK消息相同的設計可被用作這些『RACK』消息。RACK消息可具有有效載荷 特定解釋,例如,它們可對應於切片或整個幀。在此類情形中,RACK消息必須確認相關切片 或幀所涉及的所有各個分組。在同一系統中組合使用RACK和RNACK也是可能的。R分組技術具有若干優點。首先,它使得發送器能夠將所生成RTP流中的分組子集 指示為高優先級(R)分組。
它還使得接收器能夠確定其何時已丟失R分組、何時接收到流的任何分組,並且 無需考慮經編碼的流的依存性結構如何。
它還使得接收器能夠向發送器指示其在何時已丟失R分組。這可通過否定確認已 被標識為丟失的任何分組來實現。任選地,接收到的R分組可由接收器進行肯定確認。
另外,它使得不管已丟失多少其它非R分組,接收器都能夠確定其自接收到的最 後分組起未丟失任何R分組。
又一個優點在於,它使得發送器能夠——或者以編解碼器知曉的方式(例如, H. 264切片)或者以編解碼器未知曉的方式(例如,RFC 3984分段單元)——將幀劃分成 任何數目的R分組。
另一個優點在於,它使得發送器能夠聲明R分組取代先前的R分組,S卩,先前的某 些R分組不再是建立流狀態所必需的。這包括能夠聲明給定分組之前的所有R分組已被取 代,以及一定範圍的R分組被取代兩者。
最後,另一個優點在於,它允許編碼器以允許R分組狀態從FEC流恢復的方式對其 媒體流——或者對所有分組或者選擇性地僅對於R分組——應用前向糾錯(FEC)(參見例如 A. Li 在 2006 年 3 月的 draft-ietf-avt-ulp-17 (進行中)-"RTP Payload Formatfor Generic Forward Error Correction(通用前向糾錯的RTP有效載荷格式)」。
允許接收器以最小延遲檢測LR畫面(包括SR畫面)已丟失的第二示例性檢測技 術可應用於基於H.沈4 Annex G(SVC)草案標準的系統。在此情形中,H. 264 AnnexG(SVC) NAL單元被用作進行傳輸的基礎。目前HJ64 SVC編解碼器的設計不運送足以允許接收器 確定是否已接收到流的全部最低時間層(R)——即HJ64 SVC術語中的「關鍵畫面」的信 息。例如,參看圖21,幀0和幀3都是自身存儲在長期參考緩衝器中的位置0的關鍵幀。幀 4參考長期參考緩衝器中的位置0。如果幀3完全丟失,則幀4不能被正確解碼。然而,接 收器在H. 264 Annex G(SVC)草案標準下無法了解這些;接收器如同它能夠使用幀0作為幀 4的參考那樣來進行操作,因而顯示不正確的圖像。
用於使得解碼器能夠檢測幀丟失的機制要將連續幀號或索引指派給關鍵圖片,並 且使非關鍵幀通過參考最近的關鍵幀的幀索引來指示該最近的關鍵幀。通過檢查關鍵幀索 引,流接收器可確定其是否確實接收到當前幀之前的流的全部關鍵畫面。對於以H. 264 SVC 語法提供幀索引信息,存在多種可能性。以下參照圖23和M描述了兩種替換性實施例。
圖22示出SVCNAL報頭擴展的結構,如在目前的H.沈4 AnnexG草案(參見例如 2006 年 7 月在 Klagenfurt 由 J. Reiehel、D. Santa Cruz 和 F. Ziliani 修改的聯合視頻組 的文獻 JVT-T201 的 T. WiegancUG. Sullivan、J. Reichel、H. Schwarζ,Μ. Wien 等人的「Joint Draft 7, Rev. 2 Scalable Video Coding(聯合草案7,修訂版2 :可縮放視頻編碼)」, 2006年7月在Klagcnfurt的聯合視頻組的文檔JVT-TO 83 (經修改)的「On IIigh Level Syntax(關於高級語法)」,這兩篇文獻皆通過引用全部結合於此)中定義的。圖22示出3 字節報頭的結構,以及各個欄位的名稱及其比特長度。cbpendencyjd(依存性_11)) (D)、 temporaljevel (時間_級)(T)以及qualityjevel (質量_級)(Q)欄位分別指示空間/ 粗粒度質量、時間和細粒度質量維度中的點。換言之,它們指示NAL的有效載荷在由可縮放 編碼器提供的一組解析度中的位置。注意,此方案中的基層通過D = Q = T = 0來標識。
此外,注意當T = Q = 0 時,fragmented_flag(分段 _ 標誌)、last_fragment_flag (最後_片段_標誌)、fragmentjrder (片段_次序)欄位沒有使用,因為它們僅對 res經編碼的數據相關(q>o)。這些欄位提供總共4比特。如果後綴reserved_zero_ two_bits(保留_零_兩_比特)被包括在內,則總共為6比特。類似地,當TXHfiQ = 0 時,總共 4 比特的欄位 fragmented_flag> last_fragment_f lag> fragment_order 不被使 用。如果添加後綴保留比特,則總共為6比特。通過注意條件T = Q = O對應於關鍵畫面, 而T > 0且Q =對應於非關鍵畫面,可看到存在可用於引入幀編號的若干比特。可用的比 特數目受非關鍵幀比特的限制。圖23示出根據用於以H. 264 SVC語法提供幀索引信息的示例性技術的經更改的 SVC NAL擴展報頭的結構。注意報頭的長度不變;然而,某些比特取決於T和Q欄位的值 而被不同地解釋。在T = 0且Q = 0的情況下,F、LF、F0和R2欄位被解釋為指定了指派給 當前接入單元的關鍵畫面幀索引的FI欄位0 ^_ 1(^11儀_&£11^_1叔(關鍵_畫面_幀_ 索引))。在T>0且Q = O的情況下,F、LF、FO和R2欄位被解釋為指定按照解碼次序相 對於當前接入單元的最近關鍵幀的key_pic_frame_idx的LFI欄位(last_key_picture_ framejdx (最後_關鍵_畫面_幀_索引))。對非關鍵幀使用6比特允許表示64個連續幀號。使用在每秒30幀下低至4個的 關鍵畫面時段,每個幀號周期為8. 4秒。最小周期時間為4. 2秒,對應於2個的關鍵畫面時 段。明顯地,較長的時間提供更好的穩健性,因為參考畫面與到達的畫面之間幀號重複的機 會得以減小。用於以H. 264 SVC語法提供幀索引信息的技術的第二實施例通過使用保留比特之 一作為擴展標誌——當它被置位時發信號通知報頭中存在附加比特或字節——來允許較 長長度的幀索引。圖24示出此實施例的示例性SVC NAL報頭擴展結構,其中最初3位元組報 頭的最後比特現在用作擴展標誌伍?,^切1181011_打叫(擴展_標誌))。當EF標誌被置位 時,報頭中存在附加字節。取決於T欄位(temporaljevel (時間_級))的值,此附加字節 被解釋為FI或LFI欄位。在兩個實施例(3位元組或4位元組SVCNAL報頭擴展)中,FI欄位值遞增並滿足以下 約束如果當前畫面是IDR畫面,則FI值應當等於0 ;以及否則,S卩,如果當前畫面不是IDR畫面,則令PrevTLOFrameIdx等於按照解碼次序 T等於0的最近畫面的FI值。當前畫面的FI的值應當等於(PrevTLOFrameIdx+Ι) % 256。 數字256表示FI欄位的動態範圍(最大值+1),並且應當針對不同的FL欄位長度調節成值 2~ (以比特計的FI長度)。在RTP傳輸上下文和H. 264 SVC NAL傳輸上下文中,根據本發明的用於指示R畫 面索引值並在非R畫面中引用它的替換性機制對於本領域技術人員將是顯而易見的。現在關注在視頻通信系統中使用LR畫面進行可靠傳輸和隨機接入的替換性實施 例(參看圖1)。在本發明的替換性實施例中,SVCS單元可被配置成通過解碼所有LR畫面 並將最近的LR畫面保留在緩衝器中來便於LR畫面的可靠傳輸。當接收器經歷分組丟失時, 它可從SVCS請求最近LR畫面的副本。此畫面現在可在SVCS處被編碼成高質量內畫面並 被傳送到接收器。此經編碼的畫面被稱為內LR畫面。儘管帶寬開銷可能很高,但是這僅影 響特定SVCS與經歷分組丟失的接收器之間的鏈路。內LR畫面隨後可被接收器用作應當被包含在其參考畫面緩衝器中的實際參考畫面的良好近似。為了改進這種近似,幀內編碼較 佳地應當具有極高質量。由H. 264支持的SI/SP技術還可用來提供對用於與比特流同步所 需的參考幀的準確再現。在此情形中,SI和SP畫面兩者必須由編碼器生成。SI畫面由未 接收到SP畫面的接收器使用。通過構造,使用SI/SP畫面機制沒有漂移。注意儘管Si/ SP機制當前僅被H. 264 AVC支持,但是完全可對SVC類型(可縮放)編碼應用相同的方法。 SI畫面可被SVCS進行高速緩存,並且僅提供給新參與者。
在最接近接收最終用戶的SVCS不具有用於持續解碼LR畫面(或者在LR畫面不 存在的情況下的LO畫面)的計算能力的情形中,該任務可被指派給在傳輸路徑的較早級處 的SVCS。在極端情形中,指派(以及最終用戶的相關聯請求)可在發送器自身處進行。
注意常規解碼畫面與在使用內LR畫面之後解碼的那些畫面之間的匹配並不一 定精確(除非使用SI/SP幀)。然而,結合內宏塊,在傳輸期間可能存在的視覺偽像被極大 地減少的同時,視頻通信系統可逐漸恢復同步。這種技術的益處在於其將差錯處理完全局 部化在經歷分組丟失的鏈路上。結果,其他參與者在其視頻信號的質量上完全不遭受懲罰。
以上差錯彈性技術也可用於提供對經編碼視頻信號的隨機接入。例如,在圖1中 所示的視頻會議示例中,當最終用戶3加入最終用戶1與2之間的現行視頻會議時,最終用 戶3將開始從兩個最終用戶1和2處接收經編碼的視頻流。為了能夠適當地解碼這些流, 最終用戶3處的視頻解碼器必須與最終用戶1和2處的解碼器同步。這要求將最終用戶3 處的參考畫面與最終用戶1和2處的參考畫面對齊。
如前所述,由於使用內畫面會對系統帶寬產生較大影響——對於較大會議的媒體 尤其如此——因此使用內畫面沒有吸引力。內宏塊的替換性技術可用於在較小的時段內實 現同步。
在本發明的實施例中,基於伺服器的內LR畫面被直接用於隨機接入。當參與者第 一次加入會議時,它立即請求這種內LR畫面,並隨後進入差錯恢復模式(就像丟失了分組 那樣)。通過同時使用內宏塊,解碼器將快速與編碼器同步,但是在處於差錯恢復模式期間, 視覺偽像將被最小化。注意發送編碼器通過會話的信令機制了解新的用戶何時加入通信 會話,並且可由此發起使用內宏塊或按需增加其頻率。這例如通過圖6中所示的RRC模塊 630來實現。因此,與內宏塊相關聯的編碼效率的降低僅被限於新的用戶加入會話的期間。
由基於伺服器的內畫面所導致的計算複雜度並非十分高。假定每三個LO幀中有 一個是LR幀,則僅需要解碼8%的幀。將僅需要對很少部分的幀進行編碼。實際上,僅集 中在隨機接入問題上(例如,參與者改變解析度、或預訂會話),則僅需要對10%或更少的 幀進行編碼。還可通過限制每個被處理的流生成I幀的頻率來將編碼限於任何期望值。例 如,假定8%的幀被解碼且2%被編碼(對應於每48幀的隨機進入),則與必須解碼和編碼 整個流的解碼MCU/伺服器的傳統實現相比,總的複雜度小於3. 5% (8% x25% +2% x75% =3. 5%,假定編碼複雜度是解碼複雜度的3倍)。類似於傳統解碼MCU,基於伺服器的內 LR畫面技術可將內幀請求(例如,對於差錯恢復、隨機接入以及畫面大小的改變)與傳送器 隔離開,並由此限制了這種幀內請求對其它參與者端點的影響。
如前所述,如果伺服器不具有用於基於伺服器的內畫面處理的CPU能力,或者如 果伺服器未在會議會話中預訂所請求的流,則內畫面請求可傳播到下一 svcs( S卩,更靠近 特定視頻流的傳送器)。如果系統中沒有伺服器具有合適的內畫面處理功能,則內畫面請求甚至可傳播到發送器/傳送器本身。以基於伺服器的LR畫面為基礎的視頻會議保留基於可縮放視頻和聯播的視頻會 議的優點。這些優點包括因無需抖動緩衝器而實現的最小伺服器延遲(即使具有LR畫面)、 改進的差錯彈性、以及比傳統MCU的複雜度小一個量級的複雜度。以上所述的LR和基於伺服器的內LR畫面技術也可直接應用於空間可縮放性和 SNR或質量可縮放性。LR畫面和基於伺服器的內LR畫面的概念可應用於空間或質量層的任 一個。例如,圖13示出具有三個時間層和兩個空間或質量層的示例性畫面編碼結構1300。 除差錯彈性和隨機接入之外,空間可縮放性和SNR可縮放性需要考慮層切換。例如,當正在 以CIF解析度觀看參與者的最終用戶決定切換至QCIF或反之時,可能導致層切換的需要。 對於差錯彈性和隨機接入而言,層切換是類似的,但並不相同。不同解析度(空間或質量) 之間的相關性可被有益地用於創建有效的層切換機制。應當注意如當前在H. 264SVC標準化努力中所研究的,在空間可縮放性方面,在 單環路中操作接收器是可能的。如果在高解析度下執行的預測不使用要求以低解析度應用 運動補償的任何低解析度信息,則單環路操作可能的。換言之,預測可使用內宏塊、運動矢 量、預測模式、經解碼的預測差錯值,但不使用低解析度的實際經解碼的像素。雖然從計算 的觀點來看,單環路解碼使得可縮放解碼器較為簡單,但是其使得從低到高或從高到低的 解析度切換成為一個複雜的問題。單環路解碼的替換方案是其中以兩個或多個接收解析度 解碼接收到的信號的多環路解碼。多環路解碼顯著地增大了解碼複雜度,因為它類似於同 時操作多個解碼器(每個經解碼的解析度一個)。在許多視頻會議應用中,解析度之間的頻率切換是必需的。例如,考慮其中有5個 人參加並且說話者在較大窗口中呈現而其他參與者則在較小的窗口呈現的中型會議中的 動態布局。通過使用兩個解析度下的LR畫面,解碼器可維護解碼環路,後者使得兩個分辨 率下的參考畫面緩衝器的內容相近似——準確而言是在LR時間點處。當從一個解析度切 換到另一個時,LR畫面可用作解碼成另一解析度的起始點。假定這些LR畫面是每4個LO 畫面中的一個,則轉換在0.4秒內發生,同時計算開銷小於單環路解碼的10% (準確地為 1/12)。當解碼器僅『預訂』LR畫面時,SVCS可向解碼器傳送分割成較小片的LR幀。這些較 小的片可分散在LR周期上的所有幀之間,以在給定鏈路上維護平滑的比特率。或者,SVCS 可跨時間地分散於來自多個流的不同LR幀上。兩個解析度下的內宏塊也可用來便於層切換。假定端點希望從低解析度轉到高分 辨率。其將持續解碼低解析度信號並以高解析度顯示它(上採樣),同時將在「差錯恢復」模 式中開始解碼高解析度信號但不顯示它。當接收器確信其高解析度解碼環路與編碼器充分 同步時,它可將顯示切換到經解碼的高解析度畫面且任選地停止解碼低解析度環路。相反, 當從高解析度轉到低解析度時,接收器可使用高解析度畫面作為低解析度編碼環路的良好 參考畫面,並以低解析度在常規差錯恢復模式(並且進行顯示)繼續。通過這種方法,端點 將避免必須持續接收高解析度數據。使用內宏塊的一個可能的缺點是其在切換或進入時間與施加於流的當前接收器 上開銷的量之間造就一種權衡。切換越快速,則對於當前接收器而言,將有越多的開銷。以 上W066]所述方法或在伺服器上生成內幀的是用於有效地避開這種權衡的一種可能的方 法,但它在伺服器上的確需要附加媒體處理。本發明之下的其它方法如下
方法(a),其中內宏塊被包括在LR/SR幀中(以使得低速率切換或進入將可能具有 極低的開銷),同時SVCS高速緩存LR/SR幀。當新的接收器進入流時,SVCS僅向其提供這 些幀以使得接收器可比實時更快地將它們解碼(通常為1 8)並且縮短進入時間。
方法(b),其中作為方法(a)的補充,SVCS移除高速緩存的LR/SR畫面中存在的、 對於接收器而言因後繼I宏塊而變得冗餘的幀間宏塊。這在LR/SR幀由編碼器以切片形式 來配備的情況下可更容易實現,以使此操作將僅需要刪去此類冗餘的中間切片。在以下描 述中,這兩種方法(a)和(b)都稱為「內宏塊快速轉發」。
圖25示出內宏塊快速轉發的操作。附圖示出在三個連續時刻t = i到i+2處各 自被編碼成三個單獨切片的LR畫面2500 (LR i到i+2)。在各個時刻,三個切片之一被編碼 為幀內(A)。當進行組合時,這三個畫面一起向解碼器提供每個宏塊的至少一個內版本。為 了用於創建參考畫面,除內切片A之外,解碼器還必須接收圖中所示的陰影切片(B)。這些 陰影切片是使用宏塊數據從同一位置處的先前切片預測的。在實現快速轉發內恢復時,服 務器需要高速緩存提供這種內切片編碼的任何連續LR畫面。一旦有來自接收器的請求,服 務器就僅需傳送內切片以及圖25中所指示的陰影切片B。圖25中所示的非陰影切片(C) 無需被傳送。
注意並非所有LR畫面都必須提供此類內切片編碼。例如,假定LR畫面的傳輸模 式諸如為LRI LRI LRI LR LR LR,其中『I』上標指示存在內切片,則伺服器不僅必須高速緩 存內切片及其在LRI畫面中的依存切片,還必須高速緩存後續LR畫面中的依存切片。
此技術可被擴展到高解析度同步。例如,在如上所述同步到基層之後,接收器可在 開始時顯示經上採樣的基層信息。同時,它可在增強(S)層(通過SRI畫面)中發起相同 的過程。注意這些畫面在SVCS處無需被高速緩存,而是接收器一被添加到會話就指示編 碼器開始生成它們。由於恢復點是根據高速緩存的基層來確定的,因此這不會增加同步時 間。這將僅影響由接收器看到的初始視頻質量。圖沈示出使用由三個切片構成的LR畫面 的示例的這種高解析度同步過程。
參看圖26,SVCS高速緩存LRI畫面的整個周期沈10以及後續LR畫面Q610,)。 當客戶端加入(例如,在A點)時,SVCS儘可能快地向接收器傳送所有高速緩存的LR畫 面。一解碼所有這些畫面,接收器現在就處於同步(例如,在B點)並可開始LR流的常規 解碼。它還可顯示經解碼的、上採樣到高解析度的畫面。同時,在A點處,通知編碼器來生 成SRI畫面沈20。這些畫面開始在C點到達接收器。一接收到整個周期的SRI畫面(例 如,在D點),接收器就從顯示上採樣的基層畫面切換到顯示經解碼的全解析度畫面。儘管 LR恢復是通過比實時更快速地解碼來實現的,但是SR恢復是通過實時解碼來實現的。在此 示例中,接收器能夠在B點產生顯示輸出(雖然以較低的質量)。應當理解,根據本發明的 原理,可對SR恢復使用不同的定時或速率。例如,在帶寬允許的情況下,SR恢復可連同LR 恢復一起被快速轉發。此外,內宏塊可一直存在於SR畫面中,而非僅在可適於較大會議或 與頻繁解析度改變相關聯的會議時按需發起。最後,如果已在接收器中解碼LR畫面,則僅 快速轉發SR級所需的信息可被提供給解碼器。
可在正確時間指示解碼器開始使用如在H. 264規範中定義的恢復點SEI消息來顯 示畫面。參數recovery_frame_cnt (恢復_中貞_計數)禾口 exact_match_flag (準確_匹配 _標誌)可用於指示完成恢復的幀號,以及是否與編碼器相匹配。
在內宏塊被減小以使得刷新需要較大數目的LR/SR幀的情況中,快速轉發方法將 要求發送大量LR/SR幀,從而導致比質量相當的一個I幀更大的總帶寬利用。此外,在許多 視頻切換技術(例如,語音激活切換)中,許多接收器將需要切換到較低或較高解析度下的 相同畫面。在這些情形中,方法(a)可增加執行R幀的解碼以及向切換或進入接收器發送 常規內幀的伺服器(方法(C))。這種經增加的方法(a)提供了在當前預訂流的端點處維持 較小開銷的同時降低與基於伺服器的內幀方法相關聯的計算開銷與減小進行切換時的帶 寬開銷以及切換時間本身之間的良好權衡。在另一方法(d)中,取決於系統中的約束,快速方法可僅用於縮短對同步的等待 時間而非完全消除這種等待時間。例如,如果系統中的進入端點是帶寬有限的,則可能並不 較快地向它發送提前同步所需的所有LR/SR畫面。相反,為了更快速地同步,可向進入端點 發送或提供較小的儲備(backlog)。以上所描述的各種技術和方法在實踐時可被組合或更改。例如,快速轉發方法可 僅應用於LR級(最低空間/質量解析度)幀,這些幀隨後可被解碼並上採樣以用作後繼增 強層幀的參考。實際上,可在之後用於傳送增強層幀的帶寬和用於將它們解碼的CPU可在 同步期間使用以更快速地傳送和解碼LR幀。在編碼器並非帶寬有限的情形中,編碼器在周期性基礎上生成I幀或切片。編碼 器可操作成使得就在I切片或畫面之前的幀將作為緊接其後的幀的參考。SVCS可高速緩 存這種幀內信息,並且阻止將其轉發到當前接收此流的端點,由此避免任何開銷。對於新的 參與者,SVCS將提供此I畫面以及任何後續的R幀,以使得新的參與者可趕上實時。如果 從編碼器到SVCS可用其它帶寬,則有可能傳送所有LR幀,並且添加I切片或畫面作為附加 冗餘畫面。冗餘畫面將在SVCS處被高速緩存,而常規LR畫面被轉發到接收者。高速緩存 的I切片或畫面可如前所述地用於幫助接收器同步到特定流,同時未對當前參與者造成任 何帶寬開銷。以上所述的方法也可用在一個到多個流送應用的、要求低延遲和某些交互性度量 的上下文中,並在本發明下被要求權利。前述切換技術的潛在的缺點是它在從低解析度切換到高解析度時要求雙解碼環 路。一種替換性切換技術僅要求單環路解碼結構。在要實現從低解析度到高解析度的切換 時,解碼器切換到由以較低解析度解碼的參考畫面初始化的高解析度解碼環路。從此時開 始,解碼並顯示高解析度畫面,並且最終經由內宏塊與傳送器同步。當進行單環路解碼時,視頻編碼器僅以參與者所請求的大小編碼畫面是可能的。 這在以多個解析度進行編碼時是優點,例如,極低解析度的編碼可用於差錯隱藏目的。此外,根據本發明,空間和/或SNR可縮放性可用於差錯隱藏。例如,假定單環路 CIF/QCIF編碼。如果在高解析度上發生差錯,對於差錯隱藏,解碼器可上採樣QCIF解析度 的內宏塊,並使用可用運動矢量、模式和在CIF層編碼的預測差錯。如果雙環路解碼是可能 的,或在工作中可基於差錯的檢測進行,則解碼器還可使用上採樣的經解碼的QCIF圖像作 為將來的幀的參考或用於顯示目的。使用在CIF層處使用的宏塊和/或消除對被破壞畫面 的依存性的時間結構,視頻通信系統將快速地從損壞中恢復。圖13中所示的相同LR方案也可用於穩健性目的。當在增強層發生分組丟失時, 低解析度LR幀可提供恢復點。經解碼的幀可用作高解析度參考畫面緩衝器的估計,或者可替代高解析度幀顯示直至高解析度解碼環路恢復。當與內宏塊組合時,這可以是有效的差 錯彈性技術。此外,可在計算負載與切換速度之間進行權衡。例如,通過更多地解碼低分辨 率層(例如,所有LO畫面),存在用於恢復高解析度層的更多和更好的數據。對增強層信號 使用LR幀也是可能的。如在圖13的畫面編碼結構中,當存在一個以上的空間或質量解析度時,快速轉發 恢復和隱藏可同時發生。例如,當解碼器不接收所要求的SR畫面時,它可使用隱藏來解碼 後續SR和S0-S2畫面。當缺少的SR畫面通過重發變得可用時,解碼器可隨後重新解碼自SR 丟失起接收到的插入SR畫面,並且可能已被隱藏地顯示,以使其為後續SR畫面產生正確的 參考畫面。注意如果SR重傳足夠快,且重傳的SR早於在丟失的SR之後的SR畫面到達, 則在允許其對必須解碼並接著顯示的畫面生成正確的參考畫面的情況下,解碼器也可解碼 已被隱藏地顯示的SO和Sl畫面的任一個或全部。如果畫面以切片形式來構造,則根據本 發明的原理,本文所述的隱藏和快速轉發恢復技術皆可獨立地應用於切片中的每一個。在空間可縮放性方面,帶寬效率在跨時間與跨空間解析度之間存在有益的相互作 用。例如,在單環解碼中,基層處的內宏塊對改進較高空間層的編碼效率是有益的。此外, 試驗已表明,編碼的質量越高(即,QP值越小),則運動估計的有效性越低。LR幀的典型大 小是LO幀的兩倍,但是大小差異隨著質量的提高而減小。因此,對于越高解析度和/或畫 面質量,可令所有LO幀來將LR幀用作參考而沒有顯著的編碼效率懲罰。由於保證LR幀將 被可靠接收到,因此使用它們提供了更大程度的差錯彈性解決方案而在帶寬中沒有過度的 懲罰。針對視頻通信系統在LR畫面與內宏塊的使用之間的選擇取決於所遇到的特定網 絡狀況、參與者的數目和若干其它因素。為了使視頻通信系統的效率最佳化,聯合考慮這些 技術的每一種在解碼過程中的效果是很重要的。理想地,如果編碼器完全知曉解碼器的狀 態——包括丟失分組,則最大化將來的幀的質量是可能的。這可在編碼器與所有解碼器之 間維護緊密反饋環路的情況下實現。這通過RRC模塊530 (圖6)來表示。可在所有級下提 供反饋,例如從各個宏塊、切片、畫面或整個層提供。RRC模塊530可被配置成根據模式選擇、運動矢量選擇等連同參考畫面選擇(常 規或LR參考)以及強制內宏塊編碼過程的統計一起來協調編碼器的決定。此外,RRC模塊 530可被配置成維護與幀中可用於運動補償預測的安全對非安全部分有關的狀態信息。這 些決定可以與編碼器聯合的方式作出。可為編碼器所用的反饋越是詳細,可作出的決定越 好。如果編碼器知道解碼器處所採用的差錯隱藏策略,則假定使用反饋編碼器將能夠 計算解碼器的準確狀態,即使存在分組差錯也如此。如果實際分組丟失信息不可用,則編碼 器仍可使用統計技術來估計分組丟失的概率性影響以及在執行速率_失真最優化時計入 分組丟失。例如,較高的丟失率將導致較大百分比的幀內經編碼的宏塊。類似地,可將諸如新用戶加入會議的操作引入編碼器的最優化過程中。在此情形 中,向新用戶提供隨機接入點的需要轉化為編碼器處極高百分比的內宏塊。使用可縮放編 碼,在層切換中觀測到相同的現象。出於系統效率起見,由RRC 530管理的反饋信息無需直接到達特定編碼器。作為 替換方案,中間SVCS可過濾反饋消息並向編碼器呈遞合併結果。系統中的中間節點可對反饋消息採取動作。例如,考慮NACK消息的情形。NACK可從最近的中間節點(SVCS)觸發重 傳。NACK可一直傳播至源,在那裡它被用於跟蹤解碼器的狀態。此信息可例如引發編碼器 將參考畫面索引切換成指向LR畫面(或知道其自身已被適當地接收且當前在編碼器的緩 衝器中可用的畫面)。NACK/ACK消息傳送的概念直接導致用於運動補償預測是安全或非安 全的畫面或畫面區的概念,後者又自然地導致LR畫面的概念。具有固定周期性結構的LR 幀允許用NACK分發,並且類似地緊密NACK/ACK反饋的使用實現LR畫面的完全動態選擇。
作為NACK/ACK反饋消息所隱含的「推入(push) 」方法的替換方案的是「拉出 (pull)」架構。在拉出架構中,LR畫面無需被確認,相反地被緩衝在每個中間SVCS處,並且 當端點或其它下遊伺服器確定它們已錯失LR分組時基於請求(例如,類似於對新的I幀的 請求)來重傳。在這種拉出架構的變體中,所有LO分組(或已用於給定應用的可縮放編碼方案的 其它最低時間級)被緩衝在每個中間SVCS處並基於請求來重傳。此變體可使得端點在等 待錯失的LO分組的同時如果不具有解碼已到達的所有LO分組的CPU帶寬,則總是處於力 圖迎頭趕上的模式中。然而,拉出架構的這種變體的優點在於,不存在僅出於差錯彈性的目 的而引入的略大LR幀的附加開銷。可靠性分組(不管LR還是L0)之間的間隔應當根據最弱參與者(端點或另一服 務器)的CPU和帶寬約束來確定。過於頻繁到達的可靠性分組會在恢復期間超出端點的容 量。視頻通信系統可被配置成向發送器發信號通知參與者的恢復能力,以使得可靠性分組 之間的間隔可儘可能地與最弱參與者所能處理的一樣小,但是不比它小。構成編碼器決定作出過程的一部分的是宏塊編碼類型(mb_type)的選擇。此決定 計入與給定以上考慮的情況下的幀間編碼相關聯的失真和速率。與(受約束的)幀內編碼 相關聯的失真和速率在無需考慮多個解碼器的情況下被計算出。取決於對成本函數的選 擇,必須對每個空間解析度和mb_type計算一個或多個失真值。當對解碼器狀態或成本函數的建模不準確時,內宏塊類型可替代或附加地選擇以 符合隨機模式。適當數量的內宏塊可根據對信道差錯概率以及隱藏能量的量的估計來確定。雖然已描述了被視為是本發明的優選實施例的那些實施例,但是本領域技術人員 應當認識到,可作出其它或進一步的改變和更改而不背離本發明的精神,並且其旨在要求 保護落在本發明的真實範圍內的所有這些改變和更改。應當理解,本發明的系統和方法可用任何硬體和軟體的組合來實現。用於實現和 操作前述系統和方法的軟體(即,指令)可被設置在計算機可讀介質上,這些計算機可讀介 質可包括但不限於固件、存儲器、存儲設備、微控制器、微處理器、集成電路、ASICS、可在線 下載的媒體以及其它可用的介質。
3權利要求
1.一種用於通信網絡上傳送節點與一個或多個接收節點之間的媒體通信的系統,所述 網絡具有包括去往或來自每個端點的更可靠媒體傳輸鏈路的一個或多個分層媒體傳輸鏈 路,所述系統包括編碼器,它將所傳送的媒體編碼成具有多個不同幀類型的線程化編碼結構中的幀,所 述幀包括參考幀序列;解碼器,它基於其中的參考幀解碼接收到的媒體;以及所述線程化編碼結構中特定選擇的幀子集,所述幀子集被指定為通過所述更可靠傳輸 鏈路可靠地傳輸到所述解碼器的類型(「R」),其中所述類型R的所述幀子集被具體地選擇成至少包括所述線程化編碼結構中的最 低時間層的幀,並且使得所述解碼器在分組丟失或差錯之後基於可靠接收到的所述類型R 的幀解碼所接收到的媒體的至少一部分,並由此與所述編碼器同步。
2.如權利要求1所述的系統,其特徵在於,還包括用於處理類型R的幀的模塊,其中所 述處理模塊被設置在所述編碼器處、和/或解碼器處、和/或所述更可靠媒體傳輸鏈路的末 端處的中間網絡伺服器上。
3.如權利要求1所述的系統,其特徵在於,包括單層、可縮放編碼解碼器和聯播編解碼 器中的至少之一。
4.如權利要求1所述的系統,其特徵在於,包括遵循H.沈4AVC的編解碼器,其中用於 通過所述更可靠傳輸鏈路可靠傳輸到所述解碼器的所述特定選擇的類型R的幀子集包括 被標記為長期參考畫面的幀,以及其中由所述解碼器基於可靠接收到的所述類型R的參考 幀對所接收到的媒體的至少一部分的所述解碼是由MMCO命令來控制的。
5.如權利要求1所述的系統,其特徵在於,所述類型R的參考幀的可靠傳輸包括基於確 認(ACK)和/或否定確認(NACK)消息的協議通過所述更可靠傳輸鏈路來重傳。
6.如權利要求5所述的系統,其特徵在於,被指定為通過所述更可靠傳輸鏈路可靠傳 輸到所述解碼器的類型R的所述特定選擇的幀子集包括幀內和幀間宏塊,並且其中所述編 碼器還包括響應於分組丟失或新端點加入當前通信會話在編碼將來的畫面時重新計算內 宏塊的可靠性和隨機接入(RRC)模塊。
7.如權利要求5所述的系統,其特徵在於,所述網絡中的所述編碼器和任何中間服務 器包括具有預置時間周期的定時器,並且其中所述類型R的幀的可靠傳輸包括在所設置的 時間周期內基於未接收到ACK消息來通過所述更可靠傳輸鏈路重傳。
8.如權利要求5所述的系統,其特徵在於,所述類型R的參考幀的可靠傳輸包括基於接 收到NACK消息來通過所述更可靠傳輸鏈路重傳。
9.如權利要求1所述的系統,其特徵在於,還包括協調所述傳送端點與所述一個或多 個接收端點之間的通信的至少一個SVCS,所述至少一個SVCS具有至所述傳送端點、所述一 個或多個接收端點、以及所述通信網絡中的其它SVCS的單獨受管理的連接。
10.如權利要求9所述的系統,其特徵在於,所述至少一個SVCS通過至接收端點或另 一 SVCS的、擁塞且一直丟掉媒體分組的單獨受管理的連接重傳所述類型R的參考幀,但是 向所述傳送端點報告對所述類型R的所述參考幀的肯定接收,由此對其它接收端點和SVCS 的通信不受到擁塞的、所述單獨受管理的連接的影響。
11.如權利要求9所述的系統,其特徵在於,所述至少一個SVCS和/或傳送端點高速緩存所述最低時間層幀的內幀,並響應於分組丟失或響應於新的接收端點加入通信會話來向 接收端點或另一 SVCS傳送所述內幀。
12.如權利要求11所述的系統,其特徵在於,所述傳送編碼器使用周期性內宏塊來便 於在所述至少一個SVCS所發送的內畫面被所述接收端點使用之後的漂移消除。
13.如權利要求11所述的系統,其特徵在於,所述編碼器生成由所述傳送端點和/或所 述至少一個SVCS高速緩存的切換切片畫面(Si),並且其中基於請求或響應於所述接收端 點新加入通信會話,所述高速緩存的SI畫面被傳送到接收端點和/或其它SVCS。
14.如權利要求11所述的系統,其特徵在於,所述至少一個SVCS解碼所有最低時間層 畫面並高速緩存其結果,並且其中所述至少一個SVCS向或者由於分組丟失或者因為接收 端點和/或其它SVCS新加入通信會話而請求最近高速緩存畫面的那些接收端點和/或其 它SVCS傳送所述畫面的內版本。
15.如權利要求11所述的系統,其特徵在於,所述編碼器生成並傳送未被其它畫面參 考的內畫面,其中所述內畫面被高速緩存在所述至少一個SVCS上,並且其中響應於分組丟 失和/或響應於接收端點新加入通信會話,所述高速緩存的內畫面僅基於顯式請求被傳送 到所述接收端點和/或其它SVCS。
16.如權利要求11所述的系統,其特徵在於,所述編碼器生成並傳送冗餘的內畫面或 切片,其中所述冗餘內畫面或切片被高速緩存在所述至少一個SVCS上,並且其中響應於分 組丟失和/或響應於接收端點新加入通信會話,所述冗餘內畫面或切片僅基於顯式請求被 傳送到所述接收端點和/或其它SVCS。
17.如權利要求9所述的系統,其特徵在於,NACK消息用於指示未接收到分組或分組接 收中的差錯,並且其中中間SVCS或接收端點一檢測到分組丟失就立即向上遊SVCS或所述 傳送端點發送NACK消息。
18.如權利要求9所述的系統,其特徵在於,肯定ACK消息用於指示分組的接收,並且其 中中間SVCS在從所有下遊接收器和SVCS接收到肯定ACK消息之後就向上遊SVCS或所述 傳送端點發送單個經聚集的ACK消息。
19.如權利要求9所述的系統,其特徵在於,肯定ACK消息用於指示分組的無差錯接收, 並且其中中間SVCS —從發送器無差錯地接收到分組就生成肯定ACK消息,而無需等待來自 下遊接收器和/或SVCS的任何其它ACK消息。
20.如權利要求1所述的系統,其特徵在於,將所傳送的媒體編碼為線程化編碼結構中 的幀的所述編碼器編碼所述類型R的幀用於根據預置時間表傳輸。
21.如權利要求1所述的系統,其特徵在於,將所傳送的媒體編碼為線程化編碼結構中 的幀的編碼器在確認所有預期參與者接收到所述類型R的特定傳送幀之後將所述特定幀 指定為參考畫面,以備將來使用。
22.如權利要求21所述的系統,其特徵在於,將所傳送的媒體編碼為線程化編碼結構 中的幀的編碼器在沒有成功地將所述類型R的特定幀可靠地傳輸到預期接收方時放棄將 所述特定幀作為以備將來使用的候選參考畫面。
23.如權利要求1所述的系統,其特徵在於,所述類型R的參考幀的可靠傳輸包括通過 所述更可靠的傳輸鏈路進行重傳,並且其中解碼器通過即使所有重傳的最低時間層畫面被 太遲接收到以致無法在當前顯示的情況下也迅速地解碼這些畫面來在差錯之後與所述編碼器重新同步,或者在作為新參與者進入通信會話時與所述編碼器同步。
24.如權利要求1所述的系統,其特徵在於,所述線程化編碼結構包括至少一個高分辨 率層和低解析度層,其中所述編碼器在兩個層上使用具有周期性內宏塊的單環路可縮放性 編碼,其中所述解碼器通過解碼低解析度層數據並將其顯示為經上採樣、同時接收並解碼高分辨 率層數據但不顯示它直至漂移被消除、之後所述解碼器可切換成顯示經解碼的高解析度畫 面來執行從低解析度到高解析度的層切換,以及所述解碼器通過使用最近的高解析度畫面的下採樣版本作為其低解析度解碼環路的 參考畫面、以及對其中所述內宏塊將逐漸消除所述漂移的所述經解碼的低解析度畫面繼續 進行解碼和顯示來執行從高解析度到低解析度的層切換。
25.如權利要求M所述的系統,其特徵在於,所述編碼器使用H.264AVC或SVC來編碼 幀,並且其中恢復點SEI消息用於在差錯發生之後完成恢復時指示所述幀號,以及與所述 編碼器的匹配是準確還是不準確的。
26.如權利要求1所述的系統,其特徵在於,還包括協調所述傳送端點與所述一個或多 個端點之間的通信的至少一個SVCS,其中畫面編碼使用結構化內宏塊編碼,並且其中所述 至少一個SVCS高速緩存一個周期的LR畫面並將其傳送到執行層切換或作為新參與者進入 所述會話的端點,以便可比實時更快速地解碼它們,從而實現快速切換。
27.如權利要求沈所述的系統,其特徵在於,所述至少一個SVCS在將分組傳送到加入 所述會話或執行層轉換的所述端點之前從所述分組中移除經幀間編碼的宏塊或切片。
28.如權利要求1所述的系統,其特徵在於,所述編碼器使用具有至少兩個空間層的空 間可縮放性,並且其中接收端點在增強層畫面丟失之後或在切換到經提升的解析度時通過 使用經上採樣的較低層畫面作為參考,但應用可用運動矢量、模式以及所述增強層中經編 碼的預測差錯來解碼所述增強層畫面的近似。
29.如權利要求觀所述的系統,其特徵在於,所述接收端點操作單個解碼環路,並且所 述經上採樣的較低層畫面僅由所述較低層中可用的所述內宏塊構成。
30.如權利要求觀所述的系統,其特徵在於,所述接收端點操作附加解碼環路,並且其中所述單個解碼環路解碼目標解析度畫面;以及所述附加解碼環路僅解碼其它解析度的所述最低時間層畫面,以使得從一個解析度到另一個的轉換可在所述最低時間層畫面沒有差錯的時刻以及 在具有較小差錯的其它時刻被執行。
31.如權利要求30所述的系統,其特徵在於,所述SVCS或傳送端點傳送所述可縮放性 層的最低時間層的除要顯示畫面之外的所述畫面,以使得所傳送數據的比特率變化被最小 化。
32.一種用於通信網絡上傳送節點與一個或多個接收節點之間的媒體通信的方法,所 述網絡具有包括去住或來自每個端點的更可靠媒體傳輸鏈路的一個或多個分層媒體傳輸 鏈路,所述端點包括編碼器,它將所傳送媒體編碼成具有多個不同幀類型的線程化編碼結構中的幀,所述 幀包括參考幀序列;以及解碼器,它基於所接收到的媒體中的參考幀解碼所接收到的媒體;所述方法包括將所述線程化編碼結構中特定選擇的幀子集指定為類型(「R」)以供通過所述更可靠 傳輸鏈路可靠地傳輸到所述解碼器,其中所述類型R的所述幀子集被具體地選擇成至少包括所述線程化編碼結構中的最 低時間層的幀,並且使得所述解碼器在分組丟失或有差錯之後基於可靠接收到的所述類型 R的幀解碼所接收到的媒體的至少一部分,並由此與所述編碼器同步;以及向所述解碼器發送所述類型R的所述幀。
33.如權利要求32所述的方法,其特徵在於,還包括在去往或來自所述編碼器、所述解 碼器和/或中間網絡伺服器的所述更可靠媒體傳輸鏈路的終端處處理所述類型R的幀。
34.如權利要求32所述的方法,其特徵在於,包括使用單層、可縮放編碼解碼器和聯播 編解碼器中的至少之一。
35.如權利要求32所述的方法,其特徵在於,包括使用遵循H. 264 AVC的編解碼器;包括在用於通過所述更可靠傳輸鏈路可靠傳輸到所述解碼器的所述類型R的所述特 定選擇的幀子集中被標記為長期參考畫面的幀;以及通過使用控制所述解碼器的MMCO命令來基於可靠接收到的所述類型R的參考幀解碼 所接收到的媒體的至少一部分。
36.如權利要求32所述的方法,其特徵在於,所述類型R的參考幀的可靠傳輸包括基於 確認(ACK)和/或否定確認(NACK)消息的協議通過所述更可靠傳輸鏈路來重傳所述幀。
37.如權利要求32所述的方法,其特徵在於,被指定為通過所述更可靠傳輸鏈路可靠 傳輸到所述解碼器的類型R的所述特定選擇的幀子集包括內宏塊和幀間宏塊,所述方法還 包括響應於分組丟失或新端點加入當前通信會話重新計算編碼將來畫面時對內宏塊的分配。
38.如權利要求36所述的方法,其特徵在於,如果在設置時段內未接收到ACK消息,則 所述幀通過所述更可靠傳輸鏈路重傳。
39.如權利要求36所述的方法,其特徵在於,一旦接收到NACK消息,所述幀就通過所述 更可靠傳輸鏈路重傳。
40.如權利要求32所述的方法,其特徵在於,至少一個SVCS協調所述傳送端點與所述 一個或多個接收端點之間的通信,所述方法還包括向所述至少一個SVCS提供至所述傳送 端點、所述一個或多個接收端點、以及所述通信網絡中的其它SVCS的單獨受管理的連接。
41.如權利要求40所述的方法,其特徵在於,還包括通過至接收端點或另一SVCS的、擁 塞且一直丟掉媒體分組的單獨受管理的連接重傳所述類型R的參考幀,但是向所述傳送端 點報告對所述類型R的所述參考幀的肯定接收,由此對其它接收端點和SVCS的通信不受到 擁塞的、所述單獨受管理的連接的影響。
42.如權利要求40所述的方法,其特徵在於,還包括在所述至少一個SVCS和/或傳送端點處高速緩存所述最低時間層幀的內幀;以及響應於分組丟失或響應於新接收端點加入通信會話,向接收端點或另一 SVCS傳送所述內幀。
43.如權利要求42所述的方法,其特徵在於,還包括在所述傳送編碼器處使用周期性內宏塊來便於在所述至少一個SVCS發送的內畫面被 所述接收端點使用之後的漂移消塗。
44.如權利要求42所述的方法,其特徵在於,還包括生成由所述傳送端點和/或所述至少一個SVCS高速緩存的切換切片畫面(Si);以及 基於請求和/或響應於所述接收端點新加入通信會話,向接收端點和/或其它SVCS傳 送所述高速緩存的SI畫面。
45.如權利要求42所述的方法,其特徵在於,還包括在所述至少一個SVCS處解碼所有最低時間層畫面並高速緩存其結果;以及 向或者由於分組丟失或者因為接收端點和/或其它SVCS新加入通信會話而請求最近 高速緩存的畫面的那些接收端點和/或其它SVCS傳送所述畫面的內版本。
46.如權利要求42所述的方法,其特徵在於,還包括 在所述編碼器處生成未被其它畫面參考的內畫面; 將所述內畫面高速緩存在所述至少一個SVCS上,以及響應於分組丟失和/或響應於接收端點新加入通信會話,僅基於顯式請求向所述接收 端點和/或其它SVCS傳送所述高速緩存的內畫面。
47.如權利要求42所述的方法,其特徵在於,還包括 在所述編碼器處生成冗餘內畫面或切片;將所述冗餘內畫面或切片高速緩存在所述至少一個SVCS上;以及 響應於分組丟失和/或響應於接收端點新加入通信會話,僅基於顯式請求向所述接收 端點和/或其它SVCS傳送所述冗餘內畫面或切片。
48.如權利要求40所述的方法,其特徵在於,還包括使用NACK消息來指示未接收到分組或分組接收中的差錯;以及 一檢測到分組丟失,就立即從中間SVCS或接收端點向上遊SVCS或所述傳送端點發送 NACK消息。
49.如權利要求40所述的方法,其特徵在於,還包括 使用ACK消息來指示對分組的接收;以及在中間SVCS處從所有下遊接收器和SVCS接收到肯定ACK消息之後,從所述中間SVCS 向上遊SVCS或所述傳送端點發送單個經聚集的ACK消息。
50.如權利要求40所述的方法,其特徵在於,還包括 使用ACK消息來指示對分組的接收;以及一在中間SVCS處從發送器無差錯地接收到分組,就從所述中間SVCS生成肯定ACK消 息,而無需等待來自下遊接收器和/或SVCS的任何進一步的ACK消息。
51.如權利要求32所述的方法,其特徵在於,還包括編碼所述類型R的幀以供根據預置 時間表傳輸。
52.如權利要求32所述的方法,其特徵在於,還包括指定特定傳送的所述類型R的幀作 為參考畫面以備在確認所有預期參與者接收到所述特定幀之後的將來使用。
53.如權利要求52所述的方法,其特徵在於,還包括在沒有成功地將所述類型R的特定幀可靠地傳輸到預期接收方時放棄將所述特定幀作為以備將來使用的候選參考畫面。
54.如權利要求32所述的方法,其特徵在於,所述類型R的所述參考幀的可靠傳輸包括 通過所述更可靠傳輸鏈路進行重傳,所述方法還包括在出差錯之後,或在作為新參與者接入通信會話時,即使所有重傳的時間層畫面被太 遲接收到以致無法在當前顯示的情況下也在所述解碼器處迅速解碼它們,以使所述解碼器 與所述編碼器同步。
55.如權利要求32所述的方法,其特徵在於,所述線程化編碼結構包括至少一個高分 辨率層和低解析度層,其中所述編碼器在兩個層上使用具有周期性內宏塊的單環路可縮放 性編碼,所述方法還包括通過解碼低解析度層數據並將其顯示為經上採樣、同時接收並解碼高解析度層數據但 不顯示它直至漂移被消除、之後所述解碼器可切換成顯示經解碼的高解析度畫面來執行從 低解析度到高解析度的層切換,以及通過使用最近的高解析度畫面的下採樣版本作為其低解析度解碼環路的參考畫面、以 及對其中所述內宏塊將逐漸消除所述漂移的所述經解碼的低解析度畫面繼續進行解碼和 顯示來執行從高解析度到低解析度的層切換。
56.如權利要求55所述的方法,其特徵在於,所述編碼遵循H.264 AVC或SVC,所述方 法還包括使用恢復點SEI消息來在差錯發生之後完成恢復時指示所述幀號,以及與所述編 碼器的匹配是準確還是不準確的。
57.如權利要求32所述的方法,其特徵在於,至少一個SVCS協調所述傳送端點與所述 一個或多個端點之間的通信,並且其中畫面編碼採用結構化的內宏塊編碼,所述方法還包 括在所述至少一個SVCS處高速緩存一個周期的LR畫面;以及將所述一周期的LR畫面傳送到進行層切換或作為新參與者進入所述會話的端點,以 便可比實時更快速地解碼它們,從而實現快速切換。
58.如權利要求57所述的方法,其特徵在於,還包括在將分組傳送到加入所述會話或 執行層轉換的所述端點之前在所述至少一個SVCS處從所述分組中移除經幀間編碼的宏塊 或切片。
59.如權利要求32所述的方法,其特徵在於,編碼使用具有至少兩個空間層的空間可 縮放性,所述方法還包括在接收端點處,在增強層畫面丟失之後或在切換到經提升的層解析度時,通過使用經 上採樣的較低層畫面作為參考但應用所述可用運動矢量、模式以及所述增強層處經編碼的 預測差錯來近似所述增強層畫面。
60.如權利要求59所述的方法,其特徵在於,所述接收端點操作單個解碼環路,所述方 法還包括僅對所述經上採樣的較低層畫面使用所述較低層中可用的所述內宏塊。
61.如權利要求59所述的方法,其特徵在於,所述接收端點操作附加解碼環路,所述方 法還包括使用所述單解碼環路來解碼目標解析度畫面;以及使用所述附加解碼環路來僅解碼其它解析度的最低時間層畫面,使得從一個解析度到另一個的轉換可在所述最低時間層畫面沒有差錯的時刻以及在具有較小差錯的時刻被執行。
62.如權利要求61所述的方法,其特徵在於,還包括從所述SVCS或傳送端點傳送所述可縮放性層的最低時間層的除要顯示畫面之外的所 述畫面,以使得所傳送數據的比特率變化被最小化。
63.一種包括用於執行方法權利要求32-62的至少一個中所述的步驟的指令集的計算 機可讀介質。
全文摘要
提供了一種用於視頻通信系統中的差錯彈性傳輸和隨機接入的系統和方法。該視頻通信系統基於可用在視頻通信系統中的單層可縮放視頻、或具有時間可縮放性的聯播視頻編碼。視頻信號傳輸中的一組視頻幀或畫面被指定使用安全或高可靠性鏈路或通過重傳技術可靠或有保證地遞送到接收器。被可靠遞送的視頻幀在差錯發生之後或在隨機接入期間用作接收器與所傳送的視頻信號重新同步的參考畫面。
文檔編號H04N7/26GK102036070SQ20101052222
公開日2011年4月27日 申請日期2006年12月8日 優先權日2005年12月8日
發明者A·埃爾法澤阿迪斯, J·倫諾克斯, M·薩克希納, O·莎彼洛, R·希萬拉, R·薩西恩, S·希伯利 申請人:維德約股份有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀