三維轉換信息與二維視頻序列的編碼的製作方法
2023-09-22 01:40:25 1
專利名稱:三維轉換信息與二維視頻序列的編碼的製作方法
技術領域:
本發明涉及視頻編碼,及二維QD)視頻數據到三維(3D)視頻數據的轉換。
背景技術:
數字多媒體能力可併入到廣泛範圍的裝置中,包括數位電視、數字直接廣播系統、 無線通信裝置、無線廣播系統、個人數字助理(PDA)、膝上型或桌上型計算機、數位相機、數字記錄裝置、視頻遊戲裝置、視頻遊戲控制臺、蜂窩式或衛星無線電電話、數字媒體播放器及其類似者。數字多媒體裝置可實施例如MPEG-2、ITU-H. ^3、MPEG_4或ITU-Η. 264/MPEG-4 第10部分(進階視頻編碼(AVC))等視頻編碼技術,以更有效地發射和接收或存儲和檢索數字視頻數據。視頻編碼技術可經由空間及時間預測執行視頻壓縮以減少或移除視頻序列中固有的冗餘。提供呈二維QD)檢視格式的大多數常規視頻序列。然而,三維(3D)序列也是可能的,在此狀況下,視頻序列具有與每一視頻幀相關聯的兩個或兩個以上視圖。在此狀況下,可在3D顯示器上組合所述兩個或兩個以上視圖以呈現3D視頻。相對於2D視頻序列, 3D視頻序列的傳達可需要大量額外數據。舉例來說,為了傳達3D視頻序列,可能需要兩個單獨視頻幀以提供每一 2D視頻幀的兩個不同的視圖,因此大致使經傳達的數據的量加倍。
發明內容
本發明描述用於編碼視頻幀的二維OD)視頻序列連同三維(3D)轉換信息的技術,所述三維(3D)轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D 視頻數據的參數集合。本發明還描述所述2D視頻序列及所述3D轉換信息的傳達及解碼。 所述參數集合可包含可應用於所述2D序列的原始視頻幀中的每一者以產生所述原始視頻幀中的每一者的二次視圖視頻幀的相對較少量的數據。所述原始視頻幀及所述二次視圖視頻幀可共同地定義立體3D視頻序列。所述2D序列及所述參數集合可包含比另外傳達3D 序列將需要的數據顯著較少的數據。所述2D序列及所述參數集合可包含對傳達原始2D序列所需的所述數據的很小的增加。本發明還描述可用以以有效且高效率的方式編碼所述參數集合的一些示範性語法。即使在接收裝置不支持3D解碼或3D呈現的情況下,所述接收裝置也可解碼並呈現所述2D序列。另一方面,如果所述接收裝置支持與本發明一致的3D解碼及3D呈現,則所述接收裝置可基於所述2D序列及所述參數集合產生並呈現所述3D序列。以此方式,本發明的所述技術可支持向後兼容的2D到3D視頻編碼及轉換,其中相同位流可用以呈現2D 視頻輸出或3D視頻輸出。此外,如所提及,所述所描述的技術可減少用於傳達3D視頻序列所需的數據量。
在一個實例中,本發明描述一種方法,其包含在視頻編碼器中編碼視頻幀的2D 序列;經由所述視頻編碼器編碼3D轉換信息,其中所述3D轉換信息包含可應用於所述2D 序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;及傳達所述經編碼的2D序列與所述3D轉換信息。在另一實例中,本發明描述一種方法,其包含在視頻解碼器處接收視頻幀的2D 序列;在所述視頻解碼器處與所述2D序列一起接收3D轉換信息,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;經由所述視頻解碼器解碼所述2D序列;及基於所述2D序列及所述3D轉換信息經由所述視頻解碼器產生所述3D視頻數據。在另一實例中,本發明描述一種包含視頻編碼器的設備,所述視頻編碼器編碼視頻幀的2D序列,且編碼3D轉換信息與所述2D序列,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合。在另一實例中,本發明描述一種包含視頻解碼器的設備,所述視頻解碼器接收視頻幀的2D序列;與所述2D序列一起接收3D轉換信息,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;解碼所述2D序列; 且基於所述2D序列及所述3D轉換信息產生所述3D視頻數據。在另一實例中,本發明描述一種裝置,其包含用於在視頻編碼器中編碼視頻幀的 2D序列的裝置;用於經由所述視頻編碼器編碼3D轉換信息的裝置,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;及用於傳達所述經編碼的2D序列與所述經編碼的參數的裝置。在另一實例中,本發明描述一種裝置,其包含用於在視頻解碼器處接收視頻幀的 2D序列的裝置;用於在所述視頻編碼器處與所述2D序列一起接收3D轉換信息的裝置,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;用於解碼所述2D序列的裝置;及用於基於所述2D序列及所述3D轉換信息產生所述3D視頻數據的裝置。在另一實例中,本發明描述將3D轉換信息應用於2D序列以產生3D視頻數據的方法、設備或裝置,其中所述3D轉換信息包含可應用於所述2D序列的每一視頻幀以產生所述 3D視頻數據的參數集合。可以硬體、軟體、固件或其任何組合來實施本發明中所描述的技術。如果以軟體實施,則軟體可在一個或一個以上處理器中執行,例如,微處理器、專用集成電路(ASIC)、現場可編程門陣列(FPGA)或數位訊號處理器(DSP)。執行所述技術的軟體最初可存儲於計算機可讀媒體中且加載於處理器中並在處理器中執行。因此,本發明還預期包含指令的計算機可讀存儲媒體,所述指令在由處理器執行時使所述處理器編碼視頻幀的2D序列,且編碼3D轉換信息,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生所述3D視頻數據的參數集合。另外,本發明描述一種包含指令的計算機可讀存儲媒體,所述指令在由處理器執行時使所述處理器在接收視頻幀的2D序列且與所述2D序列一起接收3D轉換信息時(其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合),解碼所述2D序列,及基於所述2D序列及所述3D轉換信息產生所述3D視頻數據。在隨附圖式及下文的描述中闡述本發明的一個或一個以上方面的細節。本發明中所描述的技術的其它特徵、目標及優點將從描述及圖式及從權利要求書顯而易見。
圖1為說明可實施本發明的技術的示範性視頻編碼及解碼系統的框圖。圖2為說明可執行與本發明一致的二維OD)及三維(3D)視頻編碼的示範性視頻編碼器的框圖。圖3為說明可執行與本發明一致的2D及3D視頻解碼的示範性視頻解碼器的框圖。圖4到圖6為說明可基於3D轉換參數而應用的2D到3D轉換的方面的概念圖。圖7為說明與本發明一致的由視頻編碼裝置執行的示範性過程的流程圖。圖8為說明與本發明一致的由視頻解碼裝置執行的示範性過程的流程圖。
具體實施例方式本發明描述用於編碼視頻幀的二維QD)視頻序列連同三維(3D)轉換信息的技術,三維(3D)轉換信息包含可應用於2D序列的視頻幀中的每一者以產生3D視頻數據的參數集合。3D轉換信息關於視頻序列的不同幀並沒有不同,而包含形成相對較少量的數據的共同參數集合,其可應用於2D序列的原始視頻幀中的每一者以產生所述原始視頻幀中的每一者的二次視圖視頻幀。原始視頻幀及二次視圖視頻幀可共同地定義可呈現於3D顯示器上的立體3D視頻序列。根據本發明,2D序列及參數集合可包含比將以其它方式傳達3D 序列需要的數據顯著較少的數據。在一個實例中,3D轉換信息可包含小於20個字節的數據,其可應用於2D序列的原始視頻幀中的每一者以產生所述原始視頻幀中的每一者的二次視圖。本發明的技術可在例如MPEG-2、MPEG-4、ITU H. 263, ITU H.沈4、專用編碼標準或未來編碼標準等許多編碼設定中為有用的。根據ITU H. 264架構,本發明可使用補充增強信息(SEI)消息作為用於通過符合視頻標準的2D視頻序列來傳達3D轉換信息的機制。即使在接收裝置不支持3D解碼或3D呈現的情況下,所述接收裝置也可解碼並呈現2D序列。然而,如果接收裝置支持與本發明一致的3D解碼及3D呈現,則所述接收裝置可基於2D序列及參數集合而產生並呈現3D序列。以此方式,本發明的技術可支持可擴充的2D到3D視頻編碼,其中相同位流可用以呈現2D視頻輸出或3D視頻輸出。此外,如所提及,所描述的技術可減少傳達3D視頻序列所需要的數據的量。本發明還描述可用以以有效且高效率的方式編碼參數集合的一些示範性語法。舉例來說,在一些實施方案中,語法元素可用於ITU H. 264的SEI消息中以用於傳達3D轉換信息。在一個實例中(下文更詳細論述),3D轉換信息可包含第一旗標,其指示3D參數的顯式集合是否包括於3D轉換信息中或是否應使用3D參數的默認集合,其中在所述第一旗標經設定時,3D參數的顯式集合包括於3D轉換信息中。在此狀況下,如果第一旗標未經設定,則解碼器仍可應用默認3D參數。3D轉換信息還可包含第二旗標,其指示2D序列的第二視圖是應在所述2D序列的
10左側還是在所述2D序列的右側產生。在此狀況下,第二旗標可通過提供將在解碼器處產生的二次視圖的定向(例如,原始視頻幀的左側或右側)而幫助3D呈現。此外,3D轉換信息可包含第三旗標,其識別是否應從3D視頻數據移除裁剪區,其中在所述第三旗標經設定時,定義裁剪區的信息包括於3D轉換信息中。如果第三旗標未經設定,則可在產生3D視頻數據及3D呈現的過程中避免裁剪。在一些狀況下,如果第一旗標未經設定,則可從位流排除第二及第三旗標。所述旗標可包含單位或多位旗標。圖1為說明可實施本發明的技術的示範性視頻編碼及解碼系統10的框圖。如圖 1所示,系統10包括源裝置12,其將經編碼的視頻經由通信信道15發射到目的地裝置16。 源裝置12及目的地裝置16可包含廣泛範圍裝置中的任一者,其包括移動裝置或大體固定裝置。在一些狀況下,源裝置12及目的地裝置16包含無線通信裝置,例如,無線手持機、 所謂的蜂窩式或衛星無線電電話、個人數字助理(PDA)、移動媒體播放器或可經由通信信道 15傳達視頻信息的任何裝置,通信信道15可能為無線的或可能不為無線的。然而,關於3D 轉換信息連同2D視頻序列的產生、傳達及使用的本發明的技術可用於許多不同的系統及設定中。圖1僅為所述系統的一個實例。在圖1的實例中,源裝置12可包括視頻源20、視頻編碼器22、調製器/解調器(數據機)23及發射器M。目的地裝置16可包括接收器沈、數據機27、視頻解碼器 28及顯示裝置30。根據本發明,源裝置12的視頻編碼器22可經配置以編碼視頻幀的2D 序列且編碼3D轉換信息,其中3D轉換信息包含可應用於2D序列的視頻幀中的每一者以產生3D視頻數據的參數集合。數據機23及發射器M可調製無線信號且將無線信號發射到目的地裝置。以此方式,源裝置12將經編碼的2D序列連同3D轉換信息一起傳達到目的地裝置16。接收器沈及數據機27從源裝置12接收無線信號且將所接收的無線信號解調。因此,視頻解碼器觀可接收2D序列及3D轉換信息,將2D序列解碼。根據本發明,視頻解碼器觀可基於2D序列及3D轉換信息而產生3D視頻數據。又,3D轉換信息可包含可應用於2D序列的視頻幀中的每一者以產生3D視頻數據的參數集合,其可包含比將以其它方式傳達3D序列需要的數據顯著較少的數據。如所提及,圖1的所說明的系統10僅為示範性的。本發明的技術可擴展到支持基於一階塊的視頻編碼的任何編碼裝置或技術。源裝置12及目的地裝置16僅為所述編碼裝置的實例,其中源裝置12產生經編碼的視頻數據以用於發射到目的地裝置16。在一些狀況下,裝置12、16可以實質上對稱的方式操作,使得裝置12、16中的每一者包括視頻編碼及解碼組件。因此,系統10可支持視頻裝置12、16之間的單向或雙向視頻發射,以(例如)用於視頻串流、視頻重放、視頻廣播或視頻電話。源裝置12的視頻源20可包括視頻俘獲裝置,例如,攝像機、含有先前俘獲的視頻的視頻檔案,或來自視頻內容提供者的視頻饋送。作為另一替代例,視頻源20可產生基於計算機圖形的數據作為源視頻,或實況視頻、經歸檔視頻及計算機產生的視頻的組合。在一些狀況下,如果視頻源20為攝像機,則源裝置12及目的地裝置16可形成所謂的相機電話或視頻電話。在每一狀況下,可通過視頻編碼器22編碼經俘獲、經預俘獲或計算機產生的視頻。接著可由數據機23根據通信標準(例如,碼分多址(CDMA)或另一通信標準) 調製經編碼的視頻信息,且將其經由發射器M發射到目的地裝置16。數據機23可包括各種混頻器、濾波器、放大器或經設計用於信號調製的其它組件。發射器M可包括經設計用於發射數據的電路,包括放大器、濾波器及一個或一個以上天線。目的地裝置16的接收器沈經由信道15接收信息,且數據機27解調所述信息。又,視頻編碼過程可實施本文中所描述的技術中的一者或一者以上,以確定可應用於2D 序列的視頻幀中的每一者以產生3D視頻數據的參數集合。經由信道15所傳達的信息可包括由視頻編碼器22定義的信息(其可由與本發明一致的視頻解碼器觀使用)。顯示裝置 30向用戶顯示經解碼的視頻數據,且可包含多種顯示裝置中的任一者,例如,陰極射線管、 液晶顯示器(LCD)、等離子顯示器、有機發光二極體(OLED)顯示器或另一類型的顯示裝置。在圖1的實例中,通信信道15可包含任何無線或有線通信媒體,例如,射頻(RF) 頻譜或一個或一個以上物理傳輸線,或無線與有線媒體的任何組合。因此,數據機23 及發射器M可支持許多可能的無線協議、有線協議,或有線與無線協議。通信信道15可形成例如區域網(LAN)、廣域網(WAN)或包含一個或一個以上網絡的互連的全球網絡(例如, 網際網路)等基於包的網絡的一部分。通信信道15大體上表示用於將視頻數據從源裝置12 發射到目的地裝置16的任何合適通信媒體或不同通信媒體的集合。通信信道15可包括路由器、交換器、基站,或可用於促進從源裝置12到目的地裝置16的通信的任何其它設備。本發明的技術未必需要將經編碼的數據從一個裝置傳達到另一裝置,且可在無互逆解碼的情況下應用於編碼情況。又,本發明的方面可在無互逆編碼的情況下應用於解碼情況。視頻編碼器22及視頻解碼器28可在符合視頻壓縮標準(例如,ITU-T H. 264標準,或者被描述為MPEG-4第10部分,進階視頻編碼(AVC))的情況下進行操作。然而,本發明的技術不限於任何特定編碼標準或其擴展。儘管未在圖1中展示,但在一些方面中,視頻編碼器22及視頻解碼器觀可各自與音頻編碼器及解碼器整合,且可包括適當的MUX-DEMUX 單元或其它硬體及軟體,以處置共同數據流或單獨數據流中的音頻與視頻兩者的編碼。如果適用,則MUX-DEMUX單元可遵守ITU H. 223多路復用器協議或例如用戶數據報協議(UDP) 等其它協議。通過ITU-T視頻編碼專家組(VCEG)連同IS0/IEC動畫專家組(MPEG)將ITU-T H. 264/MPEG-4(AVC)標準制定為被稱為聯合視頻小組(JVT)的集體合作的產物。H. 264標準由ITU-T研究組於2005年3月在ITU-T建議案H.沈4「用於一般視聽服務的高級視頻編石馬(Advanced Video Coding for generic audiovisual services),,中描述,其可在本文中被稱作H. 264標準或H. 264規範或H. 264/AVC標準或規範。聯合視頻小組(JVT)繼續致力於對H. 264/MPEG-4AVC的擴展。ITU-T的各種論壇(例如,關鍵技術領域(KTA)論壇)致力於推進H. 264/ MPEG-4AVC標準。KTA論壇在某種程度上探求開發展現比H. 264/AVC標準所展現的編碼效率高的編碼效率的編碼技術。本發明中所描述的技術可提供相對於H. ^4/AVC標準(尤其針對3D視頻)的編碼改善。在一些方面中,本發明預期在ITU-T H. 264架構內使用補充增強信息(SEI)消息作為用於編碼及傳達本文中所描述的3D轉換信息的機制。視頻編碼器22及視頻解碼器觀各自可實施為一個或一個以上微處理器、數位訊號處理器(DSP)、專用集成電路(ASIC)、現場可編程門陣列(FPGA)、離散邏輯電路、執行於微處理器或其它平臺上的軟體、硬體、固件,或其任何組合。視頻編碼器22及視頻解碼器觀中的每一者可包括於一個或一個以上編碼器或解碼器中,其中任一者可整合為相應移動裝置、訂戶裝置、廣播裝置、伺服器或其類似者中的組合的編碼器/解碼器(CODEC)的一部分。視頻序列通常包括一系列視頻幀。視頻編碼器22及視頻解碼器觀可對個別視頻幀內的視頻塊進行操作以便編碼及解碼視頻數據。視頻塊可具有固定或變化的大小,且可根據所指定編碼標準而在大小上不同。每一視頻幀可包括一系列片段或其它可獨立解碼的單元。每一片段可包括一系列宏塊,所述宏塊可布置成子塊。作為一實例,ITU-T H. 264標準支持在各種塊大小情況下的幀內預測,例如,針對亮度分量的16乘16、8乘8或4乘4 及針對色度分量的8X8 ;以及在各種塊大小情況下的幀間預測,例如,針對亮度分量的16 乘16、16乘8、8乘16、8乘8、8乘4、4乘8及4乘4及針對色度分量的對應按比例縮放的大小。視頻塊可包含像素數據的塊,或(例如)在例如離散餘弦變換或概念上類似的變換過程等變換過程之後的變換係數的塊。較小視頻塊可提供較好的解析度,且可用於定位包括高等級細節的視頻幀。一般來說,宏塊及各種子塊或分割區可全都被視為視頻塊。另外,片段可被視為一系列視頻塊, 例如,宏塊及/或子塊或分割區。一般來說,宏塊可指代定義16乘16像素區域的色度值及亮度值的集合。亮度塊可包含16乘16的值集合,但可經進一步分割成較小視頻塊,例如, 8乘8塊、4乘4塊、8乘4塊、4乘8塊或其它大小。兩個不同色度塊可定義宏塊的顏色,且可各自包含8乘8經子取樣的塊,所述8乘8經子取樣的塊的顏色值與16乘16像素區域相關聯。宏塊可包括用以定義應用於所述宏塊的編碼模式及/或編碼技術的語法信息。可將宏塊或其它視頻塊分組到可解碼單元(例如,片段、幀或其它獨立單元)中。 每一片段可為視頻幀的可獨立解碼的單元。或者,幀自身可為可解碼單元,或幀的其它部分可被定義為可解碼單元。在本發明中,術語「經編碼單元」指代視頻幀的任何可獨立解碼的單元,例如,整個幀、幀的片段、圖片群組(GOP),或根據所使用的編碼技術而定義的另一可獨立解碼單元。在基於幀內或幀間的預測性編碼之後及在任何變換(例如,用於H. ^4/AVC中的 4X4或8X8整數變換或離散餘弦變換或DCT)之後,可執行量化。量化大體上指代其中將係數量化以可能地減少用以表示所述係數的數據量的過程。量化過程可減少與所述係數中的一些或全部相關聯的位深度。舉例來說,16位值在量化期間可下捨入到15位值。在量化之後,可(例如)根據內容適應性可變長度編碼(CAVLC)、上下文適應性二進位算術編碼 (CABAC)或另一熵編碼方法來執行熵編碼。3D視頻可需要與每一經原始編碼的幀相關聯的一個或一個以上額外視頻幀(例如,額外視圖)。舉例來說,兩個不同的視圖可用以定義視頻幀的立體3D再現。多個視圖 (其可包含三個或三個以上視圖)還可支持多視圖3D再現。3D視頻的不同視圖可具有類似時序以使得兩個或兩個以上視圖對應於視頻序列的同一時間實例。以此方式,兩個或兩個以上視圖可大體上定義一起形成3D序列的兩個或兩個以上2D序列,其可經共同地呈現以提供3D視頻。為了支持3D視頻的高效率編碼、傳達及解碼,本發明使用包含可應用於2D序列的視頻幀中的每一者以產生3D視頻數據的參數集合的3D轉換信息。可與2D序列一起傳達所述3D轉換信息。因此,接收裝置可產生並顯示2D序列,或在接收裝置支持3D視頻的情況下,所述接收裝置可產生並顯示3D序列。在一些實例中,本發明的3D轉換信息可包含小於100個字節的數據,且更特定來說,小於20個字節的數據,其可應用於2D序列的2D幀中的一些或全部以產生3D立體視頻的二次視圖。以此方式,通過消除至少一些幀的兩個視圖的發射,本發明的技術提供傳達3D視頻的高效率方式。圖2為說明可執行與本發明一致的技術的視頻編碼器50的一實例的框圖。視頻編碼器50可對應於源裝置12的視頻編碼器22,或不同裝置的視頻編碼器。視頻編碼器50 可執行視頻幀內的塊的幀內編碼及幀間編碼。幀內編碼依賴於空間預測以減少或移除給定視頻幀內的視頻的空間冗餘。幀間編碼依賴於時間預測以減少或移除視頻序列的鄰近幀內的視頻的時間冗餘。幀內模式(I模式)可指代基於空間的壓縮模式,且例如預測(P模式) 或雙向(B模式)的幀間模式可指代基於時間的壓縮模式。如圖2中所示,視頻編碼器50接收視頻幀或片段內的待編碼的當前視頻塊。在圖 2的實例中,視頻編碼器50包括預測單元35、存儲器34、加法器48、變換單元38、量化單元 40及熵編碼單元46。對於視頻塊重建構來說,視頻編碼器50還包括逆量化單元42、逆變換單元44及加法器51。此外,根據本發明,視頻編碼器50可包括產生本文中所描述的3D轉換信息的2D到3D轉換單元36。視頻編碼器50還可包括其它組件,例如,用以對塊邊界進行濾波以從經重建構的視頻移除方塊效應假影的解塊濾波器(未圖示)。如果需要,則所述解塊濾波器將通常對加法器51的輸出進行濾波。在編碼過程期間,視頻編碼器50接收待編碼的視頻塊,且預測單元35執行幀內或幀間預測性編碼。舉例來說,編碼器50的預測單元35可執行對經編碼的單元(例如,幀或片段)的每一視頻塊或視頻塊分割區的運動估計及運動補償。預測單元35可計算與編碼特定塊相關聯的每一適用模式的速率-失真成本(rdcost),且可選擇產生最低成本的編碼模式。rdcost可量化在經編碼的數據中所使用的位數目及相對於原始視頻數據的失真度方面的成本。速率-失真(RD)分析在視頻編碼中相當常見,且大體上涉及指示編碼成本的成本量度的計算。成本量度可平衡編碼所需的位數目(速率)及與編碼相關聯的質量水平(失真)。典型的速率-失真成本計算可大體上對應於以下格式J(A) = λ R+D,其中J(A)為成本,R為位速率,D為失真,且λ為拉格朗日乘數。預測單元35可應用此類型的成本函數以比較可用以執行視頻塊編碼的各種幀內及幀間編碼模式(及適用的分割區大小)。一旦由預測單元35識別了所要預測數據,視頻編碼器50就通過從經編碼的原始視頻塊減去預測數據以產生殘餘塊而形成殘餘視頻塊。加法器48表示執行這些減法運算的(多個)組件。變換單元38將變換(例如,離散餘弦變換(DCT)或概念上類似的變換) 應用於殘餘塊,從而產生包含殘餘變換塊係數的視頻塊。變換單元38可執行概念上類似於 DCT的變換,例如,由H. 264標準定義的變換。還可使用小波變換、整數變換、次頻帶變換或其它類型的變換。在任何狀況下,變換單元38將變換應用於殘餘塊,從而產生殘餘變換係數的塊。所述變換可將殘餘信息從像素域轉換到頻域。量化單元40量化殘餘變換係數以進一步減少位速率。量化過程可減少與所述係數中的一些或全部相關聯的位深度。舉例來說,9位值在量化期間可下捨入到8位值。另外,量化單元40還可量化不同偏移(對於在使用偏移的狀況下)。在量化之後,熵編碼單元46對經量化的變換係數進行熵編碼。舉例來說,熵編碼單元46可執行內容適應性可變長度編碼(CAVLC)、上下文適應性二進位算術編碼(CABAC) 或另一熵編碼方法。在通過熵編碼單元46進行的熵編碼之後,可將經編碼的視頻發射到另一裝置或經歸檔以供稍後發射或檢索。經編碼的位流可包括經熵編碼的殘餘塊、所述塊的運動向量,及其它語法(例如,本文中所描述的用於支持2D到3D視頻的語法)。逆量化單元42及逆變換單元44分別應用逆量化及逆變換以在像素域中重建構殘餘塊,(例如)以用上文所描述的方式供稍後用作參考數據。加法器51將經重建構的殘餘塊加到由運動補償單元35產生的一階預測塊及/或二階預測塊,以產生經重建構的視頻塊以供存儲於存儲器;34中。經重建構的視頻塊及殘餘數據可由運動補償單元35用作參考塊以對後續視頻幀或其它經編碼的單元中的塊進行幀間編碼。為了支持3D視頻,視頻編碼器50可進一步包括2D到3D轉換單元36,其相對於存儲在存儲器34中的經重建構的2D視頻序列進行操作。以此方式,2D到3D轉換單元36對將在解碼器處在解碼過程之後可用的相同經重建構的數據進行操作。根據本發明,2D到3D 轉換單元36識別、確定或另外產生3D轉換信息,3D轉換信息包含可應用於2D序列的視頻幀中的每一者以產生3D視頻數據的參數集合。針對給定2D序列可產生一次3D轉換信息。3D轉換信息所應用於的2D序列可包含整個視頻序列、場景,或可能地形成可解碼集合的圖片群組。圖片群組的實例包括IBPBP情況中的五個幀的集合或IBBPBBP情況中的七個幀的集合,其中I指示幀內編碼,P指示預測性幀間編碼或單向幀間編碼,及B指示前後預測性(bi-predictive)幀間編碼或雙向幀間編碼。在這些狀況下,圖片群組中的幀可相互依賴並共同地解碼。在一些狀況下,每圖片群組可發送一次3D轉換信息,但也可每場景發送一次3D轉換信息或每整個視頻序列發送一次3D轉換信息。然而,重要的是,3D轉換信息相對於多個幀而應用,以便所述多個幀中的每一個別幀不需要不同的3D轉換信息。視頻編碼器50可根據ITU H. 264視頻編碼標準編碼2D序列,且2D到3D轉換單元可編碼由ITU H. 264視頻編碼標準支持的3D轉換信息SEI消息。參數集合可應用於第一 2D序列的視頻幀中的每一者以產生視頻幀的第二 2D序列,其中第一與第二 2D序列共同地定義3D立體視頻序列。3D轉換信息可包括識別待應用於2D序列以產生3D視頻數據的 3D轉換過程的信息。在一些狀況下,3D轉換信息可包括與俘獲2D序列相關聯的相機參數及值。舉例來說,如下文更詳細解釋,3D轉換信息可包括焦距值,其指示與俘獲2D序列的相機相關聯的焦距;近深度值,其指定3D視頻數據中的最小深度;遠深度值,其指定3D視頻數據中的最大深度;及平移值,其量化與3D視頻數據相關聯的兩個相機之間的假定距離。為了編碼3D轉換信息,2D到3D轉換單元36可使用旗標,其為可經設定以指示特定情況的位。作為實例,3D轉換信息可包括指示3D參數的顯式集合是否包括於3D轉換信息中或是否應使用3D參數的默認集合的旗標。在此狀況下,在所述旗標經設定時,3D參數的顯式集合包括於3D轉換信息中。又,3D轉換信息可包括指示2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生的旗標。另外,3D轉換信息可包括識別應從3D視頻數據移除的裁剪區的旗標。在此狀況下,在所述旗標經設定時,定義裁剪區的信息包括於3D轉換信息中。這些旗標中的每一者可用以共同地編碼3D轉換信息,且還可使用或定義與本發明一致的其它旗標。圖3為說明示範性視頻解碼器70的框圖,所述示範性視頻解碼器70可執行與上文所描述的編碼技術互逆的解碼技術。視頻解碼器70可包括熵解碼單元72、預測單元75、
15逆量化單元76、逆變換單元78、存儲器74及加法器79。預測單元75可包括運動補償單元以及空間預測組件。視頻解碼器70可接收包括以本文中所描述的方式編碼的2D序列的經編碼的視頻位流,及可由解碼器70使用以促進視頻塊的適當解碼的各種語法元素。更特定來說,視頻位流可包括本文中所描述的用以促進基於視頻幀的2D序列產生3D視頻數據的3D轉換信息。3D轉換信息可包含可應用於2D序列的視頻幀中的每一者以產生3D視頻數據的參數集合。又,3D轉換信息針對視頻序列的不同幀並沒有不同,而包含形成相對較少量的數據的共同參數集合,其可應用於2D序列的原始視頻幀中的每一者以產生所述原始視頻幀中的每一者的二次視圖。短語2D序列指代多個視頻幀,其可包含整個視頻文件、視頻剪輯、較大視頻文件內的視頻場景,或可能地在較大視頻序列內形成可解碼幀集合的圖片群組。熵解碼單元72執行位流的熵解碼以產生2D序列的殘餘視頻塊的經量化的係數。 熵編碼單元72可剖析來自位流的語法元素且將所述語法元素轉發到視頻解碼器70的各種單元。舉例來說,運動信息(例如,運動向量)及其它語法信息可經轉發到預測單元75。此外,可通過熵解碼單元72剖析來自位流的3D轉換信息,且接著將所述3D轉換信息轉發到 2D到3D轉換單元79。以虛線說明2D到3D轉換單元79,因為此單元79為任選的。不具有任何2D到3D轉換單元79的視頻解碼器可能僅解碼2D視頻序列且丟棄3D轉換信息。以此方式,3D轉換信息促進了可擴充的2D到3D視頻的產生,其中一些裝置可解碼2D視頻,而其它裝置可解碼2D視頻且還應用3D轉換信息以產生3D視頻。為了解碼2D視頻序列,預測單元75使用運動信息或其它語法元素以識別在編碼中所使用的預測塊。對於基於幀間的解碼來說,運動向量可應用於運動補償過程中以從預測數據的一個或一個以上列表產生預測塊。對於基於幀間的解碼來說,語法可包含幀內模式,其可定義應如何基於來自與經解碼的視頻塊的幀相同的幀的數據來產生預測塊。逆量化單元76將來自熵解碼單元72的數據逆量化,且逆變換單元執行逆變換以在像素域中產生殘餘塊。加法器79接著將殘餘塊與由預測單元75產生的預測塊組合以產生原始視頻塊的重建構,其可存儲於存儲器74中及/或作為經解碼的2D視頻數據輸出到顯示器。可以此方式解碼許多視頻塊以重建構視頻幀,且最終將視頻幀的整個2D序列重建構於存儲器74中。以此方式,視頻解碼器70執行相對於先前所描述的由視頻編碼器50執行的編碼的互逆解碼。根據本發明,2D到3D轉換單元79可將在位流中所發送的3D轉換信息應用於存儲在存儲器74中的經解碼的2D視頻序列。舉例來說,在將3D轉換信息應用於存儲在存儲器 74中的經解碼的2D視頻序列的情況下,2D到3D轉換單元79可產生與所述2D序列中的視頻幀中的一些或全部相關聯的二次視圖。可接著將原始視圖及二次視圖作為3D視頻數據從2D到3D轉換單元79輸出。多視圖視頻編碼(MVC)可形成對H. 264/AVC的擴展,但MVC也可關於其它視頻編碼標準而應用。MVC的一個聯合草案描述於JVT-AB204( 「關於多視圖視頻編碼的聯合草案 8. OQoint Draft 8.0 on Multiview Video Coding)」)中,其是在 2008 年 7 月於德國漢諾瓦(Hannover,Germany)召開的第28屆JVT會議中提出的。與H. 264/AVC 一致,經編碼的視頻位可經組織到網絡抽象層(NAL)單元中,其提供解決例如視頻電話、存儲、廣播或串流等應用的「網絡親和性(network-friendly)」視頻表示。可將NAL單元分類成視頻編碼層(VCL) NAL單元及非VCL NAL單元。VCL單元可含有核心壓縮引擎且包含塊、MB及片段層級。其它NAL單元是非VCL NAL單元。遵照H. 264/AVC,補充增強信息(SEI)消息可含有對從VCL NAL單元解碼經編碼的圖片的樣本並非必要的信息。SEI消息還包含於非VCL NAL單元中。SEI消息為H.沈4/ AVC的標準規範的標準化部分。雖然未強制用於符合標準的解碼器實施方案,但SEI消息可幫助與解碼、顯示、錯誤恢復及其它目的有關的過程。雖然已最後定下H. 264/AVC的強制部分,但H. ^4/AVC規範對於SEI消息仍為開放的。在一些方面中,本發明提議使用SEI消息或其它類似消息作為用於本文中所描述的編碼、傳達及解碼3D轉換信息的機制。為了支持3D視頻格式,JVT及MPEG可引入新標準及特徵。舉例來說,與MPEG-2 多視圖輪廓一致,一個視圖(例如,左視圖)可以減小的幀速率(例如,每秒15個幀)經編碼,且另一視圖可經編碼為需要高幀速率(例如,每秒30個幀)的時間增強層。然而,這需要在位流中傳達兩個視圖,此相對於傳達常規2D序列可顯著增加位流中的數據量。H. 264/AVC還可應用立體視頻內容方法。舉例來說,在H. 264/AVC中,可採用立體視頻信息SEI消息以指示如何將兩個視圖布置於一個位流中。在此狀況下,所述兩個視圖可為交替幀或互補場對。當兩個視圖為交替幀時,以時間交錯模式將兩個視圖定序,且當兩個視圖為互補場對時,來自兩個視圖的圖像對實際上行交錯於一個圖片中。然而,又,這需要在位流中傳達兩個視圖,此相對於傳達常規2D序列可顯著增加位流中的數據量。有可能採用圖片的空間交錯且可能在SEI中用信號通知空間交錯的存在,其將兩個視圖從時間交錯及行交錯的支持擴展到更靈活的空間交錯模式中。或者,SEI消息可支持圖像對組合為並排的交錯、上/下交錯、列交錯或棋盤型交錯。在這些方法(與其它不合需要的方法一樣)中的每一者中,不同視圖實際上以某種方式在位流中發射,此相對於常規2D序列急劇增加3D視頻所需的信息量。本發明的技術可實質上通過避免二次視圖的實際發射而減少位流中需要用以傳達3D視頻的信息量。在此狀況下,本發明發送包含可在解碼器處應用於原始2D序列以在所述解碼器處產生二次視圖的參數集合的3D轉換信息,而非實際上編碼並發射二次視圖。 以此方式,避免了實際上傳送二次視圖的需要,且更確切來說,可在解碼器處應用參數集合以產生二次視圖,而無需在位流中傳送二次視圖。H. ^4/AVC中的SEI消息還可支持接受3D輸入好像其為2D視頻序列且利用SEI消息來告知解碼器如何分離兩個交錯的視圖以便可將一個視頻序列分割成兩個視圖的狀況。 然而,應再次強調,在所述狀況下的輸入是由兩個視圖表示的3D輸入。相比來說,本發明的技術避免了在位流中發送兩個視圖的需要,且更確切來說,依賴解碼器以基於位流中的3D 轉換信息而產生任何二次視圖。—些MVC解碼次序可被稱作時間優先編碼。在此狀況下,將每一存取單元定義成含有在一個輸出時間實例中的全部視圖的經編碼的圖片。然而,存取單元的解碼次序可能與輸出或顯示次序不同。MVC預測可包括每一視圖內的圖片間預測及視圖間預測兩者。MVC可包括可由 H. ^4/AVC解碼器解碼的所謂的基本視圖,且MVC也可支持兩個視圖。在此狀況下,MVC的優點是其可支持將兩個以上視圖當作3D視頻輸入且將此由多個視圖表示的3D視頻解碼的狀況。通過MVC解碼器進行的解碼可預期具有多個視圖的3D視頻內容。
MPEG標準還已在MPEG-C第3部分中規定用於附加規則視頻流的深度圖的格式。 此規範包括於以下文獻中"IS0/IEC FDIS 23002-3文章輔助視頻和補充信息的表示(Text of IS0/IEC FDIS 23002-3 Representation of Auxiliary Video and Supplemental Information),,, IS0/IEC JTC 1/SC 29/WG 11,MPEG 文擋,N8768,摩洛哥馬拉喀什(Marrakech,Morocoo), 2007年1月。在MPEG-C第3部分中,所謂的輔助視頻可為深度圖或視差圖。表示深度圖可提供在用以表示深度圖的每一深度值及解析度的位數目方面的靈活性。舉例來說,深度圖可為給定圖像的寬度的四分之一且為給定圖像的高度的二分之一。遺憾地是,序列的每一幀通常需要深度圖。也就是說,同一深度圖並未應用於視頻序列的每一幀。因此,深度圖的傳達可需要極大量數據,因為在整個視頻序列上需要若干深度圖。MPEG視頻子組已定義在3D視頻編碼中的探測實驗以便研究3D情況。MPEG視頻子組已指示使深度圖用於每一視圖潛在地有助於視圖合成,但MPEG中的此活動可能不是標準化的一部分。與MPEG 3D視頻一致的兩個重要概念包括深度估計及視圖合成。可假定,大多數視頻內容是由多相機系統俘獲且深度圖必須在編碼之前產生以便可通過紋理視頻序列來發射所述深度圖。然而,根據本發明的視圖合成是可在視頻呈現時應用以產生未在位流中發射的更多視圖的工具。因此,視圖合成的概念可通過促進本文中所描述的3D轉換信息而形成本發明的技術的一部分。在3D視頻通信系統中,可在編碼之前俘獲並預處理原始視頻數據。可編碼可具有深度圖的原始數據,且可存儲或發射經編碼的視頻內容。目的地裝置可解碼並顯示3D視頻。然而,如上文所解釋,從通信及帶寬觀點來說,傳達關於視頻序列的若干圖像的額外視圖或深度圖可能為不合需要的。根據本發明,較好的方法可為(例如)傳達3D轉換信息, 所述3D轉換信息可由解碼器應用於2D序列的每一視頻幀來產生二次視圖,而無需實際上在位流中傳達二次視圖。3D內容的獲取可通過一個相機或通過相機陣列執行,或可能甚至與可產生深度圖的裝置相關聯。作為幾個實例,可在以下類別中的至少一者內將內容獲取分類-2D視頻俘獲,其通常不提供3D內容。-雙相機系統,其可俘獲及/或提供立體視頻。-相機陣列,其俘獲多個視圖。-一個視圖俘獲加深度。舉例來說,一些裝置可俘獲與經俘獲的圖像相關聯的深度。-其它技術可俘獲深度信息及/或產生3D模型。還可在編碼器處執行3D預處理及編碼。此處,3D預處理並不指代與噪聲抑制或場景檢測有關的典型處理。3D預處理可產生深度圖,其將經編碼為3D視頻內容的一部分。此過程可針對每一經俘獲的視圖產生一個深度圖或針對若干經發射的視圖產生若干深度圖。 然而,又,從帶寬觀點來說,傳達深度圖可能為不合需要的。在視頻內容由解碼器接收時,可將所述視頻內容解碼以獲得經發射的數據,經發射的數據可包括一個或一個以上視圖以及經重建構的深度圖(如果存在)。當深度圖可用於解碼器處時,可採用視圖合成算法以產生未經發射的其它視圖的紋理。常規3D顯示器可
18呈現兩個或兩個以上視圖。在快門眼鏡(shuttle glasses)的幫助下,能夠顯示高幀速率視頻的一些2D顯示器也可用作3D顯示器。偏光是提供兩個視圖作為輸出的3D顯示技術。 雖然一些顯示器或3D電視將深度當作輸入的一部分,但可能總是存在負責產生兩個或兩個以上視圖作為輸出的內建式「視圖合成」模塊。3D扭曲變形(3D warping)是可對本發明的技術有用的視圖合成的一種形式。圖 4到圖7是將用以解釋3D扭曲變形及其它視圖合成概念的概念圖。基於取樣理論的視圖合成可為取樣問題,其需要經密集取樣的視圖以極佳地產生在任何視角上的任何視圖。然而, 在實踐應用中,經密集取樣的視圖所需的存儲或發射帶寬通常太巨大而不能被實現。因此, 一些研究已聚焦於基於經稀疏取樣的視圖及深度圖的視圖合成。基於經稀疏取樣的視圖的視圖合成算法可依賴3D扭曲變形的概念。圖4說明3D 扭曲變形的概念。如圖4所示,在3D扭曲變形中,在給出深度及相機模型的情況下,參考視圖的f中的像素可從2D相機坐標投影到世界空間坐標系統中的點P。所述點P可接著沿著
PO2的方向投影到目的地視圖(其為待產生的虛擬視圖)。在此狀況下,屍O2的方向對應於目的地視圖的視角。通過假定投影的坐標為 ,則參考視圖中的f的像素值(在不同顏色分量中)可被視為虛擬視圖中的G的像素值。有時,一個以上視圖可被視為參考視圖。換句話說,上文所提及的從 到G的投影未必為一對一投影。然而,當一個以上像素投影到目的地像素G時,可能出現可見度問題。 另一方面,當一個像素投影到目的地像素G時,可在虛擬視圖的圖片中顯現或存在一孔。所謂的可見度問題可能需要決定哪些像素將用以建構G的像素值。如果若干孔在圖片中存在於連續區域中,則所述現象稱為遮擋(occlusion)。另外,如果若干孔稀疏地分布於圖片中, 則所述孔可稱為針孔。可通過在不同方向上引入一個參考視圖來解決遮擋。針孔填充(例如,用以填充針孔的像素值)通常將相鄰像素當作孔的候選者。用於針孔填充的技術也可用以解決遮擋問題。在針對U2的像素值考慮一個以上像素時,可採用加權平均方法。通常將這些過程命名為視圖合成的重建構。總計來說,可見度、遮擋、針孔填充及重建構表示在實施基於3D 扭曲變形的視圖合成過程中的主要難題及障礙。相機模型可有助於解決所述難題。舉例來說,含有固有參數及外來參數的相機模型可用以描述從世界坐標系統到相機平面的變換,或從相機平面到世界坐標系統的變換。為簡單起見,本發明中所描述的全部所提及的坐標系統均為正交坐標系統,但本發明的技術未必在此方面進行限制。外來參數可基於以下變換來定義在世界坐標中相機中心的位置及相機的機首方向
權利要求
1.一種方法,其包含在視頻編碼器中編碼視頻幀的二維2D序列;經由所述視頻編碼器編碼三維3D轉換信息,其中所述3D轉換信息包含可應用於所述 2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;及傳達所述經編碼的2D序列與所述3D轉換信息。
2.根據權利要求1所述的方法,其中編碼所述2D序列包含根據ITUH. 264視頻編碼標準來編碼所述2D序列,且其中編碼所述3D轉換信息包含將所述3D轉換信息編碼到由所述 ITU H. 264視頻編碼標準支持的一個或一個以上補充增強信息SEI消息中。
3.根據權利要求1所述的方法,其中所述2D序列為第一2D序列,所述參數集合可應用於所述第一 2D序列的所述視頻幀中的每一者以產生視頻幀的第二 2D序列,且所述第一 2D 序列及所述第二 2D序列共同地定義3D立體視頻序列。
4.根據權利要求1所述的方法,其中所述3D轉換信息包括識別待應用於所述2D序列以產生所述3D視頻數據的3D轉換過程的信息。
5.根據權利要求1所述的方法,其中所述3D轉換信息包括與俘獲所述2D序列相關聯的相機參數及值。
6.根據權利要求1所述的方法,其中所述3D轉換信息包括 焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度,遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離。
7.根據權利要求1所述的方法,其中所述3D轉換信息包括 焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度, 遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離, 會聚深度值,其量化會聚圖像平面到所述兩個相機的假定距離。
8.根據權利要求1所述的方法,其中所述3D轉換信息包括指示3D參數的顯式集合是否包括於3D轉換信息中或是否應使用3D參數的默認集合的旗標。
9.根據權利要求1所述的方法,其中所述3D轉換信息包括指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生的旗標。
10.根據權利要求1所述的方法,其中所述3D轉換信息包括識別應從所述3D視頻數據移除的裁剪區的旗標。
11.根據權利要求1所述的方法,其中所述3D轉換信息包括第一旗標,其指示3D參數的顯式集合是否包括於所述3D轉換信息中或是否應使用3D 參數的默認集合,其中在所述第一旗標經設定時,3D參數的所述顯式集合包括於所述3D轉換信息中,第二旗標,其指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生,及第三旗標,其識別是否應從所述3D視頻數據移除裁剪區,其中在所述第三旗標經設定時,定義所述裁剪區的信息包括於所述3D轉換信息中。
12.一種方法,其包含在視頻解碼器處接收視頻幀的二維2D序列;在所述視頻解碼器處與所述2D序列一起接收三維3D轉換信息,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合; 經由所述視頻解碼器解碼所述2D序列;及基於所述2D序列及所述3D轉換信息經由所述視頻解碼器產生所述3D視頻數據。
13.根據權利要求12所述的方法,其中所述2D序列是根據ITUH. 264視頻編碼標準而編碼的,且其中在由所述ITU H. 264視頻編碼標準支持的一個或一個以上補充增強信息 SEI消息中接收所述3D轉換信息。
14.根據權利要求12所述的方法,其中所述2D序列為第一2D序列,所述參數集合可應用於所述第一 2D序列的所述視頻幀中的每一者以產生視頻幀的第二 2D序列,所述第一 2D 序列及所述第二 2D序列共同地定義3D立體視頻序列,且產生所述3D視頻數據包含產生用以定義所述3D立體視頻序列的所述第二 2D序列。
15.根據權利要求12所述的方法,其中所述3D轉換信息包括識別待應用於所述2D序列以產生所述3D視頻數據的3D轉換過程的信息。
16.根據權利要求12所述的方法,其中所述3D轉換信息包括與俘獲所述2D序列相關聯的相機參數及值。
17.根據權利要求12所述的方法,其中所述3D轉換信息包括 焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度,遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離。
18.根據權利要求12所述的方法,其中所述3D轉換信息包括 焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度, 遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離, 會聚深度值,其量化會聚圖像平面到所述兩個相機的假定距離。
19.根據權利要求12所述的方法,其中所述3D轉換信息包括指示3D參數的顯式集合是否包括於3D轉換信息中或是否應使用3D參數的默認集合的旗標。
20.根據權利要求12所述的方法,其中所述3D轉換信息包括指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生的旗標。
21.根據權利要求12所述的方法,其中所述3D轉換信息包括識別應從所述3D視頻數據移除的裁剪區的旗標。
22.根據權利要求12所述的方法,其中所述3D轉換信息包括第一旗標,其指示3D參數的顯式集合是否包括於所述3D轉換信息中或是否應使用3D 參數的默認集合,其中在所述第一旗標經設定時,3D參數的所述顯式集合包括於所述3D轉換信息中,第二旗標,其指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生,及第三旗標,其識別是否應從所述3D視頻數據移除裁剪區,其中在所述第三旗標經設定時,定義所述裁剪區的信息包括於所述3D轉換信息中。
23.根據權利要求12所述的方法,其進一步包含 確定接收裝置是否可產生並呈現所述3D視頻數據;在所述接收裝置可產生並呈現所述3D視頻數據時,基於所述2D序列及所述3D轉換信息而產生並呈現所述3D視頻數據;及在所述接收裝置不能產生或呈現所述3D視頻數據時,呈現所述2D序列。
24.一種設備,其包含視頻編碼器,其編碼視頻幀的二維2D序列,且編碼三維3D轉換信息與所述2D序列,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合。
25.根據權利要求M所述的設備,其進一步包含發射器,所述發射器將所述經編碼的 2D序列與所述3D轉換信息傳達到另一裝置。
26.根據權利要求M所述的設備,其中所述視頻編碼器根據ITUH. 264視頻編碼標準來編碼所述2D序列,且將所述3D轉換信息編碼到由所述ITU H. 264視頻編碼標準支持的一個或一個以上補充增強信息SEI消息中。
27.根據權利要求M所述的設備,其中所述2D序列為第一2D序列,所述參數集合可應用於所述第一 2D序列的所述視頻幀中的每一者以產生視頻幀的第二 2D序列,且所述第一 2D序列及所述第二 2D序列共同地定義3D立體視頻序列。
28.根據權利要求M所述的設備,其中所述3D轉換信息包括識別待應用於所述2D序列以產生所述3D視頻數據的3D轉換過程的信息。
29.根據權利要求M所述的設備,其中所述3D轉換信息包括與俘獲所述2D序列相關聯的相機參數及值。
30.根據權利要求M所述的設備,其中所述3D轉換信息包括 焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度,遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離。
31.根據權利要求M所述的設備,其中所述3D轉換信息包括 焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度, 遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離, 會聚深度值,其量化會聚圖像平面到所述兩個相機的假定距離。
32.根據權利要求M所述的設備,其中所述3D轉換信息包括指示3D參數的顯式集合是否包括於3D轉換信息中或是否應使用3D參數的默認集合的旗標。
33.根據權利要求M所述的設備,其中所述3D轉換信息包括指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生的旗標。
34.根據權利要求M所述的設備,其中所述3D轉換信息包括識別應從所述3D視頻數據移除的裁剪區的旗標。
35.根據權利要求M所述的設備,其中所述3D轉換信息包括第一旗標,其指示3D參數的顯式集合是否包括於所述3D轉換信息中或是否應使用3D 參數的默認集合,其中在所述第一旗標經設定時,3D參數的所述顯式集合包括於所述3D轉換信息中,第二旗標,其指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生,及第三旗標,其識別是否應從所述3D視頻數據移除裁剪區,其中在所述第三旗標經設定時,定義所述裁剪區的信息包括於所述3D轉換信息中。
36.根據權利要求M所述的設備,其中所述設備包含以下各項中的至少一者集成電路;微處理器;及包括所述視頻編碼器的無線通信裝置。
37.一種設備,其包含視頻解碼器,其接收視頻幀的二維2D序列;與所述2D序列一起接收三維3D轉換信息, 其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;解碼所述2D序列;且基於所述2D序列及所述3D轉換信息產生所述3D視頻數據。
38.根據權利要求37所述的設備,其中所述2D序列是根據ITUH. 264視頻編碼標準而編碼的,且其中在由所述ITU H. 264視頻編碼標準支持的一個或一個以上補充增強信息 SEI消息中接收所述3D轉換信息。
39.根據權利要求37所述的設備,其中所述2D序列為第一2D序列,所述參數集合可應用於所述第一 2D序列的所述視頻幀中的每一者以產生視頻幀的第二 2D序列,所述第一 2D序列及所述第二 2D序列共同地定義3D立體視頻序列,且在產生所述3D視頻數據的過程中,所述視頻解碼器產生用以定義所述3D立體視頻序列的所述第二 2D序列。
40.根據權利要求37所述的設備,其中所述3D轉換信息包括識別待應用於所述2D序列以產生所述3D視頻數據的3D轉換過程的信息。
41.根據權利要求37所述的設備,其中所述3D轉換信息包括與俘獲所述2D序列相關聯的相機參數及值。
42.根據權利要求37所述的設備,其中所述3D轉換信息包括焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度,遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離。
43.根據權利要求37所述的設備,其中所述3D轉換信息包括焦距值,其指示與俘獲所述2D序列的相機相關聯的焦距,近深度值,其指定所述3D視頻數據中的最小深度,遠深度值,其指定所述3D視頻數據中的最大深度,及平移值,其量化與所述3D視頻數據相關聯的兩個相機之間的假定距離,會聚深度值,其量化會聚圖像平面到所述兩個相機的假定距離。
44.根據權利要求37所述的設備,其中所述3D轉換信息包括指示3D參數的顯式集合是否包括於3D轉換信息中或是否應使用3D參數的默認集合的旗標。
45.根據權利要求37所述的設備,其中所述3D轉換信息包括指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生的旗標。
46.根據權利要求37所述的設備,其中所述3D轉換信息包括識別應從所述3D視頻數據移除的裁剪區的旗標。
47.根據權利要求37所述的設備,其中所述3D轉換信息包括第一旗標,其指示3D參數的顯式集合是否包括於所述3D轉換信息中或是否應使用3D 參數的默認集合,其中在所述第一旗標經設定時,3D參數的所述顯式集合包括於所述3D轉換信息中,第二旗標,其指示所述2D序列的第二視圖是應在所述2D序列的左側還是在所述2D序列的右側產生,及第三旗標,其識別是否應從所述3D視頻數據移除裁剪區,其中在所述第三旗標經設定時,定義所述裁剪區的信息包括於所述3D轉換信息中。
48.根據權利要求37所述的設備,其中所述設備包括顯示器,且其中所述設備確定所述設備是否可產生並呈現所述3D視頻數據;在所述設備可產生並呈現所述3D視頻數據時,基於所述2D序列及所述3D轉換信息而產生所述3D視頻數據並在所述顯示器上呈現所述3D視頻數據;及在所述設備不能產生或呈現所述3D視頻數據時,在所述顯示器上呈現所述2D序列。
49.根據權利要求37所述的設備,其中所述設備包含以下各項中的至少一者集成電路;微處理器;及包括所述視頻解碼器的無線通信裝置。
50.一種設備,其包含用於在視頻編碼器中編碼視頻幀的二維2D序列的裝置;用於經由所述視頻編碼器編碼三維3D轉換信息的裝置,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;及用於傳達所述經編碼的2D序列與所述經編碼的參數的裝置。
51.一種裝置,其包含用於在視頻解碼器處接收視頻幀的二維2D序列的裝置;用於在所述視頻編碼器處與所述2D序列一起接收三維3D轉換信息的裝置,其中所述 3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合;用於解碼所述2D序列的裝置;及用於基於所述2D序列及所述3D轉換信息產生所述3D視頻數據的裝置。
52.一種包含指令的計算機可讀存儲媒體,所述指令在由處理器執行時使所述處理器編碼視頻幀的二維2D序列;及編碼三維3D轉換信息,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合。
53.一種包含指令的計算機可讀存儲媒體,所述指令在由處理器執行時使所述處理器在接收到視頻幀的二維2D序列且與所述2D序列一起接收到三維3D轉換信息時,其中所述3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合,解碼所述2D序列;及基於所述2D序列及所述3D轉換信息產生所述3D視頻數據。
54.一種方法,其包含將3D轉換信息應用於2D序列以產生3D視頻數據,其中所述3D轉換信息包含可應用於所述2D序列的每一視頻幀以產生所述3D視頻數據的參數集合。
全文摘要
本發明描述用於編碼視頻幀的二維2D視頻序列連同三維3D轉換信息的技術,所述三維3D轉換信息包含可應用於所述2D序列的所述視頻幀中的每一者以產生3D視頻數據的參數集合。所述參數集合可包含可應用於所述2D序列的原始視頻幀中的每一者以產生所述原始視頻幀中的每一者的二次視圖的相對少量的數據。所述原始視頻幀及所述二次視圖可共同地定義立體3D視頻序列。所述2D序列及所述參數集合可包含比傳達3D序列原本會需要的數據顯著少的數據。本發明還描述可用以以有效且高效率的方式編碼所述參數集合的一些示範性語法。
文檔編號H04N13/00GK102450015SQ201080024362
公開日2012年5月9日 申請日期2010年6月5日 優先權日2009年6月5日
發明者陳英, 馬爾塔·卡切維奇 申請人:高通股份有限公司