基於深度圖像渲染的多通道視頻流編碼器和解碼器的製作方法
2023-05-25 14:18:31 6
專利名稱:基於深度圖像渲染的多通道視頻流編碼器和解碼器的製作方法
技術領域:
本發明涉及運動圖像處理技術,尤其涉及一種基於深度圖像渲染的多通道 視頻流編碼器和解碼器。
背景技術:
電視系統經歷了從黑白到彩色,從模擬到數字的演化。發展至今的二維電 視系統提供給觀眾的是平面的影像,而三維電視系統將能夠提供給觀眾更為接 近自然視覺的觀看體驗。因此從二維系統到三維系統將是一個自然的,可期待 的演化,是對目前二維數位電視系統的發展。
對人類視覺系統(HVS, Human Visual System)的研究表明,雙眼觀察同一 物體時,形成的兩幅圖像存在視差。對人類立體視覺的形成存在兩個理論融 合理論(FusionTheory)認為如果使雙眼分別觀察到存在差異,並且差異局限在 一定範圍內的圖像,通過視覺融合,人類將形成立體視覺。抑制理論(Suppression Theory)認為人類視覺系統在形成立體視覺的過程中,立體感和立體圖像整體質 量取決於質量較好的單眼圖像。Lew Stelmach等人設計的雙重激勵連續質量尺 度(DSCQS, Double-Stimulus Continuous-Quality Scale)主觀測試實驗在一定程 度上證實了這一理論。
數字視頻技術隨著Internet和移動通信的迅猛發展獲得了日益廣泛的應用, 但是數字視頻信息的信息量大,對傳輸網絡的帶寬要求高,所以一般將數字視 頻信號在存儲或者傳輸前先進行壓縮編碼,以便節省存儲空間和網絡帶寬。
形成立體視覺至少需要兩個通道的數字視頻,目前的自由立體顯示器支持 多個觀眾同時觀看,其多個立體觀看點(立體視點)要求輸入多個通道的數字 視頻,因此一種好的編解碼方法需要考慮壓縮率、解碼重建後的圖像質量、觀 眾的立體視覺體驗等多個因素,在有限帶寬的限制下,取得壓縮率和立體視點 圖像質量的平衡。
目前對多(雙)通道數字視頻進行編碼的方法大致可分為四類,第一類基 於MPEG視頻編碼標準,第二類基於深度圖像渲染(DIBR, Depth-Image-Based Rendering)技術,第三類基於對象編碼,第四類基於三維網格技術(3Dmesh)。
第一類方法基於MPEG視頻編碼標準。
MPEG-2的MVP (Multi-View Profile)使用時域伸縮工具(TS, Temporal Scalability tool),提供了對雙通道數字視頻(立體視頻)編碼的支持。MVP使用一種雙層編碼結構,將左視點通道作為基本層,右視點通道作為增強層。參
見X. Chen and A. Luthra, MPEG國2 Multi-View Profile and its application in 3DTV, in proceedings of SPIE, vol. 3021, pp. 212-223, 1997。採用MVP進行多通道數字 視頻的編碼,其圖像幀預測結構類似於目前國際上正在研究的多視點編碼標準 (MVC, Muiti-view Video Coding)的圖像幀預測結構,但由於MVP採用MPEG-2 標準作為編碼工具,其編碼效率比不上目前的視頻編碼國際標準11.264/八丫(:。
2003年5月,由ITU-T和ISO/IEC的專家共同組成的聯合視頻小組JVT(Joint Video Team)制定了視頻編碼國際標準H.264/AVC。 H.264採用了混合編碼框架 結構,採用了最小4x4的可變塊運動預測、多個參考圖像幀、上下文自適應的 二進位算術編碼等等先進技術,同MPEG-2相比,在同樣圖像質量的情況下, 可以取得更高的壓縮效率。
JVT目前正在研究制定多視點編碼(MVC, Muiti-view Video Coding)國際標 準。MVC利用了視點內部和不同視點之間的圖像幀相關性,利用R264/AVC進 行編碼壓縮,由於採用時間和空間的聯合預測編碼,同各個視點獨立編碼的聯 播(Simulcast)相比,目前實驗顯示,在不同的視頻內容下,時空聯合編碼可 提高0.5dB到3dB的增益。參見R Merkle, A. Smolic and K. Muller, Efficient prediction structures for multiview video coding, IEEE Trans. CSVT, vol. 17, no. 11, pp. 1461-1473, 2007。
MVC使用視差預測來挖掘視點間的相關性。但因攝像機的安裝位置、拍攝 位置、光照條件的不同一性,攝取的多個視點的圖像幀的同一區域,其亮度和 色度存在不一致。這種不一致會影響視差預測的準確度和編碼的效率, 一種解 決的方法是在匹配代價函數中加入亮度和色度補償項。參見J.H. Hur, S. Cho and Y.L. Lee, Adaptive local illumination change compensation method for H.264/AVC-based multiview video coding, IEEE Trans. CSVT, vol. 17, no. 11, pp. 1496-1505, 2007。
MVC的編碼結構比較複雜,需要大的計算量、長的編碼延時和大的參考幀 存儲空間。MVC需要編碼每個視點通道,當視點數目增加時,碼率也相應增加。 MVC編碼、傳輸、解碼所有的視點,將拍攝圖像的尺寸和攝像機距離同顯示端 的圖像尺寸和觀看距離聯繫在一起,這樣限制了顯示端觀看位置的靈活性。
2006, AVS (AdvancedVideo Coding Standard)被確定為視頻編碼國家標準。 AVS同樣採用混合編碼框架結構,採用了可變塊結構、多個參考圖像幀、預縮 放的整數變換、算術編碼等等先進技術。也可以採用AVS對多通道視頻流進行編解碼。
第二類方法基於深度圖像渲染(DIBR)技術。
歐洲信息技術項目(1ST, Information Society Technologies)先進三維電視系 統(ATTEST, Advanced Three-Dimensional Television System Technology)採用 了DIBR方法。參見C. Fehn, Depth-Image-Based Rendering(DIBR), compression and transmission for a new approach on 3D-TV, in Proceedings of SPIE, Stereoscopic Displays and Virtual Reality Systems XI, USA, pp. 93-104, 2004。
ATTEST系統在編碼端只編碼一個通道(中心通道)的二維視頻和該通道的 深度圖,在解碼端採用DIBR的方法,根據深度信息和攝像機參數,把解碼恢復 的中心通道圖像幀投影到三維空間,再投影到虛擬攝像機的成像平面,由此重 建出多個虛擬的二維視頻通道。
DIBR利用一個通道的深度信息來渲染多個視頻通道,同MVC相比,可以取 得更高的壓縮率,而且不會產生由於相機位置和參數不同造成的亮度、色度不 匹配。但由於遮擋,渲染合成的虛擬視點通道圖像幀內部會出現空洞,並且由 於虛擬視點圖像質量的下降,在偏離中心位置的觀看位置,觀眾的立體視覺感 受將受影響。
減輕渲染合成的圖像幀內部出現空洞的途徑目前有三個, 一是用空洞周圍的 紋理來填充空洞,二是對深度圖進行濾波平滑,三是編碼傳輸多個通道的深度 圖,利用多個通道的圖像幀和深度圖來渲染同一虛擬視點的待合成圖像,四是 採用較為複雜的多層次深度圖(LDI, Layered Depth Image)技術,參見S.U. Yoon and Y.S. Ho, Multiple color and depth video coding using a hierarchical representation,正EE Trans. CSVT, vol. 17, no. 11, 2007 。
第三類方法基於對象編碼。在MPEG-4當中, 一個視頻對象可以用形狀 (shape)、運動(motion)、紋理(texture)三種特徵來表示,可以用輔助元素(AC, Auxiliary Component)來存放視差圖。採用MPEG-4 MAC對雙通道視頻進行編 碼時,通常,用標準MPEG-4編碼左路通道視頻,用MAC (Multiple Auxiliary Component)來存放,見差信息。參見S. Cho, K. Yun, C. Ahn and S. Lee, Disparity-Compensated stereoscopic video coding using the MAC in MPEG-4, RTRI Journal, vol. 27, no. 3, pp. 326-329, 2005。採用基於對象的編碼技術對自然場景編 碼時,需要分割提取場景中的多個物體,其算法複雜。
第四類方法基於三維網格(3D mesh)技術。採用三角形網格(Triangle mesh) 來分段線性近似物體表面,這種近似帶來的誤差同三角形網格數目密切相關,網格數越多,誤差越小,但巨大數量的網格也為存儲和傳輸帶來問題。參見J丄.
Peng, C.S. Kim and C.C.J. Kuo, Technologies for 3D mesh compression: A survey, Journal of Visual Communication and Image Representation, vol. 16, no. 6, pp.688-733,2005。
發明內容
本發明的目的是克服現有技術的不足,提供一種基於深度圖像渲染的多通道 視頻流編碼器和解碼器。
多通道視頻流編碼器包括
圖像校正單元,用於對輸入的多個通道視頻流圖像幀進行校正,以使對應
點位於水平掃描線上;
通道選擇單元,用於從輸入的多個視頻通道中選擇中心通道和輔助通道; 深度產生單元,用於生成中心通道和輔助通道視頻流內每個圖像幀的深度
輔助通道預測單元,用於根據通道重建單元產生的重建幀,和深度產生單 元產生的深度圖,產生輔助通道圖像幀的預測中心通道編碼單元,用於對中心通道視頻流,和深度圖組成的深度流,按 照視頻編碼標準方法進行編碼,以生成中心通道碼流,視頻編碼標準方法包括 視頻編碼國際標準MPEG-X、 H.26X和視頻編碼國家標準AVS;
輔助通道編碼單元,用於對輔助通道圖像幀的遮擋圖按照視頻編碼標準方 法進行編碼,以生成輔助通道碼流;
通道重建單元,用於對中心通道碼流和輔助通道碼流,按照視頻編碼標準 方法進行解碼,以生成中心通道重建圖像幀、重建深度圖和輔助通道重建遮擋 圖,根據重建遮擋圖和輔助通道預測單元產生的輔助通道圖像幀的預測圖,產 生輔助通道重建幀;
復用器,用於將攝像機參數、中心通道碼流和輔助通道碼流,按照時分復 用方式,生成多通道視頻壓縮碼流。
所述的深度產生單元根據中心通道圖像幀,和與其鄰近的任意一個輔助通 道的同一時刻的圖像幀,產生中心通道該時刻圖像幀的深度圖;根據通道重建 單元產生的當前通道的重建幀,和當前通道的鄰近通道的同一時刻的重建幀, 產生當前通道該時刻的重建幀的深度圖。
所述的輔助通道預測單元根據通道重建單元產生的重建幀,和深度產生單 元產生的該重建幀的深度圖,按照基於深度圖像渲染的方法,合成出該重建幀所在通道的鄰近通道的同 一時刻的圖像幀的預測圖。
所述的輔助通道編碼單元,對輔助通道圖像幀和輔助通道預測單元產生的 該圖像幀的預測圖作差,產生輔助通道遮擋圖,遮擋圖反映了由於遮擋而沒有 在預測圖上出現的信息。
多通道視頻流解碼器包括
解復用器,用於把多通道視頻壓縮碼流分解為攝像機參數、中心通道碼流 和輔助通道碼流;
中心通道解碼單元,用於對中心通道碼流,按照視頻編碼標準方法進行解 碼,以生成中心通道重建圖像幀和重建深度圖,視頻編碼標準方法包括視頻編 碼國際標準MPEG-X、 H.26X和視頻編碼國家標準AVS;
深度產生單元,用於產生輔助通道重建圖像幀的深度通道預測單元,用於產生輔助通道圖像幀的預測圖,和虛擬通道圖像幀的
、輔助通道解碼單元,用於對輔助通道碼流,按照視頻編碼標準方法進行解 碼,以生成輔助通道圖像幀的重建遮擋圖,對該重建遮擋圖和通道預測單元產 生的預測圖相加,以生成輔助通道的重建圖像幀;
圖像反校正單元,用於對解碼生成的中心通道重建圖像幀、輔助通道重建 圖像幀和虛擬通道預測圖像幀進行反校正,以使各通道圖像幀恢復到拍攝的位 置。
所述的深度產生單元,根據輔助通道解碼單元產生的當前輔助通道的重建 圖像幀,和當前輔助通道的鄰近通道的同一時刻的重建圖像幀,產生當前輔助 通道的該重建圖像幀的深度圖。
所述的通道預測單元,根據中心通道解碼單元產生的中心通道的重建圖像 幀和該圖像幀的深度圖,按照基於深度圖像渲染的方法,產生同中心通道鄰近 的輔助通道的同一時刻的圖像幀的預測圖;根據輔助通道解碼單元產生的當前 輔助通道的重建圖像幀,和深度產生單元產生的該圖像幀的深度圖,按照基於 深度圖像渲染的方法,產生同當前輔助通道鄰近的未重建的輔助通道的同一時 刻的圖像幀的預測圖。
所述的通道預測單元,在兩個鄰近通道的中心位置,根據該兩個通道的同 一時刻的重建圖像幀和深度圖,產生虛擬通道圖像幀的預測圖,該虛擬通道的 虛擬攝像機的光心處於其兩個鄰近通道的攝像機的光心的連線的中點,該虛擬 攝像機的光軸和中心通道的攝像機的光軸平行。所述的圖像反校正單元,對於輸入解碼器的N個通道的壓縮視頻流,輸出 2N-1個通道的非壓縮視頻流,其中包括解碼恢復出的N個通道的重建非壓縮視 頻流,和採用深度圖像渲染技術合成出的N-1個虛擬通道的非壓縮視頻流。
所述的圖像反校正單元,輸出的2N-1個通道分為重建通道和虛擬通道,對 N個重建通道,按其真實攝像機的相對位置順序排列,對虛擬通道,插入到與 該虛擬通道鄰近的兩個重建通道的中心位置;輸出的2N-1個通道,共可以產生 2N-2個立體視點觀看位置,每個立體視點觀看位置由一個重建通道和一個虛擬 通道組成。
在本發明的多通道視頻流編碼器中,對中心通道的視頻流和其深度圖組成 的深度流按照視頻編碼標準方法進行編碼,挖掘了中心通道內部圖像幀和圖像 幀在時間上的相關性、深度圖和深度圖在時間上的相關性;對輔助通道的圖像 幀,採用DIBR的方法合成出預測圖,對輔助通道圖像幀的遮擋圖按照視頻編碼 標準方法進行編碼,挖掘了鄰近通道同一時刻的圖像幀在空間上的相關性。
在本發明的多通道視頻流解碼器中,採用DIBR方法,在兩個鄰近通道的中 心位置合成出一個虛擬通道的預測圖。該虛擬通道的預測圖根據兩個鄰近通道 的圖像幀和深度圖合成,預測圖質量大為提高;解碼器輸入N個通道的壓縮碼 流,合成N-1個虛擬通道預測流,共可以輸出2N-1個通道的非壓縮碼流,由於 每兩個通道可以形成一個立體視點,因此增加了顯示端立體視點的數目;當顯 示端支持多個立體視點時,每個立體視點包含一個圖像質量較高的中心通道或 者輔助通道,和一個圖像幀質量稍低的虛擬通道,觀眾將產生場景立體感不變 的視覺效果。
在本發明的多通道視頻流解碼器中,當顯示端僅支持平面顯示時,可以將中 心通道或者任一輔助通道視頻流送至顯示單元顯示;當顯示端支持雙通道立體 顯示時,可以將任意兩個鄰近通道送至顯示單元顯示;當顯示端支持多個立體 視點時,可以至多將2N-1個通道送至顯示單元顯示,N為輸入解碼器的通道個 數。
採用本發明的編碼器和解碼器的三維電視系統,在編碼端,利用視頻編碼標 準方法來挖掘視點內部的相關性,利用深度渲染(DIBR)方法來挖掘視點之間 的相關性;在解碼端,利用DIBR方法和HVS的生理性質來獲得更多的立體視 點。同MVC相比,該系統可以獲得更低的碼率,同ATTEST相比,觀眾可以獲 得更好的立體視覺體驗。
圖1為按照本發明的多通道視頻流編碼器示意圖; 圖2為按照本發明的多通道視頻流解碼器示意圖。
具體實施例方式
多通道視頻流編碼器包括
圖像校正單元,用於對輸入的多個通道視頻流圖像幀進行校正,以使對應 點位於水平掃描線上;
通道選擇單元,用於從輸入的多個視頻通道中選擇中心通道和輔助通道; 深度產生單元,用於生成中心通道和輔助通道視頻流內每個圖像幀的深度
輔助通道預測單元,用於根據通道重建單元產生的重建幀,和深度產生單 元產生的深度圖,產生輔助通道圖像幀的預測中心通道編碼單元,用於對中心通道視頻流,和深度圖組成的深度流,按 照視頻編碼標準方法進行編碼,以生成中心通道碼流,視頻編碼標準方法包括 視頻編碼國際標準MPEG-X、 H.26X和視頻編碼國家標準AVS;
輔助通道編碼單元,用於對輔助通道圖像幀的遮擋圖按照視頻編碼標準方 法進行編碼,以生成輔助通道碼流;
通道重建單元,用於對中心通道碼流和輔助通道碼流,按照視頻編碼標準 方法進行解碼,以生成中心通道重建圖像幀、重建深度圖和輔助通道重建遮擋 圖,根據重建遮擋圖和輔助通道預測單元產生的輔助通道圖像幀的預測圖,產 生輔助通道重建幀;
復用器,用於將攝像機參數、中心通道碼流和輔助通道碼流,按照時分復 用方式,生成多通道視頻壓縮碼流。
所述的深度產生單元根據中心通道圖像幀,和與其鄰近的任意一個輔助通 道的同一時刻的圖像幀,產生中心通道該時刻圖像幀的深度圖;根據通道重建 單元產生的當前通道的重建幀,和當前通道的鄰近通道的同一時刻的重建幀, 產生當前通道該時刻的重建幀的深度圖。
所述的輔助通道預測單元根據通道重建單元產生的重建幀,和深度產生單 元產生的該重建幀的深度圖,按照基於深度圖像渲染的方法,合成出該重建幀 所在通道的鄰近通道的同 一 時刻的圖像幀的預測圖。
所述的輔助通道編碼單元,對輔助通道圖像幀和輔助通道預測單元產生的 該圖像幀的預測圖作差,產生輔助通道遮擋圖,遮擋圖反映了由於遮擋而沒有 在預測圖上出現的信息。多通道視頻流解碼器包括
解復用器,用於把多通道視頻壓縮碼流分解為攝像機參數、中心通道碼流 和輔助通道碼流;
中心通道解碼單元,用於對中心通道碼流,按照視頻編碼標準方法進行解 碼,以生成中心通道重建圖像幀和重建深度圖,視頻編碼標準方法包括視頻編
碼國際標準MPEG-X、 H.26X和視頻編碼國家標準AVS;
深度產生單元,用於產生輔助通道重建圖像幀的深度通道預測單元,用於產生輔助通道圖像幀的預測圖,和虛擬通道圖像幀的
、、輔助通道解碼單元,用於對輔助通道碼流,按照視頻編碼標準方法進行解 碼,以生成輔助通道圖像幀的重建遮擋圖,對該重建遮擋圖和通道預測單元產 生的預測圖相加,以生成輔助通道的重建圖像幀;
圖像反校正單元,用於對解碼生成的中心通道重建圖像幀、輔助通道重建 圖像幀和虛擬通道預測圖像幀進行反校正,以使各通道圖像幀恢復到拍攝的位 置。
所述的深度產生單元,根據輔助通道解碼單元產生的當前輔助通道的重建 圖像幀,和當前輔助通道的鄰近通道的同一時刻的重建圖像幀,產生當前輔助 通道的該重建圖像幀的深度圖。
所述的通道預測單元,根據中心通道解碼單元產生的中心通道的重建圖像 幀和該圖像幀的深度圖,按照基於深度圖像渲染的方法,產生同中心通道鄰近 的輔助通道的同一時刻的圖像幀的預測圖;根據輔助通道解碼單元產生的當前 輔助通道的重建圖像幀,和深度產生單元產生的該圖像幀的深度圖,按照基於 深度圖像渲染的方法,產生同當前輔助通道鄰近的未重建的輔助通道的同一時 刻的圖像幀的預測圖。
所述的通道預測單元,在兩個鄰近通道的中心位置,根據該兩個通道的同 一時刻的重建圖像幀和深度圖,產生虛擬通道圖像幀的預測圖,該虛擬通道的 虛擬攝像機的光心處於其兩個鄰近通道的攝像機的光心的連線的中點,該虛擬 攝像機的光軸和中心通道的攝像機的光軸平行。
所述的圖像反校正單元,對於輸入解碼器的N個通道的壓縮視頻流,輸出 2N-1個通道的非壓縮視頻流,其中包括解碼恢復出的N個通道的重建非壓縮視 頻流,和採用深度圖像渲染技術合成出的N-1個虛擬通道的非壓縮視頻流。
所述的圖像反校正單元,輸出的2N-1個通道分為重建通道和虛擬通道,對N個重建通道,按其真實攝像機的相對位置順序排列,對虛擬通道,插入到與 該虛擬通道鄰近的兩個重建通道的中心位置;輸出的2N-1個通道,共可以產生 2N-2個立體視點觀看位置,每個立體視點觀看位置由一個重建通道和一個虛擬 通道組成。 實施例
圖1為按照本發明的多通道視頻流編碼器的示意圖。多通道視頻流編碼器對 輸入的多通道視頻流和攝像機參數進行壓縮編碼,輸出編碼後的壓縮碼流。編 碼器包括圖像校正單元ll,通道選擇單元12,深度產生單元13,輔助通道預測 單元14,中心通道編碼單元15,輔助通道編碼單元16,通道重建單元17和復 用器18。
參見圖1,編碼器編碼多通道視頻流包括如下11個步驟
步驟l:圖像校正單元11接受輸入的多通道視頻流和攝像機參數,按照標準
的校正算法,對圖像幀進行校正。校正的結果是在同一時刻,對於不同通道的
圖像幀,其對應點位於水平線上。
步驟2:通道選擇單元12對輸入的多個通道進行分類,選出l個中心通道,
把餘下的通道作為輔助通道。選擇中心通道的算法如下對拍攝獲得的N個通
道按順序記為l號,2號,...,N號,N為正整數,N^2;選取c號通道作為中 心通道c = LN/2」+ l,符號L」表示下取整。把餘下的N-1個通道作為輔助通道。
參見圖1,記中心通道視頻流圖像幀為Ic ,輔助通道視頻流圖像幀為Ia , 中心通道圖像幀的深度圖為Zc ,輔助通道圖像幀的深度圖為Za ,下標a為正 整數,滿足lSa^N,且a弁。
步驟3:深度產生單元13對同一時刻的Ie和Ia進行立體匹配,以生成中心通 道該時刻的深度圖Zc , a可以取a^c-l或者a-c+l。
步驟4:中心通道編碼單元15按照視頻編碼標準方法對中心通道視頻流和深 度圖組成的深度流進行編碼,生成中心通道碼流。
步驟5:通道重建單元17對中心通道碼流進行解碼,生成中心通道重建視 頻流圖像幀和重建深度圖,分別記為I'c和Z'c 。
步驟6:輔助通道預測單元14,根據I,e和Z'e ,採用基於深度圖像渲染
(DIBR)的方法,合成出同中心通道鄰近的輔助通道的預測圖,記為Pa , a可 以取a=c-l或者a=c+l o
為描述方便起見,先取a:c-l,進行步驟7到步驟10,再取a-c+l,進行步 驟7到10。把滿足a〈c的a號輔助通道稱為左側輔助通道,把滿足a〉c的a號輔助通道稱為右側輔助通道。以下描述的編碼順序是先對左側輔助通道進行 編碼,再對右側輔助通道進行編碼。但以下描述不應理解為是對本發明的限定, 實際上也可以先對右側輔助通道進行編碼,再對左側輔助通道進行編碼,或者 對左側、右側輔助通道交替進行編碼。
步驟7:輔助通道編碼單元16首先對a號輔通道同一時刻的L和Pa作差, 產生a號通道的遮擋圖,記為Ra ,然後對Ra按照視頻編碼標準方法進行編碼,
產生a號通道碼流。若a等於l,回到步驟6;若a等於N,跳到步驟11;若1< a<N,進行下一步驟。
步驟8:通道重建單元17對a號通道碼流進行解碼,產生a號通道的重建遮 擋圖,記為R、 ,R'a和Pj乍和,產生a號通道的重建視頻流的圖像幀,記為I、。
步驟9:深度產生單元13,根據輸入的a號通道的重建圖像幀I,a ,和與其 鄰近通道的重建圖像幀,生成a號通道重建圖像幀的深度圖,記為Z,a 。若3 c,則a-l號通道己先於a號通道被重建,單元13對1、和I'^ 進行立體匹配,以生成Z,a 。
步驟10:輔助通道預測單元14,根據I,a和Z,a ,採用DIBR的方法,合成
出同a號通道鄰近的未編碼的輔助通道的預測圖,記該輔助通道為j號。若a〈c, j等於a一l,令a等於a-l;若a〉c, j等於a+l,令a等於a+l。回到步驟7。
步驟ll:復用器18對攝像機參數、中心通道碼流和輔助通道碼流,按照時 分服用方式,生成N個通道的壓縮碼流。
通過以上ll個步驟,編碼器最終生成輸入的N個通道的壓縮碼流。在上述 的步驟6和步驟10中,輔助通道預測單元14採用重建圖像幀I'e(或者I、),和
重建深度圖Z,e (Z,a),而不是Ic (或者Ia)和Ze (或者Zj,來合成a號通道的 預測圖Pa ,是為了和解碼器保持一致性。
在上述的步驟7中,輔助通道編碼單元16對輔助通道的遮擋圖進行編碼並 傳輸到解碼端,可以補償由於採用DIBR方法合成預測圖而產生的空洞,在解碼 端重建出高質量的輔助通道圖像幀。
圖2為按照本發明的多通道視頻流解碼器的示意圖。多通道視頻流解碼器對 輸入的壓縮碼流和攝像機參數進行解碼,輸出解碼後的非壓縮視頻流和經虛擬 通道合成的非壓縮視頻流。解碼器包括解復用器21,中心通道解碼單元22,深 度產生單元23,通道預測單元24,輔助通道解碼單元25,圖像反校正單元26。
參見圖2,解碼器解碼壓縮碼流包括如下8個步驟
14步驟l:解復用器21把輸入的壓縮碼流分解成攝像機參數、中心通道碼流和 輔助通道碼流。
步驟2:中心通道解碼單元22對輸入的中心通道碼流,按照視頻編碼標準方 法,解碼生成中心通道重建視頻流的圖像幀I'c和重建深度圖Z'c 。
步驟3:通道預測單元24根據輸入的I,c和Z,e ,採用DIBR方法,合成出 同中心通道鄰近的a號輔助通道的預測圖Pa , a可以取a=c-l或者a=c+l。
為描述方便起見,先取a:c-l,進行步驟4到步驟7,再取^c+l,進行步驟 4到步驟7。把a〈c的輔助通道稱為左側輔助通道,把a〉c的輔助通道稱為右 側輔助通道。以下描述的解碼順序是先對左側輔助通道進行解碼,再對右側輔 助通道進行解碼。但以下描述不應理解為是對本發明的限定,實際上也可以先 對右側輔助通道進行解碼,再對左側輔助通道進行解碼,或者對左側、右側輔 助通道交替進行解碼。
步驟4:輔助通道解碼單元25對輔助通道碼流,按照視頻編碼標準方法進行 解碼,生成a號輔助通道的重建遮擋圖R、,對a號輔助通道的預測圖Pa和重 建遮擋圖R'a作和,生成a號輔助通道的重建圖像幀I,a 。
步驟5:深度產生單元23,根據輸入的a號通道重建圖像幀I,a ,和與其鄰 近的通道的同一時刻的重建圖像幀,生成a號通道該時刻重建圖像幀的深度圖 Z'a 。若a < c,則a+1號通道已先於a號通道被重建,深度產生單元23對I,a 和IV,進行立體匹配,以生成Z,a;若a〉c,則a-l號通道已先於a號通道被 重建,深度產生單元23對I,a和I^進行立體匹配,以生成Z、。
步驟6:通道預測單元24根據a號通道的重建圖像幀I、和深度圖Z、,和 與其鄰近的k號輔助通道同一時刻的重建圖像幀I'k和深度圖Z'k ,採用DIBR 的方法,合成出位於a號通道和k號通道中心位置的虛擬通道預測圖,記該虛 擬通道預測圖為Va ,該虛擬通道位置對應一個虛擬攝像機,其光心位於a號通 道攝像機光心和k號通道攝像機光心的連線的中點位置,其光軸平行於中心通 道。若a〈c, k等於a+l;若a〉c, k等於a-l。合成出Va後,若a等於l,回 到步驟3;若a等於N,跳到步驟8;若Ka〈N,進行下一步驟。
步驟7:通道預測單元24,根據I,a和Z'a ,採用DIBR的方法,合成出同a 號通道鄰近的q號輔助通道的預測圖。若a〈c, q等於a-l,令a等於a-l;若a >c, q等於a+l,令a等於a+l。回到步驟4。
步驟8:圖像反校正單元26,根據輸入的攝像機參數,對中心通道重建圖像 幀、輔助通道重建圖像幀、虛擬通道預測圖,進行反校正。虛擬通道需要的虛擬 攝像機參數,根據與其相鄰的兩個通道的攝像機參數,進行線性加權插值得到。
權利要求
1.一種多通道視頻流編碼器,其特徵在於,包括圖像校正單元,用於對輸入的多個通道視頻流圖像幀進行校正,以使對應點位於水平掃描線上;通道選擇單元,用於從輸入的多個視頻通道中選擇中心通道和輔助通道;深度產生單元,用於生成中心通道和輔助通道視頻流內每個圖像幀的深度圖;輔助通道預測單元,用於根據通道重建單元產生的重建幀,和深度產生單元產生的深度圖,產生輔助通道圖像幀的預測圖;中心通道編碼單元,用於對中心通道視頻流,和深度圖組成的深度流,按照視頻編碼標準方法進行編碼,以生成中心通道碼流,視頻編碼標準方法包括視頻編碼國際標準MPEG-X、H.26X和視頻編碼國家標準AVS;輔助通道編碼單元,用於對輔助通道圖像幀的遮擋圖按照視頻編碼標準方法進行編碼,以生成輔助通道碼流;通道重建單元,用於對中心通道碼流和輔助通道碼流,按照視頻編碼標準方法進行解碼,以生成中心通道重建圖像幀、重建深度圖和輔助通道重建遮擋圖,根據重建遮擋圖和輔助通道預測單元產生的輔助通道圖像幀的預測圖,產生輔助通道重建幀;復用器,用於將攝像機參數、中心通道碼流和輔助通道碼流,按照時分復用方式,生成多通道視頻壓縮碼流。
2. 根據權利要求1所述的一種多通道視頻流編碼器,其特徵在於所述的深度 產生單元根據中心通道圖像幀,和與其鄰近的任意一個輔助通道的同一時刻的 圖像幀,產生中心通道該時刻圖像幀的深度圖;根據通道重建單元產生的當前 通道的重建幀,和當前通道的鄰近通道的同一時刻的重建幀,產生當前通道該 時刻的重建幀的深度圖。
3. 根據權利要求1所述的一種多通道視頻流編碼器,其特徵在於所述的輔助 通道預測單元根據通道重建單元產生的重建幀,和深度產生單元產生的該重建 幀的深度圖,按照基於深度圖像渲染的方法,合成出該重建幀所在通道的鄰近 通道的同 一 時刻的圖像幀的預測圖。
4. 根據權利要求1所述的一種多通道視頻流編碼器,其特徵在於所述的輔助 通道編碼單元,對輔助通道圖像幀和輔助通道預測單元產生的該圖像幀的預測圖作差,產生輔助通道遮擋圖,遮擋圖反映了由於遮擋而沒有在預測圖上出現 的信息。
5. —種多通道視頻流解碼器,其特徵在於,包括解復用器,用於把多通道視頻壓縮碼流分解為攝像機參數、中心通道碼流 和輔助通道碼流;中心通道解碼單元,用於對中心通道碼流,按照視頻編碼標準方法進行解 碼,以生成中心通道重建圖像幀和重建深度圖,視頻編碼標準方法包括視頻編 碼國際標準MPEG-X、 H.26X和視頻編碼國家標準AVS;深度產生單元,用於產生輔助通道重建圖像幀的深度圖;通道預測單元,用於產生輔助通道圖像幀的預測圖,和虛擬通道圖像幀的預測圖;輔助通道解碼單元,用於對輔助通道碼流,按照視頻編碼標準方法進行解 碼,以生成輔助通道圖像幀的重建遮擋圖,對該重建遮擋圖和通道預測單元產 生的預測圖相加,以生成輔助通道的重建圖像幀;圖像反校正單元,用於對解碼生成的中心通道重建圖像幀、輔助通道重建 圖像幀和虛擬通道預測圖像幀進行反校正,以使各通道圖像幀恢復到拍攝的位 置。
6. 根據權利要求5所述的一種多通道視頻流解碼器,其特徵在於所述的深度 產生單元,根據輔助通道解碼單元產生的當前輔助通道的重建圖像幀,和當前 輔助通道的鄰近通道的同一時刻的重建圖像幀,產生當前輔助通道的該重建圖 像幀的深度圖。
7. 根據權利要求5所述的一種多通道視頻流解碼器,其特徵在於所述的通道 預測單元,根據中心通道解碼單元產生的中心通道的重建圖像幀和該圖像幀的 深度圖,按照基於深度圖像渲染的方法,產生同中心通道鄰近的輔助通道的同 一時刻的圖像幀的預測圖;根據輔助通道解碼單元產生的當前輔助通道的重建 圖像幀,和深度產生單元產生的該圖像幀的深度圖,按照基於深度圖像渲染的 方法,產生同當前輔助通道鄰近的未重建的輔助通道的同一時刻的圖像幀的預 測圖。
8. 根據權利要求5所述的一種多通道視頻流解碼器,其特徵在於所述的通道 預測單元,在兩個鄰近通道的中心位置,根據該兩個通道的同一時刻的重建圖 像幀和深度圖,產生虛擬通道圖像幀的預測圖,該虛擬通道的虛擬攝像機的光 心處於其兩個鄰近通道的攝像機的光心的連線的中點,該虛擬攝像機的光軸和中心通道的攝像機的光軸平行。
9. 根據權利要求5所述的一種多通道視頻流解碼器,其特徵在於所述的圖像 反校正單元,對於輸入解碼器的N個通道的壓縮視頻流,輸出2N-1個通道的非 壓縮視頻流,其中包括解碼恢復出的N個通道的重建非壓縮視頻流,和採用深 度圖像渲染技術合成出的N-1個虛擬通道的非壓縮視頻流。
10. 根據權利要求5所述的一種多通道視頻流解碼器,其特徵在於所述的圖 像反校正單元,輸出的2N-1個通道分為重建通道和虛擬通道,對N個重建通道, 按其真實攝像機的相對位置順序排列,對虛擬通道,插入到與該虛擬通道鄰近 的兩個重建通道的中心位置;輸出的2N-1個通道,共可以產生2N-2個立體視 點觀看位置,每個立體視點觀看位置由一個重建通道和一個虛擬通道組成。
全文摘要
本發明公開了一種基於深度圖像渲染的多通道視頻流編碼器和解碼器。本發明在對多通道視頻流進行編碼時,對中心通道視頻流圖像幀和深度圖按照視頻編碼標準方法進行編碼;根據通道重建後的圖像幀和深度圖,採用深度圖像渲染技術得到鄰近的待編碼的輔助通道的預測圖,對遮擋信息進行變換、量化、熵編碼。本發明在對多通道視頻壓縮碼流進行解碼時,利用人類視覺系統的生理特點,採用深度圖像渲染技術,根據兩個相鄰通道的圖像幀和其深度圖,得到位於該兩個相鄰通道中心位置的一個虛擬通道。在採用本發明解碼器輸出視頻流的顯示端,每個立體視點由一個高質量通道和一個虛擬通道構成,觀眾可以獲得良好的立體視覺體驗。
文檔編號H04N13/00GK101309412SQ20081006286
公開日2008年11月19日 申請日期2008年7月7日 優先權日2008年7月7日
發明者何賽軍, 馮雅美, 明 張, 朱夢堯, 李東曉, 冰 石, 謝賢海, 凱 駱 申請人:浙江大學