編碼多視角視頻的方法和裝置的製作方法

2023-05-11 08:10:51 3

專利名稱：編碼多視角視頻的方法和裝置的製作方法
技術領域：
與本發明一致的裝置和方法涉及編碼多視角視頻序列，並且特別地，涉及利用相關於所述多視角視頻的最少數量的信息來編碼由多視角攝像機拍攝的多視角視頻。
背景技術：
真實性是實現高質量信息和電信服務的重要因素。該真實性可以利用基於三維(3D)圖像的視頻通信來獲得。3D成像系統在教育、娛樂、醫學外科、視頻會議等方面具有許多潛在的應用。為了給許多觀眾提供更加逼真和準確的遠程景象信息，可以在稍微不同的視點安放三臺或更多的攝像機以產生多視角序列。
反映當前對3D圖像的興趣，許多研究組已經開發了3D-圖像處理和顯示系統。在歐洲，3DTV的研究是通過幾個項目啟動的，如DISTIMA項目，其目標是開發一種用於獲取、編碼、傳輸以及顯示數字立體圖像序列的系統。這些項目導致了另一項目，PANORAMA，其目標是增強3D遠程呈現(telepresence)通信的視覺信息。那些項目還導致了另一項目，ATTEST，其中研究了用於3D-內容獲取、3D-壓縮和傳輸、以及3D-顯示系統的多種技術。在ATTEST項目中，應用了移動圖像專家組2(MPEG-2)和數字視頻廣播(DVB)標準以利用時間可縮放性(scalability)來傳輸3D內容。在時間縮放(temporal scaling)中，對傳輸2D內容使用了基層並且對傳輸3D內容使用了高級層。
MPEG-2標準在1996年被修改以用於定義多視角配置(MVP)。所述MVP定義了對多攝像機序列的時間可縮放性模式的使用以及在MPEG-2語法中的獲取攝像機參數。
代表多視角視頻信號的基層流能夠以減少的幀頻被編碼，而增強層流，其能夠用於在其間插入附加幀，當兩個流都可用時，所述增強層流能夠被定義為允許以完全的幀頻進行再現。用於編碼所述增強層的一種非常有效的方法是基於基層幀或者最近重新構建的增強層幀來在增強層幀中的每個宏模塊上確定執行運動-補償評估的最佳方法。
利用時間可縮放性語法對這種多視角視頻信號進行立體的和多視角通道編碼的處理是直接的。為此，來自特定攝像機視角的幀(通常左眼幀)被定義為基層，而來自其它攝像機視角的幀被定義為增強層。所述基層表示同時的單視場(monoscopic)序列。對於所述增強層，雖然視差-補償評估可能在閉塞區域內失效，但仍然可以利用運動-補償評估在相同通道內保持重新構建的圖像的質量。由於MPEG-2MVP主要是為立體序列定義的，其不支持多視角序列並且固有地難以擴展到多視角序列。
圖1是MPEG-2MVP相關技術的編碼器和解碼器的框圖。由MPEG-2提供的可縮放性用於利用圖像處理裝置同時解碼具有不同解析度或格式的圖像。在由MPEG-2支持的縮放中，時間縮放被用於通過增加幀頻來改進視覺質量。所述MVP考慮時間可縮放性應用於立體序列。
圖1所示例的編碼器和解碼器是具有時間可縮放性的立體視頻編碼器和解碼器。將立體視頻中的左圖像輸入到基礎視角編碼器，而將右圖像輸入到時間輔助視角編碼器。
時間輔助視角編碼器提供時間可縮放性，並且是在所述基層的圖像之間的交織圖像的層間編碼器。
當左圖像被獨立地編碼和解碼時，可以獲得二維(2D)的視頻。當左圖像和右圖像被同時編碼和解碼，可以獲得立體視頻。為了傳輸或存儲視頻，需要用系統多路復用器和系統多路分解器來聯合或分離所述兩個圖像的序列。
圖2是使用MPEG-2MVP的相關技術的立體視頻編碼器和解碼器的框圖。
基層圖像通過運動補償和離散餘弦變換(DCT)被編碼。所述被編碼的圖像通過逆處理被解碼。時間輔助視角編碼器起到時間層間編碼器的作用，其基於所述基層的被解碼圖像執行預測。
換句話說，視差補償評估可以被執行兩次或者視差評估和運動補償評估各被執行一次。如基層的編碼器和解碼器，所述時間輔助視角編碼器包括視差和運動補償DCT編碼器和解碼器。
進一步地，在運動評估/補償編碼處理需要運動評估器和補償器時，視差補償編碼處理需要視差評估器和補償器。除了基於塊的運動/視差評估和補償以外，所述編碼處理而包括對重新構建的圖像和原始圖像之間的差執行DCT、量化DCT係數以及變量長度編碼。另一方面，解碼處理包括變量長度解碼、逆量化以及逆DCT。
對於執行雙向運動評估，MPEG-2編碼是很有效的壓縮方法。由於所述MPEG-2編碼提供高效時間可縮放性，雙向(B)圖像可以用於編碼右圖像序列。從而，可以產生高壓縮的右序列。
圖3示例了基於視差的預測編碼，其中對雙向評估使用兩次視差評估。
使用非可縮放的MPEG-2編碼器編碼左圖像，並且基於解碼的左圖像使用MPEG-2時間輔助視角編碼器來編碼右圖像。
換句話說，利用兩個參考圖像，如，兩個左圖像，來預測右圖像並編碼為B畫面(picture)。這樣，兩個參考圖像之一是與右圖像同時顯示的等時線的(isochronal)左圖像，而另一個是接著所述等時線的左圖像的左圖像。
和所述運動評估/補償一樣，所述兩個預測具有三種預測模式向前模式、向後模式和內插模式。所述向前模式基於所述等時線的左圖像表示視差評估、以及所述向後模式基於緊接著所述等時線的左圖像的左圖像來表示視差評估。這樣，利用兩個左圖像的視差向量來預測右圖像。這種評估方法被稱為預測編碼，只考慮視差向量。因此，編碼器為右圖像的每個幀評估兩個視差向量，而解碼器利用所述兩個視差向量解碼來自所述左圖像的右圖像。
圖4圖解說明了利用用於雙向評估的視差向量和運動向量的預測編碼。在圖4所示的預測編碼中，使用了通過圖3的所述雙向評估所獲得的B畫面。然而，在所述雙向評估中視差評估和運動評估各被使用一次。即，使用了等時線的左圖像的視差評估和使用在前的右圖像的運動評估。
進一步地，所述雙向評估還包括三種評估模式，即，向前模式、向後模式以及內插模式，與圖3的基於視差的預測編碼相同。所述向前模式基於被解碼的右圖像表示運動評估，而所述向後模式基於被解碼的左圖像表示視差評估。
如上面描述，由於MPEG-2MVP不考慮多視角視頻編碼器，它不適合於編碼多視角視頻。因此，需要一個多視角視頻編碼器來為人們同時提供多視角視頻，所述多視角視頻具有立體感和真實性。

發明內容
本發明提供一種方法和裝置，用於有效地編碼真實的多視角視頻並同時為人們提供被編碼的多視角視頻。
本發明還提供了一種方法和裝置，利用預測結構來編碼多視角視頻，所述預測結構使用關於所述多視角視頻的最少數量的信息。
根據本發明的一個方面，提供了一種編碼多視角視頻的方法，該方法包括評估在參考幀和與所述參考幀的視點不同的視點的每個鄰近幀之間的視差向量；利用所述參考幀和所述視差向量產生補償幀，其中所述補償幀是鄰近幀的補償版本；確定所述鄰近幀和所述補償幀之間的相關性；以及利用所述相關性為編碼所述多視角視頻確定預測結構。
所述相關性指示所述鄰近幀和所述補償幀之間的相似性，而所述確定所述相關性包括計算失真度Di(Vi，cVi)，其與相應於所述鄰近幀和所述補償幀之間相關性的值成反比，其中Vi指示從參考視點開始的第i個視點處獲得的幀，cVi指示利用所述參考幀和所述參考幀與所述Vi幀之間的視差向量進行補償的幀，而i是等於或大於0的整數。
所述失真度Di(Vi，cVi)利用用於所述鄰近幀和所述補償幀的峰值信噪比(PSNR)函數、絕對差平均數(MAD)函數、絕對差總和(SAD)函數以及平均平方誤差(MSE)函數中的至少一個而被計算。
所述確定預測結構可以包括比較失真度Di(Vi，cVi)和一個預定閾值；當失真度Di(Vi，cVi)變得比所述預定閾值大時，確定整數i的值；以及確定其中B幀的數目與所述整數i的值成比例的預測結構，以作為編碼所述多視角視頻的預測結構。
所述預測結構用於在水平方向上在多個視點的幀之間執行視差評估，以及隨著時間的過去在垂直方向上在幀之間執行運動評估，並且可以水平地或者垂直地進行縮放。
確定所述預測結構包括確定包含(i-1)個B幀的預測結構，以作為編碼所述多視角視頻的預測結構。
所述預測結構可以在預定間隔根據所述相關性重新配置。
所述方法可以進一步包括利用所述預測結構編碼所述多視角視頻。
根據本發明的另一方面，提供了一種用於編碼多視角視頻的裝置，所述裝置包括預測器，用於估計在參考幀和與所述參考幀視點不同的視點的每個鄰近幀之間的視差向量；補償器，利用所述參考幀和所述視差向量產生補償幀，其中所述補償幀是鄰近幀的補償版本；相關性確定器，用於在所述鄰近幀和所述補償幀之間確定相關性；以及預測結構確定器，利用所確定的相關性為編碼所述多視角視頻確定預測結構。
根據本發明的另一方面，提供計算機可讀記錄介質，其上記錄有程序，用於執行編碼多視角視頻的方法。

通過參考圖詳細地描述示例實施例，將使得本發明的上述以及其它方面變得更加顯而易見，其中圖1是運動圖像專家組MPEG-2MVP相關技術的編碼器和解碼器的框圖；圖2是利用MPEG-2MVP的相關技術的立體視頻編碼器和解碼器的框圖；圖3說明了基於視差的預測編碼，其中對雙向評估使用兩次視差評估；圖4說明了為雙向評估使用視差向量和運動向量的預測編碼；圖5是根據本發明的示例實施例來編碼多視角視頻的裝置的框圖；圖6說明了根據本發明示例實施例的多視角視頻的單元編碼結構；圖7A到圖7F說明了根據本發明示例實施例的用在多視角視頻編碼中的B畫面和P1畫面的三種類型；圖8A和8B說明了根據本發明示例實施例的一種確定鄰近幀之間的相關性的結構；圖9A到9C說明了根據本發明示例實施例的初始幀的預測結構；圖10說明了根據本發明示例實施例的編碼多視角視頻的預測結構；圖11說明了根據本發明另一個示例實施例的編碼多視角視頻的預測結構；圖12說明了根據本發明另一個示例實施例的編碼多視角視頻的預測結構；圖13是說明了根據本發明示例實施例的編碼多視角視頻方法的流程圖；以及圖14是根據本發明示例實施例的編碼多視角視頻的裝置的框圖。
具體實施例方式
本發明將參考附圖進行更完全的描述，其中示出了本發明的示例實施例。然而，本發明可以體現為多種不同的形式並且不能解釋為限制於此處闡述的示例實施例；而是，提供這些示例實施例將使該公開徹底和完整，並且將為本領域的技術人員充分傳遞本發明的概念。
圖5是根據本發明示例實施例的用於編碼多視角視頻的裝置的框圖。
參考圖5，所述裝置包括多視角圖像緩衝器510、預測單元520、視差/運動補償單元530、殘留圖像編碼單元540以及熵(entropy)-編碼單元550。
所述裝置可以從多個攝像機系統或通過另一方法接收多視角視頻源。將所述接收到的多視角視頻存儲在所述多視角圖像緩衝器510中。所述多視角圖像緩衝器510提供多視角視頻給所述預測單元520和所述殘留圖像編碼單元540。
所述預測單元520包括視差評估單元522和運動評估單元524。所述預測單元520對所述多視角視頻執行運動評估和視差評估。預測單元520評估由圖6到12中箭頭所指示的方向上的視差向量和運動向量，並且將所述預測的視差向量和運動向量提供給所述視差/運動補償單元530。
如圖6到12中多視角視頻編碼結構所示，所述預測單元520可以通過有效地利用多視角視差向量和運動向量來為執行運動評估和視差評估設置方向，所述運動向量在所述多視角視頻源基於時間軸被擴展時產生。換句話說，MPEG-2編碼結構可以基於視角(view)軸被擴展以使用所述多視角視頻的空間的/時間的相關性。
所述視差/運動補償單元530利用由視差評估單元522和運動評估單元524預測的所述運動向量和視差向量來執行視差補償和運動補償。所述視差/運動補償單元530利用所述被預測的運動向量和視差向量來重構圖像，並且將所述重構的圖像提供給殘留圖像編碼單元540。
為了提供更好的視覺質量和立體感，所述殘留圖像編碼單元540對通過從多視角圖像緩衝器510提供的原始圖像上減去由視差/運動補償單元530補償並重構的圖像所得到的殘留圖像進行編碼，並且將所述編碼的殘留圖像提供給熵-編碼單元550。
所述熵-編碼單元550從所述預測單元520接收所述預測的視差向量和運動向量，以及從所述殘留圖像編碼單元540接收所述編碼的殘留圖像，並且為所述多視角視頻源產生位流。
圖6說明了根據本發明示例實施例的多視角視頻的單元編碼結構。圖6所示的核心-預測結構或單元-預測結構基於具有三個視角的假設。方框指示多視角視頻中的圖像幀。水平箭頭指示根據視角或攝影機位置的幀的序列，而垂直箭頭指示根據時間的幀的序列。I畫面指示「幀內畫面(intra picture)」，其等同於MPEG-2/4或H.264中的I幀。P和B畫面分別指示「預測畫面」和「雙向預測畫面」，類似於MPEG-2.4或H.264中的P和B幀。
所述P和B畫面通過所述多視角視頻編碼中的運動評估和視差評估進行預測。在圖6中，畫面-幀之間的箭頭指示預測方向。水平箭頭指示視差評估，而垂直箭頭指示運動評估。根據本發明示例實施例，存在三種類型的B畫面，下面將參考圖7進行描述。
圖7A到7F說明了根據本發明示例實施例的用於多視角視頻編碼中的三種類型的B畫面和P1畫面。
根據本發明示例實施例，存在三種類型的B畫面B，B1和B2畫面。在圖7中，所述B，B1和B2畫面表示利用兩個或多個水平或垂直鄰近幀所預測的畫面-幀。
B畫面是利用如圖7A所示的兩個水平鄰近幀或者利用如圖7B所示的兩個垂直鄰近幀進行預測的。利用如圖7C所示的水平鄰近幀和垂直鄰近幀進行預測的畫面是雙向預測幀。然而，所述幀在本公開中被定義為P1畫面。
B1畫面是利用如圖7D所示的兩個水平鄰近幀和一個垂直鄰近幀或者利用如圖7E所示的水平鄰近幀和兩個垂直鄰近幀進行預測的。B2畫面是利用如圖7F所示的四個水平或垂直鄰近幀進行預測的。
現在參考圖6來描述根據本發明示例實施例的指示多視角視頻的預測序列的單元編碼結構。參考圖6，基本預測序列是I-P-B(或P1)-B1-B2。
首先，幀內-預測(intra-predict)I幀601。P幀603通過引用I幀601進行預測，以及P幀610通過引用I幀601進行預測。
B幀602利用I幀601和P幀603通過水平地執行雙向預測來進行預測。B幀604和B幀607利用I幀601和P幀610通過垂直地執行雙向預測來進行預測。P1幀612通過水平地引用P幀610以及垂直地引用P幀603來執行預測。
然後，預測B1幀。特別地，B1幀606通過水平地引用B幀604以及垂直地引用P幀603和P1幀612進行預測。B1幀609通過水平地引用B幀607以及垂直地引用P1幀612進行預測。B1幀611通過水平地引用P幀610和P1幀612以及垂直地引用B幀602進行預測。
最後，預測B2幀。特別地，B2幀605通過水平地引用B幀604和B1幀606以及垂直地引用B幀602和B1幀611進行預測。此外，B2幀608通過水平地引用B幀607和B1幀609以及垂直地引用B幀602和B1幀611進行預測。
如上面參考圖6和圖7A到7F所述，根據本發明示例實施例，不僅參考B幀而且還參考B1和B2幀來執行雙向預測。由於B類幀的數量可以增加，因此用於編碼多視角圖像所需的信息數量可以減少。
圖8A和8B說明了根據本發明示例實施例的確定鄰近幀之間相關性的結構。圖8A中所示的V1到Vn指示了由多視角攝像機拍攝和輸出的幀。在圖8A和8B中，輸出V0幀的攝像機被指定為基礎攝像機。然而，其它攝像機也可以被指定為基礎攝像機。利用從一基礎攝像機和n個鄰近攝像機輸出的幀來執行空間預測，即，視差預測。
圖8B所示的圖像cV1到cVn指示補償的圖像幀。所述補償的圖像幀可以利用如圖8A中所示被評估的視差向量和由基礎攝像機輸出的V0幀來產生。
例如，利用基於塊的視差評估方法來預測V0幀和V2幀之間的視差向量。利用預測的視差向量和V0幀來對cV2幀進行補償。當V0幀和V2幀的圖像具有大的匹配部分時，所述補償的cV2幀和源V2幀相似。這樣，可以利用V0幀和V2幀之間的視差向量對多視角圖像進行完美地編碼。
然而，當V0幀和V3幀的圖像具有匹配部分時，在V0幀和V3幀之間的視差向量被預測，並且利用所述V0幀和所述被預測的視差向量對cV3幀進行預測。這樣，原始V3幀和cV3幀極大地不同。
如上面所述，鄰近幀之間的相似性影響預測結構。因此，應當確定鄰近幀之間的相似性。當原始鄰近幀和補償的鄰近幀相似時，可能在原始鄰近幀和利用視差向量補償的鄰近幀之間存在相關性。根據本發明示例實施例，鄰近幀之間的相似性可以根據原始幀和補償的鄰近幀之間的相關性進行確定。
更特別地，當假設了V0幀被指定為從基礎攝像機輸出的參考幀時，可以通過計算補償的cVi幀和原始Vi幀之間的相關性或計算失真度來確定包含在V0幀和Vi幀中的圖像是否相似，其中所述失真度與相應於所述相關性的值成反比。
所述失真度指示了原始圖像和補償的圖像之間的差，其被定義為Di(Vi，cVi)，其中，i是大於0的整數。所述Vi幀是由從基礎攝像機開始的第i個攝像機拍攝或輸出的，而所述cVi幀是在Vi幀被補償之後，利用由基礎攝像機拍攝的V0幀和所述V0幀與所述Vi幀之間的視差向量所獲得的補償幀。
根據本發明示例實施例，諸如峰值信噪比(PSNR)、絕對差平均數(MAD)、絕對差總和(SAD)或者平均平方誤差(MSE)之類的函數可以被用於計算失真度Di(Vi，cVi)。例如，當使用SAD時，可以通過相加由第i個攝像機輸出的Vi幀中的子塊(或宏塊)的實際象素值和所述補償的cVi幀中子塊(或宏塊)的象素值之間差的所有絕對值來獲得失真度。
圖9A到9C說明了根據本發明示例實施例的初始幀的預測結構。
參考圖9A到9C，當確定了初始預測結構或者利用I幀執行預測時，確定所述預測結構。例如，在所述預測結構中，I幀和P幀之間的B幀數量與t1時的I幀和P幀之間的相似性成比例。此外，本發明的示例實施例建議了根據由基礎攝像機輸出的參考幀和由鄰近攝像機輸出的鄰近幀之間的相關性，可以按預定間隔重新配置的圖像結構。
根據本發明，當失真度Di(Vi，cVi)開始變得大於預定閾值時，確定整數i的值。此外，確定其中B幀的數量與整數i值成比例的預測結構，以作為多視角視頻編碼的預測結構。所述閾值可以通過實驗的方式確定。或者，所述閾值可以根據用於計算失真度Di(Vi，cVi)的函數而改變。
根據本發明示例實施例，當預測從所述I幀開始時，如果失真度Di(Vi，cVi)小於預定的閾值，則可以利用包含(i-1)個B幀的預測結構編碼多視角視頻。
參考圖8A到9C，當V1幀和重構的cV1幀之間的失真度D1(V1，cV1)大於預定的閾值時，V1幀和重構的cV1幀之間的相關性是低的。因此，圖9A中所示的不包含B畫面的type-A預測結構可以用於預測。
所述type-A預測結構不使用B畫面而僅僅使用I和P畫面。當鄰近幀之間的相關性低時，可以使用所述type-A預測結構。換句話說，利用I或P畫面901進行P畫面902的預測，以及利用所述P畫面902進行P畫面903的預測。
當失真度D1(V1，cV1)小於預定的閾值，但是V0幀和V2幀的圖像具有很小的匹配部分時，所述失真度D2(V2，cV2)可以大於預定的閾值。這樣，圖9B所示的type-B預測結構包含I或P畫面911和P畫面913之間的一個B畫面，其可以用於預測。當使用圖9B所示的type-B預測結構時，可以利用相比於在使用如圖9A中所示的沒有B畫面的P圖像-A預測結構時更少的信息來對多視角視頻進行更加有效的壓縮-編碼。分別相比於當圖9A和9C的type-A預測結構和type-C預測結構被使用時的相關性，當鄰近幀之間的相關性為中間(intermediate)時可以使用所述type-B預測結構。
當所述失真度D2(V2，cV2)小於預定閾值但失真度D3(V3，cV3)大於預定閾值時，如果鄰近幀之間的相關性大於圖9A和9B的type-A和tye-B預測結構中的相關性，則可以使用type-C預測結構，其中所述鄰近幀是在I畫面和P畫面之間，或者是P畫面之間的鄰近幀。參考圖9C，所述type-C預測結構包括在I或P畫面921和P畫面924之間的作為雙向預測結果產生的兩個B畫面922和923，其中B畫面922和923引用I或P畫面921和P畫面924。如上面所述，當圖9C的包含兩個B畫面的type-C預測結構被用於預測時，相比於當圖9A的type-A預測結構或圖9B的type-B預測結構被使用時，使用更少的信息來對多視角視頻進行更加有效的壓縮-編碼。
在該公開中，作為例子描述了不包含B幀的type-A預測結構、規則地包含一個B幀的type-B預測結構以及包含兩個B幀的type-C預測結構。然而，圖9A到9C所示的所述type-A到type-C預測結構可以根據攝像機的數量(即，視點的數量)進行縮放(scaled)。換句話說，當原始幀和被補償、被重構的幀之間存在高相關性時，可以使用包含更多數量的B畫面的預測結構。因此，雖然沒有示出，但是被B畫面引用的圖像之間的B畫面的數量可以增加到三個或更多。此外，本發明還描述了假設在V1視點的I幀是參考幀的情況。然而，P幀可以是參考幀。
圖10示例了根據本發明示例實施例的用於編碼多視角視頻的預測結構。
參考圖10，確定了利用I幀，即，在時間t1，執行預測的預測結構。在圖10中，上面描述的所述失真度D1(V1，cV1)大於預定的閾值。因此，預測從圖9A中所示的type-A預測結構開始。根據在時間t1的type-A預測結構確定在時間t2和t3的預測結構。
在時間t4，多視角視頻的失真度Di被計算用來確定預測結構。參考圖10，由於在時間t4的失真度D1(V1，cV1)大於預定的閾值，所以使用相似於TYPE-A預測結構的type-A1預測結構來進行預測。所述type-A1預測結構包括P和P1幀。所述type-A1預測結構除了預測從type-A1預測結構中的P幀開始之外，相似於type-A預測結構。在時間t5和t6的預測結構根據在時間t4的type-A1預測結構來確定。
在時間t7，多視角視頻的Di被再次計算來確定預測結構。由於在時間t7的失真度D1(V1，cV1)也大於所述預定的閾值，所以相似於type-A預測結構的type-A1預測結構被用於預測。如圖10所示，可以利用type-A和type-A1預測結構來預測多視角視頻。
圖11說明了根據本發明另一示例實施例的用於編碼多視角視頻的預測結構。
參考圖11，上面描述的失真度D1(V1，cV1)小於預定的閾值但失真度D2(V2，cV2)大於預定的閾值。因此，預測從圖9B所示的type-B預測結構開始。根據在時間t1的type-B預測結構確定在時間t2和t3的預測結構。
在時間t4，多視角視頻的Di被計算以確定預測結構。參考圖11，由於在時間t4的失真度D1(V1，cV1)小於預定的閾值但在時間t4的失真度D2(V2，cV2)大於預定的閾值，所以相似於type-B預測結構的type-B1預測結構被用於預測。type-B1預測結構除了預測從type-B1預測結構中的P幀開始之外，相似於type-B預測結構。type-B1預測結構包括順序排列的P、B1、P1、B1和P1幀。根據在時間t4的type-B1預測結構確定在時間t5和t6的預測結構。
在時間t7，多視角視頻Di被再次計算以確定預測結構。如圖11所示，可以利用type-B和type-B1預測結構預測多視角視頻。
圖12說明了根據本發明另一示例實施例的用於編碼多視角視頻的預測結構。
參考圖12，確定了在時間t1的預測結構。在圖12中，由於失真度D1(V1，cV1)大於預定的閾值，因此預測從type-A預測結構開始。根據在時間t1的type-A預測結構確定在時間t2和t3的預測結構。
在時間t4，多視角視頻的Di被計算以確定預測結構。參考圖12，由於在時間t4的失真度D1(V1，cV1)小於預定的閾值但在時間t4的失真度D2(V2，cV2)大於預定的閾值，所以type-B1預測結構被用於預測。根據在時間t4的type-B1預測結構來確定在時間t5和t6的預測結構。
在時間t7，多視角視頻Di被再次計算以確定預測結構。如圖12所示，可以順序使用type-A、type-B1和type-A1預測結構預測多視角視頻。換句話說，當根據多視角視頻的特性改變預測結構時可以進行多視角視頻的預測。詳細地，如圖10到12所示，預測結構可以應用於圖像組的所有組(GOGOP)，並且可以在初始端重新配置，其中預測從所述初始端的I幀開始。即使當預測從P幀開始時，預測結構也可以重新配置為當預測從I幀開始時所使用的預測結構的修改後的版本。因此，根據本發明的用於多視角視頻編碼的預測結構可以按預定間隔根據幀之間的相關性進行重新配置。
圖13是說明根據本發明示例實施例的編碼多視角視頻方法的流程圖。
參考圖13，對在參考幀和與所述參考幀的視點不同的視點的每個鄰近幀之間的視差向量進行預測(操作S1310)。利用所述參考幀和所述預測的視差向量產生鄰近幀的補償版本(操作S1320)。
確定鄰近幀和補償幀之間的相關性(操作S1330)。所述鄰近幀和補償幀之間的相關性可以通過計算失真度Di(Vi，cVi)來確定，所述失真度Di(Vi，cVi)與相應於鄰近幀和補償幀之間相關性的值成反比。這樣，Vi指示從參考視點開始的第i個視點處獲得的幀，cVi指示利用參考幀和所述參考幀與Vi幀之間的視差向量進行補償的幀，而i是等於或大於0的整數。
如上面所述，用於原始鄰近幀和所述鄰近幀的補償版本的PSNR、MAD、SAD和MSE函數中至少一個可以用於計算失真度Di(Vi，cVi)。
基於確定的相關性來確定根據本發明示例實施例的用於編碼多視角視頻的預測結構(操作S1340)。所述確定預測結構包括將失真度Di(Vi，cVi)和預定的閾值進行比較；當失真度Di(Vi，cVi)開始變得大於預定的閾值時確定整數i的值；以及確定其中B幀的數量與整數i的值成比例的預測結構，以作為編碼所述多視角視頻的預測結構。
如參考圖6到9C所描述的，根據本發明示例實施例的用於編碼多視角視頻的預測結構可以用於執行水平方向多個視點的幀之間的視差評估以及用於執行垂直方向上隨著時間的過去的幀之間的運動評估，並且可以進行水平或垂直縮放。
當預測從I幀開始時，可以確定包含(i-1)個B幀的預測結構作為多視角視頻編碼的預測結構。所述多視角視頻編碼的預測結構可以根據參考幀和預定間隔的鄰近幀之間的相關性進行重新配置。可以利用所述被確定的、可重新配置的預測結構對多視角視頻進行編碼。
圖14是根據本發明示例實施例的用於編碼多視角視頻的裝置的框圖。所述裝置包括預測器1410、補償器1420、相關性確定器1430以及預測結構確定器1440。
從多視角視頻緩衝器(未示出)輸出的多視角視頻源被輸入到預測器1410和補償器1420。所述預測器1410評估參考幀和不同視點上的每個鄰近幀之間的視差向量，並且將所述預測的視差向量傳輸到補償器1420。所述補償器1420利用參考幀和預測的視差向量產生鄰近幀的補償版本(version)。
所述相關性確定器1430確定鄰近幀和補償幀之間的相關性。如上所述，可以通過計算失真度Di(Vi，cVi)來確定鄰近幀和補償幀之間的相關性，其中所述失真度Di(Vi，cVi)與相應於鄰近幀和補償幀之間相關性的值成反比。
所述預測結構確定器1440基於所述確定的相關性根據本發明的示例實施例來為編碼所述多視角視頻確定預測結構。
利用所確定的預測結構的編碼多視角視頻的裝置的配置可以與圖5所示的裝置的配置相同。
如上所述，本發明提供了一種方法和裝置，用於有效地編碼多視角視頻以同時地為人們提供真實的多視角視頻。
本發明還提供了一種方法和裝置，利用預測結構編碼多視角視頻，所述預測結構根據鄰近幀和鄰近幀的補償版本之間的相關性來確定並且使用關於所述多視角視頻的最少數量的信息。
本發明還可實現為在計算機可讀記錄介質上的計算機可讀代碼。用於實現本發明的代碼和代碼段可以由本發明所屬的領域的編程人員容易地進行分析。所述計算機可讀記錄介質是可以存儲數據的任意數據存儲裝置，所述存儲數據隨後可以被計算機系統讀取。計算機可讀記錄介質的例子包括只讀存儲器(ROM)、隨機存取存儲器(RAM)、CD-ROMs、磁帶、軟盤、光數據存儲裝置以及載波(例如通過網際網路的數據傳輸)。所述計算機可讀記錄介質還可分布於網絡連接的計算機系統，因此計算機可讀代碼以分布的方式被存儲和執行。
雖然本發明已經參考示例實施例進行了特定示出和說明，本領域普通技術人員可以理解，可以在不偏離如後面的權利要求所定義的本發明的精神和範圍來進行形式和細節上的多種改變。
權利要求
1.一種編碼多視角視頻的方法，該方法包括評估在參考幀和與所述參考幀的視點不同的視點的每個鄰近幀之間的視差向量；利用所述參考幀和所述視差向量產生補償幀，其中，所述補償幀是鄰近幀的補償版本；確定所述鄰近幀和所述補償幀之間的相關性；以及利用所述相關性為編碼所述多視角視頻確定預測結構。
2.根據權利要求1的方法，其中，所述相關性指示所述鄰近幀和所述補償幀之間的相似性，而確定所述相關性包括計算失真度Di(Vi，cVi)，其與相應於所述鄰近幀和所述補償幀之間相關性的值成反比，其中，Vi指示從參考視點開始的第i個視點處獲得的幀，cVi指示利用所述參考幀和所述參考幀與所述Vi幀之間的視差向量進行補償的幀，而i是等於或大於0的整數。
3.根據權利要求2的方法，其中，所述失真度Di(Vi，cVi)利用用於所述鄰近幀和所述補償幀的峰值信噪比函數、絕對差平均數函數、絕對差總和函數以及平均平方誤差函數中的至少一個而被計算。
4.根據權利要求2的方法，其中，確定所述預測結構包括比較失真度Di(Vi，cVi)和閾值；當失真度Di(Vi，cVi)變得比所述閾值大時，確定整數i的值；以及確定其中B幀的數目與所述整數i的值成比例的預測結構，以作為編碼所述多視角視頻的預測結構。
5.根據權利要求1的方法，其中，所述預測結構用於在水平方向上、在多個視點的幀之間執行視差評估，以及隨著時間的過去在垂直方向上、在幀之間執行運動評估，並且可以水平地或者垂直地進行縮放。
6.根據權利要求4的方法，其中，確定所述預測結構包括確定包含(i-1)個B幀的預測結構，以作為編碼所述多視角視頻的預測結構。
7.根據權利要求1的方法，其中，所述預測結構可以根據所述相關性、按間隔進行重新配置。
8.根據權利要求1的方法，進一步包括利用所述預測結構編碼所述多視角視頻。
9.一種用於編碼多視角視頻的裝置，所述裝置包括預測器，用於估計在參考幀和與所述參考幀視點不同的視點的每個鄰近幀之間的視差向量；補償器，利用所述參考幀和所述視差向量產生補償幀，其中，所述補償幀是鄰近幀的補償版本；相關性確定器，用於在所述鄰近幀和所述補償幀之間確定相關性；以及預測結構確定器，利用所述相關性為編碼所述多視角視頻確定預測結構。
10.根據權利要求9的裝置，其中，所述相關性指示所述鄰近幀和所述補償幀之間的相似性，並且所述相關性確定器計算失真度Di(Vi，cVi)以確定所述相關性，所述失真度與相應於所述鄰近幀和所述補償幀之間相關性的值成反比，其中Vi指示從參考視點開始的第i個視點處獲得的幀，cVi指示利用所述參考幀和所述參考幀與所述Vi幀之間的視差向量進行補償的幀，而i是等於或大於0的整數。
11.根據權利要求10的裝置，其中，所述相關性確定單元利用用於所述鄰近幀和所述補償幀的峰值信噪比(PSNR)函數、絕對差平均數(MAD)函數、絕對差總和(SAD)函數以及平均平方誤差(MSE)函數中的至少一個來計算所述失真度Di(Vi，cVi)。
12.根據權利要求10的裝置，其中，所述預測結構確定器比較所述失真度Di(Vi，cVi)和預定的閾值，當所述失真度Di(Vi，cVi)變得比所述閾值大時，確定所述整數i的值，以及確定其中B幀的數目與所述整數i的值成比例的預測結構，以作為編碼所述多視角視頻的預測結構。
13.根據權利要求9的裝置，其中，所述預測結構用於在水平方向上、在多個視點的幀之間執行視差評估以及隨著時間的過去在垂直方向上、在幀之間執行運動評估，並且可以水平地或者垂直地進行縮放。
14.根據權利要求12的裝置，其中，所述預測結構確定器確定包含(i-1)個B幀的預測結構，以作為編碼所述多視角視頻的預測結構。
15.根據權利要求9的裝置，其中，所述預測結構可以根據所述相關性、按間隔進行重新配置。
16.根據權利要求9的裝置，進一步包括編碼單元，其利用所述預測結構來編碼所述多視角視頻。
17.一種計算機可讀記錄介質，其上存儲有電腦程式，其中，所述程序執行一種方法，該方法包括評估在參考幀和與所述參考幀視點不同的視點的每個鄰近幀之間的視差向量；利用所述參考幀和所述視差向量產生補償幀，其中，所述補償幀是鄰近幀的補償版本；確定所述鄰近幀和所述補償幀之間的相關性；以及利用所述相關性為編碼所述多視角視頻確定預測結構。
18.一種編碼圖像的方法，該方法包括評估在第一圖像和與所述第一圖像視點不同的視點的第二圖像之間的視差向量；利用所述第一圖像和所述視差向量產生第三圖像；確定所述第二圖像和所述第三圖像之間的相關性；以及利用所述相關性為編碼所述第一和第二圖像確定預測結構。
19.一種編碼圖像的裝置，該裝置包括預測器，用於在第一圖像和與所述第一圖像視點不同的視點的第二圖像之間評估視差向量；產生器，利用所述第一圖像和視差向量產生第三圖像；相關性確定器，用於在所第二圖像和第三圖像之間確定相關性；以及預測結構確定器，利用所述相關性為編碼所述第一和第二圖像確定預測結構。
全文摘要
提供一種方法和裝置，其利用最少數量的信息來編碼多視角視頻，所述信息相關於所述多視角視頻。所述方法包括估計在參考幀和與所述參考幀視點不同的視點的每個鄰近幀之間的視差向量；利用所述參考幀和所述視差向量來產生所述鄰近幀的補償版本；確定所述鄰近幀和所述補償幀之間的相關性；以及利用所述確定的相關性為編碼所述多視角視頻確定預測結構。當利用所述方法和裝置時，利用預測結構可以高效地編碼多視角視頻，所述預測結構使用關於所述多視角視頻的最少數量的信息。
文檔編號H04N7/32GK1984335SQ200610064719
公開日2007年6月20日申請日期2006年11月6日優先權日2005年11月5日
發明者河泰鉉申請人:三星電子株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

編碼多視角視頻的方法和裝置的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法