用於圖像運動預測的方法、裝置及電腦程式產品的製作方法

2023-10-09 01:12:39 4

用於圖像運動預測的方法、裝置及電腦程式產品的製作方法
【專利摘要】視頻處理系統、方法以及電腦程式存儲設備協作來提供資源和性能高效的子像素運動搜索操作。使用實時按需計算，相對於圖像序列中的另一幅圖像提供一幅圖像上的子像素位置的近似是可能的。然後，用於為編碼過程設置運動矢量的子像素位置可以使用相對於傳統技術減少的處理和存儲器資源來確定。並且，通過隨後對較早標識出的子像素位置執行全編碼成本分析並保持對差異的跟蹤，可以通過將前述差異應用於後續的圖像幀來動態地提高插值精度。
【專利說明】用於圖像運動預測的方法、裝置及電腦程式產品
【技術領域】
[0001]本公開涉及在包括視頻系統、電腦程式產品和方法的領域內的進步，並特別地涉及在數字視頻系統、軟體使能的設備和方法中的視頻壓縮/解壓縮。
【背景技術】
[0002]本文提供的「背景」描述是為了一般地呈現本公開的上下文的目的。在該背景部分描述的範圍內，由本發明人提供的洞察以及在申請時不能被限定為現有技術的說明書的各方面，既不明示也不暗示地被認作現有技術。
[0003]運動圖片的實時傳輸在諸如視頻會議、「網絡會議」、電視(TV)廣播和視頻電話之類的多種應用中被採用。
[0004]然而，表示運動圖片牽涉到大量數字形式的信息，並通過以8位(I字節)表示圖片(或圖像幀)中的每個圖片元素(像素)來描述。對未壓縮的視頻數據的匯集導致非常大的比特量，並因此，由於有限的帶寬而需要大的帶寬分配來在傳統的通信網絡上進行實時傳輸。
[0005]由於連續幀之間的圖像中的重大冗餘，數據壓縮被自由地應用於實時視頻傳輸應用中。然而，數據壓縮可能損害圖片質量，所以繼續做出持續的努力以開發出允許通過帶寬有限的資源來實時傳輸高質量視頻的數據壓縮技術。
[0006]在視頻壓縮系統中，一個目標是以儘量少的「容量」表示視頻信息，其中容量通常是以比特被測量為常數值或比特/時間單位。通過最小化比特，需要被傳輸的比特量減少了，因此，需要來支持視頻數據的實時傳輸的通信資源的量也減少了。
[0007]最常見的視頻編碼方法是在MPEG* (例如，MPEG2和MPEG3)和H.26* (例如，H.263和H.264)標準中描述的。根據這些標準，視頻數據在傳輸前要經歷四個主要的過程，即預測、變換、量化和熵編碼。
[0008]預測過程顯著地減少要被傳輸的視頻序列中每幀所需的比特數。它利用序列中的部分與序列中其它部分的相似性。解碼比特流的解碼器具有輔助解碼過程的邊信息(sideinformation)。該邊信息對編碼器和解碼器都是已知的，所以只有差異需要被傳輸。通常，這一差異需要比完整圖像少得多的容量來對其進行表示。該預測的運動估計方面主要基於來自先前重建的圖片的圖片內容，其中內容的位置是由運動矢量定義的。儘管塊的大小可能變化，但是預測過程通常是對方形塊大小(例如，16X16像素)執行的。
[0009]在典型的視頻序列中，當前塊「M」的內容會類似於先前解碼的圖片中相應的塊。如果自先前解碼的圖片起沒有變化出現(即，新幀內的圖像與前一幀內的圖像相同)，則「M」的內容將等於該先前解碼的圖片中的相同位置的塊。在其它情況中，圖片中的對象可能在幀之間被移動，從而使得M的內容更類似於先前解碼的圖片中的不同位置的塊。這樣的運動由運動矢量(V)表示。作為示例,運動矢量(3 ；4)表示M的內容自先前解碼的圖片向左移動了 3個像素並向上移動了 4個像素。為提高精度，該矢量也可以包括需要在像素間插值的小數。
[0010]在H.262,H.263、MPEGl、MPEG2中，該同一概念被擴展從而使得運動矢量也可以取1/2像素值。那麼，矢量分量5.5意味著運動是相對於5和6像素之間的中點的。更具體地，預測是通過在表示運動5的像素和表示運動6的像素之間取平均值而得到的。由於對2個像素進行操作，這一預測按照慣例是利用2-抽頭濾波器執行的，以得到對該兩個像素之間的像素的預測。由於濾波器操作能夠由脈衝響應定義，因此對2個像素取平均值的操作能夠以(1/2，1/2)的脈衝響應表達。類似地，對4個像素取平均值意味著(1/4，1/4，1/4，1/4)的脈衝響應。
[0011]取平均值的目的是以1/2像素的精度定義圖片內容的運動，這與只對整數像素進行操作的編碼器相比提供了改進的編碼效率。
[0012]在MPEG4和H.264/AVC中，編碼方法在運動解析度和對於每一插值的像素數方面都有所改進。這些方法使用1/4像素精度的運動補償預測。甚至1/8精度也被定義了，但未被包括在任何配置簡檔內。
[0013]在圖1中示出了整數和分數像素位置(為簡單起見，僅在像素A和像素E之間示出了插值)。位置A、E、U、Y表示整數像素位置，且A」、E』、A』和E」表示A-E線上的另外的整數位置。c、k、m、0、w表示半像素位置。在這些位置的內插值是通過使用操作於整數像素值的、具有脈衝響應(1/32，-5/32，20/32，20/32，-5/32，1/32)的6-抽頭濾波器得到的。作為示例，c是通過下面的表達式計算的，該表達式表示濾波器:
[0014]c=l/32.A" -5/32.E，+20/32.A+20/32.E-5/32.A，+1/32.E"
[0015]該濾波器是按適用條件水平地或垂直地操作的。此外，為得到m的值，該濾波器不操作於整數值，而是操作於另一方向上已經被插值的值。其餘的位置是通過對各整數和半相鄰像素位置取平均得到的:
[0016]b= (A+c) /2, d= (c+E) /2, f= (A+k) /2, g= (c+k) /2, h= (c+m) /2, i= (c+o) /2, j= (E+o) /2
[0017]1= (k+m) /2, n= (m+o) /2, p= (U+k) /2, q= (k+w) /2, r= (m+w) /2, s= (w+o) /2, t= (Y+o)/2.[0018]圖2是涉及子像素插值的傳統運動估計過程的流程圖。該過程開始於步驟SI，其中多抽頭濾波器被用於對兩個像素執行半像素插值。經插值的半像素在步驟S2中被存儲在緩衝存儲器。隨後過程前進到步驟S3，其中四分之一像素插值通過對各整像素位置和半像素位置取平均值被執行。隨後，經插值的四分之一像素在步驟S4中被存儲。然後在步驟S5中對是否所有的像素都已經被分析進行詢問。如果對步驟S5中的詢問的響應是肯定的，則過程前進到步驟S6，其中最佳像素或子像素被選擇。在本上下文中「最佳像素或子像素」是產生最低成本的像素或子像素(以比特來測量)。如果對步驟S5中的詢問的響應是否定的，該過程返回到步驟SI，其中候選塊中的其它像素被分析，並執行步驟SI到S4。一旦最佳像素或部分像素在步驟S6中被選擇為用於標識從一幀到下一幀的運動矢量的最佳像素或子像素，則過程前進到步驟S7，其中所計算並存儲的經插值的半像素值和四分之一像素值被下一巾貞覆寫(over written)。隨後該過程結束。

【發明內容】

[0019]下面的段落已經通過一般介紹的方式被提供，並不打算限制所附權利要求的範圍。所述實施例，以及進一步的優點，將通過參照下面的詳細描述並結合附圖被最好的理解。[0020]本發明人認識到確定子像素插值平面的傳統方法是基於多個存儲器讀/寫周期和不用的假設計算的，假設計算增加處理器和存儲器需求而沒有在子像素平面運動矢量探測方面產生相應的改進。而且，半、四分之一或更精細的子像素插值平面是在包含於幀緩衝器中的數據的不同傳遞中產生的。隨後，運動估計過程搜索這些平面以確定最佳運動矢量。然而，這種多步驟過程需要計算許多從不使用的插值位置，並因此對系統施加了不必要的時間延遲和處理器消耗需求。另外，對大量的插值像素的計算需要相應量的幀緩衝器容量來保存中間結果直到這些結果隨後能夠被挑選以找到最佳結果為止，從而對系統存儲器容量施加了進一步的需求。
[0021]隨著在當前和新興的視頻應用中視頻幀的解析度的增加，上面討論的傳統的運動搜索過程將導致更加膨脹的處理器使用和存儲器使用需求。
[0022]鑑於識別出了傳統方法的局限，本發明人給出動態地(「實時按需」(on the fly))計算插值子像素位置並判決結果是否足夠的方法。如果真實的位置和近似的位置之間的偏差(deviation)低於預定的動態閾值,則子像素位置被認為是可接受的。
[0023]通過實時按需地計算插值像素位置，不必計算冗餘的子像素位置，避免在存儲器緩衝區的多次傳遞中對子像素位置的中間存/取，這繼而帶來較低的處理和存儲器容量需求。
【專利附圖】

【附圖說明】
[0024]對本公開及其許多伴隨的優點的更完整的體會將容易地被獲得，當結合附圖考慮時，通過參照下面的詳細的描述，其將變得更好理解，在附圖中:
[0025]圖1是用於在連續的圖像間指定運動矢量的子像素布局的示例。
[0026]圖2是根據傳統實踐的一過程的流程圖，該過程對所有的子像素位置計算並存儲子像素內插值來作為後面選擇最佳子像素位置的前提，但是需要對存儲器緩衝區的多次傳遞。
[0027]圖3是根據本公開的包括運動估計功能的視頻編碼器的框圖。
[0028]圖4是包括使用根據本公開執行的運動估計操作來執行圖像的圖像重建的能力的視頻解碼器的框圖。
[0029]圖5是用於執行動態子像素估計計算的子像素布局。
[0030]圖6是根據至少一個公開的實施例執行的實時按需運動矢量搜索過程的流程圖。
[0031]圖7是根據至少一個公開的實施例執行的另一可選的過程的流程圖。
[0032]圖8是可以容納如本文所述的動態運動估計裝置、電腦程式產品及過程的計算機實施的視頻會議端點的框圖。
具體實施例
[0033]關於下面的描述、所附權利要求和附圖，本發明的這些以及其它特徵、方面和優點
將變得更好理解，其中:
[0034]圖3是示出了涉及四個主要的編碼過程的處理流程的框圖。當前幀和一個或多個參考幀被輸入預測處理器I。預測處理器I包括幀內預測處理路徑3和包括實時按需運動估計處理的運動估計處理路徑5，對它們的選擇是由開關7控制的。幀內預測處理被選擇用於在當前圖像幀內發現相似之處，並因此被稱為「幀內」預測。運動估計具有時間分量，並因此涉及連續幀之間的分析，被稱為「幀間」(inter)預測。
[0035]在進行核心編碼11之前，來自開關7的數據輸出在組合器9與當前幀的像素相組合，核心編碼11包括變換過程13 (通常涉及速率失真控制)。隨後經變換的數據在量化器15進行量化，並隨後到熵編碼器17。熵編碼去除冗餘而不丟失信息，並被稱為無損編碼過程。接著，編碼後的數據在比特流中被發送之前通過分組化器19被布置在網絡分組中。
[0036]圖4是示出了根據一個實施例的解碼器設備內的處理流程的框圖。將來自編碼器的輸入比特流應用到去分組化器和解碼器22，去分組化器和解碼器22在將數據發送到逆量化器24之前將數據解分組。逆量化器24在提供在量化器15 (圖3)中執行的量化的逆轉時做出最大的努力。逆量化器24的輸出被施加到逆整數變換26，逆整數變換26對在視頻編碼器(圖3)中執行的整數變換執行逆轉。逆整數變換26使用與變換矩陣中相同的矢量來得出最初被施加到編碼器中的變換矩陣的原始殘留數據。隨後使用運動補償輸入(矢量)對殘留數據進行重建操作以產生輸出視頻流。
[0037]現在返回到圖3中的編碼器，本發明人認識到，與用於傳統方法中的計算上更昂貴的多抽頭FIR濾波器相比，容易計算的、雙線性、實時按需(或動態)計算能夠被用於在壓縮中具有有限損耗的視頻編碼器的運動矢量搜索中。對於實際的實施，由於對存儲器和處理器的使用都大幅降低，這大大簡化了編碼過程。與在選擇最佳像素和子像素位置前針對多個像素和子像素位置來提前執行多抽頭濾波器計算並將結果保存在存儲器中的傳統方法相對照，「實時按需」(On the fly)指的是在需要時執行計算。
[0038]使用標準多抽頭FIR濾波器計算插值像素位置時的代價是可能需要很多昂貴的中間步驟來獲得所需的結果。於是，益處被基礎設施和處理負荷成本蓋過了。作為替代方案，正如本文所公開的，可以通過使用基於處理器的雙線性平均過程來做出對插值像素位置的近似，在該基於處理器的雙線性平均過程中，計算變得快速且高效。一旦具有最小近似「成本」的運動矢量被確定，則隨後實際的插值能夠使用標準多抽頭FIR濾波器針對最佳像素(或候選最佳像素的小子集)被執行。最小成本是近似的，因為對找到具有最小成本的位置的保證需要計算上昂貴的全搜索。因此，以低於所定義閾值的局部最小值來做出合理的近似。
[0039]然而，所增加的插值步驟的代價是最小的，因為這是在運動搜索中的大量的成本計算被執行之後進行的。正如將被討論的，可以根據例如絕對差值之和(SAD)來測量成本。
[0040]這一方法的主要優點是在大多數情況下壓縮效率的損耗是較小的，S卩，粗略雙線性插值位置中的搜索給出了對最佳運動矢量的出乎意料地好的估計，並且降低存儲器和處理器使用的優勢變得勢不可擋。
[0041]另一個特徵是，由於雙線性近似的使用，能夠回收壓縮效率的損失的一部分。運動搜索算法通常使用SAD作為對原始塊與運動補償塊的相互性的度量。將被用於SAD中的措施是將重建錯誤或失真(D)與對塊編碼所需的比特(R)相組合。在一些H.264過程中，最佳編碼模式的搜索是在下面的章節中指示的2個步驟中完成的。
[0042]假設一個塊的未編碼的像素為0(i，j)，並且重建的像素為O』 (i, j)。對於幀間預測，針對每個位移矢量來計算下述第一成本函數:
【權利要求】
1.一種視頻編碼器，包括: 接口，所述接口被配置來接收來自參考圖像的信息和一圖像的像素；以及處理器，所述處理器被配置來執行子像素搜索，所述子像素搜索包括在所述像素上執行多個實時按需雙線性計算以生成近似插值子像素值，以及將所述近似子像素與閾值相比較，以標識出與所述近似插值子像素值的最低成本子像素相對應的運動矢量。
2.如權利要求1所述的視頻編碼器，其中，所述處理器被配置來將所述近似插值子像素與固定的閾值相比較。
3.如權利要求1所述的視頻編碼器，其中，所述處理器被配置來將所述近似子像素值互相比較以標識出所述最低成本子像素。
4.如權利要求1所述的視頻編碼器，其中，所述成本是所述圖像幀中的所述各子像素與來自所述參考幀的對應子像素之間的絕對差值之和的函數。
5.如權利要求1所述的視頻編碼器，其中所述處理器還被配置來在所述處理器完成所述比較後，使用多抽頭濾波器確定所述最低成本子像素的實際成本。
6.如權利要求5所述的視頻編碼器，其中所述處理器被配置來跟蹤在所述比較中確定的所述最低成本子像素和使用所述多抽頭濾波器確定的所述最低成本子像`素之間的成本差異。
7.如權利要求6所述的視頻編碼器，其中，所述處理器通過將所述差異應用於後面圖像中的具有與由所述處理器在所述比較中確定的所述最低成本子像素相對應的子像素位置的最低成本子像素，來減少對於所述後面圖像的運動矢量搜索中的插值偏倚。
8.如權利要求1所述的視頻編碼器，其中，所述處理器被配置來使用雙線性平均指令執行所述實時按需計算。
9.一種視頻編碼方法，包括: 接收來自參考圖像的信息和一圖像的像素；使用處理器執行子像素搜索，所述搜索包括在所述像素上執行多個實時按需雙線性計算以生成近似插值子像素值，以及將所述近似子像素與閾值相比較以標識出與所述近似插值子像素的最低成本子像素相對應的運動矢量。
10.如權利要求9所述的方法，其中，所述比較包括將所述近似插值子像素與固定的閾值相比較。
11.如權利要求9所述的方法，其中，所述比較包括將所述近似子像素值互相比較以標識出所述最低成本子像素。
12.如權利要求9所述的方法，其中，所述成本是所述圖像幀中的所述各子像素與來自所述參考幀的對應子像素之間的絕對差值之和的函數。
13.如權利要求9所述的方法，還包括: 在所述處理器完成所述比較後，使用多抽頭濾波器確定所述最低成本子像素的實際成本。
14.如權利要求13所述的方法，還包括:確定在所述比較中確定的所述最低成本子像素和使用所述多抽頭濾波器確定的所述最低成本子像素之間的成本差異。
15.如權利要求14所述的方法，還包括: 通過將所述差異應用於後面圖像中的具有與在所述比較中確定的所述最低成本子像素相對應的子像素位置的最低成本子像素，來減少對於所述後面圖像的運動矢量搜索中的插值偏倚。
16.如權利要求9所述的方法，其中，所述執行步驟包括使用雙線性平均指令執行所述實時按需計算。
17.一種非臨時性的計算機可讀存儲設備，所述計算機可讀存儲設備具有存儲於其中的指令，當所述指令被處理器執行時執行的方法包括: 接收來自參考圖像的信息和一圖像的像素；使用處理器執行子像素搜索，所述搜索包括在所述像素上執行多個實時按需雙線性計算以生成近似插值子像素值，以及將所述近似子像素值與閾值相比較以標識出與所述近似插值子像素的最低成本子像素相對應的運動矢量。
18.如權利要求17所述的計算機可讀存儲設備，其中，所述比較包括將所述近似插值子像素與固定的閾值相比較。
19.如權利要求17所述的計算機可讀存儲設備，其中，所述比較包括將所述近似子像素值互相比較以標識出所述最低成本子像素。
20.如權利要求17所述的計算機可讀存儲設備，其中，所述成本是所述圖像幀中的所述各子像素與來自所述參考幀的對應子像素之間的絕對差值之和的函數。
21.如權利要求17所述的計算機可讀存儲設備，其中，所述方法還包括: 在所述處理器完成所述比較後，使用多抽頭濾波器確定所述最低成本子像素的實際成本。
22.如權利要求21所述的計算機可讀存儲設備，其中，所述方法還包括: 確定在所述比較中確定的最低成本子像素和使用所述多抽頭濾波器確定的最低成本子像素之間的成本差異。
23.如權利要求22所述的計算機可讀存儲設備，其中，所述方法還包括: 通過將所述差異應用於後面圖像中的具有與由所述比較確定的所述最低成本子像素相對應的子像素位置的最低成本子像素，來減少對於所述後面圖像的運動矢量搜索中的插值偏倚。
24.如權利要求17所述的計算機可讀存儲設備，其中，所述執行步驟包括使用雙線性平均指令執行所述實時按需計算。
【文檔編號】H04N19/182GK103563370SQ201280025401
【公開日】2014年2月5日申請日期:2012年5月25日優先權日:2011年5月27日
【發明者】拉斯·皮特·恩勒森, 史泰納·米德蒂斯科根, 斯蒂安·塞爾尼斯申請人:思科技術公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於圖像運動預測的方法、裝置及電腦程式產品的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法