一種交互式視頻中的目標對象的提取方法

2023-05-24 07:59:31 2

專利名稱：一種交互式視頻中的目標對象的提取方法
技術領域：
本發明涉及一種視頻分割技術，尤其是涉及一種交互式視頻中的目標對象的提取方法。
背景技術：
視頻分割就是把視頻中重要或者人們感興趣的物體與背景分割開，或者說就是要劃分出具有一致屬性的一個個區域，同時區分背景區域和前景區域。從空間分割的角度看，視頻目標對象的提取主要是利用時域信息和空域信息檢測視頻中每幀圖像獨立運動的區域，從而實現視頻目標對象的提取。視頻分割作為計算機視覺研究中的一項重要內容，在模式識別和機器視覺等領域中都有著廣泛的應用，但是，由於視頻信息的複雜性以及計算機本身的局限性，直到現在，視頻目標對象的提取仍然沒有得到很好的解決。這是因為一方面，要想得到好的目標對象提取效果，必須要求視頻分割算法具備一定的分析和理解能力，這一技術難題直到目前仍未解決；另一方面，在計算機視覺領域中，視頻分割是一個介於底層視覺和中層視覺之間的問題，許多其它問題都是以目標對象提取作為輸入，視頻分割的好壞直接影響著其它問題能否成功解決，基於這些原因，視頻分割一直是人們研究的熱點。視頻目標對象的提取技術是在圖像分割技術的基礎上發展起來的，按照分割過程中所用信息不同可分為空間分割、時間分割和時空分割。其中，空間分割和時間分割分別利用了視頻的幀內信息和幀間信息。基於幀內的空間分割採用的是傳統的圖像分割技術，按照一定的空間信息(如顏色、灰度、邊沿、紋理等)、變換域信息(如DCT(Discrete Cosine Transform,離散餘弦變換)、DffT (Discrete Wavelet Transformation,離散小波變換))、統計信息、模型和先驗知識(對特殊類圖像)等對圖像中的一致性區域進行分割，然後在幀間進行運動對象的跟蹤；基於幀間的時間分割技術不僅可利用上述圖像分割技術所用的信息，還可利用運動對象的時間相關性和多視點信息來進行分割。由於運動信息是運動對象的一個重要特徵，因此常常根據運動的一致性來分割各個運動對象，也可以結合顏色、紋理、邊沿等特徵。對一個完整的視頻序列來說，空間分割和時間分割用到的僅僅是部分信息，反映了視頻場景的部分特徵，存在一定的局限性。例如空間分割能準確反映目標對象的邊界信息，但由於缺少運動信息，無法從視頻場景中單獨分割提取出目標對象，而僅僅利用運動信息來分割目標區域往往不是很精確，存在分割區域的邊界不準確、目標區域不連續、目標區域內部存在空洞、存在孤立的噪聲區域等問題。因而，要準確地分割視頻運動對象，必須充分利用幀內空間信息和幀間時間信息。JC W. YiL "Μ "Μ. β > International Journal of Signal Processing, Image Processing and Pattern Recognition (圖像處理和模式識別 M2009，2 (4) :154-168) 中公開的《An Efficient Video Segmentation Algorithm with Real time Adaptive Threshold Technique))(《一種有效的自適應閾值視頻分割算法》，作者Yasira Beevi C P)提出了一種基於運動檢測的時空法，該方法依賴於視頻的幀間差異獲取運動信息，從而將視頻中運動對象提取出來，但由於分割精度依賴於獲取的運動信息的準確度，且運動信息容易受到噪聲的影響，因此分割效果往往不夠理想。

發明內容
本發明所要解決的技術問題是提供一種提取準確度高，且計算複雜度低的目標對象的提取方法。本發明解決上述技術問題所採用的技術方案為一種交互式視頻中的目標對象的提取方法，其特徵在於包括以下步驟①選取場景固定且包含有運動目標對象的視頻作為待處理的原始視頻；②逐幀觀察原始視頻中的幀圖像中是否存在目標對象，將存在目標對象的第一幀圖像定義為初始幀圖像，然後在初始幀圖像中劃定一個包含目標對象的矩形區域，並記錄矩形區域的坐標位置；③將初始幀圖像之後的需處理的後續幀圖像定義為當前幀圖像，利用最大幀差分量的三幀差法計算當前幀圖像與其前一幀圖像的幀差圖像及當前幀圖像與其後一幀圖像的幀差圖像，然後計算兩幅幀差圖像各自對應的二值圖像的公共區域及公共區域的最小外接矩形，再根據公共區域的最小外接矩形對應的矩形區域結合當前幀圖像的前一幀圖像的矩形區域的坐標位置，確定當前幀圖像中包含目標對象的矩形區域；④首先利用馬爾可夫隨機場建立原始視頻中的每幀圖像的圖像分割模型，根據原始視頻中的每幀圖像的圖像分割模型分別構造每幀圖像的能量函數；然後採用基於顏色特徵的k-means聚類方法分別對每幀圖像中的包含目標對象的矩形區域和矩形區域外的背景區域進行聚類，總共得到業個類，將業個類表示為業個高斯模型，將幀圖像表示為由業個高斯模型組成的高斯混合模型，再利用EM算法計算每幀圖像對應的高斯混合模型的參數，最後通過計算每幀圖像中的各個像素點屬於不同的高斯模型時每幀圖像的能量函數，確定每幀圖像中的各個像素點的標記對應的最小能量值，得到每幀圖像中的各個像素點的標記，實現目標對象的提取。所述的步驟②中在初始幀圖像中劃定包含目標對象的矩形區域時採用人工交互方式；在記錄矩形區域的坐標位置時僅記錄矩形區域的左上角坐標和右下角坐標，或僅記錄矩形區域的左下角坐標和右上角坐標，或記錄矩形區域的左上角坐標、左下角坐標、右上角坐標和右下角坐標。所述的步驟③的具體過程為③-1、設初始幀圖像之後的第一幀圖像為原始視頻中的第t幀圖像，並定義其為當前幀圖像，2 < t <M，M表示原始視頻中包含的幀圖像的幀數；③_2、判斷當前幀圖像是否為原始視頻中的最後一幀圖像，如果是，則結束，否則，繼續執行步驟③-3 ；③_3、計算當前幀圖像與其前一幀圖像的幀差圖像，將當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的像素值記為difpre(x，y，t), difpre(x, y，t) =max{difpre_E(x, y, t)，difpre_G(x, y, t)，difpre_B(x, y, t)}, difpre_E(x, y, t) = IE(x, y, t)-IK(x, y, t-1) I , difpre_G(x, y, t) = | Ig (x, y, t) _IG (x, y, t_l) | , difpre_B (x, y, t) = |lB(x， y，t)-IB(x, y，t-1) I，其中，difpre_E(x, y，t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，Y)的像素點的紅色分量的值，difpre_G(x, y，t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，Y)的像素點的綠色分量的值，difpre_B(x, y，t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的藍色分量的值，maxO 為取最大值函數，「 I I，，為絕對值符號，Ie (X，1，t)、Ig (x, y，t)和Ib (χ, y，t)分別表示當前幀圖像中坐標位置為(X，y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值，IE(x, y，t-l)、Ie(x，y，t-l)和IB(x，y，t_l)分別表示當前幀圖像的前一幀圖像中坐標位置為(X， y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值；計算當前幀圖像與其後一幀圖像的幀差圖像，將當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的像素值記為difaft(X，y，t)，difaft(x, y，t)= max{difaft_E(x,y,t), difaft_G (x,y,t), difaft_B (x, y, t)}, difaft_E (x,y,t) = | Ie (x, y, t)-IE(x, y,t+l) I，difaft_G(x,y,t) = | Ig (x, y, t) _IG(x, y, t+1) | , difaft_B (x, y, t) = | :tB (x, y, t)(x, y，t+1) I，其中，difaft_E(x, y，t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為 (X，y)的像素點的紅色分量的值，difaft_G(x, y，t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的綠色分量的值，difaft_B(x，y，t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的藍色分量的值，max為取最大值函數，「 I I 」為絕對值符號，Ie(x, y，t)、Ie(x，y，t)和Ib(x，y，t)分別表示當前幀圖像中坐標位置為(χ，y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值，ΙΕ(χ, ι, t+1)、 IG(x，y，t+l)和IB(x，y，t+l)分別表示當前幀圖像的前一幀圖像中坐標位置為(x, y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值；③_4、先後對當前幀圖像與其前一幀圖像的幀差圖像進行腐蝕處理和二值化處
理，得到當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像，將當前幀圖像與其前一
幀圖像的幀差圖像對應的二值圖像中坐標位置為(X，y)的像素點的像素值記為Movpm(X，
, 、[1 dif(x,y,t)>TH 1, t)，MoVe(x,;V)=。 Jf !)<th，其中，為設定的二值化閾值；先後對當前幀圖像與其後一幀圖像的幀差圖像進行腐蝕處理和二值化處理，得到當前幀圖像與其後一幀圖像的幀差圖像對應的二值圖像，將當前幀圖像與其後一幀圖像的幀差圖像對應的二值圖像中坐標位置為(X，y)的像素點的像素值記為Movaft (X，y，t)，
M^(x，兄叫。，其中，為設定的區域判定閾值；③_5、計算當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像和當前幀圖像與其後一幀圖像的幀差圖像對應的二值圖像的公共區域，該公共區域為當前幀圖像中的目標對象的所在區域，將公共區域中坐標位置為(x，y)的像素點的像素值記為And(x，y，t)， And (χ, y，t) =Movpre (χ, y，t) Π Movaft (χ, y，t)，其中，「 Π 」表示求取公共部分的運算；然後求取公共區域的最小外接矩形，該最小外接矩形對應的矩形區域為包含目標對象的矩形區域；③_6、根據公共區域的最小外接矩形對應的矩形區域及當前幀圖像的前一幀圖像的矩形區域的坐標位置，確定當前幀圖像中包含目標對象的矩形區域，令(i' t,L, j' t,L) 表示當前幀圖像的矩形區域的左上角坐標，令(i' t,E,j' t,K)表示當前幀圖像的矩形區域的右下角坐標，
權利要求
1.一種交互式視頻中的目標對象的提取方法，其特徵在於包括以下步驟①選取場景固定且包含有運動目標對象的視頻作為待處理的原始視頻；②逐幀觀察原始視頻中的幀圖像中是否存在目標對象，將存在目標對象的第一幀圖像定義為初始幀圖像，然後在初始幀圖像中劃定一個包含目標對象的矩形區域，並記錄矩形區域的坐標位置；③將初始幀圖像之後的需處理的後續幀圖像定義為當前幀圖像，利用最大幀差分量的三幀差法計算當前幀圖像與其前一幀圖像的幀差圖像及當前幀圖像與其後一幀圖像的幀差圖像，然後計算兩幅幀差圖像各自對應的二值圖像的公共區域及公共區域的最小外接矩形，再根據公共區域的最小外接矩形對應的矩形區域結合當前幀圖像的前一幀圖像的矩形區域的坐標位置，確定當前幀圖像中包含目標對象的矩形區域；④首先利用馬爾可夫隨機場建立原始視頻中的每幀圖像的圖像分割模型，根據原始視頻中的每幀圖像的圖像分割模型分別構造每幀圖像的能量函數；然後採用基於顏色特徵的 k-means聚類方法分別對每幀圖像中的包含目標對象的矩形區域和矩形區域外的背景區域進行聚類，總共得到業個類，將業個類表示為業個高斯模型，將幀圖像表示為由業個高斯模型組成的高斯混合模型，再利用EM算法計算每幀圖像對應的高斯混合模型的參數，最後通過計算每幀圖像中的各個像素點屬於不同的高斯模型時每幀圖像的能量函數，確定每幀圖像中的各個像素點的標記對應的最小能量值，得到每幀圖像中的各個像素點的標記，實現目標對象的提取。
2.根據權利要求1所述的一種交互式視頻中的目標對象的提取方法，其特徵在於所述的步驟②中在初始幀圖像中劃定包含目標對象的矩形區域時採用人工交互方式；在記錄矩形區域的坐標位置時僅記錄矩形區域的左上角坐標和右下角坐標，或僅記錄矩形區域的左下角坐標和右上角坐標，或記錄矩形區域的左上角坐標、左下角坐標、右上角坐標和右下角坐標。
3.根據權利要求1或2所述的一種交互式視頻中的目標對象的提取方法，其特徵在於所述的步驟③的具體過程為③-1、設初始幀圖像之後的第一幀圖像為原始視頻中的第t幀圖像，並定義其為當前幀圖像，2 < t <M，M表示原始視頻中包含的幀圖像的幀數；③_2、判斷當前幀圖像是否為原始視頻中的最後一幀圖像，如果是，則結束，否則，繼續執行步驟③-3 ；③-3、計算當前幀圖像與其前一幀圖像的幀差圖像，將當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的像素值記為difpre(x，y，t)，difpre(x, y，t) =max{difpre_E(x, y, t)，difpre_G(x, y, t)，difpre_B(x, y, t)}, difpre_E(x, y, t) = IE(x, y, t)-IK(x, y, t-1) I , difpre_G(x, y, t) = | Ig (x, y, t) _IG (x, y, t_l) | , difpre_B (x, y, t) = |lB(x， y，t)-IB(x, y，t-1) I，其中，difpre_E(x, y，t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的紅色分量的值，difpre_G(x, y，t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的綠色分量的值，difpre_B(x, y，t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的藍色分量的值，maxO 為取最大值函數，「 I I，，為絕對值符號，Ie (X，1，t)、Ig (x, y，t)和Ib (χ, y，t)分別表示當前幀圖像中坐標位置為(X，y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值，IE(x,y，t-l)、Ie(x，y，t-l)和IB(x，y，t_l)分別表示當前幀圖像的前一幀圖像中坐標位置為(X， y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值；計算當前幀圖像與其後一幀圖像的幀差圖像，將當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(x, y)的像素點的像素值記為difaft(x，y，t)，difaft(x, y，t)= max{difaft_E(x,y,t), difaft_G (x,y,t), difaft_B (x, y, t)}, difaft_E (x,y,t) = | Ie (x, y, t)-IE(x, y,t+l) I，difaft_G(x,y,t) = | Ig (x, y, t) _IG(x, y, t+1) | , difaft_B (x, y, t) = | :tB (x, y, t)(x, y，t+1) I，其中，difaft_E(x, y，t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為 (X，y)的像素點的紅色分量的值，difaft_G(x, y，t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的綠色分量的值，difaft_B(x，y，t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X，y)的像素點的藍色分量的值，max為取最大值函數，「 I I 」為絕對值符號，Ie(x, y，t)、Ie(x，y，t)和Ib(x，y，t)分別表示當前幀圖像中坐標位置為(χ，y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值，ΙΕ(χ, ι, t+1)、 IG(x，y，t+l)和IB(x，y，t+l)分別表示當前幀圖像的前一幀圖像中坐標位置為(x, y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值；③-4、先後對當前幀圖像與其前一幀圖像的幀差圖像進行腐蝕處理和二值化處理，得到當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像，將當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像中坐標位置為(X，y)的像素點的像素值記為Movpm(X，y，t)，
4.根據權利要求3所述的一種交互式視頻中的目標對象的提取方法，其特徵在於所述的步驟③-4中對幀差圖像進行腐蝕處理時採用3X3的方形結構單元或採用5X5的方形結構單元。
5.根據權利要求4所述的一種交互式視頻中的目標對象的提取方法，其特徵在於所述的步驟③-4中TH = 100，所述的步驟③-6中th = 10。
6.根據權利要求5所述的一種交互式視頻中的目標對象的提取方法，其特徵在於所述的步驟④的具體過程為④-1、利用馬爾可夫隨機場建立原始視頻中的每幀圖像的圖像分割模型，再根據原始視頻中的每幀圖像的圖像分割模型分別構造原始視頻中的每幀圖像的能量函數，記為
7.根據權利要求6所述的一種交互式視頻中的目標對象的提取方法，其特徵在於所述的步驟④-1中λ =0.5。
全文摘要
本發明公開了一種交互式視頻中的目標對象的提取方法，利用幀差法獲取前後三幀圖像的幀差圖像作為確定目標對象的一種粗略估計，然後結合前一幀圖像的矩形區域的坐標位置，確定當前幀圖像中包含目標對象的矩形區域，再構建原始視頻中的每幀圖像的能量函數，實現目標對象的精確提取，在確定幀圖像中包含目標對象的矩形區域的過程中，充分利用了前一幀圖像的矩形區域的坐標位置，這樣即使針對目標對象突然靜止或者背景晃動等情況都能夠精確確定當前幀的目標對象區域，最後對確定目標區域的每幀圖像分別建立分割模型，通過圖割方法能夠精確提取目標對象，從而大大改善了提取精度。
文檔編號G06T7/20GK102270346SQ20111021205
公開日2011年12月7日申請日期2011年7月27日優先權日2011年7月27日
發明者任振華, 劉定鳴, 秦配偉, 趙傑煜申請人:寧波大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種交互式視頻中的目標對象的提取方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法