新四季網

一種交互式視頻中的目標對象的提取方法

2023-05-24 07:59:31

專利名稱:一種交互式視頻中的目標對象的提取方法
技術領域:
本發明涉及一種視頻分割技術,尤其是涉及一種交互式視頻中的目標對象的提取方法。
背景技術:
視頻分割就是把視頻中重要或者人們感興趣的物體與背景分割開,或者說就是要劃分出具有一致屬性的一個個區域,同時區分背景區域和前景區域。從空間分割的角度看, 視頻目標對象的提取主要是利用時域信息和空域信息檢測視頻中每幀圖像獨立運動的區域,從而實現視頻目標對象的提取。視頻分割作為計算機視覺研究中的一項重要內容,在模式識別和機器視覺等領域中都有著廣泛的應用,但是,由於視頻信息的複雜性以及計算機本身的局限性,直到現在, 視頻目標對象的提取仍然沒有得到很好的解決。這是因為一方面,要想得到好的目標對象提取效果,必須要求視頻分割算法具備一定的分析和理解能力,這一技術難題直到目前仍未解決;另一方面,在計算機視覺領域中,視頻分割是一個介於底層視覺和中層視覺之間的問題,許多其它問題都是以目標對象提取作為輸入,視頻分割的好壞直接影響著其它問題能否成功解決,基於這些原因,視頻分割一直是人們研究的熱點。視頻目標對象的提取技術是在圖像分割技術的基礎上發展起來的,按照分割過程中所用信息不同可分為空間分割、時間分割和時空分割。其中,空間分割和時間分割分別利用了視頻的幀內信息和幀間信息。基於幀內的空間分割採用的是傳統的圖像分割技術, 按照一定的空間信息(如顏色、灰度、邊沿、紋理等)、變換域信息(如DCT(Discrete Cosine Transform,離散餘弦變換)、DffT (Discrete Wavelet Transformation,離散小波變換))、 統計信息、模型和先驗知識(對特殊類圖像)等對圖像中的一致性區域進行分割,然後在幀間進行運動對象的跟蹤;基於幀間的時間分割技術不僅可利用上述圖像分割技術所用的信息,還可利用運動對象的時間相關性和多視點信息來進行分割。由於運動信息是運動對象的一個重要特徵,因此常常根據運動的一致性來分割各個運動對象,也可以結合顏色、紋理、邊沿等特徵。對一個完整的視頻序列來說,空間分割和時間分割用到的僅僅是部分信息,反映了視頻場景的部分特徵,存在一定的局限性。例如空間分割能準確反映目標對象的邊界信息,但由於缺少運動信息,無法從視頻場景中單獨分割提取出目標對象,而僅僅利用運動信息來分割目標區域往往不是很精確,存在分割區域的邊界不準確、目標區域不連續、目標區域內部存在空洞、存在孤立的噪聲區域等問題。因而,要準確地分割視頻運動對象,必須充分利用幀內空間信息和幀間時間信息。JC W. YiL "Μ "Μ. β > International Journal of Signal Processing, Image Processing and Pattern Recognition (圖像處理和模式識別 M2009,2 (4) :154-168) 中公開的《An Efficient Video Segmentation Algorithm with Real time Adaptive Threshold Technique))(《一種有效的自適應閾值視頻分割算法》,作者Yasira Beevi C P)提出了一種基於運動檢測的時空法,該方法依賴於視頻的幀間差異獲取運動信息,從而將視頻中運動對象提取出來,但由於分割精度依賴於獲取的運動信息的準確度,且運動信息容易受到噪聲的影響,因此分割效果往往不夠理想。

發明內容
本發明所要解決的技術問題是提供一種提取準確度高,且計算複雜度低的目標對象的提取方法。本發明解決上述技術問題所採用的技術方案為一種交互式視頻中的目標對象的提取方法,其特徵在於包括以下步驟①選取場景固定且包含有運動目標對象的視頻作為待處理的原始視頻;②逐幀觀察原始視頻中的幀圖像中是否存在目標對象,將存在目標對象的第一幀圖像定義為初始幀圖像,然後在初始幀圖像中劃定一個包含目標對象的矩形區域,並記錄矩形區域的坐標位置;③將初始幀圖像之後的需處理的後續幀圖像定義為當前幀圖像,利用最大幀差分量的三幀差法計算當前幀圖像與其前一幀圖像的幀差圖像及當前幀圖像與其後一幀圖像的幀差圖像,然後計算兩幅幀差圖像各自對應的二值圖像的公共區域及公共區域的最小外接矩形,再根據公共區域的最小外接矩形對應的矩形區域結合當前幀圖像的前一幀圖像的矩形區域的坐標位置,確定當前幀圖像中包含目標對象的矩形區域;④首先利用馬爾可夫隨機場建立原始視頻中的每幀圖像的圖像分割模型,根據原始視頻中的每幀圖像的圖像分割模型分別構造每幀圖像的能量函數;然後採用基於顏色特徵的k-means聚類方法分別對每幀圖像中的包含目標對象的矩形區域和矩形區域外的背景區域進行聚類,總共得到業個類,將業個類表示為業個高斯模型,將幀圖像表示為由業個高斯模型組成的高斯混合模型,再利用EM算法計算每幀圖像對應的高斯混合模型的參數,最後通過計算每幀圖像中的各個像素點屬於不同的高斯模型時每幀圖像的能量函數, 確定每幀圖像中的各個像素點的標記對應的最小能量值,得到每幀圖像中的各個像素點的標記,實現目標對象的提取。所述的步驟②中在初始幀圖像中劃定包含目標對象的矩形區域時採用人工交互方式;在記錄矩形區域的坐標位置時僅記錄矩形區域的左上角坐標和右下角坐標,或僅記錄矩形區域的左下角坐標和右上角坐標,或記錄矩形區域的左上角坐標、左下角坐標、右上角坐標和右下角坐標。所述的步驟③的具體過程為③-1、設初始幀圖像之後的第一幀圖像為原始視頻中的第t幀圖像,並定義其為當前幀圖像,2 < t <M,M表示原始視頻中包含的幀圖像的幀數;③_2、判斷當前幀圖像是否為原始視頻中的最後一幀圖像,如果是,則結束,否則, 繼續執行步驟③-3 ;③_3、計算當前幀圖像與其前一幀圖像的幀差圖像,將當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的像素值記為difpre(x,y,t), difpre(x, y,t) =max{difpre_E(x, y, t),difpre_G(x, y, t),difpre_B(x, y, t)}, difpre_E(x, y, t) = IE(x, y, t)-IK(x, y, t-1) I , difpre_G(x, y, t) = | Ig (x, y, t) _IG (x, y, t_l) | , difpre_B (x, y, t) = |lB(x, y,t)-IB(x, y,t-1) I,其中,difpre_E(x, y,t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,Y)的像素點的紅色分量的值,difpre_G(x, y,t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,Y)的像素點的綠色分量的值,difpre_B(x, y,t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的藍色分量的值,maxO 為取最大值函數,「 I I,,為絕對值符號,Ie (X,1,t)、Ig (x, y,t)和Ib (χ, y,t)分別表示當前幀圖像中坐標位置為(X,y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值,IE(x, y,t-l)、Ie(x,y,t-l)和IB(x,y,t_l)分別表示當前幀圖像的前一幀圖像中坐標位置為(X, y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值;計算當前幀圖像與其後一幀圖像的幀差圖像,將當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的像素值記為difaft(X,y,t),difaft(x, y,t)= max{difaft_E(x,y,t), difaft_G (x,y,t), difaft_B (x, y, t)}, difaft_E (x,y,t) = | Ie (x, y, t)-IE(x, y,t+l) I,difaft_G(x,y,t) = | Ig (x, y, t) _IG(x, y, t+1) | , difaft_B (x, y, t) = | :tB (x, y, t)(x, y,t+1) I,其中,difaft_E(x, y,t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為 (X,y)的像素點的紅色分量的值,difaft_G(x, y,t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的綠色分量的值,difaft_B(x,y,t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的藍色分量的值,max為取最大值函數,「 I I 」為絕對值符號,Ie(x, y,t)、Ie(x,y,t)和Ib(x,y,t)分別表示當前幀圖像中坐標位置為(χ,y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值,ΙΕ(χ, ι, t+1)、 IG(x,y,t+l)和IB(x,y,t+l)分別表示當前幀圖像的前一幀圖像中坐標位置為(x, y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值;③_4、先後對當前幀圖像與其前一幀圖像的幀差圖像進行腐蝕處理和二值化處
理,得到當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像,將當前幀圖像與其前一
幀圖像的幀差圖像對應的二值圖像中坐標位置為(X,y)的像素點的像素值記為Movpm(X,
, 、[1 dif(x,y,t)>TH 1, t),MoVe(x,;V)=。 Jf !)<th,其中, 為設定的二值化閾值;先後對當前幀圖像與其後一幀圖像的幀差圖像進行腐蝕處理和二值化處理,得到當前幀圖像與其後一幀圖像的幀差圖像對應的二值圖像,將當前幀圖像與其後一幀圖像的幀差圖像對應的二值圖像中坐標位置為(X,y)的像素點的像素值記為Movaft (X,y,t),
M^(x,兄叫。,其中, 為設定的區域判定閾值;③_5、計算當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像和當前幀圖像與其後一幀圖像的幀差圖像對應的二值圖像的公共區域,該公共區域為當前幀圖像中的目標對象的所在區域,將公共區域中坐標位置為(x,y)的像素點的像素值記為And(x,y,t), And (χ, y,t) =Movpre (χ, y,t) Π Movaft (χ, y,t),其中,「 Π 」 表示求取公共部分的運算;然後求取公共區域的最小外接矩形,該最小外接矩形對應的矩形區域為包含目標對象的矩形區域;③_6、根據公共區域的最小外接矩形對應的矩形區域及當前幀圖像的前一幀圖像的矩形區域的坐標位置,確定當前幀圖像中包含目標對象的矩形區域,令(i' t,L, j' t,L) 表示當前幀圖像的矩形區域的左上角坐標,令(i' t,E,j' t,K)表示當前幀圖像的矩形區域的右下角坐標,
權利要求
1.一種交互式視頻中的目標對象的提取方法,其特徵在於包括以下步驟①選取場景固定且包含有運動目標對象的視頻作為待處理的原始視頻;②逐幀觀察原始視頻中的幀圖像中是否存在目標對象,將存在目標對象的第一幀圖像定義為初始幀圖像,然後在初始幀圖像中劃定一個包含目標對象的矩形區域,並記錄矩形區域的坐標位置;③將初始幀圖像之後的需處理的後續幀圖像定義為當前幀圖像,利用最大幀差分量的三幀差法計算當前幀圖像與其前一幀圖像的幀差圖像及當前幀圖像與其後一幀圖像的幀差圖像,然後計算兩幅幀差圖像各自對應的二值圖像的公共區域及公共區域的最小外接矩形,再根據公共區域的最小外接矩形對應的矩形區域結合當前幀圖像的前一幀圖像的矩形區域的坐標位置,確定當前幀圖像中包含目標對象的矩形區域;④首先利用馬爾可夫隨機場建立原始視頻中的每幀圖像的圖像分割模型,根據原始視頻中的每幀圖像的圖像分割模型分別構造每幀圖像的能量函數;然後採用基於顏色特徵的 k-means聚類方法分別對每幀圖像中的包含目標對象的矩形區域和矩形區域外的背景區域進行聚類,總共得到業個類,將業個類表示為業個高斯模型,將幀圖像表示為由業個高斯模型組成的高斯混合模型,再利用EM算法計算每幀圖像對應的高斯混合模型的參數,最後通過計算每幀圖像中的各個像素點屬於不同的高斯模型時每幀圖像的能量函數,確定每幀圖像中的各個像素點的標記對應的最小能量值,得到每幀圖像中的各個像素點的標記, 實現目標對象的提取。
2.根據權利要求1所述的一種交互式視頻中的目標對象的提取方法,其特徵在於所述的步驟②中在初始幀圖像中劃定包含目標對象的矩形區域時採用人工交互方式;在記錄矩形區域的坐標位置時僅記錄矩形區域的左上角坐標和右下角坐標,或僅記錄矩形區域的左下角坐標和右上角坐標,或記錄矩形區域的左上角坐標、左下角坐標、右上角坐標和右下角坐標。
3.根據權利要求1或2所述的一種交互式視頻中的目標對象的提取方法,其特徵在於所述的步驟③的具體過程為③-1、設初始幀圖像之後的第一幀圖像為原始視頻中的第t幀圖像,並定義其為當前幀圖像,2 < t <M,M表示原始視頻中包含的幀圖像的幀數;③_2、判斷當前幀圖像是否為原始視頻中的最後一幀圖像,如果是,則結束,否則,繼續執行步驟③-3 ;③-3、計算當前幀圖像與其前一幀圖像的幀差圖像,將當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的像素值記為difpre(x,y,t),difpre(x, y,t) =max{difpre_E(x, y, t),difpre_G(x, y, t),difpre_B(x, y, t)}, difpre_E(x, y, t) = IE(x, y, t)-IK(x, y, t-1) I , difpre_G(x, y, t) = | Ig (x, y, t) _IG (x, y, t_l) | , difpre_B (x, y, t) = |lB(x, y,t)-IB(x, y,t-1) I,其中,difpre_E(x, y,t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的紅色分量的值,difpre_G(x, y,t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的綠色分量的值,difpre_B(x, y,t)表示當前幀圖像與其前一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的藍色分量的值,maxO 為取最大值函數,「 I I,,為絕對值符號,Ie (X,1,t)、Ig (x, y,t)和Ib (χ, y,t)分別表示當前幀圖像中坐標位置為(X,y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值,IE(x,y,t-l)、Ie(x,y,t-l)和IB(x,y,t_l)分別表示當前幀圖像的前一幀圖像中坐標位置為(X, y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值;計算當前幀圖像與其後一幀圖像的幀差圖像,將當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(x, y)的像素點的像素值記為difaft(x,y,t),difaft(x, y,t)= max{difaft_E(x,y,t), difaft_G (x,y,t), difaft_B (x, y, t)}, difaft_E (x,y,t) = | Ie (x, y, t)-IE(x, y,t+l) I,difaft_G(x,y,t) = | Ig (x, y, t) _IG(x, y, t+1) | , difaft_B (x, y, t) = | :tB (x, y, t)(x, y,t+1) I,其中,difaft_E(x, y,t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為 (X,y)的像素點的紅色分量的值,difaft_G(x, y,t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的綠色分量的值,difaft_B(x,y,t)表示當前幀圖像與其後一幀圖像的幀差圖像中坐標位置為(X,y)的像素點的藍色分量的值,max為取最大值函數,「 I I 」為絕對值符號,Ie(x, y,t)、Ie(x,y,t)和Ib(x,y,t)分別表示當前幀圖像中坐標位置為(χ,y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值,ΙΕ(χ, ι, t+1)、 IG(x,y,t+l)和IB(x,y,t+l)分別表示當前幀圖像的前一幀圖像中坐標位置為(x, y)的像素點的紅色分量的值、綠色分量的值和藍色分量的值;③-4、先後對當前幀圖像與其前一幀圖像的幀差圖像進行腐蝕處理和二值化處理,得到當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像,將當前幀圖像與其前一幀圖像的幀差圖像對應的二值圖像中坐標位置為(X,y)的像素點的像素值記為Movpm(X,y,t),
4.根據權利要求3所述的一種交互式視頻中的目標對象的提取方法,其特徵在於所述的步驟③-4中對幀差圖像進行腐蝕處理時採用3X3的方形結構單元或採用5X5的方形結構單元。
5.根據權利要求4所述的一種交互式視頻中的目標對象的提取方法,其特徵在於所述的步驟③-4中TH = 100,所述的步驟③-6中th = 10。
6.根據權利要求5所述的一種交互式視頻中的目標對象的提取方法,其特徵在於所述的步驟④的具體過程為④-1、利用馬爾可夫隨機場建立原始視頻中的每幀圖像的圖像分割模型,再根據原始視頻中的每幀圖像的圖像分割模型分別構造原始視頻中的每幀圖像的能量函數,記為
7.根據權利要求6所述的一種交互式視頻中的目標對象的提取方法,其特徵在於所述的步驟④-1中λ =0.5。
全文摘要
本發明公開了一種交互式視頻中的目標對象的提取方法,利用幀差法獲取前後三幀圖像的幀差圖像作為確定目標對象的一種粗略估計,然後結合前一幀圖像的矩形區域的坐標位置,確定當前幀圖像中包含目標對象的矩形區域,再構建原始視頻中的每幀圖像的能量函數,實現目標對象的精確提取,在確定幀圖像中包含目標對象的矩形區域的過程中,充分利用了前一幀圖像的矩形區域的坐標位置,這樣即使針對目標對象突然靜止或者背景晃動等情況都能夠精確確定當前幀的目標對象區域,最後對確定目標區域的每幀圖像分別建立分割模型,通過圖割方法能夠精確提取目標對象,從而大大改善了提取精度。
文檔編號G06T7/20GK102270346SQ20111021205
公開日2011年12月7日 申請日期2011年7月27日 優先權日2011年7月27日
發明者任振華, 劉定鳴, 秦配偉, 趙傑煜 申請人:寧波大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀