基於人機互動生成視頻深度圖序列的方法及系統的製作方法
2023-07-26 23:41:31 3
專利名稱:基於人機互動生成視頻深度圖序列的方法及系統的製作方法
技術領域:
本發明涉及計算機多媒體技術領域,特別涉及一種基於人機互動生成視頻深度圖序列的方法及系統。
背景技術:
立體視頻能夠給人們帶來更真實的視覺體驗,被越來越廣泛地應用在家庭娛樂、 影視製作、虛擬實境等諸多領域。雖然我們可以藉助立體攝像機來直接拍攝新的立體視頻, 但對於現有的眾多平面視頻資源,無法都通過重新拍攝來獲取其相應的立體版本。在這種情況下,將平面視頻轉為立體視頻就成為立體內容生成的一個極其重要的途徑。其中,深度圖的獲取是平面視頻轉立體視頻中必不可少的部分,而深度圖的質量也直接決定了觀眾所能感受到的立體效果。目前,有許多種不需要用戶幹預,由計算機自動生成視頻深度圖序列的方法,這些方法存在的問題是,由於沒有任何先驗信息,很難直接從原視頻幀序列中提取出相應的深度線索並生成正確的深度圖。針對上述問題,也有人提出了一些需要用戶幹預的半自動的深度圖生成方法,這些方法通常能夠生成更高質量的視頻深度圖序列,和完全通過圖像編輯軟體逐幀製作深度圖的方法相比也提高了不少效率,但它們所帶來的額外的用戶操作依然很多、很繁瑣。
發明內容
本發明的目的旨在至少解決上述技術缺陷之一。為此,本發明的一個目的在於提出一種基於人機互動生成視頻深度圖序列的方法,該方法既能保證生成的視頻深度圖序列具有較高質量,又不需要用戶進行太多的額外操作,所有的用戶操作簡單而高效。本發明的另一個目的在於提出一種基於人機互動生成視頻深度圖序列的系統,該系統既能保證生成的視頻深度圖序列具有較高質量,又不需要用戶進行太多的額外操作, 所有的用戶操作簡單而高效。根據本發明的一方面,提出了一種基於人機互動生成視頻深度圖序列的方法,包括以下步驟A1 從視頻幀序列中提取出關鍵幀和非關鍵幀;A2 對所述視頻幀序列的每一幀進行圖像過分割以獲得多個過分割塊;A3 設置所述關鍵幀中的部分過分割塊的深度值;A4 根據所述部分過分割塊的深度值獲取所述關鍵幀的其餘過分割塊的深度值,從而獲得所述關鍵幀的深度圖;A5 根據所述關鍵幀和所述關鍵幀對應的深度圖獲取所述非關鍵幀的深度圖;以及A6 對所述關鍵幀的深度圖和所述非關鍵幀的深度圖進行後處理,以獲得最終的視頻深度圖序列。根據本發明實施例的基於人機互動生成視頻深度圖序列的方法,通過用戶對關鍵幀的檢測結果進行修正,並為關鍵幀中的部分過分割塊指定深度值,再藉助深度擴散算法及機器學習算法獲得關鍵幀及非關鍵幀的深度圖,能夠同時滿足精度和效率上的要求,較好地完成將平面視頻轉為立體視頻的任務。本發明另一方面還提供一種基於人機互動生成視頻深度圖序列的系統,包括檢測模塊,用於從平面視頻幀序列中檢測出鏡頭變化幀以作為關鍵幀,其中所述鏡頭變化幀包括鏡頭切變幀和鏡頭漸變幀;過分割模塊,用於對所述視頻幀序列的每一幀進行圖像過分割;人機互動模塊,用於提供用戶操作界面以便用戶對所述檢測模塊的檢測結果進行修正,並對所述關鍵幀對應的部分過分割塊設置深度值;關鍵幀深度圖生成模塊,用於根據所述關鍵幀對應的部分過分割塊的深度值生成關鍵幀的深度圖;非關鍵幀深度圖生成模塊, 用於根據所述關鍵幀的深度圖,通過機器學習算法生成非關鍵幀的深度圖;以及後處理模塊,用於對所述關鍵幀和非關鍵幀的深度圖進行後處理,得到最終的視頻深度圖序列。根據本發明實施例的基於人機互動生成視頻深度圖序列的系統,既能保證生成的視頻深度圖序列具有較高質量,又不需要用戶進行太多的額外操作,所有的用戶操作簡單而高效。本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中圖1為本發明一個實施例的基於人機互動生成視頻深度圖序列的方法的流程示意圖;圖2為本發明一個實施例的基於人機互動生成視頻深度圖序列的方法中的步驟 101的流程圖;圖3為本發明一個實施例的基於人機互動生成視頻深度圖序列的方法中的步驟 102的流程圖;圖4為本發明一個實施例的用戶為關鍵幀中部分過分割塊指定深度值的示意圖;圖5為本發明一個實施例的基於人機互動生成視頻深度圖序列的方法中的步驟 104的流程圖;圖6為本發明一個實施例的基於人機互動生成視頻深度圖序列的方法中的步驟 105的流程圖;以及圖7為本發明一個實施例的基於人機互動生成視頻深度圖序列的系統的示意圖。
具體實施例方式下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用於解釋本發明,而不能解釋為對本發明的限制。如圖1所示,根據本發明實施例的基於人機互動生成視頻深度圖序列的方法,包括以下步驟步驟101,從平面視頻幀序列中提取出關鍵幀和非關鍵幀。步驟102,對關鍵幀中的每一幀進行圖像過分割以獲得多個過分割塊。
步驟103,設置關鍵幀中的部分過分割塊的深度值。步驟104,根據部分過分割塊的深度值獲取其餘過分割塊的深度值,從而獲得關鍵幀的深度圖。步驟105,將關鍵幀和關鍵幀對應的深度圖作為訓練樣本,通過機器學習算法獲取非關鍵幀的深度圖。步驟106,對關鍵幀的深度圖和非關鍵幀的深度圖進行後處理,以獲得最終的視頻深度圖序列。下面將結合附圖詳細說明本發明實施例的方法中的各個步驟的具體實現方式。如圖2所示為步驟101的流程圖,具體包括以下步驟步驟201,讀取當前幀。步驟202,判斷當前幀是否為鏡頭變化幀。具體地,採用鏡頭檢測算法中的雙閾值法,由計算機自動判斷當前幀是否為鏡頭變化幀。在本發明的一個實施例中,鏡頭變化幀包括鏡頭切變幀和鏡頭漸變幀。步驟203,如果當前幀為鏡頭變化幀,則將當前幀作為關鍵幀。步驟204,如果當前幀不為鏡頭變化幀,則將當前幀作為非關鍵幀。步驟205,如果當前幀不為視頻幀序列中的最後一幀,則繼續讀取當前幀的下一幀,重複執行步驟202-204。步驟206,由用戶通過人機互動對當前幀檢測結果進行修正。具體地,對於冗餘或錯誤檢測出的鏡頭變化幀,由用戶將其人工標定為非關鍵幀; 對於未檢測出的鏡頭變化幀,由用戶將其人工標定為關鍵幀。在本發明的一個實施例中,採用基於K均值聚類的方法對視頻的每一幀進行圖像分割,如圖3所示,具體包括以下步驟步驟301,將原圖劃分為多個大小和形狀相同的矩形塊,這些矩形塊被當作原圖中所有像素點的初始聚類。例如,可選矩形塊的大小為16X16。步驟302,執行K均值算法,獲得原圖中所有像素點的最終聚類。步驟303,執行區域連通算法,將屬於同一聚類的像素點所構成的一個連通區域劃分成一個過分割塊。步驟304,對步驟303的劃分結果進行拆分和/或合併,以得到原圖像的最終分割結果。具體地,可將面積大於第一給定閾值的過分割塊進行拆分,將面積小於第二給定閾值的分割塊進行合併。其中,例如將第一給定閾值設置為600,將第二給定閾值設置為 100。圖4示出了步驟103中用戶通過人機互動為關鍵幀對應的部分過分割塊指定深度值的一個例子。用戶通過計算機屏幕,利用自編軟體或其他圖像編輯軟體提供的圖形界面,在原圖像上勾劃出7條灰度曲線。其中,3條曲線的灰度值為255,1條曲線的灰度值為 180,3條曲線的灰度為0,它們分別代表了每條曲線所經過的過分割塊的深度值。深度值為 255的過分割塊在場景中距離觀測者最近,深度值為0的過分割塊在場景中距離觀測者最遠,而深度值為180的過分割塊居於兩者之間。應理解,圖4所示的僅為示意性的例子,並
7不用於限制本發明,用戶可改變勾劃曲線的條數和位置等。在本發明的一個實施例中,採用深度擴散算法獲取其餘過分割塊的深度值,如圖5 所示,具體包括以下步驟步驟501 迭代開始前的初始化。在本發明的一個實施例中,對於已指定了深度值的過分割塊,初始深度值即為其被指定的深度,深度值的置信度設為1 ;對於其餘過分割塊,初始深度值都設為0,深度值的置信度也設為0。步驟502 針對每兩個相鄰的過分割塊,計算它們在顏色、紋理上的相似性度量。具體地,首先分別計算這兩個過分割塊中所有像素點的RGB(紅綠藍)顏色平均值,進而求取這兩個顏色平均值在顏色空間中的歐式距離D—。然後,分別統計這兩個過分割塊的RGB顏色直方圖,進而求取這兩個顏色直方圖 ^J Bhattacharyya Dbo接著,利用六個方向上的邊緣濾波器以及Laws紋理模板對原圖像進行濾波,分別計算這兩個過分割塊中所有像素點針對不同濾波器的響應平均值,每個過分割塊的響應平均值各自構成一個矢量;進而求取這兩個矢量之間的歐式距離Dtexture ;最後,根據公式S = exp (- α Dcolor- β Db- y Dtextrue)計算這兩個過分割塊在顏色、紋理上的相似性度量,其中,D。。1Ur、DB和Dtextee均被事先歸一化到0 255之間,α、β、γ可取為0. 2。步驟503 開始進行迭代,在每輪迭代中,更新其餘每個過分割塊的深度值。具體地,對於其餘的一個過分割塊i,它在第t+Ι輪迭代後的深度值Dt+1 (i)由如下公式決定
Σ KD'0)
權利要求
1.一種基於人機互動生成視頻深度圖序列的方法,其特徵在於,包括以下步驟 Al 從視頻幀序列中提取出關鍵幀和非關鍵幀;A2 對所述視頻幀序列的每一幀進行圖像過分割以獲得多個過分割塊; A3 設置所述關鍵幀中的部分過分割塊的深度值;A4 根據所述部分過分割塊的深度值獲取所述關鍵幀的其餘過分割塊的深度值,從而獲得所述關鍵幀的深度圖;A5 將所述關鍵幀和所述關鍵幀對應的深度圖作為訓練樣本,通過機器學習算法獲取所述非關鍵幀的深度圖;以及A6 對所述關鍵幀的深度圖和所述非關鍵幀的深度圖進行後處理,以獲得最終的視頻深度圖序列。
2.根據權利要求1所述的方法,其特徵在於,所述步驟Al具體包括All 通過採用鏡頭檢測算法中的雙閾值法,檢測出所述視頻幀序列中的鏡頭切換幀和鏡頭漸變幀,並將所述鏡頭切換幀和所述鏡頭漸變幀作為關鍵幀,其餘幀作為非關鍵幀;以及A12 對步驟All的檢測結果進行人工修正。
3.根據權利要求1所述的方法,其特徵在於,所述步驟A2中的過分割採用基於K均值聚類的方法。
4.根據權利要求1所述的方法,其特徵在於,所述步驟A3具體包括用戶在原圖像上勾劃出多條灰度曲線,其中每條曲線的灰度值代表該條曲線所經過的過分割塊的深度值。
5.根據權利要求1所述的方法,其特徵在於,所述步驟A4具體包括A41 將已指定深度值的過分割塊的深度值的置信度設為1,將其餘過分割塊的深度值以及深度值的置信度均設為0 ;A42 計算每兩個相鄰的過分割塊在顏色和紋理上的相似性度量;A43 開始進行迭代,在每輪迭代中,根據以下的公式更新過分割塊i的深度值,
6.根據權利要求5所述的方法,其特徵在於,其中所述步驟A42具體包括以下步驟A421 分別計算所述兩個相鄰的過分割塊中所有像素點的RGB顏色平均值,並獲取兩個所述RGB顏色平均值在顏色空間中的歐式距離D—;A422 分別統計所述兩個相鄰的過分割塊的RGB顏色直方圖,並獲取兩個所述顏色直 ^1 Bhattacharyya , Db ;A423 利用邊緣濾波器及laws紋理模板對所述原圖像進行濾波,分別計算所述兩個相鄰的過分割塊中所有像素點針對不同濾波器的響應平均值,其中每個過分割塊的響應平均值構成一個矢量,獲取兩個所述矢量之間的歐式距離Dtexture ;以及A424 通過以下的公式獲取所述兩個相鄰的過分割塊i和j在顏色和紋理上的相似性度量Ii,Sji = exp (- α Dcolor- β Db- γ Dtexture), 其中,α、β、Y為0至1之間的常數。
7.根據權利要求1所述的方法,其特徵在於,所述步驟Α5具體包括 Α51 尋找在所述非關鍵幀之前的與其距離最近的關鍵幀;Α52 獲取所述關鍵幀中每個過分割塊的特徵向量;Α53 根據所述關鍵幀中所有過分割塊的特徵向量及深度值,訓練SVM多分類器;以及 Α54 利用所述SVM多分類器對所述非關鍵幀中的過分割塊進行分類,以獲取所述非關鍵幀中的每個過分割塊的深度值。
8.根據權利要求7所述的方法,其特徵在於,所述過分割塊的特徵向量包括 過分割塊中所有像素點在紅、綠、藍三個顏色通道上的平均值;過分割塊中所有像素點針對9個Laws紋理模板的響應平均值; 過分割塊重心的橫坐標和縱坐標; 過分割塊中光流大小的平均值;以及過分割塊與圖像的上、下、左、右四個邊緣之間的最短路徑距離。
9.根據權利要求1所述的方法,其特徵在於,所述步驟A6具體包括按照「之」字形的順序遍歷深度圖中的每個像素,若前後兩個屬於不同過分割塊的像素在深度值上的差異小於給定閾值,則將後一個像素所屬的過分割塊的深度值設置為和前一個像素的深度值相等;以及對整個深度圖進行高斯濾波。
10.一種基於人機互動生成視頻深度圖序列的系統,其特徵在於,包括檢測模塊,用於從平面視頻幀序列中檢測出鏡頭變化幀以作為關鍵幀,其中所述鏡頭變化幀包括鏡頭切變幀和鏡頭漸變幀;過分割模塊,用於對所述視頻幀序列的每一幀進行圖像過分割以獲得多個過分割塊; 人機互動模塊,用於提供用戶操作界面以便用戶對所述檢測模塊的檢測結果進行修正,並對所述關鍵幀中的部分過分割塊設置深度值;關鍵幀深度圖生成模塊,用於根據所述關鍵幀中的部分過分割塊的深度值獲得其餘過分割塊的深度值,並根據所述關鍵幀中的所有過分割塊的深度值生成關鍵幀的深度圖;非關鍵幀深度圖生成模塊,用於以所述關鍵幀和所述關鍵幀的深度圖為訓練樣本,通過機器學習算法生成非關鍵幀的深度圖;以及後處理模塊,用於對所述關鍵幀和非關鍵幀的深度圖進行後處理,得到最終的視頻深度圖序列。
11.根據權利要求10所述的系統,其特徵在於,所述人機互動模塊具體包括 關鍵幀標註單元,用於對所述檢測模塊的檢測結果進行修正,將未檢測出的鏡頭變化幀標註為關鍵幀,將冗餘的或錯誤檢測出的鏡頭變化幀標註為非關鍵幀;以及深度值賦值單元,用於為用戶提供操作界面以使用戶在原圖像上勾劃出多條灰度曲線,其中每條曲線的灰度值代表該條曲線所經過的過分割塊的深度值。
全文摘要
本發明提出一種基於人機互動生成視頻深度圖序列的方法和系統,其中,方法包括以下步驟從視頻幀序列中提取出關鍵幀和非關鍵幀;對視頻幀序列的每一幀進行圖像過分割以獲得多個過分割塊;設置關鍵幀中的部分過分割塊的深度值;根據部分過分割塊的深度值獲取其餘過分割塊的深度值,從而獲得關鍵幀的深度圖;將關鍵幀和關鍵幀對應的深度圖作為訓練樣本,通過機器學習算法獲取非關鍵幀的深度圖;以及對關鍵幀和非關鍵幀的深度圖進行後處理,以獲得最終的視頻深度圖序列。根據本發明實施例的基於人機互動生成視頻深度圖序列的方法和系統,既能保證生成的視頻深度圖序列具有較高質量,又不需要用戶進行太多的額外操作,所有的用戶操作簡單而高效。
文檔編號G06K9/46GK102196292SQ20111017403
公開日2011年9月21日 申請日期2011年6月24日 優先權日2011年6月24日
發明者戴瓊海, 晏希 申請人:清華大學