視頻語義可視化方法

2023-08-09 03:38:16 1

專利名稱：視頻語義可視化方法
技術領域：
本發明涉及視頻圖像處理技術領域，尤其涉及一種視頻語義可視化方法。
背景技術：
隨著多媒體技術的迅速發展，各種圖像視頻資源極大豐富，影視產業每年生產出的作品不計其數。用戶要在海量影視作品中選擇符合其愛好的作品進行購買和觀賞，通常需要通過文字劇情簡介或者截圖進行了解。然而文字劇情簡介或者截圖往往不能給予用戶一個全面的語義的可視化視頻摘要。近些年來，為解決這一問題，計算機圖形學和多媒體領域的科研人員做了關於大量視頻摘要的研究。例如Correa等提出了一種動態視頻敘事摘要方法，Barnes等提出了「視頻掛毯」，使用戶可以交互瀏覽不同等級的視頻摘要。但這些方法均不能有效地提取出專業影視作品中複雜的交替敘事故事線，因此具有較大的局限性。

發明內容
(一 )要解決的技術問題本發明所要解決的技術問題是如何將視頻轉換成合成圖像，使該合成圖像能夠使視頻語義可視化。( 二 )技術方案為解決上述技術問題，本發明提供了一種視頻語義可視化方法，包括以下步驟a.將視頻片段進行鏡頭切分，然後提取切分後的每個鏡頭的音視頻特徵，通過對所述音視頻特徵進行聚類，得到多個故事單元，並計算所述故事單元之間的相關性，所述故事單元是指所述視頻片段中在時間上連續，處於同一場景，且包含同一組角色的一段故事情節；b.對每個所述故事單元進行關鍵前景內容和關鍵背景內容提取，並將所提取的關鍵前景內容和關鍵背景內容進行合成，得到單一的故事單元表示圖，其中，所述關鍵背景內容是指故事單元中場景尺度最大的一幀，所述關鍵前景內容是指對每個鏡頭進行基於顏色直方圖和光流的視覺顯著性檢測和人臉檢測後，對檢測出的顯著區域和人臉區域，按照顯著性值和在視頻中的持續時間進行重要性排序，排除排序靠後一定個數的重複物體及人臉後，所留下的區域；c.通過對所述多個故事單元發生的時序以及各個故事單元之間相關性的位置優化，進行多個所述故事單元表示圖的合成，得到故事單元語義可視化圖；d.用可視化符號語言在所述故事單元語義可視化圖上描述故事線，得到視頻語義可視化圖。優選地，步驟a中，提取切分後的每個鏡頭的音視頻特徵具體為提取切分後的每個鏡頭的顏色直方圖特徵和梅爾倒譜係數音頻特徵。優選地，步驟a中，使用歸一化分割方法對所述音視頻特徵進行聚類。
優選地，步驟a中，對所述音視頻特徵進行聚類具體為通過所述顏色直方圖特徵與梅爾倒譜係數音頻特徵在時域上的距離定義兩個鏡頭間的相似度，並構建所有鏡頭的相似度矩陣，使用歸一化分割方法對所述相似度矩陣進行分割，得到多個鏡頭的聚類。優選地，步驟b具體為使用光流平滑性檢測和定場鏡頭檢測的方法確定關鍵背景內容，並使用光流的視覺顯著性檢測和人臉檢測確定關鍵前景內容，然後選擇所述關鍵背景內容作為合成的背景，將關鍵前景內容按照重要性排序依次合成到所述關鍵背景內容上，每次合成的位置選取為所述關鍵背景內容上視覺顯著性響應值最小的區域；其中，鏡頭的光流平滑性是指鏡頭每個像素的時間和空間鄰域內光流的方差的平均值；所述按照重要性排序的方法如下對於使用光流的視覺顯著性檢測和人臉檢測檢測出的顯著區域和人臉區域，按照顯著性值和在視頻中的持續時間進行排序。優選地，步驟b中，所述將關鍵前景內容按照重要性排序依次合成到所述關鍵背景內容上具體為首先對合成邊界進行圖分割優化，找到最優邊界，然後用泊松融合或透明度融合方法進行無縫合成，得到單一的故事單元表示圖。優選地，步驟b中進行合成時，當所述關鍵背景內容上視覺顯著性響應值低於 50 %時停止加入所述關鍵前景內容。優選地，步驟c具體包括Cl、對每個故事單元表示圖的大小進行調整，使該故事單元表示圖與其故事單元在視頻中的持續時間成正比；c2、最小化如下以故事單元表示圖位置為變量的能量方程，將故事單元表示圖布置在給定大小的畫布上
t0022] E = Eovl+wsal*Esal+wrela*Erela+wtime*Etime,其中，Eovl是故事單元所覆蓋畫布面積的相反數，Esal是多個所述故事單元表示圖的合成圖像的顯著性值的相反數，Erela是根據步驟a計算得到的故事單元之間的相關性， Etiffle是故事單元出現的時刻，wsal, wrela, Wtiffle為權重；c3、對多個故事單元表示圖的重合區域進行圖分割優化，找到最優邊界，然後用泊松融合或透明度融合方法進行無縫合成。優選地，步驟d具體為以故事單元表示圖為節點構建故事線圖，對合成的故事單元語義可視化圖中任意相鄰兩個故事單元表示圖，如果所述兩個故事單元間的相關性大於預設閾值，則按照故事單元發生的時序為方向在兩個故事單元表示圖之間增加一條有向邊，遍歷所有故事單元表示圖後，將所述有向邊所形成的環在時域上距離最大的一條有向邊上切開，從而，得到視頻語義可視化圖。(三)有益效果本發明通過視頻圖像處理技術將一段輸入視頻轉換成一張信息緊緻的合成圖像，該圖像可以將視頻中的主要角色和情節以及複雜的交替敘事故事線可視化。用戶通過瀏覽該圖像，可以快速獲知視頻片段的語義內容、類型與故事線，從而使用戶在無需瀏覽整個視頻的情況下迅速理解視頻內容。

圖1是依據本發明實施例的視頻語義可視化方法的流程圖2是依據本發明實施例的視頻語義可視化方法所得的視頻語義可視化結果示意圖。
具體實施例方式下面對於本發明所提出的一種視頻語義可視化方法，結合附圖和實施例詳細說明。參照圖1，本發明實施例的方法按以下步驟操作a.視頻片段的音視頻特徵分析； b.單一視頻故事單元表示圖的合成；c.故事單元語義可視化圖的布局與合成；d.用可視化符號語言描述故事線。對於a步驟，本發明對視頻片段進行音視頻特徵分析，將其分割為故事單元，並計算各個故事單元之間的相關性。具體細節為首先將用戶輸入的視頻片段使用任意已有的鏡頭切分方法將視頻片段切分成一組鏡頭的集合，然後提取每個鏡頭的顏色直方圖特徵和梅爾倒譜係數(MFCC)音頻特徵，並通過這兩個特徵在時域上的距離定義每兩個鏡頭的相似度，距離越大，相似度越小，由此可以構建所有鏡頭的相似度矩陣，可以使用歸一化分割 (Normalized Cut)方法對相似度矩陣進行分割，得到多個鏡頭聚類。其中每個聚類代表了一個特徵相似且時間連續的視頻段，一般為影視作品中在時間上連續，且處於同一場景，包含同一組角色的一段故事情節，本發明將其定義為故事單元。由於影視作品的導演善於用交替的手法講述故事，因而往往存在不同場景的故事單元在時序上交替進行的情況，為檢測出正確的故事線，在得到每個故事單元後，可以使用其顏色直方圖和MFCC音頻特徵作為故事單元的特徵，從而可以計算各個故事單元之間的相關性，可用於在步驟c和d中構建可視化布局以及故事線指示圖。對於b步驟，本發明合成單一視頻故事單元表示圖。具體細節為對每個故事單元，首先提取關鍵前背景內容。其中，首先定義每個鏡頭的光流平滑性為該鏡頭每個像素的時間和空間鄰域內光流的方差的平均值，通過這一平滑性值對鏡頭進行排序，選取平均方差最小(及光流最平滑)的10個鏡頭。如果其中包含在整個故事單元中時序上前5的鏡頭，則認為它們是定場鏡頭，再在其中選平滑排序最靠前的鏡頭；否則直接選取平滑排序最靠前的鏡頭。然後在挑選出的這一鏡頭中，通過判斷光流朝向得知鏡頭是縮放還是拉伸，從而可以選擇場景尺度最大的一幀，作為故事單元的關鍵背景內容，參照圖2中bl。接著，本發明提取關鍵前景內容。其中，對每個鏡頭進行基於顏色直方圖和光流的視覺顯著性檢測和人臉檢測，對檢測出的顯著區域和人臉區域，按照顯著性值(為視覺顯著性響應值和人臉檢測響應值的加權和)和在視頻中的持續時間進行重要性排序，並通過顏色直方圖對比排除排序靠後的重複物體及人臉，最終留下的區域作為關鍵前景內容，參照圖2中1^2。下一步，本發明將所提取的關鍵前景內容和關鍵背景內容進行合成得到單一的故事單元表示圖。其中，選擇關鍵背景內容作為合成的背景，然後將關鍵前景內容按照重要性排序依次合成到它上面。每次合成的位置都選取為關鍵背景內容上視覺顯著性響應值最小的區域。當關鍵背景內容上視覺顯著性響應值低於50%時停止加入關鍵前景內容，這樣確保了關鍵前背景的內容都得到保留，並且是合成圖不至於太嘈雜，利於用戶了解故事單元發生的地點和角色等多方面信息。在合成時，為得到一致的合成結果，首先對合成邊界進行圖分割 (Graph-Cut)優化，找到最優邊界，然後用泊松(Poisson)融合或透明度融合方法進行無縫合成，參照圖2中虛線b3。最終合成的單一視頻故事單元表示圖參照圖2中的b4。對於c步驟，進行故事單元語義可視化圖的布局與合成。在獲取了輸入視頻中多個故事單元表示圖後，要將它們合理布局到一張圖像上，成為該視頻的語義可視化圖。具體細節為首先將每個故事單元表示圖的大小進行調整，使之與其故事單元在視頻中的持續時間成正比。然後最小化如下以故事單元表示圖位置為變量的能量方程，將故事單元表示圖合理布置在給定大小的畫布上E = E。vl+wsal*Esal+wrela*Erela+wtime*Etime，其中，E-是故事單元覆蓋畫布面積的相反數，可以保證畫布儘量被覆蓋。Esal是多個所述故事單元表示圖的合成圖像的顯著性值的相反數，可以讓儘量多的顯著性區域顯示出來。EMla是根據a步驟中計算得到的故事單元之間的相關性，其約束相關性大的故事單元中心坐標的χ值儘量相等，可以將相關性大(一般為同一條故事線)的故事單元儘量布置在一列上。Etime是根據故事單元出現的時刻，約束時間上較接近的故事單元中心坐標的 y值儘量相等，這樣可以讓合成的語義可視化圖中先發生的故事單元儘量在前，後發生的故事單元儘量在後。經過多次試驗分析統計，選取權重Wsal = 0. 15，Wrela = 0. 1，Wtime = 0. 1 對大多數合成可以得到最佳結果，實際使用時，用戶也可能根據需要微調權重。該能量可用貪心算法優化。為得到無縫合成結果，接下來依然要對故事單元表示圖的重合區域進行圖分割(Graph-Cut)優化，找到最優邊界，然後用泊松(Poisson)融合或透明度融合方法進行無縫合成，參照圖2中虛線b3。圖2可以看作是含有8個故事單元表示圖的故事單元語義可視化圖的合成示意。對於步驟d，本發明用可視化符號語言描述故事線。具體細節為先以故事單元表示圖為節點構建故事線圖。對合成的故事單元語義可視化圖中任意相鄰兩個故事單元表示圖，如果其對應故事單元的相關性大於預設閾值，則按照其發生的時序為方向在兩者之間增加一條有向邊。在遍歷所有故事單元表示圖後，將有向邊所形成的環在時域上距離最大的一條邊上切開。這樣，圖中的每一條分支代表一條故事線。如圖2中的b4，用箭頭dl 將每條有向邊表示了出來，從而標出了故事單元表示圖之間的連接關係，最終得到了如圖2 所示的視頻語義可視化圖。由以上實施例可以看出，本發明通過視頻圖像處理技術將一段輸入視頻轉換成一張信息緊緻的合成圖像，該圖像可以將視頻中的主要角色和情節以及複雜的交替敘事故事線可視化。用戶通過瀏覽該圖像，可以快速獲知視頻片段的語義內容、類型與故事線，從而使用戶在無需瀏覽整個視頻的情況下迅速理解視頻內容。以上實施方式僅用於說明本發明，而並非對本發明的限制，有關技術領域的普通技術人員，在不脫離本發明的精神和範圍的情況下，還可以做出各種變化和變型，因此所有等同的技術方案也屬於本發明的範疇，本發明的專利保護範圍應由權利要求限定。
權利要求
1.一種視頻語義可視化方法，其特徵在於，包括以下步驟a.將視頻片段進行鏡頭切分，然後提取切分後的每個鏡頭的音視頻特徵，通過對所述音視頻特徵進行聚類，得到多個故事單元，並計算所述故事單元之間的相關性，所述故事單元是指所述視頻片段中在時間上連續，處於同一場景，且包含同一組角色的一段故事情節；b.對每個所述故事單元進行關鍵前景內容和關鍵背景內容提取，並將所提取的關鍵前景內容和關鍵背景內容進行合成，得到單一的故事單元表示圖，其中，所述關鍵背景內容是指故事單元中場景尺度最大的一幀，所述關鍵前景內容是指對每個鏡頭進行基於顏色直方圖和光流的視覺顯著性檢測和人臉檢測後，對檢測出的顯著區域和人臉區域，按照顯著性值和在視頻中的持續時間進行重要性排序，排除排序靠後一定個數的重複物體及人臉後，所留下的區域；c.通過對所述多個故事單元發生的時序以及各個故事單元之間相關性的位置優化，進行多個所述故事單元表示圖的合成，得到故事單元語義可視化圖；d.用可視化符號語言在所述故事單元語義可視化圖上描述故事線，得到視頻語義可視化圖。
2.根據權利要求1所述的方法，其特徵在於，步驟a中，提取切分後的每個鏡頭的音視頻特徵具體為提取切分後的每個鏡頭的顏色直方圖特徵和梅爾倒譜係數音頻特徵。
3.根據權利要求2所述的方法，其特徵在於，步驟a中，使用歸一化分割方法對所述音視頻特徵進行聚類。
4.根據權利要求3所述的方法，其特徵在於，步驟a中，對所述音視頻特徵進行聚類具體為通過所述顏色直方圖特徵與梅爾倒譜係數音頻特徵在時域上的距離定義兩個鏡頭間的相似度，並構建所有鏡頭的相似度矩陣，使用歸一化分割方法對所述相似度矩陣進行分割，得到多個鏡頭的聚類。
5.根據權利要求1所述的方法，其特徵在於，步驟b具體為使用光流平滑性檢測和定場鏡頭檢測的方法確定關鍵背景內容，並使用光流的視覺顯著性檢測和人臉檢測確定關鍵前景內容，然後選擇所述關鍵背景內容作為合成的背景，將關鍵前景內容按照重要性排序依次合成到所述關鍵背景內容上，每次合成的位置選取為所述關鍵背景內容上視覺顯著性響應值最小的區域；其中，鏡頭的光流平滑性是指鏡頭每個像素的時間和空間鄰域內光流的方差的平均值；所述按照重要性排序的方法如下對於使用光流的視覺顯著性檢測和人臉檢測檢測出的顯著區域和人臉區域，按照顯著性值和在視頻中的持續時間進行排序。
6.根據權利要求5所述的方法，其特徵在於，步驟b中，所述將關鍵前景內容按照重要性排序依次合成到所述關鍵背景內容上具體為首先對合成邊界進行圖分割優化，找到最優邊界，然後用泊松融合或透明度融合方法進行無縫合成，得到單一的故事單元表示圖。
7.根據權利要求5所述的方法，其特徵在於，步驟b中進行合成時，當所述關鍵背景內容上視覺顯著性響應值低於50%時停止加入所述關鍵前景內容。
8.根據權利要求1所述的方法，其特徵在於，步驟c具體包括Cl、對每個故事單元表示圖的大小進行調整，使該故事單元表示圖與其故事單元在視頻中的持續時間成正比；c2、最小化如下以故事單元表示圖位置為變量的能量方程，將故事單元表示圖布置在給定大小的畫布上L j^ovl sal其中，Eovl是故事單元所覆蓋畫布面積的相反數，Esal是多個所述故事單元表示圖的合成圖像的顯著性值的相反數，Erela是根據步驟a計算得到的故事單元之間的相關性，Etinre是故事單元出現的時刻，wsal, wrela, Wtime為權重；c3、對多個故事單元表示圖的重合區域進行圖分割優化，找到最優邊界，然後用泊松融合或透明度融合方法進行無縫合成。
9.根據權利要求1 8中任一項所述的方法，其特徵在於，步驟d具體為以故事單元表示圖為節點構建故事線圖，對合成的故事單元語義可視化圖中任意相鄰兩個故事單元表示圖，如果所述兩個故事單元間的相關性大於預設閾值，則按照故事單元發生的時序為方向在兩個故事單元表示圖之間增加一條有向邊，遍歷所有故事單元表示圖後，將所述有向邊所形成的環在時域上距離最大的一條有向邊上切開，從而，得到視頻語義可視化圖。
全文摘要
本發明涉及視頻圖像處理技術領域，公開了一種視頻語義可視化方法，包括步驟a.將視頻片段進行鏡頭切分，提取每個鏡頭的音視頻特徵，通過對音視頻特徵進行聚類，得到多個故事單元，並計算故事單元之間的相關性；b.對每個故事單元進行關鍵前景內容和關鍵背景內容提取，並將所提取的關鍵前景內容和關鍵背景內容進行合成，得到單一的故事單元表示圖；c.通過對多個故事單元發生的時序以及各個故事單元之間相關性的位置優化，進行多個故事單元表示圖的合成，得到故事單元語義可視化圖；d.用可視化符號語言在故事單元語義可視化圖上描述故事線，得到視頻語義可視化圖。本發明將視頻自動轉換成合成圖像，使得該合成圖像能夠使視頻語義可視化。
文檔編號H04N21/854GK102523536SQ20111042159
公開日2012年6月27日申請日期2011年12月15日優先權日2011年12月15日
發明者胡事民, 陳韜申請人:清華大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

視頻語義可視化方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法