視頻處理裝置、視頻處理方法及視頻處理程序的製作方法

2023-09-25 19:27:45 3

專利名稱：視頻處理裝置、視頻處理方法及視頻處理程序的製作方法
技術領域：
本發明涉及生成視頻數據的摘要的視頻處理裝置、視頻處理方法及視頻處理程序。
背景技術：
用戶為從設備中保存的許多視頻數據中找出想要看的視頻數據，例如可以通過視頻的快進再生來查找目的視頻，但是這需要很大的時間和勞力。因此提出生成視頻數據的摘要，使用摘要容易檢索希望的視頻數據的技木。例如，在專利文獻I中提出了一種視頻信息記錄再生裝置，其能夠與稱為新聞或者戲劇、音樂節目這樣的節目的種類一致，適當提取特徵區間即對於該節目重要的區間，生成摘要視頻後再生。現有技術文獻專利文獻專利文獻I :日本特許第4039873號公報

發明內容
但是，在專利文獻I記載的技術中，被判斷為重要的區間的部分集中於視頻全體的例如序幕中的情況下，生成僅將該部分作為摘要再生，而完全不再生其以外的部分的摘要。用這樣的摘要，用戶難於把握視頻全體的內容。另外，在專利文獻I中，針對每一場景檢測特徵量，根據該特徵量評價場景，選擇場景全體或者場景中預定的一部分區間作為摘要。但是在該方法中，例如在對於全體10分鐘中成為值得看的場面的重要的區間僅I分鐘的場景，選擇該場景全體作為摘要的情況下，9分鐘期間成為不特別值得看的場景。另夕卜，即使在選擇該場景的一部分作為摘要的情況下，也有從不值得看的場面的9分鐘期間中選擇摘要的可能。鑑於上述做出本發明，其目的是提供能夠生成用戶容易把握視頻全體的內容的摘要的視頻處理裝置、視頻處理方法及視頻處理程序。用於解決課題的手段根據本發明的一個實施方式，提供ー種視頻處理裝置，其特徵在於，具有場景內摘要區間數決定部，用於決定從視頻數據的各場景中提取的摘要區間數；特徵量檢測部，用於從通過上述場景內摘要區間數決定部決定的上述摘要區間數為I以上的場景即剪輯提取場景中包含的幀中選擇多個代表幀，把在上述各代表幀內存在的被攝影體的臉的數量、上述各代表幀內的最大的臉的位置以及最大的臉的大小中的至少ー個，作為上述各代表幀的特徵量來檢測；重要度計算部，用於根據上述特徵量來計算上述各代表幀的重要度；摘要區間選擇部，用於根據上述特徵量以及上述重要度，從上述剪輯提取場景中選擇通過上述場景內摘要區間數決定部決定的數的剪輯作為上述摘要區間；以及再生部，用於再生通過上述摘要區間選擇部選擇的上述摘要區間。根據本發明的另外ー種實施方式，提供ー種視頻處理方法，其特徵在於，包含決定從視頻數據的各場景中提取的摘要區間數的步驟；從上述摘要區間數為I以上的場景即剪輯提取場景中包含的幀中選擇多個代表幀，把在上述各代表幀內存在的被攝影體的臉的數量、上述各代表幀內的最大的臉的位置以及最大的臉的大小中的至少ー個，作為上述各代表幀的特徵量來檢測的步驟；根據上述特徵量計算上述各代表幀的重要度的步驟；根據上述特徵量以及上述重要度，從上述剪輯提取場景中選擇通過上述決定摘要區間數的步驟決定的數量的剪輯作為上述摘要區間的步驟；以及再生通過上述摘要區間選擇部選擇的上述摘要區間的步驟。根據本發明的另外ー種實施方式，提供一種視頻處理程序，用於使計算機執行下述步驟決定從視頻數據的各場景中提取的摘要區間數的步驟；從上述摘要區間數為I以上的場景即剪輯提取場景中包含的幀中選擇多個代表幀，把在上述各代表幀內存在的被攝影體的臉的數量、上述各代表幀內的最大的臉的位置以及最大的臉的大小中的至少ー個，作為上述各代表幀的特徵量來檢測的步驟；根據上述特徵量計算上述各代表幀的重要度的步驟；根據上述特徵量以及上述重要度，從上述剪輯提取場景中選擇通過上述決定摘要區間數的步驟決定的數量的剪輯作為上述摘要區間的步驟；以及再生通過上述摘要區間選擇部選擇的上述摘要區間的步驟。發明的效果根據本發明，能夠生成用戶容易把握視頻全體的內容的摘要。

圖I是表示本發明的實施方式的視頻處理裝置的結構的框圖。圖2是表示決定給各場景分配的剪輯數的過程的流程圖。圖3是表示分組的一例的圖。圖4是表示剪輯提取場景的幀結構的一例的示意圖。圖5是說明代表幀的特徵量的圖。圖6是表示剪輯提取場景中的各代表幀的特徵量的一例的圖。圖7是表示剪輯提取場景中的各代表幀的重要度的一例的圖。圖8是表示剪輯提取場景中的各代表幀的重要度的另一例的圖。圖9是表示決定摘要區間的過程的流程圖。圖10是表示摘要區間的示意圖。
具體實施例方式下面參照

本發明的實施方式。圖I是表示本發明的實施方式的視頻處理裝置的結構的框圖。圖I表示的視頻處理裝置10具有視頻數據存儲部11、摘要生成對象場景指定部12、總剪輯數決定部13、分組部14、組內摘要區間數決定部15、場景內摘要區間數決定部16、特徵量檢測部17、場景分割部18、場景特徵判定部19、重要度計算部20、摘要區間選擇部21、摘要數據存儲部22、以及再生部23。
視頻數據存儲部11具有硬碟、半導體存儲介質等非易失性的存儲介質，存儲用視頻攝像機等記錄的視頻數據。視頻數據存儲部11也可以採用可從視頻處理裝置10裝卸的結構。給在視頻數據存儲部11中存儲的視頻數據附加包含用視頻攝像機等攝影設備攝影的視頻數據中的各場景的攝影開始時刻、攝影結束時刻、攝影場所等的攝影信息。攝影信息可以在攝影時用攝影設備取得。這裡，所謂場景指一系列攝影動作中的從攝影開始到攝影結束的段落。摘要生成對象場景指定部12從視頻數據存儲部11中存儲的場景中指定成為摘要生成對象的場景。可以根據由用戶對於操作輸入部(未圖示)的操作，逐一指定摘要生成對象場景，也可以把通過用戶操作選擇的兩個場景之間已攝影的所有場景作為摘要生成對象場景。另外，也可以根據用戶操作指定日期，把指定的日子攝影的全部場景作為摘要生成對象場景。
總剪輯數決定部13，從用摘要生成對象場景指定部12指定的摘要生成對象場景的全體中決定作為摘要而再生的區間的剪輯(摘要區間)的數的總剪輯數Ac。總剪輯數Ac也可以通過用戶操作指定，或者也可以由用戶指定摘要的長度，根據該值決定總剪輯數Ac。在這樣根據摘要的長度決定總剪輯數Ac的情況下，總剪輯數決定部13預先設定好成為剪輯的平均時間的標準的時間，根據該值計算總剪輯數Ac。例如，在把剪輯的平均時間的標準設定為10秒時，如果用戶指定摘要的長度為180秒，則Ac=180 +10=18，總剪輯數Ac成為18剪輯。此外，在根據摘要的長度計算總剪輯數Ac的情況下，摘要的長度也可以不通過用戶操作輸入，而根據摘要生成對象場景的合計攝影時間等信息自動計算。分組部14根據場景間的攝影間隔或者攝影內容等，進行摘要生成對象場景中的場景的分組。例如，通過在日本特開2009 — 99120號公報中記載的方法進行分組。由此，把在接近的時刻或場所攝影的場景彼此匯總分組，或者把攝影了相同內容的場景彼此匯總分組。組內摘要區間數決定部15給各組分配由總剪輯數決定部13決定的總剪輯數Ac，決定要從各組提取的剪輯數。例如，組內摘要區間數決定部15根據屬於組的場景數、或者屬於組的場景的合計攝影時間分配剪輯。場景內摘要區間數決定部16給組內的各場景分配用組內摘要區間數決定部15決定的各組的剪輯數，決定從各場景選擇的剪輯數。特徵量檢測部17，從由場景內摘要區間數決定部16分配了ー個以上的剪輯的剪輯提取場景中包含的幀中選擇多個代表幀，檢測各代表幀的特徵量。例如，特徵量檢測部17把在各代表幀內存在的被攝影體的臉的數量、代表幀內的最大的臉的位置、以及最大的臉的大小，作為代表幀的特徵量來檢測。場景分割部18把分配了兩個以上的剪輯的剪輯提取場景分割為與所分配的剪輯數相同數量的分割場景。例如，場景分割部18以分配的剪輯數等分剪輯提取場景，把分配了兩個剪輯的I分鐘的場景等分為前半30秒、後半30秒的兩個分割場景。場景特徵判定部19對於各剪輯提取場景根據代表幀的特徵量等判別場景的特徵。對於用場景分割部18分割的剪輯提取場景針對每一分割場景判別場景的特徵。例如，場景特徵判定部19根據用特徵量檢測部17檢測出的被攝影體的臉的數量，把被攝影體是一人還是多人作為場景的特徵判定。重要度計算部20根據各代表幀的特徵量計算各代表幀的重要度。重要度計算部20對於場景的每ー個特徵存儲重要度計算法，通過與用場景特徵判定部19決定的剪輯提取場景(在被分割的情況下為每一分割場景)的特徵對應的重要度計算法，根據各代表幀的特徵量計算各代表幀的重要度。摘要區間選擇部21根據由特徵量檢測部17檢測出的代表幀的特徵量、和由重要度計算部20算出的代表幀的重要度，針對各剪輯提取場景(摘要區間)決定作為剪輯選擇的區間。摘要數據存儲部22具有硬碟等非易失性的存儲介質，作為摘要數據以時間系列順序存儲由摘要區間選擇部21選擇的剪輯的信息。摘要數據對於各剪輯包含用於識別提取的場景的場景ID、和剪輯的開始時刻以及結束時刻的信息。場景ID，可以作為以記錄順序給各場景分配的值，也可以作為記錄場景的視頻文件名。此外，也可以由視頻數據存儲部11兼做摘要數據存儲部22。再生部23，根據在摘要數據存儲部22中存儲的摘要數據，以時間系列順序再生由摘要區間選擇部21從在視頻數據存儲部11中存儲的視頻數據選擇的剪輯(摘要區間)，由此進行摘要再生，使在視頻處理裝置10上連接的顯示裝置(未圖示)顯示摘要的視頻。下面說明視頻處理裝置10的動作。當由用戶進行指定摘要生成對象場景的操作吋，摘要生成對象場景指定部12，與用戶的操作對應，從在視頻數據存儲部11中存儲的場景中指定摘要生成對象場景。另外，總剪輯數決定部13決定從摘要生成對象場景的全體中作為摘要區間而選擇的總剪輯數Ac。當指定摘要生成對象場景，決定總剪輯數Ac時，視頻處理裝置10決定要給摘要生成對象場景中的各場景分配的剪輯數。關於該過程，參照圖2表示的流程圖進行說明。首先，在步驟SlO中，分組部14進行摘要生成對象場景中的各場景的分組。在本實施方式中，如圖3所示，作為把摘要生成對象場景分類為從組I到組g的g個組進行說明。接著，在步驟S20中，組內摘要區間數決定部15給各組分配總剪輯數Ac，決定要從各組中提取的剪輯數。通過給根據場景間的攝影間隔或攝影內容等分類的各組分配剪輯，作為摘要提取的視頻不會不平衡，能夠把各種場面的視頻均衡地加入摘要中。在本實施方式中，組內摘要區間數決定部15根據
Ce(_; --'!!MM疊I讓戀!IL翼 Sc ... (I)
H,計算從組η(η=1、2、···)中提取的剪輯數Ge (η)。式中，L (η)是組η的合計攝影時間，N (η)是在組η中包含的場景數。通過根據式(I)給各組分配剪輯，能夠從場景數多、攝影時間長的組中選擇多個剪輯。接著，在步驟S30中，場景內摘要區間數決定部16把表示組的輪流次序的變量η設定為I。接著，在步驟S40中，場景內摘要區間數決定部16把組η的開始場景的剪輯數設為I。接著，在步驟S50中，場景內摘要區間數決定部16判斷給組η分配的剪輯數Gc(n)是否等於I。在Ge (n) =1的情況下(步驟S50 :是),前進到步驟SI 10,在不是Ge (η)=1的情況下(步驟S50 :否)，前進到步驟S60。在步驟S60中，場景內摘要區間數決定部16，在屬於組η的場景中的，還未分配剪輯的場景(剪輯數為O的場景)中，把與緊前面的場景的攝影間隔最長的場景的剪輯數設為
Io接著，在步驟S70中，場景內摘要區間數決定部16判斷給組η內的場景分配的剪輯數的合計是否達到Ge (η)。在達到Ge (η)的情況下(步驟S70 :是)，前進到步驟S110，在未達到Ge (η)的情況下(步驟S70 :否)，前進到步驟S80。在步驟S80中，場景內摘要區間數決定部16判斷組η內的全部場景的剪輯數是否成為I。在全部場景的剪輯數成為I的情況下(步驟S80 :是)，前進到步驟S90，在有剪輯數是O的場景的情況下(步驟S80 :否)，返回步驟S60。在步驟S90中，場景內摘要區間數決定部16,在屬於組η的場景中，使(攝影時間(剪輯數)的值是最大的場景的剪輯數增加I。接著，在步驟S100，場景內摘要區間數決定部16判斷給組η內的場景分配的剪輯數的合計是否達到Ge (η)。在達到Ge (η)的情況下(步驟S100:是)，前進到步驟S110，在未達到Ge (η)的情況下(步驟SlOO :否)，返回步驟S90。在步驟SllO中，場景內摘要區間數決定部16判斷變量η是否是表示最後的組的值g。在n=g的情況下(步驟SllO :是),結束處理,在不是n=g的情況下(步驟SllO :否),在步驟S120中，場景內摘要區間數決定部16使變量η增加1，其後返回步驟S40。通過以上的處理，對於從組I到組g的所有的組給組內的各場景進行剪輯的分配。此外，進行各場景的剪輯的分配的方法不限於上述處理，例如，也可以由用戶指定各場景的剪輯數。另外，也可以從組內的攝影時間長的場景開始按照順序每次分配ー個剪輯。在這種情況下，在總剪輯數Ac比場景數多時，通過從攝影時間長的場景開始按照順序每次再分配ー個剪輯，能夠從長的場景中選擇多個剪輯。另外，也可以根據場景間的攝影間隔來分配剪輯。例如，計算各場景間的攝影間隔，從在組內與緊跟前的場景的攝影間隔長的場景開始按照順序分配剪輯。另外，也可以組合上述那樣的方法和根據攝影內容對場景進行分組來進行剪輯的分配。將通過場景內摘要區間數決定部16分配了ー個以上的剪輯(摘要區間)的場景稱為剪輯提取場景。特徵量檢測部17從在剪輯提取場景中包含的幀中選擇每ー預定時間的幀作為代表幀，檢測表示各代表幀的特徵的特徵量。例如如圖4所示，假定有由幀f (O) f (16)的17個幀構成的剪輯提取場景。在圖4中，橫軸表不各巾貞的記錄時刻。例如在選擇每一秒的幀作為代表幀的情況下，特徵量檢測部17分別把開始幀f(0)、從攝影開始I秒後記錄的幀f(5)、在其I秒後記錄的幀f (10)，再在其I秒後記錄的幀f (15)這四個幀作為代表幀F (O)、F (I)、F (2)、F (3)，從各個幀中檢測特徵量。在本實施方式中，特徵量檢測部17把代表幀F (i) (i=0、l、2、···)內存在的被攝影體的臉的數量Num (F (i))、作為代表幀F (i)內的最大的臉的位置、從該最大的臉的中心到幀的四角中的最近的距離Dis (F (i))、以及最大的臉的大小Siz (F (i))，作為代表幀F (i)的特徵量來檢測。關於臉的圖像的檢測，公知各種方法，例如，因為可以使用在日本特許第4158153號公報中記載的技術檢測臉的圖像，所以這裡關於其處理內容省略說明。圖5表示被攝影體的臉存在的幀的一例。在圖5表示的幀中最大顯示的臉是臉A。另外，因為在幀的四角中與臉A的中心最近的是左上角，所以把從臉A的中心到左上角的距離作為Dis (F (i))。Siz (F (i))取最大顯示的臉A的縱向的長度。另外，因為在圖5表示的巾貞中臉顯示出3個,所以有Num (F (i))=3。這些特徵量，在攝影時由攝影設備取得，可以讀入在文件等中存儲的這些特徵量，也可以通過特徵量檢測部17解析視頻數據來取得。在存在通過場景內摘要區間數決定部16分配了兩個以上的剪輯的剪輯提取場景的情況下，場景分割部18把該剪輯提取場景分割為與所分配的剪輯數相同數量的分割場
旦
-5^ O接著,場景特徵判定部19對於各剪輯提取場景判定場景的特徵。對於由場景分割部18分割的剪輯提取場景，對於每一分割場景判別場景的特徵。在本實施方式中，場景特徵判定部19根據由特徵量檢測部17檢出的代表幀F (i)中的被攝影體的臉的數量Num (F
(1))，判定被攝影體是I人還是多人作為特徵量。場景特徵判定部19，對於各剪輯提取場景(在被分割的情況下為各分割場景)，判別該場景內的各代表幀中的被攝影體的臉的數量是I還是2以上，對臉的數量是I的代表幀的數和臉的數量是2以上的代表幀的數進行計數。然後，在臉的數量是I的代表幀的數比臉的數量是2以上的代表幀的數多的情況下，把該場景的被攝影體作為I人。另ー方面，在臉的數量是2以上的代表幀的數比臉的數量是I的代表幀的數多的情況下，把該場景的被攝影體作為多人。另外，在全部代表幀中ー個臉也沒有檢出的情況下，該場景的被攝影體作為I人。圖6表示I分鐘長的剪輯提取場景中的各代表幀的從場景開始起的經過時間以及特徵量(Num (F (i))、Dis (F (i))、Siz (F (i)))。以圖6的場景為例，關於給剪輯提取場景分配的剪輯數是I的情況和2的情況的各情況，說明場景特徵判斷部19中的場景的特徵的判定。( I)給剪輯提取場景分配的剪輯數是I的情況從剪輯提取場景的全部代表幀判別該場景的特徵。在圖6中，在全部代表幀中，臉的數量是I的代表幀有28幀，臉的數量是2以上的代表幀有15幀。因此因為臉的數量是I的代表幀的一方比臉的數量是2以上的代表幀多，所以該場景的特徵成為「被攝影體是I人，，。(2)給剪輯提取場景分配的剪輯數是2的情況把剪輯提取場景分割為00 00 00 00 00 29和00 00 30 00 00 59這樣兩個分割場景，對於各分割場景判別特徵。首先，在00 00 00 00 00 29的分割場景(第一分割場景)中，臉的數量是I的代表幀有15幀，但是沒有臉的數量是2以上的代表幀。因此，第一分割場景的特徵是「被攝影體是I人」。另ー方面，在00 00 :30 00 00 :59的分割場景(第二分割場景)中，臉的數量是I的代表幀有13巾貞，臉的數量是2以上的代表幀有15幀。因此，因為臉的數量是2以上的代表幀的一方比臉的數量是I的代表幀多，所以第二分割場景的特徵是「被攝影體是多人」。當通過場景特徵判定部19決定各剪輯提取場景的特徵時，重要度計算部20根據該場景的特徵，根據各代表幀的特徵量計算各代表幀的重要度。重要度計算部20，在計算重要度時，首先求剪輯提取場景中的Num (F (i))、Dis (F (i))、Siz (F (i))各自的最大值MaxNum、MaxDis、MaxSiz。對於通過場景分割部18分割後的剪輯提取場景,對於姆一分割場景求這些的值。
使用上述的值，重要度計算部20通過式(2)計算在特徵是「被攝影體是I人」的場景中包含的代表幀F (i)的重要度I (F (i))。I (F (i)) = IOStz (F (i)) /MaxSiz+Dis (F (i)) /MaxDis ... (2)另外，重要度計算部20通過式(3)計算在特徵是「被攝影體是多人」的場景中包含的代表幀F (i)的重要度I (F (i))。I (F (i)) -IOONum(F (i)) /MaxNum+1ODis (F (i)) /MaxDis+Siz (Fi)) /MaxSiz ...
(3)這裡以圖6的場景為例，對於給剪輯提取場景分配的剪輯數是I的情況和2的情況的各情況，說明重要度I (F (i))的計算。( I)給剪輯提取場景分配的剪輯數是I的情況在這種情況下，當從全體場景求Num (F (i))、Dis (F (i))、Siz (F (i))的最大值時，為 MaxNum=3、MaxDis=1000、MaxSiz=500。然後，把這些值代入式(2)，如式(4)那樣計算各代表幀的重要度I (F (i))。I(F(i)) = IOSiz (F(i))/500+Dis(F(i) )/1000 ... (4)如以上那樣算出的重要度I (F (i))表示在圖7的表中。(2)給剪輯提取場景分配的剪輯數是2的情況在這種情況下，求每一分割場景的特徵量的最大值，計算各代表幀F (i)的重要度I (F ⑴)。首先，對於第一分割場景(00 00 00 00 00 :29)，計算各代表幀F (i)的重要度I (F ⑴)。根據圖6,第一分割場景的特徵量的最大值，MaxNum=I, MaxDis=500, MaxSiz=300。另外，如上述，因為由場景特徵判定部19判定第一分割場景的特徵是「被攝影體是I人」，所以把上述最大值代入式(2)，如式(5)那樣那樣計算重要度I (F (i))。I(F(i)) = IOSiz (F(i))/300+Dis(F(i) )/500 ...(5)接著對於第二分割場景(00 00 30 00 00 :59)，計算各代表幀F (i)的重要度
I(F ⑴)。根據圖6,第二分割場景的特徵量的最大值,MaxNum=3,MaxDis=1000,MaxSiz=500。
另外，如上述，因為由場景特徵判定部19判定第二分割場景的特徵是「被攝影體是多人」，所以把上述最大值代入式(3)，如式(6)那樣計算重要度I (F (i))。I(F(i)) = IOONum(F(i)) /3+10Dis (F(i)) /1000+Siz (Fi)) /500 ...(6)以上那樣算出的重要度I (F (i))在圖8的表中表示。根據上述的重要度計算法，關於被攝影體是I人的場景，該被攝影體被較大地放大的部分的重要度變大，關於被攝影體是多人的場景，多個人物存在的部分的重要度變大。由此，關於被攝影體是I人的場景，可以在摘要中包含該被攝影體被放大的部分，關於被攝影體是多人的場景，可以在摘要中包含儘可能多的人物存在的部分。使用這樣由重要度計算部20算出的各代表幀的重要度和由特徵量檢測部17檢出的各代表幀的特徵量，摘要區間選擇部21對於各剪輯提取場景決定作為摘要區間要選擇的剪輯的區間。關於該過程，參照圖9表示的流程圖進行說明。首先，在步驟S210中，摘要區間選擇部21決定剪輯中心幀，該剪輯中心幀成為用於決定剪輯區間的基準。在此，摘要區間選擇部21從剪輯提取場景內的代表幀中選擇重要度最高的幀作為剪輯中心幀。接著，在步驟S220中，摘要區間選擇部21把變量j設定為I。接著，在步驟S230中，摘要區間選擇部21判斷作為剪輯中心幀而選擇的代表幀F(i)的在時間系列上的前面j幅的代表幀(i 一 j)的特徵量之一即臉的數量Num (F (i —j))是否是O。在Num (F (i 一 j))是O的情況下(步驟S230 :是)，前進到步驟S240，在Num(F (i — j))不是O的情況下(步驟S230 :否，前進到步驟S250。在步驟S240中，摘要區間選擇部21把代表幀F (i — j + I)作為剪輯開始幀，該剪輯開始幀為作為摘要區間而選擇的剪輯的最初的幀。之後前進到步驟S290。在步驟S250中，摘要區間選擇部21判斷代表幀F (i 一 j)是否是剪輯提取場景的開頭代表幀。在是開頭代表幀的情況下(步驟S250 :是)，前進到步驟S270，在不是開頭代表幀的情況下(步驟S250 :否)，前進到步驟S260。在步驟S260中，摘要區間選擇部21判斷變量j是否是第一預定數jl。在j=jl的情況下(步驟S260 :是)，前進到步驟S270，在不是j=jl的情況下(步驟S260 :否)，在步驟S280中，摘要區間選擇部21使變量j增1，然後返回步驟S230。在步驟S270中，摘要區間選擇部21把代表幀F (i — j)作為剪輯開始幀。通過到此的處理，摘要區間選擇部21從剪輯中心幀開始在時間系列上追溯最大為第一預定數jl前面的代表幀，並依次判斷各代表幀的臉的數量，把在時間系列上對於最初檢測出的臉的數量是O的代表幀後移I幅的代表幀決定為剪輯開始幀。在從剪輯中心幀開始到第一預定數jl前面代表幀的所有代表幀的臉的數量為I以上的情況下，把從剪輯中心幀起到第一規定數jl前面的代表幀決定為剪輯開始幀。另外，在檢測出臉的數量是O的代表幀之前追溯到開始代表幀的情況下，把開始代表幀作為剪輯開始幀。如果決定了剪輯開始幀，則為了決定成為作為摘要區間而選擇的剪輯的最後的幀的剪輯結束幀，在步驟S290中，摘要區間選擇部21把變量j設定為I。接著，在步驟S300中，摘要區間選擇部21判斷作為剪輯中心幀而選擇的代表幀F
(i)的在時間系列上j幅後的代表幀F (i + j)中的臉的數量Num (F (i +j))是否是O。在Num (F (i + j))是O的情況下(步驟S300 :是)，前進到步驟S340，在Num (F (i + j))不是O的情況下(步驟S300 :否)，前進到步驟S310。在步驟S310中，摘要區間選擇部21判斷代表幀F (i + j)是否是剪輯提取場景的最終代表幀。在是最終代表幀的情況下(步驟S310 :是)，前進到步驟S320，在不是最終代表幀的情況下(步驟S310 :否)，前進到步驟S330。在步驟S320中，摘要區間選擇部21把剪輯提取場景的最終幀作為剪輯結束幀。在步驟S330中，摘要區間選擇部21判斷變量j是否是第二預定數j2。在j=j2的情況下(步驟S330 :是)，前進到步驟S340，在不是j=j2的情況下(步驟S330 :否)，在步驟S350中，摘要區間選擇部21把變量j增1，然後返回步驟S310。在步驟S340中，摘要區間選擇部21把代表幀F (i + j)作為剪輯結束幀。通過步驟S290及以後的處理，摘要區間選擇部21從剪輯中心幀開始到在時間系列上最大為第二規定數j2之後的代表幀依次判斷各代表幀的臉的數量，把最初檢出的臉的數量是O的代表幀決定為剪輯結束幀。在從剪輯中心幀開始到第二預定數j2之後的代表幀的所有代表幀的臉的數量是I以上的情況下，把從剪輯中心幀開始第二預定數j2後的代表幀決定為剪輯結束幀。另外，在直到最終代表幀為止也未檢測出臉的數量是O的代表幀的情況下，把剪輯提取場景的最終幀作為剪輯結束幀。通過以上的處理，例如如圖10所示，從摘要生成對象場景決定摘要區間。摘要區間為包含各剪輯提取場景內重要度最高的代表幀(剪輯中心幀)的、包含最大(jl + j2 + I)幅的代表幀的區間。此外，關於通過場景分割部18分割的剪輯提取場景，對於每一分割幀通過上述圖9的流程圖的處理決定摘要區間。這裡，以圖6的場景為例，關於給剪輯提取場景分配的剪輯數為I的情況和為2的情況的各情況，表示摘要區間決定的具體例。這裡，設jl=5，j2=15。(I)給剪輯提取場景分配的剪輯數為I的情況根據圖7的表可知代表幀F (47)的重要度最高。因此，把代表幀F (47)作為剪輯中心幀。接著決定剪輯開始幀。根據圖7的表，因為從剪輯中心幀F(47)開始到其5(=jl)秒前的代表幀F (42)臉的數量都在I以上，所以把剪輯中心幀的5秒前的代表幀F (42)作為剪輯開始中貞。接著決定剪輯結束幀。根據圖7的表，因為從剪輯中心幀F (47)開始到最後的代表幀F(59)之間的全部代表幀中臉的數量在I以上，所以把場景的最終幀作為剪輯結束幀。根據上述，從圖6的場景中提取的摘要區間，為從代表幀F (42)到場景的結束，SP00 00 42 場景結束的區間。(2)給剪輯提取場景分配的剪輯數為2的情況首先，對於第一分割場景(00 00 :00 00 00 :29)決定摘要區間。根據圖8的表，在第一分割場景中，代表幀F (8)的重要度最高。因此，把代表幀F (8)作為剪輯中心幀。接著決定剪輯開始幀。根據圖8的表，因為從剪輯中心幀F (8)開始到其5秒前的代表幀F (3)臉的數量都在I以上，所以把剪輯中心幀F (8)的5秒前的代表幀F (3)作為剪輯開始中貞。接著決定剪輯結束幀。根據圖8的表，因為從剪輯中心幀F (8)開始到其8秒後的代表幀F (16)臉的數量在I以上，但是9秒後的代表幀F (17)臉的數量變為0，所以把代表幀F (17)作為剪輯結束幀。因此，從第一分割場景中提取的摘要區間，為代表幀F (3) F (17)之間，即00:00 03 00 00 17 的區間。同樣，對於第二分割場景決定摘要區間。根據圖8的表，在第二分割場景中，代表幀F (43)的重要度最高。因此，把代表幀F (43)作為剪輯中心幀。接著決定剪輯開始幀。根據圖8的表，因為從剪輯中心幀F (43)開始到其5秒前的代表幀F (38)臉的數量都在I以上，所以把剪輯中心幀F (43)的5秒前的代表幀F (38)作為剪輯開始中貞。接著決定剪輯結束幀。根據圖8的表，因為從剪輯中心幀F(43)開始到其15(=j2)秒後的代表幀F (58)臉的數量都在I以上，所以把剪輯中心幀F (43)的15秒後的代表幀F (58)作為剪輯結束幀。
因此，從第二分割場景中提取的摘要區間，為代表幀F (38) F (58)之間，即00:
0038 00 00 58 的區間。根據上述，從圖6的場景中，提取00 00 03 00 00 17的區間、和00 00 38
0000 58的區間這兩個區間作為摘要區間。摘要區間選擇部21把上述選擇的剪輯的信息以時間系列順序作為摘要數據存儲在摘要數據存儲部22中。然後。再生部23根據在摘要數據存儲部22中存儲的摘要數據，從在視頻數據存儲部11中存儲的視頻數據以時間系列順序再生摘要區間，使顯示裝置(未圖示)上顯示摘要的視頻。如上所述，根據本實施方式，把作為摘要區間提取的總剪輯數Ac分配給摘要生成對象場景中的各場景，根據各剪輯提取場景中的代表幀的特徵量以及重要度，決定從各剪輯提取場景選擇的摘要區間，所以能夠從摘要生成對象場景全體中平衡地選擇重要的部分作為摘要區間，能夠生成用戶容易把握的摘要生成對象場景全體的視頻的內容的摘要。另外，通過判別剪輯提取場景的特徵，使用對於每ー特徵決定的重要度計算法計算代表幀的重要度，能夠根據各剪輯提取場景的特徵，提取適合的部分作為摘要區間。此外，作為特徵量也可以是檢測在各代表幀內存在的被攝影體的臉的數量、各代表幀內的最大的臉的位置、以及最大的臉的大小中的至少ー個的結構。另外，重要度的計算法也不限於上述的方法，也可以採用根據各代表幀內存在的被攝影體的臉的數量、各代表幀內的最大的臉的位置、以及最大的臉的大小中的至少ー個的特徵量計算重要度的結構。另外，在從ー個剪輯提取場景中提取兩個以上的摘要區間的情況下，通過分割該剪輯提取場景，判別每一分割場景的特徵，根據各分割場景的特徵決定摘要區間，能夠生成均衡地反映各場景的特徵的摘要。此外，也可以省略分組部14和組內摘要區間數決定部15，不進行摘要製造對象場景的分組，而在場景內摘要區間數決定部16給摘要生成對象場景中的各場景分配總剪輯數Ac。另外，作為通過特徵量檢測部17檢測的代表幀的特徵量，也可以使用顔色信息或
者亮度、運動矢量、聲音信息等。另外，作為通過場景特徵判定部19判別的場景的特徵，也可以使用場景的攝影時刻是上午還是下午、場景的攝影時間是否比預定時間長、背景是室內還是室外、是否記錄了人的聲音、是否進行拍手、聲音水平是否在一定閾值以上等，由重要度計算部使用與那些特徵對應的重要度計算法。本實施方式的視頻處理裝置10，能夠由個人計算機等構成該裝置結構的一部分或者全部。在這種情況下，上述說明的裝置各部，能夠通過計算機的硬體或者軟體實現其功能。例如，也可以使用於使計算機執行在上述實施方式中說明的動作的一部分或者全部的程序，存儲在計算機的硬碟、CD — ROM等的存儲介質、或者通過下載存儲在計算機的存儲器等中並使用。產業上的利用可能性如上所述，根據本發明，能夠提供用於生成用戶容易地把握視頻全體的內容的摘要的視頻處理裝置。符號說明10視頻處理裝置 11視頻數據存儲部12摘要生成對象場景指定部13總剪輯數決定部14分組部15組內摘要區間數決定部16場景內摘要區間數決定部17特徵量檢測部18場景分割部19場景特徵判定部20重要度計算部21摘要區間選擇部22摘要數據存儲部23再生部
權利要求
1.ー種視頻處理裝置，其特徵在於，具有場景內摘要區間數決定部，用於決定從視頻數據的各場景中提取的摘要區間數；特徵量檢測部，用於從通過上述場景內摘要區間數決定部決定的上述摘要區間數為I以上的場景、即剪輯提取場景中包含的幀中選擇多個代表幀，把在上述各代表幀內存在的被攝影體的臉的數量、上述各代表幀內的最大的臉的位置以及最大的臉的大小中的至少ー個，作為上述各代表幀的特徵量來檢測；重要度計算部，用於根據上述特徵量來計算上述各代表幀的重要度；摘要區間選擇部，用於根據上述特徵量以及上述重要度，從上述剪輯提取場景中選擇通過上述場景內摘要區間數決定部決定的數量的剪輯作為上述摘要區間；以及再生部，用於再生通過上述摘要區間選擇部選擇的上述摘要區間。
2.根據權利要求I所述的視頻處理裝置，其特徵在幹，還具有場景特徵判定部，用於根據上述特徵量來判定上述剪輯提取場景中的被攝影體是I人還是多人，上述重要度計算部對於被攝影體是I人的剪輯提取場景、和被攝影體是多人的剪輯提取場景使用不同的重要度計算式來計算上述重要度。
3.ー種視頻處理方法，其特徵在於，包含決定從視頻數據的各場景中提取的摘要區間數的步驟；從上述摘要區間數為I以上的場景即剪輯提取場景中包含的幀中選擇多個代表幀，把在上述各代表幀內存在的被攝影體的臉的數量、上述各代表幀內的最大的臉的位置以及最大的臉的大小中的至少ー個，作為上述各代表幀的特徵量來檢測的步驟；根據上述特徵量來計算上述各代表幀的重要度的步驟；根據上述特徵量以及上述重要度，從上述剪輯提取場景中選擇由上述決定摘要區間數的步驟決定的數量的剪輯作為上述摘要區間的步驟；以及再生通過上述摘要區間選擇部選擇的上述摘要區間的步驟。
4.根據權利要求3所述的視頻處理方法，其特徵在幹，還包含根據上述特徵量判定上述剪輯提取場景中的被攝影體是I人還是多人的步驟，上述計算重要度的步驟是對於被攝影體是I人的剪輯提取場景、和被攝影體是多人的剪輯提取場景使用不同的重要度計算式來計算上述重要度的步驟。
5.一種視頻處理程序，其特徵在幹，使計算機執行下述步驟決定從視頻數據的各場景中提取的摘要區間數的步驟；從上述摘要區間數為I以上的場景即剪輯提取場景中包含的幀中選擇多個代表幀，把在上述各代表幀內存在的被攝影體的臉的數量、上述各代表幀內的最大的臉的位置以及最大的臉的大小中的至少ー個，作為上述各代表幀的特徵量來檢測的步驟；根據上述特徵量來計算上述各代表幀的重要度的步驟；根據上述特徵量以及上述重要度，從上述剪輯提取場景中選擇由上述決定摘要區間數的步驟決定的數的剪輯作為上述摘要區間的步驟；以及再生通過上述摘要區間選擇部選擇的上述摘要區間的步驟。
6.根據權利要求5所述的視頻處理程序，其特徵在幹，還使計算機執行根據上述特徵量來判定上述剪輯提取場景中的被攝影體是I人還是多人的步驟，上述計算重要度的步驟是對於被攝影體是I人的剪輯提取場景、和被攝影體是多人的剪輯提取場景使用不同的重要度計算式來計算上述重要度的步驟。
全文摘要
場景內摘要區間數決定部(16)把作為摘要區間提取的總剪輯數(Ac)分配給摘要生成對象場景中的各場景，特徵量檢測部(17)從在提取的摘要區間數在1以上的場景即剪輯提取場景中包含的幀中選擇多個代表幀，把各代表幀內存在的被攝影體的臉的數量、代表幀內的最大的臉的位置以及最大的臉的大小中的至少一個，作為各代表幀的特徵量來檢測，重要度計算部(20)根據各代表幀的特徵量計算各代表幀的重要度，摘要區間選擇部(21)根據各剪輯提取場景中的代表幀的特徵量以及重要度決定要從各剪輯提取場景中選擇的摘要區間。
文檔編號H04N5/91GK102763407SQ201080051298
公開日2012年10月31日申請日期2010年11月11日優先權日2009年11月13日
發明者中手慎, 新關亮太, 豬羽涉申請人:Jvc建伍株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

視頻處理裝置、視頻處理方法及視頻處理程序的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法