用於有效概覽和瀏覽的視頻概要描述方案和生成視頻概要描述數據的方法和系統的製作方法

2023-09-21 20:12:10 4

專利名稱：用於有效概覽和瀏覽的視頻概要描述方案和生成視頻概要描述數據的方法和系統的製作方法
技術領域：
本發明涉及一種用於有效概覽和瀏覽視頻的視頻概要描述方案，並且還涉及一種生成視頻概要描述的方法和系統，以根據視頻概要描述方案描述視頻概要。
本發明所涉及的技術領域為基於內容的視頻索引和瀏覽/搜索，並且將視頻概括為所基的內容，然後對它進行描述。
背景技術：
概括視頻的格式主要分為動態概要和靜態概要。本發明的視頻描述方案用於有效地將動態概要和靜態概要描述為統一的描述方案。
一般來說，由於現有視頻概要和描述方案簡單地提供包含在視頻概要中的視頻區間信息，現有視頻概要和描述方案受限於通過播放概要視頻，傳達全部視頻內容。
然而，在很多情況下，需要通過概覽全部內容標識和重新訪問有關部分的瀏覽，而不僅僅是通過概要視頻概覽全部內容。
另外，現有視頻概要僅僅提供根據由視頻概要提供者確定的標準認為是重要的視頻區間。因此，如果用戶和視頻提供者的標準相互不同，或者用戶具有特殊標準，用戶就不能獲得他們所需的視頻概要。
也就是，雖然現有概要視頻通過提供若干級的概要視頻，允許用戶選擇所需級的概要視頻，但是它使用戶的選擇程度受限於用戶不能通過概要視頻內容來選擇。
標題為「Method and apparatus for video browsing based on content andstructure(用於基於內容和結構的視頻瀏覽的方法和裝置)」的美國專利5,821,945以壓縮的形式表示視頻，並且通過該表示提供訪問具有所需內容的視頻的瀏覽功能。
然而，該專利採用基於代表性幀的靜態概要，並且雖然通過使用視頻鏡頭的代表性幀，概括出現有靜態概要，但是該專利的代表性幀只提供代表鏡頭的視覺信息，該專利對於使用概要傳達信息具有限制。
與該專利相比較，該視頻描述方案和瀏覽方法使用基於視頻段的動態概要。
ISO/IEC JTC1/SC29/WG11 MPEG-7輸出文檔號N2844在1999年7月所公布的MPEG-7描述方案(V 0.5)提出視頻概要描述方案。由於該方案描述動態概要視頻的每個視頻段的區間信息，因此，儘管提供描述動態概要的基本功能，但是該方案具有如下方面的問題。
首先，一個缺點是它不能提供從組成概要視頻的視頻段對原始視頻的訪問。也就是，用戶想要根據概要內容和通過概要視頻的概覽，訪問原始視頻，以了解更詳細的信息。然而現有方案不能滿足這一需要。
其次，現有方案不能提供足夠的音頻概要描述功能。
最後，一個缺點是在表示基於事件的概要的情況下，重複描述和搜索複雜性不可避免。
發明概要本發明的一個目的是提供分級視頻概要描述方案，它在包含在概要視頻中的每個視頻區間，包括代表性幀信息和代表性聲音信息，並且使基於用戶可定製事件的概要提供用戶對概要視頻內容的選擇，和有效瀏覽具有可行性，和一種使用描述方案的視頻概要描述數據生成方法和系統。
為了實現該目的，根據本發明可執行示例的分級概要(HierarchicalSumm-ary)DS至少包括一個描述精彩場面級的精彩場面級(HighlightLevel)DS，並且精彩場面級DS至少包含描述組成該精彩場面級的概要視頻的精彩場面段信息的精彩場面段(HighlightSegment)DS。
最好，精彩場面級DS包括至少一個更低級的精彩場面級DS。
更好，精彩場面段DS包括一個描述所述對應精彩場面段的時間信息或視頻本身的視頻段定位符(VideoSegmentLocator)DS。
最好，精彩場面段DS進一步包括描述所述對應精彩場面段的代表性幀的圖象定位符(ImageLocator)DS。
更好，精彩場面段DS進一步包括描述所述對應精彩場面段的代表性聲音信息的聲音定位符(SoundLocator)DS。
最好，精彩場面段DS進一步包括描述所述對應精彩場面段的代表性幀的圖象定位符DS和描述所述對應精彩場面段的代表性聲音信息的聲音定位符DS。
更好，圖象定位符DS描述與所述對應精彩場面段對應的視頻區間的代表性幀的時間信息或圖象數據。
最好，精彩場面段DS進一步包括描述組成所述對應精彩場面段的音頻概要的音頻段信息的音頻段定位符(AudioSegmentLocator)DS。
更好，音頻段定位符DS描述所述對應精彩場面段的音頻區間的時間信息或音頻數據。
最好，分級概要DS包括描述並且列舉包含在分級概要DS中的所有概要組件類型(SummaryComponentType)的概要組件列表(SummaryComponent-List)。
另外，最好，分級概要DS包括列舉包含在概要中的事件或主題，並且描述ID的概要主題列表(SummaryThemeList)DS，然後描述基於事件的概要，並且允許用戶通過在所述概要主題列表中描述的事件或主題瀏覽概要視頻。
更好，概要主題列表DS包括任意數目的概要主題(SummaryTheme)作為元素，並且所述概要主題包括表示對應事件或主題的id屬性，並且概要主題進一步包括描述上一級的事件或主題id的父ID(parentID)屬性。
最好，如果組成對應精彩場面級的所有精彩場面段和精彩場面級具有共同的事件或主題，精彩場面級DS包括描述共同事件或主題所述id屬性的主題id集(themeIds)屬性。
更好，精彩場面段DS包括描述所述id屬性的主題id集(themeIds)屬性，並且描述對應精彩場面段的事件或主題。
另外，根據本發明，提供一種其中存儲有分級概要DS的計算機可讀記錄介質。最好，分級概要DS至少包括一個描述精彩場面級的精彩場面級DS，並且精彩場面級DS至少包括一個描述組成那個精彩場面級的概要視頻的精彩場面段信息的精彩場面段DS，並且精彩場面段DS包括描述所述對應精彩場面段的時間信息或視頻本身的視頻段定位符DS。
另外，根據本發明，提供一種用於通過輸入原始視頻根據視頻概要描述方案生成視頻概要描述數據的方法。該方法包括如下步驟視頻分析步驟，通過輸入原始視頻然後分析原始視頻，產生視頻分析結果；概要規則定義步驟，定義用於選擇概要視頻區間的概要規則；概要視頻區間選擇步驟，通過輸入所述原始視頻分析結果和所述概要規則，從原始視頻選擇能夠概括視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述步驟，通過輸入由所述概要視頻區間選擇步驟輸出的概要視頻區間信息，根據分級概要DS產生視頻概要描述數據。
最好，視頻分析步驟包括特徵提取步驟，通過輸入原始視頻並且提取特徵，輸出這些特徵類型和檢測到這些特徵的視頻時間區間；事件檢測步驟，通過輸入所述特徵類型和檢測到這些特徵的視頻時間區間，檢測包含在原始視頻中的關鍵事件；和插曲(episode)檢測步驟，通過根據所述檢測到的事件將原始視頻劃分為情節流基本單元，檢測插曲。
最好，概要規則定義步驟在將概要事件類型定義給所述視頻概要描述步驟之後，提供作為選擇概要視頻區間基礎的概要事件類型。
更好，該方法進一步包括代表性幀提取步驟，通過輸入所述概要視頻區間信息並且提取代表性幀，將該代表性幀提供給所述視頻概要描述步驟。
更好，該方法進一步包括代表性聲音提取步驟，通過輸入所述概要視頻區間信息並且提取代表性聲音，將該代表性聲音提供給所述視頻概要描述步驟。
另外，根據本發明，提供一種其中存儲有一個程序的計算機可讀記錄介質。該程序執行如下步驟特徵提取步驟，輸出特徵類型和檢測到這些特徵的視頻時間區間；事件檢測步驟，通過輸入所述特徵類型和檢測到這些特徵的所述視頻時間區間，檢測包含在原始視頻中的關鍵事件；插曲檢測步驟，通過根據所述檢測到的關鍵事件將原始視頻劃分為情節流基本單元，檢測插曲；概要規則定義步驟，定義用於選擇概要視頻區間的概要規則；概要視頻區間選擇步驟，通過輸入所述檢測到的插曲和所述概要規則，選擇能夠概括原始視頻的視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述步驟，通過輸入由所述概要視頻區間選擇步驟輸出的概要視頻區間信息，使用分級概要DS生成視頻概要描述數據。
另外，根據本發明，提供一種通過輸入原始視頻根據視頻概要描述方案生成視頻概要描述數據的系統。該系統包括視頻分析裝置，用於通過輸入原始視頻並且分析原始視頻，輸出視頻分析結果；概要規則定義裝置，用於定義用來選擇概要視頻區間的概要規則；概要視頻區間選擇裝置，用於通過輸入所述原始視頻分析結果和所述概要規則，選擇能夠概括原始視頻的視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述裝置，用於通過輸入由所述概要視頻區間選擇裝置輸出的概要視頻區間信息，使用分級概要DS生成視頻概要描述數據。
最好，分級概要DS至少包括一個描述精彩場面級的精彩場面級DS，精彩場面級DS至少包括一個描述組成該精彩場面級的概要視頻的精彩場面段信息的精彩場面段DS，並且精彩場面段DS包括描述所述對應精彩場面段的時間信息或視頻本身的視頻段定位符DS。
最好，視頻分析裝置包括特徵提取裝置，用於通過輸入原始視頻並且提取特徵，輸出這些特徵類型和檢測到這些特徵的視頻時間區間；事件檢測裝置，用於通過輸入所述特徵類型和檢測到這些特徵的視頻時間區間，檢測包含在原始視頻中的關鍵事件；和插曲檢測裝置，用於通過根據所述檢測到的事件將原始視頻劃分為情節流基本單元，檢測插曲。
更好，概要規則定義裝置在將概要事件類型定義給所述視頻概要描述裝置之後，提供作為選擇概要視頻區間基礎的概要事件類型。
最好，該系統進一步包括代表性幀提取裝置，用於通過輸入所述概要視頻區間信息並且提取代表性幀，將該代表性幀提供給所述視頻概要描述裝置。
更好，該系統進一步包括代表性聲音提取裝置，用於通過輸入所述概要視頻區間信息並且提取代表性聲音，將該代表性聲音提供給所述視頻概要描述裝置。
另外，根據本發明，提供一種其中存儲有一個程序的計算機可讀記錄介質。該程序用於運行如下裝置特徵提取裝置，用於輸出特徵類型和檢測到這些特徵的視頻時間區間；事件檢測裝置，用於通過輸入所述特徵類型和檢測到這些特徵的所述視頻時間區間，檢測包含在原始視頻中的關鍵事件；插曲檢測裝置，用於通過根據所述檢測到的關鍵事件將原始視頻劃分為情節流基本單元，檢測插曲；概要規則定義裝置，用於定義用來選擇概要視頻區間的概要規則；概要視頻區間選擇裝置，用於通過輸入所述檢測到的插曲和所述概要規則，選擇能夠概括原始視頻的視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述裝置，用於通過輸入由所述概要視頻區間選擇裝置輸出的概要視頻區間信息，使用分級概要DS生成視頻概要描述數據。
另外，提供一種根據本發明的伺服器/客戶機環境下的視頻瀏覽系統。該系統包括伺服器，裝備有視頻概要描述數據生成系統，該系統通過輸入原始視頻，根據分級概要DS，生成視頻概要描述數據，並且連結所述原始視頻和視頻概要描述數據；和客戶機，通過使用所述視頻概要描述數據概覽所述原始視頻並且訪問所述伺服器的原始視頻，對視頻進行瀏覽和導航。
附圖簡述將參照附圖對本發明的實施例進行說明，其中

圖1是示出用於根據本發明的描述方案生成視頻概要描述數據的系統的的方框圖；圖2是採用UML(Unified Modeling Language，統一建模語言)示出描述本發明的視頻概要描述方案的分級概要DS的數據結構的圖；圖3是用於播放和瀏覽輸入用與圖2相同的描述方案描述的視頻概要描述數據的概要視頻的工具的用戶界面組合圖；圖4是示出使用本發明概要視頻的分級瀏覽的數據和控制流的組合圖。
發明的詳細描述將參照附圖通過優選實施例對本發明進行詳細描述，其中相同的參考號用來標識相同或類似的部分。
圖1是示出用於根據本發明的描述方案生成視頻概要描述數據的系統的的方框圖。
如圖1所示，本發明的用於生成視頻描述數據的裝置包括特徵提取部分101、事件檢測部分102、插曲檢測部分103、概要視頻區間選擇部分104、概要規則定義部分105、代表性幀提取部分106、代表性聲音提取部分107和視頻概要描述部分108。
特徵提取部分101通過輸入原始特徵提取生成概要視頻所需的特徵。一般特徵包括鏡頭邊界、攝像機移動、字幕區域、正面區域等。
在提取特徵步驟，通過提取特徵，將這些特徵類型和檢測到這些特徵的視頻時間區間以(特徵類型、特徵序列號、時間區間)格式，輸出到檢測事件步驟。
例如，在攝像機移動的情況下，(攝像機移動，1,100～150)表示在100～150幀中檢測到攝像機第一移動的信息。
事件檢測部分102檢測包含在原始視頻中的關鍵事件。由於這些事件必須很好地代表原始視頻內容，並且是用於生成概要視頻的基準，因此一般根據原始視頻種類對這些事件進行不同的定義。
這些事件可以表示更高意義層，或可以是能夠直接推斷更高意義的視覺特徵。例如，在足球視頻的情況下，進球、射門、字幕、回放等可以定義為事件。
事件檢測部分102以(事件類型，事件序列號，時間區間)輸出所檢測事件的類型和時間區間。例如，以(射門，1,200～300)的格式輸出表示發生在200到300幀之間的第一射門的事件信息。
插曲檢測部分103，根據所檢測的事件，將視頻劃分為基於情節流的比事件更大單位的插曲。在檢測到關鍵事件之後，檢測插曲，同時包括跟隨關鍵事件的伴隨事件。例如，在足球視頻的情況下，進球和射門可以是關鍵事件，而教練席場景、觀眾場景、進球慶祝場景、進球回放場景等組成關鍵事件的伴隨事件。
也就是，根據進球和射門檢測插曲。
以(插曲號，時間區間，優先級、特徵鏡頭、相關事件信息)格式輸出插曲檢測信息。在此，插曲號是插曲的序列號，並且時間區間表示以鏡頭為單位的插曲時間區間。優先級表示插曲的重要度。特徵鏡頭表示包括組成插曲的鏡頭中最重要信息的鏡頭號，並且相關事件信息表示與插曲相關的事件的事件號。例如，在將插曲檢測信息表示為(插曲1，4～6，1，5，進球1，字幕3)的情況下，該信息表示第一插曲包括第4～6鏡頭，優先級為最高(1)，特徵鏡頭為第五鏡頭，並且相關事件為第一進球和第三字幕。
概要視頻區間選擇部分104選擇根據所檢測的插曲選擇能很好概括原始視頻內容的視頻區間。由概要規則定義部分105的預定概要規則執行選擇區間的基準。
概要規則定義部分105定義用於選擇概要區間的規則，並且輸出用於選擇概要區間的控制信號。概要規則定義部分105還將用作選擇概要視頻區間基礎的概要事件類型，輸出到視頻概要描述部分108。
概要視頻區間選擇部分104以幀為單位輸出所選概要視頻區間的時間信息，並且輸出與視頻區間對應的事件類型。也就是，(100～200，進球)，(500～700，射門)等格式表示選作概要視頻區間的視頻段為100～200幀，500～700幀等，並且兩段的事件分別為進球和射門。另外，可以輸出如文件名的信息，來幫助訪問僅組成概要視頻區間的附加視頻。
如果完成概要視頻區間選擇，通過使用概要視頻區間信息，分別從代表性幀提取部分106和代表性聲音提取部分107提取代表性幀和代表性聲音。
代表性幀提取部分106輸出代表概要視頻區間的圖象幀號或輸出圖象數據。
代表性聲音提取部分107輸出代表概要視頻區間的聲音數據或輸出聲音時間區間。
視頻概要描述部分108根據圖2所示的本發明的分級概要描述方案描述相關信息，以使得有效概覽和瀏覽功能具有可行性。
分級概要描述方案的主要信息包括概要視頻的概要事件類型、描述每個概要視頻區間的時間信息，代表性幀，代表性聲音和每個區間的事件類型。
視頻概要描述部分108根據圖2所示的描述方案輸出視頻概要描述數據。
圖2是採用UML(Unified Modeling Language，統一建模語言)示出本發明的描述視頻概要描述方案的分級概要DS的數據結構的圖。
分級概要DS 201描述由一個或多個精彩場面級DS 202和一個或零個概要主題列表DS 203組成的視頻概要。
概要主題列表DS通過列舉描述組成概要的主題或事件的信息，提供基於事件的概覽和瀏覽的功能。精彩場面級DS 202由若干精彩場面段DS 204和零個或若干個精彩場面級DS組成，其中精彩場面段DS 204的數目為組成那個級的概要視頻的視頻區間數。
精彩場面段DS描述與每個概要視頻區間對應的信息。精彩場面段DS由一個視頻段定位符DS 205、零個或若干圖象定位符DS 206、零個或若干聲音定位符DS 207和音頻段定位符208組成。
下面給出關於分級概要DS的更加詳細的描述。
分級概要DS具有一個概要組件列表屬性，該屬性清楚地表示由分級概要DS包括的概要類型。
根據概要組件類型得到概要組件列表，並且通過列舉所包括的所有概要組件類型描述該列表。
概要組件列表中存在如關鍵幀、關鍵視頻片段、關鍵音頻片段、關鍵事件和無約束這五種類型。
關鍵幀表示由代表性幀組成的關鍵幀概要。關鍵視頻片斷表示由關鍵視頻區間集組成的關鍵視頻片斷概要。關鍵事件表示由對應於事件或主題的視頻區間組成的概要。關鍵音頻片斷表示由代表性音頻區間集組成的關鍵音頻片斷概要。並且，無約束表示除所述概要之外的由用戶定義的概要類型。
另外，為了描述基於事件的概要，分級概要DS可能包括列舉包含在概要中的事件(或主題)並且描述ID的概要主題列表DS。
概要主題列表包含任意數目的概要主題作為元素。概要主題具有一個ID類型的id屬性，並且選擇性地具有一個父id屬性。
概要主題列表DS允許用戶根據在概要主題列表中描述的每個事件或若干主題瀏覽概要視頻。也就是，輸入描述數據的應用工具通過分析概要主題列表DS並且將該信息提供給用戶，使用戶選擇所需的主題。
此時，在將這些主題列舉為簡單格式的情況下，如果主題數目很大，可能就不容易找出用戶所需的主題。
因此，通過將主題表示為類似於ToC(Table of Content，內容表)的樹狀結構，用戶可以有效地在找出所需主題之後對各個主題進行瀏覽。
為此，本發明允許父id屬性選擇性地用在概要主題中。父id表示樹狀結構中的上層元素(上層主題)。
本發明的分級概要DS包括多個精彩場面級DS，並且每個精彩場面級DS包括一個或多個對應於組成概要視頻的視頻段(或區間)的精彩場面段DS。
精彩場面級DS具有IDREFS類型的主題id集屬性。
主題id集描述共同於對應精彩場面級DS的孩子精彩場面級DS，或包含在該精彩場面級中的所有精彩場面段DS的主題和事件id，並且該id在所述概要主題列表DS中進行描述。
主題id集可以表示若干事件，並且當進行基於事件的概括時，通過讓主題id集表示組成那個級的精彩場面段中共同的主題類型，解決相同id不必要地在組成那個級的所有段中重複這一問題。
精彩場面段DS包括一個視頻段定位符DS和一個或多個圖象定位符DS，零個或一個聲音定位符DS和零個或一個音頻段定位符DS。
在此，視頻段定位符DS描述組成概要視頻的視頻段的時間信息或視頻本身。圖象定位符DS描述視頻段的代表性幀的圖象數據信息。聲音定位符DS描述表示對應視頻段區間的聲音信息。音頻段定位符DS描述組成音頻概要的區間時間信息或音頻信息本身。
精彩場面段DS具有主題id集屬性。主題id集描述，使用定義在概要主題列表中的id，在所述概要主題列表DS中描述的哪個主題或事件與對應精彩場面段相關。
主題id集可以表示多個事件，並且它是本發明的一個有效技術，通過讓一個精彩場面段具有多個主題，解決當對基於事件的概要使用現有方法時，描述每個事件(或主題)的視頻段所導致的不可避免的描述重複這一問題。
當描述組成概要視頻的精彩場面段時，採用不同於現有分級概要描述方案的方法，只描述精彩場面視頻區間的時間信息，為了描述每個精彩場面段的視頻區間信息、代表性幀信息、代表性聲音信息，通過採用視頻段定位符DS、圖象段定位符DS和聲音定位符DS，本發明通過引入用於描述組成概要視頻的精彩場面段DS，使通過精彩場面段視頻的概覽和使用段的代表性幀和代表性聲音的導航和瀏覽得以有效的使用。
通過採用能夠描述對應於視頻區間的代表性聲音的聲音定位符DS，在實際情況下通過能夠代表視頻區間的特徵聲音，例如，槍響聲、喊叫聲、足球中的主持人評論(例如，進球和射門)、戲劇中演員姓名、特定詞等，通過在短時間內大致了解該區間是否為包含所需內容的重要區間，或者該區間內包含什麼內容，進行有效的瀏覽，而不播放視頻區間是可能的。
圖3是用於播放和瀏覽輸入用與圖2相同的描述方案描述的視頻概要描述數據的概要視頻的工具的用戶界面組合圖。
視頻播放部分301根據用戶的控制播放原始視頻或概要視頻。原始視頻代表性幀部分305顯示原始視頻鏡頭中的代表性幀。也就是，它由一系列尺寸縮小的圖象組成。
不採用本發明的分級概要DS，而採用附加描述方案來描述原始視頻鏡頭的代表性幀，並且可以在隨同由本發明的分級概要DS描述的概要描述數據一起提供該描述數據時使用。
用戶通過單擊代表性幀，訪問與代表性幀對應的原始視頻鏡頭。
概要視頻級0代表性幀部分和代表性聲音部分307和概要視頻級1代表性幀部分和代表性聲音部分306分別顯示代表概要視頻級0和概要視頻級1的每個視頻區間的幀和聲音信息。也就是，它由尺寸縮小的代表一系列圖象和聲音的圖標圖象組成。
如果用戶單擊概要視頻代表性幀部分和代表性聲音部分的代表性幀，用戶訪問對應於代表性幀的原始視頻區間。在此，在單擊與概要視頻的代表性幀對應的代表性聲音圖標的情況下，播放該視頻區間的代表性聲音。
概要視頻控制部分302輸入用戶選擇控制來播放概要視頻。在提供多級概要視頻的情況下，用戶通過級選擇部分303選擇所需級的概要，進行概覽和瀏覽。事件選擇部分304列舉由概要主題列表提供的事件和主題，並且用戶通過選擇所需事件，進行概覽和瀏覽。總而言之，這實現了用戶定製類型的概要。
圖4是示出使用本發明概要視頻的分級瀏覽的數據和控制流的組合圖。
通過使用圖3的用戶界面，採用圖4的方法訪問瀏覽數據來執行瀏覽。瀏覽數據是概要視頻、概要視頻的代表性幀、原始視頻406和原始視頻代表性幀405。
假定概要視頻具有兩個級。不用說，概要視頻可以具有比兩個更多的級。概要視頻級0401是以比概要視頻級1403更短的時間進行概括的。也就是，概要視頻級1比概要視頻級0包含更多的內容。概要視頻級0代表性幀402是概要視頻級0的代表性幀，並且概要視頻級1代表性幀404是概要視頻級1的代表性幀。
概要視頻和原始視頻通過圖3的視頻播放部分301進行播放。概要視頻級0代表性幀在概要視頻級0代表性幀和代表性聲音部分306中顯示。概要視頻級1代表性幀在概要視頻級1代表性幀和代表性聲音部分307中顯示，並且原始視頻代表性幀在原始視頻代表性幀部分305中顯示。
圖4所示的分級瀏覽方法可以具有各種類型的分級路徑，如下面示例所示情況1(1)-(2)情況2(1)-(3)-(5)情況3(1)-(3)-(4)-(6)情況4(7)-(5)
情況5(7)-(4)-(6)全面的瀏覽方案如下所示。
首先，通過觀看原始視頻的概要視頻，了解原始視頻的全面內容。在此，概要視頻可以播放概要視頻級0或概要視頻級1。當在觀看概要視頻之後想要更詳細的瀏覽時，通過概要視頻代表性幀標識感興趣的視頻區間。如果正要查找的場景標識在概要視頻代表性幀中，通過直接訪問代表性幀所連接的原始視頻的視頻區間，對它進行播放。並且如果需要更詳細的信息，用戶通過了解下一級的代表性幀，或通過分級了解原始視頻代表性幀的內容，可以訪問所需的原始視頻。
雖然這些分級瀏覽技術對正在播放原始視頻時瀏覽訪問所需內容，可能要花很長的時間，但是通過分級代表性幀直接訪問原始視頻的內容，可以大幅度地減低瀏覽時間。
現有的一般視頻索引和瀏覽技術以鏡頭為單位劃分原始視頻，並且在構成代表每個鏡頭的代表性幀之後，通過從代表性幀觀看所需的鏡頭，來訪問鏡頭。
在這種情況下，由於原始視頻的鏡頭數很大，在眾多代表性幀中瀏覽所需內容需要花費大量的時間和精力。
在本發明中，通過使用概要視頻代表性幀構成分級代表性幀，快速訪問所需視頻是可行的。
情況1播放概要視頻級0，並且從概要視頻級0代表性幀直接訪問原始視頻。
情況2播放概要視頻級0，並且從概要視頻級0代表性幀選擇最感興趣的代表性幀，並且在與該代表性幀的附近對應的概要視頻級1代表性幀中標識所需場景，以在訪問原始視頻之前了解更詳細的信息，然後訪問原始視頻。
情況3在情況2難以從概要視頻級1代表性幀訪問原始視頻的情況下，選擇最感興趣的代表性幀，以獲得更詳細信息，並且通過鄰近該代表性幀的原始視頻代表性幀，標識所需場景，然後使用原始幀的代表性幀訪問原始視頻。
情況4和5是以回放概要視頻級1開始的情況，路徑與上述情況類似。
當應用到伺服器/客戶機環境時，本發明可以提供其中多個客戶機訪問一個伺服器，並且可以進行視頻概覽和瀏覽的系統。原始視頻輸入到伺服器，根據分級概要描述方案，產生視頻概要描述數據，並且裝備有連結所述原始視頻和視頻概要描述數據的概要視頻描述數據生成系統。客戶機通過通信網絡訪問伺服器，使用視頻概要描述數據，對視頻進行概覽，並且通過訪問原始視頻，對視頻進行瀏覽和導航。
儘管本發明是根據優先實施例來描述的，但這些實施例對本發明不起限制作用，而只起示例作用。另外，本領域的技術人員應該理解，在不脫離由所附權利要求限定的本發明的精神和範圍的情況下，可以對在此的實施例進行修改和變化。
權利要求
1.一種用於描述視頻概要的分級概要描述方案(DS)，該分級概要DS至少包括一個描述精彩場面級的精彩場面級DS，其中，所述精彩場面級DS至少包含一個描述組成該精彩場面級的概要視頻的精彩場面段信息的精彩場面段DS。
2.如權利要求1所述的分級概要描述方案，其中，所述精彩場面級DS包括至少一個更低級的精彩場面級DS。
3.如權利要求1所述的分級概要描述方案，其中，所述精彩場面段DS包括一個描述所述對應精彩場面段的時間信息或視頻本身的視頻段定位符DS。
4.如權利要求3所述的分級概要描述方案，其中，所述精彩場面段DS進一步包括描述所述對應精彩場面段的代表性幀的圖象定位符DS。
5.如權利要求3所述的分級概要描述方案，其中，所述精彩場面段DS進一步包括描述所述對應精彩場面段的代表性聲音信息的聲音定位符DS。
6.如權利要求3所述的分級概要描述方案，其中，所述精彩場面段DS進一步包括描述所述對應精彩場面段的代表性幀的圖象定位符DS和描述所述對應精彩場面段的代表性聲音信息的聲音定位符DS。
7.如權利要求4所述的分級概要描述方案，其中，所述圖象定位符DS描述與所述對應精彩場面段對應的視頻區間的代表性幀的時間信息或圖象數據。
8.如權利要求3所述的分級概要描述方案，其中，所述精彩場面段DS進一步包括描述組成所述對應精彩場面段的音頻概要的音頻段信息的音頻段定位符DS。
9.如權利要求8所述的分級概要描述方案，其中，所述音頻段定位符DS描述所述對應精彩場面段的音頻區間的時間信息或音頻數據。
10.如權利要求1所述的分級概要描述方案，其中，所述分級概要DS包括描述並且列舉包含在分級概要DS中的所有概要組件類型的概要組件列表。
11.如權利要求10所述的分級概要描述方案，其中，所述概要組件類型包括關鍵幀，表示由代表性幀組成的關鍵幀概要；關鍵視頻片斷，表示由關鍵視頻段集組成的關鍵視頻片斷概要；關鍵事件，表示對應於事件或主題的視頻區間的概要；關鍵音頻片斷，表示由代表性音頻區間集組成的關鍵音頻片斷概要；和無約束，表示除所述概要之外的由用戶定義的概要類型。
12.如權利要求1所述的分級概要描述方案，其中，所述分級概要DS包括列舉包含在概要中的事件或主題，並且描述ID的概要主題列表DS，然後描述基於事件的概要，並且允許用戶通過在所述概要主題列表中描述的事件或主題瀏覽概要視頻。
13.如權利要求11所述的分級概要描述方案，其中，所述概要主題列表DS包括任意數目的概要主題作為元素，並且所述概要主題包括表示對應事件或主題的id屬性。
14.如權利要求13所述的分級概要描述方案，其中，所述概要主題進一步包括描述上一級的事件或主題id的父ID屬性。
15.如權利要求13所述的分級概要描述方案，其中，如果組成對應精彩場面級的所有精彩場面段和精彩場面級具有共同的事件或主題，所述精彩場面級DS包括描述共同事件或主題所述id屬性的主題id集屬性。
16.如權利要求13所述的分級概要描述方案，其中，所述精彩場面段DS包括描述所述id屬性的主題id集屬性，並且描述對應精彩場面段的事件或主題。
17.一種其中存儲有分級概要描述方案(DS)的計算機可讀記錄介質，該分級概要DS至少包括一個描述精彩場面級的精彩場面級DS，其中所述精彩場面級DS至少包括一個描述組成那個精彩場面級的概要視頻的精彩場面段信息的精彩場面段DS，其中所述精彩場面段DS包括描述所述對應精彩場面段的時間信息或視頻本身的視頻段定位符DS。
18.一種用於通過輸入原始視頻根據視頻概要描述方案生成視頻概要描述數據的方法，包括如下步驟視頻分析步驟，通過輸入原始視頻然後分析原始視頻，產生視頻分析結果；概要規則定義步驟，定義用於選擇概要視頻區間的概要規則；概要視頻區間選擇步驟，通過輸入所述原始視頻分析結果和所述概要規則，從原始視頻選擇能夠概括視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述步驟，通過輸入由所述概要視頻區間選擇步驟輸出的概要視頻區間信息，根據分級概要DS產生視頻概要描述數據。
19.如權利要求18所述的視頻概要描述數據生成方法，其中，所述分級概要DS至少包括一個描述精彩場面級的精彩場面級DS，其中所述精彩場面級DS至少包括一個描述組成那個精彩場面級的概要視頻的精彩場面段信息的精彩場面段DS，其中所述精彩場面段DS包括描述所述對應精彩場面段的時間信息或視頻本身的視頻段定位符DS。
20.如權利要求18所述的視頻概要描述數據生成方法，其中，所述視頻分析步驟包括特徵提取步驟，通過輸入原始視頻並且提取特徵，輸出這些特徵類型和檢測到這些特徵的視頻時間區間；事件檢測步驟，通過輸入所述特徵類型和檢測到這些特徵的視頻時間區間，檢測包含在原始視頻中的關鍵事件；和插曲檢測步驟，通過根據所述檢測到的事件將原始視頻劃分為情節流基本單元，檢測插曲。
21.如權利要求18所述的視頻概要描述數據生成方法，其中，所述概要規則定義步驟在將概要事件類型定義給所述視頻概要描述步驟之後，提供作為選擇概要視頻區間基礎的概要事件類型。
22.如權利要求18所述的視頻概要描述數據生成方法，該方法進一步包括代表性幀提取步驟，通過輸入所述概要視頻區間信息並且提取代表性幀，將該代表性幀提供給所述視頻概要描述步驟。
23.如權利要求18所述的視頻概要描述數據生成方法，該方法進一步包括代表性聲音提取步驟，通過輸入所述概要視頻區間信息並且提取代表性聲音，將該代表性聲音提供給所述視頻概要描述步驟。
24.一種其中存儲有一個程序的計算機可讀記錄介質，該程序執行如下步驟特徵提取步驟，輸出特徵類型和檢測到這些特徵的視頻時間區間；事件檢測步驟，通過輸入所述特徵類型和檢測到這些特徵的所述視頻時間區間，檢測包含在原始視頻中的關鍵事件；插曲檢測步驟，通過根據所述檢測到的關鍵事件將原始視頻劃分為情節流基本單元，檢測插曲；概要規則定義步驟，定義用於選擇概要視頻區間的概要規則；概要視頻區間選擇步驟，通過輸入所述檢測到的插曲和所述概要規則，選擇能夠概括原始視頻的視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述步驟，通過輸入由所述概要視頻區間選擇步驟輸出的概要視頻區間信息，使用分級概要DS生成視頻概要描述數據。
25.一種通過輸入原始視頻根據視頻概要描述方案生成視頻概要描述數據的系統，包括視頻分析裝置，用於通過輸入原始視頻並且分析原始視頻，輸出視頻分析結果；概要規則定義裝置，用於定義用來選擇概要視頻區間的概要規則；概要視頻區間選擇裝置，用於通過輸入所述原始視頻分析結果和所述概要規則，選擇能夠概括原始視頻的視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述裝置，用於通過輸入由所述概要視頻區間選擇裝置輸出的概要視頻區間信息，使用分級概要DS生成視頻概要描述數據。
26.如權利要求25所述的視頻概要描述數據生成系統，其中，所述分級概要DS至少包括一個描述精彩場面級的精彩場面級DS，其中所述精彩場面級DS至少包括一個描述組成那個精彩場面級的概要視頻的精彩場面段信息的精彩場面段DS，其中所述精彩場面段DS包括描述所述對應精彩場面段的時間信息或視頻本身的視頻段定位符DS。
27.如權利要求25所述的視頻概要描述數據生成系統，其中，所述視頻分析裝置包括特徵提取裝置，用於通過輸入原始視頻並且提取特徵，輸出這些特徵類型和檢測到這些特徵的視頻時間區間；事件檢測裝置，用於通過輸入所述特徵類型和檢測到這些特徵的視頻時間區間，檢測包含在原始視頻中的關鍵事件；和插曲檢測裝置，用於通過根據所述檢測到的事件將原始視頻劃分為情節流基本單元，檢測插曲。
28.如權利要求25所述的視頻概要描述數據生成系統，其中，所述概要規則定義裝置在將概要事件類型定義給所述視頻概要描述裝置之後，提供作為選擇概要視頻區間基礎的概要事件類型。
29.如權利要求25所述的視頻概要描述數據生成系統，該系統進一步包括代表性幀提取裝置，用於通過輸入所述概要視頻區間信息並且提取代表性幀，將該代表性幀提供給所述視頻概要描述裝置。
30.如權利要求25所述的視頻概要描述數據生成系統，該系統進一步包括代表性聲音提取裝置，用於通過輸入所述概要視頻區間信息並且提取代表性聲音，將該代表性聲音提供給所述視頻概要描述裝置。
31.一種其中存儲有一個程序的計算機可讀記錄介質，該程序用於運行如下裝置特徵提取裝置，用於輸出特徵類型和檢測到這些特徵的視頻時間區間；事件檢測裝置，用於通過輸入所述特徵類型和檢測到這些特徵的所述視頻時間區間，檢測包含在原始視頻中的關鍵事件；插曲檢測裝置，用於通過根據所述檢測到的關鍵事件將原始視頻劃分為情節流基本單元，檢測插曲；概要規則定義裝置，用於定義用來選擇概要視頻區間的概要規則；概要視頻區間選擇裝置，用於通過輸入所述檢測到的插曲和所述概要規則，選擇能夠概括原始視頻的視頻內容的視頻區間，組成概要視頻區間信息；和視頻概要描述裝置，用於通過輸入由所述概要視頻區間選擇裝置輸出的概要視頻區間信息，使用分級概要DS生成視頻概要描述數據。
32.一種伺服器/客戶機環境下的視頻瀏覽系統，包括伺服器，裝備有視頻概要描述數據生成系統，該系統通過輸入原始視頻，根據分級概要DS，生成視頻概要描述數據，並且連結所述原始視頻和視頻概要描述數據；和客戶機，通過使用所述視頻概要描述數據概覽所述原始視頻並且訪問所述伺服器的原始視頻，對視頻進行瀏覽和導航。
全文摘要
本發明涉及一種通過元數據描述視頻概要的視頻概要描述方案。視頻概要提供概覽功能,這使得在短時間內了解原始視頻的全部內容具有可行性,以及導航和瀏覽功能,這使得有效地搜索所需視頻內容具有可行性。根據本發明,分級概要(HierarchicalSummary)描述方案(DescriptionScheme,DS)至少包括一個精彩場面級(HighlightLevel)DS,並且選擇性地包括概要主題列表(SummaryThemeList)DS。精彩場面級DS描述精彩場面級,並且可以包含零個或至少一個更低的精彩場面級DS。精彩場面級DS包括一個或多個用於描述組成該精彩場面級的視頻概要的精彩場面段信息的精彩場面段(HighlightSegment)DS。精彩場面段DS包括用於描述對應段區間的時間信息的視頻段定位符(VideoSegmentLocator)DS。另外,精彩場面段DS可以包括用於描述對應段的代表性圖象信息的圖象定位符(ImageLocator)DS,用於描述代表性聲音信息的聲音定位符(SoundLocator)DS,和用於描述組成音頻概要的音頻段信息的音頻段定位符(AudioSegmentLocator)DS。
文檔編號G06T9/00GK1382288SQ00814746
公開日2002年11月27日申請日期2000年9月29日優先權日1999年10月11日
發明者金在坤, 張現盛, 金紋哲, 金鎮雄申請人:韓國電子通信研究院

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

用於有效概覽和瀏覽的視頻概要描述方案和生成視頻概要描述數據的方法和系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法