一種描述和捕獲視頻對象的方法及設備的製作方法
2023-05-05 14:10:36
專利名稱::一種描述和捕獲視頻對象的方法及設備的製作方法
技術領域:
:本發明涉及視頻技術,特別涉及一種描述和捕獲視頻對象的方法及設備。
背景技術:
:視頻監控(VideoSurveillance)技術經過多年的數位化發展,已逐步形成網絡化,為生產監控,如生產線流程監控、安全監控,如火車站、地鐵站、飛機場的安全監控,以及其它監控如病人護理髮揮了積極的作用,然而,隨著監控對象的增多以及各對象屬性資料信息的更新和增加,如何對大量的視頻監控資料進行方便地管理、檢索、視頻人機互動、智能再處理,充分發揮網絡化視頻監控系統的優勢,是目前視頻交互系統(InteractiveVideoSystem)需要解決的問題。運動圖像專家組(MPEG,MovingPictureExpertsGroup),即國際標準化組織和國際電工委員會第一聯合技術組第29分委會第11工作組(ISO/IECJTC1/SC29/WG11),負責數字視頻、音頻和其他媒體的壓縮、解壓縮、處理和表示等國際技術標準的制定工作,從1996年IO月開始研究多媒體內容4笛述才妾口(MultimediaContentDescriptionInterface),也就是MPEG-7,於2002年形成了國際標準ISO/IEC15938,Firstedition,定義了100多個描述工具,用於描述各種多媒體信息,這些"描述"(包括描述子和描述模式)與其內容關聯,允許快速有效地搜索用戶感興趣的資料,帶有MPEG-7數據的資料可以包含靜止圖像、圖形、3D模型、音頻、語音、視頻,以及這些元素如何在多媒體表現中組合的信息,而且,這些通用數據類型的特例還可以包含面部表情和個人化的特性。MPEG-7支持多種音頻和視覺的描述,並根據描述信息的抽象層次,提供一種描述多媒體的方法以便表示不同層次上的用戶對信息的需求。以視覺內容為例,較低抽象層包括顏色、視覺對象、紋理、草圖、形狀、尺寸、體積、空間、運動(軌道)和位置關係等;高層將給出語義信息如"這是一個場景一個鴨子正躲藏在樹後並有一個汽車正在幕後通過"。抽象層特徵一般以完全自動的方式提取,而高層特徵一般需要通過與用戶的交互來實現。MPEG-7特別適用於多媒體檢索,包括對視頻監控材料的檢索,通過搜尋引擎來匹配查詢數據和MPEG-7的音視頻描述,如對於圖形的查詢通過在屏幕上畫幾條線就能得到類似圖形、標識、表意文字(符號)等的一組圖像;又如,對於運動的查詢對一組給定的物體,描述在物體之間的運動關係,就可以得到實現所描述的時空關係的動畫列表。目前的隨機存取視頻系統,比如光碟、硬碟等,具有"播放、停止、快進、快退、暫停、拖動,,操作模式,可以根據視頻節目單來選擇需要觀看的視頻片段,也可以從指定的時間點來播放,並通過符合MPEG-7的對象描述可以播放檢索結果對應的視頻片段。圖1為現有描述方法中使用的動態視頻對象描述符示意圖,參見圖1,為每幀出現的每個對象建立視頻對象描述符(ObjectDescriptor),描述對象的各種屬性,在視頻對象描述符裡說明其形狀、尺寸、分層、持續時間、活動、活動參數以及其他對象特徵。在圖1中,對於一個視頻序列,每個序列號為一幀,為每幀出現的每個對象建立一個視頻對象描述符,在視頻對象描述符裡說明對象的輪廓坐標、對象編號、尺寸、分層、持續時間、活動、活動參數以及其他對象特徵。逐幀的視頻對象描述符形成一個視頻對象描述文件。舉例來說,如果同一個活動對象在N幀圖像中出現,就建立N個視頻對象描述符來表示它的跟蹤關係;如果M個活動對象在N幀圖象中出現,就建立MxN個^L頻對象描述符來表示它的跟蹤關係;在每個視頻對象描述符裡,記錄該對象的輪廓上所有像素點的輪廓坐標、視頻對象身份編號、尺寸、分層、持續時間、活動、活動參數、身份照片、身份參數以及其他對象特徵。在進行重放視頻序列時,系統從視頻對象描述符裡恢復每個對象的輪廓坐標與視頻序列的對應關係,從而實現滿足視頻監控所需要的人機互動功能。從圖1中可以看出,由於對每幀出現的每個對象建立一個視頻對象描述符,每個視頻對象描述符都需要描述對象的特徵,因此,當視頻序列較長,和/或視頻對象較多時,用於描述視頻對象的視頻對象描述符的數量和尺寸是非常龐大的,對視頻資料的快速檢索造成了困難。由於圖1中在視頻對象描述符裡使用輪廓坐標對視頻對象進行位置的定位,需要進行較為複雜的運算處理,佔用較多的存儲資源,因此,一種改進的方法是,利用視頻對象的"多邊形頂點坐標"或"視頻對象窗口坐標"取代"輪廓坐標",壓縮視頻對象描述符的尺寸,但用視頻對象窗口坐標或多邊形頂點坐標近似描述對象輪廓坐標,在選擇視頻對象時,如果選4奪的位置不準確,容易造成操作失誤,而且,利用視頻對象窗口坐標或多邊形頂點坐標對一見頻對象進行跟蹤和標註,也顯得較粗糙,進一步地,這種改進的方法只能減少視頻對象描述符的尺寸,不能減少視頻對象描述符的數量,對視頻資料的快速檢索仍然不利。
發明內容本發明實施例提供一種描述視頻對象的方法,減少視頻序列中視頻對象描述符的數量。本發明實施例還提供一種捕獲視頻對象的方法,提高視頻序列中視頻對象的檢索速度。本發明實施例還提供一種描述視頻對象的設備,減少視頻序列中視頻對象描述符的數量。本發明實施例還提供一種捕獲視頻對象的設備,提高視頻序列中視頻對象的4全索速度。為達到上述目的,本發明實施例的技術方案具體是這樣實現的一種描述視頻對象的方法,該方法包含捕獲視頻圖像,生成視頻序列,根據視頻序列生成視頻對象跟蹤序列;根據視頻對象跟蹤序列及視頻序列,生成視頻對象描述符。一種捕獲視頻對象的方法,該方法包括重放視頻對象,根據獲取的視頻對象跟蹤序列包括的信息對視頻對象進行捕獲和跟蹤。一種描述視頻對象的設備,該設備包含視頻對象捕獲模塊、視頻對象跟蹤模塊及視頻對象分析模塊,其中,視頻對象捕獲模塊,用於捕獲視頻圖像,生成視頻序列,將視頻序列分別向視頻對象跟蹤模塊及視頻對象分析模塊輸出;視頻對象跟蹤模塊,用於根據接收的視頻序列生成視頻對象跟蹤序列,向視頻對象分析模塊輸出;視頻對象分析模塊,用於根據接收的視頻對象跟蹤模塊輸出的視頻對象跟蹤序列及視頻捕獲模塊輸出的視頻序列,生成視頻對象描述符。一種捕獲視頻對象的設備,該設備包含重放控制模塊、視頻疊加模塊及顯示模塊,其中,重放控制模塊,用於重放視頻對象,接收用戶選定的視頻對象,與視頻對象跟蹤序列中包含的視頻對象區域位圖進行匹配,獲取跟蹤的視頻對象區域編號,根據跟蹤的視頻對象區域編號查詢視頻對象區域索引獲取跟蹤的視頻對象區域跟蹤編號,跟蹤後續幀中與視頻對象區域跟蹤編號相關的視頻對象區域編號,向視頻疊加模塊輸出;視頻疊加模塊,用於根據接收信息中包含的視頻對象區域編號,與視頻序列匹配獲取連續的視頻對象區域位圖,實時標註視頻對象區域位圖,輸出至顯示模塊;顯示模塊,用於實時顯示標註的視頻對象區域位圖。由上述技術方案可見,本發明實施例的一種描述和捕獲視頻對象的方法及設備,通過捕獲視頻圖像,生成視頻序列,根據視頻序列確定視頻對象區域編號及視頻對象區域跟蹤編號;根據視頻序列、視頻對象區域編號及視頻對象區域跟蹤編號,生成視頻對象跟蹤序列;根據視頻對象跟蹤序列及視頻序列,生成視頻對象描述符。重放視頻對象,根據獲取的視頻對象跟蹤序列包括的信息對視頻對象進行捕獲和跟蹤。由於在構造的視頻對象跟蹤序列中,通過視頻對象區域跟蹤編號捕捉和跟蹤視頻對象,不需要逐幀為每個視頻對象建立視頻對象描述符,從而減少了視頻對象描述符的數量,既能很好地適應智能視頻交互的應用需求,又加快了視頻資料的檢索速度。圖1為現有描述方法中使用的動態視頻對象描述符示意圖。圖2為本發明實施例實施例智能視頻生成設備結構示意圖。圖3為本發明實施例視頻對象區域位圖Mk中不同視頻對象RID的生成示意圖。圖4為本發明實施例視頻對象區域位圖Mk局部位圖示意圖。圖5為本發明實施例視頻對象描述符的結構示意圖。圖6為本發明實施例智能視頻重放設備結構示意圖。圖7為本發明實施例智能視頻編輯設備結構示意圖。圖8為本發明實施例一種描述視頻對象的方法流程示意圖。具體實施例方式為使本發明的目的、技術方案及優點更加清楚明白,以下參照附圖並舉實施例,對本發明作進一步詳細說明。本發明實施例是通過捕獲視頻圖像,生成視頻序列,根據視頻序列確定視頻對象區域編號及視頻對象區域跟蹤編號;根據視頻序列、視頻對象區域編號及視頻對象區域跟蹤編號,生成視頻對象跟蹤序列;根據視頻對象跟蹤序列及視頻序列,生成視頻對象描述符。為了實現上述目的,本發明提出了一種描述視頻對象的設備。圖2為本發明實施例智能視頻生成設備結構示意圖。參見圖2,該智能視頻生成設備包含視頻捕獲模塊201、視頻對象檢測模塊202、視頻對象跟蹤模塊203、視頻對象分析模塊204及事件分析模塊205,其中,視頻捕獲模塊201,用於捕獲視頻圖像,生成視頻序列(VideoSequence)Pk,包含K幀連續的圖像,將視頻序列分別向視頻對象檢測模塊202、視頻對象跟蹤模塊203、視頻對象分析模塊204及事件分析模塊205輸出;視頻對象檢測模塊202,用於接收視頻捕獲模塊201輸出的視頻序列Pk,獲取視頻對象區域位圖(ObjectRegionMap)Mk,對Mk進行檢測,對檢測到的Mk中不同^L頻對象分配碎見頻對象區域編號(RID,RegionIdentificationNumber)RID,向對象跟蹤模塊203輸出;下面對本發明實施例對象檢測模塊202獲取視頻對象區域位圖中不同對象的RID和相應的TID進行說明。圖3為本發明實施例視頻對象區域位圖Mk中不同視頻對象RID的生成示意圖,參見圖3,假設視頻對象區域位圖Mk中包括3幀連續的圖像,分別為第k幀圖像、第k+l幀圖像和第k+2幀圖像,每幀圖像包括2個視頻對象,在第k幀圖像時,當4企測到一個視頻對象時,系統給該視頻對象分配一個非零的RID,不同的視頻對象區域有不同的RID,沒有對象的區域RID的數值都為0,視頻對象區域位圖的生成方法是式中,(x,y)為Mk區域坐標當(x,y)處為背景圖像時,MJxj)為零;當(x,y)處為視頻對象區域時,MJx,力等於j,其中,j為分配的RID。以圖3為例,對於第k幀圖像,系統檢測到2個視頻對象,給其中一個視頻對象分配的RID=3,表示RID=3的視頻對象區域其數值都為3,另外一個視頻對象分配的RID=5,表示RID=5的一見頻對象區域其數值都為5,不同的視頻對象區域分配不同的RID;不同幀圖像中分配給同一個視頻對象的RID可以不相同。實際應用中,在同一Mk中,-f見頻對象區域裡的數值也不一定等於RID,例如,分配的RID=2,而相應浮見頻對象區域裡的數值可以為3,也可以為4;而且,在同一視頻對象區域裡的數值也不一定都相等,上述情況下,相應視頻對象區域裡的數值可通過其它方式與RID建立聯繫。圖4為本發明實施例視頻對象區域位圖Mk局部位圖示意圖,參見圖4,包含RID=3和RID=5的兩個視頻對象區域,其它區域為RID=0的背景圖像。獲取視頻對象區域位圖及視頻對象區域後,對該視頻對象區域進行統計分析就可以得到每個^L頻對象區域的窗口坐標(Left,Bottom,Right,Top)和中心位置坐標(CenterX,CenterY),計算方法如下Left為在Mk中RID為j的點中,最小的x(水平)坐標值;Bottom為在Mk中RID為j的點中,最小的y(縱)坐標值;Right為在Mk中RID為j的點中,最大的x(水平)坐標值;Top為在Mk中RID為j的點中,最大的y(縱)坐標值;CenterX為在Mk中RID為j的點中,平均的x(水平)坐標值;CenterY為在Mk中RID為j的點中,平均的y(縱)坐標值。視頻對象跟蹤模塊203,用於接收視頻對象檢測模塊202輸出的Mk及RID以及視頻捕獲模塊201輸出的Pk,通過對幀間不同視頻對象區域的視頻內容進行分析,得到視頻對象區域的跟蹤關係,為不同幀中具有跟蹤關係的視頻對象區域分配同一個視頻對象區域跟蹤編號(TID,RegionTracingNumber)TID;對於新出現的碎見頻對象區域,為該視頻對象區域分配一個新的TID;生成視頻對象跟蹤序列(ObjectTrackingSequence)(Mk,RIk),其中,RIk為第k(k=0,l,...,K-l)幀視頻對象區域索引(ObjectRegionIndex),包含RID和TID;向視頻對象分析才莫塊204輸出;仍以圖3為例,對於第k幀圖像中的RID=3、第k+l幀圖像中的RID=4和第k+2幀圖像中的RID=3,分配同一個TID-2,表示其跟蹤關係;對於第k幀圖像中的RID=5、第k+l幀圖像中的RID-2和第k+2幀圖像中的RID-4,分配同一個TID-3,表示其跟蹤關係。假設第k幀視頻圖像中RID=3的視頻對象區域,計算得到的窗口坐標(Left,Bottom,Right,Top)和中心位置坐標(CenterX,CenterY)分別為(180,2,234,56)和(210,28),RID=5的視頻對象區域,其窗口坐標和中心位置坐標分別為(235,24,255,36)和(246,29);第k+l幀圖像中RID=4的視頻對象區域,窗口坐標和中心位置坐標分別為(102,11,128,38)和(116,24),RID=2的視頻對象區域,其窗口坐標和中心位置坐標分別為(190,12,215,40)和(203,25);第k+2幀圖像中RID=3的視頻對象區域,窗口坐標和中心位置坐標分別為(27,24,46,35)和(37,28),RID=4的視頻對象區域,其窗口坐標和中心位置坐標分別為(65,3,115,58)和(92,29)。則視頻對象跟蹤序歹'J(Mk,RIk)中視頻對象區域索引RIk可以表示為表1所示。表1tableseeoriginaldocumentpage13視頻對象分析模塊204,用於接收視頻對象跟蹤模塊203輸出的視頻對象跟蹤序列(Mk,Rlk)以及視頻捕獲^t塊201輸出的Pk,根據Pk和(Mk,RIk),生成包含視頻對象身份編號(PID,PersonalIdentificationNumber)和視頻對象分類編號(CID,ClassificationNumber)的視頻對象描述符ODj(j=0,l,...,J-l),其中,J為K幀連續圖像中包含的不同視頻對象的個數。圖5為本發明實施例視頻對象描述符的結構示意圖,參見圖5,包括PID、TID、CID、身份照片連結、身份參數連結及其它特徵。其中,PID和TID是視頻對象描述符中不可或缺的參數,PID是標誌視頻對象的唯一編號,代表視頻對象的身份,可以被其它的語義描述引用;TID為(Mk,RIk)中的視頻對象區域跟蹤編號;CID為視頻對象的分類編號,可以被其它的語義描述所引用,身份照片連結及身份參數連結將身份照片及身份參數連結到其它位置,以減少視頻對象描述符的尺寸。還可以是利用壓縮編碼如變長字節Haffman編碼對視頻對象跟蹤序列進行壓縮處理後輸出。在生成初始的視頻對象描述符後,視頻對象分析模塊204不斷分析視頻對象區域的特徵,如果視頻對象區域內某視頻對象的特徵,如視頻對象區域位圖、視頻對象輪廓位圖、視頻對象身份照片及視頻對象身份參數的置信度高於視頻對象描述符中對應的該視頻對象特徵,則將置信度較高的視頻對象特徵更新到視頻對象描述符中,以及,視頻對象描述符中身份照片及身份參數對應的連結照片和文件。事件分析模塊205,用於接收視頻捕獲模塊201及視頻對象分析模塊204的輸出,通過分析視頻對象檢測輸出、視頻對象跟蹤輸出、視頻對象分析輸出及視頻序列,生成基於語義的視頻對象事件描述(EventDescription)EDn,用於對視頻序列中發生的事件進行語義描述,EDn可以引用ODj中的PID。圖6為本發明實施例智能視頻重放設備結構示意圖。參見圖6,該智能視頻重放設備包含事件解釋模塊601、重放控制模塊602、視頻疊加模塊603、顯示模塊604及點擊模塊605,其中,事件解釋模塊601,用於對視頻序列中發生的事件進行語義描述,根據EDn描述的視頻對象,通過EDn獲取相應視頻對象對應的PID,將PID信息輸出至重放控制模塊602;點擊模塊605,用於選取跟蹤的視頻對象,輸出至重放控制模塊602;重放控制模塊602,用於重放視頻對象,同步解釋視頻對象跟蹤序列(Mk,RIk),接收點擊模塊605輸出的視頻對象,與(Mk,RIk)中的Mk進行匹配,如果與Mk中某視頻對象區域匹配成功,獲取跟蹤的視頻對象對應的RID,根據RID查詢RIk獲取跟蹤的視頻對象對應的TID,通過ODj搜索該跟蹤的視頻對象PID和視頻對象特徵,跟蹤後續幀中與TID相關的RID,實現捕捉和跟蹤視頻對象;或者,接收事件解釋模塊601輸出的PID信息,根據PID信息確定該浮見頻對象的ODj,獲fl對應的TID(—個PID可以對應一個或多個TID),才艮據獲取的TID,在ODj中進行檢索,獲取跟蹤的視頻對象的其它特徵,例如身份照片、身份特徵參數、底層特徵、語義描述;或者,根據PID信息確定該視頻對象的ODj,在ODj中進行檢索獲取對應的TID,通過TID獲取跟蹤的視頻對象RIk,然後通過RIk可以跟蹤一見頻對象的位置和輪廓,向糹見頻疊加模塊603輸出;視頻疊加模塊603,用於接收重放控制模塊602輸出的信息,根據輸出信息中包含的RID,與視頻序列匹配獲取連續的視頻對象Mk,然後根據重放控制模塊602輸出的信息,對相應的圖像區域進行實時顯示標註、提取對象照片等操作,並將操作的結果輸出至顯示模塊604;實際應用中,顯示標註的形式有多種,可以對選定的視頻對象進行標註,也可以對選定的視頻對象輪廓進行標註,還可以對選定的碎見頻對象的對象區域窗口坐標進行標註,還可以對選定的所述視頻對象的對象區域中心坐標進行標註,還可以對選定的所述視頻對象運動軌跡進行標註,還可以根據事件描述符引用的對象身份編號跟蹤或標註視頻對象,也可以同時進行一種或一種以上的標註。顯示模塊604,用於將視頻疊加模塊603的輸出進行顯示,如實時提取選定的視頻對象身份照片進行顯示。實際應用中,也可以是在智能視頻生成設備中增加重放控制模塊、視頻疊加模塊及顯示模塊,完成視頻對象重放顯示,查詢、跟蹤視頻序列中視頻對象,對相應的圖像區域進行實時顯示標註以及將提取的身份照片顯示。視頻對象區域位圖可以為對象輪廓位圖,也可以為對象輪廓坐標。圖7為本發明實施例智能視頻編輯設備結構示意圖。參見圖7,該智能視頻編輯設備包含事件解釋模塊701、享放控制/編輯控制模塊702、視頻疊加模塊703、顯示模塊704及點擊模塊705,與圖6不同的是,智能視頻編輯設備在智能視頻重放設備的基礎上增加了編輯控制功能,用於根據用戶的要求對視頻對象進行編輯、更新以及改變視頻對象跟蹤關係。重放控制/編輯控制模塊702,根據點擊模塊705輸出的用戶要求,手動編輯與捕獲的視頻對象相關的事件描述,通過自動或手動更新RIk中的TID以及ODj中的TID來改變^L頻對象^J宗關係;通過手動或自動更新;現頻對象ODj中的視頻對象身份照片連結、身份參數連結、以及其它特徵。實際應用中,也可以將智能視頻生成設備和智能視頻重放設備,或將智能視頻生成設備和智能視頻編輯設備組合成為複合設備。可以應用於視頻監控,也可以應用於例如視頻會議、工業、醫療、新聞、電影以及攝像機、錄像機、光碟機、電腦播放器,視頻圖像的編碼形式可以採用MPEG-1、MPEG-2、MPEG-4、H.263、H.264、WMV9、AVS、JPEG,只要是連續的視頻圖像,都可以利用視頻對象跟蹤序列,實現:規頻交互。圖8為本發明實施例一種描述視頻對象的方法流程示意圖。參見圖8,該流程包含步驟801,捕獲視頻圖像;本步驟中,將捕獲的K幀連續的圖像作為一個視頻序列Pk。步驟802,構造^L頻對象跟蹤序列(Mk,RIk);本步驟中,根據視頻序列Pk,獲取視頻對象區域位圖Mk,對Mk進行檢測,對檢測到的Mk中不同視頻對象分配RID,同一Mk中視頻對象區域數值等於RID,根據Mk及RID,獲取每個RID的窗口坐標(Left,Bottom,Right,Top)和中心位置坐標(CenterX,CenterY);為不同幀中具有跟蹤關係的^L頻對象區域分配同一個TID;對於新出現的視頻對象區域,為該視頻對象區域分配一個新的TID;才艮據RID、TID、窗口坐標及中心位置坐標生成RIk。實際應用中,在同一Mk中,視頻對象區域裡的數值也不一定等於RID,例如,分配的RID=2,而相應視頻對象區域裡的數值可以為3,也可以為4;而且,在同一視頻對象區域裡的數值也不一定都相等,上述情況下,相應視頻對象區域裡的數值可通過其它方式與RID建立聯繫。此外,視頻對象區域位圖Mk也可以是視頻對象輪廓位圖,還可以是視頻對象輪廓坐標,也可以是將視頻對象區域位圖、視頻對象輪廓位圖及視頻對象輪廓坐標進行壓縮。生成的(Mk,RIk)與現存的視頻碼流如MPEG-1、MPEG-2、MPEG-4、H.264兼容,也與MPEG-7的視頻視頻對象描述符兼容;(Mk,RI0可以與相關的視頻碼流、MPEG-7的描述元素一起存放,也可以單獨存放在其它位置。而且,生成的RIk可以只包含TID和RID。步驟803,根據Pk和生成的(Mk,RIk),生成和更新視頻視頻對象描述符ODj;本步驟中,根據Pk和生成的(Mk,RIk),分析視頻對象區域特徵,如果視頻對象區域圖像特徵的置信度高於視頻對象描述符中視頻對象區域圖像特徵,則將置信度較高的圖像特徵更新到視頻對象描述符中,以及,將質量最好的身份照片更新到相應的描述連結文件中。本實施例中,為了減少視頻對象描述符的尺寸,將視頻對象描述符中有關對象身份照片、身份參數等通過連結保存在另外的文件裡,進一步減少了視頻對象描述符的尺寸。步驟804,根據Pk、(Mk,RIk)和ODj,生成基於語義的視頻對象事件描述ED。;本步驟中,EDn用於對視頻序列中發生的事件進行語義描述,EDn可以引用ODj中的PID。步驟805,重》t:規頻序列Pk;本步驟中,在重放視頻序列Pk,同步解釋(Mk,RIk),根據用戶選取的圖像信息,與Mk進行匹配,如果與Mk中某視頻對象區域匹配成功,獲取該視頻對象RID,然後通過一見頻對象RIk查詢,獲取該一見頻對象TID,通過ODj搜索該視頻對象PID和對象特徵,實現捕捉和跟蹤視頻對象;也可以對EDn進行解釋,根據EDn引用的PID,檢索ODj,獲取對應的TID,然後通過RIk查詢獲取RID。步驟806,編輯視頻序列Pk。本步驟中,根據用戶的要求自動或手動更新RIk中的TID及ODj中的TID,更新視頻對象跟蹤關係;手動或自動更新視頻對象的身份照片、身份參數、其它特徵以及手動編輯與捕捉到的視頻對象相關的事件描述;根據用戶的要求對捕捉和跟蹤到的視頻對象進行標註顯示、照片顯示及跟蹤關係顯示。由上述實施例可見,本發明實施例的一種描述視頻對象的方法及設備,將每幀所有視頻對象的輪廓坐標作為一個完整的視頻元素形成逐幀的Mk,並通過逐幀的RIk與Pk建立聯繫。通過捕獲視頻圖像,構造視頻對象跟蹤序列(Mk,RIk),根據Pk和(Mk,RIk),分析視頻對象區域特徵,根據分析結果更新視頻對象描述符ODj,根據Pk、(Mk,RIk)和ODj,生成基於語義的視頻對象事件描述EDn;在重放視頻序列Pk時,根據用戶選取的圖像信息,與Mk進行匹配,獲取該視頻對象RID,然後通過視頻對象RIk查詢,獲取該視頻對象TID,通過ODj搜索該視頻對象PID和對象特徵,實現捕捉和跟蹤浮見頻對象,並可在重放時編輯:規頻序列Pk。對於連續的活動一見頻對象,通過構造(Mk,RIk),不需要逐幀為每個視頻對象建立視頻對象描述符,減少了視頻對象描述符的數量,而且,將視頻對象描述符中的身份照片、身份參數通過連結保存在另外的文件裡,減少了視頻對象描述符的尺寸,既能很好地適應智能視頻交互的應用需求,又加快了視頻資料的檢索速度。以上舉較佳實施例,對本發明的目的、技術方案和優點進行了進一步詳細說明,所應理解的是,以上所述僅為本發明的較佳實施例而已,並不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。權利要求1.一種描述跟蹤序列的方法,其特徵在於,該方法包括捕獲視頻圖像,生成視頻序列,根據視頻序列生成視頻對象跟蹤序列;根據視頻對象跟蹤序列及視頻序列,生成視頻對象描述符。2、如權利要求l所述的方法,其特徵在於,所述根據視頻序列生成視頻對象跟蹤序列包括根據視頻序列確定視頻對象區域編號;根據視頻序列確定視頻對象區域跟蹤編號;根據視頻序列、視頻對象區域編號及視頻對象區域跟蹤編號,生成視頻對象跟蹤序列。3、如權利要求2所述的方法,其特徵在於,所述根據視頻序列確定視頻對象區域編號包括根據視頻序列獲取視頻對象區域位圖,對視頻對象區域位圖中的不同的視頻對象區域進行編號。4、如權利要求2所述的方法,其特徵在於,所述根據視頻序列確定視頻對象區域跟蹤編號包括根據視頻序列獲取視頻對象區域位圖,對視頻對象區域位圖中的不同的視頻對象區域進行分析,得到視頻對象區域跟蹤編號。5、如權利要求2所述的方法,其特徵在於,所述視頻對象跟蹤序列包括視頻對象區域位圖和視頻對象區域索引。6、如權利要求5所述的方法,所述視頻對象區域索引包括視頻對象區域編號和視頻對象區域跟蹤編號。7、如權利要求6所述的方法,其特徵在於,所述視頻對象區域索引進一步包括對象區域窗口坐標和對象區域中心坐標。8、如權利要求6或7所述的方法,其特徵在於,所述視頻對象描述符包括視頻對象身份編號及視頻對象區域跟蹤編號連結,所述視頻對象區域跟蹤編號連結視頻對象的動態屬性。9、如權利要求8所述的方法,其特徵在於,所述視頻對象描述符進一步包括身份照片連結或身份參數連結,用於根據獲取的跟蹤對象照片的質量,確定當前幀跟蹤對象照片質量好於視頻對象描述符身份照片連結對應的照片,用當前幀跟蹤對象照片更新視頻對象描述符身份照片連結對應的照片。10、如權利要求9所述的方法,其特徵在於,所述用當前幀跟蹤對象照片更新視頻對象描述符身份照片連結對應的照片的步驟進一步包括更新所述跟蹤對象的身份參數連結對應的文件。11、如權利要求17、9、IO任一項所迷的方法,其特徵在於,所述方法進一步包括根據視頻對象描述符及視頻序列,生成事件描述,所述事件描述引用視頻對象描述符中的對象身份編號。12、如權利要求3~7、9、IO任一項所述的方法,其特徵在於,所述視頻對象區域位圖為視頻對象輪廓位圖或視頻對象輪廓坐標。13、如權利要求37、9、IO任一項所述的方法,其特徵在於,對所述視頻對象跟蹤序列使用變長字節Haffman編碼進行壓縮處理。14、一種捕獲^f見頻對象的方法,其特徵在於,該方法包括重放視頻對象,根據獲取的視頻對象跟蹤序列包括的信息對視頻對象進行捕獲和跟蹤。15、如權利要求14所述的方法,其特徵在於,所述對視頻對象進行捕獲和跟蹤的步驟包括將用戶點擊輸出的視頻對象,與視頻對象跟蹤序列包括的視頻對象區域位圖進行匹配,確定與視頻對象區域位圖中某視頻對象區域匹配成功,獲取跟蹤的視頻對象對應的視頻對象區域編號,根據視頻對象區域編號查詢視頻對象區域索引,獲取跟蹤的視頻對象對應的視頻對象區域跟蹤編號,通過視頻對象描述符搜索跟蹤的視頻對象身份編號和視頻對象特徵,跟蹤後續幀中與視頻對象區域跟蹤編號相應的視頻對象區域編號。16、如權利要求15所述的方法,其特徵在於,所述對視頻對象進行捕獲和跟蹤的步驟進一步包括對下述之一或任意組合進行標註視頻對象輪廓、視頻對象的對象區域窗口坐標、視頻對象的對象區域中心坐標、視頻對象運動軌跡。17、如權利要求14或15或16所述的方法,其特徵在於,實時提取選定的視頻對象身份照片進行顯示。18、如權利要求14或15或16所述的方法,其特徵在於,根據事件描述符引用的對象身份編號跟蹤或標註視頻對象。19、如權利要求14或15或16所述的方法,其特徵在於,所述方法進一步包括對捕獲和跟蹤的視頻對象進行編輯,通過自動或手動更新視頻對象區域索引中的視頻對象區域跟蹤編號及視頻對象描述符中的視頻對象區域跟蹤編號,或通過自動或手動更新視頻對象描述符中包含的身份照片、身份參數連結及其它特徵,或通過手動編輯與捕捉到的對象相關的事件描述。20、—種描述視頻對象的設備,其特徵在於,該設備包含視頻對象捕獲模塊、視頻對象跟蹤模塊及視頻對象分析模塊,其中,視頻對象捕獲模塊,用於捕獲視頻圖像,生成視頻序列,將視頻序列分別向視頻對象跟蹤模塊及視頻對象分析模塊輸出;視頻對象跟蹤模塊,用於根據接收的視頻序列生成視頻對象跟蹤序列,向視頻對象分析模塊輸出;視頻對象分析模塊,用於根據接收的視頻對象跟蹤模塊輸出的視頻對象跟蹤序列及視頻捕獲模塊輸出的視頻序列,生成視頻對象描述符。21、如權利要求20所述的設備,其特徵在於,所述設備進一步包括視頻對象檢測模塊,用於根據接收的視頻序列確定視頻對象區域編號及視頻對象區域跟蹤編號,向視頻對象跟蹤模塊輸出;視頻對象跟蹤模塊,用於根據接收的視頻序列確定視頻對象區域跟蹤編號,根據視頻對象區域跟蹤編號以及接收的視頻對象區域編號及視頻序列,生成視頻對象跟蹤序列,向視頻對象分析模塊輸出。22、如權利要求20所述的設備,其特徵在於,所述設備進一步包括事件分析模塊,用於接收視頻對象捕獲模塊輸出的視頻序列及視頻對象分析模塊輸出的視頻對象描述符,生成事件描述,所述事件描述引用視頻對象描述符中的對象身份編號。23、—種捕獲視頻對象的設備,其特徵在於,該設備包含重放控制模塊、視頻疊加模塊及顯示模塊,其中,重放控制模塊,用於重放視頻對象,接收用戶選定的視頻對象,與視頻對象跟蹤序列中包含的視頻對象區域位圖進行匹配,獲取跟蹤的視頻對象區域編號,根據跟蹤的視頻對象區域編號查詢視頻對象區域索引獲取跟蹤的視頻對象區域跟蹤編號,跟蹤後續幀中與視頻對象區域跟蹤編號相關的視頻對象區域編號,向視頻疊加模塊輸出;視頻疊加模塊,用於根據接收信息中包含的視頻對象區域編號,與視頻序列匹配獲取連續的視頻對象區域位圖,實時標註視頻對象區域位圖,輸出至顯示模塊;顯示模塊,用於實時顯示標註的視頻對象區域位圖。24、如權利要求23所述的設備,其特徵在於,所述設備進一步包括重放控制/編輯控制模塊,對捕獲和跟蹤的視頻對象進行編輯,通過自動或手動更新視頻對象區域索引中的視頻對象區域跟蹤編號及視頻對象描述符中的視頻對象區域跟蹤編號,或通過自動或手動更新視頻對象描述符中包含的身份照片、身份參數連結及其它特徵,或通過手動編輯與捕捉到的對象相關的事件描述。全文摘要本發明公開了一種描述和捕獲視頻對象的方法及設備,通過捕獲視頻圖像,生成視頻序列,根據視頻序列生成視頻對象跟蹤序列;根據視頻對象跟蹤序列及視頻序列,生成視頻對象描述符。重放視頻對象,根據獲取的視頻對象跟蹤序列包括的信息對視頻對象進行捕獲和跟蹤。應用本發明,由於在構造的視頻對象跟蹤序列中,通過視頻對象區域跟蹤編號捕捉和跟蹤視頻對象,不需要逐幀為每個視頻對象建立視頻對象描述符,從而減少了視頻對象描述符的數量,既能很好地適應智能視頻交互的應用需求,又加快了視頻資料的檢索速度。文檔編號G06T7/00GK101420595SQ20071016561公開日2009年4月29日申請日期2007年10月23日優先權日2007年10月23日發明者趙光耀申請人:華為技術有限公司