多運動目標動作行為識別的訓練方法和識別方法
2023-05-24 13:31:11
專利名稱:多運動目標動作行為識別的訓練方法和識別方法
技術領域:
本發明涉及基於內容的視頻分析與動作識別領域,特別涉及多運動目標動作行為 識別的訓練方法和識別方法。
背景技術:
隨著信息技術的發展與應用,越來越多的數位化內容尤其是視頻數據被不斷地生 產出來,這些視頻數據中蘊含著豐富的語義信息,如何有效發掘利用這些信息是領域內的 前沿研究方向。視頻內容通常由大量的物體及其運動行為所構成,對這些動作行為進行分析理解 是視頻內容分析的重要組成部分。隨著視頻監控系統的廣泛部署,對視頻中的行為分析和 識別的需求也在不斷增加,對分析識別內容的難度和準確性的要求也越來越高。現有技術中存在對視頻中的動作行為進行分析的相關方法,這些方法存在以下兩 個特點。第一個特點是現有方法主要針對少數目標的動作行為進行分析,比如對單個人的 動作進行分類識別,對兩個人有交互的行為進行識別等,缺乏對三人以上的群體動作行為 進行分類的有效方法。這一特點使得現有方法在對群體動作行為進行分類、識別時效果不 佳。例如,現有的廣場監控系統目前能識別個人的行為,但還無法較好解決多人行為,比如 打群架。第二個特點是現有方法在為運動行為建模時沒有充分考慮動作行為自身的不確定 性,對動作行為模式的表達能力不強,無法應用於對多人行為等類內差別很大的行為模式 進行描述和分類。針對現有技術中的動作行為分析方法所存在的上述問題,在參考文獻 1「Detecting Group Activities using Rigidity of Formation,Saad M. Khan andMubarak Shah,Proceedings of the 13th annual ACM international conferenceon Multimedia, page :403-406,2005」中提出了從整體考慮多人行為,並根據多人在三維空間中的位置結 構不變性來進行識別的方法。但這種方法忽略了個人層次上的信息,並且僅依靠空間結構 的關係約束並不能很好地適應多人行為表現多變的特徵。在參考文獻2 "Learning Group Activity inSoccer Videos from Local Motion, Yu Kong, ffeiming Hu, Xiaoqin Zhang, Hanzi Wang,and Yunde Jia,LECTURE NOTES IN COMPUTER SCIENCE,Asian Conference on Computer Vision (ACCV),2009」中也提出過使用局部特徵來進行群體行為識別的方法,但 這種方法僅使用局部表觀特徵作為基礎,不能從較高的語義層次上描述多人行為模式。
發明內容
本發明的目的是克服現有的動作行為分析方法在群體行為識別上的不足,從而提 出多運動目標動作行為識別的訓練方法和識別方法。為了實現上述目的,本發明提供了一種多運動目標動作行為識別的訓練方法,包 括步驟1)、從視頻數據中提取每個運動目標的運動軌跡信息;
步驟2)、為所述運動目標的運動軌跡信息分層,在各個所述層次上為多運動目標 動作行為的運動模式建模;所述層次包括獨立運動目標的層次、兩個運動目標的交互層次 以及多個運動目標的群體層次;步驟3)、綜合所述視頻中的全局和局部的運動信息對所述運動模式的模型進行特 徵描述;所述特徵至少包括使用高斯過程描述運動軌跡的三維超參數向量;步驟4)、根據步驟3)所得到的特徵訓練分類器。上述技術方案中,在所述的步驟2)中,所述的在各個所述層上為多運動目標動作 行為的運動模式建模包括步驟2-1)、在獨立運動目標的層上,為各個獨立運動目標的運動行為建模;步驟2-2)、在兩個運動目標交互的層上,將多個運動目標中的任意兩個的交互軌 跡來描述運動目標間的交互行為,為任意兩個運動目標間的交互行為建模;步驟2-3)、在多個運動目標群體的層上,根據所有運動目標的交互軌跡集合所構 成的群體軌跡為多個運動目標群體建模。上述技術方案中,在所述的步驟3)中,所述特徵還包括用於表示運動強度的一維 向量和用於表示運動的複雜程度的一維向量,所述的步驟3)包括步驟3-1)、對步驟2)得到的所有運動軌跡進行高斯過程擬合,用迭代優化的方法 得到的三維超參數向量作為對全局持續的運動模式的特徵描述;步驟3-2)、根據運動軌跡信息,計算運動目標速度大小的均值,作為對運動強度的 特徵描述;步驟3-3)根據運動軌跡信息,計算運動目標速度方向改變的程度,作為對運動復 雜度的特徵描述。上述技術方案中,所述的步驟4)包括步驟4-1)、將各個層上的特徵做詞袋操作,得到歸一化特徵直方圖;步驟4-2)、利用所述的歸一化特徵直方圖訓練分類器。上述技術方案中,在所述的步驟4-2)中,首先將各個層上的歸一化特徵直方圖連 接成一個特徵向量,然後利用該特徵向量訓練分類器。上述技術方案中,在所述的步驟4-2)中,首先利用各個層上的歸一化特徵直方圖 分別訓練分類器,所述分類器的識別結果的綜合為動作行為識別的最終結果。本發明還提供了一種多運動目標動作行為識別方法,包括步驟1)、從待識別視頻數據中提取每個運動目標的運動軌跡信息;步驟2)、為所述運動目標的運動軌跡信息分層,在各個所述層上為多運動目標動 作行為的運動模式建模;所述層包括獨立運動目標的層、兩個運動目標交互的層以及多個 運動目標群體的層;步驟3)、綜合所述視頻中的全局和局部的運動信息對所述運動模式的模型進行特 徵描述;所述特徵至少包括使用高斯過程描述運動軌跡的三維超參數向量;步驟4)、利用所述的多運動目標動作行為識別的訓練方法訓練得到的分類器對步 驟3)所得到的特徵加以識別,從而完成對多運動目標的動作行為的識別。本發明又提供了一種多運動目標動作行為識別方法,包括步驟1)、從待識別視頻數據中提取每個運動目標的運動軌跡信息;
步驟2)、為所述運動目標的運動軌跡信息分層,在各個所述層上為多運動目標動 作行為的運動模式建模;所述層包括獨立運動目標的層、兩個運動目標交互的層以及多個 運動目標群體的層;步驟3)、綜合所述視頻中的全局和局部的運動信息對所述運動模式的模型進行特 徵描述;所述特徵包括使用高斯過程描述運動軌跡的三維超參數向量、用於表示運動強度 的一維向量和用於表示運動的複雜程度的一維向量;步驟4)、利用所述的多運動目標動作行為識別的訓練方法訓練得到的分類器對步 驟3)所得到的特徵加以識別,從而完成對多運動目標的動作行為的識別。本發明的優點在於本發明提出的多人行為分析識別方法從概率角度使用高斯過程來表述目標的運 動軌跡,從全局和局部、持續和瞬時等不同角度來分析運動特徵,而且從三個粒度層次上對 多人行為模式進行建模提取特徵,使得對多人行為的表述更符合實際。本方法適用於多種 內容類型的多人行為,可以取得很好的識別效果。
圖1為本發明的多運動目標動作行為訓練方法的流程圖;圖2為多人行為的三層運動模式建模示意圖。
具體實施例方式下面結合附圖和具體實施方式
對本發明加以說明。在當前視頻中,人是主要的運動目標,因此在對本發明的多運動目標動作行為訓 練和識別方法進行說明的過程中,以人為例,對相關方法進行說明。由於本發明的方法是要 對視頻中的多人動作行為加以識別,因此所要處理的視頻中一般應當包括有多人。參考圖1,在步驟S1中,從包含多人行為的視頻數據中提取每個人的運動軌跡信 息。從視頻中提取個人的運動軌跡信息屬於本領域技術人員的公知常識,採用現有技術中 的相關方法,如對視頻中的運動目標分別進行檢測跟蹤,從而得到每個目標的運動軌跡。目 標的運動軌跡信息中包含視頻幀號和該幀中運動目標的位置(可用畫面坐標系中的x軸 和y軸坐標表示)。在運動軌跡的提取過程中,為了得到比較理想的跟蹤結果,作為一種優 選實現方式,可以採用半監督的方式來做運動目標的檢測跟蹤,例如在開始階段由人工標 注出運動目標的位置,然後採用粒子濾波等方法跟蹤目標的後續運動。在運動軌跡提取之 前,為了解決多人運動中的某一個體可能在中途離開視頻畫面而造成的各目標運動軌跡長 度不等的問題,可在一個優選實施例中首先對待處理的視頻數據進行分割,把一段視頻分 成時長相等的視頻片段(例如每段長度50到100幀),然後再進行前述的運動軌跡提取過 程。對視頻的分段操作可以基本保證每個視頻分段中的各個目標軌跡等長,同時也可以降 低對目標跟蹤的難度。在一個範例中,若視頻片段中有5個人,則經過步驟S1後可得到這 5個人各自的運動軌跡信息。在步驟S2中,在步驟S1所生成的每個人的運動軌跡信息的基礎上,將運動軌跡信 息分為三個層次,如圖2所示,分別在三個層次上對多人行為的運動模式進行建模。第一層次獨立個人。把多人行為中的每個人看成獨立的個體,僅對這個獨立個體的運動行為進行建模。第二層次兩人交互。把多人行為中的任意兩個人當作研究對象,對這兩個人的交 互行為進行建模。在本發明中,使用交互軌跡來表示兩個人之間的這種交互關係。交互軌跡 一種抽象的運動軌跡,從兩人各自的運動軌跡中獲得,其具體定義如下面的公式(1)所示Tl{ab)=Tla -Tlb, i = l…,n(1)在上述公式中,T1表示人在第i幀中的位置,n是視頻的總幀數,a、b則代表兩個 不同的人。交互軌跡實質上包含了兩人之間相對距離的變化信息,反映了兩個人之間的交互 行為模式。第三層次多人群體將多人行為作為一個整體來考慮,對所有參與者整體上的 行為模式進行建模。在本發明中使用一種群體軌跡來表示這種多人間的運動行為模式。群 體軌跡也是一種抽象軌跡,以交互軌跡為基礎,由所有人的運動軌跡得出,其具體定義如下 面的公式⑵所示T= {T(a,b)|a,b G G 且 a 乒 b}(2)在上述公式中,a、b表示群體中的個人,G是群體運動中所有人組成的集合。群體軌跡是交互軌跡的集合,由多人行為中的所有兩人間的交互軌跡構成,反映 的是這個群體整體上的行為模式。要對群體軌跡建模,可以採用群體軌跡的統計量(例如 平均值、標準差等)作為其具體表現形式。在步驟S3中,綜合全局和局部的運動信息對運動模式進行特徵描述。本發明以 視頻中各個運動目標的運動軌跡為基礎,從全局持續和局部瞬時兩方面來綜合分析運動特 徵。在步驟S2中,對運動目標的運動軌跡做了分層描述,在本步驟中,也將以運動目標各個 層次的運動軌跡為基礎,來分析對應的運動特徵。在本發明中將一段運動軌跡看作是一段時間內運動目標整體上的運動模式,而且 人在這種群體行為中的運動軌跡具有一定的不確定性,基於這一特點,本發明採用高斯過 程來描述運動軌跡,其計算公式如下T{t) = /⑴ + S, S N、Q,(T2n、
m 於一,勾,1二K + crX,(3)在上述公式中,GP表示一個高斯過程,m為其均值函數,K為其協方差函數,£是 滿足方差為on2的高斯分布的噪聲,,是Kronecker德爾塔函數。如公式(3)所示,f表 示目標的運動滿足高斯過程,T表示實際觀測到的運動軌跡,當中包含了噪聲£的影響,但 同樣認為其滿足高斯過程。這種表述從概率角度理解目標的運動,更符合實際情況。對高 斯過程參數的選取均值m取0,協方差函數K取平方指數(squared exponential)協方差
函數,其計算如公式(4)所示K(x,xr) = <jf2 exp
((x - x')2、 2/2
(4)其中,fl/足函數f的期望方差,1是一個長度尺度參數。綜合考慮上述的公式(3)和公式(4),前述的高斯過程可以通過一組超參數 (hyper-parameters) 0來決定,所以在本發明中可用三維向量e來描述滿足高斯過程的 運動軌跡,具體形式參見下面的公式(5)9 = [ o f 1 o J(5)依據實際得到的運動軌跡數據通過高斯過程擬合來得到超參數e的具體數值, 從而獲得這些軌跡的特徵表達。高斯過程的擬合一般通過優化對數似然函數來完成,優化 函數形式如下面的公式(6)所示
L = \ogp{T \t,0) =-去 log |Z| -^TVT -晉 log(2^)( 6 )對公式(6)優化求解e有多種途徑,一種可行的方法是對函數L求偏導數,然後 用共軛梯度等數值優化方法迭代優化求解。作為一種優選實現方式,在本實施例中使用前 述三維的超參數向量9來描述一條的運動軌跡數據,降低了特徵表示的複雜度,而且由於 高斯過程是從概率角度闡釋運動過程使得這種特徵表述更符合實際情況,從而對多人運動 的不確定性的表述能力也更強。通過用上文介紹的方法對運動軌跡進行高斯過程擬合來表述全局持續的運動特 徵。而對局部瞬時的運動特徵可以使用如下兩種特徵來表述1、絕對速度(指瞬時速度大小,不考慮方向)的平均值。此特徵可以大體反映運 動的劇烈程度。運動的瞬時速度可由目標在相鄰兩幀中的位置之差來近似獲得。2、運動的複雜係數,具體定義見公式(7)所示。此特徵度量運動方向改變程度,以 此來反映運動的複雜程度。
r =
meaniy) mean、
v
(7)上文中所提到的用於描述運動軌跡的三維向量特徵與絕對速度、運動複雜係數這 兩個特徵組合在一起即可得到一個五維的特徵向量,這一五維特徵向量就是相應運動軌跡 的運動特徵。雖然在本實施例中,用上述的五維特徵向量來表示運動軌跡的運動特徵,但在 其它實施例中,除了使用高斯過程描述運動軌跡的三維超參數向量9以外,可以減少用於 表示運動軌跡的運動特徵的特徵向量的數目,也可以用其它特徵向量來表示運動軌跡的運 動特徵。在一個實施例中,有一段長度為50幀的視頻片段,該視頻片段中的多人行為由5 個人組成。通過前述的步驟S2,得到三組待提特徵的軌跡單人一5條50維(x,y分開考 慮也可以當做100維,下同)的運動軌跡;雙人一10 ( C52 )條50維的交互軌跡;群體一2條 50維的群體軌跡的統計量(群體軌跡中的條數隨採用的統計量的數量而變,例如當統計量 包括均值、方差時,群體軌跡的條數為2)。對以上每條軌跡使用S3所述的方法提取特徵,得到一個5維(3+1+1)的特徵向量。也就是說,本實施例中的視頻片段可生成17(5+10+2)個 5維的特徵向量。
在步驟S4中,根據步驟S3所生成的運動特徵訓練用於實現多人行為識別的分類 器。具體的說,在步驟S3中,分三個層次得到了運動模式的特徵向量。在本步驟中,做分類 識別時,首先使用現有技術中所提到的詞袋(bagof words)方法分別對上面三個層次得到 的特徵向量進行處理,得到維數相同的歸一化特徵直方圖。然後綜合使用三種類型的特徵 進行分類器的訓練。在上述說明中所述的分類器可以採用現有技術,如支持向量機(SVM)。如何實現分 類器的訓練也為本領域技術人員所公知,因此不再贅述。在綜合使用三種類型的特徵時,具有不同的實現方式,包括特徵級的綜合與分類 器級的綜合。所述的特徵級的綜合是指在訓練分類器之前,先將從每段視頻數據提取的三 個層次上的特徵的歸一化特徵直方圖連接成一個特徵向量,然後再利用這一特徵向量訓練 分類器。而所述的分類器級的綜合是指先將三種類型的特徵中的每種特徵分別訓練分類 器,最終的識別結果綜合考慮各個分類器的結果得到。分類器級的融合也可以採用多核學 習(MKL)的方法。繼續以步驟S3中所涉及的實施例為例,對本步驟的實現過程加以說明。在又一個 實施例中,有20段視頻作為訓練數據,每段視頻切割成了 10段如S3中實施例內的視頻片 段,則根據S3中實施例的描述,可以得到單人特徵一20X10X5 = 1000個(50個/段); 雙人特徵一20X10X10 = 2000個(100個/段);群體特徵一20X 10X2 = 400個(20個 /段)。然後分別進行Bag ofwords處理,以視頻段為單位分別映射成8維的直方圖向量。 也就是得到單人一20個8維向量(將每段視頻得到的50個5維原始特徵變成1個8維直 方圖特徵,下同);雙人一20個8維向量;群體一20個8維向量。然後用這些8維向量訓 練分類器。在訓練分類器時,對於特徵級融合,可以採用20個24(8+8+8)維向量訓練分類 器。對於分類器級融合,可用三種不同類型的20個8維向量分別訓練出三個分類器,識別 時綜合考慮三個識別結果進行最終判決。在上述說明中主要介紹了分類器的訓練過程,在得到分類器以後就可以對待測試 視頻中的多人動作行為加以識別。待測試視頻在做多人動作行為識別前,同樣要對這些視 頻執行前面步驟Sl中的運動軌跡信息提取、步驟S2中的運動軌跡分析、步驟S3中的運動 特徵提取等操作,在得到由運動特徵所生成的歸一化特徵直方圖後,由所述分類器根據歸 一化特徵直方圖中所包含的信息進行多人動作行為識別。雖然在上面的說明中都以人為例,對人的動作行為加以識別。但本領域技術人員 應當了解,本發明的方法同樣可以應用於其它的運動目標,如動物、車輛等。在參考文獻3「B. Ni, S. Yan, and A. Kassim,"Recognizing human groupactivities with localized causalities,,,IEEE Conference on Computer Vision andPattern Recognition (CVPR),pp. 1470-1477,2009」中,新加坡國立大學利用他們所提出的方法在一 個多人行為視頻數據集上做了多人行為識別的測試,該測試的平均識別率為73. 5%。本發 明在同一數據集上做了測試,當使用特徵級綜合時,平均識別率為91.7%,而使用分類器級 綜合時,平均識別率為91. 8%。顯而易見,本發明方法的識別效果好得多。最後所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制。儘管參照實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,對本發明的技術方 案進行修改或者等同替換,都不脫離本發明技術方案的精神和範圍,其均應涵蓋在本發明 的權利要求範圍當中。
權利要求
一種多運動目標動作行為識別的訓練方法,包括步驟1)、從視頻數據中提取每個運動目標的運動軌跡信息;步驟2)、為所述運動目標的運動軌跡信息分層,在各個所述層次上為多運動目標動作行為的運動模式建模;所述層次包括獨立運動目標的層次、兩個運動目標的交互層次以及多個運動目標的群體層次;步驟3)、綜合所述視頻中的全局和局部的運動信息對所述運動模式的模型進行特徵描述;所述特徵至少包括使用高斯過程描述運動軌跡的三維超參數向量;步驟4)、根據步驟3)所得到的特徵訓練分類器。
2.根據權利要求1所述的多運動目標動作行為識別的訓練方法,其特徵在於,在所述 的步驟2)中,所述的在各個所述層上為多運動目標動作行為的運動模式建模包括步驟2-1)、在獨立運動目標的層上,為各個獨立運動目標的運動行為建模; 步驟2-2)、在兩個運動目標交互的層上,將多個運動目標中的任意兩個的交互軌跡來 描述運動目標間的交互行為,為任意兩個運動目標間的交互行為建模;步驟2-3)、在多個運動目標群體的層上,根據所有運動目標的交互軌跡集合所構成的 群體軌跡為多個運動目標群體建模。
3.根據權利要求1所述的多運動目標動作行為識別的訓練方法,其特徵在於,在所述 的步驟3)中,所述特徵還包括用於表示運動強度的一維向量和用於表示運動的複雜程度 的一維向量,所述的步驟3)包括步驟3-1)、對步驟2)得到的所有運動軌跡進行高斯過程擬合,用迭代優化的方法得到 的三維超參數向量作為對全局持續的運動模式的特徵描述;步驟3-2)、根據運動軌跡信息,計算運動目標速度大小的均值,作為對運動強度的特徵 描述;步驟3-3)根據運動軌跡信息,計算運動目標速度方向改變的程度,作為對運動複雜度 的特徵描述。
4.根據權利要求1所述的多運動目標動作行為識別的訓練方法,其特徵在於,所述的 步驟4)包括步驟4-1)、將各個層上的特徵做詞袋操作,得到歸一化特徵直方圖; 步驟4-2)、利用所述的歸一化特徵直方圖訓練分類器。
5.根據權利要求4所述的多運動目標動作行為識別的訓練方法,其特徵在於,在所述 的步驟4-2)中,首先將各個層上的歸一化特徵直方圖連接成一個特徵向量,然後利用該特 徵向量訓練分類器。
6.根據權利要求4所述的多運動目標動作行為識別的訓練方法,其特徵在於,在所述 的步驟4-2)中,首先利用各個層上的歸一化特徵直方圖分別訓練分類器,所述分類器的識 別結果的綜合為動作行為識別的最終結果。
7.—種多運動目標動作行為識別方法,包括步驟1)、從待識別視頻數據中提取每個運動目標的運動軌跡信息; 步驟2)、為所述運動目標的運動軌跡信息分層,在各個所述層上為多運動目標動作行 為的運動模式建模;所述層包括獨立運動目標的層、兩個運動目標交互的層以及多個運動 目標群體的層;步驟3)、綜合所述視頻中的全局和局部的運動信息對所述運動模式的模型進行特徵描 述;所述特徵至少包括使用高斯過程描述運動軌跡的三維超參數向量;步驟4)、利用權利要求1的多運動目標動作行為識別的訓練方法訓練得到的分類器對 步驟3)所得到的特徵加以識別,從而完成對多運動目標的動作行為的識別。
8. —種多運動目標動作行為識別方法,包括 步驟1)、從待識別視頻數據中提取每個運動目標的運動軌跡信息; 步驟2)、為所述運動目標的運動軌跡信息分層,在各個所述層上為多運動目標動作行 為的運動模式建模;所述層包括獨立運動目標的層、兩個運動目標交互的層以及多個運動 目標群體的層;步驟3)、綜合所述視頻中的全局和局部的運動信息對所述運動模式的模型進行特徵描 述;所述特徵包括使用高斯過程描述運動軌跡的三維超參數向量、用於表示運動強度的一 維向量和用於表示運動的複雜程度的一維向量;步驟4)、利用權利要求3的多運動目標動作行為識別的訓練方法訓練得到的分類器對 步驟3)所得到的特徵加以識別,從而完成對多運動目標的動作行為的識別。
全文摘要
本發明提供一種多運動目標動作行為識別的訓練方法,包括從視頻數據中提取每個運動目標的運動軌跡信息;為運動目標的運動軌跡信息分層,在各個所述層次上為多運動目標動作行為的運動模式建模;綜合所述視頻中的全局和局部的運動信息對所述運動模式的模型進行特徵描述;所述特徵至少包括使用高斯過程描述運動軌跡的三維超參數向量;根據特徵訓練分類器。本發明還提出了多運動目標動作行為識別方法,該方法利用訓練方法得到的分類器實現視頻中多運動目標動作行為的識別。本發明從概率角度使用高斯過程來表述目標的運動軌跡,從三個粒度層次上對多人行為模式進行建模提取特徵,使得對多人行為的表述更符合實際。
文檔編號G06K9/66GK101866429SQ201010195819
公開日2010年10月20日 申請日期2010年6月1日 優先權日2010年6月1日
發明者成仲煒, 秦磊, 蔣樹強, 黃慶明 申請人:中國科學院計算技術研究所