人體動作識別的訓練方法和識別方法
2024-04-10 22:45:05
專利名稱:人體動作識別的訓練方法和識別方法
技術領域:
本發明涉及視頻分析領域,特別涉及人體動作識別的訓練方法和識別方法。
背景技術:
近年來,隨著影視、網絡等媒體的迅速普及和發展,視頻已經成為承載信息的主要 工具,且視頻數據的數目呈爆炸式增長,每時每刻都會有大量新的內容產生。面對海量湧現 的視頻數據,如何去自動獲取、分析其中包含的信息,理解其中發生的動作、行為或是事件 成了一個亟待解決的問題。大多數視頻記錄的是作為社會活動主體的人的活動,如何使計算機能夠「看」視頻 或「理解」視頻中人的動作,成為了計算機視覺、圖像處理、模式識別、機器學習、人工智慧等 多個學科共同關注的問題,具有深遠的理論研究意義和很強的實用價值,對人機互動、虛擬 現實和基於內容的視頻檢索、壓縮編碼等方面都有重要意義。另一方面,一個標準的視頻監 控系統通常有幾十路甚至上千路視頻及相應的數字錄像數據,如果僅通過人工方式,由操 作人員通過觀測每一路視頻從而發現報警事件很不現實,且這種事後分析的方法,需要消 耗操作人員大量的時間來找出相應片段。解決以上問題的一個有效方法是對視頻中人的動 作和行為進行自動識別,提取和記錄用戶感興趣的動作事件,從而達到及時報警和有效檢 索視頻數據的目的。基於視頻的人體動作識別就是通過計算機來對視頻數據進行處理和分析,學習理 解其中人的動作和行為,在運動檢測、特徵提取的基礎之上,通過分析獲得人體運動模式, 在視頻內容和動作類型描述之間建立映射關係。在現有技術中,對視頻中人體動作識別的 相關方法依據人體動作建模方法的不同,大體上可以分為三類非參數方法、參數化時間序 列方法以及立方體(Volumetric)分析方法。非參數方法通常以單幀圖像為單位從視頻中 提取特徵,然後將這些特徵與存儲的動作模板(template)進行匹配;參數化時間序列的方 法對運動的動態過程用一個特定模型來擬合,如隱馬爾可夫模型(HMMS,hidden Markov Models),線性動態系統(LDSs,Linear DynamicalSystems)等,通過對訓練樣本數據的學習 來獲得每類動作特定的模型參數;而立方體分析方法不再將視頻視為一幀一幀圖像組成的 時序序列,而是作為一個三維的時空立方體來處理。現有的立方體分析方法中,研究者開始把視頻時空體看作是一些局部部分的 集合,而其中的每個局部部分可以包含不同的動作類型,因而對動作的描述更加靈活 而有效。目前較有影響力也被廣泛採用的是由Neibels在2006年BMVC上發表的論 文"J. C. Niebles, H. Wang, and L. Fei-Fei,"UnsupervisedLearning of Human Action Categories Using Spatial-Temporal Words", In Proc. British Machine Vision Conference (BMVC),2006」 (參考文獻1)中所提出的Bag-of-Words (Boffs)模型,該模型將 人的動作表示成通過訓練數據預先生成的碼本中獨立碼字的集合,然後通過對這些碼字的 識別來實現對人體動作的識別。此方法的缺點在於,視頻中包含的時間信息在圖像處理的 過程中丟失,因此無法利用時間信息輔助實現對人體動作的識別。
很多研究表明,在圖像表示技術的基礎之上,時間信息可以集成到興趣點的檢測 器和描述子中,進而擴展到對視頻中的興趣點進行定位和描述。Laptev和Lindeberg在 參考文獻 2 "I. Laptev, "On space-time interest points", International Journal of Computer Vision (IJCV),vol. 64,no. 2 or 3,pp. 107-123,2005」 中提出一種三維 興趣點檢測器,通過對Harris角點檢測器增加一些時間約束從而達到在時空維度中檢 測局部結構的目的,用這種方法檢測到的興趣點在時間維度和空間維度上都有很大的變 化。在這項研究的基礎上,Scovanner在參考文獻3 "P. Scovanner, S. Ali, and Μ. Shah, 『『A3_dimensional sift descriptor and its application to action recognition,,, ACMMultimedia, pp. 357-360,2007」 中做了進一步擴展,他通過利用 sub-histogram 來對 局部的時間和空間信息進行編碼,構造出三維的SIFT描述子。這種檢測興趣點的方法存 在的問題是,有時候檢測到的點很少,而不足以捕獲人體動作的全部特徵,進而導致識別性 能的下降。Dollar 則在參考文獻 4 "P. Dollar, V. Rabaud, G. Cottrell, and S. Belongie, "Behavior recognitionvia sparse spatio-temporal featuresInternational Workshop on VisualSurveillance and Performance Evaluation of Tracking and Surveillance(VS-PETS),pp. 65-72,2005」中採用可分離的線性濾波的方法來取代這種時 空域興趣點檢測的方法,在空域採用二維的高斯濾波,在時域上採用兩個正交的一維Gabor 濾波器來檢測運動特徵。由於這些特徵是基於線性操作產生的,如濾波及時空梯度等,因 此這些描述子對外觀的改變,噪聲以及遮擋等很敏感,而由於它們的局部特性,對非平穩背 景比較魯棒。上述描述子可以和機器學習算法(如SVM及圖模型等)相結合,用於人體動作的 檢測和識別。Schuldt 在參考文獻 5 "C. Schuldt, I. Laptev, and B. Caputo,"Recognizing human actions -.a local svm approach", In InternationalConference on Pattern Recognition (CVPR),2004」中採用前述參考文獻2中的局部描述子,結合SVM對拳擊、拍手、 揮手、走、跑和慢跑等六類動作進行識別並取得了較好的結果。但這些早期的研究還只是局 限於受限場景下的人體動作識別,比如特定的視角、動作人、背景和光照,在自然場景下,取 消上述種種限制的情況下,該方法的性能急劇下降甚至不再適用。
發明內容
本發明的目的是克服現有的人體動作識別方法受到自然環境限制的缺陷,從而提 供一種人體動作識別的訓練方法和識別方法。為了實現上述目的,本發明提供了 一種人體動作識別的訓練方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據其所包含的特徵描述子量化到相 應的視頻單詞上,並為所述視頻單詞生成統計直方圖;所述視頻單詞為所有時空興趣點的 特徵描述子所構成的集合中,子集聚類後的結果;步驟3)、根據視頻單詞所在時空鄰域內的時空上下文信息得到該視頻單詞所在時 空鄰域內的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視 頻詞組;步驟4)、對視頻單詞所在時空鄰域內的時空上下文做聚類,得到語境單詞,由所述視頻單詞與所述語境單詞形成時空視頻單詞團體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞 團體中選擇代表性時空視頻單詞團體;步驟6)、利用所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體中的 一種特徵或將多種特徵融合後的結果訓練分類器。上述技術方案中,所述的步驟2)包括步驟2-1)、從所有時空興趣點的特徵描述子構成的集合中通過隨機抽樣得到子 集;步驟2-2)、將所述子集聚類到K個視頻單詞,所述K個視頻單詞形成一視頻單詞詞 典,所述視頻單詞詞典中的各個視頻單詞分別用相應的標號表示;步驟2-3)、所述時空興趣點通過距離度量找到所述視頻單詞詞典中與該時空興趣 點距離最近的視頻單詞,並將該視頻單詞的標號賦給相應的時空興趣點;步驟2-4)、為所述時空興趣點生成統計直方圖,所述統計直方圖的橫坐標表示視 頻單詞的類型,縱坐標表示視頻單詞出現的次數。上述技術方案中,所述的步驟3)包括步驟3-1)、由時空興趣點提取過程中的局部時空立方體找到相應的時空鄰域;步驟3-2)、由所述時空鄰域內的視頻單詞的分布直方圖得到時空上下文信息;步驟3-3)、將所述視頻單詞與其時空上下文內的任一其它視頻單詞形成時空視頻 詞組。上述技術方案中,所述的步驟4)包括步驟4-1)、將視頻單詞周圍的鄰域立方體內計算的視頻單詞的分布直方圖視為該 視頻單詞的時空上下文;步驟4-2)、將所述的代表時空上下文的分布直方圖做進一步的聚類,得到語境單 詞;步驟4-3)、將所述的視頻單詞與其周圍的語境單詞構成時空視頻單詞團體。上述技術方案中,所述的步驟5)包括步驟5-1)、計算所述時空視頻詞組中兩個視頻單詞的共生頻率,或所述時空視頻 單詞團體中視頻單詞和語境單詞的共生頻率;步驟5-2)、將步驟5-1)中所得到的共生頻率做歸一化操作;步驟5-3)、將包含某一動作類型的所有視頻文件的歸一化後的共生頻率求平均 值,得到時空視頻詞組或時空視頻單詞團體的類內的共生頻率;步驟5-4)、由每個時空視頻詞組或時空視頻單詞團體的類內的共生頻率計算所有 類之間的共生頻率;步驟5-5)、由步驟5-3)所得到的類內的共生頻率與步驟5_4)所得到的所有類之 間的共生頻率按照TF-IDF準則計算每個時空視頻詞組或時空視頻單詞團體的分值,按照 所述分值的高低排序得到所述的代表性時空視頻詞組或代表性時空視頻單詞團體。上述技術方案中,所述的步驟6)包括步驟6-1-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體所 形成的特徵集合中選擇一種特徵或多種特徵,若所選擇的特徵有多種,將多種特徵組合形成特徵向量;步驟6-1-2)、利用所選擇的一種特徵或多種特徵組合得到的特徵向量訓練分類器。 上述技術方案中,所述的步驟6)包括步驟6-2-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體 所形成的特徵集合中選擇一種特徵或多種特徵,將所選擇特徵中簡化為相應的語義概念得 分;步驟6-2-2)、集成所述語義概念得分,利用集成後的語義概念得分訓練分類器。本發明還提供了一種人體動作識別方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據其所包含的特徵描述子量化到相 應的視頻單詞上,並為所述視頻單詞生成統計直方圖;所述視頻單詞為所有時空興趣點的 特徵描述子所構成的集合中,子集聚類後的結果;步驟3)、根據視頻單詞所在時空鄰域內的時空上下文信息得到該視頻單詞所在時 空鄰域內的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視 頻詞組;步驟4)、對視頻單詞所在時空鄰域內的時空上下文做聚類,得到語境單詞,由所述 視頻單詞與所述語境單詞形成時空視頻單詞團體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞 團體中選擇代表性時空視頻單詞團體;步驟6)、將所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體所組成 集合中的一種特徵或將多種特徵融合後的結果送入所述的人體動作識別的訓練方法所得 到的分類器中,實現對視頻文件中人體動作的識別。本發明的優點在於本發明通過對時空興趣點之間的時空關係進行建模,有效地融入了時空上下文信 息,得到更具描述能力的特徵;通過引入TF-IDF權重機制逐類選取出最具代表性的特徵 點,能夠得到對攝像機運動,光照變化,人體外觀形狀變化等相對魯棒的特徵。這些特徵能 夠很好地捕獲各種動作的本質屬性,對真實複雜場景下拍攝的複雜動作視頻數據取得了較 好的識別結果。
圖1為本發明方法的流程圖;圖2為時空視頻詞組和時空視頻單詞團體的構造方法的示意圖。
具體實施例方式在對本發明做詳細說明之前,首先對本發明中的一些相關概念做統一的說明。時空興趣點(STIPs)通過一些時空興趣點檢測器算法(如前述參考文獻2和 4中所提出的算法)對給定視頻序列進行處理,在一定閾值範圍內,通過非最大值抑制 (non-maximal supression)處理後,響應函數的局部極大值定義為時空興趣點。時空興趣點表現為在時間維度上和空間維度上都有較大的變化,一般用光流直方圖或是梯度直方圖 進行描述,由於其局部性,具有較好的旋轉、平移和縮放不變性,但沒有對全局運動的描述。視頻單詞在所有訓練視頻中提取到的時空興趣點描述子構成的集合中,隨機選 擇一個子集,採用K-均值算法聚類,形成一個視頻單詞碼書(video-word vocabulary),每 個時空興趣點描述子都對應著一個與其距離最近的碼字,稱為視頻單詞(video-word)。時空視頻詞組時空視頻詞組是指一定的時空尺度範圍內同時出現的視頻單詞 對。時空視頻詞組是本發明中新引入的概念,為了便於理解,在此一併對時空視頻詞組的生 成過程加以說明。參考圖2,對於一個標號為視頻單詞ρ的時空興趣點(關於如何為時空興趣點生成 視頻單詞標號為現有技術,在下文中對步驟S2的描述中也有相應的說明),在時空興趣點 提取的過程中會得到一個與該時空興趣點相關的小的局部時空立方體,該局部時空立方體 的具體尺度按照下列公式由時空濾波器的空間尺度和時間尺度得到Sizes = szfX 2 Xsqrt ( σ s) (1)sizet = szfX 2 Xsqrt ( σ t) (2)在上述公式中,szf表示計算時空興趣點的特徵描述子時所取塊大小的係數;σ s, σ t分布表示時空濾波器在空域和時域的方差,sqrt表示求取平方根。以ρ為中心,其周圍與計算其特徵描述子所用到的局部時空立方體大小成比例的 更大的立方體被視為P的時空鄰域。在此鄰域內,不同的視頻單詞的分布直方圖即為時空 上下文信息,可用下列公式表示H(p, s) = [t1 t2, . . . , tn] (3)在上述公式中,ρ表示時空鄰域中心視頻單詞的標號,s表示確定時空鄰域大小的 尺度係數,、表示在該鄰域中標號為i的視頻單詞出現的次數,而η表示視頻單詞詞典中視 頻單詞的總數。時空鄰域立方體的尺度的計算公式為size = sX Sizep (4)在上述公式中,Sizep表示通過前述公式(1)和公式(2)計算得到的時空興趣點的 尺度,s為確定時空鄰域大小的尺度係數,s的取值越大,計算複雜度越高,可能引入的噪聲 也越多。P和出現在其鄰域局部直方圖中的另一個視頻單詞可構成一個視頻單詞對,形成所 述的時空視頻詞組。從對時空視頻詞組的生成過程可見,一個時空興趣點周圍可能形成多 個時空視頻詞組。時空視頻單詞團體一個視頻單詞和它周圍的語境單詞構成一個時空視頻單詞團 體。在前面對時空視頻詞組的說明過程中已經提到,視頻單詞ρ周圍的鄰域立方體內 計算的視頻單詞的分布直方圖被視為視頻單詞P的時空上下文,如圖2所示,將這些代表時 空上下文的分布直方圖做進一步的聚類,可得到語境單詞。視頻單詞與其周圍的語境單詞 即構成時空視頻單詞團體。從時空視頻單詞團體的生成過程可見,一個時空興趣點周圍只 能形成唯一的時空視頻單詞團體。代表性時空視頻詞組代表性時空視頻詞組是指對某一特定動作類型更具描述能 力的時空視頻詞組。
代表性時空視頻單詞團體代表性時空視頻單詞團體是指對某一特定動作類型更 具描述能力的時空視頻單詞團體。本領域普通技術人員很容易理解,每一類人體動作都有它特有的表示基元,如特 定的視頻單詞、時空視頻詞組以及時空視頻單詞團體等,以區分於其他不同的動作類別。因 此,在人體動作識別的過程中,找到這些對各種人體動作來說最具描述性的模式對於人體 動作識別極具意義。選取的模式應當具有下列屬性1)、選取的模式在其所要表示的動作類別中出現得應更加頻繁;2)、為了保持選取出來的模式對特定的動作類別的獨特性,其在其他所有動作類 別中出現得應相對較少。上述兩條屬性與信息檢索理論中常用的TF-IDF權重機制正好吻合,因此本發明 引入TF-IDF的方法從大量的時空視頻詞組和時空視頻單詞團體中逐類選取代表性時空視 頻詞組和代表性時空視頻單詞團體。首先,計算時空視頻詞組中兩個視頻單詞或是時空視頻單詞團體中視頻單詞和語 境單詞的共生頻率。對於時空視頻詞組,兩個視頻單詞之間的共生關係被存儲在對其中的視頻單詞計 算的局部直方圖中。對視頻文件v,其中被標為i和j的兩個視頻單詞的共生頻率按照下面 的公式(5)進行計算 在上述公式中,{pj是視頻文件ν中所有標號為i的視頻單詞的集合,tj是以Pi 為中心計算的局部直方圖H(Pi,s)中的第j個元素。對於時空視頻單詞團體,視頻單詞i和語境單詞j之間的共生頻率可按照下面的 公式(6)進行計算 上述公式表示當視頻單詞VW的標號為i且其周圍的語境單詞CW的標號為j時, 便將視頻單詞i和語境單詞j的共生頻率f(VWi,CWj)加一。將上述公式(5)和公式(6)中所涉及的Tvdvp(i,j)和Tvdv。(i,j)統一記為T/(i, j),並將該值除以視頻文件ν中所提取到的時空興趣點的總數,以抵消視頻文件長度不等 的影響,歸一化之後的頻率記為NT/(i,j)。對某一動作類型C中所有視頻文件取平均值, 即得到時空視頻詞組或是時空視頻單詞團體的類內的共生頻率 在上述公式中,符號ItvI表示所有屬於動作類型c的視頻文件的總數。據此, 是一個大小為VWnufflXVWnuffl的矩陣,是一個大小為VWnufflxCWmm的矩陣,這裡VWnum表示視頻 單詞的總數,Cffnim表示語境單詞的總數。通過上述公式(5)、(6)、(7)計算得到每個時空視頻詞組或是時空視頻單詞團體 類內的共生頻率之後,所有類之間的共生頻率按照下面的公式(8)進行計算[cose] 在上述公式中,|C|表示動作類別的種數,T*是Tdvp和Tdve的統一記號。通過上述計算過程,時空視頻詞組或時空視頻單詞團體可以按照下列的公式(9) 得到一個得分值
(9)在生成得分值以後,對每一類動作,可將時空視頻詞組和時空視頻單詞團體按照 得分高低分別排序,即可以選出得分最高的前N個代表性時空視頻詞組和得分最高的前M 個代表性時空視頻單詞團體。在對本發明中的相關概念進行說明後,下面結合附圖和具體實施步驟對本發明的 方法加以說明。參考圖1,在步驟Sl中,從包含人體動作的視頻文件中提取時空興趣點。從視頻文 件中提取時空興趣點為本領域技術人員的公知技術,通過三維Harris角點檢測器或是線 性可分的時空濾波器都可實現時空興趣點的提取。由於所提取的時空興趣點通常都包含有 噪聲,會對後續操作產生影響,因此作為一種優選實現方式,可對所述的時空興趣點做過濾 操作,以去除相應的噪聲。在步驟S2中,將步驟Sl中得到的所有時空興趣點根據其所包含的特徵描述子量 化到特定的視頻單詞上。具體地,對所有時空興趣點的特徵描述子構成的集合,用隨機抽 樣的方法得到一個子集,採用K-均值聚類算法或是現有技術中的其他聚類算法將其聚類 到K個視頻單詞,這K個視頻單詞可形成一視頻單詞詞典,視頻單詞詞典中的各個視頻單詞 分別用相應的標號表示。在得到視頻單詞詞典後,每一時空興趣點可通過距離度量找到視 頻單詞詞典中與其距離最近的視頻單詞,並將該視頻單詞的標號賦給相應的時空興趣點。 經過本步驟的相關操作後,視頻文件即可被視為一系列帶視頻單詞標號的時空興趣點的集
I=I O在步驟S2中,除了要生成所述的視頻單詞外,還要為所述的視頻單詞生成統計直 方圖BoWs。為視頻單詞生成統計直方圖的實現方法為本領域技術人員所公知的現有技術, 圖2中給出了統計直方圖的一個範例,該統計直方圖中的橫坐標表示視頻單詞的類型,縱 坐標表示視頻單詞出現的次數。在步驟S3中,需要在步驟S2所得到的視頻單詞的基礎上形成時空視頻詞組,然後 在所形成的時空視頻詞組中選取代表性時空視頻詞組。時空視頻詞組的形成以及代表性時 空視頻詞組的選擇可參考前文中的說明。在步驟S4中,對視頻單詞所在時空鄰域內的時空上下文做聚類,得到語境單詞, 由所述視頻單詞與所述語境單詞形成時空視頻單詞團體,然後從所有所形成的時空視頻單 詞團體中選擇代表性時空視頻單詞團體。詳細過程見前文說明,在此不再贅述。雖然在上述說明中,在步驟S3中完成時空視頻詞組的形成以及代表性時空視頻 詞組的選擇,而在步驟S4中完成時空視頻單詞團體的形成以及代表性時空視頻單詞團體 的選擇,但這兩個步驟可以同步執行。在步驟S5中,前述步驟S2得到的視頻單詞、步驟S3得到的代表性時空視頻詞組 以及步驟S4得到的代表性時空視頻單詞團體構成了對視頻特徵不同粒度的描述,基於這些特徵以及它們之間的融合可以訓練分類器,並進一步實現融合多特徵的人體動作識別。對於單獨使用各種特徵(如視頻單詞,代表性時空視頻詞組或是代表性時空視 頻單詞團體)進行人體動作識別時,相關方法與傳統的BoWs方法相同,在此不再贅述。對於融合前述兩種或是三種特徵進行動作識別時,可以進行早期融合(early fusion)也可以進行晚期融合(late fusion)。早期融合,是指在語義概念學習之前進行的融合,也即特徵級的融合,在這一融合 過程中將多種特徵描述子組合形成一個單一的特徵描述子。比如,可以採用特徵的順序級 聯形式,將各種特徵描述子單獨表示的分布直方圖進行加權級聯得到的特徵向量如下面的 公式(10)所示H = [a Hvffs β HST_DVPs (1_ α - β ) HST_DVCs] (10)在上述公式中,HVWs,HST_DVPs和HST_DTCs分別表示視頻單詞、代表性時空視頻詞組和代 表性時空視頻單詞團體的分布直方圖,而α,β和(l-α-β)分別表示三種描述子各自的 權重係數,各權重係數的取值區間為W,1],該權重可通過交叉驗證的方法得到,最後得到 的直方圖的長度為使用到的不同描述子各自直方圖的長度之和。經由早期融合將多種特徵描述子組合形成一個單一的特徵描述子後,融合後的特 徵可用於分類器的訓練和分類。分類器在完成所述的訓練和分類後,即可實現對待檢測視 頻中人體動作的識別。晚期融合是先將單一特徵簡化為一種語義概念的得分,然後將這些得分集成到一 起進行語義概念的學習。比如,可以通過基於X 2距離的泛化的多通道的高斯核函數訓練 SVM分類器並進行分類 其中C = IVWs,ST-DVPs,ST-DVCs}在上述公式中,X2(HyHj)表示以一種特徵的分布直方圖Hi和Hj之間的X2距離, 其中的b是對直方圖中bin的索引,k表示該種特徵的分布直方圖中bin的總數。C表示需 要融合的特徵集,在這裡指視頻單詞、代表時空性視頻詞組以及代表性時空視頻單詞團體 的集合。if表示動作視頻i和j以特徵c表示的分布直方圖。A。表示核函數中的尺 度參數,等於在特徵c表示下訓練樣本之間的平均距離。ω。表示不同特徵融合時特徵c的 權重係數。以上是對利用視頻文件訓練分類器的相關過程的說明,在得到分類器以後,利用 分類器實現視頻文件中人體動作的識別與上述過程相類似,也需要從待檢測視頻文件中提 取時空興趣點,將時空興趣點根據其所包含的特徵描述子量化到相應的視頻單詞上,並為 所述視頻單詞生成統計直方圖,也需要由視頻單詞生成時空視頻詞組與時空視頻單詞團 體,並從中選出代表性時空視頻詞組與代表性時空視頻單詞團體,在得到待檢測視頻文件的上述特徵後,對這些特徵加以融合,最後由分類器根據融合後的特徵實現對視頻文件中 人體動作的識別。由於上述過程的具體實現在前面的描述中已經有詳細的說明,因此不再 對相應的細節做重複說明。 最後所應說明的是,以上實施例僅用以說明本發明的技術方案而非限制。儘管參 照實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,對本發明的技術方 案進行修改或者等同替換,都不脫離本發明技術方案的精神和範圍,其均應涵蓋在本發明 的權利要求範圍當中。
1權利要求
一種人體動作識別的訓練方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據其所包含的特徵描述子量化到相應的視頻單詞上,並為所述視頻單詞生成統計直方圖;所述視頻單詞為所有時空興趣點的特徵描述子所構成的集合中,子集聚類後的結果;步驟3)、根據視頻單詞所在時空鄰域內的時空上下文信息得到該視頻單詞所在時空鄰域內的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視頻詞組;步驟4)、對視頻單詞所在時空鄰域內的時空上下文做聚類,得到語境單詞,由所述視頻單詞與所述語境單詞形成時空視頻單詞團體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞團體中選擇代表性時空視頻單詞團體;步驟6)、利用所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體中的一種特徵或將多種特徵融合後的結果訓練分類器。
2.根據權利要求1所述的人體動作識別的訓練方法,其特徵在於,所述的步驟2)包括步驟2-1)、從所有時空興趣點的特徵描述子構成的集合中通過隨機抽樣得到子集; 步驟2-2)、將所述子集聚類到K個視頻單詞,所述K個視頻單詞形成一視頻單詞詞典, 所述視頻單詞詞典中的各個視頻單詞分別用相應的標號表示;步驟2-3)、所述時空興趣點通過距離度量找到所述視頻單詞詞典中與該時空興趣點距 離最近的視頻單詞,並將該視頻單詞的標號賦給相應的時空興趣點;步驟2-4)、為所述時空興趣點生成統計直方圖,所述統計直方圖的橫坐標表示視頻單 詞的類型,縱坐標表示視頻單詞出現的次數。
3.根據權利要求1所述的人體動作識別的訓練方法,其特徵在於,所述的步驟3)包括步驟3-1)、由時空興趣點提取過程中的局部時空立方體找到相應的時空鄰域; 步驟3-2)、由所述時空鄰域內的視頻單詞的分布直方圖得到時空上下文信息; 步驟3-3)、將所述視頻單詞與其時空上下文內的任一其它視頻單詞形成時空視頻詞組。
4.根據權利要求1所述的人體動作識別的訓練方法,其特徵在於,所述的步驟4)包括步驟4-1)、將視頻單詞周圍的鄰域立方體內計算的視頻單詞的分布直方圖視為該視頻 單詞的時空上下文;步驟4-2)、將所述的代表時空上下文的分布直方圖做進一步的聚類,得到語境單詞; 步驟4-3)、將所述的視頻單詞與其周圍的語境單詞構成時空視頻單詞團體。
5.根據權利要求1所述的人體動作識別的訓練方法,其特徵在於,所述的步驟5)包括步驟5-1)、計算所述時空視頻詞組中兩個視頻單詞的共生頻率,或所述時空視頻單詞 團體中視頻單詞和語境單詞的共生頻率;步驟5-2)、將步驟5-1)中所得到的共生頻率做歸一化操作;步驟5-3)、將包含某一動作類型的所有視頻文件的歸一化後的共生頻率求平均值,得 到時空視頻詞組或時空視頻單詞團體的類內的共生頻率;步驟5-4)、由每個時空視頻詞組或時空視頻單詞團體的類內的共生頻率計算所有類之 間的共生頻率;步驟5-5)、由步驟5-3)所得到的類內的共生頻率與步驟5-4)所得到的所有類之間的 共生頻率按照TF-IDF準則計算每個時空視頻詞組或時空視頻單詞團體的分值,按照所述 分值的高低排序得到所述的代表性時空視頻詞組或代表性時空視頻單詞團體。
6.根據權利要求1所述的人體動作識別的訓練方法,其特徵在於,所述的步驟6)包括步驟6-1-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體所形成 的特徵集合中選擇一種特徵或多種特徵,若所選擇的特徵有多種,將多種特徵組合形成特 徵向量;步驟6-1-2)、利用所選擇的一種特徵或多種特徵組合得到的特徵向量訓練分類器。
7.根據權利要求1所述的人體動作識別的訓練方法,其特徵在於,所述的步驟6)包括步驟6-2-1)、從所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體所形成 的特徵集合中選擇一種特徵或多種特徵,將所選擇特徵中簡化為相應的語義概念得分; 步驟6-2-2)、集成所述語義概念得分,利用集成後的語義概念得分訓練分類器。
8.一種人體動作識別方法,包括步驟1)、從視頻文件中提取時空興趣點;步驟2)、將步驟1)得到的所有時空興趣點根據其所包含的特徵描述子量化到相應的 視頻單詞上,並為所述視頻單詞生成統計直方圖;所述視頻單詞為所有時空興趣點的特徵 描述子所構成的集合中,子集聚類後的結果;步驟3)、根據視頻單詞所在時空鄰域內的時空上下文信息得到該視頻單詞所在時空鄰 域內的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視頻詞 組;步驟4)、對視頻單詞所在時空鄰域內的時空上下文做聚類,得到語境單詞,由所述視頻 單詞與所述語境單詞形成時空視頻單詞團體;步驟5)、從所述時空視頻詞組中選擇代表性時空視頻詞組,從所述時空視頻單詞團體 中選擇代表性時空視頻單詞團體;步驟6)、將所述視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體所組成集合 中的一種特徵或將多種特徵融合後的結果送入權利要求1-7之一的人體動作識別的訓練 方法所得到的分類器中,實現對視頻文件中人體動作的識別。
全文摘要
本發明提供一種人體動作識別的訓練方法,包括從視頻文件中提取時空興趣點;將所有時空興趣點根據其所包含的特徵描述子量化到相應的視頻單詞上,並為視頻單詞生成統計直方圖;根據視頻單詞所在時空鄰域內的時空上下文信息得到該視頻單詞所在時空鄰域內的其它視頻單詞,由該視頻單詞與某一滿足時空約束的其它視頻單詞形成時空視頻詞組;對視頻單詞所在時空鄰域內的時空上下文做聚類,得到語境單詞,由視頻單詞與語境單詞形成時空視頻單詞團體;從時空視頻詞組中選擇代表性時空視頻詞組,從時空視頻單詞團體中選擇代表性時空視頻單詞團體;利用視頻單詞、代表性時空視頻詞組、代表性時空視頻單詞團體中的一種特徵或將多種特徵融合後的結果訓練分類器。
文檔編號G06K9/66GK101894276SQ20101019580
公開日2010年11月24日 申請日期2010年6月1日 優先權日2010年6月1日
發明者秦磊, 胡瓊, 蔣樹強, 黃慶明 申請人:中國科學院計算技術研究所