一種基於深度神經網絡的空時特徵提取方法與流程
2024-03-05 04:29:15 1

本發明屬於計算機視覺技術領域,具體為一種基於行人視頻的空時特徵提取方法,尤其是涉及一種適合於行人重識別中提升識別性能的空時特徵提取方法。
背景技術:
行人重識別是智能視頻監控中的一項關鍵任務,是近年來計算機視覺領域中一直備受關注的研究熱點,適用於安防以及公共場所尋人等技術領域。行人重識別可定義為:在無重疊的視頻監控網絡中,對於攝像頭中給定的某個行人,判斷其是否出現在其他攝像頭中的過程。它是一種自動的目標識別技術,能在監控網絡中快速定位到感興趣的人體目標,是智能視頻監控和人體行為分析等應用中的重要步驟。
特徵提取作為行人重識別技術中的一項重要任務,是當中首先要解決的問題。從現有的技術文獻檢索發現,整體來講有兩種主要的研究思路。思路之一是利用傳統的計算機是利用傳統的計算機視覺的方法,通過複雜的數學推導和模型設計從而實現特定數據集的特徵提取(參見i.kviatkovsky,a.adam,ande.rivlin.colorinvariantsforpersonreidentification.ieeetransactionsonpatternanalysisandmachineintelligence,35(7):1622–1634,2013.1;r.zhao,w.ouyang,andx.wang.personre-identificationbysaliencematching.inproceedingsoftheieeeinternationalconferenceoncomputervision,pages2528–2535,2013.1)但是,這類方法受光照變化,遮擋等的嚴重影響,性能並不好。另一方面,複雜的模型設計對不同的數據集並沒有很好地適應性,從而嚴重影響了這類方法的普適性。思路二是利用深度學習的方法,設計網絡自適應的學習行人的特徵表達。這種方法近年來得到了很大的應用,尤其是用深度卷積網絡(cnn)提取行人的空域特徵(參見e.ahmed,m.jones,andt.k.marks.animproveddeeplearningarchitectureforpersonre-identification.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pages3908–3916,2015.1,2)取得了比較好的效果。然而,這類方法在行人外貌特徵變化很大時,提取出的空域特徵並不夠可靠,此時性能不夠理想。這種方法忽略了更為可靠的行人姿態等時域特徵。
技術實現要素:
針對上述現有技術存在的問題,本發明提供一種基於深度神經網絡的空時特徵提取方法,該方法基於卷積神經網絡(cnn)和遞歸神經網絡的特性,採用行人空域特徵和時域特徵融合的深度空時特徵提取網絡;此外,基於局部特徵和全局特徵的互補性,提出了局部-全局特徵融合的方法得到更具辨識度更有效的特徵表達。
本發明是通過以下技術方案實現的:
本發明首先設計了一個網絡,其中利用卷積神經網絡(cnn)提取行人的空域特徵,利用遞歸神經網絡(rnn)綜合提取出的空域特徵從而得到行人的時域特徵。在網絡中設計疊加層融合cnn和rnn提取出的空域和時域特徵,得到行人的空時特徵表達;其次,本發明分別在行人的全局圖片和局部圖片進行網絡訓練得到相應的具有互補性質的全局空時特徵和局部空時特徵,加之進行融合,得到最終的特徵表達。
這樣,本發明同時考慮了行人的空域特徵和更具代表性的時域特徵,並在同一深度網絡中加之進行了高效的融合,提取出的特徵更具有區分度,更具有魯棒性,能更好的解決與適應遮擋和光線變化等複雜情況;同時結合了行人的局部和全局特徵,挖掘行人的細節特性,使其在下一步的行人識別中發揮更好的性能及效率。
具體地,所述的基於深度神經網絡的空時特徵提取方法,包括以下步驟:
第一步:設計一個三層卷積神經網絡(cnn),每一層均包含一個卷積層,一個激活層,一個池化層;
第二步:對行人視頻中的每一張圖片s(t),均經過第一步中的卷積神經網絡,得到特徵輸出即空域特徵f(t);
第三步:對一個行人序列中的圖片輸出的空域特徵f(t)進行平均,得到平均特徵向量xc;
第四步:利用遞歸神經網絡(rnn)綜合卷積神經網絡(cnn)提取出的空域特徵f(t),得到相應的時域特徵o(t);
第五步:對一個行人序列中的所有圖片進行第四步中的操作,得到相應的時域特徵,對輸出的時域特徵o(t)進行平均,得到平均特徵向量xr;
第六步:將卷積神經網絡提取出的平均行人空域特徵xc和遞歸神經網絡提取出的平均時域特徵xr進行融合,得到行人的空時特徵表達xf;
第七步:將行人的空時特徵表達xf送入對比損失函數(siameseloss)和交叉熵損失(softmaxloss)函數中算出損失,從而對整個網絡進行優化迭代,得到最終的特徵提取模型;
第八步:將行人圖像分為上下兩部分,分別經過步驟一到步驟七所構成的網絡的訓練和特徵提取步驟,利用最終訓練出的特徵提取模型提取出局部空時特徵;訓練行人的全局圖片,利用特徵提取模型提取出全局空時特徵;將互補性的全局空時特徵和局部空時特徵融合,得到最終更具區分度的特徵表達。
優選地,第一步中,所述三層卷積神經網絡中,每一個卷積層卷積核大小均為5x5,激活層為雙曲正切(tanh)激活層,池化層為最大值池化(maxpooling)。
優選地,第三步中,所述對一個行人序列中的圖片輸出的空域特徵f(t)進行平均,是通過時域池化(temporalpooling)層實現,得到維度為128的平均特徵向量xc,具體公式為:
t為一個行人圖片序列的長度。
優選地,第六步中,所述將卷積神經網絡提取出的平均行人空域特徵xc和遞歸神經網絡提取出的平均時域特徵xr進行融合,其中特徵向量採用1:1的線性疊加,具體為:
xf=xc+xr。
優選地,第七步中,所述用對比損失函數(siameseloss)和交叉熵損失(softmaxloss)對網絡進行優化迭代,兩種loss的權重比為1:1。
優選地,第八步中,所述將互補性的全局空時特徵和局部空時特徵融合,其中融合權重從訓練集中學得最優參數。
與現有技術相比,本發明的有益效果在於:
1)本發明同時考慮並利用了行人的空域和時域特徵,用以對行人進行描述,因此能得到更為魯棒性和代表性的特徵表達;
2)本發明將行人的空時特徵提取整合在同一個深度網絡中,降低了複雜度,同時保證了特徵的一致性;
3)本發明提出了局部-全局特徵融合方法,分別在行人的分部圖片和全局圖片中訓練並提取特徵,並進行局部-全局特徵融合,從而得到更具有區分度的特徵表達,進一步提升下一步的行人識別率。
附圖說明
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特徵、目的和優點將會變得更明顯:
圖1為本發明一實施例中網絡結構的具體參數和組成方式示意圖;
圖2為本發明一實施例中整個方法的流程示意圖;
圖3為本發明一實施例中局部-全局特徵融合示意圖;
圖4為本發明一實施例中提取出的特徵做行人重識別的最終結果示意圖。
具體實施方式
下面結合附圖對本發明的實施例作詳細說明:本實施例以本發明技術方案為前提進行實施,給出了詳細的實施方式和具體的操作過程,但本發明的保護範圍不限於下述的實施例。
實施例
本實施採用的圖像幀來自資料庫prid-2011和i-lids-vid中的群體監控視頻(videofortrafficsurveillance)。該視頻序列是由(martinhirzer,csababeleznai,peterm.roth,andhorstbischof.2011.personre-identificationbydescriptiveanddiscriminativeclassification.springerberlinheidelberg.91–102pages.)和(weishizheng,shaoganggong,andtaoxiang.2009.associatinggroupsofpeople.activerangeimagingdatasetforindoorsurveillance(2009))提供的,以進行行人重識別性能評估。
本實施例涉及的基於深度神經網絡的空時特徵提取方法,包括如下步驟:
第一步:構造卷積神經網絡,實現對行人視頻中空域特徵提取。
本步驟中具體操作為:
1.設計一個三層的卷積神經網絡,每一層均包含一個卷積層,一個激活層,一個池化層。本實施例中每一個卷積層卷積核大小均為5x5,激活層為雙曲正切(tanh)激活層,池化層為最大值池化(maxpooling)。
2.對行人視頻中的每一張圖片s(t),均經過1中的卷積神經網絡,得到特徵輸出f(t):
f(t)=c(s(t)),
其中c代表經過卷積神經網絡的操作。本實施例中,特徵向量維度為128。
3.設計時域池化(temporalpooling)層,對一個行人序列中的圖片輸出的特徵進行平均,得到平均特徵向量xc:
其中t為一個行人序列的長度。本實施例中t為16。
圖1是步驟中所述網絡結構的具體參數和組成方式示意圖,其中卷積神經網絡中卷積核個數分別為(16,32,32),卷積核大小均為5x5,步長均為1。行人序列是以成對的方式輸入,經過同樣的卷積池化等操作後提取出空域特徵送入遞歸神經網絡中進行下一步綜合得到時域特徵。
第二步:基於遞歸神經網絡(rnn),提取行人的時域特徵。
本步驟中具體操作為:
1.利用遞歸神經網絡(rnn)綜合卷積神經網絡(cnn)提取出的空域特徵f(t),得到相應的時域特徵o(t),即:
o(t)=r(f(t)),
其中r代表經過遞歸神經網絡的操作。
2.對一個行人序列中的所有圖片進行1中的操作,得到相應的時域特徵,對輸出的特徵連接時域池化(temporalpooling)層進行平均,得到平均特徵向量xr:
第三步:進行行人空時特徵融合。
本步驟中具體操作為:
設計一個線性疊加層,將cnn提取出的平均行人空域特徵xc和rnn提取出的平均時域特徵xr進行融合,得到行人的空時特徵表達xf:
xf=xc+xr
在本實施例中,特徵向量採用1:1的線性疊加。
第四步:將行人的空時特徵表達xf送入對比損失函數(siameseloss)和交叉熵損失(softmaxloss)函數中算出損失從而對整個網絡進行優化迭代。
在本實施例中,兩種損失的計算權重為1:1。
圖2是整個網絡結構運行的流程示意圖。詳細闡釋了第一到第四步網絡設計的具體過程和數據流向。本發明中的深度行人空時特徵提取集成在同一個深度神經網絡架構中,易於重現且具有很好地適用性和推廣性。
第五步:將行人圖像分為上下兩部分,分別經過步驟一到步驟四所構成的網絡的訓練和特徵提取步驟,利用最終訓練出的特徵提取模型提取出局部空時特徵;訓練行人的全局圖片,利用特徵提取模型提取出全局空時特徵;將互補性的全局空時特徵和局部空時特徵融合,得到最終更具區分度的特徵表達。
在本實施例中,全局特徵和局部特徵的融合權重從訓練集中學得最優參數,根據不同的訓練集自適應調整。
圖3是局部-全局特徵融合示意圖。其中crf代表步驟一到四中設計的行人空時特徵提取網絡。局部-全局特徵融合示意圖中具體闡明了分部的操作,其中的權重w由訓練集學得並應用在測試集上。
綜上所述,本發明方法步驟同時考慮了行人的空域特徵和更具代表性的時域特徵,並在同一深度網絡中加之進行了高效的融合,提取出的特徵更具有區分度,更具有魯棒性,能更好的解決與適應遮擋和光線變化等複雜情況;結合了行人的局部和全局特徵,挖掘行人的細節特性,使其在下一步的行人識別中發揮更好的性能及效率。
如圖4所示,是基於本發明提取出的特徵做行人重識別的最終結果示意圖,以行人重識別中普遍應用的累積匹配特性(cmc)曲線作為表徵。五條曲線從上至下依次代表的是本發明方法和其他方法在不同條件下的性能,作為參照系用以進行方法的比較;
第一條帶圓圈的曲線代表本發明的方法得到的準確率結果;
第二條帶五角星的曲線代表本發明參考的方法(參見:n.mclaughlin,j.martinezdelrincon,andp.miller.recurrentconvolutionalnetworkforvideo-basedpersonre-identification.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,2016.2,3,5,7),在同樣的網絡結構下只用rnn提取出的特徵所得到的結果;
其他的曲線代表了運用不同網絡提取出相對應的特徵所得到的性能(參見:s.karanam,y.li,andr.j.radke.sparsere-id:blocksparsityforpersonre-identification.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognitionworkshops,pages33–40,2015.5,7;參見:t.wang,s.gong,x.zhu,ands.wang.personre-identificationbyvideoranking.ineuropeanconferenceoncomputervision,pages688–703.springer,2014.2,5,7)。
從圖4中可以看出,本發明的方法較之前的方法能夠更好地提取出更具有區分度的特徵,並且在不同的數據集上都能得到很好地效果,識別的精度有了明顯的提高。
以下表1,是基於本發明得到的性能的最終識別準確率的數值比較結果。從上至下依次陳列了用以對照的其他結果同本發明實施結果的數值比較。可以看到本發明精度在不同數據集上都有很好的效果提升。
表1
以下表2,是本發明的方法的中間結果性能比較,用以說明本發明的有效性。其中五行結果自上至下分別代表本發明的各個步驟所得到的特徵用於識別的性能,分別為只選用cnn提取的特徵,只選用rnn提取的特徵,局部結果中的只選用上半部分行人圖片所提取出的空時特徵,只選用下半部分行人圖片提取出的空時特徵,以及最終的局部-全局空時特徵融合結果比較。
表2
從表2中可以看出,本發明的方法提出的空時特徵融合以及局部-全局特徵融合的方法的確能帶來性能上的提升,能夠更好的挖掘行人的本質特徵,給出更好的特徵提取方案。
綜上,本發明具有很好的魯棒性,能更好的解決與適應遮擋和光線變化等複雜情況;結合了行人的局部和全局特徵,挖掘行人的細節特性,使其在下一步的行人識別中發揮更好的性能及效率。
儘管本發明的內容已經通過上述優選實施例作了詳細介紹,但應當認識到上述的描述不應被認為是對本發明的限制。在本領域技術人員閱讀了上述內容後,對於本發明的多種修改和替代都將是顯而易見的。因此,本發明的保護範圍應由所附的權利要求來限定。