新四季網

一種基於深度神經網絡的空時特徵提取方法與流程

2024-03-05 04:29:15


本發明屬於計算機視覺技術領域,具體為一種基於行人視頻的空時特徵提取方法,尤其是涉及一種適合於行人重識別中提升識別性能的空時特徵提取方法。



背景技術:

行人重識別是智能視頻監控中的一項關鍵任務,是近年來計算機視覺領域中一直備受關注的研究熱點,適用於安防以及公共場所尋人等技術領域。行人重識別可定義為:在無重疊的視頻監控網絡中,對於攝像頭中給定的某個行人,判斷其是否出現在其他攝像頭中的過程。它是一種自動的目標識別技術,能在監控網絡中快速定位到感興趣的人體目標,是智能視頻監控和人體行為分析等應用中的重要步驟。

特徵提取作為行人重識別技術中的一項重要任務,是當中首先要解決的問題。從現有的技術文獻檢索發現,整體來講有兩種主要的研究思路。思路之一是利用傳統的計算機是利用傳統的計算機視覺的方法,通過複雜的數學推導和模型設計從而實現特定數據集的特徵提取(參見i.kviatkovsky,a.adam,ande.rivlin.colorinvariantsforpersonreidentification.ieeetransactionsonpatternanalysisandmachineintelligence,35(7):1622–1634,2013.1;r.zhao,w.ouyang,andx.wang.personre-identificationbysaliencematching.inproceedingsoftheieeeinternationalconferenceoncomputervision,pages2528–2535,2013.1)但是,這類方法受光照變化,遮擋等的嚴重影響,性能並不好。另一方面,複雜的模型設計對不同的數據集並沒有很好地適應性,從而嚴重影響了這類方法的普適性。思路二是利用深度學習的方法,設計網絡自適應的學習行人的特徵表達。這種方法近年來得到了很大的應用,尤其是用深度卷積網絡(cnn)提取行人的空域特徵(參見e.ahmed,m.jones,andt.k.marks.animproveddeeplearningarchitectureforpersonre-identification.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pages3908–3916,2015.1,2)取得了比較好的效果。然而,這類方法在行人外貌特徵變化很大時,提取出的空域特徵並不夠可靠,此時性能不夠理想。這種方法忽略了更為可靠的行人姿態等時域特徵。



技術實現要素:

針對上述現有技術存在的問題,本發明提供一種基於深度神經網絡的空時特徵提取方法,該方法基於卷積神經網絡(cnn)和遞歸神經網絡的特性,採用行人空域特徵和時域特徵融合的深度空時特徵提取網絡;此外,基於局部特徵和全局特徵的互補性,提出了局部-全局特徵融合的方法得到更具辨識度更有效的特徵表達。

本發明是通過以下技術方案實現的:

本發明首先設計了一個網絡,其中利用卷積神經網絡(cnn)提取行人的空域特徵,利用遞歸神經網絡(rnn)綜合提取出的空域特徵從而得到行人的時域特徵。在網絡中設計疊加層融合cnn和rnn提取出的空域和時域特徵,得到行人的空時特徵表達;其次,本發明分別在行人的全局圖片和局部圖片進行網絡訓練得到相應的具有互補性質的全局空時特徵和局部空時特徵,加之進行融合,得到最終的特徵表達。

這樣,本發明同時考慮了行人的空域特徵和更具代表性的時域特徵,並在同一深度網絡中加之進行了高效的融合,提取出的特徵更具有區分度,更具有魯棒性,能更好的解決與適應遮擋和光線變化等複雜情況;同時結合了行人的局部和全局特徵,挖掘行人的細節特性,使其在下一步的行人識別中發揮更好的性能及效率。

具體地,所述的基於深度神經網絡的空時特徵提取方法,包括以下步驟:

第一步:設計一個三層卷積神經網絡(cnn),每一層均包含一個卷積層,一個激活層,一個池化層;

第二步:對行人視頻中的每一張圖片s(t),均經過第一步中的卷積神經網絡,得到特徵輸出即空域特徵f(t);

第三步:對一個行人序列中的圖片輸出的空域特徵f(t)進行平均,得到平均特徵向量xc;

第四步:利用遞歸神經網絡(rnn)綜合卷積神經網絡(cnn)提取出的空域特徵f(t),得到相應的時域特徵o(t);

第五步:對一個行人序列中的所有圖片進行第四步中的操作,得到相應的時域特徵,對輸出的時域特徵o(t)進行平均,得到平均特徵向量xr;

第六步:將卷積神經網絡提取出的平均行人空域特徵xc和遞歸神經網絡提取出的平均時域特徵xr進行融合,得到行人的空時特徵表達xf;

第七步:將行人的空時特徵表達xf送入對比損失函數(siameseloss)和交叉熵損失(softmaxloss)函數中算出損失,從而對整個網絡進行優化迭代,得到最終的特徵提取模型;

第八步:將行人圖像分為上下兩部分,分別經過步驟一到步驟七所構成的網絡的訓練和特徵提取步驟,利用最終訓練出的特徵提取模型提取出局部空時特徵;訓練行人的全局圖片,利用特徵提取模型提取出全局空時特徵;將互補性的全局空時特徵和局部空時特徵融合,得到最終更具區分度的特徵表達。

優選地,第一步中,所述三層卷積神經網絡中,每一個卷積層卷積核大小均為5x5,激活層為雙曲正切(tanh)激活層,池化層為最大值池化(maxpooling)。

優選地,第三步中,所述對一個行人序列中的圖片輸出的空域特徵f(t)進行平均,是通過時域池化(temporalpooling)層實現,得到維度為128的平均特徵向量xc,具體公式為:

t為一個行人圖片序列的長度。

優選地,第六步中,所述將卷積神經網絡提取出的平均行人空域特徵xc和遞歸神經網絡提取出的平均時域特徵xr進行融合,其中特徵向量採用1:1的線性疊加,具體為:

xf=xc+xr。

優選地,第七步中,所述用對比損失函數(siameseloss)和交叉熵損失(softmaxloss)對網絡進行優化迭代,兩種loss的權重比為1:1。

優選地,第八步中,所述將互補性的全局空時特徵和局部空時特徵融合,其中融合權重從訓練集中學得最優參數。

與現有技術相比,本發明的有益效果在於:

1)本發明同時考慮並利用了行人的空域和時域特徵,用以對行人進行描述,因此能得到更為魯棒性和代表性的特徵表達;

2)本發明將行人的空時特徵提取整合在同一個深度網絡中,降低了複雜度,同時保證了特徵的一致性;

3)本發明提出了局部-全局特徵融合方法,分別在行人的分部圖片和全局圖片中訓練並提取特徵,並進行局部-全局特徵融合,從而得到更具有區分度的特徵表達,進一步提升下一步的行人識別率。

附圖說明

通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發明的其它特徵、目的和優點將會變得更明顯:

圖1為本發明一實施例中網絡結構的具體參數和組成方式示意圖;

圖2為本發明一實施例中整個方法的流程示意圖;

圖3為本發明一實施例中局部-全局特徵融合示意圖;

圖4為本發明一實施例中提取出的特徵做行人重識別的最終結果示意圖。

具體實施方式

下面結合附圖對本發明的實施例作詳細說明:本實施例以本發明技術方案為前提進行實施,給出了詳細的實施方式和具體的操作過程,但本發明的保護範圍不限於下述的實施例。

實施例

本實施採用的圖像幀來自資料庫prid-2011和i-lids-vid中的群體監控視頻(videofortrafficsurveillance)。該視頻序列是由(martinhirzer,csababeleznai,peterm.roth,andhorstbischof.2011.personre-identificationbydescriptiveanddiscriminativeclassification.springerberlinheidelberg.91–102pages.)和(weishizheng,shaoganggong,andtaoxiang.2009.associatinggroupsofpeople.activerangeimagingdatasetforindoorsurveillance(2009))提供的,以進行行人重識別性能評估。

本實施例涉及的基於深度神經網絡的空時特徵提取方法,包括如下步驟:

第一步:構造卷積神經網絡,實現對行人視頻中空域特徵提取。

本步驟中具體操作為:

1.設計一個三層的卷積神經網絡,每一層均包含一個卷積層,一個激活層,一個池化層。本實施例中每一個卷積層卷積核大小均為5x5,激活層為雙曲正切(tanh)激活層,池化層為最大值池化(maxpooling)。

2.對行人視頻中的每一張圖片s(t),均經過1中的卷積神經網絡,得到特徵輸出f(t):

f(t)=c(s(t)),

其中c代表經過卷積神經網絡的操作。本實施例中,特徵向量維度為128。

3.設計時域池化(temporalpooling)層,對一個行人序列中的圖片輸出的特徵進行平均,得到平均特徵向量xc:

其中t為一個行人序列的長度。本實施例中t為16。

圖1是步驟中所述網絡結構的具體參數和組成方式示意圖,其中卷積神經網絡中卷積核個數分別為(16,32,32),卷積核大小均為5x5,步長均為1。行人序列是以成對的方式輸入,經過同樣的卷積池化等操作後提取出空域特徵送入遞歸神經網絡中進行下一步綜合得到時域特徵。

第二步:基於遞歸神經網絡(rnn),提取行人的時域特徵。

本步驟中具體操作為:

1.利用遞歸神經網絡(rnn)綜合卷積神經網絡(cnn)提取出的空域特徵f(t),得到相應的時域特徵o(t),即:

o(t)=r(f(t)),

其中r代表經過遞歸神經網絡的操作。

2.對一個行人序列中的所有圖片進行1中的操作,得到相應的時域特徵,對輸出的特徵連接時域池化(temporalpooling)層進行平均,得到平均特徵向量xr:

第三步:進行行人空時特徵融合。

本步驟中具體操作為:

設計一個線性疊加層,將cnn提取出的平均行人空域特徵xc和rnn提取出的平均時域特徵xr進行融合,得到行人的空時特徵表達xf:

xf=xc+xr

在本實施例中,特徵向量採用1:1的線性疊加。

第四步:將行人的空時特徵表達xf送入對比損失函數(siameseloss)和交叉熵損失(softmaxloss)函數中算出損失從而對整個網絡進行優化迭代。

在本實施例中,兩種損失的計算權重為1:1。

圖2是整個網絡結構運行的流程示意圖。詳細闡釋了第一到第四步網絡設計的具體過程和數據流向。本發明中的深度行人空時特徵提取集成在同一個深度神經網絡架構中,易於重現且具有很好地適用性和推廣性。

第五步:將行人圖像分為上下兩部分,分別經過步驟一到步驟四所構成的網絡的訓練和特徵提取步驟,利用最終訓練出的特徵提取模型提取出局部空時特徵;訓練行人的全局圖片,利用特徵提取模型提取出全局空時特徵;將互補性的全局空時特徵和局部空時特徵融合,得到最終更具區分度的特徵表達。

在本實施例中,全局特徵和局部特徵的融合權重從訓練集中學得最優參數,根據不同的訓練集自適應調整。

圖3是局部-全局特徵融合示意圖。其中crf代表步驟一到四中設計的行人空時特徵提取網絡。局部-全局特徵融合示意圖中具體闡明了分部的操作,其中的權重w由訓練集學得並應用在測試集上。

綜上所述,本發明方法步驟同時考慮了行人的空域特徵和更具代表性的時域特徵,並在同一深度網絡中加之進行了高效的融合,提取出的特徵更具有區分度,更具有魯棒性,能更好的解決與適應遮擋和光線變化等複雜情況;結合了行人的局部和全局特徵,挖掘行人的細節特性,使其在下一步的行人識別中發揮更好的性能及效率。

如圖4所示,是基於本發明提取出的特徵做行人重識別的最終結果示意圖,以行人重識別中普遍應用的累積匹配特性(cmc)曲線作為表徵。五條曲線從上至下依次代表的是本發明方法和其他方法在不同條件下的性能,作為參照系用以進行方法的比較;

第一條帶圓圈的曲線代表本發明的方法得到的準確率結果;

第二條帶五角星的曲線代表本發明參考的方法(參見:n.mclaughlin,j.martinezdelrincon,andp.miller.recurrentconvolutionalnetworkforvideo-basedpersonre-identification.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,2016.2,3,5,7),在同樣的網絡結構下只用rnn提取出的特徵所得到的結果;

其他的曲線代表了運用不同網絡提取出相對應的特徵所得到的性能(參見:s.karanam,y.li,andr.j.radke.sparsere-id:blocksparsityforpersonre-identification.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognitionworkshops,pages33–40,2015.5,7;參見:t.wang,s.gong,x.zhu,ands.wang.personre-identificationbyvideoranking.ineuropeanconferenceoncomputervision,pages688–703.springer,2014.2,5,7)。

從圖4中可以看出,本發明的方法較之前的方法能夠更好地提取出更具有區分度的特徵,並且在不同的數據集上都能得到很好地效果,識別的精度有了明顯的提高。

以下表1,是基於本發明得到的性能的最終識別準確率的數值比較結果。從上至下依次陳列了用以對照的其他結果同本發明實施結果的數值比較。可以看到本發明精度在不同數據集上都有很好的效果提升。

表1

以下表2,是本發明的方法的中間結果性能比較,用以說明本發明的有效性。其中五行結果自上至下分別代表本發明的各個步驟所得到的特徵用於識別的性能,分別為只選用cnn提取的特徵,只選用rnn提取的特徵,局部結果中的只選用上半部分行人圖片所提取出的空時特徵,只選用下半部分行人圖片提取出的空時特徵,以及最終的局部-全局空時特徵融合結果比較。

表2

從表2中可以看出,本發明的方法提出的空時特徵融合以及局部-全局特徵融合的方法的確能帶來性能上的提升,能夠更好的挖掘行人的本質特徵,給出更好的特徵提取方案。

綜上,本發明具有很好的魯棒性,能更好的解決與適應遮擋和光線變化等複雜情況;結合了行人的局部和全局特徵,挖掘行人的細節特性,使其在下一步的行人識別中發揮更好的性能及效率。

儘管本發明的內容已經通過上述優選實施例作了詳細介紹,但應當認識到上述的描述不應被認為是對本發明的限制。在本領域技術人員閱讀了上述內容後,對於本發明的多種修改和替代都將是顯而易見的。因此,本發明的保護範圍應由所附的權利要求來限定。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀