基於多幅圖像融合的視頻檢索方法及系統與流程
2023-05-16 12:15:31 1
本發明涉及視頻檢索技術領域,特別涉及一種基於多幅圖像融合的視頻檢索方法及系統。
背景技術:
自動視頻數據檢索屬於基於內容的視頻檢索問題,其目的就是通過對圖像/視頻內容進行計算機處理、分析和理解,建立結構和索引,以實現方便有效的圖像/視頻信息獲取。近年來,國內外的研究人員均對視頻檢索系統進行了大量的研究,目前開發出的智能視頻監控可以對目標進行檢測、跟蹤以及分類,並能實時監測一些突發異常事件。
目前,通用的視頻檢索系統的工作流程如圖1所示,主要包括離線建索引和在線檢索兩部分。離線建索引部分:第一步,對資料庫中的視頻數據進行關鍵幀提取,以將視頻數據轉換為圖像數據;第二步,從關鍵幀中提取出關鍵幀特徵;第三步,將所有的關鍵幀特徵進行量化編碼;第四步,根據關鍵幀特徵的編碼,建立倒排文件索引以供快速檢索。在線檢索部分:第一步,對查詢圖像進行特徵提取;第二步,對所有查詢圖像的特徵進行量化編碼;第三步,通過倒排文件索引,將查詢圖像的特徵與資料庫視頻關鍵幀的特徵進行相似度比較;第四步,按照查詢圖像的特徵與視頻資料庫關鍵幀特徵的相似度,對查詢出的視頻關鍵幀進行排序;第五,通過對關鍵幀排序結果融合得到視頻文件排序結果。
但是上述的這種視頻檢索技術的缺陷在於:一是,查全率不高,因為根據一幅查詢圖像一般不足以描述所要查詢的目標,特別是對於非剛性或者是空間拓撲複雜的物體,而且在實際應用中,監控目標的任何蛛絲馬跡的遺漏都有可能導致監控目標的丟失,因此查全率在實際應用中往往比查準率更為重要。二是,查詢效率低,現有視頻檢索技術的工作過程中,需要對視頻中的每一關鍵幀進行排序,再通過對關鍵幀的排序結果進行融合得到視頻的排序結果,但是由於視頻幀的數目遠遠大於視頻的個數,因此對關鍵幀進行排序會導致目標的查詢速度慢、對資源的利用率低。
技術實現要素:
本發明的目的在於提供一種基於多幅圖像融合的視頻檢索方法及系統,以提高視頻檢索的查全率。
為實現以上目的,本發明採用的技術方案為:第一方面,本發明提供一種基於多幅圖像融合的視頻檢索方法,該方法包括:
對資料庫視頻進行解碼與視頻鏡頭分割,得到多個視頻鏡頭;
對單個視頻鏡頭進行關鍵幀提取,並對關鍵幀進行局部特徵提取;
對部分局部特徵進行聚類,將得到的聚類中心集合作為資料庫視頻局部特徵的碼本;
按照資料庫視頻局部特徵的碼本,對資料庫視頻的所有局部特徵進行量化編碼;
在量化編碼後,對單個視頻鏡頭所有關鍵幀的局部特徵集合進行池化處理,得到單個視頻鏡頭量化後的局部特徵池化集合;
根據資料庫視頻局部特徵的碼本和單個視頻鏡頭量化後的局部特徵池化集合,建立反向文件索引;
根據待檢索目標視頻的多幅查詢圖像和反向文件索引,進行目標視頻的在線檢索。
第二方面,本發明提供了一種基於多幅圖像融合的視頻檢索系統,該系統包括:視頻處理模塊、分布式存儲模塊以及檢索模塊;
視頻處理模塊包括處理單元、第一提取單元、第一聚類單元、第一量化編碼單元以及第一池化單元;
處理單元與資料庫連接,對資料庫中的視頻進行解碼與視頻鏡頭分割,得到多個視頻鏡頭;
第一提取單元與處理單元連接以對單個視頻鏡頭進行關鍵幀提取,並對關鍵幀進行局部特徵提取;
第一聚類單元與提取單元連接以對部分局部特徵進行聚類,將得到的聚類中心集合作為資料庫視頻局部特徵的碼本;
第一量化編碼單元與聚類單元連接以按照資料庫視頻局部特徵的碼本,對資料庫視頻的所有局部特徵進行量化編碼;
第一池化單元與量化編碼單元連接以在量化編碼後,對單個視頻鏡頭所有關鍵幀的局部特徵集合進行池化處理,得到單個視頻鏡頭量化後的局部特徵池化集合;
分布式存儲模塊與視頻處理模塊連接以根據資料庫視頻局部特徵的碼本和單個視頻鏡頭量化後的局部特徵池化集合,建立反向文件索引;
檢索模塊與分布式存儲模塊連接以根據待檢索目標視頻的多幅查詢圖像和反向文件索引,進行目標視頻的在線檢索。
與現有技術相比,本發明存在以下技術效果:第一,本發明通過使用同一目標視頻的多幅查詢圖像,來對目標視頻進行搜檢索,可以兼顧不同視角,對檢索目標視頻的描述更加精確,提高了對目標視頻的查全率。第二,通過在離線建立反向文件索引部分,以資料庫視頻的視頻鏡頭為單位,對單個視頻鏡頭所有關鍵幀的局部特徵進行池化,得到單個視頻鏡頭量化後的局部特徵池化集合,極大的減少了內存耗費與資料庫中的記錄數目,不僅加快檢索速度而且節約內存消耗至原有技術的幾十甚至數千分之一。
附圖說明
圖1是本發明背景技術部分述及的現有視頻檢索過程的流程示意圖;
圖2是本發明一實施例中的一種基於多幅圖像融合的視頻檢索方法的流程示意圖;
圖3是本發明一實施例中步驟s7的細分步驟的流程示意圖;
圖4是本發明一實施例中的視頻檢索過程的流程示意圖;
圖5是本發明一實施例中一種基於多幅圖像融合的視頻檢索系統的結構示意圖;
圖6是本發明一實施例中一種基於多幅圖像融合的視頻檢索系統的分布式結構示意圖。
具體實施方式
下面結合圖2至圖6,對本發明做進一步詳細敘述。
如圖2所示,本實施例提供了一種基於多幅圖像融合的視頻檢索方法,該方法包括如下步驟s1至s7:
s1、對資料庫視頻進行解碼與視頻鏡頭分割,得到多個視頻鏡頭;
具體地,該處的多個視頻鏡頭是指分割成至少一個視頻鏡頭。
s2、對單個視頻鏡頭進行關鍵幀提取,並對關鍵幀進行局部特徵提取;
具體地,對單個視頻鏡頭提取至少一幅關鍵幀,並對關鍵幀進行特徵提取,這裡的特徵提取包括但不限於局部特徵提取和全局特徵提取,本實施例中將對關鍵幀進行局部特徵提取作為較為優選的方案。
s3、對部分局部特徵進行聚類,將得到的聚類中心集合作為資料庫視頻局部特徵的碼本;
s4、按照資料庫視頻局部特徵的碼本,對資料庫視頻的所有局部特徵進行量化編碼;
s5、在量化編碼後,對單個視頻鏡頭所有關鍵幀的局部特徵集合進行池化處理,得到單個視頻鏡頭的量化後的局部特徵池化集合;
需要說明的是,本實施例中的池化(pooling)方式包括但不僅限於:平均池化(averagepooling)、最大池化(maxpooling)等。
需要說明的是,該處的量化後的局部特徵池化集合是對單個視頻鏡頭所有關鍵幀的局部特徵進行池化的結果,與關鍵幀局部特徵的概念不同。
s6、根據資料庫視頻局部特徵的碼本和單個視頻鏡頭量化後的局部特徵池化集合,建立反向文件索引;
需要說明的是,由於在檢索中,碼本的數目對應於統計直方圖的維數,碼本的數目比較大,例如幾萬至上百萬。如此,在量化後的局部特徵池化集合中,大部分碼字被分配到的值都是零,這使得量化後的局部特徵池化集合分布的非常稀疏,利用這種稀疏性,就可以利用文本檢索中的倒排序來建立反向文件索引。
s7、根據待檢索目標視頻的多幅查詢圖像和反向文件索引,進行目標視頻的在線檢索。
其中,本實施例中的多幅查詢圖像是指至少兩幅查詢圖像。
具體地,如圖3所示,步驟s7包括如下步驟s71至s75:
s71、對待檢索目標視頻的所有查詢圖像進行局部特徵提取;
s72、按照所述資料庫視頻局部特徵的碼本,對所有查詢圖像的全部局部特徵進行量化編碼;
s73、將所有查詢圖像量化編碼後的全部局部特徵做池化處理,得到所有查詢圖像量化後的局部特徵池化集合;
s74、按照所述的反向文件索引,將待檢索目標視頻的量化後的局部特徵池化集合與資料庫視頻中單個視頻鏡頭量化後的局部特徵池化集合進行相似度比較;
s75、根據比較得到的相似度,對查詢出的視頻文件進行排序,完成目標視頻的在線檢索。
本實施例中,在使用多幅圖像進行查詢的時候,對所有查詢圖像的局部特徵進行池化,可以將所有查詢圖像的局部特徵轉化為一個精確的可以描述目標視頻的量化後的局部特徵池化集合,作為所有查詢圖像的新特徵,使得對目標視頻的搜索效率與現有搜索過程的搜索效率基本保持不變。
具體地,s3:「對部分的局部特徵進行聚類,將得到的聚類中心集合作為資料庫視頻局部特徵的碼本」,具體包括如下細分步驟:
從全部視頻鏡頭關鍵幀中提取的全部局部特徵中,間隔或隨機抽取部分局部特徵;
基於預設的無監督距離方法,對所述抽取的部分局部特徵進行聚類,將得到的k個代表性特徵作為碼本;
需要說明的是,本實施例中預設的無監督距離方法包括但不限於k-means無監督距離方法。
相應地,s4:「按照資料庫視頻局部特徵的碼本,對資料庫視頻的所有局部特徵進行量化編碼」,具體包括:
根據k個特徵碼本,以單個關鍵幀為單位對視頻鏡頭的全部局部特徵進行局部特徵矢量量化,得到每個關鍵幀的局部特徵統計直方圖。
具體地,s6:「根據資料庫視頻局部特徵的碼本和單個視頻鏡頭的量化後的局部特徵池化集合,建立反向文件索引」,具體包括如下細分步驟:
依次以資料庫視頻局部特徵的碼本中的每個碼字id為表頭,建立鍊表;
對資料庫中的視頻進行掃描,將所有包含該碼字的視頻鏡頭id及相關信息壓入鍊表中,得到反向文件索引。
需要說明的是,本實施例中的相關信息包括但不限於詞頻、漢明碼以及特徵距離等信息。
具體地,步驟s6「按照所述的反向文件索引,將待檢索目標視頻的量化後的局部特徵池化集合與資料庫視頻中的單個視頻鏡頭的量化後的局部特徵池化集合進行相似度比較」的具體過程為:根據所有查詢圖像量化後的局部特徵池化集合中某個碼字,掃描反向索引文件中該碼字對應的鍊表,得到在該碼字上查詢圖像與資料庫包含該碼字的視頻的相似度。
具體地,本實施例公開的方法在步驟s72:「按照資料庫視頻局部特徵的碼本,對所有查詢圖像的所有局部特徵進行量化編碼」之後,還包括如下步驟:
將量化編碼後的所有查詢圖像的全部局部特徵交叉比對,確定所有查詢圖像的特徵匹配重疊區域為待搜索目標區域;
相應地,步驟s73:「將所有查詢圖像量化編碼後的全部局部特徵做池化處理,得到所有查詢圖像量化後的局部特徵池化集合」,具體包括:
對落在待搜索目標區域內的所有查詢圖像的局部特徵進行池化,得到待檢索目標視頻的量化後的局部特徵池化集合。
需要說明的是,通過根據圖像間特徵的相關性來自動發掘共同的特徵子集,並以該集合確定待檢索目標視頻在圖像中的空間位置,整個過程不依賴於任何人工標註,便可得到待檢索目標視頻的區域,以目標區域進行查詢得到的查詢結果比以整張圖片進行查詢得到的查詢結果更加準確。
具體地,利用本實施例中的基於多幅圖像融合的視頻檢索方法的過程示意圖如圖4所示。
如圖5、圖6所示,本實施例公開了一種基於多幅圖像融合的視頻檢索系統,包括:
視頻處理模塊10、分布式存儲模塊20以及檢索模塊30;
視頻處理模塊10包括處理單元11、第一提取單元12、第一聚類單元13、第一量化編碼單元14以及第一池化單元15;
處理單元11與資料庫連接,對資料庫中的視頻進行解碼與視頻鏡頭分割,得到多個視頻鏡頭;
第一提取單元12與處理單元11連接以對單個視頻鏡頭進行關鍵幀提取,並對關鍵幀進行局部特徵提取;
第一聚類單元13與提取單元12連接以對部分局部特徵進行聚類,將得到的聚類中心集合作為資料庫視頻局部特徵的碼本;
第一量化編碼單元14與聚類單元13連接以按照資料庫視頻局部特徵的碼本,對資料庫視頻的所有局部特徵進行量化編碼;
第一池化單元15與量化編碼單元14連接以在量化編碼後,對單個視頻鏡頭所有關鍵幀的局部特徵集合進行池化處理,得到單個視頻鏡頭量化後的局部特徵池化集合;
分布式存儲模塊20與視頻處理模塊10連接以根據資料庫視頻局部特徵的碼本和單個視頻鏡頭量化後的局部特徵池化集合,建立反向文件索引;
檢索模塊30與分布式存儲模塊20連接以根據待檢索目標視頻的多幅查詢圖像和反向文件索引,進行目標視頻的在線檢索。
需要說明的是,本實施例中的視頻處理模塊10具體為視頻處理伺服器組,分布式存儲模塊20具體為磁碟陣列,檢索模塊30具體為檢索伺服器組。具體的硬體配置參數參見表1:
表1
需要說明的是,該處的分布式存儲模塊20支持視頻特徵向量的動態插入/刪除,以及支持快速隨機查找。
具體地,檢索模塊30具體包括:第二提取單元31、第二量化編碼單元32、第二池化單元33、比較單元34以及檢索單元35;
第二提取單元31對待檢索目標視頻的所有查詢圖像進行局部特徵提取;
第二量化編碼單元32與第二提取單元31連接以按照所述資料庫視頻局部特徵的碼本,對所有查詢圖像的所有局部特徵進行量化編碼;
第二池化單元33與第二量化編碼單元32連接以將所有查詢圖像量化編碼後的全部局部特徵做池化處理,得到待檢索目標視頻的量化後的局部特徵池化集合;
比較單元34與第二池化單元33、分布式存儲模塊20連接以按照所述的反向文件索引,將待檢索目標視頻量化後的局部特徵池化集合與資料庫視頻中單個視頻鏡頭的量化後的局部特徵池化集合進行相似度比較;
檢索單元35與比較單元34連接以根據比較得到的相似度,對查詢出的視頻文件進行排序,完成目標視頻的在線檢索。
具體地,第一聚類單元13具體用於:
從全部視頻鏡頭關鍵幀中提取的全部局部特徵中,間隔或隨機抽取部分局部特徵;
基於預設的無監督距離方法,對所述抽取的部分局部特徵進行聚類,將得到的k個代表性特徵作為碼本;
相應地,所述的第一量化編碼單元14,具體用於:
根據k個特徵碼本,以單個關鍵幀為單位對視頻鏡頭的全部局部特徵進行局部特徵矢量量化,得到每個關鍵幀的局部特徵統計直方圖。
具體地,分布式存儲模塊20具體包括:鍊表建立單元21和反向索引建立單元22;
鍊表建立單元21依次以資料庫視頻局部特徵的碼本中的每個碼字id為表頭,建立鍊表;
反向索引建立單元22與鍊表建立單元21連接以對資料庫中的視頻進行掃描,將所有包含該碼字的視頻鏡頭id及相關信息壓入鍊表中,得到反向文件索引,其中,所述的相關信息包括詞頻和漢明碼。
具體地,視頻處理模塊30還包括匹配單元36;
匹配單元36與第二量化編碼單元32連接以將量化編碼後的所有查詢圖像的全部局部特徵交叉比對,確定所有查詢圖像的特徵匹配重疊區域為待搜索目標區域;
相應地,所述的第二池化單元33與匹配單元36連接,具體用於:
對落在待搜索目標區域內的所有查詢圖像的局部特徵進行池化,得到待檢索目標視頻的量化後的局部特徵池化集合。
應當說明的是,基於多幅圖像融合的視頻檢索系統的具體工作過程及要點與上述基於多幅圖像融合的視頻檢索方法相同,此處不再贅述。
需要說明的是,本發明公開的基於多幅圖像融合的視頻檢索方法及系統具有如下的技術效果:
(1)使用多幅查詢目標圖像,在表達目標對象時,可以兼顧不同視角,使描述更加精準,這對提高檢索系統的查全率有很大的幫助。同時多圖查詢時通過特徵池化,可以像單幅圖像查詢一樣,仍只以一個特徵向量來描述待查找目標,使得搜索效率基本保持不變。
(2)資料庫視頻部分的離線處理,通過特徵池化,以視頻鏡頭而不是關鍵幀為單位,保留池化後的量化特徵向量,極大地減少內存耗費與資料庫中的記錄數目,極大的提高了檢索效率,節約內存消耗至原技術的幾十至數千分之一,同時保持相當、甚至更高的搜索精度。
(3)在多幅查詢圖像輸入部分,通過所有查詢圖像間特徵的相關性來自動發掘共同的特徵子集,以該集合確定待搜索目標在圖像中的空間位置區域,不依賴於任何人工標註,就可得到待搜索目標的區域,以此為查詢,得到比整張圖片更加精準的查詢結果。