一種基於因子圖模型的圖片中對象識別方法
2023-04-24 20:26:21 2
一種基於因子圖模型的圖片中對象識別方法
【專利摘要】本發明提供一種基於因子圖模型的圖片中對象識別方法,包括對訓練集中每張圖片分別進行圖像分塊,提取各圖像塊的SIFT特徵向量,得到圖片的SIFT特徵向量集,確定各圖像塊對應的標籤,圖像塊的標籤為正時表示對象存在於該圖像塊中;訓練集中所有圖片的SIFT特徵向量集組成集合,基於該集合利用聚類算法,計算SIFT特徵向量詞典;針對訓練集中的每張圖片,分別構建因子圖模型;進行因子圖模型參數學習,採用測試集驗證學習所得因子圖模型參數,驗證成功則根據因子圖模型參數對任意待識別的圖片進行對象識別。本發明可提高複雜圖像背景下對象識別的準確度。
【專利說明】—種基於因子圖模型的圖片中對象識別方法
【技術領域】
[0001]本發明涉及多媒體處理與模式識別【技術領域】,尤其涉及一種基於因子圖模型的圖片中對象識別方法。
【背景技術】
[0002]圖片中對象識別主要判斷對象所處位置和範圍,是視覺識別的一類重要問題。視覺識別的困難主要來自兩點[1]:一是過大的搜索空間,即在不同位置和範圍上搜索對象,計算複雜度很高;二是由於角度、姿態或光照條件變化,對物體外形進行有效建模比較困難。近年來出現的詞袋方法(Bag-of-Words)[2]顯示了基於圖像塊思路的有效性,將圖像局部特徵編碼為視覺單詞的做法得到了廣泛認可。該思路在圖像塊層次上,通過視覺詞典來表徵物體外形,是一種稀疏表示方法,在一定程度上降低了學習算法在參數空間上的搜索複雜度。同時,該思路還能夠有機地結合一些圖像特徵,如SIFT、H0G和LBP等局部特徵,從而提高了物體外形建模效果。
[0003]詞袋方法的性能依賴於詞典和特徵編碼策略。目前已經出現了將稀疏編碼、向量量化編碼、核詞典編碼、顯著性編碼等運用在視覺識別中的編碼技術,並且有將編碼和分類技術結合起來以訓練面向任務的詞典相關研究。但是,與文字識別、人臉識別等研究相比,在複雜圖像背景下,研究面向物體識別具體任務進行詞典學習的工作才剛剛起步[3]。為提高複雜圖像背景下物體識別的效果,可以採用多種方法。典型的思路就是使用圖像局部關聯信息,由於圖像塊之間具有關聯性,將這種關聯性建模到物體識別中將會有所幫助,開創性的工作為s.Kumar等將條件隨機場(CRF)模型[4]擴展到2維格形結構之後運用到圖像分析中[_。
[0004]在基於CRF模型的詞典學習中,以每一個圖像塊作為節點,圖像塊形成的格狀網絡作為連邊關係ωΜ。這種建模方法,圖像塊(CRF模型中對應節點)之間的關聯性主要以格狀網絡表達,這其實是一種只考慮物理距離關聯性的方法。這種假設不完全合理,因為在一張圖片中,常常會在不同區域同時出現同一類物體,而這些物體可能鄰接,也可能會被背景分離。由于格狀網絡只能表徵鄰接特徵,對於被背景分開的物體之間的關聯性,則難以表徵。因此,必須更加充分地考慮圖像塊之間的連邊關係,比如不同圖像塊之間的相似性,並且將此相似性也作為建模中的重要因素考慮進去,即當一個圖像塊中存在(或不存在)對象時,與之相似的圖像塊中存在(或不存在)對象的概率應該相應增加。為了實現這種建模,本發明使用因子圖模型mte][9],全面地表徵圖像塊之間的相互影響以及圖像塊自身特徵與對象之間的關係。
[0005]文中涉及的參考文獻如下:
[0006][I]黃凱奇,任偉強,譚鐵牛.圖像物體分類與檢測算法綜述[J].計算機學報,2014,37(6):1225-1240.
[0007][2]胡事民,張方略,汪淼.片網:圖像表示的一種新技術[J].中國計算機學會通訊,2014,(10) 1:54-59.
[0008][3] Yang J M and Yang M H.Top-Down Visual Saliency via Joint CRF andDict1nary Learning[C].1n Proceedings of the IEEE Conference on Computer Vis1nand Pattern Recognit1n, Providence, June, 2012, pp.2296-2303.
[0009][4]Lafferty.Condit1nal Random Fields:Probabi Iistic Models forSegmenting and Labeling Sequence Data [C].1n Proceedings of the 18thInternat1nal Conference on Machine Learning (ICML),2001,pp.282-289.
[0010][5] Kumar S and Hebert M.Discriminative random fields [J].1nternat1nalJournal of Computer Vis1n, 68 (2):179-201.
[0011][6] Quattoni A,Collins Mj Darrel I T.Condit1nal Random Fieldsfor Object Recognit1n [C].1n Advances in Neural Informat1n ProcessingSystems, 2005,pp.1097-1104.
[0012][7] Kschischang F Rj Frey B J and Loeliger H A.Factor graphsand the sum-product algorithm [J].1EEE Transact1ns on Informat1nTheory, 47(2): 498-59,2001.
[0013][8] Wang C,Tang J and Sun J M,et al.Dynamic social influenceanalysis through time-dependent factor graphs[C].1n Proceedings of theInternat1nal Conference on Advances in Social Networks Analysis andMining (ASONAM),Kaohsiung:2011.
[0014][9] Tan C,Tang J and Sun J,et al.Social act1n tracking vianoise tolerant time-varying factor graphs [C].1n Proceedings of the 16thACM SIGKDD Internat1nal Conference on Knowledge Discovery and Datamining(KDD),Washington:2010.
【發明內容】
[0015]針對上述存在的技術問題,本發明目的是提供一種基於因子圖模型的圖片中對象識別的方法。使用因子圖模型,能夠考察圖像塊之間關聯性對參數學習結果的影響,可以更好地利用局部信息,提高複雜圖像背景下對象識別的準確度。
[0016]為達到上述目的,本發明釆用如下的技術方案:
[0017]一種基於因子圖模型的圖片中對象識別方法,包括以下步驟:
[0018]步驟1,輸入訓練集,對訓練集中每張圖片分別進行圖像分塊,提取各圖像塊的SIFT特徵向量,得到圖片的SIFT特徵向量集,確定各圖像塊對應的標籤,圖像塊的標籤為正時表示對象存在於該圖像塊中;
[0019]步驟2,訓練集中所有圖片的SIFT特徵向量集組成集合,基於該集合利用聚類算法,計算SIFT特徵向量詞典;
[0020]步驟3,針對訓練集中的每張圖片,分別構建因子圖模型;
[0021]步驟4,進行因子圖模型參數學習,包括以下子步驟,
[0022]步驟4.1,運行線性支持向量機,得到因子圖模型參數的初始值;
[0023]步驟4.2,基於訓練集中的所有圖片,結合梯度下降算法和信念傳播算法學習因子圖模型參數;
[0024]步驟4.3,判斷步驟4.2所得因子圖模型參數取值是否收斂,若是則得到參數學習結果,進入步驟5,若否,判斷當前是否達到預設的迭代次數,未達到則返回迭代步驟4.2,達到則將本次執行步驟4.2所得因子圖模型參數作為參數學習結果,進入步驟5 ;
[0025]步驟5,採用測試集驗證步驟4學習所得因子圖模型參數,驗證成功則根據因子圖模型參數對任意待識別的圖片進行對象識別,驗證包括以下子步驟,
[0026]步驟5.1,構建測試集中每張圖片的因子圖模型;
[0027]步驟5.2,基於步驟5.1所得因子圖模型和步驟4學習所得因子圖模型參數,使用信念傳播算法,計算測試集中每張圖片各圖像塊對應的標籤預測結果;
[0028]步驟5.3,確定測試集中圖片各圖像塊的標籤,判斷步驟5.2得到的標籤預測結果與標籤之間的查準率和查全率,若在預設的接受範圍,驗證通過。
[0029]而且,步驟I和步驟5.3中,確定各圖像塊對應的標籤方式為,若圖像塊中標籤為正的像素數超過預設閾值,該圖像塊的標籤為正,否則該圖像塊的標籤為負。
[0030]而且,步驟3和步驟5.1中,所述的因子圖模型的結構包括節點因子和邊因子,
設訓練集或測試集中任一圖片為χω,劃分得到m個圖像塊,圖像塊JCf1對應的標籤為yf",/= I,.., /?,對任一圖片構建因子圖模型的方式如下,
[0031]構建節點因子,包括根據SIFT特徵向量詞典,得到圖像塊的稀疏表示,建立稀疏表示與標籤之間的概率映射函數;
[0032]構建邊因子,包括計算各圖像塊之間的SIFT特徵匹配度,再結合圖像塊的特徵匹配度和位置鄰接關係建立概率映射函數;
[0033]確定因子圖模型優化的目標函數。
[0034]本發明具有以下優點和積極效果:
[0035]I)對於圖像塊建模了長程相關性,使得圖形由鄰接圖像塊之間的格狀網絡轉變為真正的網絡;
[0036]2)將視覺詞袋方法與因子圖模型結合使用,不僅能夠建模視覺單詞的詞頻信息,還能夠有效地表徵網絡結構以及原始圖像塊的相似性特徵。
【專利附圖】
【附圖說明】
[0037]圖1是本發明實施例的總體流程圖;
[0038]圖2是本發明實施例的訓練集中的圖片對應的標籤示意圖;
[0039]圖3是本發明實施例中一張圖片具體對應的網絡結構示意圖;
[0040]圖4是本發明實施例中因子圖模型的變量以及節點因子、邊因子的可視化示意圖;
[0041]圖5是本發明實施例在Graz02數據集中bike類上識別「自行車」對象的查全率、查準率和查全率-查準率曲線。
【具體實施方式】
[0042]下面結合附圖和實施例對本發明作進一步說明。
[0043]本發明提出的是一種基於因子圖模型的圖片中對象識別方法,參見圖1,實施例包括具體步驟如下:
[0044](I)輸入包括有多張圖片的訓練集,對每張圖片進行圖像分塊,提取各圖像塊的SIFT特徵向量。
[0045]實施例中,輸入預先給定的包含N張圖片的訓練集X = {X(n)} |n = Ρ..Ν,對每張圖片Χω進行圖像分塊,提取圖像塊的SIFT特徵向量:
[0046]本發明適於處理不小於128Χ 128像素的圖片,格式一般為bmp和jpg等。將各圖片Χω劃分成64X64像素的圖像塊,設劃分得到m個圖像塊,記為if,λ.Γ,....χΠ ,鄰接圖像塊重疊32個像素。圖片Χω已在像素級別上正確標識出對象標籤,若圖像塊中標籤為正的像素數超過預設閾值,表示對象存在於該圖像塊中,該圖像塊的標籤為正,否則該圖像塊的標籤為負,即對象不存在於該圖像塊中。具體實施時,本領域技術人員可自行預設閾值,建議取圖像塊像素總數的3/4。設任一圖像塊Jtf對應的標籤為}ja>, I= I?.., I?,即圖片X(n)
中所有圖像塊對應的標籤集合為0,廣,.^,」<%參見圖2,訓練集中某圖片包括自行車和其他背景,以自行車為對象,則圖2中黑色部分為像素級別上正確標識出對象標籤處。
[0047]使用SIFT特徵向量提取算法,計算所有圖像塊;(f的SIFT特徵向量sf?則圖片
x(n)的SIFT特徵向量集為= {.sfuf ,...,O ?, SIFT特徵向量是一種常用的圖像局部特徵描述形式,本發明用來表示圖像塊的原始特徵。
[0048](2)預處理:利用聚類算法,計算SIFT特徵向量詞典。
[0049]實施例中,聚類算法使用的是k-means算法,利用k_means聚類算法計算SIFT特徵向量詞典:
[0050]訓練集中所有圖片的SIFT特徵向量集組成集合S = {S(n)} |n = 1,..,N。使用k-means聚類算法,得到k個特徵向量子集,k取值可由本領域技術人員預先指定,實施例中設為512。各特徵向量子集的中心點組成SIFT特徵向量詞典D。k-means聚類算法是已經存在的成熟算法,本發明不予贅述。
[0051](3)針對訓練集中的圖片,構建因子圖模型。
[0052]實施例針對訓練集X中的每一個圖片X(n),分別構建因子圖模型,因子圖模型包括節點因子和邊因子兩部分,節點因子刻畫圖像塊與標籤之間的關係,邊因子刻畫圖像塊之間的影響。具體地,對任一圖片構建因子圖模型包括以下子步驟:
[0053](3.1)構建節點因子,即根據SIFT特徵向量詞典,得到圖像塊的稀疏表示,建立稀疏表示與標籤之間的概率映射函數。
[0054]實施例根據SIFT特徵向量詞典D,運用最小二乘重構法,得到圖像塊的稀疏表示,建立稀疏表示與標籤之間的概率映射函數,即節點因子,其中的具體計算過程如下:
[0055](3.1.1)使用最小二乘重構法,即優化^ =argmjnIPf-ENfu [f +l|#:w H1?
<;2
得到稀疏表達A(n),其中,D e D,為SIFT特徵向量詞典D中的向量;λ為稀疏性控制參數,取0.15,優化算法採用稀疏編碼算法,稀疏編碼算法是已經存在的成熟算法,本發明不予贅述。
[0056](3.1.2)針對圖像塊及相應標籤定義節點因子為:
【權利要求】
1.一種基於因子圖模型的圖片中對象識別方法,其特徵在於,包括以下步驟: 步驟1,輸入訓練集,對訓練集中每張圖片分別進行圖像分塊,提取各圖像塊的SIFT特徵向量,得到圖片的SIFT特徵向量集,確定各圖像塊對應的標籤,圖像塊的標籤為正時表示對象存在於該圖像塊中; 步驟2,訓練集中所有圖片的SIFT特徵向量集組成集合,基於該集合利用聚類算法,計算SIFT特徵向量詞典; 步驟3,針對訓練集中的每張圖片,分別構建因子圖模型; 步驟4,進行因子圖模型參數學習,包括以下子步驟, 步驟4.1,運行線性支持向量機,得到因子圖模型參數的初始值; 步驟4.2,基於訓練集中的所有圖片,結合梯度下降算法和信念傳播算法學習因子圖模型參數; 步驟4.3,判斷步驟4.2所得因子圖模型參數取值是否收斂,若是則得到參數學習結果,進入步驟5,若否則判斷當前是否達到預設的訓練集迭代次數,未達到則返回迭代步驟4.2,達到則將本次執行步驟4.2所得因子圖模型參數作為參數學習結果,進入步驟5 ; 步驟5,採用測試集驗證步驟4學習所得因子圖模型參數,驗證成功則根據因子圖模型參數對任意待識別的圖片進行對象識別,驗證包括以下子步驟, 步驟5.1,構建測試集中每張圖片的因子圖模型; 步驟5.2,基於步驟5.1所得因子圖模型和步驟4學習所得因子圖模型參數,使用信念傳播算法,計算測試集中每張圖片各圖像塊對應的標籤預測結果; 步驟5.3,確定測試集中圖片各圖像塊的標籤,判斷步驟5.2得到的標籤預測結果與標籤之間的查準率和查全率,若在預設的接受範圍,驗證通過。
2.根據權利要求1所述的基於因子圖模型的圖片中對象識別方法,其特徵在於:步驟I和步驟5.3中,確定各圖像塊對應的標籤方式為,若圖像塊中標籤為正的像素數超過預設閾值,該圖像塊的標籤為正,否則該圖像塊的標籤為負。
3.根據權利要求1所述的基於因子圖模型的圖片中對象識別方法,其特徵在於:步驟3和步驟5.1中,所述的因子圖模型的結構包括節點因子和邊因子,設訓練集或測試集中任一圖片為X(n),劃分得到m個圖像塊,圖像塊Jif對應的標籤為I= I」」 『對任一圖片構建因子圖模型的方式如下, 構建節點因子,包括根據SIFT特徵向量詞典,得到圖像塊的稀疏表示,建立稀疏表示與標籤之間的概率映射函數; 構建邊因子,包括計算各圖像塊之間的SIFT特徵匹配度,再結合圖像塊的特徵匹配度和位直鄰接關係建立概率映射函數; 確定因子圖模型優化的目標函數。
【文檔編號】G06K9/62GK104200222SQ201410430505
【公開日】2014年12月10日 申請日期:2014年8月28日 優先權日:2014年8月28日
【發明者】吳照林, 張海粟, 戴劍偉, 曾昭文, 朱明東, 文峰, 張勝, 姚遠, 龔建華, 張巖, 馮勤群, 徐飛, 王強 申請人:中國人民解放軍國防信息學院