基於鄰域與距離度量學習的圖像語義自動標註方法
2023-09-18 21:27:20 1
基於鄰域與距離度量學習的圖像語義自動標註方法
【專利摘要】本發明提供一種基於鄰域與距離度量學習的圖像語義自動標註方法,包括通過引入變換矩陣,從訓練集中隨機取任意兩幅圖像求得距離度量;計算標註詞的先驗概率,對於訓練集中的每個圖像獲取鄰域,記錄訓練集中標註詞出現與不出現的次數,計算條件概率;對於測試集中的每個圖像獲取鄰域,通過計算圖像係數得到標準詞向量並輸出。本發明無需事先確定標註詞的個數比較現有技術智能化程度更高,標註結果更準確。而且,本發明的圖像鄰域完全是通過學習所獲得的距離度量得到的,精確度更高。
【專利說明】基於鄰域與距離度量學習的圖像語義自動標註方法
【技術領域】
[0001] 本發明涉及圖像檢索領域,特別涉及基於鄰域與距離度量學習的圖像語義自動標 注方法。
【背景技術】
[0002] 隨著網絡技術的飛速發展和數位相機與行動裝置的快速普及,越來越多的人能夠 方便地使用和傳輸數字圖像,使得圖像網站上數字圖像的數量得到指數性增長。如何在海 量圖像網站上有效地檢索圖像以便快速、有效地發現感興趣的圖像資源已經成為一個具有 挑戰性的任務。
[0003] 然而,作為圖像檢索的重要環節,圖像標註的性能決定著圖像檢索的效果。基於語 義的圖像檢索能夠有效地彌補基於文本和基於內容兩種圖像檢索方法的缺陷,使檢索結果 與用戶所需信息儘可能一致。
[0004] 利用語義檢索圖像時,人們通常通過圖像的高水平語義來檢索。已有的很多圖像 標註方法多採用低水平視覺特徵來描述圖像,然而圖像的低水平視覺特徵與圖像的高水平 語義之間存在鴻溝,因此,現存的很多圖像語義標註方法的性能並不令人滿意。
[0005] 當前,現存的圖像語義自動標註方法有一定的局限性。經過對現有技術的文獻檢 索發現,Zhixin Li 等 2011 年在 Patter Recognition Letters 上發表的論文 "Modeling continuous visual features for semantic image annotation and retrieval,'(面 向語義圖像標註和檢索的連續視覺特徵建模,簡稱"文獻1")中提出了一種圖像標註和檢 索方法,圖像標註詞個數是事先預定的。通過文獻檢索還發現,Songhao Zhu等2013年在 Journal of Visual Communication and Image Representation 上發表的論文 "Image annotation using high order statistics in non-Euclidean spaces,'(用於圖像標註 的非歐幾裡得距離高階統計量,簡稱"文獻2")中提到的圖像鄰域是由K近鄰方法構成的, 這導致對於每幅圖像,其鄰域中圖像的個數都是相同的。
【發明內容】
[0006] 本發明針對現有圖像語義標註方法性能的不足,提供了一種基於圖像語義的自動 標註方法。
[0007] 本發明的技術方案提供一種基於鄰域與距離度量學習的圖像語義自動標註方 法,:設訓練集Tr為有標註詞的圖像集合仏,。...,。,Nl為訓練集Tr中圖像個數,測 試集Te為無標註詞的圖像集合U1, 12, ...,IN2},N2為測試集Te中圖像個數;任一幅圖像 I 由 M 個視覺特徵 X1,X2, ? ? ?,Xm 表示成 M 維向量 I = (X1,X2, ? ? ?,xM),L = {k" k2, ? ? ?,km} 是標註詞集合,每幅圖像I e Tr都與Fg £對應,Y= (y1,/,...^"1),Y稱為圖像I的標 注詞向量;y3 = 1表示圖像I有標註詞kj,y3 = 0表示圖像I沒有標註詞kj,j的取值為 1,2, --?,!!!;訓練集表示為 Tr ={ (Iu, Yu) Iu = 1,2, ...Nl},4 = =1 表 示第j個標註詞kj屬於圖像Iu,^ =0表示第j個標註詞kj不屬於圖像Iu,Yu為圖像Iu的 標註詞向量;
[0008] 執行以下步驟,
[0009] 步驟一,從訓練集中隨機取任意兩幅圖像Iu,I v e Tr,求得距離度量A (Iu,Iv),實 現如下,
[0010] 令s = ATA,其中A是變換矩陣;對於訓練集中的任意兩幅圖像Iu,Iv G Tr,它們之 間的距離A (Iu,Iv)是
【權利要求】
1. 一種基於鄰域與距離度量學習的圖像語義自動標註方法,其特徵在於:設訓練集Tr為有標註詞的圖像集合U1, 12, ...,IN1},Nl為訓練集Tr中圖像個數,測試集Te為無標註 詞的圖像集合U1, 12,. . .,IN2},N2為測試集Te中圖像個數;任一幅圖像I由M個視覺特徵 X1,X2,. . .,Xm表示成M維向量I= (X1,X2,. . .,xM),L={kpk2,. . .,km}是標註詞集合,每幅 圖像IeTr都與Fgi對應,Y= (y1,y2, . . .,ym),Y稱為圖像I的標註詞向量;yj = 1表 示圖像I有標註詞=O表示圖像I沒有標註詞kj,j的取值為1,2,…,m;訓練集表示 為Tr= {(Iu,Yu)Iu= 1,2,…N1},Γκ = ,W=丨表示第j個標註詞kj屬於 圖像Iu,^ 表示第j個標註詞h不屬於圖像Iu,Yu為圖像Iu的標註詞向量; 執行以下步驟, 步驟一,從訓練集中隨機取任意兩幅圖像Iu,IveTr,求得距離度量Λ(Iu,Iv),實現如 下, 令S=ATA,其中A是變換矩陣;對於訓練集中的任意兩幅圖像Iu,IveTr,它們之間的 距離Λ(Iu,Iv)是 Δ(IU,IV) = (IU,IV)TS(IU,IV) = (AIU,AIv)T (AIU,AIv) 其中,S=AtA是由變換矩陣A生成的度量矩陣,(Iu,Ιν)τ是圖像Iu與Iv向量之間歐幾 裡得距離的轉置,AIu是A與Iu的內積,八^是八與Iv的內積,(AIU,AIv)是計算兩個內積AIU、 AIv的歐幾裡得距離後所獲得的向量,(Iu,Iv)tS(Iu,Iv)是(Iu,Iv)T、S和(Iu,Iv)的內積; 圖像Iu選擇訓練集Tr中的另一圖像Iv作為自己近鄰的概率Puv按下式計算,
其中,w(I) =P2 (I)/P1⑴是待定向量,其中P1⑴和P2⑴分別是訓練集Tr和測試集Te的概率密度函數,Ik表示訓練集Tr中圖像Iu以外的任意圖像,則Iu、Ik相應的待定向量 W(Iv) =P2(Iv)A31(Iv)I(Ik) =P2(Ik)A31(Ik);記訓練集Tr中所有與Iu具有相同標註詞的 圖像集合為Qu,則Qu中的圖像都是圖像Iu的近鄰的概率?11是
概率Pu的加權均值f(A)如下, J-(A)^YdW(Iu)XogP ii U=-I 其中,Iu相應的待定向量W(Iu) =P2(Iu)ZiP1(Iu); 按下式計算f(A)的梯度I* QA
利用梯度下降法求得變換矩陣A,由此得到圖像距離Λ(Iu,Iv); 步驟二,對於標註詞heL和訓練集Tr中的每個圖像IueTr,按照下式分別計算標 注詞的先驗概率和0*}):
其中,Aj和分別表示標註詞Iij出現或不出現; 步驟三,對於訓練集Tr中的每個圖像IueTr,利用步驟一所獲得的距離度量Λ(Iu,Iv),獲得Iu的鄰域S(Iu),實現如下, δ(Iu) = {Iv|A(Iu,Iv) ^x,IveTr} 其中,τ是預設的鄰域半徑,τ>〇; 步驟四,對於標註詞heL,記錄訓練集Tr中標註詞kj出現與不出現的次數a」和bj; 步驟五,計算條件概率
其中,L是訓練集Tr中在圖像Iu的鄰域S(Iu)內有標註詞&的圖像的個數,M是圖 像視覺特徵的個數; 步驟六,對於測試集Te中的任意圖像IueTe,獲得圖像Iu的鄰域δ(Iu),實現如下, 首先,對於測試集中任意圖像IueTe,利用步驟一所獲得的距離度量Λ(Iu,Iv),獲得 Iu的鄰域S(Iu),實現如下, δ(Iu) = {Iv|MIU,Iv)彡τ,IveTe} 其中,τ是預設的鄰域半徑,τ>〇,Iv表示測試集Te中圖像Iu以外的任意圖像; 步驟七,通過計算圖像係數得到標準詞向量並輸出,實現如下, 對於每個標註詞heL,計算測試集中任一圖像IueTe的鄰域δ(Iu)內所包含的圖 像中有標註詞h的圖像係數<4,切:如果?(4,幼=|4/")|,則Jjf二1,其中IS(Iu)I表示 鄰域S(Iu)內所有圖像的數目;否則,如果λ,則4 =1,否則W;λ為預設閾值,λe(〇, 1)。
2.如權利要求1所述基於鄰域與距離度量學習的圖像語義自動標註方法,其特徵在 於:步驟一中對於訓練集中任意兩幅圖像Iu,IveTr求得距離度量Λ(Iu,Iv)時, 對w(I)進行如下建模
其中,β=(ββ2, · ··,βS)T是參數向量,錢(i}是基函數; 選擇勢(/)為高斯函數如下,
Ii是Qu中與第i個聚類中心最近的圖像,i= 1,2,…,S,CT12是第i個聚類類別中所 有圖像的方差,S是聚類類別的預設個數; 根據下面的目標函數J(3)
QJa 計算·?(β)的梯度按照梯度下降法得到參數向量的估計值為,…,為)Γβ
【文檔編號】G06F17/30GK104317912SQ201410588442
【公開日】2015年1月28日 申請日期:2014年10月28日 優先權日:2014年10月28日
【發明者】金聰, 金樞煒 申請人:華中師範大學