新四季網

基於社群潛在主題挖掘的自動圖像標註的方法

2023-09-21 01:23:50 2

專利名稱:基於社群潛在主題挖掘的自動圖像標註的方法
技術領域:
本發明涉及圖像的自動標註領域,尤其涉及一種基於社會共享網絡的圖像自動標註的方法。
背景技術:
We隨著網絡和多媒體技術的迅猛發展,網際網路上的圖像數量呈爆炸性增長。據統計,2008年,Google己索引Web網頁規模達到1萬億,其中圖像數據超過幾十億張。近年來,共享網絡引起了網際網路用戶的特別關注,在提供數字圖像共享的大眾標註網站Flickr上,其索引的圖像已超過30億張,並以每月幾百萬張的速度快速增長。
網際網路用戶為Flickr圖像手工添加的圖像標籤信息為圖像的高效管理和檢索帶來了極大便利。但是,通過對Flickr圖像手工標註的結果進行深入分析發現,64%圖像的標籤均少於或等於3個。如何對大量無標籤或者標籤不足的圖像自動添加或完善其所具有標籤是當前研究的熱點問題。
與普通圖像不同,網際網路共享圖像具有如下幾個特點
.共享網絡圖像質量參差不齊,由不同用戶通過不同相機在不同時間從不同的角度或使用不同拍照技巧拍攝得到;
.共享網絡圖像內容豐富,Flickr圖像的標籤詞條已超過了 1億3千萬條,
涵蓋了6千多萬概念,囊括了風景、建築、人物肖像、活動剪輯等多樣的內容、事件和對象等等;
共享網絡圖像語義複雜, 一張圖像往往同時包含多個不同的主題信息,比如一張圖像可能既包含了"Sky"、 "Clouds,,等主題信息,同時也包含了"Water"、"River"等主題信息。
由於共享網絡圖像具有上述特點,因此難以使用傳統算法對其進行有效標註。深入分析Flickr上的共享圖像可發現一個顯著特徵當用戶根據時間、地點或者事件將圖像上傳到個人相冊後,會進一步根據圖像主題將其推薦到相應社群中去。Flickr中的社群是指包含某一特定主題的圖像集合,當用戶上傳不符合社群主題的圖像到社群上時,管理員會刪除這些無關圖像,這就保證了社群圖像主題上的一致性。因此,可利用圖像所在社群的主題信息對圖像進行標註。同時,針對某一社群主題又可進一步細分為多個子主題的事實,可對社群進行隱含主題挖掘,然後結合圖像視覺相似性最終取得更精細的標註結果。

發明內容
本發明的目的是克服現有技術的不足,提供一種基於社群潛在主題挖掘的自動圖像標註的方法。
基於社群潛在主題挖掘的自動圖像標註的方法包括如下步驟
1) 採用隱狄利克雷分配模型對單個社群裡的隱含主題進行挖掘;
2) 通過對社群潛在主題分析得到圖像標籤和隱含主題的概率分布後,刪除社群圖像標籤和隱含主題概率小於設定值A的圖像標籤來對社群圖像標籤進行"去噪"過濾;
3) 通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤;
4) 根據圖像候選標註標籤與圖像的隱含主題之間相關性對圖像候選標註標籤進行優化;
5) 通過多社群信息融合得到圖像最終標註結果。
所述的通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤的步驟對於社群中一張待標註圖像/ ,待標註圖像/ 和圖像標籤w之間的概率從以下的公式計算得到iWJ-SP^/J^-S/WW",^),其中屍(HJ)表示訓練圖像中圖像標籤W出現次數r屍(/,,|力表#〈待標註圖像/ 和訓練圖像J之間的視覺相似性,選取與待標註圖像4視覺相似性最高的10幅訓練圖像/所對應的圖像標籤w作為待標註圖像A的候選標註標籤,即/5 |/,,)值最大的IO個圖像標籤w作為待標註圖像/ 的圖像候選標註標籤。
所述的根據圖像候選標註標籤與圖像的隱含主題之間相關性對圖像候選標註標籤進行優化的步驟
1) 通過計算所有隱含主題中兩個圖像候選標註標籤之間概率乘積的和得到
圖像候選標註標籤W和W之間的隱含主題相似性,計算公式為
屍(Wl"卜iPKIz"')戶("j1w,hi^)/,其中0表示圖像標籤和隱含主題的概率分產i
布;
2) 通過計算圖像候選標註標籤和其它圖像候選標註標籤之間的隱含主題相關性之和得到圖像候選標註標籤w,.和待標註圖像/ 的隱含主題的相關性,計算
公式為Mw,,/,,)^^'"'""'',其中k)表示圖像候選標註標籤巧和W,之間的隱含主題相似性;
3) 重新計算圖像候選標註標籤^和待標註圖像的概率,計算公式為|/ ) = />~, |/,,)*11(1",/ ),其中/^|/ )表示待標註圖像/ 和圖像標籤W,.之間的概
率,11(^,,/,,)表示圖像候選標註標籤W,和待標註圖像/ 的隱含主題的相關性。所述的通過多社群信息融合對圖像進行最終的標註的步驟 1 )通過從每個社群的標題中選取在社群裡出現最頻繁的圖像標籤來代表社
群的主題,然後通過這個圖像標籤就在WordNet的"entity"語義樹中找到代表該 社群的節點,構成各個社群之間的層次相關性;
2) 通過各個社群之間的層次相關性,對各個社群從下到上依次通過融合對 圖像進行最終的標註,對於含有共同祖先節點的各個社群之間通過對各子節點 社群的標註信息求平均值得到一個新的父節點,刪除子節點,達到融合的目的;
3) 通過選取圖像候選標註標籤前5個值得到待標註圖像的最終標註結果。 本發明充分利用了圖像所在的不同的社群的信息,以及利用社群所在的潛
在主題信息來對標註標籤進行"去噪"和優化,因此比傳統的標註方法所標註的結
果更準確,標註信息也更加廣泛。


圖1是基於社群潛在主題挖掘的自動圖像標註的方法流程圖。 圖2是本發明的自動圖像標註結果。 圖3是隱狄利克雷分配模型。
具體實施例方式
基於社群潛在主題挖掘的自動圖像標註的方法包括如下步驟-1 )採用隱狄利克雷分配模型對單個社群裡的隱含主題進行挖掘;
2)通過對社群潛在主題分析得到圖像標籤和隱含主題的概率分布後,刪除 社群圖像標籤和隱含主題概率小於設定值A的圖像標籤來對社群圖像標籤進行 "去噪"過濾;
3)通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤;
4) 根據圖像候選標註標籤與圖像的隱含主題之間相關性對圖像候選標註標 籤進行優化;
5)通過多社群信息融合得到圖像最終標註結果。
所述的採用隱狄利克雷分配模型對單個社群裡的隱含主題進行挖掘的步驟 如下
1) 隱狄利克雷分配模型常用來對文本進行主題分析;隱狄利克雷分配模型 (如圖3)中圖像(文檔)&隱含主題z、圖像標籤w之間關係主要由隱含變
量0和^決定,其中e表示圖像c/主題分布,A為主題z標籤分布,cc、》為隱
含變量隊^的先驗概率。先驗概率cu ^服從狄利克雷分布,r為社群主題總
數,Z)為社群圖像總數,A^為每個圖像標記標籤總數;
2) 由於直接計算圖像集中隱含主題z與圖像d和圖像標籤W之間的概率比較複雜,通常採用Gibbs採樣來簡化LDA模型計算;對於第/個圖像標籤token, 該token的圖像標籤索引為w, token所對應圖像索引為《,Gibbs採樣輪流地考 慮每一個圖像標籤token,通過計算其它token被賦給每一個主題的次數,來估 計當前token被賦給哪一個主題。在這個過程中,主題被循環採樣,主題條件概 率為
~, = JI 《w "〃V - ( 1 )
其中,z產y表示主題/被賦值給token /, ^表示除了 token z'之外地其它圖像標籤 token的主題分配,","表示其他的所有己知信息,比如所有其它圖像標籤索引
w.,,圖像索引".,以及先驗概率a、 A。 c^與c^分別是大小為『*r、 i^r維數
矩陣。C,^'表示圖像標籤W被賦給主題_/的次數,CJ表示圖像"裡面的圖像標籤 被賦給主題j'的次數(不包括當前標籤token 0;
3)在每次Gibbs採樣中,圖像集裡所有圖像標籤都被賦給某一個主題。當 Gibbs採樣被迭代足夠次數後,主題概率就逼近於先驗狄利克雷分布。Gibbs釆 樣結束之後,就得到了需要求解的標籤一主題分布-以及主題一圖像《分布, 主題條件概率為
其中c:表示圖像標籤W被賦給主題7'的次數,《J表示圖像J裡面的圖像標籤被
賦給主題乂的次數,『表示圖像標籤的數目,r表示主題的數目,a、"表示先 驗概率。
所述的通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤的步
驟對於社群中一張待標註圖像/ ,待標註圖像A和圖像標籤W之間的概率從 以下的公式計算得到P(w|/ ) = SP(w,/,, I /) = ZPOI /)/>(/,, I /),其中P(H■/)表示訓練 圖像/中圖像標籤w出現次數r P(/ l乃表宗'待標註圖像/ 和訓練圖像J之間的
視覺相似性,選取與待標註圖像/"視覺相似性最高的10幅訓練圖像/所對應的
圖像標籤w作為待標註圖像4的候選標註標籤,即P(叫/,')值最大的IO個圖像標
籤w作為待標註圖像/ 的圖像候選標註標籤。
所述的根據圖像候選標註標籤與圖像的隱含主題之間相關性對圖像候選標 註標籤進行優化的步驟-
1)通過計算所有隱含主題中兩個圖像候選標註標籤之間概率乘積的和得到圖像候選標註標籤W和VV,之間的隱含主題相似性,計算公式為
/^k,)=ip(W4|Z"')p(z">,)=i>M',其中^表示圖像標籤和隱含主題的概率分
布;
2) 通過計算圖像候選標註標籤和其它圖像候選標註標籤之間的隱含主題相 關性之和得到圖像候選標註標籤vu,和待標註圖像/ 的隱含主題的相關性,計算 公式為W(w,,/ ) = e' ",其中戶(、"lw,)表示圖像候選標註標籤W和W,之間的隱 含主題相似性;
3) 重新計算圖像候選標註標籤W,和待標註圖像/2,的概率,計算公式為 |/ ) = P(w, |/,,)*R(w,,/,,),其中戶(VP'K)表示待標註圖像和圖像標籤W,之間的概
率,R(w,,"表示圖像候選標註標籤VV,和待標註圖像的隱含主題的相關性。 所述的通過多社群信息融合對圖像進行最終的標註的步驟
1) 通過從每個社群的標題中選取在社群裡出現最頻繁的圖像標籤來代表社
群的主題,然後通過這個圖像標籤就在WordNet的"entity"語義樹中找到代表該 社群的節點,構成各個社群之間的層次相關性;
2) 通過各個社群之間的層次相關性,對各個社群從下到上依次通過融合對 圖像進行最終的標註,對於含有共同祖先節點的各個社群之間通過對各子節點 社群的標註信息求平均值得到一個新的父節點,刪除子節點,達到融合的目的;
3) 通過選取圖像候選標註標籤前5個值得到待標註圖像的最終標註結果。 本發明充分利用了社會共享網絡中圖像所在不同社群的信息,以及利用社
群所在潛在主題信息來對標註標籤進行"去噪"和優化,因此比傳統標註方法產生 的標註結果更準確,標註信息也更加廣泛。
如圖1所示,基於社群潛在主題挖掘的自動圖像標註的方法具體說明如下
1) 對於一張待標註圖像,找到該圖像所在的N個不同社群;
2) 對每個社群利用隱狄利克雷分配模進行隱含主題挖掘;
3) 根據社群標籤與社群隱含主題的相關性對社群標籤進行"去噪"過濾;
4) 通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤;
5) 根據圖像候選標註標籤與圖像隱含主題之間相關性對圖像候選標註標籤 進行優化;
6) 通過多社群信息融合來對圖像進行標註;
7) 得到待標註圖像的最終圖像標註結果。 實施例1
圖2給出了基於社群潛在主題挖掘的自動圖像標註的一個具體例子。1) 選取一張待標註圖像,找到該圖像所在的3個不同社群社群l"Water, Oceans, Lakes, Rivers, Creeks"、社群2"Sky & Clouds"、社群3"Beautiful Scenery";
2) 對3個社群分別利用隱狄利克雷分配模進行隱含主題挖掘;
3) 根據社群標籤與社群隱含主題的相關性對3個社群標籤進行"去噪"過濾;
4) 通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤"river san water antonio bexar county courthouse blue clouds sea,,;
5) 根據候選標註標籤與圖像隱含主題之間相關性對候選標註標籤進行優化 得至U圖像候選標註標籤"river san water bexar blue courthouse antonio county clouds S6a,,;
6) 通過2個社群信息融合來得到圖像候選標註標籤"clouds river san sky water bexar blue courthouse antonio count";通過3個社群信息融合得到圖像候選 標註標籤"sky blue clouds river water san landscape bexar courthouse mountains"
7) 通過選取圖像候選標註標籤前5個值得到待標註圖像的最終圖像標註結 果"sky blue clouds river water"。
從上面的例子可以看到,與傳統的圖像標註方法不同的是,本發明充分利 用了社會共享網絡中圖像所在的不同的社群的信息,以及利用社群所在的潛在 主題信息來對標註標籤進行"去噪"和優化,因此比傳統的標註方法所產生的標註 結果更準確,標註信息也更加廣泛。
權利要求
1.一種基於社群潛在主題挖掘的自動圖像標註的方法,其特徵在於包括如下步驟1)採用隱狄利克雷分配模型對單個社群裡的隱含主題進行挖掘;2)通過對社群潛在主題分析得到圖像標籤和隱含主題的概率分布後,刪除社群圖像標籤和隱含主題概率小於設定值k的圖像標籤來對社群圖像標籤進行「去噪」過濾;3)通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤;4)根據圖像候選標註標籤與圖像的隱含主題之間相關性對圖像候選標註標籤進行優化;5)通過多社群信息融合得到圖像最終標註結果。
2. 根據權利要求1所述的一種基於社群潛在主題挖掘的自動圖像標註的方 法,其特徵在於,所述的通過相似圖像標籤傳播產生待標註圖像的圖像候選標 註標籤的步驟對於社群中一張待標註圖像/ ,待標註圖像/ 和圖像標籤W之 間的概率從以下的公式計算得到/^|/,,) = ^/^,/ |/) = ^/(叫《^(/,,1乃,其中 P(HJ)表示訓練圖像J中圖像標籤W出現次類0(/,, IJ)表g,寺標註圖像/ 和訓練 圖像J之間的視覺相似性,選取與待標註圖像/ 視覺相似性最高的IO幅訓練圖 像J所對應的圖像標籤w作為待標註圖像/M的候選標註標籤,即屍(—/ )值最大 的10個圖像標籤w作為待標註圖像/ 的圖像候選標註標籤。
3. 根據權利要求1所述的一種基於社群潛在主題挖掘的自動圖像標註的方 法,其特徵在於,所述的根據圖像候選標註標籤與圖像的隱含主題之間相關性對圖像候選標註標籤進行優化的步驟1) 通過計算所有隱含主題中兩個圖像候選標註標籤之間概率乘積的和得到 圖像候選標註標籤W和W/之間的隱含主題相似性,計算公式為屍(w k,)-i^Kiz"')/^"如.,其中^表示圖像標籤和隱含主題的概率分 布;2) 通過計算圖像候選標註標籤和其它圖像候選標註標籤之間的隱含主題相關性之和得到圖像候選標註標籤w和待標註圖像/ 的隱含主題的相關性,計算公式為Ww,,/,,)^^^,其中P(,liO表示圖像候選標註標籤巧和W,之間的隱 含主題相似性;3) 重新計算圖像候選標註標籤W,和待標註圖像的概率,計算公式為 戶>,|/,,) = />^|/,,)*1^(^/,,),其中/^|/ )表示待標註圖像_4和圖像標籤^之間的概率,11—,/ )表示圖像候選標註標籤W,和待標註圖像/ 的隱含主題的相關性。
4.根據權利要求1所述的一種基於社群潛在主題挖掘的自動圖像標註的方法,其特徵在於,所述的通過多社群信息融合對圖像進行最終的標註的步驟1 )通過從每個社群的標題中選取在社群裡出現最頻繁的圖像標籤來代表社群的主題,然後通過這個圖像標籤就在WordNet的"entity"語義樹中找到代表該社群的節點,構成各個社群之間的層次相關性;2) 通過各個社群之間的層次相關性,對各個社群從下到上依次通過融合對 圖像進行最終的標註,對於含有共同祖先節點的各個社群之間通過對各子節點 社群的標註信息求平均值得到一個新的父節點,刪除子節點,達到融合的目的;3) 通過選取圖像候選標註標籤前5個值得到待標註圖像的最終標註結果。
全文摘要
本發明公開了一種基於社群潛在主題挖掘的自動圖像標註的方法。包括如下步驟1)採用隱狄利克雷分配模型對單個社群裡的隱含主題進行挖掘;2)通過對社群潛在主題分析得到圖像標籤和隱含主題的概率分布後,刪除社群圖像標籤和隱含主題概率小於設定值k的圖像標籤來對社群圖像標籤進行「去噪」過濾;3)通過相似圖像標籤傳播產生待標註圖像的圖像候選標註標籤;4)根據圖像候選標註標籤與圖像的隱含主題之間相關性對圖像候選標註標籤進行優化;5)通過多社群信息融合得到圖像最終標註結果。本發明充分利用了社會共享網絡中圖像所在不同社群的信息以及社群潛在主題信息來對圖像進行標註,比傳統標註方法產生的標註結果更準確。
文檔編號G06F17/30GK101685464SQ20091009991
公開日2010年3月31日 申請日期2009年6月18日 優先權日2009年6月18日
發明者飛 吳, 莊越挺, 科 朱, 健 邵, 燁 陳 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀