新四季網

基於逐層標籤融合深度網絡的圖像標註方法

2023-07-12 12:28:56 2

基於逐層標籤融合深度網絡的圖像標註方法
【專利摘要】本發明公開了一種基於逐層標籤融合深度網絡的圖像標註方法,該方法包括以下步驟:對於訓練集中的訓練圖像,提取其底層視覺特徵;對於訓練圖像的標籤進行層級化,構建標籤的層級結構;對於訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到訓練圖像的層級特徵表示;對於測試集中的測試圖像,提取其底層視覺特徵,然後通過深度網絡學習得到其層級特徵表示,最後根據測試圖像的層級特徵表示預測其標註信息本發明所述的圖像標註方法屬於一種層級的標註,比傳統的標註方法更加精確。
【專利說明】基於逐層標籤融合深度網絡的圖像標註方法
【技術領域】
[0001]本發明涉及社交網絡圖像標註【技術領域】,尤其涉及一種基於逐層標籤融合深度網絡的圖像標註方法。
【背景技術】
[0002]近年來,隨著社交媒體的不斷發展,社交平臺上的圖像數量呈爆炸式增長,如何對海量的社交圖像進行標註成為網絡多媒體領域重要的研究內容。
[0003]目前主流的圖像標註方法主要集中在基於視覺信息的方法,該類方法首先進行底層特徵提取,然後利用機器學習模型來對基於特徵表示的圖像進行分類。該類方法在一定程度上取得了較好的效果,然而由於僅利用視覺信息而忽視了其上下文的文本信息,其效果仍不夠理想。
[0004]圖像標註的核心在於利用圖像相關的信息(包括視覺,上下文文本標籤信息等)進行圖像內容的理解,融合圖像的標籤信息和視覺信息,得到更加有表達能力的圖像特徵,對圖像標註,特別是社交圖像有重要的促進作用。然而,視覺特徵和文本標籤信息的異構性,給兩類信息的融合帶來了挑戰,本發明提出的基於逐層標籤融合深度網絡的圖像標註方法逐層地融合兩類信息,解決了異構信息融合的難題,對於社交圖像標註有著重要的作用。

【發明內容】

[0005]為了解決現有技術中存在的上述問題,本發明提出了一種基於逐層標籤融合深度網絡的圖像標註方法。
[0006]本發明提出的一種基於逐層標籤融合深度網絡的圖像標註方法包括以下步驟:
[0007]步驟1、對於訓練集中的訓練圖像,提取其底層視覺特徵X ;
[0008]步驟2、對於所述訓練圖像的標籤進行層級化,構建標籤的層級結構;
[0009]步驟3、對於所述訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵表示;
[0010]步驟4、對於測試集中的測試圖像,提取其底層視覺特徵,然後通過所述深度網絡學習得到其層級特徵表示,最後根據所述測試圖像的層級特徵表示預測其標註信息。
[0011]網際網路圖像標註在很多重要的相關領域已經有了廣泛的應用。由於視覺頂層信息與高層語義之間的語義鴻溝的存在,基於視覺的圖像標註是一個具有挑戰性的難題。本發明提出的上述基於逐層標籤融合深度網絡的圖像標註的方法能夠自動對社交圖像進行標註,另外本發明層級的標註方法比傳統的標註方法更加精確。
【專利附圖】

【附圖說明】
[0012]圖1是根據本發明一實施例的基於逐層標籤融合深度網絡的圖像標註方法的流程圖;[0013]圖2是標籤層級示例圖;
[0014]圖3是根據本發明一實施例的逐層特徵融合深度網絡的模型結構圖。
【具體實施方式】
[0015]為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,並參照附圖,對本發明進一步詳細說明。
[0016]本發明所提出的方法所涉及的相關數據集包括:1)訓練集,其中包括圖像以及該圖像所對應的社交標籤;2)測試集,僅包括待標註的測試圖像,而沒有標籤信息。
[0017]考慮到圖像底層視覺信息和社交標籤信息的異構性,本發明提出了一種基於逐層標籤融合深度網絡的圖像標註方法。該方法的核心思想是在深度網絡的框架下,逐層地進行標籤信息和視覺信息的融合,從而學習圖像的層級特徵,為圖像的標註提供特徵表示。
[0018]圖1示出了本發明提出的基於逐層標籤融合深度網絡的圖像標註方法流程圖,如圖1所示,所述方法包括:
[0019]步驟1、對於訓練集中的訓練圖像,提取其底層視覺特徵;
[0020]步驟2、對於所述訓練圖像的標籤進行層級化,構建標籤的層級結構;
[0021]步驟3、對於所述訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵表示;
[0022]步驟4、對於測試集中的測試圖像,提取其底層視覺特徵,然後通過所述深度網絡學習得到其層級特徵表示,最後根據所述測試圖像的層級特徵表示預測其標註信息。
[0023]下面詳細介紹上述四個步驟的具體執行過程。
[0024]步驟I中,對象的底層視覺特徵提取是得到對象的初始表示,對於圖像信息,本發明優選採用尺度不變特徵變換特徵(SIFT)(比如1000維)作為圖像的底層視覺特徵,圖像的底層視覺特徵用X來表示。
[0025]步驟2中,利用一些可以用的工具,本發明優選WordNet,對於圖像的社交標籤構建層數為K的標籤層級。比如:若某圖像帶有標籤animal, plant, cat, dog, flower,則對應的標籤層級如圖2所示(此處層數為2)。
[0026]所述步驟3為對於訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵。
[0027]步驟3中,構建層數為L(L>K)的深度網絡,並使標籤層級結構的K層對應深度網絡的最高層。設深度網絡各層的變量表示為h={h (°),...,ha)},其中,h(°)表示圖像的底層視覺特徵X ;K層的標籤層級結構對應的各個層的變量表示為y={ya_K+1),...,y(L)}。
[0028]該步驟是本發明的重要部分,圖3是根據本發明一實施例的逐層特徵融合深度網絡的模型結構圖,參照圖3,所述步驟3可以分為以下幾個子步驟:
[0029]步驟3.1:通過構建自編碼器(auto-encoder),基於重構誤差對於深度網絡中從h?層到ha_K+1)層的參數進行初步調整;
[0030]所述步驟3.1進一步包括以下步驟:
[0031]步驟3.1.1:/Ah(0)層向上到ha_K+1)層,在每相鄰兩層之間構建一個自編碼器,通過所述自編碼器可由下一層的表示得到上一層表示的映射;
[0032]比如,基於hM和h(1)層之間的自編碼器,由層的表示可映射得到h(1)層的表不:
[0033]
【權利要求】
1.一種基於逐層標籤融合深度網絡的圖像標註方法,其特徵在於,該方法包括以下步驟: 步驟1、對於訓練集中的訓練圖像,提取其底層視覺特徵X ; 步驟2、對於所述訓練圖像的標籤進行層級化,構建標籤的層級結構; 步驟3、對於所述訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵表示; 步驟4、對於測試集中的測試圖像,提取其底層視覺特徵,然後通過所述深度網絡學習得到其層級特徵表示,最後根據所述測試圖像的層級特徵表示預測其標註信息。
2.根據權利要求1所述的方法,其特徵在於,所述訓練圖像的底層視覺特徵為其尺度不變特徵變換特徵。
3.根據權利要求1所述的方法,其特徵在於,所述深度網絡的層數為L,標籤層級結構的層數為K,其中,L>K,所述深度網絡各層的變量表示為h={h(°),...,ha)},其中,h(°)表示圖像的底層視覺特徵X ;所述標籤層級結構對應各層的變量表示為y={ya_K+1),...,y(L)}。
4.根據權利要求3所述的方法,其特徵在於,所述步驟3包括以下步驟: 步驟3.1:通過構建 自編碼器,基於重構誤差對於深度網絡中從h(°)層到ha_K+1)層的參數進行初步調整; 步驟3.2:對於所述深度網絡中的ha_K+1)層到最高11(1)層,結合深度網絡中的某一層,比如ha)層和標籤層級結構中的相應層,比如y(1)層,進行特徵融合以及所述深度網絡中相應參數的調整。
5.根據權利要求4所述的方法,其特徵在於,所述步驟3.1進一步包括以下步驟: 步驟3.1.1:從h(°)層向上到ha_K+1)層,在每相鄰兩層之間構建一個自編碼器,通過所述自編碼器可由下一層的表示得到上一層表示的映射; 步驟3.1.2:由上一層表示映射回來得到下一層的重構表示; 步驟3.1.3:根據正確表示與重構表示之間的差錯,對於所述深度網絡的參數進行調整,直到h(L-K+1)層。
6.根據權利要求5所述的方法,其特徵在於,所述步驟3.1.3中,使用最小化重構交叉熵來對所述深度網絡的參數進行調整。
7.根據權利要求4所述的方法,其特徵在於,所述步驟3.2進一步包括以下步驟: 步驟3.2.1:利用所述標籤層級結構中的某一層y(1)標籤調整所述深度網絡中從h(tl)到h(1)層的參數; 步驟3.2.2:通過h(1)層和ya)層表示合併學習得到ha+1)層的特徵表示,並對所述深度網絡的相應參數進行調整,直至ha)層。
8.根據權利要求7所述的方法,其特徵在於,所述步驟3.2.1和步驟3.2.2中,基於交叉熵損失,利用後向傳播算法對於所述深度網絡進行參數調整。
9.根據權利要求7所述的方法,其特徵在於,所述步驟3.2.2中,將h(1)層和ya)層的表不合併起來,與ha+1)層的表不構成一個自編碼器。
10.根據權利要求1所述的方法,其特徵在於,所述步驟4進一步包括以下步驟: 步驟4.1:對於測試圖像提取其底層視覺特徵; 步驟4.2:利用所述深度網絡,得到所述測試圖像底層視覺特徵的層級特徵表示;步驟4.3: 利用所述測試圖像的層級特徵表示預測所述測試圖像的標籤信息。
【文檔編號】G06F17/30GK104021224SQ201410290316
【公開日】2014年9月3日 申請日期:2014年6月25日 優先權日:2014年6月25日
【發明者】徐常勝, 袁召全, 桑基韜 申請人:中國科學院自動化研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀