基於逐層標籤融合深度網絡的圖像標註方法
2023-07-12 12:28:56 4
基於逐層標籤融合深度網絡的圖像標註方法
【專利摘要】本發明公開了一種基於逐層標籤融合深度網絡的圖像標註方法,該方法包括以下步驟:對於訓練集中的訓練圖像,提取其底層視覺特徵;對於訓練圖像的標籤進行層級化,構建標籤的層級結構;對於訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到訓練圖像的層級特徵表示;對於測試集中的測試圖像,提取其底層視覺特徵,然後通過深度網絡學習得到其層級特徵表示,最後根據測試圖像的層級特徵表示預測其標註信息本發明所述的圖像標註方法屬於一種層級的標註,比傳統的標註方法更加精確。
【專利說明】基於逐層標籤融合深度網絡的圖像標註方法
【技術領域】
[0001]本發明涉及社交網絡圖像標註【技術領域】,尤其涉及一種基於逐層標籤融合深度網絡的圖像標註方法。
【背景技術】
[0002]近年來,隨著社交媒體的不斷發展,社交平臺上的圖像數量呈爆炸式增長,如何對海量的社交圖像進行標註成為網絡多媒體領域重要的研究內容。
[0003]目前主流的圖像標註方法主要集中在基於視覺信息的方法,該類方法首先進行底層特徵提取,然後利用機器學習模型來對基於特徵表示的圖像進行分類。該類方法在一定程度上取得了較好的效果,然而由於僅利用視覺信息而忽視了其上下文的文本信息,其效果仍不夠理想。
[0004]圖像標註的核心在於利用圖像相關的信息(包括視覺,上下文文本標籤信息等)進行圖像內容的理解,融合圖像的標籤信息和視覺信息,得到更加有表達能力的圖像特徵,對圖像標註,特別是社交圖像有重要的促進作用。然而,視覺特徵和文本標籤信息的異構性,給兩類信息的融合帶來了挑戰,本發明提出的基於逐層標籤融合深度網絡的圖像標註方法逐層地融合兩類信息,解決了異構信息融合的難題,對於社交圖像標註有著重要的作用。
【發明內容】
[0005]為了解決現有技術中存在的上述問題,本發明提出了一種基於逐層標籤融合深度網絡的圖像標註方法。
[0006]本發明提出的一種基於逐層標籤融合深度網絡的圖像標註方法包括以下步驟:
[0007]步驟1、對於訓練集中的訓練圖像,提取其底層視覺特徵X ;
[0008]步驟2、對於所述訓練圖像的標籤進行層級化,構建標籤的層級結構;
[0009]步驟3、對於所述訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵表示;
[0010]步驟4、對於測試集中的測試圖像,提取其底層視覺特徵,然後通過所述深度網絡學習得到其層級特徵表示,最後根據所述測試圖像的層級特徵表示預測其標註信息。
[0011]網際網路圖像標註在很多重要的相關領域已經有了廣泛的應用。由於視覺頂層信息與高層語義之間的語義鴻溝的存在,基於視覺的圖像標註是一個具有挑戰性的難題。本發明提出的上述基於逐層標籤融合深度網絡的圖像標註的方法能夠自動對社交圖像進行標註,另外本發明層級的標註方法比傳統的標註方法更加精確。
【專利附圖】
【附圖說明】
[0012]圖1是根據本發明一實施例的基於逐層標籤融合深度網絡的圖像標註方法的流程圖;[0013]圖2是標籤層級示例圖;
[0014]圖3是根據本發明一實施例的逐層特徵融合深度網絡的模型結構圖。
【具體實施方式】
[0015]為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,並參照附圖,對本發明進一步詳細說明。
[0016]本發明所提出的方法所涉及的相關數據集包括:1)訓練集,其中包括圖像以及該圖像所對應的社交標籤;2)測試集,僅包括待標註的測試圖像,而沒有標籤信息。
[0017]考慮到圖像底層視覺信息和社交標籤信息的異構性,本發明提出了一種基於逐層標籤融合深度網絡的圖像標註方法。該方法的核心思想是在深度網絡的框架下,逐層地進行標籤信息和視覺信息的融合,從而學習圖像的層級特徵,為圖像的標註提供特徵表示。
[0018]圖1示出了本發明提出的基於逐層標籤融合深度網絡的圖像標註方法流程圖,如圖1所示,所述方法包括:
[0019]步驟1、對於訓練集中的訓練圖像,提取其底層視覺特徵;
[0020]步驟2、對於所述訓練圖像的標籤進行層級化,構建標籤的層級結構;
[0021]步驟3、對於所述訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵表示;
[0022]步驟4、對於測試集中的測試圖像,提取其底層視覺特徵,然後通過所述深度網絡學習得到其層級特徵表示,最後根據所述測試圖像的層級特徵表示預測其標註信息。
[0023]下面詳細介紹上述四個步驟的具體執行過程。
[0024]步驟I中,對象的底層視覺特徵提取是得到對象的初始表示,對於圖像信息,本發明優選採用尺度不變特徵變換特徵(SIFT)(比如1000維)作為圖像的底層視覺特徵,圖像的底層視覺特徵用X來表示。
[0025]步驟2中,利用一些可以用的工具,本發明優選WordNet,對於圖像的社交標籤構建層數為K的標籤層級。比如:若某圖像帶有標籤animal, plant, cat, dog, flower,則對應的標籤層級如圖2所示(此處層數為2)。
[0026]所述步驟3為對於訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵。
[0027]步驟3中,構建層數為L(L>K)的深度網絡,並使標籤層級結構的K層對應深度網絡的最高層。設深度網絡各層的變量表示為h={h (°),...,ha)},其中,h(°)表示圖像的底層視覺特徵X ;K層的標籤層級結構對應的各個層的變量表示為y={ya_K+1),...,y(L)}。
[0028]該步驟是本發明的重要部分,圖3是根據本發明一實施例的逐層特徵融合深度網絡的模型結構圖,參照圖3,所述步驟3可以分為以下幾個子步驟:
[0029]步驟3.1:通過構建自編碼器(auto-encoder),基於重構誤差對於深度網絡中從h?層到ha_K+1)層的參數進行初步調整;
[0030]所述步驟3.1進一步包括以下步驟:
[0031]步驟3.1.1:/Ah(0)層向上到ha_K+1)層,在每相鄰兩層之間構建一個自編碼器,通過所述自編碼器可由下一層的表示得到上一層表示的映射;
[0032]比如,基於hM和h(1)層之間的自編碼器,由層的表示可映射得到h(1)層的表不:
[0033]
【權利要求】
1.一種基於逐層標籤融合深度網絡的圖像標註方法,其特徵在於,該方法包括以下步驟: 步驟1、對於訓練集中的訓練圖像,提取其底層視覺特徵X ; 步驟2、對於所述訓練圖像的標籤進行層級化,構建標籤的層級結構; 步驟3、對於所述訓練圖像,逐層融合其底層視覺特徵信息和標籤信息,並通過深度網絡參數學習,得到所述訓練圖像的層級特徵表示; 步驟4、對於測試集中的測試圖像,提取其底層視覺特徵,然後通過所述深度網絡學習得到其層級特徵表示,最後根據所述測試圖像的層級特徵表示預測其標註信息。
2.根據權利要求1所述的方法,其特徵在於,所述訓練圖像的底層視覺特徵為其尺度不變特徵變換特徵。
3.根據權利要求1所述的方法,其特徵在於,所述深度網絡的層數為L,標籤層級結構的層數為K,其中,L>K,所述深度網絡各層的變量表示為h={h(°),...,ha)},其中,h(°)表示圖像的底層視覺特徵X ;所述標籤層級結構對應各層的變量表示為y={ya_K+1),...,y(L)}。
4.根據權利要求3所述的方法,其特徵在於,所述步驟3包括以下步驟: 步驟3.1:通過構建 自編碼器,基於重構誤差對於深度網絡中從h(°)層到ha_K+1)層的參數進行初步調整; 步驟3.2:對於所述深度網絡中的ha_K+1)層到最高11(1)層,結合深度網絡中的某一層,比如ha)層和標籤層級結構中的相應層,比如y(1)層,進行特徵融合以及所述深度網絡中相應參數的調整。
5.根據權利要求4所述的方法,其特徵在於,所述步驟3.1進一步包括以下步驟: 步驟3.1.1:從h(°)層向上到ha_K+1)層,在每相鄰兩層之間構建一個自編碼器,通過所述自編碼器可由下一層的表示得到上一層表示的映射; 步驟3.1.2:由上一層表示映射回來得到下一層的重構表示; 步驟3.1.3:根據正確表示與重構表示之間的差錯,對於所述深度網絡的參數進行調整,直到h(L-K+1)層。
6.根據權利要求5所述的方法,其特徵在於,所述步驟3.1.3中,使用最小化重構交叉熵來對所述深度網絡的參數進行調整。
7.根據權利要求4所述的方法,其特徵在於,所述步驟3.2進一步包括以下步驟: 步驟3.2.1:利用所述標籤層級結構中的某一層y(1)標籤調整所述深度網絡中從h(tl)到h(1)層的參數; 步驟3.2.2:通過h(1)層和ya)層表示合併學習得到ha+1)層的特徵表示,並對所述深度網絡的相應參數進行調整,直至ha)層。
8.根據權利要求7所述的方法,其特徵在於,所述步驟3.2.1和步驟3.2.2中,基於交叉熵損失,利用後向傳播算法對於所述深度網絡進行參數調整。
9.根據權利要求7所述的方法,其特徵在於,所述步驟3.2.2中,將h(1)層和ya)層的表不合併起來,與ha+1)層的表不構成一個自編碼器。
10.根據權利要求1所述的方法,其特徵在於,所述步驟4進一步包括以下步驟: 步驟4.1:對於測試圖像提取其底層視覺特徵; 步驟4.2:利用所述深度網絡,得到所述測試圖像底層視覺特徵的層級特徵表示;步驟4.3: 利用所述測試圖像的層級特徵表示預測所述測試圖像的標籤信息。
【文檔編號】G06F17/30GK104021224SQ201410290316
【公開日】2014年9月3日 申請日期:2014年6月25日 優先權日:2014年6月25日
【發明者】徐常勝, 袁召全, 桑基韜 申請人:中國科學院自動化研究所