一種基於深度神經網絡的跨媒體排序方法
2023-05-18 23:01:56 2
一種基於深度神經網絡的跨媒體排序方法
【專利摘要】本發明公開了一種基於深度神經網絡的跨媒體排序方法。包括如下步驟:1)將文本檢索圖像的排序樣本或圖像檢索文本的排序樣本構建為訓練樣本;2)對構建得到的訓練樣本進行基於深度神經網絡的跨媒體排序學習,得到多媒體語義空間以及跨媒體排序模型;3)使用學習得到的跨媒體排序模型進行跨媒體檢索。本發明由於使用了跨媒體排序數據驅動的深度神經網絡,因此得到的檢索模型的語義理解能力更強,在圖像檢索文本或文本檢索圖像中所取得性能較傳統的淺層模型方法更好。
【專利說明】-種基於深度神經網絡的跨媒體排序方法
【技術領域】
[0001] 本發明涉及跨媒體檢索,尤其涉及一種基於深度神經網絡的跨媒體排序方法。
【背景技術】
[0002] 圖像具有豐富語義。一般來說,圖像由一個個的像素點組成,計算機並不能直接理 解圖像所蘊含的語義信息。隨著多媒體技術和網絡技術的發展,越來越多的圖像湧現出來。 檢索技術可以幫助用戶從海量數據中快速查找到自己感興趣的內容,成為計算機應用技術 中越來越重要的領域。傳統的檢索技術,無論是基於關鍵詞的檢索還是基於內容的檢索,都 不能很好地滿足用戶希望用文本檢索圖像或者圖像檢索文本的需求。在基於關鍵詞的檢 索系統中,需要事先對圖像進行標註。但是目前存在的圖像數量巨大,使得標註過程工程 量浩繁。並且,由於標註內容不可避免地會受到標註者主觀因素的影響,針對同一個圖像, 不同的標註者可能會標註不同的關鍵詞,因此關鍵詞往往不能客觀反映圖像所蘊含的全部 語義。基於內容的圖像檢索技術則不需要對圖像進行標註,基於比較用戶提交的檢索樣例 與被檢索圖像之間的相似度來實現圖像檢索,但是傳統基於內容的圖像檢索技術存在兩個 弱點:一是用戶只能檢索與查詢例子屬於同一類型的媒體對象,如只能通過圖像檢索圖像; 二是圖像的底層特徵和高層語義存在語義鴻溝,即底層特徵無法直接反映高層語義,因此 檢索性能受到限制。為了跨越不同模態數據間的語義鴻溝,更好地理解多媒體語義,同時為 了滿足用戶跨媒體查詢的需求,尋求一種基於語義的跨媒體排序方法頗有意義。
【發明內容】
[0003] 本發明的目的是克服現有技術的不足,提供一種基於深度神經網絡的跨媒體排序 方法。
[0004] 基於深度神經網絡的跨媒體排序方法包括如下步驟:
[0005] 1)將文本檢索圖像的排序樣本或者圖像檢索文本的排序樣本構建為訓練樣本;
[0006] 2)對構建得到的訓練樣本進行基於深度神經網絡的跨媒體排序學習,得到多媒體 語義空間以及跨媒體排序模型;
[0007] 3)使用學習得到的跨媒體排序模型進行跨媒體檢索:用戶提交查詢文檔後,將查 詢文檔和候選文檔同時輸入到所提出的深度神經網絡中,根據深度神經網絡輸出的排序分 數從大到小對所有跨媒體對象進行排序,得到跨媒體檢索結果。所述的步驟1)包括:
[0008] 1)對訓練樣本裡的所有文本文檔利用詞袋模型進行特徵表達,文本最終被表示為 t G Rm,其中m為文本空間的維數;
[0009] 2)將訓練樣本裡的所有圖像文檔縮放,使具有相同的寬度w和高度h,使用每個 像素點的RGB通道值來表示每個像素,將所有像素拉成一個向量,則圖像最終被表示為 p G R3xwxh ;
[0010] 3)對文本檢索圖像方向而言,對每一個查詢文本文檔,構建一個候選圖像文檔的 排序列表,其中列表中的圖像被標記為查詢語義相關或者語義不相關,因此每個文本檢索 圖像的訓練樣本被表示為三元組Pi,y丨)j e {1,...,況},其中N為訓練樣本個數,ti為檢索 文本,Pi為圖像集合,W y是圖像集合上的排序,y表示整個排序空間;
[0011] 4)對圖像檢索文本方向而言,對每一個查詢文檔(圖像),構建一個候選文本文檔 的排序列表,其中列表中的文本文檔被標記為查詢語義相關或者語義不相關,每個圖像檢 索文本的訓練樣本被表示為三元組feA,e {^ +^+M},M為訓練樣本個數,Pj 為檢索圖像,h是文本文檔集合,;y) e y是文本文檔集合上的排序。
[0012] 所述的步驟2)包括:
[0013] 1)使用深度結構語義網絡對文本進行建模,對每個文本,深度結構語義網絡頂層 輸出一個k維的向量;
[0014] 2)使用深度卷積網絡對圖像進行建模,對每個圖像,深度卷積網絡頂層輸出一個 k維的向量;
[0015] 3)對候選文檔所對應的深度神經網絡,在原頂層之後添加僅有一個節點的排序分 數層作為新的頂層,其中連接排序分數層和原頂層的權重參數被設置為查詢文檔對應深度 神經網絡所輸出的k維向量;
[0016] 4)構建一個目標函數,使得神經網絡輸出的候選文檔集合的排序和訓練集合中 的排序一致,對第i個訓練樣本定義的損失函數為:
【權利要求】
1. 一種基於深度神經網絡的跨媒體排序方法,其特徵在於包括如下步驟: 1) 將文本檢索圖像的排序樣本或者圖像檢索文本的排序樣本構建為訓練樣本; 2) 對構建得到的訓練樣本進行基於深度神經網絡的跨媒體排序學習,得到多媒體語義 空間以及跨媒體排序模型; 3) 使用學習得到的跨媒體排序模型進行跨媒體檢索:用戶提交查詢文檔後,將查詢文 檔和候選文檔同時輸入到所提出的深度神經網絡中,根據深度神經網絡輸出的排序分數從 大到小對所有跨媒體對象進行排序,得到跨媒體檢索結果。
2. 根據權利要求1所述的一種基於深度神經網絡的跨媒體排序方法,其特徵在於,所 述的步驟1)包括: 1) 對訓練樣本裡的所有文本文檔利用詞袋模型進行特徵表達,文本最終被表示為 teΓ,其中m為文本空間的維數; 2) 將訓練樣本裡的所有圖像文檔縮放,使具有相同的寬度ω和高度h,使用每個 像素點的RGB通道值來表示每個像素,將所有像素拉成一個向量,則圖像最終被表示為 PeR3xwxh5 3) 對文本檢索圖像方向而言,對每一個查詢文本文檔,構建一個候選圖像文檔的排序 列表,其中列表中的圖像被標記為查詢語義相關或者語義不相關,因此每個文本檢索圖像 的訓練樣本被表示為三元組(t,Pi,y〖),《e{i,...,iV},其中N為訓練樣本個數,&為檢索文 本,Pi為圖像集合,WG夂是圖像集合上的排序,y表示整個排序空間; 4) 對圖像檢索文本方向而言,對每一個查詢文檔(圖像),構建一個候選文本文檔的排 序列表,其中列表中的文本文檔被標記為查詢語義相關或者語義不相關,每個圖像檢索文 本的訓練樣本被表示為三元組(?:Vd)e{iV+1,…,iV+M},M為訓練樣本個數,Pj為 檢索圖像,h是文本文檔集合,y]ey是文本文檔集合上的排序。
3. 根據權利要求1所述的一種基於深度神經網絡的跨媒體排序方法,其特徵在於,所 述的步驟2)包括: 1) 使用深度結構語義網絡對文本進行建模,對每個文本,深度結構語義網絡頂層輸出 一個k維的向量; 2) 使用深度卷積網絡對圖像進行建模,對每個圖像,深度卷積網絡頂層輸出一個k維 的向量; 3) 對候選文檔所對應的深度神經網絡,在原頂層之後添加僅有一個節點的排序分數層 作為新的頂層,其中連接排序分數層和原頂層的權重參數被設置為查詢文檔對應深度神經 網絡所輸出的k維向量; 4) 構建一個目標函數,使得神經網絡輸出的候選文檔集合的排序和訓練集合中的排 序一致,對第i個訓練樣本定義的損失函數為:
其中,η⑴是第i個訓練樣本中候選文檔的個數,y(i) = ,2/%)和 = (zf], ...,分別是訓練集中的排序分數列表、深度神經網絡輸出的排序 分數列表,以及
5)輸入排序樣本作為優化問題的訓練樣本,根據損失函數對深度神經網絡進行反向回 饋以得到深度神經網絡的各層的參數,根據學習得到的深度神經網絡的參數,提取圖像文 檔和文本文檔在語義空間中的k維表達。
【文檔編號】G06F17/30GK104317834SQ201410531101
【公開日】2015年1月28日 申請日期:2014年10月10日 優先權日:2014年10月10日
【發明者】吳飛, 魯偉明, 盧鑫炎, 王東輝, 湯斯亮, 邵健, 莊越挺 申請人:浙江大學