新四季網

一種基於深度神經網絡的跨媒體排序方法

2023-05-18 23:01:56 2

一種基於深度神經網絡的跨媒體排序方法
【專利摘要】本發明公開了一種基於深度神經網絡的跨媒體排序方法。包括如下步驟:1)將文本檢索圖像的排序樣本或圖像檢索文本的排序樣本構建為訓練樣本;2)對構建得到的訓練樣本進行基於深度神經網絡的跨媒體排序學習,得到多媒體語義空間以及跨媒體排序模型;3)使用學習得到的跨媒體排序模型進行跨媒體檢索。本發明由於使用了跨媒體排序數據驅動的深度神經網絡,因此得到的檢索模型的語義理解能力更強,在圖像檢索文本或文本檢索圖像中所取得性能較傳統的淺層模型方法更好。
【專利說明】-種基於深度神經網絡的跨媒體排序方法

【技術領域】
[0001] 本發明涉及跨媒體檢索,尤其涉及一種基於深度神經網絡的跨媒體排序方法。

【背景技術】
[0002] 圖像具有豐富語義。一般來說,圖像由一個個的像素點組成,計算機並不能直接理 解圖像所蘊含的語義信息。隨著多媒體技術和網絡技術的發展,越來越多的圖像湧現出來。 檢索技術可以幫助用戶從海量數據中快速查找到自己感興趣的內容,成為計算機應用技術 中越來越重要的領域。傳統的檢索技術,無論是基於關鍵詞的檢索還是基於內容的檢索,都 不能很好地滿足用戶希望用文本檢索圖像或者圖像檢索文本的需求。在基於關鍵詞的檢 索系統中,需要事先對圖像進行標註。但是目前存在的圖像數量巨大,使得標註過程工程 量浩繁。並且,由於標註內容不可避免地會受到標註者主觀因素的影響,針對同一個圖像, 不同的標註者可能會標註不同的關鍵詞,因此關鍵詞往往不能客觀反映圖像所蘊含的全部 語義。基於內容的圖像檢索技術則不需要對圖像進行標註,基於比較用戶提交的檢索樣例 與被檢索圖像之間的相似度來實現圖像檢索,但是傳統基於內容的圖像檢索技術存在兩個 弱點:一是用戶只能檢索與查詢例子屬於同一類型的媒體對象,如只能通過圖像檢索圖像; 二是圖像的底層特徵和高層語義存在語義鴻溝,即底層特徵無法直接反映高層語義,因此 檢索性能受到限制。為了跨越不同模態數據間的語義鴻溝,更好地理解多媒體語義,同時為 了滿足用戶跨媒體查詢的需求,尋求一種基於語義的跨媒體排序方法頗有意義。


【發明內容】

[0003] 本發明的目的是克服現有技術的不足,提供一種基於深度神經網絡的跨媒體排序 方法。
[0004] 基於深度神經網絡的跨媒體排序方法包括如下步驟:
[0005] 1)將文本檢索圖像的排序樣本或者圖像檢索文本的排序樣本構建為訓練樣本;
[0006] 2)對構建得到的訓練樣本進行基於深度神經網絡的跨媒體排序學習,得到多媒體 語義空間以及跨媒體排序模型;
[0007] 3)使用學習得到的跨媒體排序模型進行跨媒體檢索:用戶提交查詢文檔後,將查 詢文檔和候選文檔同時輸入到所提出的深度神經網絡中,根據深度神經網絡輸出的排序分 數從大到小對所有跨媒體對象進行排序,得到跨媒體檢索結果。所述的步驟1)包括:
[0008] 1)對訓練樣本裡的所有文本文檔利用詞袋模型進行特徵表達,文本最終被表示為 t G Rm,其中m為文本空間的維數;
[0009] 2)將訓練樣本裡的所有圖像文檔縮放,使具有相同的寬度w和高度h,使用每個 像素點的RGB通道值來表示每個像素,將所有像素拉成一個向量,則圖像最終被表示為 p G R3xwxh ;
[0010] 3)對文本檢索圖像方向而言,對每一個查詢文本文檔,構建一個候選圖像文檔的 排序列表,其中列表中的圖像被標記為查詢語義相關或者語義不相關,因此每個文本檢索 圖像的訓練樣本被表示為三元組Pi,y丨)j e {1,...,況},其中N為訓練樣本個數,ti為檢索 文本,Pi為圖像集合,W y是圖像集合上的排序,y表示整個排序空間;
[0011] 4)對圖像檢索文本方向而言,對每一個查詢文檔(圖像),構建一個候選文本文檔 的排序列表,其中列表中的文本文檔被標記為查詢語義相關或者語義不相關,每個圖像檢 索文本的訓練樣本被表示為三元組feA,e {^ +^+M},M為訓練樣本個數,Pj 為檢索圖像,h是文本文檔集合,;y) e y是文本文檔集合上的排序。
[0012] 所述的步驟2)包括:
[0013] 1)使用深度結構語義網絡對文本進行建模,對每個文本,深度結構語義網絡頂層 輸出一個k維的向量;
[0014] 2)使用深度卷積網絡對圖像進行建模,對每個圖像,深度卷積網絡頂層輸出一個 k維的向量;
[0015] 3)對候選文檔所對應的深度神經網絡,在原頂層之後添加僅有一個節點的排序分 數層作為新的頂層,其中連接排序分數層和原頂層的權重參數被設置為查詢文檔對應深度 神經網絡所輸出的k維向量;
[0016] 4)構建一個目標函數,使得神經網絡輸出的候選文檔集合的排序和訓練集合中 的排序一致,對第i個訓練樣本定義的損失函數為:

【權利要求】
1. 一種基於深度神經網絡的跨媒體排序方法,其特徵在於包括如下步驟: 1) 將文本檢索圖像的排序樣本或者圖像檢索文本的排序樣本構建為訓練樣本; 2) 對構建得到的訓練樣本進行基於深度神經網絡的跨媒體排序學習,得到多媒體語義 空間以及跨媒體排序模型; 3) 使用學習得到的跨媒體排序模型進行跨媒體檢索:用戶提交查詢文檔後,將查詢文 檔和候選文檔同時輸入到所提出的深度神經網絡中,根據深度神經網絡輸出的排序分數從 大到小對所有跨媒體對象進行排序,得到跨媒體檢索結果。
2. 根據權利要求1所述的一種基於深度神經網絡的跨媒體排序方法,其特徵在於,所 述的步驟1)包括: 1) 對訓練樣本裡的所有文本文檔利用詞袋模型進行特徵表達,文本最終被表示為 teΓ,其中m為文本空間的維數; 2) 將訓練樣本裡的所有圖像文檔縮放,使具有相同的寬度ω和高度h,使用每個 像素點的RGB通道值來表示每個像素,將所有像素拉成一個向量,則圖像最終被表示為 PeR3xwxh5 3) 對文本檢索圖像方向而言,對每一個查詢文本文檔,構建一個候選圖像文檔的排序 列表,其中列表中的圖像被標記為查詢語義相關或者語義不相關,因此每個文本檢索圖像 的訓練樣本被表示為三元組(t,Pi,y〖),《e{i,...,iV},其中N為訓練樣本個數,&為檢索文 本,Pi為圖像集合,WG夂是圖像集合上的排序,y表示整個排序空間; 4) 對圖像檢索文本方向而言,對每一個查詢文檔(圖像),構建一個候選文本文檔的排 序列表,其中列表中的文本文檔被標記為查詢語義相關或者語義不相關,每個圖像檢索文 本的訓練樣本被表示為三元組(?:Vd)e{iV+1,…,iV+M},M為訓練樣本個數,Pj為 檢索圖像,h是文本文檔集合,y]ey是文本文檔集合上的排序。
3. 根據權利要求1所述的一種基於深度神經網絡的跨媒體排序方法,其特徵在於,所 述的步驟2)包括: 1) 使用深度結構語義網絡對文本進行建模,對每個文本,深度結構語義網絡頂層輸出 一個k維的向量; 2) 使用深度卷積網絡對圖像進行建模,對每個圖像,深度卷積網絡頂層輸出一個k維 的向量; 3) 對候選文檔所對應的深度神經網絡,在原頂層之後添加僅有一個節點的排序分數層 作為新的頂層,其中連接排序分數層和原頂層的權重參數被設置為查詢文檔對應深度神經 網絡所輸出的k維向量; 4) 構建一個目標函數,使得神經網絡輸出的候選文檔集合的排序和訓練集合中的排 序一致,對第i個訓練樣本定義的損失函數為:
其中,η⑴是第i個訓練樣本中候選文檔的個數,y(i) = ,2/%)和 = (zf], ...,分別是訓練集中的排序分數列表、深度神經網絡輸出的排序 分數列表,以及
5)輸入排序樣本作為優化問題的訓練樣本,根據損失函數對深度神經網絡進行反向回 饋以得到深度神經網絡的各層的參數,根據學習得到的深度神經網絡的參數,提取圖像文 檔和文本文檔在語義空間中的k維表達。
【文檔編號】G06F17/30GK104317834SQ201410531101
【公開日】2015年1月28日 申請日期:2014年10月10日 優先權日:2014年10月10日
【發明者】吳飛, 魯偉明, 盧鑫炎, 王東輝, 湯斯亮, 邵健, 莊越挺 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀