新四季網

一種使用深層結構獲取雙模態相似性測度的方法

2023-08-01 21:32:51

一種使用深層結構獲取雙模態相似性測度的方法
【專利摘要】本發明提出了一種使用深層結構獲取雙模態相似性測度的方法,該方法包括:第一模態原始數據使用經典特徵提取方法獲取第一模態的低級表達P1,第二模態原始數據使用經典特徵提取方法獲取第二模態的低級表達T1,P1為n維向量,T1為l維向量;第一模態的低級表達P1通過堆疊的兩層受限波爾茲曼機獲得中級表達P3;第二模態的低級表達T1通過堆疊的兩層受限波爾茲曼機獲得中級表達T3;所述第一模態的中級表達P3與第二模態的中級表達T3分別使用自動編碼器進行編碼,編碼後第一模態表示為P4,第二模態表示為T4,所述P4與T4為相同維數的向量,計算P4與T4的相似性測度。
【專利說明】一種使用深層結構獲取雙模態相似性測度的方法
【技術領域】
[0001]本發明涉及多媒體檢索技術,特別是一種使用深層結構獲取雙模態相似性測度的方法。
【背景技術】
[0002]隨著大規模計算與大數據的存儲成為可能,多模態數據的學習與挖掘逐漸成為人們研究的熱點。一方面,信息本身來源於多個模態,例如,網絡上分享的旅行照片通常有些標記詞彙,即照片包含了圖像模態與文本模態的信息。另一方面,挖掘多源的異質數據有助於利用不同模態的信息,比如,說話人的關節和肌肉的運動通常有助於消除相似的發音引起的語音歧義。
[0003]通常情況下,對於多模態數據的研究可以轉化為對多個雙模態數據的研究,這樣從一定程度上可以降低直接研究多模態數據的複雜度,此前已有一些學習雙模態數據的方法,其中包括,擴展潛在狄利克雷分派(LDA,Latent Dirichlet Allocation)模型,挖掘了圖像和文本標籤在主題級上的關係;建立圖像和文本的聯合模型,可以認為是LDA模型的無向圖擴展;還有馬爾科夫隨機場(MRF, Markov Random Field)和LDA結合的模型。但是,以上三種模型只包含單個隱藏層,對於比較複雜的雙模態數據則無法獲得有效的表達。
[0004]源於人腦的深層和分布式結構提出的深度學習試圖學習獲得層次化的、有效的表達,便於為後續的各種識別和挖掘提供更好的基礎。在很短的發展中,深度學習在建模和挖掘單模態數據,如語音識別和計算機視覺等方面已經取得了矚目的成就。
[0005]受到深度學習的啟發,一種使用深層的自編碼器完成視覺與語音的融合任務的模型,提出了視頻和語音兩個模態數據的共同表示,即提取兩種模態中的共同成分;還有一種生成模型的深層波爾茲曼機,提出學習圖像和文本的共同表示。但是這兩個模型都是期望獲得不同模態數據的共同成分表示,主要集中於跨模態的檢索,而不是計算他們之間的相似度;而基於雙胞胎自編碼器的框架,將多個模態融合到單一的表示空間,雖然可以完成多模態數據之間相似度的計算,但是這個框架只能用於有標記的數據,對於沒有標記的數據則無法實現相似度的計算。

【發明內容】

[0006]有鑑於此,本發明提供了一種使用深層結構獲取雙模態相似性測度的方法,應用深度學習框架,解決雙模態數據的相似性測度計量問題。本發明提出的技術方案是:
[0007]—種使用深層結構獲取雙模態相似性測度的方法,該方法包括:
[0008]第一模態原始數據使用經典特徵提取方法獲取第一模態的低級表達Pl,第二模態原始數據使用經典特徵提取方法獲取第二模態的低級表達Tl,其中,Pl為η維向量,Tl為I維向量;
[0009]第一模態的低級表達Pl通過堆疊的兩層受限波爾茲曼機獲得中級表達Ρ3,所述Ρ3為s維二元向量;[0010]第二模態的低級表達Tl通過堆疊的兩層受限波爾茲曼機獲得中級表達T3,所述Τ3為s維二元向量;
[0011]所述第一模態的中級表達Ρ3與第二模態的中級表達Τ3分別使用自動編碼器進行編碼,編碼後第一模態表示為Ρ4,第二模態表示為Τ4,所述Ρ4與Τ4為相同維數的向量,計算Ρ4與Τ4的相似性測度。
[0012]上述方案中,所述相似性測度計算方法進一步包括:
[0013]在編碼層通過公式C (Ρ3, Τ3; Wf,Wg) = | | f (P3; Wf) -g (T3; Wg) | 11計算第一模態與第二模態的相似性測度C,其中I卜II1SL1範數,f(P3;Wf) = P4,g(T3;ffg) =T4,Wf為第一模態由P3計算得到P4所配置的所有偏置和連接權值的集合,Wg為第二模態由T3計算得到T4所配置的所有偏置和連接權值的集合。
[0014]上述方案中,該方法進一步包括:
[0015]所述受限波爾茲曼機的配置參數包括可見層V神經單元Vi的偏置匕、隱藏層H神經單元Iij的偏置Cj以及可見層神經單元和隱藏層神經單元的連接權值Wij ;
[0016]所述配置參數為令可見層V和隱藏層H神經單元的聯合概率分布P (v, h)最大的
數值,其中
【權利要求】
1.一種使用深層結構獲取雙模態相似性測度的方法,其特徵在於,該方法包括: 第一模態原始數據使用經典特徵提取方法獲取第一模態的低級表達P1,第二模態原始數據使用經典特徵提取方法獲取第二模態的低級表達Tl,其中,Pl為η維向量,Tl為I維向量; 第一模態的低級表達Pl通過堆疊的兩層受限波爾茲曼機獲得中級表達Ρ3,所述Ρ3為s維二元向量; 第二模態的低級表達Tl通過堆疊的兩層受限波爾茲曼機獲得中級表達Τ3,所述Τ3為s維二元向量; 所述第一模態的中級表達Ρ3與第二模態的中級表達Τ3分別使用自動編碼器進行編碼,編碼後第一模態表示為Ρ4,第二模態表示為Τ4,所述Ρ4與Τ4為相同維數的向量,計算Ρ4與Τ4的相似性測度。
2.根據權利要求1所述的方法,其特徵在於,所述相似性測度計算方法進一步包括: 在編碼層通過公式(:(?3,13;1^18) = I f(P3;fff)-g(T3;ffg) I I工計算第一模態與第二模態的相似性測度C,其中M.II1SL1範數,f(P3;Wf) = P4,g(T3;ffg) =T4,Wf為第一模態由P3計算得到P4所配置的所有偏置和連接權值的集合,Wg為第二模態由T3計算得到T4所配置的所有偏置和連接權值的集合。
3.根據權利要求1所述 的方法,其特徵在於,該方法進一步包括: 所述受限波爾茲曼機的配置參數包括可見層V神經單元Vi的偏置匕、隱藏層H神經單元比的偏置Cj以及可見層神經單元和隱藏層神經單元的連接權值Wij ; 所述配置參數為令可見層V和隱藏層H神經單元的聯合概率分布P (v, h)最大的數值,其中
4.根據權利要求1所述的方法,其特徵在於,所述Wf與Wg的訓練算法進一步包括: 給定第一模態中級表達P3和第二模態中級表達T3,以及二元指標I,當訓練用的第一模態與第二模態確實是同一對象的不同模態描述時,I取值為1,反之,第一模態與第二模態不是同一對象的不同模態描述時,I取值為O ; 將權值集合Wf與Wg合併表示為Θ,則定義任何成對輸入的第一模態中級表達P3和第二模態中級表達T3的損失函數為:
L(P3,T3, I; Θ) = a (L1 (Ρ3; 0)+LT(T3; θ )) + (1-α ) LC(P3, T3, I; θ); 其中,
【文檔編號】G06N3/08GK103793507SQ201410039222
【公開日】2014年5月14日 申請日期:2014年1月26日 優先權日:2014年1月26日
【發明者】李睿凡, 魯鵬, 馮方向, 王小捷 申請人:北京郵電大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀