一種使用深層結構獲取雙模態相似性測度的方法
2023-08-01 21:32:51 2
一種使用深層結構獲取雙模態相似性測度的方法
【專利摘要】本發明提出了一種使用深層結構獲取雙模態相似性測度的方法,該方法包括:第一模態原始數據使用經典特徵提取方法獲取第一模態的低級表達P1,第二模態原始數據使用經典特徵提取方法獲取第二模態的低級表達T1,P1為n維向量,T1為l維向量;第一模態的低級表達P1通過堆疊的兩層受限波爾茲曼機獲得中級表達P3;第二模態的低級表達T1通過堆疊的兩層受限波爾茲曼機獲得中級表達T3;所述第一模態的中級表達P3與第二模態的中級表達T3分別使用自動編碼器進行編碼,編碼後第一模態表示為P4,第二模態表示為T4,所述P4與T4為相同維數的向量,計算P4與T4的相似性測度。
【專利說明】一種使用深層結構獲取雙模態相似性測度的方法
【技術領域】
[0001]本發明涉及多媒體檢索技術,特別是一種使用深層結構獲取雙模態相似性測度的方法。
【背景技術】
[0002]隨著大規模計算與大數據的存儲成為可能,多模態數據的學習與挖掘逐漸成為人們研究的熱點。一方面,信息本身來源於多個模態,例如,網絡上分享的旅行照片通常有些標記詞彙,即照片包含了圖像模態與文本模態的信息。另一方面,挖掘多源的異質數據有助於利用不同模態的信息,比如,說話人的關節和肌肉的運動通常有助於消除相似的發音引起的語音歧義。
[0003]通常情況下,對於多模態數據的研究可以轉化為對多個雙模態數據的研究,這樣從一定程度上可以降低直接研究多模態數據的複雜度,此前已有一些學習雙模態數據的方法,其中包括,擴展潛在狄利克雷分派(LDA,Latent Dirichlet Allocation)模型,挖掘了圖像和文本標籤在主題級上的關係;建立圖像和文本的聯合模型,可以認為是LDA模型的無向圖擴展;還有馬爾科夫隨機場(MRF, Markov Random Field)和LDA結合的模型。但是,以上三種模型只包含單個隱藏層,對於比較複雜的雙模態數據則無法獲得有效的表達。
[0004]源於人腦的深層和分布式結構提出的深度學習試圖學習獲得層次化的、有效的表達,便於為後續的各種識別和挖掘提供更好的基礎。在很短的發展中,深度學習在建模和挖掘單模態數據,如語音識別和計算機視覺等方面已經取得了矚目的成就。
[0005]受到深度學習的啟發,一種使用深層的自編碼器完成視覺與語音的融合任務的模型,提出了視頻和語音兩個模態數據的共同表示,即提取兩種模態中的共同成分;還有一種生成模型的深層波爾茲曼機,提出學習圖像和文本的共同表示。但是這兩個模型都是期望獲得不同模態數據的共同成分表示,主要集中於跨模態的檢索,而不是計算他們之間的相似度;而基於雙胞胎自編碼器的框架,將多個模態融合到單一的表示空間,雖然可以完成多模態數據之間相似度的計算,但是這個框架只能用於有標記的數據,對於沒有標記的數據則無法實現相似度的計算。
【發明內容】
[0006]有鑑於此,本發明提供了一種使用深層結構獲取雙模態相似性測度的方法,應用深度學習框架,解決雙模態數據的相似性測度計量問題。本發明提出的技術方案是:
[0007]—種使用深層結構獲取雙模態相似性測度的方法,該方法包括:
[0008]第一模態原始數據使用經典特徵提取方法獲取第一模態的低級表達Pl,第二模態原始數據使用經典特徵提取方法獲取第二模態的低級表達Tl,其中,Pl為η維向量,Tl為I維向量;
[0009]第一模態的低級表達Pl通過堆疊的兩層受限波爾茲曼機獲得中級表達Ρ3,所述Ρ3為s維二元向量;[0010]第二模態的低級表達Tl通過堆疊的兩層受限波爾茲曼機獲得中級表達T3,所述Τ3為s維二元向量;
[0011]所述第一模態的中級表達Ρ3與第二模態的中級表達Τ3分別使用自動編碼器進行編碼,編碼後第一模態表示為Ρ4,第二模態表示為Τ4,所述Ρ4與Τ4為相同維數的向量,計算Ρ4與Τ4的相似性測度。
[0012]上述方案中,所述相似性測度計算方法進一步包括:
[0013]在編碼層通過公式C (Ρ3, Τ3; Wf,Wg) = | | f (P3; Wf) -g (T3; Wg) | 11計算第一模態與第二模態的相似性測度C,其中I卜II1SL1範數,f(P3;Wf) = P4,g(T3;ffg) =T4,Wf為第一模態由P3計算得到P4所配置的所有偏置和連接權值的集合,Wg為第二模態由T3計算得到T4所配置的所有偏置和連接權值的集合。
[0014]上述方案中,該方法進一步包括:
[0015]所述受限波爾茲曼機的配置參數包括可見層V神經單元Vi的偏置匕、隱藏層H神經單元Iij的偏置Cj以及可見層神經單元和隱藏層神經單元的連接權值Wij ;
[0016]所述配置參數為令可見層V和隱藏層H神經單元的聯合概率分布P (v, h)最大的
數值,其中
【權利要求】
1.一種使用深層結構獲取雙模態相似性測度的方法,其特徵在於,該方法包括: 第一模態原始數據使用經典特徵提取方法獲取第一模態的低級表達P1,第二模態原始數據使用經典特徵提取方法獲取第二模態的低級表達Tl,其中,Pl為η維向量,Tl為I維向量; 第一模態的低級表達Pl通過堆疊的兩層受限波爾茲曼機獲得中級表達Ρ3,所述Ρ3為s維二元向量; 第二模態的低級表達Tl通過堆疊的兩層受限波爾茲曼機獲得中級表達Τ3,所述Τ3為s維二元向量; 所述第一模態的中級表達Ρ3與第二模態的中級表達Τ3分別使用自動編碼器進行編碼,編碼後第一模態表示為Ρ4,第二模態表示為Τ4,所述Ρ4與Τ4為相同維數的向量,計算Ρ4與Τ4的相似性測度。
2.根據權利要求1所述的方法,其特徵在於,所述相似性測度計算方法進一步包括: 在編碼層通過公式(:(?3,13;1^18) = I f(P3;fff)-g(T3;ffg) I I工計算第一模態與第二模態的相似性測度C,其中M.II1SL1範數,f(P3;Wf) = P4,g(T3;ffg) =T4,Wf為第一模態由P3計算得到P4所配置的所有偏置和連接權值的集合,Wg為第二模態由T3計算得到T4所配置的所有偏置和連接權值的集合。
3.根據權利要求1所述 的方法,其特徵在於,該方法進一步包括: 所述受限波爾茲曼機的配置參數包括可見層V神經單元Vi的偏置匕、隱藏層H神經單元比的偏置Cj以及可見層神經單元和隱藏層神經單元的連接權值Wij ; 所述配置參數為令可見層V和隱藏層H神經單元的聯合概率分布P (v, h)最大的數值,其中
4.根據權利要求1所述的方法,其特徵在於,所述Wf與Wg的訓練算法進一步包括: 給定第一模態中級表達P3和第二模態中級表達T3,以及二元指標I,當訓練用的第一模態與第二模態確實是同一對象的不同模態描述時,I取值為1,反之,第一模態與第二模態不是同一對象的不同模態描述時,I取值為O ; 將權值集合Wf與Wg合併表示為Θ,則定義任何成對輸入的第一模態中級表達P3和第二模態中級表達T3的損失函數為:
L(P3,T3, I; Θ) = a (L1 (Ρ3; 0)+LT(T3; θ )) + (1-α ) LC(P3, T3, I; θ); 其中,
【文檔編號】G06N3/08GK103793507SQ201410039222
【公開日】2014年5月14日 申請日期:2014年1月26日 優先權日:2014年1月26日
【發明者】李睿凡, 魯鵬, 馮方向, 王小捷 申請人:北京郵電大學