新四季網

學習跨平臺多模態媒體數據共同特徵表示的方法及裝置製造方法

2023-06-03 11:22:56

學習跨平臺多模態媒體數據共同特徵表示的方法及裝置製造方法
【專利摘要】本發明公開了一種利用去噪自編碼器學習跨平臺多模態媒體數據共同特徵表示的方法及裝置。所述方法包括:步驟S1,建立優化目標方程;目標方程中,採用單層的去噪自編碼器來重建不同平臺和不同模態的媒體數據特徵,在重建時,考慮模態相關性約束和跨平臺約束;其中,所述不同平臺和不同模態的媒體數據特徵包括圖像特徵和文本特徵;步驟S2,求得所述優化目標方程的解析解,在求解析解過程中,通過尋找偏導數為零的點得到全局最優解;步驟S3,利用邊緣化方法對所得到的解析解進行求解,其中求解過程中通過弱大數定律來邊緣化特徵向量的隨機噪聲進行求解。本發明藉助弱大數定律來邊緣化特徵向量的隨機噪聲。
【專利說明】學習跨平臺多模態媒體數據共同特徵表示的方法及裝置

【技術領域】
[0001]本發明屬於社會媒體(social media)分析和跨媒體特徵表示領域,具體涉及一種利用去噪自編碼器學習跨平臺多模態媒體數據共同特徵表示的方法。

【背景技術】
[0002]隨著Web2.0的快速普及,越來越多的社會媒體網站(例如Flickr、YouTube、Facebook和Google)可供用戶發布和共享信息。這使得發生在人們周圍的事件以更快的速度被記錄和傳播並隨之產生了大量不同模態的媒體數據,例如圖像、文本和視頻。據統計,在I分鐘之內,有3125張圖片被上傳到Flickr,700K條消息在Facebook上被發送,2MM視頻在YouTube上被瀏覽。用戶上傳的信息不僅規模巨大,而且以不同的模態存在於不同平臺上。這些社會多媒體數據中存在著寶貴的信息,並且已經被用於大量的應用中。例如,實時社會媒體數據流(Twitter)被用於語義視頻推薦、社會事件預測和圖像標註。Flickr上的圖片信息被成功地用於預測2008年美國總統選舉、產品銷售分部監控以及產品銷售量預測。社會媒體圖像中的人臉表情被用於監測總統選舉中輿情信息。
[0003]在社會媒體的各種應用中,關鍵的問題在於如何從大量媒體數據中抽取有效的特徵。目前大部分的方法都是基於媒體的上下文信息,例如時間、位置和文本描述。這些描述性信息容易被抽取,但有大量的媒體數據並沒有包含這些上下文信息,因此無法得到有效的特徵表示。基於內容的社會媒體信息抽取可以解決這些問題。但基於內容的特徵表示存在三個難點:(I)社會媒體數據具有多模態屬性。例如社會媒體網站中的媒體樣本通常同時被圖像、文本表示。(2)社會媒體數據的跨平臺特性。例如關於特定社會事件的圖像可能同時存在於Flickr和Facebook中。(3)傳統手工設定的特徵仍然不能有效地表示多媒體數據中包含的語義信息。


【發明內容】

[0004]本發明的目的是針對社會媒體數據的跨平臺多模態特性,通過去噪自編碼器(denoising auto-encoder)來提高底層特徵的表示能力,通過最大化不同模態間的相關性來挖掘不同模態數據的共同語義特徵,通過跨平臺約束來學習不同平臺上多媒體數據的共同特徵表示。
[0005]為實現上述目的,本發明提供一種利用去噪自編碼器學習跨平臺多模態媒體數據共同特徵表示的方法,該方法包括以下步驟:
[0006]步驟SI,建立優化目標方程;目標方程中,採用單層的去噪自編碼器來重建不同平臺和不同模態的媒體數據特徵,在重建時,考慮模態相關性約束和跨平臺約束;其中,所述不同平臺和不同模態的媒體數據特徵包括圖像特徵和文本特徵;
[0007]步驟S2,求得所述優化目標方程的解析解,在求解析解過程中,通過尋找偏導數為零的點得到全局最優解;
[0008]步驟S3,利用邊緣化方法對所得到的解析解進行求解,其中求解過程中通過弱大數定律來邊緣化特徵向量的隨機噪聲進行求解。
[0009]本發明還提供了一種利用去噪自編碼器學習跨平臺多模態媒體數據共同特徵表示的裝置,其特徵在於,該裝置包括:
[0010]建立模塊,其用於建立優化目標方程;目標方程中,採用單層的去噪自編碼器來重建不同平臺和不同模態的媒體數據特徵,在重建時,考慮模態相關性約束和跨平臺約束;其中,所述不同平臺和不同模態的媒體數據特徵包括圖像特徵和文本特徵;
[0011 ] 解析解模塊,其用於求得所述優化目標方程的解析解,在求解析解過程中,通過尋找偏導數為零的點得到全局最優解;
[0012]求解模塊,其利用邊緣化方法對所得到的解析解進行求解,其中求解過程中通過弱大數定律來邊緣化特徵向量的隨機噪聲進行求解。
[0013]本發明的有益效果:採用去噪自編碼器可以提高底層特徵的表達能力,模態相關性約束有利於尋找不同模態數據之間最相關的特徵,平臺適應約束可以減小不同平臺上的多媒體數據特徵分布的差異。

【專利附圖】

【附圖說明】
[0014]圖1是本發明所述的跨平臺多模態自編碼器的示意圖。

【具體實施方式】
[0015]為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,並參照附圖,對本發明作進一步的詳細說明。
[0016]本發明假設兩種模態數據分別是圖像和文本,這兩種模態數據又分布在兩個社會媒體平臺Google和Flickr。我們用…】和ζ =[*)/1,-,凡1】分別表示Google平臺上的Ii1個媒體數據樣本的圖像和文本特徵,用A和K =[.>'?,,別表示
Flickr平臺上的n2個媒體數據樣本的圖像和文本特徵,這裡n2 = η-ηρ η表示媒體數據樣本的個數,即圖像特徵和文本特徵的個數之和。另外,我們用X= [Xs, XJ和Y= [Ys, YJ表示兩個平臺上結合起來的圖像和文本特徵。用X和#表示圖像特徵X和文本特徵I的加了噪聲以後的特徵向量。! =[1,…,X]是m個X組成的矩陣,f =是m個Y組成的矩陣,I和f是f和F加噪聲以後的版本,m是加噪聲的次數,所述加噪聲是指隨機選取矩陣中的一部分元素將其變成O。
[0017]本發明的目標是提出了一種利用去噪自編碼器學習跨平臺多模態媒體數據共同特徵表示的方法所述方法包括三個部分:I)建立優化目標方程,2)求得解析解,3)邊緣化的快速求解。具體來說,所述方法包括以下步驟:
[0018]步驟SI,建立優化目標方程。為了學習不同平臺媒體數據的共同特徵表示,我們首先採用單層的去噪自編碼器(denoising auto-encoder)來重建輸入特徵。在單層去噪自編碼器中,輸入數據用一個線性映射矩陣映射到輸出層,輸出是對加噪聲以後的輸入數據的重建。我們分別用Wx和Wy表示圖像和文本對應的去噪自編碼器的線性映射矩陣,該線性映射矩陣用於將圖像和文本特徵向量映射到映射到同一個特徵向量空間,進而使得不同平臺上的數據之間沒有了平臺差異。此外我們用A和4分別表示兩種模態數據的重建目標方程,即對圖像和文本特徵向量的重建誤差,用4?和4?#表示模態相關性約束和跨平臺約束,即不同平臺上的數據之間的差異,以及不同模態數據之間的語義差異。最終的優化目標方程可以表示為:
[0019]

【權利要求】
1.一種利用去噪自編碼器學習跨平臺多模態媒體數據共同特徵表示的方法,其特徵在於,該方法包括以下步驟: 步驟SI,建立優化目標方程;目標方程中,採用單層的去噪自編碼器來重建不同平臺和不同模態的媒體數據特徵,在重建時,考慮模態相關性約束和跨平臺約束;其中,所述不同平臺和不同模態的媒體數據特徵包括圖像特徵和文本特徵; 步驟S2,求得所述優化目標方程的解析解,在求解析解過程中,通過尋找偏導數為零的點得到全局最優解; 步驟S3,利用邊緣化方法對所得到的解析解進行求解,其中求解過程中通過弱大數定律來邊緣化特徵向量的隨機噪聲進行求解。
2.根據權利要求1所述的方法,其特徵在於,步驟SI中的優化目標方程是採用去噪自編碼器構造的,所構造的優化目標方程可以表示為:
其中,λχ,Ay, λ m。和λ μ都表示正則化參數;Wj^P Wy表示圖像特徵和文本特徵對應的去噪自編碼器的線性映射矩陣;分別表示圖像特徵和文本特徵的重建目標方程,4?和Arf表示模態相關性約束和跨平臺約束。
3.根據權利要求2所述的方法,其特徵在於,4、^分別定義如下:
其中,m表示加噪聲的次數,η表示媒體數據特徵向量的個數,I =是m個X組成的矩陣,F = [r,...,r]是m個Y組成的矩陣,X= [Xs,XJ和Y= [Ys, YJ表示兩個不同平臺上結合起來的圖像特徵矩陣和文本特徵矩陣,X = {x」i = 1,…,η}, Y = Iyi I i = I,...,η},!和}~是f和f加噪聲以後的版本,Xi是矩陣X的第i列的特徵向量,.%為?的第i*n+j列元素,定義如下:
其中,Cs^ir表示圖像特徵的方差矩陣,?7=ιτ表示文本特徵的方差矩陣,Cxy=If1是圖像特徵和文本特徵之間的協方差矩陣,Tr表示矩陣的跡; 4ι定義如下:

ni和n2分別表示不同平臺上的媒體數據特徵的個數。
4.根據權利要求3所述的方法,其特徵在於,步驟S2中通過尋找優化目標方程的偏導數為零的點得到全局最優解,具體包括: £:關於Wx的偏導數可以計算為:
其中,e代表4 ^ 4,和『 ,Cbi = Mt ? Ce =球f並且
£關於Wy的偏導:
通過求解方程組
都可逆的時候,得到Wx和Wy的解析解: ,,=2(244(1—ρ—Λ『+!ri;)(ft —442dQ)' * r*= 2(4,/?.4(:)0;1.當Qx和fe?, -44--%)不可逆時,用偽逆來得到近似解。
5.根據權利要求1所述的方法,其特徵在於,步驟S3具體包括: 假設P表示對特徵向量上每個元素被噪聲改變的概率; 假設S = XXt,則得到Cxx和『的邊緣化後的解:
E(Cxx)和i<:(邑)中的α行β列的元素值可以直接表示為:
其中,X= [Xs?Xt]表示兩個不同平臺上結合起來的圖像特徵矩陣,X = Ixi I i = 1,…,n},Xi是X中的第i列的特徵向量;焉是對Xi加噪聲後的特徵向量;E[]表示求期望;Sae為S中的a行β列元素值;假設R = YYt,則得到Cyy 的邊緣化後的解:
E(Cyy)和中的α行β列的元素值可以直接表示為:
其中,Y= [Ys?Yt]表示兩個不同平臺上結合起來的文本特徵矩陣,Y = Iyi I i = 1,…,n},Yi是Y中的第i列對應的特徵向量;J',是對Ii加噪聲後的特徵向量;Ra e為R中的α行β列元素值; 假設U = XYt,則得到Cxy的邊緣化後的解:
其中,Ua β為U中的α行β列元素值; 假設
,則得到gx和Gy的邊緣後的解:
E(Gx) a = Va (1-p), E(Gy) a = Za (1-p) 其中,Va和Za分別為向量V和Z中的第a個元素; 優化目標方程的邊緣化形式解表示如下:
其中,E(Qx) = 2((Ax+Ac)E(Cj + AmE(Gx)E(Gx)T),
E(Qy) = 2(Uy+Ac)E(Cyy) + XmE(Gy)E(Gy)T)。
6.一種利用去噪自編碼器學習跨平臺多模態媒體數據共同特徵表示的裝置,其特徵在於,該裝置包括: 建立模塊,其用於建立優化目標方程;目標方程中,採用單層的去噪自編碼器來重建不同平臺和不同模態的媒體數據特徵,在重建時,考慮模態相關性約束和跨平臺約束;其中,所述不同平臺和不同模態的媒體數據特徵包括圖像特徵和文本特徵; 解析解模塊,其用於求得所述優化目標方程的解析解,在求解析解過程中,通過尋找偏導數為零的點得到全局最優解; 求解模塊,其利用邊緣化方法對所得到的解析解進行求解,其中求解過程中通過弱大數定律來邊緣化特徵向量的隨機噪聲進行求解。
【文檔編號】G06K9/46GK104133807SQ201410366722
【公開日】2014年11月5日 申請日期:2014年7月29日 優先權日:2014年7月29日
【發明者】徐常勝, 楊小汕, 張天柱 申請人:中國科學院自動化研究所

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀