新四季網

一種多任務學習及對比學習改進的多模態情感分析方法

2024-04-14 21:45:05



1.本發明屬於自然語言處理領域,具體涉及一種多任務學習及對比學習改進的多模態情感分析方法。


背景技術:

2.隨著信息與通信技術快速發展,越來越多的用戶選擇在社交平臺上表達觀點和情緒,這些內容攜帶大量的個人情感和觀點信息,分析和識別社交數據中潛在的情感信息始終是情感計算和自然語言處理領域的一項重要基礎工作。隨著通信技術的發展,傳統社交數據的內容形式也在不斷改變,用戶發布的內容不再是單一的文本信息,而是包含文本、圖像、語音等不同模態的多模態數據。多模態情感分析(multimodal sentiment analysis,msa)研究在社交媒體輿情分析、推薦系統等領域都發揮重要作用,因此這一研究具有重要的研究意義和應用價值。
3.多模態數據分析雖然能夠提供更加豐富的特徵信息,但是多模態的異構性和異質性,使之較傳統單模態情感分析任務更具挑戰性。在從原始數據中提取初始表徵時,不同模態需要使用不同的方法轉換原始數據信息,提取各模態的特徵表徵。在後期特徵融合時,不同模態數據的分布空間不同,因此簡單的拼接效果不佳,需要考慮更加合理的特徵融合方式。
4.多模態情感分析不僅要分別處理各單模態表徵,還要考慮不同模態表徵之間的融合。zadeh等人提出張量融合網絡(tensor fusion network,tfn),利用不同模態特徵表示的笛卡爾外積作為融合結果,這種方法能夠同時捕獲單模態及多模態之間的相互作用。hazarika等人提出用於多模態表徵學習的模態不變表徵和模態特定表徵。tsai等人提出能捕捉與其他模態之間交互的多模態transformer,學習跨模態注意以強化目標模態。
5.儘管在多模態情感分析領域已經有相當多的優秀的深度學習模型和方法,但過去的研究大多側重於多模態特徵的融合,而忽略單模態表徵的學習,模態表徵的學習是整個任務中早期的部分,影響後期實際預測結果的質量,因此表徵學習在整個多模態情感分析任務中具有重要的作用。


技術實現要素:

6.本發明針對前期表徵學習,提出多任務學習及對比學習改進的多模態情感分析方法。
7.本發明利用多任務學習及對比學習的思想,分階段分別輔助學習單模態及雙模態表徵,利用對比學習輔助學習多模態融合表徵進行,並基於同方差不確定性提出自適應調整多任務損失函數權重係數的方法,使多模態情感極性分類的準確度提高。
8.本發明具體包括以下步驟:
9.步驟1:準備mosi數據集,對數據集中的多模態數據進行處理,獲取初始單模態表徵;
10.步驟2:將單模態表徵輸入第一個子任務模塊,即單模態表徵預測模塊,進行單模態情感極性預測子任務,得到單模態情感極性預測結果;
11.步驟3:將單模態表徵輸入雙模態門控模塊,生成雙模態表徵,並將雙模態表徵輸入第二個子任務模塊,即雙模態表徵預測模塊,進行雙模態情感極性預測子任務,得到雙模態情感極性預測結果;
12.步驟4:將單模態及雙模態表徵拼接,進行情感極性預測主任務,並通過對比學習,將任意兩次輸出的均方誤差作為對比學習損失;
13.步驟5:將主任務與兩組子任務的損失作為多任務學習損失,多任務學習損失中不同任務的損失權重係數通過同方差不確定性實現自適應調整,將多任務學習損失與對比學習損失的加權和作為模型最終的損失函數。
14.作為優選,所述的對數據集中的多模態數據進行處理,獲取初始單模態表徵,具體為:步驟1-1:將多模態數據中的文本向量f
t
通過bert預訓練模型進行初始處理,獲取文本表徵f
t
,文本模態特徵表示如下:
15.f
t
=bert(f
t
;θ
t
)
16.其中θ
t
表示可學習的參數,下同;
17.步驟1-2:將多模態數據中的音頻向量fa通過雙向lstm進行初始處理,獲取音頻表徵fa,音頻模態特徵表示如下:
18.fa=lstm(fa;θa)
19.步驟1-3:將多模態數據中的視頻向量fv通過雙向lstm進行初始處理,獲取視頻表徵fv,視頻模態特徵表示如下:
20.fv=lstm(fv;θv)
21.作為優選,所述將單模態表徵輸入第一個子任務模塊,進行單模態情感極性預測子任務
22.步驟2-1:將步驟1獲得的單模態表徵fs,s∈{t,a,v}分別輸入三個獨立的單模態預測模塊中,首先將它們映射到低維空間中,過程表示如下:
[0023][0024]
其中,relu為激活函數,ds表示特徵的維度,表示偏置。
[0025]
步驟2-2:將f
′s送入線性層,得到預測結果,過程表示如下:
[0026][0027]
其中,ys為單模態情感極性預測結果,表示偏置。
[0028]
作為優選,將單模態表徵輸入雙模態門控模塊,生成雙模態表徵,並將雙模態表徵輸入第二個子任務模塊,即雙模態表徵預測模塊,進行雙模態情感極性預測子任務;具體為:步驟3-1:將步驟1獲得的單模態表徵fs,s∈{t,a,v}輸入雙模態門控模塊,雙模態門控模塊學習模態兩兩之間的交互信息,生成雙模態向量。對於兩個單模態輸入{f
α
,f
β
},其中(α,β)∈{(t,a),(t,v),(v,a)},雙模態表徵h
αβ
的計算過程表示如下:
[0029][0030][0031][0032]hαβ
=g
αβhα
+(1-g
αβ
)h
β
[0033]
其中tanh和relu為激活函數,h
α
、h
β
表示中間表徵,g
αβ
為門值,表示偏置;
[0034]
步驟3-2:將步驟3-1獲得的雙模態表徵h
αβ
分別輸入三個獨立的雙模態預測模塊中,首先將它們映射到低維空間中,過程表示如下:
[0035][0036]
其中,表示偏置;
[0037]
步驟3-3:將f
αβ
送入線性層,得到預測結果,過程表示如下:
[0038][0039]
其中,y
αβ
為雙模態情感極性預測結果,表示偏置;。
[0040]
作為優選,將單模態及雙模態表徵拼接,進行情感極性預測主任務,並通過對比學習,將任意兩次輸出的均方誤差作為對比學習損失;具體為:步驟4-1:將步驟1獲得的單模態表徵fs與步驟3獲得的雙模態表徵h
αβ
拼接得到多模態融合表徵fm,輸入多模態情感極性預測模塊,首先將它映射到低維空間中,過程表示如下:
[0041][0042]
其中,表示偏置;
[0043]
步驟4-2:將fm′
送入線性層,得到預測結果,過程表示如下:
[0044][0045]
其中,ym為多模態情感極性預測結果,表示偏置;。
[0046]
步驟4-3:利用dropout的隨機性,將多模態融合表徵fm輸入多模態情感極性預測模塊兩次,將得到的兩個輸出的均方誤差作為對比學習部分的損失函數,過程表示如下:
[0047][0048]
其中n為數據集大小,和為兩次輸出的多模態預測結果。
[0049]
作為優選,將主任務與兩組子任務的損失作為多任務學習損失,多任務學習損失中不同任務的損失權重係數通過同方差不確定性實現自適應調整,將多任務學習損失與對比學習損失的加權和作為模型最終的損失函數;具體為:步驟5-1:根據同方差不確定性自適應調整損失函數中主任務與兩組子任務的權重係數,過程表示如下:
[0050][0051]
其中,k∈{m,t,a,v,ta,tv,va},σi是可自適應調整的參數,y
ij
表示子任務預測結果,表示真值,m表示多模態的主任務,t,a,v,單模態的子任務,ta,tv,va雙模態的子任務。
[0052]
步驟5-2:將多任務學習損失和對比學習損失相加作為模型最終的損失函數,過程表示如下:
[0053][0054]
其中,α是自定義的超參數,y
ij
表示第i個子任務的第j個樣本,表示標籤值,和為兩次輸出的多模態預測結果。
[0055]
本發明的有益效果是:
[0056]
1.本發明針對多模態情感分析任務,提出一種通過多任務學習及對比學習的方法,全面地輔助學習單模態表徵、雙模態表徵及多模態融合表徵,有助於最終多模態情感極性預測。
[0057]
2.針對多任務學習損失函數中多個任務的權重係數調整問題,提出利用同方差不確定性自適應調整權重係數的方法,解決手工調整花費時間多、調整精度低的問題,通過模型自適應學習權重參數權衡各個任務的重要性。
[0058]
3.在cmu-mosi數據集上進行實驗,結果表明本發明顯著提高了多模態情感分析性能,與近年來熱門的多模態情感分析方法相比,本發明的準確率和f1值均有提高,與基線模型中表現最優秀的mag-bert相比,兩種分類準確率分別上升了0.82和1.07,f1值分別上升了0.64和1.05。
附圖說明
[0059]
圖1是本發明提出的模型結構圖。
具體實施方式
[0060]
如圖1所示,多任務學習及對比學習改進的多模態情感分析方法。具體實施步驟如下:
[0061]
步驟1:下載cmu-mosi數據集,mosi數據集包括2199個獨白短視頻片段,每個視頻片段利用人工進行情感分數標註,情感分數分布範圍為[-3,+3],數值越小情感越消極,數值越大,情感越傾向於積極;mosi數據集中訓練集有1284個片段,驗證集有229個片段,測試集有686個片段。對數據集中的多模態數據進行處理,使用facet提取視頻特徵,使用covarep提取音頻特徵;
[0062]
步驟1-1:將文本向量f
t
通過bert預訓練模型進行初始處理,獲取文本表徵f
t
,文本
模態特徵表示如下:
[0063]ft
=berr(f
t
;θr)
[0064]
其中θ
t
表示可學習的參數,下同;
[0065]
步驟1-2:將音頻向量fa通過雙向lstm進行初始處理,獲取音頻表徵fa,音頻模態特徵表示如下:
[0066]
fa=lstm(fa;θa)
[0067]
步驟1-3:將視頻向量fv通過雙向lstm進行初始處理,獲取視頻表徵fv,視頻模態特徵表示如下:
[0068]fv
=lstm(fv;θv)
[0069]
步驟2:將單模態表徵輸入第一個子任務模塊——單模態表徵預測模塊,進行單模態情感極性預測子任務;
[0070]
步驟2-1:將步驟1獲得的單模態表徵fs,s∈{t,a,v}分別輸入三個獨立的單模態預測模塊中,首先將它們映射到低維空間中,過程表示如下:
[0071][0072]
其中,relu為激活函數。
[0073]
步驟2-2:將fs′
送入線性層,得到預測結果,過程表示如下:
[0074][0075]
其中,ys為單模態情感極性預測結果。
[0076]
步驟3:將單模態表徵輸入雙模態門控模塊,生成雙模態表徵,並將雙模態表徵輸入第二個子任務模塊——雙模態表徵預測模塊,進行雙模態情感極性預測子任務;
[0077]
步驟3-1:將步驟1獲得的單模態表徵fs,s∈{t,a,v}輸入雙模態門控模塊,雙模態門控模塊可以學習模態兩兩之間的交互信息,生成雙模態向量。對於兩個單模態輸入{f
α
,f
β
},其中(α,β)∈[(t,a),(t,v),(v,a)},雙模態表徵的計算過程表示如下:
[0078][0079][0080][0081]hαp
=g
αβhα
+(1-g
αβ
)h
β
[0082]
其中tanh和relu為激活函數,
[0083]
步驟3-2:將步驟3-1獲得的雙模態表徵h
αβ
分別輸入三個獨立的雙模態預測模塊中,首先將它們映射到低維空間中,過程表示如下:
[0084][0085]
其中,
[0086]
步驟3-3:將f
αβ
送入線性層,得到預測結果,過程表示如下:
[0087][0088]
其中,y
αβ
為雙模態情感極性預測結果。
[0089]
步驟4:將單模態及雙模態表徵拼接,進行情感極性預測主任務,並通過對比學習,將兩次輸出的均方誤差作為對比學習損失;
[0090]
步驟4-1:將步驟1獲得的單模態表徵fs與步驟3獲得的雙模態表徵h
αβ
拼接得到多模態融合表徵fm,輸入多模態情感極性預測模塊,首先將它映射到低維空間中,過程表示如下:
[0091][0092]
其中,
[0093]
步驟4-2:將fm′
送入線性層,得到預測結果,過程表示如下:
[0094][0095]
其中,ym為多模態情感極性預測結果。
[0096]
步驟4-3:利用dropout的隨機性,將多模態融合表徵fm輸入多模態情感極性預測模塊兩次,將得到的兩個輸出的均方誤差作為對比學習部分的損失函數,過程表示如下:
[0097][0098]
其中n為數據集大小,和為兩次輸出的多模態預測結果。
[0099]
步驟5:將主任務與兩組子任務的損失作為多任務學習損失,多任務學習損失中不同任務間的損失權重係數通過同方差不確定性實現自適應調整,將多任務學習損失與對比學習損失的加權和作為模型最終的損失函數。
[0100]
步驟5-1:根據同方差不確定性自適應調整損失函數中主任務與兩組子任務的權重係數,過程表示如下:
[0101][0102]
其中,k∈{m,t,a,v,ta,tv,va},σ是可自適應調整的參數,y
ij
表示子任務預測結果,表示真值。
[0103]
步驟5-2:將多任務學習損失和對比學習損失相加作為模型最終的損失函數,過程表示如下:
[0104][0105]
其中,α是自定義的超參數,我們實驗中設定的α=1.0。
[0106]
基於cmu-mosi數據集,將本發明與本領域以前的一些方法進行比較,試驗結果表
明,本發明提出的多模態情感分析方法相較傳統方法在性能上取得提升。
[0107]
使用四種指標來評估模型的情感分析性能,評價指標有:1)acc_2二分類準確度;2)f1值;3)平均絕對誤差mae;4)相關係數corr。上述指標中,除mae,其餘指標數值越大,表示表現越優秀。
[0108]
為充分驗證提出模型的性能,選取多模態情感分析中較為主流的幾個模型,實驗結果如表1所示,分析表中數據可知,與基線模型中表現最優秀的mag-bert相比,二分類準確度acc-2上升了1.07,f1值上升了1.05,平均絕對誤差mae下降了0.004,相關係數上升了0.005。本文在四個評價指標上均優於對比模型,說明模型能通過學習得到具有更豐富情感信息的模態表徵。
[0109]
表1各模型在mosi測試集上的實驗結果
[0110][0111]
為了更加直觀地分析自適應權重調整的可靠性,我們通過輸出5次實驗中的權重相關量v來分析自適應調整權重的可靠性,如表2所示,v與權重係數中的變量σ的關係為:
[0112]
σ2=ev[0113]
設定多任務學習損失函數中的權重係數為即v越小,損失函數中該項任務的權重係數越高。在實驗過程中,我們觀察到m、t、tv、ta這四個任務的預測準確率最高,因此這四項權重係數也應更高。分析表2中數據可以發現,自適應調整得到的m、t、tv、ta這四個任務的權重係數最高,符合上述分析,證明了自適應權重調整的可靠性。
[0114]
表2多任務學習自適應調整權重係數相關量v
[0115][0116]

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀