新四季網

一種基於多任務學習的抽象畫圖像方向感知方法

2024-04-16 16:20:05



1.本發明屬於計算機視覺與圖像處理技術領域,具體涉及一種基於多任務學習的抽象畫圖像方向感知方法。


背景技術:

2.抽象畫是由繪畫者通過他們的主觀思想,用點、線、面、顏色等組合視覺形式來表達的,通常被理解為不描述自然的藝術。在創作一幅抽象畫時,藝術家會根據他們的審美觀念,做出正確的方向選擇。然而,對於觀看作品的其他人來說,特別是如果作品中根本沒有可識別的內容,這種預期的方向並不總是顯而易見的。因此,圍繞著正確的懸掛方向這個問題,藝術學家對不同方向產生的美學價值爭議不斷,這就引發了一系列美學方面的問題:抽象畫中是否有足夠的信息使未經訓練的觀眾的判斷與正確方向一致?一件作品的審美價值是否因觀看方向不正確而降低?
3.為了解決這些問題,大量心理學研究表明,無論是專業藝術家還是非專業觀眾,超過50%的參與者都會欣賞正確方向的繪畫作品,認為具有正確懸掛方向的抽象畫具有較高的審美評價,甚至一幅作品的審美價值會因觀看方向不正確而降低。也就是說,懸掛方向是影響繪畫審美評價的因素之一。所有這些研究都為繪畫方向與審美質量的關係提供了證據,因此對抽象畫「方向識別」的研究可以揭示視覺審美評價的客觀規律。
4.目前研究中,圖像方向識別方法大多採用計算視覺與深度學習算法。儘管如此,這些方法存在一些問題:(1)直接使用現有流行的卷積神經網絡模型(eg,vgg,alexnet),輸入圖像的尺寸為統一尺寸,如224
×
224,因此圖像會被裁剪。(2)大多數研究都是基於單一任務對圖像方向分類進行探討,沒有考慮到人類對圖像方向感知區域檢測的重要性。(3)圖像感知區域的獲取大多是採用人工標註的方法,耗費大量的人力成本。


技術實現要素:

5.針對上述技術問題,本發明提供了一種基於多任務學習的抽象畫圖像方向感知方法。
6.為了達到上述目的,本發明採用了下列技術方案:
7.一種基於多任務學習的抽象畫圖像方向感知方法,包括以下具體步驟:
8.步驟1,將所有抽象畫圖像逆時針旋轉四個角度0
°
、90
°
、180
°
、270
°
,分別對應上、左、下、右四個方向,由此獲得四幅不同方位的抽象畫圖像;
9.步驟2,採用眼動儀獲取受試者觀看不同方向圖像的注視持續時間熱點圖,具體步驟如下:
10.步驟2.1,設置眼動儀的眼動數據採樣頻率為60hz,採樣率為1000hz;打亂所有抽象畫圖像的順序,每幅圖像以10秒的時長呈現在受試者面前,採集受試者觀看圖像時注視點的注視時間,每個注視點的信息包括x坐標、y坐標和注視點持續時間,非注視點的注視時間為0;注視點像素只能影響注視點周圍部分像素的值,距離注視點越遠,值越小;注視點與
注視點周圍的非注視點之間的距離表示為:
[0011][0012]
其中,fk表示注視點,fi表示fk的周圍像素k∈{1,2,

,n},n<w
×
h,w表示圖像的寬,h表示圖像的高;i∈{1,2,

,w
×
h};
[0013]
步驟2.2,所有抽象畫圖像的不同方位全部呈現完後,採用高斯函數計算注視點周圍像素點的值;
[0014][0015]
其中,表示周圍像素點受某一注視點影響產生的值,其中(xk,yk)是注視點的坐標,(xi,yi)是注視點周圍像素點的坐標;σ表示高斯函數的方差;
[0016]
步驟2.3,第i個像素的值是受所有注視點影響的線性疊加,表示該點的注視強度:
[0017][0018]
其中,f(xi,yi)是第i個像素的值,i∈{1,2,

,w
×
h},n表示像素個數;
[0019]
步驟2.4,使用最值歸一化方法將像素值歸一到[0,1];
[0020][0021]
其中,f
min
表示所有像素的最小值,f
max
表示所有像素的最大值;
[0022]
步驟3,「方向感知區域檢測」子任務使用「編碼器-解碼器」結構的神經網絡;
[0023]
編碼器部分為共享層的結構,編碼器結構為vggnet網絡具體包括:conv1、conv2、conv3、conv4、conv55組卷積;conv1包含2個卷積層,每個卷積層有64個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv2包含2個卷積層,每個卷積層有128個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv3包含3個卷積層,每個卷積層有256個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv4包含3個卷積層,每個卷積層有512個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv5包含3個卷積層,每個卷積層有512個大小為3χ3的卷積核,步長為1,1個maxpool池化層;
[0024]
vggnet中,從conv2到conv5特徵圖的解析度依次降低為輸入圖像的1/2、1/4、1/8和1/16;
[0025]
解碼器的目的是實現圖像方向感知區域檢測;解碼器融合conv3到conv5的特徵,因為conv1的感受野過小,包括太多噪音,所以未融合conv1的特徵,從conv3~conv5得到3個特徵圖,隨後分別進行4倍,8倍,16倍上採樣操作恢復到原圖的解析度,隨後對3個特徵圖進行拼接操作,得到一個厚度為3的特徵圖,再次使用1
×
1的卷積操作,得到一個融合之後的通道為1的特徵圖;
[0026]
神經網絡的最終輸出是與輸入圖像大小相同的方向感知區域映射;
[0027]
對方向感知區域進行歸一化處理,處理方法為:在方向感知區域網絡的最後一層加入了一個像素級的sigmoid激活函數,使其每個像素點的值都在[0,1]之間。
[0028]
損失函數為二進位交叉熵:
[0029][0030]
其中,w是圖像的寬度,h是圖像的高度,s
xy
是注視持續時間熱點圖在(x,y)處的值,並將該圖作為方向感知網絡的標籤圖,是預測出的方向感知區域圖在(x,y)處的值;
[0031]
步驟4,「方向識別分類」子任務,共享編碼器部分,實現圖像方向的分類;
[0032]
步驟4.1,將conv2到conv5層,分別經過批量歸一化(batchnormalization,bn)層和全局平均池化(global average pooling,gap)進一步提取特徵,然後將提取特徵後的conv2到conv5層進行特徵融合,得到一個一維向量,然後將該一維向量送到全連接層(full connected layer,fc),並通過softmax分類器輸出方向類別;
[0033]
步驟4.2,使用最小化log似然函數實現分類,最終將抽象畫圖像按方向分為0
°
,90
°
,180
°
和270
°
四類中的一類,從而實現抽象畫圖像方向的自動預測,使用的損失函數為:
[0034][0035]
其中,表示特徵向量d屬於某一類的概率;yi為預測的方向類別,wc為方向向量d的模型權重,c∈{1,2,3,4};c=4;i(x)為指示函數,如果條件x為真,則i(x)=1,否則i(x)=0;
[0036]
步驟5,「方向感知區域檢測」子任務輔助「方向識別分類」子任務實現圖像方向分類,多任務學習模型的損失函數為:
[0037]
loss
multi
=λloss
oc
+(1-λ)loss
od
[0038]
其中,λ是分類子任務和檢測子任務的損失權重。
[0039]
所述步驟2.2中高斯函數的半徑,默認值為50像素,內核共有100像素。
[0040]
所述步驟4.1中一維向量的維度為1408。
[0041]
所述步驟2.1中眼動儀的具體設置為:使用tobii_t60眼動儀,眼動數據採樣頻率為60hz,顯示器大小為17英寸,解析度為1280
×
1024,實驗圖片均為png格式進行眼動數據的記錄和採集,採樣率為1000hz;所有圖像的順序被打亂,每幅圖像以10秒的時長呈現在受試者面前;觀看前,會告知受試者按照「此方向懸掛的抽象畫是否令你感到舒適」的意圖觀看每幅圖像,以此刺激受試者從抽象畫懸掛方向的角度觀察圖像,從而使獲得更加準確的方向感知區域。
[0042]
與現有技術相比本發明具有以下優點:
[0043]
(1)本發明設計了一種基於多層特徵融合,多任務學習的深度神經網絡的模型。模型包括兩個子任務:「方向感知區域檢測」和「方向識別分類」,均採用多層特徵融合的方式實現。其中「方向感知區域檢測」作為輔助任務,「方向識別分類」作為主任務,輔助任務用於提升主任務的完成效率。該方法能有效的提高方向感知的準確率。(2)「方向感知區域檢測」子任務中採用的標籤,不是來源於人工標註,而是採用眼動儀獲取的被試者觀看圖像時,由注視點產生的熱點圖。該方法用客觀的數據反映人類的審美偏好與視覺感知的一致性。(3)「方向識別分類」子任務中使用了批量歸一化層(bn)和全局平均池化(gap)提取圖像特徵。
bn層把每層的數據都在轉換在均值為零,方差為1的狀態下,這樣每層數據的分布都是一樣的,訓練會比較容易收斂。gap模塊將任意輸入尺寸的圖像轉換成固定大小的特徵向量,降低了過擬合,加快了網絡收斂速度。(4)兩個子任務都採用了多層特徵融合的方式,能從不同視野表達圖像的方向特性,提高方向檢測的準確率。
附圖說明
[0044]
圖1為本發明圖像旋轉示意圖;
[0045]
圖2為本發明眼動熱點圖繪製的示意圖;
[0046]
圖3為本發明不同方向抽象畫圖像的熱點圖;
[0047]
圖4為本發明抽象畫方向感知框架;
[0048]
圖5為本發明多任務學習網絡模型。
具體實施方式
[0049]
為了使本發明所要解決的技術問題、技術方案及有益效果更加清楚明白,結合實施例和附圖,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,並不用於限定本發明。下面結合實施例和附圖詳細說明本發明的技術方案,但保護範圍不被此限制。
[0050]
實施例1
[0051]
一種基於多任務學習的抽象畫圖像方向感知方法,選取公開網站的繪畫,進行實驗,包括以下具體步驟:
[0052]
步驟1,選取6000幅抽象畫圖像,分別來自wikiart dataset(3200)and artsy dataset(2800)。將所有抽象畫圖像逆時針旋轉四個角度0
°
、90
°
、180
°
、270
°
,分別對應上、左、下、右四個方向,由此獲得四幅不同方位的抽象畫圖像;
[0053]
步驟2,採用眼動儀獲取受試者觀看不同方向圖像的注視持續時間熱點圖,具體步驟如下;
[0054]
步驟2.1,獲取熱點圖的實驗使用tobii_t60眼動儀,眼動數據採樣頻率為60hz,顯示器大小為17英寸,解析度為1280*1024,實驗圖片均為png格式進行眼動數據的記錄和採集,採樣率為1000hz。打亂所有抽象畫圖像的順序,每幅圖像以10秒的時長呈現在受試者面前,觀看前,會告知受試者按照「此方向懸掛的抽象畫是否令你感到舒適」的意圖觀看每幅圖像,以此刺激受試者從抽象畫懸掛方向的角度觀察圖像,從而使獲得更加準確的方向感知區域,採集受試者觀看圖像時注視點的注視時間,每個注視點的信息包括x坐標、y坐標和注視點持續時間,非注視點的注視時間為0;注視點像素只能影響注視點周圍部分像素的值,距離注視點越遠,值越小;注視點與注視點周圍的非注視點之間的距離表示為:
[0055][0056]fk
表示注視點,fi表示fk的周圍像素k∈{1,2,

,n},n<w
×
h,w表示圖像的寬,h表示圖像的高;i∈{1,2,

,w
×
h};
[0057]
步驟2.2,所有抽象畫圖像的不同方位全部呈現完後,採用高斯函數計算注視點周圍像素點的值;
[0058][0059]
其中,周圍像素點受某一注視點影響產生的值,其中(xk,yk)是注視點的坐標,(xi,yi)是注視點周圍像素點的坐標;σ表示高斯函數的方差;高斯函數半徑的默認值是50像素,內核總共有100像素。50像素的選擇基於在64釐米的距離上觀察標準1820
×
1024解析度的眼動跟蹤器屏幕。我們根據3σ定律,也就是說,在μ-3σ和μ+3σ之間,高斯曲線下的面積是99.74%,所以σ=50/3。
[0060]
步驟2.3,第i個像素的值是受所有注視點影響的線性疊加,表示該點的注視強度:
[0061][0062]
其中,f(xi,yi)是第i個像素的值,i∈{1,2,

,w
×
h},n表示像素個數;
[0063]
步驟2.4,使用最值歸一化方法將像素值歸一到[0,1];
[0064][0065]
其中,f
min
表示所有像素的最小值,f
max
表示所有像素的最大值;
[0066]
步驟3,「方向感知區域檢測」子任務使用「編碼器-解碼器」結構的神經網絡;
[0067]
編碼器結構為vggnet網絡具體包括:conv1、conv2、conv3、conv4、conv55組卷積;conv1包含2個卷積層,每個卷積層有64個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv2包含2個卷積層,每個卷積層有128個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv3包含3個卷積層,每個卷積層有256個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv4包含3個卷積層,每個卷積層有512個大小為3χ3的卷積核,步長為1,1個maxpool池化層;conv5包含3個卷積層,每個卷積層有512個大小為3χ3的卷積核,步長為1,1個maxpool池化層;
[0068]
vggnet中,從conv2到conv5特徵圖的解析度依次降低為輸入圖像的1/2、1/4、1/8和1/16;
[0069]
解碼器的目的是實現圖像方向感知區域檢測;解碼器融合conv3到conv5的特徵,因為conv1的感受野過小,包括太多噪音,所以未融合conv1的特徵,從conv3~conv5得到3個特徵圖,隨後分別進行4倍,8倍,16倍上採樣操作恢復到原圖的解析度,隨後對3個特徵圖進行拼接操作,得到一個厚度為3的特徵圖,再次使用1
×
1的卷積操作,得到一個融合之後的通道為1的特徵圖;
[0070]
神經網絡的最終輸出是與輸入圖像大小相同的方向感知區域映射;
[0071]
對方向感知區域進行歸一化處理,處理方法為:在方向感知區域網絡的最後一層加入了一個像素級的sigmoid激活函數,使其每個像素點的值都在[0,1]之間。
[0072]
損失函數為二進位交叉熵:
[0073]
[0074]
其中,w是圖像的寬度,h是圖像的高度,s
xy
是注視持續時間熱點圖在(x,y)處的值,並將該圖作為方向感知網絡的標籤圖,是預測出的方向感知區域圖在(x,y)處的值;
[0075]
步驟4,「方向識別分類」子任務,共享編碼器部分,實現圖像方向的分類;
[0076]
步驟4.1,將conv2到conv5層,分別經過批量歸一化(batchnormalization,bn)層和全局平均池化(global average pooling,gap)進一步提取特徵,然後將提取特徵後的conv2到conv5層進行特徵融合,得到一個一維向量,然後將該一維向量送到全連接層(full connected layer,fc),並通過softmax分類器輸出方向類別;
[0077]
步驟4.2,使用最小化log似然函數實現分類,最終將抽象畫圖像按方向分為0
°
,90
°
,180
°
和270
°
四類中的一類,從而實現抽象畫圖像方向的自動預測,使用的損失函數為:
[0078][0079]
其中,表示特徵向量d屬於某一類的概率;yi為預測的方向類別,wc為方向向量d的模型權重,c∈{1,2,3,4},c=4;i(x)為指示函數,如果條件x為真,則i(x)=1,否則i(x)=0;
[0080]
步驟5,在wikiart數據集和artsy數據集上分別進行實驗。我們從數據集中選擇60%作為訓練集,30%作為評估集,其餘10%作為測試集。本發明中的多任務深度神經網絡模型的運行環境是windows 10(gpu)、python 3.6和tensorflow2。開發工具是anaconda3。輸入圖像的大小不是固定的。採用動量隨機梯度下降法對網絡進行優化。動量設置為0.5,學習率為0.01,迭代次數為50,批量大小為128。多任務學習模型的損失函數為:
[0081]
loss
multi
=λloss
oc
+(1-λ)loss
od
[0082]
其中,λ是分類子任務和檢測子任務的損失權重。
[0083]
s6:「方向感知區域檢測」子任務的評價指標為平均絕對誤差(mae),mae越小,測試結果越接近真實結果。mae定義為:
[0084][0085]「方向識別分類」子任務的評價指標為準確率(ac),宏精確率(mp),宏召回率(mr),和宏f1評分(mf1)。
[0086]
為充分驗證本發明方法的有效性和適用性,評估損失函數的權值λ對網絡模型性能的影響,實驗結果如表1所示。將λ從0.1到0.9進行循環判斷,實驗結果顯示當λ為0.6時,兩個數據集的ac分別為0.878和0.889,mae分別是0.048和0.040,此時模型的性能達到最優。
[0087]
表1
[0088][0089]
為了驗證使用眼動熱圖作為標籤的有效性,使用不同的顯著性檢測方法(aim、sr、ca、hc等),提取圖像的顯著性圖作為「方向感知區域檢測」子任務中的標籤。算法的mae越小,檢測結果越接近真實結果,算法性能越好。表2顯示當標籤為眼動熱點圖時,mae最小。結果表明,一個人對圖像方向的識別是通過觀察一些圖像區域來判斷的。眼動熱圖最接近真實結果,能更真實地表達人們對圖像的視覺感知。
[0090]
表2
[0091][0092][0093]
為了解釋不同層融合特徵對模型性能的影響,在融合後的不同層上進行了實驗,如表3所示。實驗結果顯示,在artsy數據集中,當「方向識別分類」子任務為conv2~conv5,「方向感知區域檢測」為conv3~conv5時,mae為0.040,ac為0.889。此時,該模型的性能優於其他模型。實驗結果表明,多層特徵融合可以同時提高檢測和分類子模型的性能。
[0094]
表3
[0095][0096]
與現有圖像方向感知的方法相比,本發明的優勢在於:(1)觀看者對圖像方向的判斷是由觀看圖像的區域而激發的,因此圖像的方向感知區域檢測和圖像的方向分類任務是相關的。此外,受到多任務學習思想的啟發,本發明設計了一種基於多層特徵融合,多任務學習的深度神經網絡的模型。模型包括兩個子任務:「方向感知區域檢測」和「方向識別分類」,均採用多層特徵融合的方式實現。其中「方向感知區域檢測」作為輔助任務,「方向識別分類」作為主任務,輔助任務用於提升主任務的完成效率。(4)「方向感知區域檢測」子任務中採用的標籤,不是來源於人工標註,而是採用眼動儀獲取的被試者觀看圖像時,由注視點產生的熱點圖。該方法用客觀的數據反映人類的審美偏好與視覺感知的一致性。
[0097]
本發明說明書中未作詳細描述的內容屬於本領域專業技術人員公知的現有技術。儘管上面對本發明說明性的具體實施方式進行了描述,以便於本技術領域的技術人員理解本發明,但應該清楚,本發明不限於具體實施方式的範圍,對本技術領域的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發明的精神和範圍內,這些變化是顯而易見的,一切利用本發明構思的發明創造均在保護之列。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀