新四季網

邊緣計算10大解決方案(北大博士生提出CAE)

2023-04-16 08:03:01

楊淨 發自 凹非寺

量子位 | 公眾號 QbitAI

上回說道,何愷明時隔兩年發一作論文,提出了一種視覺自監督學習新範式——

用掩蔽自編碼器MAE,為視覺大模型開路。

這一次,北大博士生提出一個新方法CAE,在其下遊任務中展現的泛化能力超過了MAE。

來看看這是一項什麼樣的研究?

這是一項什麼研究?

自何愷明提出MAE以來,基於MIM,Masked Image Modeling,這一自監督學習表徵算法就越來越引發關注。

它的主要思路,就是對輸入圖像進行分塊和隨機掩碼操作,然後對掩碼區域做預測。

預測的目標可以是Token ID(如微軟提出的BEiT),也可以是RGB值(如MAE)。

通過MIM這一方法,編碼器學習到好的表徵,從而在下遊任務中取得良好的泛化性能。

以往這一方法常見於NLP領域,但隨著ViT的提出和發展,這一方法在視覺領域也取得了一些進展。

團隊認為,近期兩個代表性工作,BEiT和MAE,沒有充分挖掘編碼器encoder的潛力,限制了預訓練學習的表徵質量。

簡單來說,BEiT的編碼器只有一部分負責表徵學習,還有一部分在做「前置/代理任務」(pretext task)。

到了MAE則是另一種情況,解碼器也做了一部分表徵學習,可能讓編碼器學會「偷懶」。

基於這一背景,團隊提出了Context Autoencoder,簡稱CAE。核心設計思想是對「表徵學習」和「前置/代理任務(pretext task)這兩個功能做分離。

在預訓練時,編碼器只負責表徵學習,解碼器只負責解決前置任務,兩者分工合作,將編碼器表徵能力最大化。

CAE包含四個部分

1、編碼器是一個ViT模型,負責學習圖像可見patch的表徵,提取圖像特徵Zv。

2、Latent contextual regressor(隱式上下文回歸器)則是在此基礎上預測出掩蔽patch的表徵Zm。

3、解碼器以Zm和對應的位置編碼作為輸入,通過Zm預測掩蔽patch的某些性質,比如RGB值、Token ID。這過程中Zv不會更新,表徵學習任務全交給編碼器。

4、Latent representation alignment對 Zm添加約束,希望 latent contextual regressor 的輸出和編碼器的輸出在同一空間。具體來說,圖像的掩蔽patch也將輸入到編碼器中(此過程不參與梯度反傳),獲得的這部分表徵,作為Zm的學習目標。

Alignment很重要,如果想對掩碼部分做好預測,要求latent contextual regressor 的輸出(也是解碼器的輸入)含有比較好的語義信息。通過對齊操作,可以鼓勵編碼器的操作也含有好的語義信息,提高編碼器的表徵質量。

論文對alignment做了可視化:將全部patch輸入編碼器,然後將表徵直接輸入到解碼器中,進行RGB的重建。CAE可以將原圖重建出來 (第一行是原圖,第二行是重建結果),說明編碼器的輸出和latent contextual regressor 的輸出處於同一編碼空間。

如果訓練時不做alignment約束,那麼輸出的結果將是這樣…嗯,都是亂碼。

這種設計的編碼器學到的表徵也相對更差,下遊任務結果也會變差。

損失函數由兩部分組成,一個是對解碼器預測的監督,使用的是cross-entropy loss;一個是對alignment的監督,使用MSE損失函數。

除此之外,也進一步驗證了以CAE為代表的MIM方法,要比Moco v3、DINO為代表的對比學習方法更適合下遊任務。

該論文從隨機裁剪操作的性質分析,認為隨機裁剪有很大概率包含圖像的中心區域。

而ImageNet-1K這種數據集中,中心區域通常是1000類標籤集中的物體(如下圖)。因此,對比學習方法主要提取圖像中主體物體的特徵。

而MIM方法能學到每個patch的特徵,包括圖像的背景區域,而不僅僅是圖像主體物體,這讓MIM學到的表徵更適合下遊檢測分割任務。

論文對CAE和MoCo v3的注意力圖做了可視化。紅色表示注意力值更高,藍色表示注意力值更低。第一行是原圖,第二行是 MoCo v3,第三行是 CAE。可以看到,MoCo v3 的注意力圖主要在圖像的主體區域有高響應,而 CAE 能考慮到幾乎所有patch。

實驗結果

研究團隊使用ViT-small和ViT-base在 ImageNet-1K 上進行實驗,輸入圖像的解析度224*224,每張圖被分成14*14的patch,每個patch的大小為16*16。

每次將有75個patch被隨機掩碼,其餘patch則為可見的。

本文參照BEiT,使用DALL-E tokenizer對輸入圖像token化,得到預測目標。

最終結果顯示,在語義分割任務中,跟其他MIM方法,比如MAE、BEiT,以及對比學習、有監督預訓練方法的表徵結果更好。

在物體檢測、實例分割的結果也是如此。

百度CV大牛領銜

本次研究由北京大學、香港大學、百度共同完成。

第一作者是在讀博士生陳小康,來自北京大學機器感知與智能(教育部)重點實驗室。

通訊作者是百度計算機視覺首席架構師王井東,同時也是IEEE Fellow。

在加盟百度之前,曾在微軟亞研院視覺計算組擔任首席研究員。

感興趣的旁友,可戳下方連結進一步查看論文~

論文連結:https://arxiv.org/abs/2202.03026

— 完 —

量子位 QbitAI · 頭條號籤約

關注我們,第一時間獲知前沿科技動態

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了