論文筆記 (MAE)— Masked Autoencoders Are Scalable Vision Learners

Watson Wang
Jan 23, 2023

好的,碩論卡關,大年初二繼續看論文:)

Paper Link: https://arxiv.org/abs/2111.06377

Code Link: https://github.com/facebookresearch/mae

Abstract

MAE 方法很簡單:屏蔽輸入圖像的隨機補丁並重建丟失的像素。

我們開發了一個非對稱編碼器-解碼器架構,其中一個編碼器僅在可見的補丁子集上運行,以及一個輕量級解碼器,該解碼器從潛在表示和掩碼標記中重建原始圖像 ,我們發現屏蔽大部分輸入圖像(例如 75%)會產生重要且有意義的自我監督任務。 結合這兩種設計使我們能夠高效且有效地訓練大型模型。

Introduction

基於 GPT 中的自回歸語言建模和 BERT 中的屏蔽自動編碼的解決方案在概念上很簡單:它們刪除了一部分數據並學習預測刪除的內容,這樣子的想法是一種更通用的去噪自動編碼器。

隨著 BERT 的成功,人們對這個想法產生了濃厚的興趣,但視覺自動編碼方法的進展落後於 NLP。 我們提出問題:是什麼讓掩碼自動編碼在視覺和語言之間有所不同? 我們試圖從以下幾個角度來回答:

  1. 在視覺方面,卷積網絡在過去十年中佔據主導地位,卷積通常在規則網格上運行,並且將掩碼標記(mask tokens)或位置嵌入加入到卷積網絡中並不簡單。 直到出現 Vision Transformers (ViT) 得到解決。
  2. 圖像是具有大量空間的自然信號 ,可以從相鄰的補丁中恢復丟失的補丁,而對部分、對象和場景的高級理解則較難。為了克服這種差異並鼓勵學習有用的特徵,我們證明了一種簡單的策略:屏蔽很大一部分隨機補丁。
  3. 自動編碼器的解碼器將潛在表示映射回輸入,在重建文本和圖像之間起著不同的作用。 在視覺中,解碼器重建像素,因此其輸出的語義級別低於常見的識別任務,與語言相反。我們發現對於圖像,解碼器設計在確定學習的潛在表示的語義級別方面起著關鍵作用。

Approach

在預訓練期間,大量隨機圖像塊子集(例如 75%)被屏蔽掉。 編碼器應用於可見補丁的小子集。 Mask tokens 在編碼器之後被引入,全套編碼的 patches 和 mask tokens 由一個小型解碼器處理,該解碼器以像素為單位重建原始圖像。

Masking

遵循 ViT ,我們將圖像劃分為規則的非重疊塊。 然後我們對補丁的一個子集進行採樣並屏蔽(即刪除)其餘的。 高移除比率創建了一個無法通過從可見的相鄰塊外推來輕易解決的任務(下圖)。 均勻分佈可防止潛在的中心偏差。

MAE encoder

我們的編碼器是 ViT ,用於可見的、未屏蔽的補丁,如上圖。通過添加位置嵌入的線性投影嵌入補丁,然後通過一系列 Transformer 塊處理結果集。 因此編碼器只對整個集合的一小部分(例如 25%)進行操作,這使我們能夠僅使用一小部分計算和內存來訓練非常大的編碼器。

MAE decoder

MAE 解碼器的輸入是完整的令牌集,包括 (i) 編碼的可見補丁和 (ii) 掩碼令牌。 每個掩碼標記都是一個共享的學習向量,指示存在要預測的缺失補丁。

Reconstruction target

MAE 通過預測每個masked patch的像素值來重建輸入。 解碼器輸出中的每個元素都是代表一個補丁的像素值向量。 解碼器的最後一層是一個線性投影,其輸出通道的數量等於補丁中像素值的數量。

我們的損失函數計算像素空間中重建圖像和原始圖像之間的均方誤差 (MSE,僅計算蒙版補丁的損失)。

我們還研究了一種變體,其重建目標是每個屏蔽補丁中所有像素的均值和標準差, 改為這種方法可以提高了實驗中的表示質量。

Result

心得

概念上是真的蠻簡單的,但不知道對於醫療影像上的效果是否顯著,畢竟醫療影像多為黑白灰階,重建學習是否可以像論文中一樣有效也是一個問題,主要重點若放在腫瘤身上,那75%的masking ratio感覺也會是個瓶頸。

以上,祝各位新年快樂,有興趣可以看下一篇SwinTransformer+ MAE的論文:)(連結:論文筆記 — Green Hierarchical Vision Transformer for Masked Image Modeling

--

--