訂閱
糾錯
加入自媒體

用于大規(guī)模圖像縮放識別的Vision Transformer

在本文中,我想在不作太多技術(shù)細節(jié)的情況下,解釋作者提交給2021 ICLR會議的新論文“an-image-is-worth-16x16-words-transformers-for-image-recognition-at-scale”的研究成果(目前為止匿名)。自1960年以來深度學習就已經(jīng)問世,但促使深度學習真正來到了前列的,是2012年的AlexNet模型,一個卷積網(wǎng)絡,由Alex Krizhevsky設計,贏得了年度ImageNet圖像分類競賽的冠軍。在接下來的幾年里,深度計算機視覺技術(shù)經(jīng)歷了一場真正的革命,每年都會出現(xiàn)新的卷積體系結(jié)構(gòu)(GoogleNet、ResNet、DenseNet、EfficientNet等),以在ImageNet和其他基準數(shù)據(jù)集(如CIFAR-10、CIFAR-100)上創(chuàng)下新的精度記錄。下圖顯示了自2011年以來ImageNet數(shù)據(jù)集上機器學習模型的最高精度的進展情況。

然而,在過去的幾年里,深度學習最有趣的發(fā)展不是在圖像領(lǐng)域,而是在自然語言處理(NLP)中,特別是注意力機制,這是由Ashish Vaswani等人在2017年的論文“Attention Is All You Need”中首次提出的。注意力機制的思想,指的是可訓練的權(quán)重,模擬輸入句子不同部分之間的每個連接的重要性,它對NLP的影響類似于計算機視覺中的卷積網(wǎng)絡,極大地提高了機器學習模型對各種語言任務(如自然語言理解)的效果還有機器翻譯的效果。注意力之所以對語言數(shù)據(jù)特別有效,是因為理解人類語言通常需要跟蹤長期依賴關(guān)系。我們可能會先說“我們到達了紐約”,然后說“城市的天氣很好”,對于任何人類讀者來說,應該很清楚,最后一句話中的“城市”指的是“紐約”,但對于一個只基于在附近數(shù)據(jù)(如卷積網(wǎng)絡)中找到模式的模型來說,這種聯(lián)系可能無法檢測。長期依賴性的問題可以通過使用遞歸網(wǎng)絡來解決,例如LSTMs,在Transformer之前,LSTMs實際上是NLP中的頂級模型,但即使是這些模型,也很難匹配特定的單詞。Transformer中的全局注意力機制衡量了文本中任意兩個單詞之間每一個連接的重要性,這解釋了它們性能的優(yōu)越之處。對于注意力不那么重要的序列數(shù)據(jù)類型(例如,日銷售額或股票價格等時域數(shù)據(jù)),遞歸網(wǎng)絡仍然具有很強的競爭力,可能仍是最佳選擇。雖然在NLP等序列模型中,遠距離對象之間的依賴關(guān)系可能具有特殊的意義,但在圖像任務中,它們同樣也不能被忽略,要形成一幅完整的圖畫,通常需要了解圖像的各個部分。到目前為止,注意力機制在計算機視覺中一直表現(xiàn)不佳的原因在于縮放它們的難度(它們的縮放比例為N?,因此1000x1000圖像的像素之間的全套注意力權(quán)重將具有一百萬項)。也許更重要的是,圖片中的各個像素本身并不是很有意義,因此通過注意力將它們連接起來并沒有太大作用。這篇新論文提出了一種方法,即不關(guān)注像素點,而是關(guān)注圖像的小塊區(qū)域(可能是標題中的16x16,盡管最佳塊尺寸實際上取決于模型的圖像尺寸和內(nèi)容)。

上面的圖片(摘自論文)顯示了Vision Transformer的工作方式。通過使用線性投影矩陣將輸入圖像中的每個色塊展平,并向其添加位置嵌入(學習的數(shù)值,其中包含有關(guān)該色塊最初在圖像中的位置信息),這是必需的,因為Transformer會處理所有輸入,而不考慮其順序,所以擁有此位置信息有助于模型正確評估注意力權(quán)重。額外的類標記連接到輸入(圖像中的位置0),作為要在分類任務中預測的類的占位符。類似于2017版,該Transformer編碼器由多個注意力,規(guī)范化和完全連接的層組成,這些層具有殘差(跳過)連接,如圖中的右半部分所示。在每個關(guān)注區(qū)域中,多個頭部可以捕獲不同的連接模式。如果你有興趣了解有關(guān)Transformer的更多信息,我建議閱讀Jay Alammar撰寫的這篇出色的文章。輸出端完全連接的MLP頭可提供所需的類別預測,主模型可以在大型圖像數(shù)據(jù)集上進行預訓練,然后可以通過標準的遷移學習方法將最終的MLP頭微調(diào)為特定任務。新模型的一個特點是,盡管根據(jù)本文的研究,它比卷積方法更有效地以更少的計算量獲得相同的預測精度,但隨著它接受越來越多的數(shù)據(jù)訓練,其性能似乎在不斷提高,這比其他模型更甚。這篇文章的作者在一個包含3億的私有g(shù)ooglejft-300M數(shù)據(jù)集上訓練了Vision Transformer圖像,從而在許多基準測試中都獲得了最先進的準確性。我們可以期待這個預先訓練過的模型很快就會發(fā)布出來,以便我們都可以試用?吹缴窠(jīng)注意力在計算機視覺領(lǐng)域的新應用,實在太令人興奮了!希望在未來的幾年里,在這種發(fā)展的基礎上,能取得更大的進步!
☆ END ☆如果看到這里,說明你喜歡這篇文章,請轉(zhuǎn)發(fā)、點贊。


聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號