見出し画像

分類AIの進化史⑱VisionTransformer

前回は、EfficientNet(2019)を紹介しました。今回は、2020年に登場したビジョン・トランスフォーマー(Vision Transformer、ViT)を紹介します。ViTはGoogle Brainチームが開発したCNNを使用しない画像分類モデルです。

ViTの論文のタイトルは、「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」です。日本語訳するとしたら、「画像は16x16の単語に値する:大規模な画像認識のためのトランスフォーマー」といったところでしょうか。

ViTでは、自然言語処理 (NLP) で成功を収めたトランスフォーマーが、画像分類タスクにおいても高い性能を発揮できることが示されています。画像を16x16ピクセルのパッチに分割したものを言語モデルが扱うトークンのように捉え、それらのシーケンスを処理します。より詳細な解説はこちらの記事にあるので興味がある方はどうぞ。

トランスフォーマーは、言語モデルで主流な手法であった回帰を使わずに、アテンション機構にフォーカスした機械翻訳モデルを構築してそれまでの記録を塗り替えました。そのトランスフォーマーの仕組みを利用したViTでは、画像分類モデルで主流な手法であった畳み込みを使わずにResNetに勝る精度を達成しました。つまり、ViTはトランスフォーマーからのアテンション機構を画像上のオブジェクトを認識することに成功したわけです。

論文の図6

ところが、訓練の仕方によっては、同じぐらいのパラメータ数を持つResNetモデルと比べて低い精度をViTが出すことがあります。この理由は、ResNetなどが使う畳み込みの仕組みは画像処理に特化しており、より画像からの学習効率が良いためと考えられました。

しかし、一連の工夫を通じて、ViTの性能は大幅に向上します。では、その性能向上に貢献した主な要因は何だったのでしょうか?


ここから先は

6,000字 / 2画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?