分類AIの進化史⑱VisionTransformer

2024年3月22日 22:42

前回は、EfficientNet（2019）を紹介しました。今回は、2020年に登場したビジョン・トランスフォーマー（Vision Transformer、ViT）を紹介します。ViTはGoogle Brainチームが開発したCNNを使用しない画像分類モデルです。

ViTの論文のタイトルは、「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」です。日本語訳するとしたら、「画像は16x16の単語に値する：大規模な画像認識のためのトランスフォーマー」といったところでしょうか。

ViTでは、自然言語処理 (NLP) で成功を収めたトランスフォーマーが、画像分類タスクにおいても高い性能を発揮できることが示されています。画像を16x16ピクセルのパッチに分割したものを言語モデルが扱うトークンのように捉え、それらのシーケンスを処理します。より詳細な解説はこちらの記事にあるので興味がある方はどうぞ。

トランスフォーマーは、言語モデルで主流な手法であった回帰を使わずに、アテンション機構にフォーカスした機械翻訳モデルを構築してそれまでの記録を塗り替えました。そのトランスフォーマーの仕組みを利用したViTでは、画像分類モデルで主流な手法であった畳み込みを使わずにResNetに勝る精度を達成しました。つまり、ViTはトランスフォーマーからのアテンション機構を画像上のオブジェクトを認識することに成功したわけです。

ところが、訓練の仕方によっては、同じぐらいのパラメータ数を持つResNetモデルと比べて低い精度をViTが出すことがあります。この理由は、ResNetなどが使う畳み込みの仕組みは画像処理に特化しており、より画像からの学習効率が良いためと考えられました。

しかし、一連の工夫を通じて、ViTの性能は大幅に向上します。では、その性能向上に貢献した主な要因は何だったのでしょうか？

ここから先は

6,182字 / 2画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？