分類AIの進化史㉑MLP-Mixer

2024年4月20日 22:12

前回は、CLIPを解説しました。今回は、2021年にGoogleが発表した畳み込みもアテンションも使わないMLP-Mixerを紹介します。

2012年、ImageNetコンペティションでAlexNetが登場して以来、「画像処理といえば畳み込みニューラルネットワーク（CNN）」というのが一般的な考え方でした。畳み込みは、画像から特徴を抽出する強力な方法として広く認識されています。CNNはその後も発展し続けています。

一方、言語処理の分野では、2017年に登場した「トランスフォーマー」が革命を起こしました。これは、従来の言語モデルとは異なり、特に機械翻訳において顕著な成果を示しました。やがて、このトランスフォーマーの技術は画像処理にも応用され、「ビジョン・トランスフォーマー（ViT）」として知られるようになり、CNNと同等のタスクをこなすことができることがわかりました。ViTからの流れは、CLIPなどの画像と言語を両方扱えるマルチモダルなモデルへと発展していきます。

そして2021年、GoogleはCNNやトランスフォーマーを使用しない新しいアプローチ「MLP-Mixer」を発表しました。これは、画像処理を行うための単純ながら効果的な方法で、主にMLP（Multi-Layer Perceptron、多層パーセプトロン）を使っています。

2021年になってなぜ、このような研究が行われたのでしょうか。一見、時代に逆行しているようにも見受けられますが、どのような利点があるのでしょうか。

論文は、次のように主張しています。

畳み込みとアテンションは優れた性能を発揮できますが、絶対に必要というわけではないということを、この論文では示していきます。

In this paper we show that while convolutions and attention are both sufﬁcient for good performance, neither of them are necessary.

[2105.01601] MLP-Mixer: An all-MLP Architecture for Vision (arxiv.org)

つまり、畳み込みやアテンションがなくとも、同じような性能を発揮できると主張しています。後で見るように、MLP-Mixerは非常に単純な構造を持っており、学習時間が短く、処理速度もCNNやViTベースのモデルと比較して向上しています。

では、MLP-Mixerの仕組みを見ていきましょう。

ここから先は

5,862字 / 12画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？