見出し画像

分類AIの進化史㉑MLP-Mixer

前回は、CLIPを解説しました。今回は、2021年にGoogleが発表した畳み込みもアテンションも使わないMLP-Mixerを紹介します。

2012年、ImageNetコンペティションでAlexNetが登場して以来、「画像処理といえば畳み込みニューラルネットワーク(CNN)」というのが一般的な考え方でした。畳み込みは、画像から特徴を抽出する強力な方法として広く認識されています。CNNはその後も発展し続けています。

一方、言語処理の分野では、2017年に登場した「トランスフォーマー」が革命を起こしました。これは、従来の言語モデルとは異なり、特に機械翻訳において顕著な成果を示しました。やがて、このトランスフォーマーの技術は画像処理にも応用され、「ビジョン・トランスフォーマー(ViT)」として知られるようになり、CNNと同等のタスクをこなすことができることがわかりました。ViTからの流れは、CLIPなどの画像と言語を両方扱えるマルチモダルなモデルへと発展していきます。

そして2021年、GoogleはCNNやトランスフォーマーを使用しない新しいアプローチ「MLP-Mixer」を発表しました。これは、画像処理を行うための単純ながら効果的な方法で、主にMLP(Multi-Layer Perceptron、多層パーセプトロン)を使っています。

2021年になってなぜ、このような研究が行われたのでしょうか。一見、時代に逆行しているようにも見受けられますが、どのような利点があるのでしょうか。

論文は、次のように主張しています。

畳み込みとアテンションは優れた性能を発揮できますが、絶対に必要というわけではないということを、この論文では示していきます。

In this paper we show that while convolutions and attention are both sufficient for good performance, neither of them are necessary.

[2105.01601] MLP-Mixer: An all-MLP Architecture for Vision (arxiv.org)

つまり、畳み込みやアテンションがなくとも、同じような性能を発揮できると主張しています。後で見るように、MLP-Mixerは非常に単純な構造を持っており、学習時間が短く、処理速度もCNNやViTベースのモデルと比較して向上しています。

では、MLP-Mixerの仕組みを見ていきましょう。


ここから先は

5,862字 / 12画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?