分類AIの進化史㉑MLP-Mixer
前回は、CLIPを解説しました。今回は、2021年にGoogleが発表した畳み込みもアテンションも使わないMLP-Mixerを紹介します。
2012年、ImageNetコンペティションでAlexNetが登場して以来、「画像処理といえば畳み込みニューラルネットワーク(CNN)」というのが一般的な考え方でした。畳み込みは、画像から特徴を抽出する強力な方法として広く認識されています。CNNはその後も発展し続けています。
一方、言語処理の分野では、2017年に登場した「トランスフォーマー」が革命を起こしました。これは、従来の言語モデルとは異なり、特に機械翻訳において顕著な成果を示しました。やがて、このトランスフォーマーの技術は画像処理にも応用され、「ビジョン・トランスフォーマー(ViT)」として知られるようになり、CNNと同等のタスクをこなすことができることがわかりました。ViTからの流れは、CLIPなどの画像と言語を両方扱えるマルチモダルなモデルへと発展していきます。
そして2021年、GoogleはCNNやトランスフォーマーを使用しない新しいアプローチ「MLP-Mixer」を発表しました。これは、画像処理を行うための単純ながら効果的な方法で、主にMLP(Multi-Layer Perceptron、多層パーセプトロン)を使っています。
2021年になってなぜ、このような研究が行われたのでしょうか。一見、時代に逆行しているようにも見受けられますが、どのような利点があるのでしょうか。
論文は、次のように主張しています。
つまり、畳み込みやアテンションがなくとも、同じような性能を発揮できると主張しています。後で見るように、MLP-Mixerは非常に単純な構造を持っており、学習時間が短く、処理速度もCNNやViTベースのモデルと比較して向上しています。
では、MLP-Mixerの仕組みを見ていきましょう。
この記事が気に入ったらサポートをしてみませんか?