見出し画像

MLPでもTransformer並みの性能を出せるようだ

Transformerの構造を見直すことにより省メモリ化をしようという試みが流行している.

今年(2021年)だけでも4つの論文が報告されている.

MLP-Mixer [Tolstikhin+, 2021]
Do You Even Need Attention? [Melas-Kyriaze, 2021]
ResMLP [Touvron+, 2021]
Pay Attention to MLPs [Liu+, 2021]

特に話題になったのはMLP-Mixerでアーキテクチャは以下のようなものである.

画像1

この方法は非常にシンプルで,左にある(トークン,次元)ベクトルを転置してMLPに入力するだけで,Transformer並みの性能を出せたというのだ.転置をすることによってトークン間の相互作用を捉えられたと考えられている.ちなみにTransformerではQueryとKeyの内積を計算することによって相互作用を学習しているのだが,大規模なモデルになるとメモリが増大するため大きな課題となっている.

この記事が気に入ったらサポートをしてみませんか?