MLPでもTransformer並みの性能を出せるようだ

2021年8月28日 11:09

Transformerの構造を見直すことにより省メモリ化をしようという試みが流行している．

今年(2021年)だけでも４つの論文が報告されている．

MLP-Mixer [Tolstikhin+, 2021]
Do You Even Need Attention? [Melas-Kyriaze, 2021]
ResMLP [Touvron+, 2021]
Pay Attention to MLPs [Liu+, 2021]

特に話題になったのはMLP-Mixerでアーキテクチャは以下のようなものである．

この方法は非常にシンプルで，左にある（トークン，次元）ベクトルを転置してMLPに入力するだけで，Transformer並みの性能を出せたというのだ．転置をすることによってトークン間の相互作用を捉えられたと考えられている．ちなみにTransformerではQueryとKeyの内積を計算することによって相互作用を学習しているのだが，大規模なモデルになるとメモリが増大するため大きな課題となっている．

この記事が気に入ったらサポートをしてみませんか？