大規模言語モデルはどうして動くのか?単に情報を圧縮してるだけなのか?
人間の知能や言語モデルの振る舞いのような複雑な現象を科学的に研究するための重要なアプローチのひとつは、システムを完全に制御しながら、重要な要素を捉えた単純化されたモデルを作成し、その振る舞いを研究することである。
LMの能力についての研究によると、LMは単なる記憶+言い換えではなく、本当に新しいテスト例でうまく機能する汎化可能な戦略を学習できることが分かってきた。
例えば、以下の論文を見てほしい。
grokingに関する研究
https://arxiv.org/abs/2201.02177)
few shotの学習と汎化に関する研究
https://arxiv.org/abs/2205.05055
https://arxiv.org/abs/2210.05675
In context learningに関する研究
https://arxiv.org/abs/2212.07677
回答前に推論ステップをいくつか生成する時間が与えられれば、モデルは多くのタスクでより良いパフォーマンスを発揮できることからも示唆されるように「暗記+言い換え」は、これをうまく説明できない。
もちろん、言語モデルが(非可逆的な)暗記を決してしないということを言いたいのではない。しかし、それしかしないと言うのは、明確な誤りである。
この記事が気に入ったらサポートをしてみませんか?