GPT-2を読む⑨一般化 vs 暗記（その１）

2024年9月26日 16:22

前回は、各タスクの結果に関するセクションを読み終えました。

GPT-1の10倍以上の容量（パラメータ数やサイズ）をもつGPT-2のゼロショット能力が向上したのが確認できました。

大規模なデータセット（WebText）で学習をしたGPT-2は「教師なしマルチタスク学習者」として、（特定のタスクで訓練されなくとも）様々な自然言語タスクに対応することができ、そのいくつかにおいて優れた性能を発揮しました。

この結果は、この論文の要約で主張されていたことを裏付けするものです。しかし、容量を増やすことで性能が上がる点について、まだ答えの出ていない疑問があります。

それは要するにGPT-2は、「暗記しているだけ？」という疑問です。

この疑問と関連して、「WebTextにある大量な情報を記憶しているだけ？」とか「容量が大きいほど、いろいろな情報を詰め込めるから？」という疑念が生じました。

また要約には、「それでも、WebTextにまだ適合不足です」（but still underfits WebText）とも書かれていました。この主張は、おそらく「WebTextを暗記しているだけではない」と言っているのではないかと推測しました。

その後も論文を読み続けて、そのアプローチを理解し、実験結果からGPT-2のゼロショットの性能を知りました。しかし、これまでずっと上記２つの質問に対する直接的な答えや議論は出てきませんでした。

いよいよ今回は、セクション４「一般化 vs 暗記」を読みます。

このセクションの存在自体が、OpenAIの研究者たちも上述の疑念を抱いていたことの証です。はたして、GPT-2には、一般化能力が備わっているのか、それとも単に暗記しているだけなのか、と。

今回から2回にわたって、論文の著者たちがどのようにGPT-2に対する「一般化 vs 暗記」の調査に挑んだのかを読み進めます。

ここから先は

6,414字 / 1画像

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング、量子コンピュータ関連の用語の解説、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

この記事が気に入ったらサポートをしてみませんか？