見出し画像

GPT-2を読む⑨一般化 vs 暗記(その1)

前回は、各タスクの結果に関するセクションを読み終えました。

GPT-1の10倍以上の容量(パラメータ数やサイズ)をもつGPT-2のゼロショット能力が向上したのが確認できました。

大規模なデータセット(WebText)で学習をしたGPT-2は「教師なしマルチタスク学習者」として、(特定のタスクで訓練されなくとも)様々な自然言語タスクに対応することができ、そのいくつかにおいて優れた性能を発揮しました。

この結果は、この論文の要約で主張されていたことを裏付けするものです。しかし、容量を増やすことで性能が上がる点について、まだ答えの出ていない疑問があります。

それは要するにGPT-2は、「暗記しているだけ?」という疑問です。

論文の要約より

この疑問と関連して、「WebTextにある大量な情報を記憶しているだけ?」とか「容量が大きいほど、いろいろな情報を詰め込めるから?」という疑念が生じました。

また要約には、「それでも、WebTextにまだ適合不足です」(but still underfits WebText)とも書かれていました。この主張は、おそらく「WebTextを暗記しているだけではない」と言っているのではないかと推測しました。

その後も論文を読み続けて、そのアプローチを理解し、実験結果からGPT-2のゼロショットの性能を知りました。しかし、これまでずっと上記2つの質問に対する直接的な答えや議論は出てきませんでした。

いよいよ今回は、セクション4「一般化 vs 暗記」を読みます。

このセクションの存在自体が、OpenAIの研究者たちも上述の疑念を抱いていたことの証です。はたして、GPT-2には、一般化能力が備わっているのか、それとも単に暗記しているだけなのか、と。

今回から2回にわたって、論文の著者たちがどのようにGPT-2に対する「一般化 vs 暗記」の調査に挑んだのかを読み進めます。


ここから先は

6,414字 / 1画像

キカベン・読み放題

¥1,000 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?