GPT-2を読む⑨一般化 vs 暗記(その1)
前回は、各タスクの結果に関するセクションを読み終えました。
GPT-1の10倍以上の容量(パラメータ数やサイズ)をもつGPT-2のゼロショット能力が向上したのが確認できました。
大規模なデータセット(WebText)で学習をしたGPT-2は「教師なしマルチタスク学習者」として、(特定のタスクで訓練されなくとも)様々な自然言語タスクに対応することができ、そのいくつかにおいて優れた性能を発揮しました。
この結果は、この論文の要約で主張されていたことを裏付けするものです。しかし、容量を増やすことで性能が上がる点について、まだ答えの出ていない疑問があります。
それは要するにGPT-2は、「暗記しているだけ?」という疑問です。
この疑問と関連して、「WebTextにある大量な情報を記憶しているだけ?」とか「容量が大きいほど、いろいろな情報を詰め込めるから?」という疑念が生じました。
また要約には、「それでも、WebTextにまだ適合不足です」(but still underfits WebText)とも書かれていました。この主張は、おそらく「WebTextを暗記しているだけではない」と言っているのではないかと推測しました。
その後も論文を読み続けて、そのアプローチを理解し、実験結果からGPT-2のゼロショットの性能を知りました。しかし、これまでずっと上記2つの質問に対する直接的な答えや議論は出てきませんでした。
いよいよ今回は、セクション4「一般化 vs 暗記」を読みます。
このセクションの存在自体が、OpenAIの研究者たちも上述の疑念を抱いていたことの証です。はたして、GPT-2には、一般化能力が備わっているのか、それとも単に暗記しているだけなのか、と。
今回から2回にわたって、論文の著者たちがどのようにGPT-2に対する「一般化 vs 暗記」の調査に挑んだのかを読み進めます。
この記事が気に入ったらサポートをしてみませんか?