フォローしませんか?
シェア
npaka
2023年4月24日 12:22
以下の記事が面白かったので、軽く要約しました。1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いました。「教師あり学習」 (Instructionチューニング) で十分ではないでしょうか?私は、ある程度納得のいく理論的な議