シェア
ふくふく
2023年2月26日 11:42
はじめにChatGPTは「人間のフィードバックによる強化学習(RLHF)」を利用していると聞く。自身の出力に対して何らかのフィードバックを得て修正していく、という仕組みである。ということは、ChatGPT自身に自己批判をさせることで自ら出力を修正していくことはできるのだろうか?この着想は下記の記事をもとにしている。こちらの記事では最大で5階層の意識を設定しているが、今回の実験では3階層とした