AI

本

運営しているクリエイター: tradetomato

#RLHF

npaka

2023年4月28日 07:59

RLHF (人間のフィードバックからの強化学習) の図解

以下の記事が面白かったので、軽く要約しました。

1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依存するため、定義することが困難です。

「良い」テキストを生成するための損失関数の設計は難しく、ほとんどの言語モデルは、まだ単純な次のトークン予測損失（クロスエン

もっとみる