ログイン
会員登録
人間のフィードバック
書いてみる
関連タグ
#モデル (12,594)
#データセット (833)
#研究 (32,949)
#LLM (4,633)
#PPO (9)
#RAFT (59)
人気
急上昇
新着
定番
有料のみ
3件
人気の記事一覧
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
Ikemen Mas Kot
2か月前
1
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment
Ikemen Mas Kot
2か月前
1
Constitutional AI: Harmlessness from AI Feedback
Ikemen Mas Kot
1か月前