ログイン
会員登録
DPOアルゴリズム
書いてみる
関連タグ
#RLHF (39)
#トークン (3,411)
#トークンレベルMDP (1)
#ブラッドリーテリー嗜好モデル (1)
#モデル (12,661)
#人間 (64,498)
人気
急上昇
新着
定番
有料のみ
1件
人気の記事一覧
From r to Q∗: Your Language Model is Secretly a Q-Function
Ikemen Mas Kot
2か月前