「#DPO」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

LLMの強化学習における新手法:TR-DPOの論文紹介

1か月前

11

論文メモ: Self-Rewarding Language Models

4週間前

10

中間整理に向け：個情法3年見直し（同意によらない提供、PIA、責任者の設置）

Ami〜こちら個人情報担当です

3日前

2

最近のLLMの学習法のまとめ - SFT・RLHF・RAG

9か月前

106

DPO による Llama 2 のファインチューニング

10か月前

41

Google Colab + trl で DPO のQLoRAファインチューニングを試す

10か月前

17

股関節形成不全 (HD)

幻の犬飼い

8か月前

10

従来のIPOに代わる選択肢は何か？SPACとDirect listingについて

2年前