人気の記事一覧
LLMの強化学習における新手法:TR-DPOの論文紹介
論文メモ: Self-Rewarding Language Models
中間整理に向け:個情法3年見直し(同意によらない提供、PIA、責任者の設置)
最近のLLMの学習法のまとめ - SFT・RLHF・RAG
DPO による Llama 2 のファインチューニング
Google Colab + trl で DPO のQLoRAファインチューニングを試す
従来のIPOに代わる選択肢は何か?SPACとDirect listingについて