人気の記事一覧
LLMのファインチューニング で 何ができて 何ができないのか
【ChatGPTの歴史2/全3回】GPT-2と爆弾製造方法を女子高生rinnaちゃんに教えてもらう
【ChatGPTの歴史3/全3回】ChatGPTに人間から最後にプレゼントした善意の証 RLHF
【ChatGPTの歴史1/全3回】ChatGPTの来し方行く末で見えてくるAIの本当の姿~GPT-1の誕生
第9回 大切なことはChatGPTではなくまず顧客に聞く
分子物性を予測する大規模言語モデルを強化学習で追加訓練する
最近のLLMの学習法のまとめ - SFT・RLHF・RAG
大規模言語モデルの調整プロセスがわずか数行のプロンプトで行えるという論文
DPO による Llama 2 のファインチューニング
LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ
DRLX による Stable Diffusion の RLHF を試す
JDLA生成AIテスト>生成AIの技術>特徴(4/6)
RLHF (人間のフィードバックからの強化学習) の図解
Google Colab + trl で RLHF で使う Reward Model の学習を試す
StackLLaMA : RLHFでLLaMAを学習するための実践ガイド
TRL - 強化学習によるLLMの学習のためのライブラリ