人気の記事一覧

合成データを利用したLLMの開発

12日前

LLMのファインチューニング で 何ができて 何ができないのか

8か月前

今更聞けないLLM解説まとめ⑥RLHF

【ChatGPTの歴史2/全3回】GPT-2と爆弾製造方法を女子高生rinnaちゃんに教えてもらう

【ChatGPTの歴史3/全3回】ChatGPTに人間から最後にプレゼントした善意の証 RLHF

【ChatGPTの歴史1/全3回】ChatGPTの来し方行く末で見えてくるAIの本当の姿~GPT-1の誕生

第9回 大切なことはChatGPTではなくまず顧客に聞く

OpenAIとQ学習:人間のような知能への挑戦

分子物性を予測する大規模言語モデルを強化学習で追加訓練する

3か月前

最近のLLMの学習法のまとめ - SFT・RLHF・RAG

8か月前

ローカルLLMの情報まとめ

10か月前

大規模言語モデルの調整プロセスがわずか数行のプロンプトで行えるという論文

4か月前

DPO による Llama 2 のファインチューニング

8か月前

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ

1年前

DRLX による Stable Diffusion の RLHF を試す

8か月前

JDLA生成AIテスト>生成AIの技術>特徴(4/6)

RLHF (人間のフィードバックからの強化学習) の図解

1年前

Google Colab + trl で RLHF で使う Reward Model の学習を試す

8か月前

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド

11か月前

TRL - 強化学習によるLLMの学習のためのライブラリ

10か月前