「#RLHF」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

OpenAI o1はどう作るのか（詳細編）

1か月前

53

CriticGPT～ChatGPTの間違いを見つけるAI～

三木ひとみ🎀行政書士法人ひとみ綜合法務事務所🎀

4か月前

23

【松尾研LLM講座】第5講「RLHF」を受講して

2週間前

2

論文：NVIDIA Nemotron 70Bの技術革新と応用範囲 - オープンソースLLMの新たな可能性

Kawamura Akihiro

7日前

3

【生成AIニュース】『GLM-4-Voice』『Gemini 2.0』『Gigapixel 8』『LVSM』『Bee Agent Framework』『DRY sampler』『LargeSpatialModel（LDM)』『Rodin Gen-1』『ComfyUI-disty-Flow』『Stable Diffusion 3.5 Large Fine-tuning Tutorial』

8日前

14

人間のフィードバックからの強化学習(RLHF)とは？

あみきん/ Well-being

3か月前

10

LLMによる合成データ(Synthetic Data)生成のテクニック

5か月前

36

RLHFってめっちゃ人件費かかりそう

2週間前

1

合成データを利用したLLMの開発

6か月前

15

論文メモ: Self-Rewarding Language Models

5か月前

11

【デジタルMATSUMOTOの考察（2024/9/12）】これってAIの正しい理解？07「RLHFは全ての人間の価値にアラインすることが可能？」

Digital MATSUMOTO

1か月前

1

LLMのファインチューニングで何ができて何ができないのか

1年前

479

Evol-Instruct：LLMが複雑な指示に従う能力を向上させた論文。【論文翻訳サービス付】

¥450

3か月前

1

今更聞けないLLM解説まとめ⑥RLHF

それなニキ

7か月前

6

【ChatGPTの歴史２/全3回】GPT-2と爆弾製造方法を女子高生rinnaちゃんに教えてもらう

みこちゃんのAI活用術

1年前

242

【ChatGPTの歴史３/全3回】ChatGPTに人間から最後にプレゼントした善意の証 RLHF

みこちゃんのAI活用術

1年前

225

数学特化LLM：WizardMathの作り方【論文PDF翻訳サービス付】

¥250〜

割引あり

3か月前

1

【ChatGPTの歴史１/全3回】ChatGPTの来し方行く末で見えてくるAIの本当の姿～GPT-1の誕生

みこちゃんのAI活用術

1年前

297

第９回大切なことはChatGPTではなくまず顧客に聞く

みこちゃんのAI活用術

1年前

184

OpenAIとQ学習：人間のような知能への挑戦

0xpanda alpha lab

11か月前

29

分子物性を予測する大規模言語モデルを強化学習で追加訓練する

10か月前

7

最近のLLMの学習法のまとめ - SFT・RLHF・RAG

1年前

114

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

5か月前

1

ローカルLLMの情報まとめ

1年前

176

大規模言語モデルの調整プロセスがわずか数行のプロンプトで行えるという論文

11か月前

5

DPO による Llama 2 のファインチューニング

1年前

43

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ

1年前

91

DRLX による Stable Diffusion の RLHF を試す

1年前

18

JDLA生成AIテスト＞生成AIの技術＞特徴（4/6）

山岡さとる

11か月前

2

RLHF (人間のフィードバックからの強化学習) の図解

1年前

92

Google Colab + trl で RLHF で使う Reward Model の学習を試す

1年前

16

TRL - 強化学習によるLLMの学習のためのライブラリ

1年前

33

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド

1年前

57

24GB GPU で 20B LLM の RLHF ファインチューニング

1年前

47

シュッとデータをラベリング

1年前

5

DeepSpeedの使い方をまとめてみた

福田渉 | 日本テクノトレード CEO

1年前

9

我々は既にアルゴリズムと共存している

1年前

15

ChatGPTのRLHFによる情報提示精度向上とハルシネーションについての記録

1年前

3

ChatGPTに与えられる強化学習はChatGPTをバカにさせる？

1年前

2

ChatGPTは基礎科学論文まで押し寄せる!?

1年前

47

DeepSpeed-ChatがAI業界を革新、効率向上とコスト削減を促進し、アプリケーションの展開を加速

0xpanda alpha lab

1年前

9

ChatGPTの対抗馬Bardが地域限定で一般公開へ

1年前

15

LLMは次の単語を予測し続けているというのは本当か？

2週間前

論文解説：LLMのペアワイズ評価を自動化するLLMの自動精度向上手法（人間アノテーター不要）「Self-Taught Evaluators」

¥100〜

割引あり

2か月前

1

【デジタルMATSUMOTOの考察（2024/8/26）】これってAIの正しい理解？01「生成AIから不適切な出力をさせないために不適切なモノを学習させない？」

Digital MATSUMOTO

2か月前

【論文要約:自動運転関連】REINFORCEMENT LEARNING FROM HUMAN FEEDBACK FOR LANE CHANGING OF AUTONOMOUS VEHICLES IN MIXED TRAFFIC

2か月前

OpenAIの研究：AIをもっと安全に！ルールを活用したモデルの賢い強化法

3か月前

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs

4か月前

Creativity Has Left the Chat: The Price of Debiasing Language Models

4か月前

RLHFの解説: 人間のフィードバックでAIをどう育てるか

5か月前