見出し画像

[論文紹介]LLMの人間ベースのフィードバックが安定しない問題を解決へ[ICLR24]

タイトル:IMPROVING LANGUAGE MODELS WITH ADVANTAGE-BASED OFFLINE POLICY GRADIENTS
著者:Ashutosh Baheti♢,♣, Ximing Lu♡,♣, Faeze Brahman♣, Ronan Le Bras♣, Maarten Sap♠,♣, Mark Riedl♢
機関:♢ Georgia Institute of Technology, ♠Carnegie Mellon University, ♡University of Washington, ♣ Allen Institute for Artificial Intelligence
会議:ICLR24

arXivへのリンクは以下です

本記事では,上記論文を初見で読みながら内容をまとめていくスタイルをとっています.このため,論文を精読してまとめたというよりは流し読みしながらメモ程度にまとめた記事になっています.このため,より詳細を知りたい方は他のブログを漁ってみるか,ご自身で論文をご確認いただければと思います.

アブストラクト

Language Models(LMs)では,人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)が用いられていますが,RLHFは不安定かつ大量のデータが必要とされています.そこで本研究では,Advantage-Leftover Lunch RL(A-LoL)という新しいoffline policy gradient algorithms(強化学習で用いられる方策を勾配を最小化するためのアルゴリズム)を提案しています.A-LoLは,sequence-level classifiers(おそらく学習済みの分類か回帰モデルを用いたスコアリングのこと)か人間のつけたスコアを報酬とします.A-LoLはLMの学習に簡単に実装することができます.LMs内部の文レベルの値推定(?)を使うことで,A-LoLは低品質のデータを学習中にフィルタリングすることができ,ノイズに対して弾力性のある学習を行うことができます.本研究では,4つの言語生成タスクで提案手法のパフォーマンスを評価しました.(強化学習アルゴ単体の評価として)オンライン強化学習のPPO,最近のモデルのDPOとPRO,最後に報酬ベースのオフライン強化学習のGOLDで評価を行いました.RLHFベンチマークとして(システム全体のパフォーマンを評価するために),Helpful and Harmless Asistance(HHA,有用で無害な援助)を用いており,A-LoLで学習されたLMsは高いdiversity(?)を人間のベースラインよりも安全で有用性の高いレートで実現できたことを示しました.

イントロダクション

イントロの冒頭には,彼らの課題が述べられています.

Can we perform rewarded learning, similar to PPO, while only using pre-existing data?

上記を日本語訳すると,「これまでのデータ(pre-existing data)のみを用いて,Proximal Policy Optimization(PPO)のような報酬学習を実現させることができるか?」になると思います.

"pre-existing data"というのはおそらくhuggingfaceや論文で公開されるデータセットや学習済モデルのことを指しており,「PPOのような報酬学習」とは,pre-existing dataを用いて複雑なハイパーパラメータの設定や不安定性を解決する,新しい手法のことを指しているのではないかと思います.

提案手法のA-LoLは,サンプルが少なく済む効率な手法であり,安定的な学習アルゴリズムであることが述べられています.A-LoLはOffline Policy Gradientsを事前に収集された言語データを用いて,言語モデルを望ましい報酬に向かって最適化する手法です.出力シーケンス全体を1つの行動(action step)と仮定し,学習データの有利さ(advantage)を計算し,不利な(infavorable)インスタンスをフィルタします.本手法の優れた点としては,参照元の言語モデルの値を報酬から減算して(subtracted)推定できることが挙げられ,これは各学習インスタンスの利得(benefit)を学習プロセスに向かって決定します(翻訳怪しい).その後,ネガティブなデータポイントを廃棄しながらA-LoLの学習効果を向上させてノイズデータの頑強性を高めていきます.

A-LoLは次の2つの改善を用いてcross entropy lossへの実装を簡単にさせています.(1) 文レベルの優位性,(2) 重要な重みを対象の言語モデル分布の大きな発散を抑制するために用いる改善.提案手法は,単一文から得られる文レベルの報酬が全てのデータポイントのために求められるのみで,最近のpreference-based offline RL methodsのように人間のラベル付けが行われたペアワイズなデータを要求する手法とは対照的です.A-LoLは学習を単純化させつつ,オフライン学習を実現させます.

後続のパラグラフでは,ベンチマーク評価に関することが書かれており,RLHFのベンチマークとしてHelpful and Harmless Assistant(HHA)を用いたことや,RLのアルゴリズムの評価においても高いパフォーマンスを発揮したことが述べられています(この辺ちょっと適当にまとめています).

まとめると,A-LoLは頑強で,安定性が高く,サンプル効率性の高いオフライン強化学習で,実世界のタスクにおいて,cross-entropy lossを簡単に減少させることができることを示しました.コードも公開されています.https://github.com/abaheti95/LoL-RL

以上です.今後仕事で使いそうであれば,続きを書いていきたいと思います.

この記事が気に入ったらサポートをしてみませんか?