強化学習ー最近の動向

2023年1月20日 00:13

最近話題のChatGPTのベースのモデルであるOpenAIのInstructGPTの訓練では強化学習が取り入れられています。最近、一般のニュースであまり話題になっていない強化学習ですが、強化学習の研究は今日でも綿々と続いています。

そんなわけで、強化学習（Reinforcement Learning、RL）の歴史を辿りながら近年の動向まで見渡してみようと思います。

2013年にDeepMindの強化学習エージェントがアタリ（Atari）のゲームを人間並にプレイできることが論文によって発表されました。2014年にDeepMindはGoogleによって買収されています。

論文Playing Atari with Deep Reinforcement Learningより抜粋

2016年にはDeepMindのアルファ碁（AlphaGo）が李世乭（イ・セドル、Lee Sedol）に４勝１敗で勝利しました。その後もAlphaGoから進化したAlphaZeroなどが開発され将棋やチェスでも成功を収めました。

2019年なるとDeepMindのアルファスター（AlphaStar）がリアルタイム戦略ゲームのスタークラフト２（StartCraft II）でプロのトッププレイヤーに勝利しました。

こうしてみるとDeepMindばかりが活躍しているように見えますが、そんなことはありません。

2017年にOpenAIのOpenAI FiveがマルチプレイヤーゲームのDota2でプロプレイヤーに勝利しています。OpenAIはPythonで強化学習を実験できる環境GymをGitHubで公開し多くの研究者やホビイストが強化学習を試みました。現在は、GymnasiumとしてNPO団体のFarama Foundationに受け継がれて維持されています。

また、Unityのゲーム開発環境を利用して強化学習の訓練を行えるML Agentsもベータ版バージョン0.１が出たのが2017年です。今では、バージョン2.0になっています。

Microsoftが以前に買収したマインクラフト（Minecraft）の環境で強化学習を行う試みも現れました。2019年に論文やデモを発表されています。

こうして歴史を辿ると強化学習はゲームが得意なのがわかります。全体的に報酬を高めるような行動を学ぶのが強化学習なので報酬の数値化がはっきりしているゲームで威力を発揮しやすいためでしょう。

しかし、もちろん、強化学習はゲーム専用ではありません。数値で効果が測れるものなら応用が効きます。

2016年にはGoogleがデータセンターの冷却電力を40％の削減することに成功したと発表しています。ここでもDeepMindの強化学習が使われています。

2017年にバークレー工科大学のPieter Abbeelはロボティックスで強化学習を応用する会社Covariantを立ち上げています。彼は以前はOpenAIに属していました。

同じく2017年にはMicrosoftはドローンや自動運転のシミュレーションを行うためのAirSimをリリースしています。これを使って強化学習を行う試みがさまざまな研究者や開発やによって行われました。2018年にはUnityでAirSimを使う環境も現れました。

しかし、強化学習は自動運転に関しては当初期待されたほどの成果が上がらなかったのが実情でしょう。また今日において強化学習による自動運転がどの程度研究開発されているのかも不明です。自動運転関連に興味のある方は、AWSのDeepRacerやDIY Robocarsなどが参考になるかもしれません。

いずれにせよ、強化学習によるゲームなどはやり尽くした感があり、他にこれといって万人ウケするきらびやかな成果もあまりなく、ここ数年は強化学習が一般のニュースに出ることはあまりなかったような印象を受けます。

とは言うものの、強化学習の研究は綿々と続いています。

2022年には、DeepMindが強化学習によって核融合発電に役立つプラズマを自立制御できるAIを開発したことを発表しました。

同じ頃に、OpenAIはInstructGPTを発表しました。GPT3に強化学習を適応することでより人間が相応しいと考える文章を生成するように調整されたのがInstructGPTで、最近話題のChatGPTのベースにもなっています。

また、医療、交通管理、マーケティングなどさまざまな分野への応用や研究が進められています。

強化学習を基礎から学んでみるのも一考かもしれません。

ここから先は

0字

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング関連の用語説明、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？