【論文瞬読】スマホを操作するAIエージェント「DigiRL」爆誕！🤖✨

2024年6月23日 19:26

こんにちは！株式会社AI Nestです。最近話題のChatGPTをはじめ、自然言語で指示を与えると人間のように振る舞うAIが注目されていますよね。🤖💬 今回は、そんなAIの中でも、スマホをまるで人間のように操作できるAIエージェント「DigiRL」について解説します！📱✨

タイトル：DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning
URL：https://arxiv.org/abs/2406.11896
所属：UC Berkeley, UIUC, Google DeepMind
著者：Hao Bai, Yifei Zhou, Mert Cemri, Jiayi Pan, Alane Suhr, Sergey Levine, Aviral Kumar

そもそも「DigiRL」って何？🤔

DigiRLは、強化学習という手法を使ってAndroidデバイスを操作するAIエージェントを訓練するためのフレームワークです。
強化学習とは、試行錯誤を通じて報酬を最大化するように学習していく方法のこと。
DigiRLは、この強化学習をオフラインとオンラインの2段階で行うことで、スマホ操作を効率よく学習します。🏋️‍♀️

なんでDigiRLがすごいのかって？🧐

これまでのスマホ操作AIは、人間が操作したデータを見せる「模倣学習」が主流でした。
しかし、模倣学習では、想定外の状況に弱く、エラーからのリカバリーが苦手という課題がありました。😭
例えば、アプリのアップデートや予期せぬポップアップ広告など、実世界のスマホ操作で起こりうる様々な状況に対応できないことが問題でした。図3

Figure3, 環境の詳細。上：アクション空間と環境のダイナミクス。下: 読み込まれた世界の非定常性と環境のダイナミズムの例。

一方、DigiRLは強化学習を使うことで、試行錯誤しながら自分で学習し、未知の状況にも対応できるようになりました！💪✨

Figure2, DigiRLと他のアプローチとの定性的比較。人間の静的なデモンストレーションから訓練されたAutoUIは、配布外の状態で簡単にスタックすることができ、GPT-4Vはしばしば間違ったゴールに到達してしまう（bestbuy.comの代わりにGoogleで "logitech g933bestbuy.com logitech g933 "と検索）。対照的に、DigiRLはそのような状態から回復し、要求された複雑な命令を完了することができる。

図2は、DigiRLと他の手法（AutoUI、GPT-4V）を比較した例です。複雑な指示に対しても、DigiRLはタスクを達成できることがわかります。
これにより、複雑なタスクでも人間のようにスムーズにスマホを操作できるようになったんです。

DigiRLはどうやって学習するの？🤖🧠

DigiRLの学習は、大きく2つのフェーズに分かれています。図1

Figure1, DigiRLの概要DigiRLは、一般的な知識、推論、視覚的下地といった基本的なスキルを開発するために、広範なウェブデータで事前に訓練されたVLMをベースに構築されています。最初に、オフラインRLを採用し、古いタスク固有のデータを用いてVLMを微調整することで、目標指向の行動を引き出すことができます。その後、我々のエージェントは、オンラインRLと自律的な性能評価により、継続的に性能を向上させながら、実世界のグラフィカルユーザインタフェースに関与する。

オフライン学習: まず、事前に収集されたデータを使って、ある程度スマホ操作を学習します。
オンライン学習: 次に、実際にスマホを操作しながら、成功や失敗の経験をフィードバックとして受け取り、さらに学習を深めます。

DigiRLのすごいところは他にも！😎

DigiRLは、大規模なWebデータで事前学習された言語モデルをベースにしているため、一般的な知識や推論能力も持ち合わせています。
つまり、ただスマホを操作するだけでなく、状況を理解して適切な判断ができるんです！賢い！🧠✨

DigiRLが変える未来とは？🚀

DigiRLのような技術が進歩すれば、スマホ操作をAIに任せて、人間はもっと創造的な活動に時間を割けるようになるかもしれません。🎨✨
例えば、旅行の計画を立てたり、プレゼンテーションのデザインを考えたりといった面倒な作業をAIが代行してくれるかも！

まとめ💡

今回は、スマホを人間のように操作できるAIエージェント「DigiRL」について解説しました。
DigiRLは、強化学習という手法を使って自律的に学習することで、複雑なタスクにも対応できるようになりました。表1は、DigiRLと他の手法を比較した結果です。

Table1, 様々な設定におけるエージェントの主な比較。各オフライン実験は3回繰り返され、平均と標準偏差が報告される。各オンライン実験は2回繰り返される。結果は、訓練セットとテストセットの最初の96命令で、我々の自律評価器を用いて評価される。我々の相関と人間の判断の相関は図8で見ることができる。

この技術がさらに発展すれば、私たちの生活はより便利で豊かなものになるでしょう。

この記事が面白かったら、ぜひシェアしてくださいね！😊