見出し画像

AndroidEnv: Androidの強化学習環境

以下の記事を参考に書いてます。

AndroidEnv: The Android Learning Environment | DeepMind

1. はじめに

「AndroidEnv」は、Androidのエコシステムの上に構築された、強化学習の研究のためのオープンソースプラットフォームです。「AndroidEnv」では、強化学習エージェントが、人間が一般的に使用する様々なアプリやサービスを、ユニバーサルなタッチスクリーンのインターフェイスで操作することができます。エージェントは、Androidデバイスの現実的なシミュレーション上で学習を行うため、実際のデバイスにデプロイできる可能性があります。本報告では、この環境の概要と、研究のために提供される重要な機能を紹介し、このプラットフォーム上で構築されたタスクのセットで、いくつかの人気のある強化学習エージェントの実証的な評価を紹介します。

2. AndroidEnv

近年、強化学習の研究コミュニティは、汎用的な学習アルゴリズムの追求において大きな進歩を遂げています。環境の複雑化に伴い、「DQN」(Atari)、「AlphaGo」(Go)、「PPO」(Mujoco)、「AlphaStar」(StarCraft II)など、新しいアルゴリズムやエージェントが開発されてきました。研究者たちは、最先端の技術をさらに進化させるために、より刺激的な環境に取り組むことを求めています。

「AndroidEnv」は、エージェントがAndroid端末を操作し、「Android OS」上で構築されたカスタムタスクを解決するためのプラットフォームです。「AndroidEnv」では、エージェントは画面に表示された画像に基づいて判断を下し、人間と同じようにタッチスクリーンでのアクションやジェスチャーでインターフェースを操作します。

画像1

「Android OS」全体にアクセスできるため、エージェントが利用できるサービスやアプリケーションの種類は、ほぼ無限です。例えば、エージェントはインターネットを閲覧したり、YouTubeアプリを開いたり、アラームを設定したり、ゲームをしたりすることができます。何十億人もの人々が日常的に使用している実世界のプラットフォーム上で強化学習のエージェントが動作する可能性があることは、新しい研究の機会をもたらします。

画像2

「AndroidEnv」は、プラットフォームの柔軟性と実世界的な側面に加えて、その多様な機能のおかげで強化学習の研究にとって特に魅力的なドメインです。「AndroidEnv」でタスクを解決するために学習するには、エージェントは長い間研究者の関心を集めてきた、複数の種類の課題を克服する必要があります。

・転送と一般化 : 観察空間と行動空間は全てのアプリケーションで同じであるため、性質の全く異なるタスク間で知識を伝達する機会が多くあります。
・時間的抽象化 : ジェスチャーや柔軟な行動の組み合わせ方を学ぶことは、エージェントが膨大なネイティブ行動空間を扱えるようにするために必要です。
・リアルタイムダイナミクス : サービスやアプリケーションはリアルタイムにシミュレーションされるため、環境のダイナミクスはロボットの制御タスクに似ています。
・スケール : 観察空間と行動空間の大きさは、強化学習エージェントにとって興味深いスケーリングの問題を提起します。

Androidの大規模なエコシステムは、様々なタスクを定義する可能性を広げ、エージェントが同じプラットフォーム上で異なるタイプの目的を達成するための学習を可能にします。例えば、公園までの道順を調べる、飛行機を予約する、ゲームのスコアを最大化する、などの目標を設定することができます。「AndroidEnv」は、任意のAndroidアプリをベースにして、そのようなカスタムタスクを柔軟に作成するための、わかりやすいメカニズムを提供します。そのための明確な手順に加えて、「AndroidEnv」の可能性を示す一連のサンプルタスクを公開します。これらには、Clockアプリのような一般的なAndroidユーティリティや、2048、Solitaire、Chessのような有名なゲームで定義されたタスクが含まれています。

また、「The Battle of Polytopia」の作者である「Midjiwan」とのコラボレーションを開始し、彼らのゲームを「AndroidEnv」のタスク*1として統合することができました。このゲームは、長期的な計画、不完全な情報、多様なUI要素、非決定論などを扱う必要があるという特徴があり、特に興味深い課題だと考えています。

画像3


「AndroidEnv」は、そのユニークな機能により、既存のRL環境を補完し、RL研究の限界を押し広げる助けとなることを期待して、コミュニティ全体のためにリリースしています。

「AndroidEnv」の詳細については、arXivに掲載されているテクニカルレポートや、GitHubリポジトリを参照してください。

*1 現時点では、DeepMind社の内部でのみ利用可能です。


この記事が気に入ったらサポートをしてみませんか?