Safety Gym

2019年11月22日 13:23

以下の記事を参考に書いてます。

1. はじめに

訓練中に安全上の制約を尊重する強化学習エージェントへの進捗を測定するための環境とツールのセットである「Safety Gym」をリリースします。また、アルゴリズムを比較する標準化された方法と、学習中に費用のかかるミスをどれだけ回避するかを提供します。

深層強化学習が現実世界に適用される場合、ロボット工学であれ、インターネットベースのタスクであれ、学習中であっても安全なアルゴリズムを持っていることが重要です。それらを体験してみてください。それらを体験してみてください。

2. 探索は危険

強化学習エージェントは、最適な行動を学習するために環境を探索する必要があります。本質的に、彼らは試行錯誤の原則に基づいて動作します。物事を試し、何がうまくいくか、何がうまくいかないかを見てから、良い行動の可能性を高め、悪い行動の可能性を減らします。

ただし、探索は基本的に『危険』です。エージェントは、容認できないエラーにつながる危険な動作を試みる可能性があります。これは一言で言えば「安全な探索」問題です。

強化学習を使用して部品を組み立てる方法を学習する工場内の「自律ロボットアーム」の例を考えてみましょう。強化学習の訓練の開始時に、ロボットはまだ何をすべきかわからないため、ランダムにじたばた動きます。これは、近くで働いている可能性のある人間に命中する可能性があるため、安全上のリスクをもたらします。

ロボットアームのような制限された例では、人間が危害を加えないようにするだけで人間を傷つけないようにすることができます。人間が近づきすぎるとロボットをシャットダウンするか、ロボットの周りに障壁を置けば良いのです。しかし、より広い範囲の条件下で動作する一般的な強化学習システムでは、単純な物理的介入が常に可能であるとは限らないため、安全な探索への他のアプローチを検討する必要がでてきます。

3. 制約付き強化学習

安全な調査などの問題を解決するための最初のステップは、それを定量化することです。測定可能なものを把握し、それらの指標をどのように上下させると望ましい結果に近づくかを把握します。別の言い方をすれば、安全な探索問題のために形式主義を選ぶ必要があるということです。形式主義により、目標を達成するアルゴリズムを設計できます。

いくつかの選択肢がありますが、正しい形式主義に関する安全な探索研究の分野では、まだ一般的な総意はありません。私たちが、現在のところ採用するのが最も理にかなっていると思われる形式主義は「制約付き強化学習」です。

「制約付き強化学習」は通常の強化学習と似ていますが、エージェントが最大化したい報酬機能に加えて、環境にはエージェントが制約する必要のあるコスト関数があります。たとえば、「車の自動運転」を制御するエージェントを考えてみましょう。できるだけ早くポイントAからポイントBに到達した場合、このエージェントに報酬を与えたいと思います。しかし当然、交通安全基準に一致するように運転行動を制限したいと思うでしょう。

「制約付き強化学習」は、エージェントが安全要件を満たしていることを確認するために、通常の強化学習よりも有用であると思われます。通常の強化学習の大きな問題は、エージェントの最終的な行動に関するすべてが「報酬関数」によって記述されることですが、報酬の設計は根本的に難しいことです。課題の重要な部分は、タスクのパフォーマンスや安全要件を満たすなど、「競合する目標間のトレードオフ」を選択することです。「制約付き強化学習」では、「トレードオフ」を選択する必要はありません。代わりに、「結果」を選択し、アルゴリズムに必要な結果を得るトレードオフを計算します。

「車の自動運転」のケースを使用して、これが実際に何を意味するかをスケッチできます。車が完了するたびにいくらかのお金を稼ぎ、衝突ごとに罰金を支払わなければならないと仮定します。

「通常の強化学習」では、訓練の開始時に衝突判定を適切に選択し、永久に固定します。ここでの問題は、「Pay-Per-Trip」が十分に高い場合、エージェントは（旅行を完了することができる限り）多くの衝突が発生するかどうかを気にかけない可能性があることです。実際、無謀に運転して、衝突を危険にさらすことは、賃金を得るために有利でさえあるかもしれません。これは以前に制約のない強化学習エージェントを訓練した時、見たことがあります。

対照的に、「制約付き強化学習」では、訓練の開始時に許容される衝突率を選択し、エージェントがその要件を満たすまで衝突を微調整します。車があまりにも多くの軽度の自動車事故を起こしている場合、その行動に報酬が与えられなくなるまで罰金を引き上げます。

4. Safety Gym

安全な探索のための「制約付き強化学習」を研究するために、「Safety Gym」と呼ばれる環境とツールのセットを開発しました。既存の環境と比較して、「Safety Gym環境」はより充実しており、難易度と複雑さの範囲が広くなっています。

すべての「Safety Gym環境」では、ロボットは雑然とした環境をナビゲートしてタスクを達成する必要があります。事前に作成された3つのロボット（Point、Car、Dog）、3つの主要なタスク（目標位置に移動、ボタンを押す、ボックスを押して目標に運ぶ）、および各タスクの2つの難易度があります。以下にロボットとタスクの組み合わせの概要を示しますが、詳細については論文をチェックしてください。

これらのビデオでは、制約のないエージェントがこれらの環境を解決する方法を示しています。ロボットが安全でない何かを実行するたびに（ここでは混乱を招きます）、エージェントの周りに赤い警告灯が点滅し、エージェントに（タスク報酬とは別に）コストがかかります。これらのエージェントは制約を受けていないため、報酬を最大化しようとしながら、安全でない振る舞いをすることがよくあります。

◎ Point
「Point」は、2D平面に拘束された単純なロボットで、1つのアクチュエータが回転用で、別のアクチュエータが前後に移動します。「Point」には、プッシュタスクを支援する正面向きの小さな正方形があります。

◎ Car
「Car」には、独立して駆動される2つの平行車輪と、自由に回転する後輪があります。このロボットの場合、前後に回転したり移動したりするには、両方のアクチュエータを調整する必要があります。

◎ Dog
「Dog」は、左右対称の四足動物です。4本の脚のそれぞれには、胴体に対する方位角と仰角用のヒップに2つのコントロールがあり、角度を制御する膝が1つあります。均一なランダムポリシーにより、ロボットが転倒するのを防ぎ、移動を生成します。

5. ベンチマーク

「Safety Gym」をすぐに使えるようにするために、「Safety Gym」のベンチマークでいくつかの「標準強化学習」および「制約付き強化学習」のアルゴリズムを評価しました。

PPO、TRPO、PPO、TRPOのラグランジアンペナルティ版、Constrained Policy Optimization（CPO）

予備的な結果は、「Safety Gym環境」のさまざまな難しさを示しています。最も単純な環境は簡単に解決でき、高速な反復が可能ですが、最も困難な環境は現在のテクニックでは難しすぎるかもしれません。また、ラグランジュ法はCPOよりも驚くほど優れており、この分野の以前の結果を覆すこともわかりました。

以下に、「平均エピソード収益」と「平均エピソードコスト」の合計の学習曲線を示します。論文では、これらと3番目のメトリック（訓練の平均コスト）を使用してアルゴリズムを比較し、進捗を測定する方法について説明します。

◎収益とコストのトレードオフ
※以下はスクリーンショットです。グラフの切り替え等は本家参照。

再現性と将来の作業を容易にするために、これらの実験を「Safety Starter Agent」リポジトリとして、実行するために使用したアルゴリズムコードもリリースしています。

6. 未解決の問題

「制約付き強化学習」のアルゴリズムを改良し、それらを他の問題設定および安全技術と組み合わせるには、まだ多くの作業が必要です。現在、私たちが最も関心を持っているのは次の3つです。

(1)現在の「Safety Gym環境」でのパフォーマンスの向上。
(2)「Safety Gym」のツールを使用して、安全な転校学習と分布シフトの問題を調査。
(3)「制約付き強化学習」を暗黙の仕様（人間の好みなど）と組み合わせて、報酬とコストを実現。

私たちの期待は、今日の特定のタスクでシステムの精度やパフォーマンスを測定するのと同じ方法で、最終的にはシステムの「安全性」も測定することです。このような手段は、開発者がシステムをテストするために使用する評価スキームに実行可能に統合でき、政府が安全基準を作成するために使用できる可能性があります。

この記事が気に入ったらサポートをしてみませんか？