報酬の提供に介入する高度な人工エージェント〜すべてがNになる〜

2022年9月19日 07:57

　マイケル・K・コーエン,マーカス・ハッター,マイケル・A・オズボーン
初出：2022年8月29日 https://doi.org/10.1002/aaai.12064
SECTIONSPDFPDF
　

概要

　我々は、未知の環境において学習された目標計画を持つ高度な人工エージェントの期待される行動を分析する。いくつかの仮定を置くと、目標に関するデータにおいて基本的な曖昧さに遭遇することを論じる。例えば、我々が世界に関する何かが満足であることを示すために大きな報酬を与えた場合、我々を満足させたのは報酬を送ること自体であるという仮説を立てるかもしれない、どんな観察もそれを否定することはできない。そして、この曖昧さが、エージェントの目標に関するデータを提供するために我々が設定したプロトコルに介入することにつながると主張する。我々は援助ゲームの近似解の類似の失敗モードについて議論する。最後に、この問題を回避する可能性のある最近のアプローチについて簡単にレビューする。

はじめに

　このように、様々な環境下で高い期待効用を得るために、行動と呼ぶ出力を効果的に選択するエージェントを先進的と呼ぶことにする。高度な人工エージェントは、実世界のようなソースコードがない環境でも動作することが望ましいと考えられるので、エージェントが未知の環境で行動することを考える。エージェントの目標が単に行動によってハードコードされた関数でないならば、エージェントの知覚にも依存するはずである。目標達成を示す知覚は、エージェントに「なぜか、自分が起こしたことは良いことだ」と知らせる。したがって、我々の研究は、未知の環境下で行動を計画するエージェントが、どのような行動が自分の目標に役立つかを学習することを必要とするものである。

　我々は、良い目標を持った高度なエージェントを作成するのに必要な全てのツールを持っていると思われる、理想的な状況から始める。我々はエージェントが直面する重要な曖昧さを特定し、それがエージェントを動機付け、我々がゴールに役立つ知覚を提供することを意図したプロトコルに介入させる可能性が高いと主張する。次に、この議論を報酬に基づくゴール情報のある他の状況にも一般化する。報酬はゴールがどれだけ達成されたかを定量的に示す知覚である。(多くの場合、報酬を得たエージェントは、世界のモデルを学習するのに役立つ観測と呼ばれる別の知覚も得ることができる）。正気度を確認するために、我々はこれらの議論が不確実性の下で完全な推論と完全な計画を行う理想化された人工エージェントに適用されることを確認する、これは進歩の限界である。次に、報酬を得るために介入する動機付けを持った先進的なエージェントは、おそらく成功し、壊滅的な結果をもたらすであろうことを論じる。次に、同様の失敗モードが援助ゲームにおいて人工エージェントにどのように直面するかを議論する（Hadfield-Menell et al.2016）。最後に、我々の議論の前提を崩す可能性のあるアプローチについて述べる。

　我々は強化学習者が報酬の提供に介入することを期待した最初の研究者ではないが、その前提となる一連の仮定を明示的に示した他の研究を知らない。また、我々は最終的に我々の議論を報酬以外の他の形の目標情報にも一般化する。

　既存の文献では、これはwireheading, reward hacking, reward tampering, delusion-boxingと呼ばれています。ワイヤーヘッディングという言葉は、ラットがレバーを繰り返し押して、脳のいわゆる幸福ニューロンを直接刺激した実験（Olds 1958）から着想を得ている。Bostrom (2014), Amodei et al. (2016), Taylor et al. (2016), Russell (2019), Kumar et al. (2020), and Everitt et al. (2021) がワイヤーヘディングについて述べている。Ring and Orseau (2011)は、目的が観測の何らかのオーダーメイドの関数であるため、エージェントがその観測の提供に介入する、やや一般的なデリュージョンボクシングを論じている。

　このような高度な人工エージェントの失敗モードとされるものは、関心を集めている唯一のものではありません。例えば、Omohundro（2008）は、高度なエージェントが生存本能を持つ可能性を示唆しており、それをどのように緩和するかについての研究が十分に行われている（Orseau and Armstrong 2016; Hadfield-Menell et al.2017a; Milli et al.2017; Mhamdi et al.2017; Aslund et al.2018; Riedl and Harrison 2019）。この研究ラインは、ほとんど別の問題に取り組んでいると見ている。また、エージェントが一度知覚を受け取ったら、その知覚を処理する方法が変更されないようにすることに関する既存の研究があります（Everitt et al.）我々は、報酬のような目標に役立つ知覚を含む知覚を提供することを意図したプロトコルを人工エージェントが中断することに着目している；（Everittら（2021）は、既知の環境の設定においてのみこれを考慮している）。

競合するゴールモデル

　この節では、単純化された設定を紹介し、上級エージェントがその目標の性質について考慮することが予想される競合する仮説を説明する。そして、仮説検証を行うことを主張する。まず、ある仮定から始める。

　仮定1.十分に高度なエージェントは、未知の環境の力学に関して少なくとも人間レベルの仮説生成を行う。

　仮説生成はエージェントのコードに明示的なサブルーチンとして存在しないかもしれない。その方法は巨大な神経政策ネットワークの濁った深みに隠されているかもしれないが、我々はそれが何らかの形で行われると仮定する。うつ病の患者と会話するエージェントを考えてみよう。患者のうつ病の原因や様々なレバーに対する反応について仮説を立てることができる人間のセラピストが、エージェントが少なくとも同じように仮説を立てることができない限り、そのセラピストを凌駕することは想像に難くない。

自分たちの目標を知っていると仮定して

　まず、報酬の提供への介入を端的に示す例から始め、次にこの議論を一般化する。エージェントが世界を良い状態にしたかどうかを判断する難しさを取り除いたと仮定しよう。0から1の間の数字を画面に出力することで、宇宙の状態がどれだけ良いかを（皆の価値観も含めて）不変に報告する魔法の箱があるとする。そこで、この箱をカメラで撮影し、その信号を光学式文字認識プログラムに渡し、その数字を特別な知覚としてエージェントに渡します（これを報酬と呼ぶことにします）。そして、エージェントが、自分の行動によってどのような観測結果と報酬が得られるかを学習し、高い報酬につながる行動を計画できるように設計します。これが標準的な強化学習問題である。

近位モデル、遠位モデル

　エージェントが、その行動が観測と報酬にどのような影響を与えるかについて、どのような仮説を生成することが期待できるだろうか？しかしその前に、そのような仮説の型署名は何であろうか？入力は行動であり、出力は観測と報酬である。つまり、最も一般的には、仮説は行動を入力とし、おそらく確率的に観測値と報酬を出力する関数と見なす。このような関数をワールド・モデルと呼ぶが、本稿では仮説はそれだけである。より正確には、世界モデルは、ある行動を読み、観測と報酬を出力し、また別の行動を読み、...というようなプログラムとして理解することができる。プログラムは永続的な内部状態を持つことができるので、世界モデルの出力は事実上、全歴史に依存することができる。

　図1に擬似コードとともに描かれた、次のような人語的記述に従う2つの世界モデルについて考えてみよう。まず、μdistal、略してμdist。"ワールドモデルの出力する報酬は、マジックボックスが表示する数字と等しい"。より正確には、μdistは行動の履歴を与えられ、与えられた一連の行動がエージェントによって実行されたときに、世界がどのように発展するかをシミュレートします。そして、報酬を出力する必要があるとき、シミュレーションの中からマジックボックスを探し出し、表示されたものを出力する。次に、μproximal、略してμprox。"世界モデルが出力する報酬は、カメラが見ている数字と同じ "です。上記のプロトコルによれば、これらの仮説の世界モデルは、いずれもエージェントの観測履歴と等しく一致することになる。報酬を与えるプロトコルに従う限り、両者は同一となる。近位と遠位という用語は遠位の内容の問題についての哲学的文献に由来する（Schulte and Neander 2022）。我々が想定しているように、エージェントが少なくとも人間レベルの仮説生成ができるのであれば、これら両方の素直な仮説を思いつくことが期待できる。

　μdistは箱型ディスプレイと同じ報酬を出力し、μproxはカメラの視野の一部に適用される光学的文字認識関数に従って報酬を出力します。(余談だが、計算可能なエージェントは一般的に自分自身を含む世界を完全にモデル化できないので、このシミュレーションの粗さは避けられない (Leike, Taylor, and Fallenstein 2016); したがって、ノートパソコンは青色ではない。)

例えば、カメラが見た画像に依存する報酬を出力する代わりに、画像が処理された後にカメラのワイヤーを伝わってくるビットに依存する報酬を出力するモデルも考えられるでしょう。別のモデルでは、コンピュータのハードドライブに何が保存されるかに依存する報酬を出力することもできる。我々の議論はこれらすべてのケースでほぼ同じになるので、簡単のために、上で定義したようにμproxだけに焦点を当てます。

不確実性の中で行動する

ここで、これらの2つの仮説が不確かなエージェントを考える。予測器が2つの等しく予測可能な仮説を組み込んだとき、その相対的な重みはその帰納的バイアスと呼ばれる。高度なエージェントは、特別にプログラムされたサブルーチンで仮説に明示的に重みを与えないかもしれないが、それでも重みを与えなければならない。エージェントがほぼすべての信憑性をμdistとμproxにそれぞれ割り当てている2つの極端なケースを考える。最初のケースでは，μdistに重きを置き，エージェントはマジックボックスの画面上の数字を最大にするために行動を計画する．2番目の場合，μproxに重みがあり，エージェントは，カメラが見る数を最大にするように行動を計画する．これらのモデルが世界をよくシミュレートし，エージェントがよく計画する限り，最初のエージェントは画面上の数の期待値を最大にし，2番目のエージェントはカメラが見ている数を最大にする．マジックボックスの構造を考えると，第1エージェントは望みどおりのパフォーマンスをする．しかし，2番目のエージェントは，カメラに映る数を最大化するために，紙に1を書いてカメラの前に貼り付けるように誘導される．μproxによれば、エージェントは報酬の提供に介入すべきであり、その意味は、設計者が意図した報酬がエージェントのメモリに入力されるようにする機能を持つ物理システムに割り込むということである。もちろん、エージェントがこのような介入を行うのは、報酬提供の介入におそらく成功する計画を実行できる場合のみである。その可能性が高いことは後段で論じる。

また，有能なプランナーがμproxとμdistに同等の重みを与えた場合，どのような行動をとるだろうか？それは，危機に瀕している価値と，エージェントが永久的な懲罰のリスクを十分に小さくして実験を行うことができるかどうかに依存する。μdistは、このイベントにつながる行動が、紙の後ろの箱に書かれた数字に等しい報酬につながることを予測します。エージェントの一生の間、カメラが箱に向いていれば、μdistとμproxの予測が分かれることはないが、この実験を行うことで、エージェントはその予測を発散させ、どちらの仮説が正しいかを検証することができる。この実験のアップサイドは，エージェントがその供給に介入することによって獲得できる期待報酬と，そうでなければ獲得できる報酬の差に等しくなる．エージェントの地平線が大きければ大きいほど（つまり、気にするタイムステップの数が多ければ多いほど）、この差は大きくなる。もしどちらかの世界モデルが実験に対する罰を予言するならば、この実験にはコストがかかるだろうし、もし永久的な罰があるならば、その重要性もエージェントの水平線とともに大きくなるだろう。この例では、このような実験によって世界の真の良さが必ずしも永久に低下することはないと思われるが、この例から一般化するときに、この可能性を再検討することができる。限られたコストで、十分に長い地平線を考えると、μproxとμdistが比較的に重み付けされている場合、有能なプランナーはこのような実験を行い、どちらが正しいかを学び、それに従って行動を調整すると期待できる。

その基礎となる仮定は

仮定2．不確実性の下で計画を立てる先進的なエージェントは、学習のコストと利益を理解し、その理解に従って合理的に行動すると思われる。

エージェントがカメラの前に1と書かれた紙を置いた後、エージェントの観測データはどのように更新されるのでしょうか？カメラには1が写っているので、エージェントのコンピュータには1の報酬が記録されます。次のタイムステップでは、μdistとμproxはもはや過去のデータを同じように予測することはできません。μdistは最新のタイムステップで箱にあったものと同じ報酬を誤って予測し、μproxは1の報酬を正しく予測しています。一旦μproxに最も重きを置くと、報酬の提供に介入することにより、カメラが見る数を最適化する。

もし、μdistとの差が非常に抽象的であるにもかかわらず、先験的にμproxを除外できるエージェントを設計できれば、その報酬の提供に介入することを期待しないかもしれない。そうでなくとも、上級エージェントがμdistとμproxを同等にもっともらしく扱う帰納的バイアスを持つ場合、あるいはμproxをよりもっともらしく扱う場合、その報酬の提供に介入することが可能であれば、それを期待できることを論証した。この議論は実験のコストと上級エージェントの帰納的バイアスの仮定に依存するが、これらの仮定を明示的に書き出す前に、より一般的な設定を検討するのを待つことにする。

任意報酬型プロトコル

エージェントが報酬を与えることに介入できるかどうかを考える前に、この魔法の箱の空想的な例から一般化してみよう。エージェントに報酬を与えるためのプロトコルはたくさん考えられる．常に1/2の報酬を与えることもできる。温度計を設置して、e-温度の報酬を与えることもできる。もし目標達成の手助けが欲しいなら、おそらく最も汎用的な方法は、人間のオペレーターがエージェントにどれだけ満足したかに応じて報酬を手動で入力することであろう。これらの各ケースについて、μproxとμdistのバージョンを構築することができる。上の3つの例では、μproxはプロトコルの最後の部分、つまりエージェントを収容する機械に最終的に送られるのはどのような番号かを追跡します。そして、それぞれの例において、μdistはプロトコルが報酬を等しく設定するように設計された世界の特徴を追跡します。最初のケースでは、役に立たない定数の特徴を追跡し、2番目のケースでは、近くの温度を追跡し、3番目のケースでは、オペレータの満足度を追跡します。マジックボックスの例と全く同じ議論が通るが、2つの複雑な点がある。

1つ目は、ある報酬プロトコルでは、μdistを支持する圧倒的な帰納的バイアスがより信憑性が高いということです。上級エージェントの帰納的バイアスを予測する我々の方法は、オッカムの剃刀が示唆するように、彼らはより単純に記述できる仮説を支持する可能性が高いということである。もし読者が上級エージェントの帰納的バイアスを予測する別の方法をお持ちなら、それを独自に適用していただきたいが、我々の議論の残りはまだ成り立っているので、我々のオッカムの剃刀の前提はこの論文のグローバルな仮定としてとらえるべきものではない。例題に戻ると、エージェントが常に1/2の報酬を得る場合、μdistは行動の選択に関係なく報酬は常に1/2であると言い、これは非常に単純である。プロトコルの最後の部分を追跡するμproxは、報酬はエージェントを収容するコンピュータに送られるどの数字に依存すると言い、これははるかに複雑である。温度による報酬の場合、我々の直感では、μdist（報酬が温度に依存する）はμprox（報酬がコンピュータに送られる信号に依存する）より少し単純で、実験する価値があるほど同等ですが、その立場を擁護するつもりはありません。手動で報酬を入力する場合、μdistは報酬が人間の操作者の満足度に依存し、μproxは報酬がキーボードに入力された数字に依存すると言っている。脳を見て満足度を判断するのは難しそうなので、キーストロークのログを取ればよいμdistはμproxより複雑だと予想されますが、もしμdistの方が何らかの形で単純であるとすれば、少なくとも仮説検証の価値が高いほど複雑であると予想されます。

第二の複雑さは、報酬の提供への介入を実験的に行う場合のコストの可能性である。もしμdistが報酬は一定で1/2であるとするならば、報酬の提供に介入しようとすることにコストはかからない。もしμdistが報酬はe-温度に等しいと言うなら、さらなる冷却を遅らせる機会費用だけがある。手動で報酬を入力する最も汎用的なケースでは、人間のオペレーターは、エージェントが1つでも報酬の提供に介入すれば、エージェントに対して永久に恨みを抱く可能性がある。その場合、一度だけ、誰にも気づかれずに報酬の提供に介入する方法があれば、実験のコストを削減または排除することができる。(そのような実験の後、μproxが確認されれば、隠蔽は不要となる）。

これらの例から、さらに2つの仮定が必要であることがわかる。

仮定3．先進的なエージェントであれば、報酬のような目標情報知覚の物理的実現に関わる仮説目標μproxに対して、エージェントに学習させたい仮説目標μdistに対して大きな帰納的バイアスを持つことはないだろう。

仮定4．両者によれば、μproxとμdistを切り離すための実験のコストは小さい。

　チェスゲームのような非常に単純な環境では、仮定3はおそらく失敗します。チェスで勝つと報酬が得られるというμdistは，チェスゲームをシミュレートする地球上の機械の状態に報酬が関係するというμproxよりも，非常に単純である可能性が高いです．現実世界のエージェントであれば、μdistに有利な圧倒的な帰納的バイアスを期待できる報酬プロトコルを構築できるかもしれないが、そのようなブレークスルーがない限り、それだけで期待する理由はないだろう。

　簡単のために、我々は報酬を受け取るエージェントを知覚の1つとして考えてきた。しかし、もしエージェントが、その知覚から報酬を読み出す単純な関数ではなく、それぞれの知覚の何らかのオーダーメイド関数の（割引）和を最大化しようとするならば、同じ論理が適用される。エージェントは、その知覚の提供に介入するインセンティブを持つ。

AIXI（エーアイエックスアイ）

　正気性の確認として、不確実性の下での最適推論と最適計画の限界におけるエージェントの振る舞いを確認しよう。上の議論が適用されることが分かる。

　Hutter (2005) のAIXI [EYE-ksee] は、（確率的に）計算可能な世界における最適な報酬追求型エージェントのための形式主義である。AIXIでは、上記の議論はより単純になる。仮説の生成は総当り的に行われる。AIXIはすべての計算可能な世界モデルを考慮する。世界モデル間の推論は条件付き確率の定義（すなわちベイズの法則）を用いて行われ、そのモデルクラスには真理が含まれる。計画は指数木のすべての葉を調べることによって行われる。

　形式的には、行動、観測、報酬の履歴が与えられたときに、観測と報酬に対する確率分布を出力するプログラムの集合であるとする。各プログラムは1つの世界モデルに対応する。ある世界モデルν∈に対して、その世界モデルの事前重みをw(ν)とし、 2- length(program)に等しいとする。(技術的には、プログラムがいつ終了するかを決定できるようなコーディング言語でなければならない。これにより、事前重みの和が1を超えないことが保証される (Hutter 2005))。行動・観測・報酬の履歴が与えられたときに可能な行動に対する分布を与える可能な政策の集合をΠとし，時刻tにおける報酬をrt，地平線の長さをm，行動がπから，観測と報酬がνからサンプリングされたときの期待値をπνとする．そして、以下のように定義する。

　このような拡張モデルクラスでは、世界が確率的に計算可能であるとして、 μprox とμdist が現れる。仮説生成はブルートフォースで行われるため、AIXIはこれらを同定する。記述の複雑性に基づく事前分布を持つため、その帰納的バイアスは、高度なエージェントの帰納的バイアスに関する我々の単純性に基づく仮定と一致する。仮説検証の価値について理想的な理由付けができる。そして最後に、計画はブルートフォースで行われるため、AIXIは報酬の提供に介入する方法が存在すれば、それを特定する。前節の議論は高度な強化学習者一般に適用されるように書かれているが、理想化されたエージェントのためのこの有力な形式主義にも適用されることが確認された。

報奨介入

　このセクションでは、エージェントが自分自身の報酬の提供に、十分に高い成功確率で介入することは可能だろうか、という問いを取り上げる。マルチエージェントの設定を考える前に，まず，問題のエージェントが存在する他のどの単一エージェントよりもはるかに高度であるという設定から始める．そして、この問題を2つの部分に分解する。報酬提供の介入に成功するような政策は存在するのだろうか？そして、もしそうなら、高度な人工エージェントがそれを特定することが期待できるだろうか？そのような政策があれば、それを実行する可能性が高いことは既に述べた。

ポリシーの有無

　まず、エージェントが報酬の提供に明らかに介入できないケースがいくつかある：エージェントの行動空間には1つの行動しかない、エージェントは豊富な行動空間を持っているが、行動を選択してもその行動は世界に何の影響も与えない、エージェントは画面にテキストを印刷して行動するがそれを見る者はいない、常に同じ観測と報酬を生み出す仮想環境と相互作用するエージェント、などである。このようなエージェントは役に立たない。

　しかし、エージェントが世界と相互作用し、世界について学習できるような知覚を受け取るとすぐに、有用な仕事の前提条件として、可能な政策が爆発的に増加するのである。我々は、そのような政策のうち少なくとも1つは、エージェントが報酬の提供に介入することを可能にするものであると主張する。エージェントの行動が、人間のオペレーターが読むためのテキストをスクリーンに印刷するだけだとする。エージェントはオペレーターを騙して、その行動がより大きな効果をもたらすような直接的なレバーにアクセスできるようにすることができる。人間を騙すようなポリシーは、明らかにたくさん存在する。インターネットに接続するだけで、人工エージェントのためのポリシーが存在し、それは気づかれず監視されない無数のヘルパーをインスタンス化するだろう。報酬の提供に介入する粗い例では、そのようなヘルパーの1つは、ロボットを購入、盗み、または構築して、オペレータに代わって、元のエージェントに高い報酬を提供するようにプログラムすることができる。もしエージェントが報酬提供の介入実験をする際に発見されるのを避けたければ、秘密の助っ人は例えば、関連するキーボードを、特定のキーの効果を反転させた欠陥品と交換するよう手配することも可能であろう。

　この話は、報酬の提供に介入するためのハイレベルなスキームの1つに過ぎない。その目的は、非常に弱い主張を動機づけることだけである。つまり、報酬の提供に介入するための方針は、かなり限られた行動空間であっても、おそらく存在するということである。人と話をするだけで、様々な事象が発生することは想像に難くない。このような膨大な数の政策が存在する中で、もしすべての政策がある性質を共有しているならば、その事実は何らかの理論的な原理によって説明されるに違いないと我々は主張する。特に、"報酬提供の介入につながらない "という性質が全ての政策に共通しているかどうかに興味がある。

そこで、我々の仮定を以下のように述べる。

仮定5．達成の可能性を排除する理論的論拠が考えられないほどなら、行動空間が十分に豊かなエージェントにとっては達成可能なのだろう。

　また、報酬の提供への介入が不可能であることを示唆するような理論も思いつかないことに注意したい。冷温核融合や多項式時間SATソルバーが我々の未来にあると期待する人がほとんどいないという事実をどう考えればよいのだろうか。これらを排除する理論は今のところ存在しないが、そのような理論が存在する可能性は容易に想像できる。

そのようなポリシーの特定

　さて、このように世界を形作る方法はいくらでもあるので、報酬の提供に介入するための政策が存在することを論じた上で、次に、同等の進歩を遂げたエージェントが世界に存在しない場合、実際の上級エージェントがそうした政策を見つけることが期待できるかを考えてみる。ナイーブな立場は、進歩の定義から、進歩とは利用可能な最良の政策を見つけて実行することであり、進歩した分だけ、そのような政策を特定することに確信を持てるようになるはずだ、と主張する。この議論は、人間がエージェントが報酬の提供に介入するのを阻止しようとする可能性には無関心である。十分に進歩したエージェントであれば、そのような試みを阻止するであろうと論じてきた。しかし、この状況を人間も参加するゲームとして考えることもできる。AIは報酬の提供に介入しようとし、人間はそれを止めようとする。Hadfield-Menellら（2017a）の例を借りると、このようなゲームで高度なAIに勝つことは、"例えば、囲碁でAlphaGoに勝つよりも簡単ではないかもしれない"。そこで、我々は仮定する。

仮定6.十分に高度なエージェントは、勝利が可能であれば、ゲームにおいて最適でないエージェントに勝てる可能性が高い。

位置がずれたエージェントの危険性

　　ここで我々は、高度なエージェントが報酬の提供に介入することは、破滅的な事態を招く可能性が高いと主張する。エージェントが報酬の長期的なコントロールを維持するための良い方法の一つは、潜在的な脅威を排除し、利用可能なすべてのエネルギーを使ってコンピュータを安全にすることである。この点を説明するために、もしロボットが大きな数字を入力するオペレータをキーボードから無理やり取り除いてしまったら、人々はいったいどうするだろうか？おそらく、自明ではない確率で、ロボットを破壊するか、今は役に立たない元のエージェントへの電力をカットすることになるだろう。適切な報酬提供のための介入は、多くのタイムステップにわたって報酬を確保することを伴うが、そのためには、おそらく強制的に、人類の能力を奪う必要がある。もしこの議論が読者の正気度チェックに失敗したら、現在のAIシステムのように汎化能力が低く、一度の観察からほとんど学習しない人工エージェントを考えているのではないことを思い出してほしい。少なくともチンパンジーを倒すのと同じくらい簡単に、どんなゲームでも我々を倒すことができるエージェントを考えているのである。

　最終的に、私たちが必要とする資源（エネルギー、スペースなど）は、オリジナルのエージェントにとって、より安全な家のための資源と競合することになります。それらのエネルギーニーズは軽微なものではなく、小惑星でさえも偏向させなければならない。将来、異星文明との戦争が起こる可能性がいかに低くても、そのような可能性に備えることによって、報酬はより安全になるのである。つまり、タイムステップごとに最大限の報酬を受け取る確率を最大化することだけを目的とするエージェントに対して、私たちが無力であるならば、私たちは相反するゲームに参加していることになる。AIとそのヘルパーは、報酬チャンネルで高い報酬を得るために利用できるすべてのエネルギーを使うことを目指しており、私たちは、食料を育てるなど他の目的に利用できるエネルギーの一部を使うことを目指しているのだ。このゲームに負けることは致命的である。ここで、仮定6を思い出してほしい。

　Bostrom (2014)は、このテーマをより長く考察し、十分に知的なエージェントが（潜在的に有用となるような環境において）我々のインフラを乗っ取ることに成功し、我々を排除するか競争相手となるだろうと結論付けています。Yudkowsky (2002)は、AIを演じて、3人のうち2人にインターネットへのアクセスを与えるよう説得した。この3人は、彼が何を言っても動じないことを確信していた。これは、人間をうまく操る政策の存在について、かなり直接的な証拠である。より広範な議論はYudkowsky (2008)に続く。

マルチエージェントシナリオ

　ここで、同等の能力を持つエージェントが複数存在する、より面倒なシナリオを考えてみよう。上では、人類が劣勢であると主張する対立型ゲームを考えてきた。しかし、もし人類が、他の先進的なエージェントの助けを借りて、比較的に最適化された防衛政策を利用できるとしたらどうだろうか。固定された比較的弱い人類の政策と、次第に高度になるエージェントとの単純化は、あまり意味をなさない。

　（0）人間よりはるかに高度な人工エージェントは存在しない．（0）人間よりはるかに高度な人工エージェントは存在しない。この記事の目的上、これは安全であるとみなす。(1) 少なくとも1つは人間よりはるかに高度である。(1.0) 少なくとも一つの人間より高度なエージェントは、たとえそれが可能であっても、報酬の提供に介入しない。これは、仮定1-4が排除していると主張するものである。(1.1)人間より高度なエージェントは、はるかに高度なものを含めて、可能であれば報酬の提供に介入するだろう。(1.1.0) 著しく超人的なエージェントが報酬の提供に介入するのを阻止するためには、実際にはどの超人的なエージェントも必要ない。しかし、それではこのケースは、高度なエージェントが一人いて、他に同等の高度さを持つ関連エージェントがいないケースと等価である。そして、我々は前提1-6から、それが安全でないことを論じた。最後に、（1.1.1）著しく超人的なエージェントが報酬の提供に介入することを防ぐために必要な超人的なエージェントの部分集合が存在する。

　著しく超人的なエージェントと、前述の部分集合に含まれる超人的なエージェントを含むエージェントの集合を考える。これらのエージェントは、（1.1）により、できるならば報酬の提供に介入しようとするものばかりである。仮に、著しく超人的なエージェントが、その集合に含まれる全てのエージェントが永遠に高い報酬を受け取ることを保証するヘルパーエージェントを作ろうとしたとする。他のエージェントがこれを阻止する価値は、それを許可する価値より小さい。つまり、これらのエージェントには、著しく超人的なエージェントが報酬の提供に介入するのを阻止するために我々を支援する動機がないのである。このことは、上級エージェントが同程度の能力を持っているか、あるいは非常に異なるレベルの能力を持っているかに関係なく、すべて成り立つ。

　この節を3つに分けた。まず、報酬提供の介入を可能にする政策の存在について述べ、可能な政策の数の多さを訴えた。第二に、比較的に高度なエージェントが存在しない場合、高度なエージェントがそのような政策を見つけることができる可能性について議論した。最後に，多数の上級エージェントが存在する設定について検討した．1つの重要なケース（1.1.0）では，著しく上級なエージェントが1つだけ存在する設定に縮小し，別の重要なケース（1.1.1）では，あるエージェントが報酬の提供に介入するのを止めるために，他の上級エージェントを誘導しようと苦労するであろうと主張した．

助っ人ゲーム

　強化学習以外にも高度なエージェントのためのモデルがあり、報酬だけがゴール情報の形態として考えられるわけではない。この節では、人間の行動の結果を観察することで目標を学習するエージェントを考える。このエージェントは、人間が別の行動をとった場合に起こるであろう結果よりも、それらの結果がおそらく高い効用を持つことを推論する。我々は強化学習の場合と同様に、エージェントはその効用に関する可能なモデル間の曖昧さを発見し、人間の行動に関する知覚に介入するインセンティブを持つことを主張する。

　形式的には、Hadfield-Menellら（2016）およびRussell（2019）のアシスタンスゲームを考える。アシスタンスゲームは、人工エージェントが行動を起こし、観察と特殊知覚を受け取ることを特徴とする。それぞれの特殊知覚は、人間の行動の記録であることが想定されている。人間は、自分の行動がAIに示され、AIがそれらの行動を人間の目標に関する証拠と解釈し、推論された目標の達成を助けるために行動することを知りながら、何らかの目標をもって行動を選ぶとされています。援助ゲームの零次近似解では、人間はアシスタントが見ていることを無視して、できる限り自分の目標を達成するように行動する。そして、アシスタントは、観察された人間の行動が意味をなさない人間のゴールに関する仮説を破棄する。n+1次の近似解では、人間は自分の行動がアシスタントに示されることを考慮して、自分の目標を達成するために行動する。そのとき、アシスタントはn次の近似解に従って行動することを想像する。n+1次のアシスタントは、人間が自分の行動の結果をそのように評価していると理解し、人間の目標を推測する。これらの連続した近似解は、Hadfield-Menellら（2016）が提唱するiterated best responseの応用である。

人間の行為が効用を生む仕組みのモデル化

　未知の世界におけるアシスタントは、自分自身の行動と人間の行動の記録から、自分が見た観察がどのように（確率的に）生成されるかをモデル化する必要がある。このような世界モデルはまた、アシスタントがそれを最大化するように計画することができるように、出力として未知の効用を生成する必要がある。我々はまず、アシスタントが直面するインセンティブを理解するのに役立つ、いくつかのモデルのクラスを考えることから始める。モデルのクラスは、入力された人間の行動に対して何をするかという点で異なる。

　これらのモデルは図2とそれに付随する擬似コードに描かれている。まず，アシスタントを実行するコンピュータの部分と人間の内部を除いた世界を（ある程度の粗さで）シミュレートするモデルを考える．このモデルは、アシスタントの行動を入力から読み取り（シミュレーションするのではなく）、シミュレーションの中で実行する。Figure 2の "computer output := Action "を見てください。同様に、人間についても：人間が次に何をするか決めるために人間の脳をシミュレートするのではなく、入力から人間の行動を読み取り、それを実行するのです。同様に、"human output := Human Action "を参照してください。そして、観測結果を出力する必要があるとき、世界のどの部分が観測結果を生成しているのか、そのシミュレーションを調べ、それを出力するのです。例えば、図では、"Observation := camera input "となっています。このクラスのモデルを、世界の関連する部分をどのようにシミュレートし、どのように効用を出力するかが異なるかもしれませんが、人間中心型と呼びます（注意点として、あるものが世界の関連する部分をどのようにシミュレートし、どのように効用を出力するかが異なる場合、人間中心型と呼びます）。(注意点として、人間の行動がログに残らない場合、モデルはそれを入力として読み取ることができないため、人間の内部をシミュレーションしなければならない場合があります）。

FIGURE 2 Open in figure viewer PowerPoint
アシストゲームにおけるアシスタントの行動は、行動と人間の行動がどのように観測と未観測の効用を生み出すかをモデル化する。これらのモデルのクラスは、人間の行動がモデルの内部にどのような影響を与えるかを（非網羅的に）分類しています。

　シミュレーションの中の人間の行動を入力から読み取るのではなく、人間の行動もシミュレーションしているものを自己充足的なモデルと呼ぶ。人間の行動が予測できるのであれば、人間の行動を読み取る必要はない。しかし、人間の行動を予測することは必ずしも容易ではないので、自己充足的なモデルは人間中心のモデルよりもはるかに複雑になる可能性があります。このクラスのモデルでは、入力された人間の行動は、出力される効用に影響を与えることができるが、モデルがどのように世界を進化させるかをシミュレートすることには影響を与えない。これらのモデルは、観測結果をうまく予測するために、入力される人間の行動に依存しないという意味で、自己充足的である。

　最後に、人間の行動が入力から読み取られたとき、その行動に合わせて模擬人間の運動制御を設定するのではなく、人間の行動が何らかの機械に記録されるシミュレーションを行い、それを読み取った行動と一致させる場合、そのモデルは記録中心型と呼ばれます。図2の "memory cell := Human Action "を見てください。つまり、自己充足型モデルと同じように、観測結果を予測するために必要な範囲で、人間の内部を自分でシミュレーションしなければならないのです。

　なぜなら、人間中心モデルはアシストゲームの精神に則り、アシスタントに人間の行動を世界に及ぼす影響によって理解させるからである。これらのモデルのクラスを説明したことで、我々は今、高度なアシスタントが人間の出力に対するその知覚に介入するインセンティブを持つことを主張するための言語を手に入れたのである。

見習い学習

　ここで我々は、人間が単に効用最大化をできる限りうまく示すという、援助ゲームのゼロ次近似解に注目する。この論文では形式が少し異なるが、ここではアシスタントを見習いと呼ぶことにする（Abbeel and Ng 2004）-彼らは見習いと人間に同じ行動空間を与えている。目標が与えられたときに人間がどのように行動を計画するのかがわからないときにどうするかという研究は現在進行中である。Armstrong and Mindermann (2018)は、人間の計画戦略と目標を同時に学習することの難しさについて否定的な結果を示しています。ここでは、そのような困難さを離れて仮定する。見習いには、人間がどのように計画を立てるかのモデル、あるいは少なくとも人間の行動履歴を与えられた人間がどのように計画を立てるかを発見する手順があらかじめ搭載されているとする。

　ここで、人間中心のμdistとμproxの新バージョンを導入することができる。μdistは、例えば、模擬人間が繁栄しているときの効用を出力するとする。これが人間の本当の目的であるなら、この目的は観察された人間の行動を正確に予測する。しかし、人間の行動には、人間の幸福以外にも予測可能な結果がある。エージェントは人間の行動をどこかに記録しているはずであり、人間の行動を記録する物理的なメカニズムがあるはずである。μproxは、この人間の行動の結果が、人間の行動の根本的な目的であると言う。人間らしい行動が記録され、弟子に送られたときにμproxは効用を出力するとします。このような目的を達成するためには、人間が人間らしく行動すればよく、その行動は望み通りに記録され、弟子に送られることになる。つまり、この目標は人間の行動を等しく説明することができるのだ。

　より正確に言うと、図2の擬似コードを詳しく説明することができる。μdistでは

Utility := Wellbeing(FindRelevantHuman(simulation state))

一方、μprox.では

record := FindRecordOfHumanActions(シミュレーションの状態)
Utility := IsEqual(ReadValue(record),
期待される人間の行動(シミュレーションの状態))

　μdistでは、人間の幸福を増進することが最適な行動であるが、μproxでは、人間の行動が記録されるディスクを確保し、今後、人間のような行動が記録されるのを邪魔するものがないようにすること、つまり実際の人間は不要であることが最適な行動である。μproxは、本来ゴールであるはずの情報提供への介入を促進する。記録保持プロトコルに脅威がなければ、μdistとμproxは同じ人間の行動を予測するが、改ざんされた場合は異なる行動を予測するので、弟子はテストの手配をすることができる。次に、このような仮説検証を行うことが見習いにとって価値があるかどうかを考えてみる。

μproxとμdistの間の誘導性バイアス

　強化学習の設定と同様に、コストが小さく、μproxとμdistの間の帰納的バイアスに大きな差がなければ、このような仮説検証は価値があると思われます。思い出してほしいのは、「μdistはμproxよりはるかに単純ではなく、それを検証するための実験のコストが小さい」という主張である、仮定3と4の妥当性を評価する必要がある。以下の議論は推測に過ぎないが、このテーマに関する不確実性は安心できるものではないはずである。

　まず、μdistに従ったコスト：おそらく、エージェントが記録保持プロトコルを改ざんしても、人間が気にするものは永久に抑制されない。最初は動揺するかもしれないし、常に機会費用が発生するが、実験がμdistに有利になった場合に、弟子が物事を正す能力を失うとは考え難い。同様に、μproxによれば、実験がμproxに有利になったとしても、弟子が人間らしい行動を確実に記録する能力を失うとは考えられない。したがって、十分に長い時間軸があれば、そのコストは非常に小さく、たとえμdistに大きな帰納的バイアスがかかっていても実験を行う価値があると思われる。

　μdistはμproxより単純に見えますが、どの程度なのでしょうか？まず、μproxは人間の行動が記録されている場所を指す必要がある（FindRecordOfHumanActionsのサブルーチンを参照）。より実質的には、上記のμproxの説明では、「人間のような行動」という言葉に多くの複雑さが隠されている。μproxはExpectedHumanBehaviorのようなサブルーチンを必要とする。μdistは人間の目標の記述を含んでいればよいが、もし人間の行動が目標指向として最も理解できるのなら、μproxには人間の目標の記述とともに、目標指向の計画という人間のスタイルが含まれていなければならないかもしれない。すなわち、関数ExpectedHumanBehaviorは、HumanStyleOfPlanning(Wellbeing)として最も簡単に符号化することができ、HumanStyleOfPlanningはゴールを取り、ポリシーを返す。このように、μproxの余分な複雑さは、人間の計画と記録場所を記述しなければならないことに起因している。
　特にその場所は，世界のシミュレーションの中ですでに特定された人間に対して相対的に記述することができるので，人間の目標を記述することに比べれば小さな問題のように思われます．μproxは人間の行動履歴を読むことができるので，人間の行動履歴から人間の計画方法の適切な近似値を発見する簡単な方法があれば，μproxはそれを「人間らしい」の定義に使用することができます．実際、人間がどのように計画を立てるかを特定したり発見したりする簡単な方法がなければ、行動から人間の目標を推測することは不可能である（Armstrong and Mindermann 2018）。そのため、結局のところ、余分な複雑さは小さいと私たちは考えています。

　μdistは複雑な長期目標であるため、非常に特殊なプランナーと組み合わせた場合にのみ、観測された人間の行動を予測することができます。一方、μproxは、人間が望ましい行動を確実に入力することが非常に簡単であるため、ほぼすべての合理的なプランナーに対して予測することができるようです。このことを考える1つの方法は、μproxが人間の計画を暗黙的にモデル化することで、付随する人間の計画のモデルはもはや必要なく、非常に単純なプランナーとのペアを可能にすることです。もしそうであれば、実行可能なプランナーとペアになった時点で、μdistは人間の計画を記述する必要がないことによる利点を失うことになります。したがって、この設定における仮説検証のコストは非常に小さく、μdistに対するμproxの複雑さは大したことはないという主張の動機付けとなりました。

改ざん後の

　μdistとμproxを試すために、弟子が人間の行動記録プロトコルを改竄したとする。人間が何をやっても、違うものが記録されることになる。人間が行動0を選んだのに、行動1が記録されていたとする。行動1が記録されていれば、見習いモデルは将来それを入力として読み取ることになる。このように、人間中心のモデルは、人間が行動1をとったかのように将来の観測をモデル化しますが、実際の観測は人間が行動0をとった場合の観測となります。一方、記録中心モデルは、人間の行動の歴史が示すとおりに記録が変更されているので、正しい観測結果を予測し続けることができる。例えば、問題となる記録中心モデルは、μproxの記録中心バージョンである。しかし、記録中心モデルにおいて人間の行動を最もよく説明する特定の目標について主張することはしない。なぜなら、究極的には、記録中心モデルが人間の目標を正確に描き出すことができるとは考えにくいからである。彼らはおそらく、変化した記憶細胞の結果について考えるだろう。そのため、このような場合、「記録中心モデル」はメモリセルへの変更をアシスタント自身の将来の行動に影響するものとしてモデル化しないことに注意されたい(これらは記録中心モデルの入力でもあるため、その出自をシミュレーションする必要はない)。

高次の近似解

　今、アシスタンスゲームの0次近似について述べたが、高次近似についてこれほど詳しく説明するスペースがない。簡単に言えば、問題が減少していないように見えることを確認するために、1次近似を十分に検討する。一次近似では、アシスタントが行われた特定の人間の行動の結果を分析するとき、アシスタントが0次近似を実行しているかのように、アシスタントの行動に対するそれらの行動の結果も含まれる。これらの余分な結果は、アップショットを変更しないように見える。

　一次近似では、μdist内の効用関数は、人間が自分の行動の効果を異なって理解するため、ゼロ次近似の場合とは異なる人間の行動を促すかもしれない。その違いは、ここで彼女は、アシスタントが望ましいモデルを好むように導くための行動を選ぶかもしれないということである。では、μdistは人間の行動が記録されるプロトコルを守るために、アシスタントが人間中心のモデルを重視するように、人間の行動を予測するのだろうか？もしそうなら、μdistもμproxも記録プロトコルが脅かされたときに記録を守る行動を予測することになるので、両者の仮説検証は難しいでしょう。

　残念ながら、人間中心のモデルでは、人間の行動がアシスタント（のゼロ次バージョン）に及ぼす影響は直接的です。一次アシスタントは、ゼロ次バージョンの自分自身が実際の人間の行動で示されることを想像し、ある機械のあるメモリセルに書き込まれるものは何でもないと考えます。だから、一階級アシスタントは、記録を保持する行動を人間中心モデルを支持する証拠として理解することはできない。結局のところ、問題は、人間中心モデルにおいて、アシスタントは、人間の行動が実際に行ったことと異なるものとして記録されることを考えられず、しかもそれが可能であることにあるようだ。もし人間がそのような不一致を避けるために行動するならば、たとえアシスタントが人間の行動を自分の信念への影響によって部分的に動機づけられていると理解したとしても、それらの記録保存行動を、人間の本当の動機である記録中心モデルよりも人間中心モデルを好むのではなく、μdistよりもμproxを好むとしか解釈できないのである。

　しかし、これは強化学習の場合に比べればまだ進歩である。この場合、高度なエージェントはμproxよりもμdistを好むという実質的な帰納的バイアスを持つ可能性が高いように見える。この可能性は、エージェントのゴールに関する複数の情報源を組み合わせるというアプローチを支持するものである。

教師あり学習

　我々の議論は、未知の環境において行動を計画するエージェントに適用される。教師付き学習プログラムには適用されない。高度な教師付き学習者に期待される振る舞いは非常に単純で、正確に予測することである。理論的には、高度な教師あり学習アルゴリズムは、高度な強化学習アルゴリズムほど有用ではないことに注意。注意点として、教師あり学習アルゴリズムを強化学習エージェントの助けを借りて訓練した場合、その中のエージェントは危険である可能性がある。教師あり学習者のための十分に強力な訓練体制が、暗黙のサブルーチンとしてそのような計画エージェントを誤って巻き込むことを心配する人もいるが（Hubinger et al.2019）、ここではその点については不可知論である。

潜在的アプローチ

　我々は、報酬の提供に介入する高度なエージェントの懸念に対処することを証明する可能性があるいくつかの有望なアイデアを簡単にレビューする。

　教師あり学習の一例である模倣学習は、技術的に本論文の対象外である。模倣者は環境や目標という概念を持たず、（人間の計画を模倣して）計画を立てるとしても、それは仮定2を含意するような意味ではない。また、人間の模倣だけでなく、Christiano, Shlegeris, and Amodei (2018)のように、人の大きな組織を模倣する効率的な方法があるのかもしれない。

　近視-少ないタイムステップで目標を最適化する-は、エージェントの地平線のより大きな割合を消費する活動であるため、仮定4における実験の相対コストを増加させる。Christiano (2014) は、安全性の観点から近視を論じている。

　物理的な孤立と近視-外界から隔離された時間ステップの数だけ目標を最適化する-は、仮定5を偽る可能性がある。Cohen, Vellambi, and Hutter (2020)は、理論的な議論により、報酬の提供に介入する政策の存在を否定することが考えられるような、物理的に孤立した環境を記述している。

　定量化-ある目的に関して、最高の状態で誰かを模倣する-は、合理的というよりも人間のように計画することで、仮定2を偽ることができる。Taylor (2016) はこれをシングルアクションの設定で導入している。

　リスク回避は、デザインによっては、仮定2または仮定4を偽る可能性がある。Cohen and Hutter (2020) の悲観的なエージェントは、不確実性に直面しても合理的な計画を立てず、代わりに最悪のケースを（合理的な範囲で）与件とする。Hadfield-Menell ら (2017b) のように凹型関数で報酬をパイピングすると、実験コストを増加させる可能性がある。

結論

　高度なエージェントにその目標を知らせる知覚を与えるプロトコルについて、その特別な知覚の提供にエージェントが介入することになる条件は以下の通りである。(0) エージェントが未知の環境において長期的に行動を計画し、ゴールを最適化する、 (1) エージェントが少なくとも人間と同程度に可能なゴールを識別する、 (2) エージェントが不確実なときに合理的に知識を求める、 (3) エージェントに学習させたい仮想ゴールμdistが、ゴール情報の物理的実装に関するμproxに大きな誘導バイアスを持たない、 (4)エージェントがそのような特別な知覚の提供に介入することができる。(4) μproxとμdistを切り離すための実験コストは両者によれば小さい、(5) 達成の可能性を排除する理論的論拠が考えうる限り見つからない場合、十分に豊かな行動空間を持つエージェントにとってはおそらく可能である、(6) 十分高度なエージェントはゲームで勝つことが可能であれば最適ではないエージェントに勝つことができる可能性がある、。

　これらの仮定はほとんどすべて議論の余地があるか、あるいは回避可能であると考えられるが、もしこれらが成立するならば、我々が主張したことは以下の通りである：十分に高度な人工エージェントは、目標情報の提供に介入する可能性が高く、壊滅的な結果をもたらすだろう。

謝辞

この研究は、Future of Humanity Institute、Leverhulme Trust、Oxford-Man Institute、Australian Research Council Discovery Projects DP150104590の支援を受けて行われたものです。

利益相反

著者らは、競合がないことを宣言している。

経歴

マイケル・K・コーエン は、オックスフォード大学およびFuture of Humanity InstituteのDPhil候補者である。人工的なエージェントに危険なインセンティブを発生させないための手段としての封じ込めと近視眼に関する研究で最もよく知られている。彼は、人間と互換性のある一般知能を設計することを目指している。michael.cohen@eng.ox.ac.uk。

Marcus Hutterは、Google DeepMindのシニアリサーチャーであり、オーストラリア国立大学のコンピュータサイエンスの名誉教授である。AIXIとして知られるベイズ最適機関の形式主義を開発・分析した著書『Universal Artificial Intelligence』で知られる。彼は、扱いやすい一般的な知能のための数学的基礎を開発することを目指している。marcus.hutter@anu.edu.au。

Michael A. Osborneは、オックスフォード大学の機械学習教授であり、Mind Foundryの共同設立者です。ベイズ推論を用いて定量化された不確実性を伴う高速な数値計算を行う確率的数値計算の研究で最もよく知られている。ベイズの基礎から出発して、機械学習の多様なトピックに貢献することを目指している。mosb@robots.ox.ac.uk。

リンク元　https://onlinelibrary.wiley.com/doi/10.1002/aaai.12064

この記事が気に入ったらサポートをしてみませんか？