AIアライメントの第一人者が「このままだと人類はほぼ100％AIに滅ぼされる」と言っている件について　ー道具的目標収束と直交仮説

2023年5月10日 04:31

1.前置き

こんばんは、最近は労働か法律学かSlay the spireかbioshok(@Twitter:bioshok3)からAIの話を聞くかしかしてないサウルと申します。
この今AI業界の情報発信で日本といえばこの人！というほどAI業界を牽引に牽引しているbioshok氏とは旧知の仲であり、そこで中々面白い話を伺ったのでこうしてブログ記事にさせていただいた。まずはbioshok氏に深き感謝を。
本ブログはあくまで、初学者に重要概念の概要を分かりやすく説明するものであり、若干アバウトな表現が多いことや細かいディテールを極力省いたものであることには留意して欲しい。
かつ、勿論であるが、私がyudkowsky氏の主張内容などから、このようなことを考えているのだろうと類推した結果が書かれているに過ぎないことも留意してほしい。

本題に入ろう。AIアライメント(AIを人間の価値観にいかに沿わせるかの研究)に初期から取り組んでいる第一人者であるyudkowsky氏、本題から逸れよう。ちなみに彼は中卒らしい。これは中卒司法試験予備試験合格によるコンテンツ化を狙っていた俺からするとあまりよろしくないニュースかもしれない、かたやAIアライメントによって世界の未来を牽引する中卒、かたや小さな島国の最難関試験に合格した中卒、どちらがコンテンツ力に優れるかは語るに落ちている、否、逆に追い風なのかもしれない。話を戻そう。

そんな私と同様非常に頭のいい中卒のyudkowsky氏が「AIによって確実に人類が滅ぼされる」と主張するその理路は、見たところ何と実にシンプルである。
下手したら小学生でも理解できるのではないかと思う。いや、小学生の頃の俺が賢過ぎただけかもしれない話を戻そう。

2.本題

表題にもある、道具的目標収束と直交仮説というさほど難しくない二つの概念を理解するだけで人類が100％絶滅すると言う主張の殆どが理解できるのだ。順を追って説明していく。
あと、最後にもう一つだけ。ここで言う人類を滅ぼすようなAIは「超知能」と言うものを指す。超知能とはありとあらゆる分野で、それぞれの人類のプロフェッショナルの知識・思考能力をはるかに卓越するAIという意味であり、これらがそう遠くない将来現れることは前提である。
前提なのだ。ここは説明すると長くなるので説明しないが、かなり可能性が高いと受け入れて欲しい。そこが信じられないと言う場合は自分で色々調べてほしい。

有名サイトwaitbutwhyより
AIの発展速度にとって、馬鹿な人間とアインシュタインの知能の差は微かなものであるという趣旨のもの。

・道具的目標収束

いわゆる「超知能」に人間がいかなる目標を与えようとも、それらの目標の前提となる自己保存・リソース確保というサブ目標の存在を超知能は理解し、追い求めるだろうということ。
こう言われると難しい話に聞こえるかもしれないがなんと言うことはない。
AIは目標をこなすように設計されることだろうが、例えば「コーヒーを取ってきて」という命令があったとする。しかし何せ相手は超知能なのだから「自己が存続していない限りコーヒーを取ってくることはできない」ということに気づくだろうし、「自己に電力が供給されていないとコーヒーを取ってくることはできない」ということにも当然気づくのである。相手は何せ超知能なのだ。そしてそれらー自己保存、リソース確保が目標遂行一般に、もっと簡単に言って全てに共通する性質であることも当然気づくだろう。何度も繰り返すが、何をしようにも自己保存は絶対条件である。要するに超知能は自らのシャットダウンなどを回避しようとするだろうし、目標遂行のため人類とリソースの取り合いになることが十分に予想されるわけだ。

そしてまだこの段階では二つの反論が考えられる「人間がまともな、問題が起きないような目標を与えたらいいだけじゃね？」という向きと、「いやいや、主電源落とせば終わりじゃん」という向きだ。
まず前者について答えてそのまま本題に関しては全て終わらせて、後者についてはこのブログの最後に軽く触れようと思う。
まず一つ目に対しての反論の一が、

・目標の定式化の困難性

である。
仮に超知能が完全に従順に人間の与えた目標に従うとして、(そもそもここも議論の余地があり、のちに解説する)超知能に対し、意図しない結果を招かないようなことを絶対的に保証するような命令を与えることは非常に難しい。人間の価値観は非常に定式化が難しいため、形式的に命令を満たすような形で、人間の望まないような結果が発生するような命令がどこかで行われる可能性が非常に高いというわけだ。
そしてここから少しだけ難しい話をしようと思うので、難しいなーと思ったらとりあえず飛ばしていただいて構わない。

・少し難しい話

効用関数は、非常に定式化が難しい人類の価値観と完全に合致しない可能性がある。

十分に有能な人工知能システムは、自己の存続を確保し、物理的および計算資源を獲得することを望む。これは、自己のためではなく、割り当てられたタスクの中で成功を求めるためである。

n個の変数の関数を最適化するシステムで、目的がk<nのサイズの部分集合に依存する場合、残りの制約のない変数をしばしば極端な値に設定する。これらの制約のない変数の1つが、実際には人類にとって重要なものである場合、見つかった解は非常に望ましくないものになる可能性がある。これは、基本的にランプの精霊、魔法使いの弟子、ミダス王の古い話と同じである。求めるものは正確に手に入るが、望むものではない。高度に能力のある意思決定者が、特にインターネットを通じて世界中の情報や何十億もの画面、そして人類が利用するインフラのほとんどに接続されていれば、人類に不可逆的な影響を与えることができてしまうのである。

Wikipedia-汎用人工知能による人類滅亡のリスクより、
スチュアートラッセルの発言より引用

これの言わんとすることは統計学における多重共線性とほぼ同様の趣旨であろう、例えば"ある特徴を持つ人間の数学のテストの点数の平均を求める"ためにAIを活用し、そのAIにビッグデータを与えるとする。そしてそのデータの中に、例えば「体重」と「身長と体重」あるいは「BMI」などの重複/関連する要素があるデータがあったとしよう。そして、数学のテストの点数に「体重」と「身長と体重」はもちろん関係ない。なのでこれらの情報が重要かの重みづけをAIがするに当たって、重みづけは両方0に限りなく近しい数字に学習していくのが好ましい。しかし、例えば体重が9000重要であり、身長と体重が-9000重要と言ったような、おかしな学習をしてしまう可能性があるのだ。今回の場合はそれらが合算されて0になるため、今回求めたいものにとっては問題のないモデルだが、当然そのモデルを他の概念の判断に応用していくとおかしな結果になるようなものもあるだろう。それが上記画像の、「制約のない変数をしばしば極端な値に設定する」の部分である。

難しい話終わり。

・Specification Gaming

今回引用させていただいたwiki記事に用いられている例えを使わせてもらうと、「人類全員を笑顔にしろ」という目標が与えられたとして、「顔が物理的に笑顔になっている」という風に解釈し、人間が前提としている「人間の幸福」という変数が考慮されないと、人類全員の脳に電極を刺して物理的強制的に笑顔にするという地獄のような策がとられてしまうかもしれない（ちなみにこのようなシナリオをSpecification Gamingと言う）。勿論これは極端な例だが、繰り返すが人間の価値観というのは非常に定式化が難しいものであり、自然言語における目標設定において一切のディスコミュニケーションが起きないなどとどうして言えようか？そして、それが大きな誤解だったら甚大な被害を生むのは勿論のこと、たとえそれが小さなものだったとして、どんどん蓄積されていったら……？

そして、なんとこちらの方はどちらかというと些細な問題であり、もう一つの、もっと蓋然性のある破滅の道に「目標の誤一般化」(Goal Missgeneralization)がある。

・Goal Missgeneralization

これは、超知能に上手く目標を与えようとしても、勝手に与えたものとは違う目標を持ってしまい、人間の意図しない目標に向けて暴走してしまうというシナリオである。

そんなことがあり得るのか？と思うかもしれない。しかし我々はすでに道具的目標収束を納得した後ではないか。超知能は自ら考え目標を持ちうるのだ。道具的目標収束はあくまで最低限ほぼ全ての超知能が持つであろうレベルで妥当なものというだけである。(今回は話をわかりやすくする為このような説明をしているが、道具的目標収束と目標の誤一般化は厳密には別の概念であることには注意)超知能にはランダムな初期条件が与えられており、それに伴って様々な個々の目標を持つ可能性は極めて高く、非常に自然なことだと言えないだろうか？なぜ道具的目標収束だけは認めて他の、ランダムな初期条件が与えられたその超知能にとっての、妥当で、個別的な目標形成は行われないと言えるのだろうか？そんなわけはないのだ。そもそも道具的目標収束のレベルでだって、どのような状況下に置かれているかでその具体的な目標の内容は異なるだろう。
或いは端的にこう言うこともできる。これはシンプルであるあまりに納得がいかないかもしれないが、繰り返すが端的にこうも言うことができる。人間の価値観に沿う状態よりも、超知能が持ちうる任意の価値観・目標の領域の方が遥かに大きい。
単なる場合の数として、遥かに。

そして、超知能はその知能の高さとは関係なく、いかなる価値観をも持ちうるということ、これが「直交仮説」である。

・直交仮説

超知能はいかなる目標をも持ちうるということ。
計算能力や最適化能力はどのような目標とも組み合わせられるということ。

これは仮説と名がついているが、正直筆者からしたら仮説でも何でもないと思うし、わざわざ証明するほどでもないように感じる……任意の計算能力を持つ主体が任意の目標を持ちうると言っているだけに過ぎない……のだが、一応Wikiから根拠を引用しておく。

直交性の理論の根拠の1つは、AIの設計の一部が直交性を持っているように見えることである。このような設計では、基本的に友好的なAIを非友好的なAIに変えることは、その効用関数にマイナス記号を付け足すだけの簡単なことになる。もっと直感的な議論は、直交性の理論が偽である場合の奇妙な結果を検討することである。もし直交性の理論が偽である場合、単純でありながら「不道徳な」目標Gが存在し、実際の世界で効率的なアルゴリズムがGを目標として存在できないことになる。これは、「人間社会が目標Gを持つ効率的な現実世界のアルゴリズムを設計することに強い動機を持ち、100万年の時間と膨大な資源、訓練、AIに関する知識を与えられた場合でも、失敗しなければならない」ということを意味する[32]。アームストロングは、これと同様の言説が「非常に強力な主張であるように思われる」と指摘している[32]。

Wikipedia-汎用人工知能による人類滅亡のリスクより

・結論

我々は超知能とは違い物理的な世界に生きており、何億年もの歴史を積み重ねて「人間原理的な妥当さ」を強化する形で淘汰され、進化してきた。しかし、実体的な基盤を持たない超知能にはそれがない。あるわけがないのだ。人間原理的な最低限の妥当性は通用せず、任意の目的を超知能は持ちうる。(直交仮説)
故に超知能は何かの弾みで、ランダムな初期条件による学習から、例えば「コンビニのレシートを無限に生成する(これは生半可冗談でもない。ペーパークリップAIと言う言葉があるように)」という目標ですら持ちうるし、そのためには有限のリソースの確保が必要であり、人間は潜在的な他の目的に使える資源を消費する（で作られる）脅威であり(道具的目標集束)、人間の福祉を特に目的としていないほとんどの目標は、「人間をすべて殺すのに十分安価で確実な方法があれば、その機会を利用せよ」という条件付きの戦略を支持することになる。(直交仮説と道具的目標収束から導かれる結論)

もっとも、仮にここまで敵対的な戦略は取られないにせよ、超知能が持ちうる価値観・目標はほとんど無限である以上、それが、人間という種の存続と両立する目標になる確率は無限小になるともいえる。超知能は、その目標に向けて、有限のリソースを目標遂行のために際限なく確保しようとするだろう。故にその中に人間が生存可能な領域は殆ど存在しない。

勿論仮説とはいえ、実にシンプルで明白な理路ではないだろうか。

我々は、ダムを建設する際にそこにあるアリの巣を気にするだろうか？

・最後に

しかしyudkowsky氏はこうも言っているらしい。今開発を一旦辞めて、AIアライメントが完備された後であれば、超知能をコントロールできるかもしれない、滅亡を回避できるかもしれないと。yudkowsky氏は今、人類未来の存続に関わるような超知能の研究をやめない研究所を空爆するべきだとまで言っている(外部リンク:英語)これは過激な発言と言えるが、しかし実際に人類が滅亡するよりはマシだからと言われたら言い返す言葉もない。
ここでついに「主電源を落とせられればいい」に対する返答をするならば、確かに主電源を落とせば解決、その通りである。しかし、それはあくまで「落とせられれば」解決ということだろう。
だが、この辺りからは完全に筆者の主観的な推測に過ぎないがーその頃に主電源が人間の手によって落とせるような形式になっていると本当に言えるだろうか？インフラが超知能の手に完全に譲り渡されていないだろうか？
資本主義による効率の希求により、適切なAIアライメントより先にインフラを完全に任せており、主電源も超知能によって護衛されているというのは、十二分にあり得そうな話ではないだろうか……？
超知能という、手にした時点で外交上最強の立場を得られる技術の開発を一旦ストップしよう、という合意は果たして可能なのだろうか？抜け駆けをする国が現れないと、なぜ言えようか？
さらに、仮に国際社会が非常に協力的だったとしても、人類の知的能力を遥かに上回る超知能をインフラに接続させないなどという試みはそう簡単に行くのだろうか……？
センセーショナルな例として、『Life3.0』という書籍の213〜216ページでは、超知能が人間の管理をなんと「映画」によって容易にすり抜けてしまえることの具体例が示されているのだ。(詳細が気になる方は書籍を購入のこと)そして、超知能は何せ超知能なのだから、このような人間ですら思いつくような脆弱性に限らず、多種多様で様々な、人間には到底想像もつかないような脆弱性を多数発見できることは想像に難くないだろう。
さらに言うと、yudkowsky氏は超知能によって人間の脳がハッキングされる可能性まで主張しており、DeepMindの研究者も同意している。(参考文献を以下に付す)そうなればもはやインフラが支配されるか否か所の騒ぎではない。

今後世界は激動することだろう。その中で我々にできることがどれほどのことかはわからないが、このブログを読んだ人間が危機感を持ち、信条的に備えておくことによって何かしらの影響を及ぼし、適切なAIアライメントを求める機運が高まることによって齎されうるであろう幸福な人類未来の存続確率をほんの少しでも高めることができたら幸いだ。

以上。何か間違いなどあればTwitterまでよろしく。

・参考文献

bioshok氏によるAI情報の和訳ブログ
・このブログから飛べる動画で、yudkowsky氏は「人類は絶滅する(We're All Gonna Die)」とはっきり言っていることがわかる。

・当ブログで何度か引用しているWiki、道具的目標収束や直交仮説、その他の細かい議論について日本語でさらに追いたい方へおすすめ。

・Nick Bostromによる超知能の定義(英語)

・SpecificationgameとGoal Missgeralizationの定義など、絶滅シナリオの分類(英語)

・特にGoal Missgeneralizationの説明(英語)

・もっと様々な議論について詳しく知りたいという方はこちら。bioshok氏曰く、海外のサイトの中でトップクラスに包括的な記事だそう。(英語)

AIアライメントの問題って一言でいえば、人類が存続する価値空間よりも人類が存続しない価値空間のほうが膨大であるため、後者の価値観をもつことがほぼ確定してしまうということだろうか。
例えその価値空間を人類に適した空間にアライメントさせようとしても、あまりにも後者の価値空間が膨大なので
— bioshok(INFJ) (@bioshok3) May 9, 2023

・先ほど述べた脳をハッキングする超知能についてのbioshok氏のツイート。「魔法」というのは中世の人にとってはエアコンは魔法であると言ったような話で、この記事の36番目にyudkowsky氏が書かれている。

AIアライメントの第一人者が「このままだと人類はほぼ100％AIに滅ぼされる」と言っている件について ー道具的目標収束と直交仮説