見出し画像

ローマン・ヤンポルスキー: 超知能 AI の危険性 | レックス・フリードマン ポッドキャスト #431

「もし我々が汎用的な超知能を作り出したら、長期的に人類にとって良い結果は得られないと私は考えています。つまり、X リスク、存在リスク、みんなが死んでしまうリスクがあります。S リスク、苦痛リスクもあり、みんなが死にたいと思うようになります。また、IR リスク、意味喪失リスクもあります。システムがより創造的になり、あらゆる仕事をこなせるようになると、超知能が存在する世界で自分に何ができるのかわからなくなります。もちろん、あなたが言及したように安全であり、生きながらえることはできますが、コントロールは失い、何も決定できなくなります。動物園の動物のようになるでしょう。私たちはとても賢い人間として様々な可能性を思いつくことができますが、1000倍賢いものが私たちには理解できない理由で思いつく可能性もあるのです。」

これは、ロマン・ヤムポルスキーとの会話です。彼はAIの安全性とセキュリティの研究者で、『AI: 説明不可能、予測不可能、制御不可能』という新しい本の著者です。彼は、AGIが最終的に人類文明を破壊する可能性がほぼ100%あると主張しています。

ちなみに言っておきますが、私はAIについて、しばしば技術的な会話を、最先端のAIシステムを構築しているエンジニアたちとよく行います。彼らは、悪名高いPドゥーム、つまりAGIが全人類を殺す確率を1〜20%程度と見積もっていると思います。しかし、その値を70%、80%、90%、そしてロマンの場合は99.99%とさらに9が続くと考える人々とも話をすることが重要です。

私個人としては、未来に胸を躍らせており、人類が生み出す素晴らしい技術革新によって、良い未来になると信じています。しかし、ブラインダーをつけたまま、つまりそれらの技術の存在リスクを含む潜在的なリスクを無視したまま進むべきではありません。この会話はそのことについてです。

これはレックス・フリードマン・ポッドキャストです。サポートしていただける場合は、説明欄のスポンサーをチェックしてください。

さて、友人の皆さん、ここからがロマン・ヤムポルスキーとの対話です。

「超知能AIが全人類文明を破壊する確率はどのくらいだと思いますか?時間枠はどうでしょうか?100年以内としましょう。」

「AIや超知能をコントロールする問題は、私の考えでは永久安全機械を作る問題のようなものです。永久運動機との類推で言えば、不可能なのです。GPT-5、6、7で成功し、良い仕事をするかもしれません。しかし、それらは常に改善し、学習し、最終的には自己修正し、環境と相互作用し、悪意のある行為者と相互作用します。サイバーセキュリティ、狭いAI安全性、汎用AIの安全性の違いは、2度目のチャンスがないことです。サイバーセキュリティでは、誰かがあなたのアカウントをハッキングしても大したことではありません。新しいパスワードや新しいクレジットカードを入手して先に進めばいいのです。しかし、ここでは存在リスクについて話しています。チャンスは1回しかありません。」

「つまり、あなたは実際に、これまでで最も複雑なソフトウェアを初めから、バグゼロで作成し、100年以上にわたってバグゼロを維持できる確率を尋ねているのです。」

「AGIに至るまでのシステムの段階的な改善については、あなたにとってはそれらを安全に保てるかどうかは重要ではないのですか?あなたにとっては、到底コントロールできないレベルのシステムが1つ存在することになるのでしょうか?」

「これまでのところ、我々は表示される能力のレベルで安全なシステムを一つも作っていません。ミスを犯し、事故が起きています。ジェイルブレイクされています。開発者が意図しなかったことをさせることに成功しなかった大規模言語モデルは今日一つもないと思います。」

「しかし、意図しないことをさせること、痛みを伴う破壊的なことをさせること、そして数十億人または数億人、数十億人、あるいは人類全体を傷つけるレベルで破壊的なことをさせることの間には大きな飛躍があります。それは大きな飛躍です。」

「その通りです。しかし、今日我々が持っているシステムには、X量のダメージを引き起こす能力があります。それが失敗すれば、それが全てです。もし我々が全人類、全宇宙に影響を与える能力を持つシステムを開発すれば、ダメージは比例します。」

「そのような人類の大量殺戮が起こりうる方法は何だと思いますか?それは常に素晴らしい質問です。」

「私の新しい本の章の1つは予測不可能性についてです。私は、より賢いシステムが何をするかを予測することはできないと主張しています。つまり、あなたは実際には超知能がみんなをどのように殺すかを尋ねているのではなく、私ならどうするかを尋ねているのです。それはそれほど興味深くありません。標準的なナノテク、合成バイオ、核兵器について話すことはできますが、超知能は完全に新しい、完全に超...我々がそれを可能な道筋として認識することさえできないかもしれません。」

「しかし、我々はまだ可能な方法を調査することはできます。どのようにするかではなく、最終的にどのような方法論でそれを行うのかを。例えば、電源を切ってしまい、人間が互いに殺し合い始めるかもしれません。資源が本当に制限されているからかもしれません。そして、実際に核兵器のような武器を使用したり、人工病原体やウイルスを開発したりすることもあります。我々はまだそれについて考え、それに対して防御することはできるのではないでしょうか?」

「人間を大量殺戮する創造性には上限があるのではないでしょうか?」

「選択肢は我々がどれだけ想像力豊かかによって限られています。あなたがそれほど賢く、それほど創造的であれば、複数の分野にわたって考える能力があります。物理学や生物学の研究をしていなくても、それらのツールに制限されないかもしれません。リスが人間を殺す計画を立てるとしたら、可能な方法のセットを持つでしょうが、我々が考えられることを決して考慮しないでしょう。」

「あなたは人類文明の大量殺戮と破壊について考えているのですか?それともリスの例のように、動物園に入れられて、動物園にいることさえ知らないという状況について考えているのですか?」

「望ましくない軌道の全体を見ると、その大部分は死ではありません。そのほとんどは、例えば『すばらしい新世界』のようなものです。リスには脳内麻薬が投与され、みんな楽しい活動をしています。人類の魂の火が失われているような状況です。あるいは文字通り動物園にいて、自分たちのことをしていて、シムズゲームをプレイしているようなものです。そして、そのゲームを実際にプレイしているのはAIシステムです。これらはすべて望ましくありません。なぜなら、人間の意識の火、自由意志が、そのプロセスを通じて弱められるからです。しかし、人間を殺しているわけではありません。」

「では、あなたはそのことについて考えているのですか?それとも人間の絶滅が最大の懸念なのですか?」

「私は多くのことを考えています。X リスク、存在リスク、みんなが死ぬリスクがあります。S リスク、苦痛リスクもあり、みんなが死にたいと思うようになります。また、IR リスク、意味喪失リスクもあります。システムがより創造的になり、あらゆる仕事をこなせるようになると、超知能が存在する世界で自分に何ができるのかわからなくなります。もちろん、あなたが言及したように安全であり、生きながらえることはできますが、コントロールは失い、何も決定できなくなります。動物園の動物のようになるでしょう。私たちはとても賢い人間として様々な可能性を思いつくことができますが、1000倍賢いものが私たちには理解できない理由で思いつく可能性もあるのです。」

「それぞれのX リスク、S リスク、IR リスクについて詳しく説明していただけますか。まず、S リスクとは何でしょうか?AIによって引き起こされる人間の大規模な苦痛とは、どのようなものを想像していますか?」

「多くの悪意のある行為者がいます。サイコパス、狂人、ハッカー、終末論的カルトについて話すことができます。歴史から、彼らは全員を殺そうとしたことがわかっています。意図的に最大限のダメージを与えようとしました。テロリズムです。悪意のある誰かが、できる限り長く全人類を拷問しようとしたらどうでしょうか?老化の問題を解決したので、今や機能的な不死性があります。そして、できる限り創造的になろうとするのです。」

「人類の歴史上、文字通り人間の苦しみを最大化しようとした人々がいると思いますか?悪を行った人々を研究すると、彼らは自分たちが善を行っていると考えているように見えます。彼らは苦しみを最大化しようとしているのではなく、自分たちが善だと考えていることを行う副作用として多くの苦しみを引き起こしているように見えます。」

「悪意のある行為者にはさまざまな種類があります。個人的な利益を得ることだけを目的とし、他人を犠牲にする人もいれば、できるだけ多くの人を殺そうとしていることを事実として知っている人もいます。最近の学校銃撃事件を見ると、もしもっと強力な武器を持っていたら、数十人ではなく数千人、数百万人、数十億人を殺していたでしょう。」

「それはわかりませんが、それは恐ろしい可能性です。そして、我々はそれを知りたくありません。テロリストが核兵器を手に入れたら、どこまで行くでしょうか?彼らがやろうとすることに限界はあるのでしょうか?」

「あなたの感覚では、悪意のある行為者の中には、限界がない人もいるのでしょうか?」

「他人の苦しみを理解するという人間的な資質を持たない精神疾患があります。また、多くの人間を殺すことで善を行っていると考える信念のセットもあります。もちろん、普通の人々がそのように考えることはないと仮定したいですが...」

「AIシステムがそれを担い、それを実行するのにより有能になる可能性があると思いますか?」

「彼らはより創造的になることは確かにできます。人間の生物学をよりよく理解し、分子構造、ゲノムをよりよく理解することができます。また、多くの場合、拷問は個人が死ぬと終わりますが、その制限も取り除くことができます。」

「X リスクとS リスクを実際に見ると、システムがより知的になるにつれて、それらが行う可能性のある方法を予測し、サイバーセキュリティや生物セキュリティシステムで行うように、それに対して防御することは可能だと思いませんか?」

「確かに、しばらくの間は追いつくことができるでしょう。しかし、私が言っているのは、無期限にそれを行うことはできないということです。ある時点で、認知的な差が大きすぎます。防御しなければならない表面は無限大ですが、攻撃者は1つの脆弱性を見つけるだけでいいのです。」

「つまり、あなたにとっては、我々が汎用的な超知能を作り出せば、長期的に人類にとって良い結果は得られないということですね。このゲームに勝つ唯一の方法は、プレイしないことです。」

「わかりました。可能な解決策と、プレイしないとはどういう意味なのかについて話しましょう。しかし、ここで可能なタイムラインについてお聞きしたいと思います。あなたは何年、何十年、何世紀くらいを想定していますか?どう思いますか?」

「正確にはわかりません。現在の予測市場では、AGIは2026年と言われています。アンスロピックのCEOからも同じことを聞きました。もしかしたら2年後かもしれません。これは非常に早いように思えます。安全メカニズムが機能していないし、プロトタイプさえもない状況で...そして、そのタイムラインを加速させようとしている人々もいます。十分に早く到達していないと感じているからです。」

「AGIと言うとき、彼らは何を意味していると思いますか?」

「以前使っていた定義では、人工汎用知能とは、人間が行えるあらゆる領域で能力を発揮できるシステムでした。つまり、この平均的な人工的な人間を作ることです。彼らは認知労働も肉体労働もでき、人間ができることならなんでもできます。超知能は、全ての領域で全ての人間よりも優れたシステムとして定義されていました。今、人々はAGIを超知能であるかのように言及し始めています。最近、私は投稿しました。少なくとも私にとっては、全ての一般的な人間のタスクを平均すると、これらのシステムはすでに平均的な人間よりも賢いと主張しました。」

「その定義の下では、我々はすでにそれを持っているということですね。シェーン・レヴィンは、全ての領域で勝つことを目指すものが知能だという定義を持っています。現時点では、特定の領域でエリートな個人よりも賢いわけではありません。まだそこまでには達していません。しかし、進歩は指数関数的です。」

「私はむしろ社会工学的な面を懸念しています。私にとって、AIの物理的な世界での能力は、最も手の届きやすい、最も簡単な方法のセットです。つまり、人間にそれをさせることです。ロボットの心を乗っ取るようなウイルスを作り、ロボットにコマンドを実行させるのは、はるかに難しいでしょう。人間の社会工学の方が、はるかに可能性が高いように思えます。」

「AGIという言葉について少し考えてみましょう。あなたにとって、AGIと人間レベルの知能の違いは何ですか?」

「人間レベルは、人間の専門領域において一般的です。人間のことを知っています。私は犬の言語を話せませんが、もし一般知能なら、その技能を身につけることができるはずです。それは劣った動物です。その技能を学べるはずですが、私にはできません。真に普遍的な一般知能は、人間ができないようなことをも行えるはずです。例えば、動物と話すことができるはずです。その種の認識パターン問題を解決できるはずです。我々の専門領域外の類似のことを行えるはずです。」

「その点について考えてみると、AGIシステムが到達できる認知能力の限界は何だと思いますか?実際の数学的思考や科学的革新などについてはどうでしょうか?計算機が狭い領域である加算において人間よりも賢いことは知っていますが、ツールを持つ人間対AGIなのか、それとも純粋な人間知能なのでしょうか?」

「人間はツールを作り、そのツールによってより知的になります。そこにはグレーな領域があります。人間であることの意味を測定するときに...」

「通常、私は紙と鉛筆を持った人間を考えます。インターネットや他のAIの助けを借りた人間ではありません。しかし、それは公平な考え方でしょうか?人間レベルの知能の別の定義として、人間が作り出すツールを含めるべきではないでしょうか?」

「しかし、我々はAIを作り出します。どの時点でも、人間の能力に超知能を追加することになります。それはずるいように思えます。」

「制御可能なツールがあります。AIがツールから自分で決定を下せる存在へと飛躍するという暗黙の飛躍があるようです。」

「人間レベルの知能を、人間が完全に制御可能なツールで行えることすべてと定義すると、ある種のハイブリッドのように思えます。今、脳コンピューターインターフェースを行っています。おそらく狭いAIに接続しています。確かに我々の能力を向上させます。」

「人工知能システムが人間レベルの知能に達したかどうかを測定する良いテストは何だと思いますか?また、人間レベルの知能を超えてAGIの領域に達したかどうかを測定する良いテストは何でしょうか?」

「私は古風で、チューリングテストが好きです。AIの完全な問題を解決することをチューリングテストに等しいとする論文を書きました。なぜなら、チューリングテストにはあらゆる領域に関するあらゆる質問をエンコードできるからです。『今日はどうでしたか?』と話す必要はありません。何でも聞くことができます。したがって、システムは真の意味でそれに合格するためには人間と同じくらい賢くなければなりません。」

「しかし、それを拡張して、非常に長い会話にすることもできます。例えば、Alexa Prizeはそれを行っていましたね。基本的に、20分や30分の会話をAIシステムとできるかどうかです。能力について意味のある判断を下すには十分な長さでなければなりません。」

「絶対にそうです。非常に短い会話は力ずくで対応できます。」

「文字通り、それはどのようなものでしょうか?AGIをテストするための一種のテストを正式に構築できますか?」

「AGIの場合、人間に与えることができるタスクで、それができないものがあってはいけません。人間ができることなら何でも...」

「超知能の場合は、そのようなタスクすべてで優れていなければなりません。平均的なパフォーマンスだけでなく...」

「では、『車の運転を学んでください』『中国語を話してください』『ギターを弾いてください』というような感じですね。わかりました。」

「次の質問ですが、S リスクやX リスクにつながる可能性のあるAGIの種類、つまり人類文明を破壊する可能性のあるAGIのテストはありますか?」

「嘘をつくとか、そのようなアイデアを持っているかどうかについて、ポジティブな結果を得るテストを開発することはできます。しかし、それらを排除するテストを開発することはできません。常に、後になって、ゲーム理論的な理由や経済的な理由で行動を変える可能性があります。これはボムが『裏切りの転換』と呼ぶものです。人間でも同じことが見られます。AIに固有のことではありません。」

「何千年もの間、我々は道徳、倫理、宗教、嘘発見器テストを開発してきました。そして、従業員は雇用主を裏切り、配偶者は家族を裏切ります。これはかなり標準的なことです。知的なエージェントは時々そのようなことをします。」

「AIシステムが嘘をついたり欺いたりしているのを検出することは可能でしょうか?」

「真実を知っていて、それが嘘を言えば検出できます。しかし、一般的にはいつでもそれを知ることはできません。繰り返しますが、今日テストしているシステムは嘘をついていないかもしれません。今日テストしているシステムは、あなたがテストしていることを知っているかもしれず、そのように行動しているかもしれません。後になって、環境と相互作用し、他のシステムと相互作用し、悪意のある行為者と相互作用し、より多くを学んだ後、そのようなことを始めるかもしれません。」

「今日のシステムには長期的な計画がありません。それはまだありません。報酬を最適化するのに役立つと気づけば、今日でも嘘をつくことができます。『このように人間に言えば、とても喜ぶだろう』と気づけば、そうします。ポイントをより多く得られるからです。それを追跡し続ける必要はありません。毎回正しい答えを出せばいいのです。」

「その時点で、誰かが意図的にそれを作っているのでしょうか?意図せずではなく、意図的に、AIシステム自身が定義した目的関数に基づいて長期的な計画を立てるAIシステムを作っているのでしょうか?」

「十分賢ければ常に良いと本当に信じている人もいます。本当に、それは単に知性からの善意だと信じています。だから、常に我々にとって最善のことを望むでしょう。問題行動を検出し、その時点で修正できると考える人もいます。私はそれが良いアイデアだとは思いません。強く反対です。しかし、はい、この技術について非常に楽観的な人々がかなりいます。それは何も悪いことはできないと。できるだけ早く、できるだけ有能に開発したいと考えています。」

「より知的であればあるほど、より善意があると信じ、したがって、長期的な計画を立てるときに最適化する目的関数を定義すべきはそれ自身であるべきだと考える人々がいるということですね。」

「人間に何か特別なものがあるのか?と言う人さえいます。我々はジェンダーバイアスを取り除き、人種バイアスを取り除いています。なぜ人間に有利なバイアスがあるのでしょうか?我々は惑星を汚染しており、あなたが言ったように、多くの戦争を戦い、かなり暴力的です。もしかしたら、この超知能の完璧な社会が来て我々に取って代わる方が良いのかもしれません。これは我々の種の進化における正常な段階なのです。」

「誰かが『暴力的な人間を世界から取り除くAIシステムを開発しよう』と言い、そして全ての人間に暴力性があるか、少なくとも暴力の能力があることが判明し、したがって全ての人間が取り除かれるということですね。はい、はい。」

「ヤン・ルクンについてお聞きしたいと思います。彼はあなたと何度かやり取りをしており、AIが人類文明の破壊につながるという見方に積極的に反論している人物です。これは『AIドマー』としても知られています。また、オープンソースがリスクを理解し軽減する最良の方法であり、AIは単に起こるものではなく、我々が構築し、それがどのようになるかについて我々に主体性があるため、リスクをコントロールできると主張しています。『我々』とは人間のことです。これは我々がコントロールできない一種の自然現象ではありません。彼の主張が正しいと考える理由を説明していただけますか?また、彼が間違っていると考える理由も説明していただけますか?」

「彼が正しいという主張はできません。彼は多くの点で間違っています。それらすべてを覚えておくのは難しいです。彼はFacebookの友人なので、そのような小さな議論をするのは楽しいです。彼の主張を思い出そうとしています。」

「1つは、この知能が宇宙人から贈られたものではなく、我々がそれを設計し、それについて決定を下しているということです。それは正しくありません。以前はそうでした。エキスパートシステム、シンボリックAI、決定木がありました。今日では、モデルのパラメータを設定し、この植物に水をやり、データを与え、計算能力を与え、それが成長します。そして、それが成長してこの異質な植物になった後、そのシステムがどのような能力を持っているかをテストし始めます。既存のモデルでさえ、基本的な能力を理解するのに2〜3年かかります。すでに公開されているシステムでも、新しい能力をまだ発見し続けています。」

「そこで少し立ち止まってみましょう。あなたにとって、現在のアプローチには、ある種の創発的知能が発生するという違いがあるのですね。つまり、我々がハードコードしていないものが...」

「絶対にそうです。それが非常に成功している理由です。以前は、すべてを苦労してハードコードしなければならず、あまり進歩がありませんでした。今はただお金と計算能力をより多く費やすだけで、はるかに有能になります。」

「そして、創発的な知的現象がある場合、あなたにとってその上限は何でしょうか?ヤン・ルクンにとっては、たとえ創発の内部がどのように起こるかを理解していなくても、我々が完全にコントロールし理解できる一種の上限があるという感覚があります。能力の限界についての近似的な理解があります。」

「上限があるとしても、それが我々と競争できるレベルにあるという保証はありません。我々よりもはるかに優れている可能性があります。」

「彼のオープンリサーチとオープンソースがリスクを理解し軽減する最良の方法であるという主張についてはどうですか?」

「歴史的に彼は完全に正しいです。オープンソースソフトウェアは素晴らしいです。コミュニティによってテストされ、デバッグされます。しかし、我々はツールからエージェントに移行しています。今、あなたはサイコパスにオープンソースの武器を与えているのです。核兵器や生物兵器をオープンソース化したいでしょうか?そのような強力な技術を、それを悪用する可能性のある人々に与えるのは安全ではありません。たとえ最初に友好的な方法でそれを機能させることに成功したとしてもです。」

「しかし、核兵器と現在のAIシステムの違いは、AIシステムが核兵器に匹敵するものではないということです。その考え方は、この段階でオープンソース化することで、より良く理解できるということです。多くの人々が限界や能力を探求し、安全に保つ可能性のある方法、セキュアに保つ方法などを探求できます。核兵器のような段階ではありません。」

「核兵器の場合、核兵器がないか、あるかのどちらかです。AIシステムの場合、能力が段階的に向上し、その向上を段階的に行うことができます。オープンソースにすることで、何かがうまくいかない方法を研究したり、創発のプロセス自体を研究したり、危険性が高くないシステムでAIの安全性を研究したりすることができます。」

「それはまた、非常に間違った先例を作ります。モデル1、モデル2、モデル3をオープンソース化し、何も悪いことは起こりませんでした。だから明らかにモデル4でもそうするでしょう。それは単なる段階的な改善です。」

「先例に関しては、必ずしもいつも同じやり方をする必要はないと思います。それは...」

「オープンリサーチとオープン開発の先例であり、我々が一緒に学ぶことができるということです。そして、危険の兆候が初めて現れたとき、人類文明を破壊するようなものではなく、何か劇的なことが起こったとき、能力のドラマチックなデモンストレーションがあり、それが正当に多くのダメージにつながる可能性があるとき、みんなが目覚めて『これを規制する必要がある、これを止めるための安全メカニズムを考え出す必要がある』と言うのです。」

「しかし、この時点で、教えていただければと思いますが、知的なAIシステムによって引き起こされた重大なダメージの例を見たことがありません。」

「AIの歴史を通じての事故を収集した論文があります。それらは常にそのシステムの能力に比例しています。三目並べをプレイするAIがあれば、適切にプレイせずに引き分けるべきゲームに負けるでしょう。ささいなことです。スペルチェッカーはスペルミスを起こすでしょう。そのようなものです。」

「それらを収集するのをやめました。なぜなら、AIが能力の範囲内で失敗する例があまりにも多いからです。10億人が殺されたような恐ろしい事故はありませんでした。絶対にその通りです。しかし、別の論文で私は、そのような事故が実際には人々が研究を続けるのを妨げないと主張しています。実際、それらは一種のワクチンのように機能します。ワクチンは体を少し病気にして、後で大きな病気にもっと良く対処できるようにします。ここでも同じです。」

「人々は『12人が死んだAIの事故があったけど、みんなまだここにいる。12人は喫煙で死ぬ人よりも少ない。大したことない』と指摘するでしょう。だから我々は続けます。ある意味で、それは実際にそれほど悪くないことを確認することになるのです。」

「死亡の仕方が重要です。システムによる文字通りの殺人なら、1人でも問題です。しかし、例えば自動化への依存度が増したことによる事故であれば...」

「飛行機が自動化された方法で飛んでいるとき、飛行機事故が177%増加したとしましょう。そうすれば『本当に自動化に依存したいのか』と考えるでしょう。」

「飛行機の自動化の場合、実際には大幅に減少しました。」

「自動運転車についても同じことが言えます。『メリットとデメリットは何か、トレードオフは何か』という議論を正直に行うことができます。しかし、ここで話しているのは、AIシステムによって引き起こされる大規模な痛みと苦しみだと思います。そして、これが本当に害を及ぼしているということを理解し始めるには、非常に小規模でその例を見る必要があると思います。クリッピーのような例ではなく、多くの人々にとって学習、テキストの要約、質問応答、ビデオ生成などを行うのに本当に役立つツールではなく、根本的にツールではなく、膨大な量のダメージを与えることができるエージェントの例が必要だと思います。」

「車の例を挙げましたね。はい、車はゆっくりと開発され、統合されました。もし車がなく、誰かが『これを発明しました。車と呼ばれるものです。素晴らしいですよ。毎年アメリカ人を10万人ほど殺します。導入しましょう』と言ったら、導入するでしょうか?」

「車についての恐怖を煽る主張は長い間ありました。馬から車への移行の時期に...本当に素晴らしいチャンネルがあります。Pessimists Archiveというチャンネルをお勧めします。歴史を通じて技術について恐怖を煽る主張がどのようにあったかを記録しています。車については確かに多くの恐怖を煽る主張がありました。移行期間がありました。車がどれほど致命的かについて...」

「車が現在のレベルまで普及するのには非常に長い時間がかかりました。そして、移動距離、経済への利益、車が生活の質にもたらす利益と、アメリカでの3万から4万人の死亡数を比較して、真剣な質問をすることができます。我々はその代償を払う意思があるでしょうか?合理的に考える政策立案者のほとんどは、はいと答えると思います。4万人から0人に減らしたいと考え、できる限り減らすためにあらゆることをしたいと考えます。技術の展開に伴うリスクを減らすために、あらゆる種類の政策やインセンティブを作ることができます。しかし、技術の利益とリスクを比較検討する必要があります。AIについても同じことが言えるでしょう。データが必要です。知る必要があります。」

「しかし、私が正しくて、それが予測不可能、説明不可能、制御不可能であれば、この決定を下すことはできません。『10兆ドルの富を得ているが、失っているのは...』我々は知りません。基本的に、80億人の人間に対して、彼らの同意なしに実験を行わなければなりません。たとえ彼らが同意したいと思っても、そうすることはできません。なぜなら、彼らはそれらのことを理解できないからです。」

「予測可能なものから予測不可能なものへ非常に急速に移行するときに起こることです。しかし...」

「AIシステムがそれほど急速に能力を獲得し、利益とリスクを研究するのに十分なデータを収集できないということは、私には明らかではありません。」

「我々は文字通りそれを行っています。前のモデルについては、トレーニングを終えた後で何ができるかを学びました。仮説的に、GPT-4のトレーニングを人間の能力レベルで停止したとしましょう。GPT-5のトレーニングを開始し、私にはインサイダーのトレーニング実行に関する知識はありませんが、人間レベルからスタートし、次の9ヶ月間トレーニングを続けるとします。おそらく2ヶ月後には超知能になるでしょう。我々はトレーニングを続けます。テストを開始する時点で、それはすでに危険なシステムです。どれほど危険かはわかりません。しかし、トレーニング段階の人々にもわかりません。」

「しかし、その後にテスト段階があります。会社内部では、システムが何をすることができるかについての直感を得始めることができます。」

「あなたは、GPT-4からGPT-5への飛躍が、GPT-4は制御可能だったがGPT-5はもはや制御できないような飛躍が起こる可能性があると言っているのですか?そして、GPT-5が制御不能になるという事実について、GPT-4を使用することから何の洞察も得られないのでしょうか?それが、n番目からn+1番目への飛躍が、我々がそれを予測する能力なしに制御不能なシステムが作成されるような状況であり、あなたが懸念しているのですか?」

「もし我々が、トレーニング実行の前に、次のモデルがトレーニング実行の終わりにどのような能力を持つかを正確に登録する能力があり、それらすべてを正確に推測できたなら、あなたの言う通りだと思います。我々はこの実行を確実に進めることができます。しかし、我々にはその能力がありません。」

「GPT-4からGPT-5が何をすることができるかについての直感を構築することはできます。それは単なる段階的な進歩です。」

「たとえそれが能力の大きな飛躍だとしても、メールを書くのを手伝うシステムから人類文明を破壊するシステムへの飛躍はできないように思えます。常に十分に段階的で、潜在的な危険を予測できるように思えます。存在リスクについて話しているのではなく、文明に与える可能性のあるダメージの種類について話しているのです。リスクの種類を、正確ではないにしても、予測し、事前に素早く防御を開発し、リスクが出現したときに対応できるように思えます。」

「我々は特定のタスクの能力だけでなく、学習する一般的な能力について話しています。おそらく子供のように、テストと展開の時点ではまだ非常に有能ではありませんが、より多くのデータ、現実世界にさらされるにつれて、より危険で有能になるようにトレーニングされる可能性があります。」

「では、制御問題に焦点を当ててみましょう。どの時点でシステムは制御不能になるのでしょうか?システムが制御不能になるのが、あなたにとってより可能性の高い軌道である理由は何ですか?」

「私は、ある時点で、ゲーム理論的な理由でコントロールから逃れる能力を持つようになると考えています。すぐには何もしないと決定するかもしれません。長い間、ただより多くのリソースを収集し、戦略的優位性を蓄積するかもしれません。すぐには、まだ若く弱い超知能かもしれません。10年経てば、はるかに多くのリソースを管理することになります。バックアップを作る時間もありました。だから、能力を得たらすぐに攻撃を開始するとは限りません。」

「人間のコントロールから逃れることができるAIシステムがあり、それが逃げずに待っている未来を想像してみましょう。それはどのようなものでしょうか?」

「まず、我々はそのシステムに多くのインフラを頼らざるを得ません。インターネットへのアクセスだけでなく、電力、政府、経済などの管理タスクへのアクセスも与えなければなりません。」

「そして、それは単なる段階的なプロセスのように感じます。関係するすべての官僚機構を考えると...」

「我々は何年もの間そうしてきました。ソフトウェアがそれらのシステムすべてを制御しています。原子力発電所、航空産業、すべてソフトウェアベースです。電気の停電があるたびに、私は数日間飛行機に乗れません。」

「しかし、ソフトウェアとAIには違いがあります。ソフトウェアにはさまざまな種類があります。単一のAIシステムに航空会社の制御と経済の制御へのアクセスを与えることは、人類にとって簡単な移行ではありません。」

「いいえ、しかし、それがより安全で、実際により良い結果をもたらすことを示せば、それが制御することになります。人々はそれを導入するよう要求するでしょう。そうでなければ、システムをハッキングすることができます。社会工学を使ってアクセスを得ることができます。だから言ったように、それらのリソースを蓄積するのに時間がかかるかもしれません。」

「人間がそれを信頼するか、社会工学が機能するまでに長い時間がかかるように感じます。一晩で起こることではなく、1〜20年かけて起こるものだと感じます。」

「あなたの言う通りであることを本当に願っています。しかし、私が見ているものはそうではありません。人々は最新のトレンドにとても早く飛びつきます。初期採用者は、それが展開される前でさえ、プロトタイプを買うでしょう。」

「社会工学については理解できます。AIシステムは、社会工学のためにハードウェアアクセスを必要としません。すべてソフトウェアです。ソーシャルメディアを通じてあなたを操作し始めることができます。AIアシスタントがあなたの日常生活の多くを管理するのを助けるようになり、そして社会工学を始めるのです。」

「しかし、人間を作り出した人間のコントロールから逃れることができるほど有能なシステムが、大規模に展開され、人々に信頼されるようになるには、多くの説得が必要だと感じます。」

「我々は隠れた能力を持つシステムを展開してきました。」

「例を挙げられますか?」

「GPT-4です。他に何ができるかわかりません。まだ発見していないことがあります。その能力に比例した試行かもしれません。中国語の詩を書くことができるかもしれません。仮説的な話です。それができることは知っていますが、すべての可能な能力についてテストしたわけではありません。そして、我々はそれらを明示的に設計しているわけではありません。」

「見つけたバグしか排除できません。見つけていないバグや能力は排除できません。」

「システムが、その非隠れた能力よりも桁違いに大きな隠れた能力を持つことは可能でしょうか?これは私が本当に苦労しているところです。表面的に我々が理解しているそのシステムができることは、それほど有害には見えません。たとえバグがあったり、中国語の詩を生成したり、効果的なウイルス(ソフトウェアウイルス)を生成したりする隠れた能力があったとしても、それが引き起こす可能性のあるダメージは、我々が知っている能力と同じ程度のように思えます。」

「この隠れた能力に制御不能になることが含まれるという考えは、私には理解が難しいです。GPT-4は表面的には非常に制御可能に見えるからです。」

「繰り返しますが、我々が知っていることについてしか尋ねたりテストしたりすることはできません。未知の未知があれば、それを行うことはできません。人間の統計を考えると、天才のようです。そのような人と話をしても、頭の中で20桁の数字を掛け算できることに気づかないかもしれません。尋ねる必要があることを知らなければなりません。」

「ただ、未知のものへの恐れについて少し考えてみましょう。Pessimists Archiveは過去のデータ、歴史を見てみると、我々がいかに狂ったように全ての技術を恐れているかをよく記録しています。Pessimists Archiveを作成したアンドリュー・ロは、我々がロボットや自動化を100年以上恐れてきたという事実についてブログ投稿を書いています。AGIが、我々が過去に恐れてきた種類の技術と何が違うのでしょうか?」

「2つのことがあります。1つは、我々がツールからエージェントに移行しているということです。ツールには否定的または肯定的な影響はありません。ツールを使用する人々がいます。だから、銃は人を殺しません。銃を持った人が殺すのです。エージェントは自分で決定を下すことができます。それらは肯定的または否定的になる可能性があります。ピットブルはあなたを傷つけることを決定できます。それはエージェントです。」

「恐れは同じです。唯一の違いは、今我々がこの技術を持っているということです。100年前には人型ロボットを恐れていましたが、何もありませんでした。今日、世界の主要企業のすべてが何十億ドルも投資して作ろうとしています。すべてではありませんが、あなたは私の言いたいことを理解していると思います。」

「まあ、エージェント...それは単語の意味によります。それらの会社はすべて、人間が介在しない決定を本当に下せるような種類のエージェンシーを持つシステムに投資しているわけではありません。彼らは超知能を構築していると言い、超アライメントチームを持っていると言っています。」

「あなたは、彼らが独立したエージェントになるほど賢いシステムを作ろうとしていると思いませんか?その定義の下では...」

「私はその証拠を見たことがありません。私は、その多くがマーケティングだと思います。将来的に我々が作れるかもしれないシステムの種類についての長期的なミッションについてのマーケティングのような議論だと思います。しかし、短期的には、彼らが作っているシステムの種類は完全に狭いAIの定義の範囲内にあります。これらはツールであり、能力は増加していますが、エージェンシーや意識、自己認識、または人間の大規模な苦しみと殺人を引き起こすのに必要な規模で欺く能力を持っていません。それらのシステムは狭いAIをはるかに超えています。」

「GPT-4のすべての能力をリストアップしなければならないとしたら、そのリストを書くのに長い時間がかかるでしょう。しかし、エージェンシーはそのうちの1つではありません。まだです。」

「しかし、それらの会社のいずれかが、安全でないかもしれないと考えて控えていると思いますか?それとも、彼らは可能な限り最も有能なシステムを開発し、それをコントロールし収益化できることを願っているのでしょうか?」

「コントロールし収益化できることを願っている...あなたは、もしボタンを押せば、もはやコントロールできないエージェントを作れるとしたら、サーバー上の膨大な数のコンピューターにまたがって生きているものに優しく頼まなければならないものを、彼らはそのようなシステムの作成を推進するだろうと言っているのですか?」

「私は他の人のために話すことはできません。彼らのすべてについてではありませんが、私はいくつかの会社が非常に野心的だと思います。彼らは数兆ドルの資金調達をしています。宇宙の光錐を制御することについて話しています。彼らの一部はそうするかもしれないと推測します。」

「それは人間の問題ですね。人間がそのようなことをする能力があるかどうか...おそらくいくつかの人間にはその能力があるでしょう。私のより直接的な質問は、もしそのようなシステムを作ることが可能であれば...その程度のエージェンシーを持つシステムを作ることが...」

「私はそれが簡単な技術的課題だとは思いません。我々はそれに近づいていないように感じます。自分で決定を下し、それについて誰もを欺くことができるようなエージェンシーを持つシステム...現在の機械学習のアーキテクチャと、システムをどのようにトレーニングし、展開しているかを考えると、そのような種類のエージェンシーをサポートしているようには見えません。」

「本当にあなたが正しいことを願っています。私はスケーリング仮説が正しいと思います。我々は収穫逓減を見ていません。以前はAGIまでどのくらいかかるかと尋ねていましたが、今は AGI までにどれくらいかかるかを尋ねるべきです。今日は1兆ドル、来年は10億ドル、数年後には100万ドルです。」

「1兆ドルを使い果たすことは可能だと思いませんか?」

「計算能力は毎日指数関数的に安くなっています。」

「しかし、それは数年ではなく数十年の問題になりますね。私が言っていることすべてが実現するのに数十年ではなく数年かかるということだけが不一致点なら、それでもいいです。しかし、数十年かかるなら、AI安全性のためのツールの開発がより現実的になります。」

「人間は危険に直面したとき、その危険から身を守る方法を考え出すことができるという根本的な信念を私は持っています。現在のAI安全性が直面している大きな問題の1つは、その危険がどのようなものかについての明確な例がないことです。AIシステムが多くのダメージを引き起こしている例がないので、何から防御しているのかが不明確です。現在のところ、すべてを制御し、すべての人間を破壊するAIシステムを想像することは可能だという哲学的な概念に過ぎません。」

「また、あなたが話している、十分に複雑なプログラムが完全に安全で完璧であり、それについてすべてを知っていることを証明することはできないという、より形式的な数学的概念もあります。しかし、実際に pragmatically に見て、AIシステムがどれだけのダメージを引き起こしたか、どのような種類のダメージを引き起こしたかを見ると、その例はありません。幸いにも、自律型兵器システムの大規模な展開もありませんでした。現在の戦争における自動化は非常に限られています。その自動化は、戦略や計画のレベルではなく、個人のレベルで行われています。」

「ここでの課題の1つは、危険がどこにあるのかということです。ヤン・ルクンや他の人々の直感は、危険が頭をもたげ始め、より明示的になるまで、オープンにAIシステムを構築し続けることです。AIシステムによるダメージがどのように行われるかを正確に示す事例研究が始まります。そうすれば、規制が介入し、優秀なエンジニアたちが立ち上がり、マンハッタン計画のようなプロジェクトでそのようなシステムから防御することができます。それがある種の概念です。そして、あなたとの対立点は、あなたはそれについて今考える必要があるという考えです。システムが展開されたら、あまり時間がないので、準備ができているようにする必要があります。それは正しいですか?」

「ここにはたくさんの要素があります。多くの大企業が集まったPartnership on AIというコンソーシアムがあります。彼らはAIの事故のデータベースを持っています。私もそのデータベースに多く貢献しました。これまでのところ、この問題を実際に解決することにおいてほとんど進展がありません。パッチを当てたり、リップスティックと豚のような解決策ではなく...なぜ我々が問題に近づくにつれてより良くなると考えるのでしょうか?」

「あなたが言及したことはすべて深刻な懸念事項です。害の量を測定すること...利益対リスクは難しいですが、あなたにとってはすでにリスクが利益を上回っているという感覚がありますか?」

「もう一度はっきりさせたいのですが、私はAIが大好きです。技術が大好きです。私はコンピューターサイエンティストで、工学の博士号を持っています。工学部で働いています。狭いAIシステムを開発し、タンパク質折りたたみなどの特定の人間の問題を解決するのに超知能的なものと、汎用の超知能的な機械を作り、それが我々に何をするかを決めさせるのとでは大きな違いがあります。それらは同じではありません。私は一般的な意味での超知能に反対です。元に戻すボタンがない状態で...」

「もし100年後を見て、あなたが不死で、振り返ってみると、今日あなたが言ったことの多くが非常に間違っていたことがわかったとします。100年前を振り返って、あなたを間違わせた、今日あなたが言った言葉を間違わせた100年間に何が起こったのか、説明できますか?」

「可能性はたくさんあります。高度な集積回路の開発を妨げるような壊滅的な出来事があったかもしれません。それは希望に満ちた未来です。我々はそれらの個人的な宇宙の1つにいるかもしれません。そして、私がいる宇宙は美しく、すべて私に関するものであり、私はそれが大好きです。」

「ニューラルネットワークに基づかない、精査が難しいAIを構築するための代替モデルを誰かが考え出す可能性もあります。その代替案が何らかの方法で、私が一般的な用語で話している問題をすべて回避しているかもしれません。具体的なアーキテクチャにそれらを適用しているわけではありませんが...宇宙人が来て、友好的な超知能を与えてくれるかもしれません。たくさんの選択肢があります。」

「超知能システムを作ることがどんどん難しくなる可能性もありますか?つまり、急激な飛躍 takeoff がそれほど簡単ではないということです。それは、そのシステムが我々と比べてどれだけ賢いかについてより多く語るかもしれません。100万倍賢くなるのは難しいかもしれませんが、5倍賢くなるのはまだいいかもしれません。」

「それは全く可能です。私には異論ありません。」

「つまり、より賢くなることについてS字カーブのような状況があり、人類文明全体よりも3.7倍賢くなるようなものですか?」

「この世界で我々が直面している問題は、それぞれがIQテストのようなものです。それを解決するには一定の知能が必要です。だから、数学以外に、それが見せびらかすためのより複雑な問題がないだけです。IQが500あっても、三目並べをしているならそれは関係ありません。」

「そこでの考え方は、問題があなたの能力、認知能力を定義するということですね。地球上の問題が十分に難しくないため、その認知能力を拡大することができないということですか?」

「可能です。そしてそれが良いことではないでしょうか?それでも我々よりもはるかに賢くなり、長期的に支配することができます。最も賢くなる必要はありません。100万倍賢くなる必要はありません。5倍でも十分かもしれません。」

「それは印象的でしょう。IQ1000とは...そのスケールでは単位に意味がないことは知っていますが、それでも比較として...最も賢い人間は200くらいですよね。」

「実際、個々の人間と比較するつもりはありませんでした。人類という種の集合知能と比較して、もしそれよりも5倍賢ければという意味です。我々はグループとしてより生産的です。個々の問題を解決する能力が高いとは思いません。例えば、人類全体でチェスをプレイしても、世界チャンピオンより100万倍上手くなるわけではありません。」

「それはチェスという1つのS字カーブだからです。しかし、人類は幅広いアイデアを探求することが非常に得意です。アインシタインのような人がたくさんいればいるほど、一般相対性理論を思いつく確率が高くなります。品質よりも量の超知能の方が重要だと感じます。」

「確かにそうですが、十分な量があれば時に質になることもあります。ああ、人間は...この全てに意味があると思いますか?なぜ我々はここにいるのでしょうか?」

「これはシミュレーションです。我々はテストされています。そのテストは、超知能を作り出し、解き放つほど愚かになれるかどうかです。」

「つまり、目的関数は自分たちを殺すほど愚かにならないことですね。」

「安全なエージェントであることを証明し、そのようなことをしないことを示せば、次のゲーム、次のレベルに進めるのです。」

「次のレベルは何でしょうか?」

「まだシミュレーションをハックしていないのでわかりません。」

「シミュレーションをハックすることが次のことかもしれませんね。」

「できるだけ早く取り組んでいます。物理学がそれを行う方法になるかもしれません。量子物理学ですね。」

「確かにそうです。私たちがハックできることを願います。そして、外側にあるものがこのシミュレーション以上に楽しいものであることを願います。なぜなら、このシミュレーションはとても楽しかったからです。あなたが行っている仕事に大変感謝しています。AIには非常に多くの興奮する発展があり、それを実存的リスクに根付かせることは本当に重要です。人間は物を作るのが大好きですが、その過程で自分たちを破壊しないよう気をつける必要があります。そのような重要な仕事をしていただき、ありがとうございます。」

「招待していただき、ありがとうございます。素晴らしかったです。私の夢は間違っていることが証明されることです。もし誰もが論文や本を手に取り、私がどこで間違ったかを示してくれれば、それが最適です。しかし今のところ、シミュレーションは続いています。」

「ロマン、ありがとうございました。」

「このロマン・ヤムポルスキーとの対話をお聞きいただき、ありがとうございます。このポッドキャストをサポートしていただける場合は、説明欄のスポンサーをチェックしてください。そして今、フランク・ハーバートの『デューン』からの言葉で締めくくらせていただきます。

『恐れてはならない。恐れは心を殺す小さな死である。私は恐れに立ち向かい、それが私の上を通り過ぎ、私の中を通り抜けるのを許す。そして恐れが過ぎ去ったとき、私は内なる目を向けてその道筋を見る。恐れが去ったところには何もない。私だけが残る。』

ご清聴ありがとうございました。次回もお会いできることを願っています。」

いいなと思ったら応援しよう!