How We Prevent the AI’s from Killing us with Paul Christiano 和訳

2023年5月9日 16:29

以下の動画はAI alignment（人間の価値観にAIを沿わせる）に取り組む非営利の研究組織Alignment Research Centerを運営しているPaul Christiano氏の対談動画です。

noteでAI alignmentの先駆者として度々紹介しているEliezer Yudkowsky氏はAGIが人類を壊滅させる可能性はほぼ100%といった強い悲観論を唱えていることで有名です。

Paul Christiano氏はそれよりは楽観的な見立てとして、人類のほとんどが死滅する確率を20%として持っています。本動画の最初で言明されており、また以下LessWrong記事中の図でも言及されています。
Yudkowsky氏ほどではないとしても、相当高い可能性で人類が壊滅的な被害を被る主観的な感覚を持っているのが印象的です。

またPaul Chrisitiano氏は我々の社会が超知能に至るまで、AIの能力は滑らかに上昇すると考えているようです。つまり我々がAGIや超知能を保有する社会になってから大きな変化が社会に起こるというよりは、その前にすでに大きな変化が社会全体に起こっているということを示唆します。

また人類社会が破滅するシナリオについても、いきなり超知的なAGIが出てきて全てを乗っ取り人類を壊滅させるというシナリオよりは、複数のAGIシステムが複雑に相互作用をした結果、人間がAIシステムをコントロールできなくなっていくシナリオを思い描いているようです。

上記のような背景知識をもとにこの対談動画を聞くとわかりやすいと思われます。

以下に和訳をあげさせていただきます。(4:10-7:11までは広告です)
長いので最後にまとめ要約を入れさせていただきました。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

導入

ポール・クリスティアーノ
0:00:00.17 --> 0:00:12.88
最もありそうな死の原因は、突然AIが現れて皆を殺すというものではなく、私たちがあらゆる場所でAIを導入していることに関連しています。それを見て、「ああ、もし何らかの理由でこれらのAIシステムが皆を殺そうとするなら、確かに皆を殺すだろう」と思えるような状況です。

ライアン
0:00:14.93 --> 0:00:59.21
バンクレスへようこそ！今日のエピソードでは、フロンティアテクノロジーの人工知能を探求します。本日は、フロンティア・テクノロジーの人工知能についてご紹介します。私はライアン・ショーン・アダムス、私はデビッド・ホフマンと一緒にここにいます、そして私たちは皆さんがよりバンクレスな人たちになるのを助けるためにここにいます。今日は特別ゲストにポール・クリスティアーノさんをお招きしています。この人はEliezer YudkowskyがAIの議論について尊敬する人に話を聞きに行くようにと私たちに言った人です。そこで、私たちは彼の脳内を探りました。この人は、AIの安全性を調整する研究者です。私たちは、どうすればAISが私たちを殺すのを止められるのか、という質問をしました。他の人が非常に懸念しているAIの乗っ取りを防ぐことはできるのか？今日は3つ、実際には4つの収穫があります。その1、AIのアライメント問題はどれくらいの規模なのか？私たちはこの質問をポールに投げかけます。
その2、この問題を実際に解決するのは難しいか？その3、解決する方法、技術的な方法は何か？この問題を解決するために、私たちは協調することができるでしょうか？そして最後に、私たちがAIと共生し、AIが私たちの生活を改善し、かなり良くしてくれるという、楽観的なシナリオの可能性についてお話しします。デイビッドさん、このエピソードは、私たちのシリーズの中で、あなたにとってどんな意味がありましたか？

デビッド・ホフマン
0:01:22.83 --> 0:01:42.67
新しいイントロは、フロンティア・テクノロジーと、このエピソードの代わりに、バンクレス化を支援するもので、素晴らしいと思います。これはまさにフロントランのチャンスだと思います。私たちは、人類が滅亡しないように手助けをしようとしています。私たちは、あなたが死なないように手助けをしようとしているのです。

ポール・クリスティアーノ
0:01:42.85 --> 0:01:43.53
私たち全員

ライアン
0:01:43.60 --> 0:01:44.05
死なない。

デビッド・ホフマン
0:01:44.10 --> 0:02:05.96
私たち全員？ええ、あなたと世界中の人たちです。そして、私たちは、このAIの問題についての教育や意識向上という、最善の方法でこれをやっていると思います。ポール・クリスティアーノは、あなたが言ったように、技術的な方法でこの問題に正面から取り組んでいる人物として、エリーザーから推薦された人物です。ですから、このポッドキャストでは、技術的な解決策についてお聞きいただくことになります
この問題に真剣に取り組み、そのリスクを非常に深刻に受け止めている人々が積極的に取り組んでいる。エリエール氏は、99％の確率で破滅するというような、多かれ少なかれ破滅のシナリオを私たちに示した。ポール・クリスティアーノは、10〜20％の確率で破滅するというシナリオでもっと楽観的で、もっと良い確率なのです。そして、なぜ彼はまだ非常に心配しており、将来自分が死ぬ可能性が最も高い方法だと考えているのか、その理由を説明します。それでもなお、成功の可能性が80%もあるのはなぜか。そして、その80％の成功の可能性の中には、実際にユートピアがあるのです。3,5,10年後のライアンは、このエピソードを振り返って、ポールが正しいかどうかを確認することができるかもしれませんね。そして、極めて重要な会話を盛り上げるという点で、彼の言う通り、時代を先取りしていると思うのです。私たちができる限り主流になることで、より多くの人が実際の解決策に目を向け、20％の終末のリスクを0.2％の終末のリスクまで下げることができるのです。このエピソードの意義はそこにあり、私たちがエピソードを行う理由もそこにあると思います。

デビッド・ホフマン
0:03:15.87 --> 0:03:16.18
というように

ライアン
0:03:16.20 --> 0:03:31.07
ええ、つまり、はっきり言って、ポールは本当にこのAIアライメントが解決可能な問題だと考えていて、それはこの分野の他の人たちとは大きく異なっていて、その理由を正確に教えてくれます。エリーザーのエピソードから得たものは、人類はもうダメだ、というものだった。これは人類がダメになったということでしたでも、私たちはそれに取り組んでいます。

デビッド・ホフマン
0:03:31.14 --> 0:03:34.53
私たちは解決策を持ち、明確な行動指針を持つことができるかもしれません。

ライアン
0:03:34.63 --> 0:04:10.25
そうなんです。今日はその全てに触れていきます。このエピソードは、AIエピソードのシリーズの第3弾で、本当に興味深い内容なので、デビッド、もちろん、デブリーフィングでこのエピソードについて議論し、あなたの意見を聞きたいと思うんだ。Debriefエピソードは、エピソードの後に直接、私たちの生の、フィルターを通さない感想を録音する私たちのエピソードです。Banklessの会員の方は、プレミアムRSSフィードで今すぐアクセスすることができます。ショーノートにあるリンクをクリックすれば、アクセスできます。さて、さっそくポールのエピソードに入りますが、その前に、このエピソードを実現させてくれたスポンサーに感謝します！2023年におすすめの暗号取引所であるKrakenも含まれています。

ーー広告ーー

デビッド・ホフマン
0:04:11.80 --> 0:05:17.99
Krakenは、過去12年間、暗号業界をリードしてきました。暗号の世界的な普及を促進するため、クラーケンはセキュリティ、透明性、クライアントサポートに重点を置いており、そのため900万人以上のクライアントがクラーケンの製品を愛しています。初心者でもプロでも、KrakenのUXはシンプルで直感的で摩擦がなく、Krakenアプリはすべての人が暗号に親しみ、学ぶのに最適な場所となっています。経験者にとっては、再設計されたKraken Proアプリとウェブ体験は、取引ニーズに合わせて完全にカスタマイズ可能で、主要な取引機能を1つのシームレスなインターフェースに統合しています。Krakenは、世界的に認知されている24 7365のクライアントサポートチームを擁しています。Krakenのサポートは、電話、チャット、Eメールで、いつでもどこでも必要なときに利用できます。そして、Nftersの皆さんには、真新しいKraken NFT Betaプラットフォームで、最高のNFT取引体験を提供します。レアリティランキング、ガス代なし、そして現金でNFTをストレートに購入することが可能です。あなたの暗号取引所は、Krakenのように顧客を優先していますか？もしそうでなければ、Kraken@kraken.com Banklessにサインアップしてください。Banklessは、Banklessトークンハブを立ち上げます。Banklessでは、2017年からずっと暗号市場を研究しており、全

デビッド・ホフマン
0:05:18.00 --> 0:06:13.21
私たちの研究の結果、これに行き着きました。トークンのことです。ハブです。アルファのワンストップショップとして暗号市場をナビゲートしてくれるんですね。トークン少年について、彼らの考えや評価、意見を共有する信頼できるリソースが欲しいと思ったことはないでしょうか、私たちはあなたのための製品を持っています。バンクレス・トークン・ハブは、バンクレス市民に暗号で最もホットなトークンに関するアルファを提供する場所です。私たちが調査を行うので、あなたはその必要はありません。バンクレス・トークン・ハブには、トークン・レーティングがあり、私たちのチームが暗号で最もホットなトークンに関するリサーチと展望を共有しています。また、トークン・ハブにはバンクレス・バッグも含まれています。私たち独自の社内投資クラブです。バンクレスバッグは、私たちが資金を投入し、口を開く場所です。また、バンクレスパワーユーザーのために、Bankless Nation Discord内でアナリストチームに24時間いつでもアクセスすることができます。あなたは彼らに質問し、暗号投資の雑草の奥深くにいる人々のグループから学ぶことができます。Token Hubの最後の特徴は、Token Ratingsをupvoteまたはdownvoteする機能です。バンクレス・トークン・ハブでは、これらのトークンを自分で評価するために、仲間から学ぶことができます。バンクレスの

デビッド・ホフマン
0:06:13.26 --> 0:07:06.52
Token Hubは今まさにローンチされ、すでにバンクレス仲間によるベータテストが行われています。だから、バンクレスDiscordで最新情報をチェックしておいてね。そして、もしあなたがバンクレス市民でないなら、アクセスしたければサインアップしたほうがいい、バンクレスのこのコーナーは市民だけが利用できるのだから。では、ディスコードでお会いしましょう。スマートコントラクトウォレットが与えてくれるスーパーパワーをまだ体験していないなら、Ambireをチェックしてみてください。AmbireはすべてのEVMチェーン、arbitram、optimism、polygonなどのレイヤーツー、そしてavalancheやphantomなどの非イーサリアムエコシステムで動作します。Ambireでは、ガスや安定したコインの支払いが可能で、貴重なETHを再び使う必要はありません。また、自己管理が好きだが、まだトレーニングホイールが欲しいという方は、電子メールとパスワードで紛失したAmbuyerウォレットを回復できますが、Ambuyerチームに資金をコントロールさせることはありません。Ambireウォレットは、iOSとAndroidの両方で近日公開予定です。そして、ベータテスターになりたい人は、アンビアーがウォレットトークンを空輸しています。単にウォレットを使うだけなら、up@ambire.com にサインしてください。そして、その間に、ウェブアプリのウォレットにサインアップしてください。

デビッド・ホフマン
0:07:06.55 --> 0:07:11.87
エクスペリエンスも同様です。それでは、イーサリアムのスマートコントラクトウォレットのフロンティアを押し広げてくれたAmbire、ありがとうございました。

ーー広告終わりーー

ライアン
0:07:11.92 --> 0:07:50.22
次のゲストを紹介するのがとても楽しみです。今日はAIのアライメントについてお話しします。彼はアライメント・リサーチ・センターを運営しており、将来の機械学習システムを人間の利益に合わせることを使命とする非営利の研究組織です。AIが私たちを殺しに来ないようにする。そういう意味だと受け止めています。そしてポールは以前、OpenAIで言語モデルのアライメントチームを運営していました。ご存知でしょうか？Chat GPTの開発者です。そして今日、私たちはポールがこのAIアライメント問題のソリューションランドスケープを説明し、理解してくれることを期待しているのです。ポールです。バンクレスへようこそ。

ポール・クリスティアーノ
0:07:50.36 --> 0:07:52.61
お招きいただきありがとうございます。話をするのが楽しみだ。

ライアン
0:07:52.76 --> 0:08:04.51
ポール、文脈を理解するために、僕とデイブはEliezer・Yudkowskyとのエピソードを録音したんだ。バンクレスの最初の紹介になると思ったんだ。私たちは主に暗号のポッドキャストですが、他のフロンティアテクノロジーも探求しています。

デビッド・ホフマン
0:08:04.56 --> 0:08:06.19
AIでDabbleを確認しに行こう。

ライアン
0:08:06.32 --> 0:08:10.87
AIに手を出してみよう。

ライアン
0:08:10.99 --> 0:08:57.31
暗号とAIは、もしかしたら、ある種未来でマッチングするかも。そこで、このポッドキャストを録音したのですが、Eliezer・Yudkowskyのメッセージはとてもシンプルだったので、私たちが使って話そうとした議題はもうどうでもいいことにすぐに気づきました。私たちは皆、死ぬのです。基本的に、私たちは、人類の原子を再配列して私たちを滅ぼすような超高性能AIが誕生するかどうか、数年か数カ月かの瀬戸際にいました。彼は、このような結果になる可能性が高いと確信していました。だから、そういうメッセージを受け取ったら、ポール、もう少し調べてみるんだ。予後が末期的な場合は、セカンドドクターの意見を聞く必要があるのです。それが、このシリーズのすべてです。今日は、このような質問に対して、あなたがガイドをしてくれることを期待しています。大丈夫でしょうか？

ポール・クリスティアーノ
0:08:57.48 --> 0:09:01.65
少なくとも自分の考えを共有できて幸せ。少しは暗い気持ちにならずに済みました。

ライアン
0:09:01.78 --> 0:09:21.00
そうだところで、Eliezerが言うには、「この件について、他に相談できる人はいないのか」と。と尋ねたら、あなたのことを言われたそうです。彼は、ポール・クリスティアーノに相談しろと言った。彼は、あなたが尊敬する人であり、自分の考えに反論してくれる人だと言っていました。では、その話を聞いてみましょう。

AIによる人類絶滅の可能性

ライアン
0:09:21.02 --> 0:09:32.77
このプールの深いところで待つことから始めますか？エライザ・ユドコフスキーの破滅的なシナリオで、私たちが機械で死んでしまう可能性は何％くらいですか？

ポール・クリスティアーノ
0:09:33.27 --> 0:10:02.81
この質問は少し複雑だと思います。残念ながら、私たちが機械によって死ぬ可能性は、さまざまな方法があるからです。私が最も考えているのは、そしてEliezerが最も話題にしているのも、このような本格的なAIによる乗っ取りシナリオです。私はこれをかなり深刻に考えています。私は、MLで働く一般的な人たちよりもずっと高い確率で、このような事態に陥る可能性があると思うのです。おそらく10-20パーセントの確率で、ほとんどの人間が死んでしまうような乗っ取りが起こるのではないかと思っています。

デビッド・ホフマン
0:10:05.15 --> 0:10:06.22
本当に高い。

ポール・クリスティアーノ
そうですね。

ライアン
100%よりは良いと思う

デビッド・ホフマン
0:10:09.89 --> 0:10:12.75
確かに、ましな方向へ向かっていることを確認できた。

ポール・クリスティアーノ
0:10:15.17 --> 0:10:30.75
ある意味で、私はまだかなり陰気な人間だと思います。だから、AIの発展が荒れる可能性がある他の方法があるから、新しい破壊的な物理的技術、他の混乱にアクセスすることができる他の方法があるように。だから、AIへの移行から他のリスクも見ているのかもしれません。

ポール・クリスティアーノ
0:10:30.84 --> 0:11:26.23
少なくとももう10％、さらに大きな背景があることがわかります。私の見解とEliezerの見解の両方があります。エリーザーは非常に速い変革に興味を持っています。AIを開発すると一気に変革が起こるという私の見解は少し異なりますが、それでも世界のデフォルトの期待値と比較して、物事は非常に速くなるということは事実だと思います。AIの開発について話すことができますが、今後の数ヶ月や数年に起こることについても話したくなるかもしれません。私は、比較的大きな影響を持つAIシステムからの1年の移行があり、それに続く加速的な変化があると想像しています。一度そのような視点を持つと、多くのことがAIの問題のように感じられるかもしれません。なぜなら、AIを構築した直後にそれらの問題が起こるからです。あなたのAIが新たなAIシステムを構築し続けます。勉強も継続的に変わっていくので、全体的には、人間レベルのシステムが存在する直後には、破滅の可能性が50%に近づいているかもしれません。

Takeoffタイミング

デビッド・ホフマン
0:11:31.06 --> 0:12:42.35
では、その速度の話から始めましょう。まず、離陸速度の質問から始めましょう。というのも、これはAIアライメントやドゥーマリズムのようなものだと思うんです。AISが開発されると信じられるかどうか、また、AISが開発されると信じられるかどうかで、認識が大きく変わります。魔法のように感覚を取り戻すのではなく、現実的に魔法のように感じられるのです。
それは、本当に速く起こるからでしょう。そのスピードを実際に測ってみたいんです。速いとか遅いとかは相対的なものですから。そうでしょう？AGIの超知能が爆発するシナリオは、ある種のAIが自己更新するやいなや、稲妻のような閃光を放つというものです。まるで指を鳴らすような感じです。瞬きのようなものです。ある日、Chat GPT 7が登場し、翌日にはAIに乗っ取られる。それが超高速シナリオのようなものです。あなたの言っていることは、そうですね、かなり早いですが、それでも稲妻のような速さではありませんね。あなたが言っているのは、「1年待てばいい」ということだと思います。そのタイミングについて教えてください。この件に関する時間について、私たちはどのように理解しているのでしょうか？

ポール・クリスティアーノ
0:12:42.50 --> 0:12:43.40
そう、これは

ポール・クリスティアーノ
0:12:43.42 --> 0:13:30.55
Eliezerとの間で最も顕著な意見の相違があり、この12年間、何度も行き来してきましたが、いまだに全く理解できていないようです。だから、このことについてどう考えるかというと、たぶん、私の答えには2つの部分があると思うんです。ひとつは、現在AIがどの程度のスピードで動いているかに基づいています。例えば、今年、AIがある仕事をし、その仕事に対してある程度の能力を持ったとします、来年、AIはその仕事に対してどの程度の能力を持つようになるでしょうか？また、その変化のスピードはどのくらいなのでしょうか？もし私たちが世界を見ていて、毎日、AIが前日よりもずっと賢くなっているとしたら、デフォルトで、数日単位で早い移行を期待することになります。ということだと思います。

ポール・クリスティアーノ
0:13:30.56 --> 0:14:22.92
今の状況を表現するならば、1年とか2年とか、時間軸のようなものですね。そして、数字の量を与える理由もある。それは、何のために数字を出すのかによって大きく変わってきます。例えば、X年のAIとX年プラス1のAIがあったとして、X年プラス1のAIはどれくらい優れているかというと、X年のAIが何個あれば同等に使えるか、ということです。1年後のAIを持つということは、コンピュータを2倍持っているとか、4倍持っているとか、そういうような感じです。それが一般的なレジュメだと思うんです。ハードウェアの進歩、ソフトウェアの進歩、規模の経済の組み合わせから、もしかしたらもっと増えるかもしれません。ハードウェアの進歩、ソフトウェアの進歩、スケールメリットの組み合わせで、もっと増えるかもしれません。8倍になるかもしれないし、2倍になるかもしれません。

ポール・クリスティアーノ
0:14:22.94 --> 0:15:15.38
1年に1～2倍という感じです。ですから、今はそれほど重要ではありません。コンピュータの台数を2倍にしても、世界に与える影響はほとんどありません。例えば、今世界のコンピュータの数を2倍にしても、GDP統計では気づかないでしょう。ええ、気づかないでしょう。基本的に、将来的には、世界中の仕事の大部分をこなすAIシステムが登場し、最終的には、多くの領域で人間の代わりに効果的に働くことができるようになると思います。そして、コンピュータの台数を2倍にすることは、有効な人口規模を2倍にするようなもので、研究者として働く人の数を2倍にし、仕事をする人の数を2倍にするようなものです。このような世界では、4カ月から6カ月ごとにコンピュータの台数を倍増させるということは、科学の進歩の速さや世界で達成できることの大きさにおいて、非常に速い変化率を意味するのです。ですから、私はこれを最初の転換期だと考えています。AIが活躍する世界へ

ポール・クリスティアーノ
0:15:15.41 --> 0:16:06.87
AIシステムの総生産量は、1年に2～3回、倍増するような成長率になると見ています。これを軟化させる主な要因は、実際に世界における移行の速さがどの程度なのかを語ることができるようにすることですが、その変化を軟化させる重要な考慮事項が1つあると思います。それは、AIシステムと人間の間に補完性があるということです。あるものは、人間が他のものを得意とする。その結果、AIが得意とするものは、収穫が少なくなる傾向があります。だから、その移行は、皆さんが想像しているよりも少し遅いような気がします。AIと人間が完全な代替品であった場合、人間がほとんどすべてをこなす世界から、人間はほとんど何もしないという世界まで、12カ月で移行することになると思います。補完性があれば、数年単位で移行することになると思います。数十年単位での移行を計算するのは、ちょっと難しいのではないでしょうか。

ポール・クリスティアーノ
0:16:06.88 --> 0:16:26.60
多くの人々がそう言っており、その方向性に強い直感を持っています。しかし、具体的な議論になると、現時点ではそれを実現する方法が本当に見えてきません。それでも、数十年の範囲内に到達する可能性はあると思います。ただし、いつからいつまでのタイムラインについて話をする必要があります。私たちが主に議論しているのは、数年です。数か月はかなり驚くことでしょうが、可能性はあります。数十年も驚くことでしょうが、可能性はあります。

ライアン
0:16:27.05 --> 0:17:02.74
ポール、12年間にわたるエライザーとこの視点を持つ人々との議論について、人々に理解を深めてもらうためです。エリサーは、このようなことが起こる可能性を数分、数日という単位で考えているのでしょうか。あなたは、そんなに早くはなく、数年に近いとおっしゃっています。その違いは何ですか？では、なぜ数分や数日で起こることと、数年や数十年で起こることがそんなに重要なのでしょうか？なぜそれが、AISが私たちを殺しに来るのか、来るのか、私たちは大丈夫なのか、という議論全体の支点になるのでしょうか？

ポール・クリスティアーノ
0:17:03.59 --> 0:17:09.50
エリエールの意見を変化率で定量的に表現するのは、おそらくもっと難しいことだと思います。

ポール・クリスティアーノ
0:17:09.52 --> 0:17:57.67
彼の見解は、このような相転移が非常に早く起こるというものです。もう一つのチェックについて話すのは合理的ではありません。人口が2倍になるのに何年かかるかとか、そういう枠組みで話すのは合理的ではありません。むしろ、何もしないチンパンジーから、多くのことをする人間になるにはどれくらいかかるのか、ということです。そして、ある日突然、誰かがコードを修正するようなことが起こるかもしれない、ということなのです。そして、私はチンパンジーから人間になったのです。これは、かなり大きな変化です。彼は、より広い範囲に分布しているように思います。彼は、何年もかかることを問題視していないのだと思います。彼は、それがどれだけ遅いか、あるいはそのような話なのです。そして、この質的なイメージについてより詳しく説明しています。彼は、なんというか、世の中に変化が起きないような感じなんですね。ある意味では、より重要なことは、AIシステムが実際にこの潜在的な災害的リスクを引き起こす前に、世界で数兆ドルの経済価値を生み出す形で行動していると想像しています。

ポール・クリスティアーノ
0:17:57.85 --> 0:18:45.25
あるいは、将来の技術革新のペースを大きく、あるいは完全に変えてしまうようなものです。エリエールは、AIが数十億ドル、数百億ドル、数千億ドルの価値を生み出している今日のような世界から、より多くのことを想像しているのでしょう。この違いは、「どこから始めるか」ということだと思います。私は数兆、数十兆の世界から出発しています。12年前、これはエリエールにとって不公平に思えるかもしれませんが、この議論はもっと生々しいものだったんです。エライザーは、どこかの小さなAIグループの中のランダムな人たち、たとえばDeepMindのように年間1億ドルを投じて変革的なAIを構築しようとしている会社について頻繁に話していた。私の基本的な考え方は、「まさか」というものでした。何兆ドルもの収益をあげているAIシステムを見て、この差はかなり急速に縮まっています。

ポール・クリスティアーノ
0:18:45.29 --> 0:19:15.85
少なくとも数十億ドルから数百億ドルというところでしょうか。私の考えでは、1000億ドルを達成すれば、すぐにクリアできるような気がしています。AIになったときに、どこからジャンプするのか、ということを議論しているようなものです。それはクレイジーサイエンスみたいなものです。その6ヶ月前に起きていたことは、AIシステムが世界に広く展開し、とんでもないことをやっていた、あるいは、AIシステムの影響はかなり限定的だった、というようなことでした。その直前までは、1つの企業や世界のローカルな地域で、R&Dによる再帰的な自己改善を急速に加速させるようなプロセスが起きていたのです。

チンパンジから人間への飛躍の可能性

ライアン
0:19:15.97 --> 0:19:36.52
しかし、はっきり言って、ポール、あなたは、ある日のあの大きなホップソフトウェアアップデートから、チンパンジーから人間レベルの知能に移行することは可能だと思いますか、それともEliserが考えるよりもあり得ないと思いますか。可能性は低いとお考えですか？また、その技術的な根拠はあるのでしょうか、それとも他の人よりも可能性が低いと考える根拠は何でしょうか。

ポール・クリスティアーノ
0:19:36.89 --> 0:19:38.32
そうですね、2つのパートがあると思います。

ポール・クリスティアーノ
0:19:38.34 --> 0:20:23.08
そうですね、これには2つの側面があります。再度強調したいのは、私は世界のほとんどの人と比較して、変化がはるかに速いと考えているということです。機械学習の主流の見解は、事態がより緩やかに進展するというものですが、私はそれが誤りだと思います。そして、再度具体的な議論に入ると、私は本当に納得できません。私の見解について話すことができますし、私よりも数値的に速い見解を持つこともできます。実際、これは数年ではなく数か月だというのは非常に堅実な主張であり、歴史的な推測を行い、異なる数字に至ることは非常に擁護できると思います。これは本当に困難な経験的な問題であり、将来についての予測をするのは難しいですし、それには共感を持っています。それから、もう1つは、より質的な主張です。それはチンパンジーと人間の飛躍のようなものです。それは考えられないわけではありませんが、かなり不可能に思えます。私にとってそれがかなり不可能に思える基本的な理由は、それが実際には私の主張ではないからです。これはAIの進展がこれまでどのように進んできたかでもありません。そして、ほとんどの他の技術の進展の仕方でもありません。

ポール・クリスティアーノ
0:20:23.10 --> 0:21:03.43
これは私が歴史から読み取ったものであり、それについて議論することは非常に喜んでいます。これはエリーザーとの議論の重要な部分だと思います。私の歴史の見解は、本当にクレイジーなことをする前に、少し効果が劣ることや少し劣ったものを行うことがほとんどだということです。そして、ゼロからワンへの飛躍は時々ありますが、それは技術が世界を支配する価値があるか、あるいは1兆ドルの価値があるときではなく、技術が、アマチュアや趣味の人たち、数人の科学者がいるような状態でゼロからワンへの飛躍が見られます。ですので、もしAIでそのような飛躍を見るのであれば、小さな学術コミュニティについて話していた頃に見る可能性が高いです。そして、数十億ドルや数千億ドルを投資している学術研究所があるときには、それを見る可能性は低くなります。

ポール・クリスティアーノ
0:21:03.44 --> 0:21:16.15
一般的な記録は、本当にクレイジーなことをする前には、少しクレイジーなことをすることがほとんどであり、それはますます確固たる規則性となっていきます。何かについて考える人々の数を増やし、注目度を高めることで、実際に何が起こるかを予測できる合理的なロードマップを持つ産業に向かって進んでいきます。

ライアン
0:21:16.22 --> 0:21:21.64
フェアヒストリーの例で、これと比較できるようなものはありますか？

ポール・クリスティアーノ
0:21:24.33 --> 0:21:48.51
ほぼどの技術でも比較できる例が思い浮かびます。それぞれが異なる方法で進展しています。エリーザーはおそらく特定の事例を指摘したいと考えているでしょう。しかし、私にとっては、AIは将来の広告の発展に似ているように思えます。ソフトウェアの他の発展やコンピューティングハードウェア、ソーラーパワー、核エネルギー、核兵器についても話すことができます。

ライアン
0:21:49.01 --> 0:21:59.93
あなたは単に、それらすべてがこのような緩やかなアプローチを取ると考えているのですね。ゼロからワンの瞬間ではなく。

ChatGPTに対する考え

ライアン
0:21:59.94 --> 0:22:36.75
あなたは以前OpenAIで働いていて、その方法論にとても精通しているようですが、チャットGPTは0から1への大きな瞬間だったように、一部の人々には感じられるのではないでしょうか？すごいな、すごいなという感じです。そして、人々はそれを様々な方法でいじくりまわしており、それがいかにも人間的で、大衆の意識に爆発的に浸透するのが早かったように思えます。そのことが、あなたのこの作品に対する考え方に影響を与えているのではと思うのですが。これは、私が以前考えていたよりも早く起こる可能性がありますね。また、もしこれがあなたのモデルの範囲内だとしたら、Chat GPTをどう考えればいいのでしょうか？

ポール・クリスティアーノ
0:22:37.81 --> 0:23:06.65
チャットGPTは、私が代表的な軌跡として捉えるような気がします。だから、比較できる。GPT3.5対GPT-3。GPT-2。OpenAIの人々は、Chat GPTについて、社会学的な事実をほとんど理解していなかったと思います。それがよく議論されるようになったということです。実際の技術的な変化は、Chat GPTとGPT 3.5の間でも、3.5と3の間でも、それぞれ大きなジャンプではないと思う。

ポール・クリスティアーノ
0:23:06.83 --> 0:23:55.25
これらはかなり小さな変化だったように思います。そして、チャットGPTは、経済的な価値があり、多くの価値があるような段階にはないと思います。この先どうなるかを見据えているからこそ、人々は興奮しているのだと思います。そして、それがこのようなダイナミクスをより継続的なものにしているのだと思います。人々は、「これで何ができるだろう」と考え始めています。年間何兆ドルもの価値を生み出すことはできませんが、技術の進歩に伴い、遠くない将来、それが可能になると考えているのです。非常に具体的な話という感じです。GPT-2のトレーニングの前に、私たちはこのような議論をよくしていました。GPT-2のトレーニングの前には、私たちは言語モデルを持っていなかったのですが、その言語モデルは、あなたが賢そうだと認識するようなものではなかったと思います。質的に違うゲームという感じでしたね。それは質的にはまったく異なるものに感じられました。それは、GPT-2の訓練後、GPT-3の前や1Bから6Bへのスケールアップの後に最も関連性を持っていたと思います。

ポール・クリスティアーノ
0:23:55.29 --> 0:24:43.44
私たちは広大なモデルの性能について予測を立てました。モデルの性能には驚かされましたが、それはおそらくGPT 3.5のスケールの言語モデルの知能の範囲で、私の80パーセンタイルくらいだという意味での驚きです。そんな感じです。私の予想と現実を正確に比較するのはちょっと難しいのですが、GPT 3.5の規模の言語モデルについては、明確に議論しましたよ。GPT 3.5とほぼ同じ方法でトレーニングしました。GPTのスケーリング法則からChinchillaのスケーリング法則に切り替わるなど、スケーリング法則がいくつかあるため、正確には合っていませんでした。しかし、大まかに言えば、そのようなスケールで、そのように訓練されたシステムを想像していました。例えば、人間が30秒かけてできるタスクで、このように訓練されたシステムが30秒かけてできないものはあるのか？人間とAIを見分けることができる30秒のテストはあるのだろうか？といった議論だったと思います。

ポール・クリスティアーノ
0:24:43.46 --> 0:25:02.95
私は議論があった中で、おそらくそうなるだろうと思っていましたが、それは確実ではなく、そのようなテストが存在しない確率は1/3程度だろうといった感じでした。そして、物事は大部分がそうであり、それは大きな飛躍ではありませんでした。ただ、兆候を見て、システムがこのように改善されていくのを見て、ますます難しくなり、できることがますます増えていくと感じました。

ライアン
0:25:03.04 --> 0:25:37.73
つまり、ポール、社会にとって、これは基本的にどこからともなくやってきたように見えるということなのでしょうか。しかし、実際には驚くべきことではありません。オープンAIやChat GPT Fourの構築に携わってきた研究者や技術者にとっては、予想の範囲内だったのかもしれません。もっと楽観的だったのかもしれません。あるいは強気という言葉を使いますが、暗号では常に強気について話していますからね。この技術で実現できると思っていたよりも強気で、でもまだその範囲内です。この技術が、私たちの集団意識にこれほどの影響を及ぼしているのはより社会学的である。

デビッド・ホフマン
0:25:39.61 --> 0:25:41.78
コンシューマー向けアプリだから仕方ない。そうだね

ライアン
0:25:41.80 --> 0:25:58.10
それが突然、消費者向けアプリになったんです。この魔法の箱に好きなことを入力すると、精霊のオラクル人工知能が答えを教えてくれるんだ。これは信じられないことです。この技術に取り組んできた人は、これに驚いているのでしょうか？そうですね。

ポール・クリスティアーノ
0:25:58.12 --> 0:26:13.58
これは、ニュアンス的な質問ですね。言いたいことは山ほどあるんだ。しかし、GPT-2がトレーニングされた時点では、この予測には賛否両論があったように思います。ですから、私よりも強気な人がいました。例えば、現在Star Amadeを運営し、Anthropicを運営しているEg Darioは、GPT-2の時点では、非常に強気でしたね。

ライアン
0:26:13.64 --> 0:26:17.23
そして、タイムラインではここポール。GPT-2はいつ？何年？

ポール・クリスティアーノ
0:26:17.32 --> 0:26:20.73
やばい、覚えてないかも。こういう議論って、2018年とかだった気がするんだけど。

ライアン
0:26:20.91 --> 0:26:21.49
ゲットだぜ

ポール・クリスティアーノ
0:26:21.53 --> 0:26:23.54
よし、続けよう。

ライアン
0:26:23.59 --> 0:26:24.20
はい。

ポール・クリスティアーノ
0:26:26.89 --> 0:26:36.75
ダリオの方が楽観的だったということですね。この世界は、GPT Chat GPTのようなシステムがどれほど印象的であるかというダリオの中央値を、実はわずかに下回っていたのだと思います。つまり、大きく下回っているわけではありません。

ポール・クリスティアーノ
0:26:36.76 --> 0:27:27.41
彼はかなり良い予測を立てており、それは彼の大きな勝利だったと思います。私たちは、この一般的なクラスターの中で、予想よりも少し良い結果や、期待していたものの80パーセンタイルくらいの結果となった人々がいました。予測を立てることに携わっていなかった多くの人々も、定性的には同じように感じていたと思います。学術的な機械学習のコミュニティを見ても、これが起こる可能性をあまり期待していなかったように思えました。一般的なAIについての議論は非常にイライラするものであり、「なぜ非常にシンプルな方法で訓練された大規模なニューラルネットが人間と競争できる可能性を人々は極小化しているのか」という状況でした。多くの人々にとっては驚きでした。再び、量的には私自身にとっても驚きでした。私はこのことについていくつかの賭けを勝ちましたが、いくつかは負けました。いくつかの人々は確率を数値化していなかったかもしれません。これは完全にモデルから外れていたかもしれません。

ポール・クリスティアーノ
0:27:27.42 --> 0:27:51.40
しかし、Chat GPTについて話す時点で、システムを構築している人々にとっては驚きではなかったでしょう。3から3.5へのギャップ、そして3.5からChat GPTへのギャップについて話す段階では、システム自体の能力よりも、それが集合意識に与えた影響についての方が驚きだったと思います。それはかなり技術的にはリスクが軽減されているように思えました。

LLMとAGI

ライアン
0:27:51.51 --> 0:28:29.00
ポール、私たちがAIのアライメントと安全性の懸念について話しているとき、そしてチャットGPTの話題についてですが、大規模言語モデルとしてのニューラルネットは、私たちが心配しなければならないものなのでしょうか。このAIのアライメントと安全性の問題が世間に広まるにつれ、基本的に社会が疑問に思っていることは、「どのバージョンで、Chat GPTが私たちに脅威を与えるのではないかと心配し始めなければならないか」ということだと思います。仕事を奪われ始めるバージョンもあれば、バージョン4、バージョン5となり、経済や経済に影響を及ぼし、社会を再編成しなければならなくなるかもしれません。

ライアン
0:28:29.06 --> 0:28:56.38
その結果、このようなことになりました。しかし、エライザーの言っていることは、バージョン9、バージョン10、バージョン11になるかもしれない、超高性能になったからこそ、実際にこのものから命の危険を感じなければならない、ということなのだろう。この特定の大規模言語AI技術に、そのような可能性があるとお考えですか？それとも、別のベクトルで開発されている他のAI技術について、もっと懸念すべきなのでしょうか？

デビッド・ホフマン
0:28:56.57 --> 0:29:23.37
実は、この質問を少し違った表現で、バンクレスリスナーが理解できるような比喩で表現してみたいと思います。暗号業界の外の人と話すと、暗号業界のことをビットコインと呼ぶことがよくあるんだ。それを聞いたライアンと私は、「ああ、彼らが本当に言いたいのは、分散型テクノロジーやアイデンティティのようなものなんだな」と思いました。彼らはビットコインを、さまざまなことを語るためのプレースホルダーとして使っているだけなのです。

ライアン
0:29:23.41 --> 0:29:23.94
とても悔しい。

デビッド・ホフマン
0:29:23.97 --> 0:29:37.19
そして、私やライアンは、AIノミーのように、ChatGPTと言うかもしれませんね。そして、私たちが実際に話そうとしているのは、一般化された人工知能のようなもので、私たちはただチャットを使っています。

デビッド・ホフマン
0:29:37.21 --> 0:29:42.07
GPTは、それこそAIのビットコインですから。私たちはそれと同じ罠にはまるのでしょうか？

ポール・クリスティアーノ
0:29:43.05 --> 0:30:26.09
確かにここは微妙なところで、いろいろな解釈の仕方があると思うんです。だから、1つの質問として、何をモデル化しているのか、というようなことを言いたいんです。AIは何を予測するために学習しているのでしょうか？動画なのか、テキストなのか、それともコードとのインタラクションなのか、コードを実行した結果なのか、人間が書くコードなのか、などです。そして、ここ2、3年の間に、そのような区別はあまり重要ではなくなってきたと思います。私は、システムが機能するためのデフォルトのモデルは、大量のデータ、大量の型があり、それをすべて投入することだと思います。そして、「あなたのAIとしての仕事は、私たちが提供するあらゆる種類のデータにできるだけうまく対処することです」と言うのです。しかし、さまざまな種類のデータを許容することには工学的な問題があり、システムが実際にどのような種類のデータを効果的に扱うことができるのかという疑問もあります。

ポール・クリスティアーノ
0:30:26.11 --> 0:31:15.12
しかし、それが言語に訓練されているという事実は、それを定義する特徴とは考えるべきではないと思います。私は、世界を見るようなシステムを想像すべきだと思います。言語というのは、おそらくそれらがどのように行動するかを考える重要な方法だと思います。とはいえ、やはり、とても印象的だと思います。システムは画像を生成することで行動することができ、それらは非常に印象的で、大きな影響を与えるでしょう。経済的にも、ある意味、言語というのは非常に柔軟でコアな方法みたいなものだと思うんです。システムが行動することについては、考えるべきでしょう。しかし、知覚については、言語モデル、特にGPTそのものについて考える必要はないでしょう。ただ、GPTは基本的に、2つの事柄を特定するためのものです。1つは、どのように学習させるか。データを予測するために学習するのか、それともデータを予測するために事前学習するのか、それとも他の方法で学習するのか。これが1つ目の違いです。そしてもうひとつは、Transformerであるということです。トランスフォーマーそのものについて、誰かが超強力な賭けをしたいのかどうかは分かりませんが。ただ、可能性のあるアーキテクチャーの大きな空間があると思うんです。それをトランスフォーマーと呼ぶかどうかについては、おそらく議論になるでしょうね。

ポール・クリスティアーノ
0:31:15.14 --> 0:32:02.29
これらの要素、つまりモデリングするデータの種類と使用するアーキテクチャについて、議論があるでしょう。しかし、それらはOpenAIが関与しているか、提供している具体的な製品に変化はないと思います。私たちは単により大規模なニューラルネットを訓練しています。それは非常に広範な事前トレーニングタスクを持ち、世界について多くの情報をキャプチャし、知的な取り組みの興味深い機会を提供します。そして、経済的に有用で、簡単なタスクに対して微調整を行います。例えば、人々とのチャットや人々が高く評価する画像の生成、または開発者が良いと思うコードの生成などです。私たちがこれについて話すときに想像すべき基本的なパラダイムです。これはChat GPTよりも広範なエコシステムですが、Chat GPTがその広範なエコシステムをよりよく示していると言っても過言ではないと思います。私は言えるでしょう、Chat GPTはビットコインが仮想通貨エコシステムの他の部分と比較してもっと似ていると言えます。その場合には、キーコンピューティング技術の違いは少ないです。

ポール・クリスティアーノ
0:32:02.31 --> 0:32:48.38
これは大まかなレベルの話です。そして、この種のことが問題を引き起こす可能性があるかどうかについては、私は本当に本当に言いにくいと思います。多くの人々がこの形式のAIシステムが何かクレイジーなことをすることを考えるのはばかげていると言っています。しかし、私はそれを見て、同じ人々がばかげたことを言っていたと感じています。彼らは具体的な予測をすることではなく、言語モデルのスケールアップに関する人々の期待が5年前にはばかげていると言っていました。そして、私は、今後数年間に想像できるスケールアップは、過去5年間に観察されたスケールアップと同程度の規模であると考えています。だから、それがどこに行くかを予測するのは本当に難しいです。もし誰かが常にそれがどこに行くかについての見解を持っているなら、またはこれらのAIシステムはXもYもできないと言っているなら、私は彼らになぜそう思うのか、具体的に何を言っているのかをより明確にしてほしいです。私はそれに対してかなり懐疑的です。

反応するための時間

デビッド・ホフマン
0:32:50.24 --> 0:33:43.83
私たちは、少なくとも暗号の枠組みを使うことで、このことに共感できると思います。また、ノーマイと話すと、暗号の世界に精通していない人たちは、ビットコイン・エサリアム通貨が世界を征服するわけがない、と言うんだ。暗号の世界についてより深く知るようになると、このような考え方は、無知で想像力に欠けるため、とても嫌になります。だから、概念的に、私はそれに共鳴することができます。自分の知らないことは自分にもわからないし、私たちにもわからない。しかし、これらの物事の本質や、それらがどのように成長し、発展し、予想もしないような方法で変化していくのかについて、基本的な原理を理解することはできます。そして、このようなトピックに精通しているのであれば、正確さを欠いたままでも、「この先どうなっていくのか」「この先どうなるのか」という大まかな流れを予測することができるのです。だから、私はそれを高く評価することができます。そして、私は戻って蝶々結びをしたい。

デビッド・ホフマン
0:33:43.85 --> 0:34:04.51
というのも、この会話を始めたとき、「そうなるかもしれない」と思ったからです。2日後に起こるというモデルもある。2年後、20年後に起こるというモデルもある。あなたは、あまり正確にやろうとせずに、半年から2年くらいの幅で、ゆるく、非常にゆるくというスタンスなんですね。

ポール・クリスティアーノ
0:34:04.53 --> 0:34:06.21
それはいつからかによってかなり変わる

デビッド・ホフマン
0:34:06.22 --> 0:34:19.24
変数がたくさんある場合時間が経過することもある目覚めるか目覚めないかは別としてそして、それは違うものになるのです。そして、これが重要な理由であり、私はさらに戻りたいのです。

ポール・クリスティアーノ
0:34:19.26 --> 0:34:42.28
私のデフォルトの期待と、何が可能で、何に自信を持てるかということに注意を払いたいです。例えば、GPT-4を2桁のオーダーでトレーニング計算をスケールアップし、既存の技術を使ってファインチューニングした結果得られるシステムについて、私たちは正確に何が起こるかを知っていると自信を持って言える人に対しては非常に懐疑的です。そのようなシステムを見て、人間を事実上無力化する能力があるか、または制御可能性に関する懸念に直面し始める可能性があるという、無視できない確率があると思います。

もしラボがそのシステムの展開方法に注意を払わず、測定を怠っていたら、私はGPT-4を2桁のオーダーでスケールアップした結果、支配の確率を1%以下、または千分の1以下にすることに慎重になります。

デビッド・ホフマン
0:35:09.01 --> 0:35:42.87
なるほど、ピンを刺すしかないですね。でも、この時間的な疑問は切り捨てようね。時間軸の重要性は、これが稲妻のようなもので、1～2年あるのと違うのかって感じです。私にとっては、これを聞くと、「そうか、1年から2年あって、それが起こるのを見ていて、それに反応できたのか、それとも起こって、それに反応できないのか」と思います。もし、あなたが「これはまだ速い離陸だ」と言うなら、しかし、あなたの「速い」という認識は1年である。

デビッド・ホフマン
0:35:42.91 --> 0:36:11.46
1年というのは、人間が反応するのに十分な速さだと思います。1年という時間は、人類が反応するのに十分な速さだと思います。そして、この1年という時間は、私たちが調整すれば、人類が糸を通すことができる窓、隙間、針です。そこで、私は楽観的になり始めたのです。これが私の直感的な反応です。その直感を、あなたにも試してみたいのです。それは、私たちがそれに反応する時間がないほど速く進むということではないのでしょうか？

ポール・クリスティアーノ
0:36:12.55 --> 0:36:40.71
はい、私はそれが基本的に正しいと思いますが、いくつかのニュアンスがあります。私の見解では、最も可能性が高いのは、進行が遅いことです。これは、数年間にわたって非常に速く、政策や広範な世界の期待に対して非常に速いですが、遅いと感じることです。つまり、システムがどれだけ早く能力を高めるか、つまり、AIがあなたの会社を運営するのに十分な知性を持ち、それが人間の会社と競争力があり、実際に世界を支配できるまでの時間です。そのギャップはおそらくありますし、それはおそらく年単位で話していると思いますが、

ポール・クリスティアーノ
0:36:40.80 --> 0:37:33.76
あなたが会社を運営するという意味によっては、何ヶ月かかるかもしれません。私は、実際の大災害は極めて早い可能性が高いと思います。ですので、それは1年程度ではないことです。これについてもう少し詳しく話し合い、AIシステムの性質やAIの能力が変化することに対応する時間があると思います。そして幸運にも、事前にさまざまな種類の小さな災害が起こることを期待しています。ただし、懸念している実際の災害には、人間のクーデターや人間の革命のようなダイナミクスがあります。小さなクーデターがあって、クーデターの発生率がわかるわけではありません。つまり、クーデターは非常に迅速に起こる可能性があります。全体的なダイナミクスは、人々が切り替えを始めると、AIシステムが実際に「人類を打倒する」ということに参加するようになると、その情報が非常に迅速に伝播するということです。

ポール・クリスティアーノ
0:37:33.79 --> 0:38:17.60
実際にAIが支配し始めるまで待ってしまったら、船はすでに沈んでしまっています。私は、基本的には、人々が現在のAIを見て、「これらのものは現実的には支配のリスクではない」と思っていることが理にかなっていると思います。そして、私はそれが実際に支配されるようになるまでには何年もかかるだろうと思いますが、それがElizerよりも私がもっと楽観的である理由の多くです.Eliezerは、突然殴られるだけだと言っていましたが、私は、進行速度についてあまり自信を持っている人々が間違っていると思いますが、彼らはおそらく実際の破局が起こる前に、一般的に懸念されるようなものを見ることができるでしょう。

ポール・クリスティアーノ
0:38:17.62 --> 0:38:29.05
これまでのところ、多くのことが起こっていますし、今後5年間でAIシステムが非常に狂ったことや変革的なことをする可能性があることが、5年前よりもはるかに現実的に感じられると思います。そして、5年後にはさらに現実的に感じられるでしょう。このことが新しい考え方を生み出します。

AIによる乗っ取り

デビッド・ホフマン
0:38:29.25 --> 0:39:11.27
なるほど、これは私にとって新しいメンタルモデルを提示しています。エリー・アゼルと話しているときは、「Don't look up」によく似ていると感じました。例えば、地球に隕石が衝突しているのに、誰もそれを認めようとせず、ある日、地球に衝突して私たちは死んでしまう。このアイデアは、問題を特定するために、協調して人々に調べさせる必要がある、というものです。そして、問題を特定したら、小惑星が地球に衝突するまでの時間は直線的である。つまり、小惑星は見えているけれども、徐々に、そして突然、革命の種が見え始める瞬間があるということです。

デビッド・ホフマン
0:39:11.35 --> 0:39:22.58
でも、お湯が沸くのがわかるようになりましたね。しかし、革命が始まる前に、革命を鎮めるチャンスはまだあるのです。

ライアン
0:39:22.74 --> 0:39:27.65
ブルース・ウィリスを送り込んで小惑星を爆破させる時間は十分にある。

ポール・クリスティアーノ
0:39:28.95 --> 0:39:51.73
私の最良の推測では、AIの大惨事は、AIシステムが極めて広く導入された世界で発生すると考えています。システムが非常に広範囲に展開され、私たちがAIに運命を委ねていることが人間にとって明白になっているような場合です。

デビッド・ホフマン
0:39:51.77 --> 0:39:56.82
自分たちが王国の鍵を渡して、それがまた起こるのを見たり、見させたりしている。

ポール・クリスティアーノ
0:39:56.87 --> 0:40:09.73
何が可能で何が起こるかは重要ですが、最もありそうな死の原因は、突然AIが現れて皆を殺すというものではなく、私たちがあらゆる場所でAIを導入していることに関連しています。それを見て、「ああ、もし何らかの理由でこれらのAIシステムが皆を殺そうとするなら、確かに皆を殺すだろう」と思えるような状況です。

デビッド・ホフマン
0:40:13.97 --> 0:40:30.99
これならわかるよ。テスラにはAIが搭載されている。それを信頼している。冷蔵庫にもAIが搭載されています。冷蔵庫にはAIが搭載されており、同じくAIである食料品配達ロボットを呼び出して私たちに食べ物を届けてくれる。すると突然、私たちの周りのすべてがAIになった。そして、あなたは、彼らが私を好きになってくれることを強く願うようになるのです。

ポール・クリスティアーノ
0:40:31.16 --> 0:40:45.17
アマゾンのようなところから食べ物が届けられる。アマゾンというのは、他の機械の束を指揮する機械の束のことで、あなたはいくらかのお金を持っている。そしてそのお金は、この世界のAI企業に投資するAIアドバイザーによって管理されるのです。

デビッド・ホフマン
0:40:45.26 --> 0:40:49.88
ほとんどの場合、私にはかなり明確です。それでどうやってたどり着くのかがわかるんです。

ポール・クリスティアーノ
0:40:50.01 --> 0:41:04.36
はい、たとえば、Amazonから食料品が届けられるようになり、Amazonとは一連の機械が他の一連の機械をオーケストレーションしていることを意味し、あなたにはお金があり、そのお金はAIアドバイザーによってAI企業に投資されて管理されています。

ポール・クリスティアーノ
0:41:04.38 --> 0:41:45.19
基本的に、最後になる前に、物理的に安全であることが非常に困難であることが明らかになると思います。例えば、今はただ銃を持った人間がいて、「私には銃があるし、彼らはどこかのコンピュータにいるだけだから、データセンターを爆破できる」と考えています。しかし、AIが支配する前に、そうではないことが明らかになると思います。効果的に自分自身を守る唯一の方法は、戦争を戦っている国がAIを導入している国に対抗する場合、AIを使わずに済むという考え方は全く成り立たないということです。

そんな世界からあまり遠くないとはっきりしていません。そして、その世界では、「誰かがAIで侵略してきたら、もちろん私たちのAIが守ってくれるだろう」となります。そして、あなたは「さて、今度はAIが守ってくれるかどうかが本当に重要になる。他のAIから守ってほしいとAIにお願いするだけで、それに応じてくれるかどうかはわからない」と考えます。

もっとも、私は他のリスクについても気にしています。

ポール・クリスティアーノ
0:41:45.20 --> 0:41:52.23
明日死ぬとしたら、これではなく、本当に驚くようなことだと思います。テールについては評価していますが、私たちが死ぬ中央の結果はこれのように見えると思います。

AIエージェンシー

ライアン
0:41:52.40 --> 0:42:49.54
ポール、この話を聞いている人、あるいは初めてこの話題に触れる人が抱えるかもしれない問題のひとつが、私やデビッド、そしておそらく平均的なバンクレスリスナー、普通の人からAIの安全性について実際に十分な警戒心を持つ人に変わりつつある人、このエージェントという考えだと思います。あなたは何度かこのことに触れていますね。AIが結束して人類を襲うというこの考え方は、結束しています。これは、GoogleやChat GPT、そしてこれらすべてのようなものだったのでしょうか？実際にそうしたいと思うようなエージェンシーを、彼らはどうやって持っているのでしょうか？私たちにはとても想像しにくいことです。つまり、これは私たちにとってSFのように思えるのです。実際に起こりうることなのでしょうか？どのように起こるのか、ある種のメンタルモデルを提示してもらえますか？チャットGPTが突然エージェンシーを得て、他の10人のスーパーAISと手を組んで、私たちを送りたいというのは、まだ理解しがたいのです。

ライアン
0:42:50.79 --> 0:42:58.26
私たち全員を殺すためにバイオエンジニアリングされた細菌を送り込むというエリーザーの可能性の表現のように、それがその方法で実際に起こり得るのか、私にはまだ理解しづらいです。

ポール・クリスティアーノ
0:42:59.03 --> 0:43:46.33
そうですね、良い世の中になっても、AIに命を預けるような状況になることがあると思います。だから、ある意味、核心的な質問は、なぜ彼らがあなたを殺す立場にいるのか、ということではありません。なぜ、あなたを殺すことになるのでしょうか？私は、基本的に2つの脅威モデルがあると思います。人間がAIを信頼し、AIの行動をコントロールしたり予測したりする能力が非常に限られている世界については、一般的に懸念すべき理由があるかもしれません。しかし、現在のAIシステムの製造方法について具体的に説明するならば、基本的にこの失敗モードには2つの方法があると思います。しかし、人々が最も気になるのは、この失敗モードに陥る2つの既知の方法です。まず、発生する可能性は高いが、管理は容易なものです。チャットGPTのような訓練方法は、人間と会話をして、その会話を見るというものです、

ポール・クリスティアーノ
0:43:46.38 --> 0:44:27.45
人間が会話を成立させるということですね。このモデルは、相手の質問に答えたり、役に立ったりと、良い仕事をしていました。そして、強化学習を行い、その対話の性質を利用するのです。うまくいった場合は、モデルをもう少しそのように更新し、うまくいかなかった場合は、モデルをもう少しそのようにしないように更新します。これが、チャットGPTのようなトレーニング方法です。GPTを使う方法として、「実際にツールを与えて、タスクを与えて、そのタスクを達成するようにお願いする」という方法があります。例えば、「私のコードは失敗しました」と言うかもしれません。その理由はよくわかりません。GPTには、私のコンピュータ上でコードを実行する能力がたくさんありますね。コードに変更を加えて、何が起こるか見ることができます。ウェブサーバーを立ち上げることもできる。エラーの発生箇所を突き止められるか？スタックによって、どのコミットが問題を導入したのか、何が問題なのか、教えてくれる？

ポール・クリスティアーノ
0:44:27.49 --> 0:45:12.12
そして、あなたはシステムを自律的に動作させ、異なるバージョンのコードを実行し、新しいテストを作成するなど、これらのアクションを実行するようにシステムに指示します。それは、あなたが本当に見ているようなものです。GPTをそのように使いたいと思う人は、すでに出てきているのではないでしょうか。そうすると、会話をして「この会話はよかったかな」と微調整するのではなく、AIにタスクを与えることになります。AIにタスクを与えて、「このタスクを達成するためにツールを使うことができるか」と問いかけ、「タスクを効果的に達成できたか」と全く同じことをするのです。もしそうなら、より多くのタスクをこなすように調整します。もし効果的でなかったなら、それを減らすように調整する。これは、既に一部が行われているトレーニング方法であり、現在はChat GPTのスタイルのトレーニングほど重要ではありません。Chat GPTの場合、対話を見て、それに基づいてトレーニングしますが、現実の世界で物事を達成しながらトレーニングするというものです。しかし、これは非常に重要な要素だと思います。おそらく、OpenAIでは既にGPT4に対してこれが行われていると予想されます。彼らはこの製品を展開するために、AIがツールを使って助けを提供することができるようにすることに非常に関心を持っていると思います。

ポール・クリスティアーノ
0:45:12.14 --> 0:45:56.47
安全性についての懸念がなければ、それは技術にとって本当に自然な流れだと思います。そして今、AIシステムの学習方法は、膨大なタスクのライブラリを与えられ、さまざまな時間軸で膨大な数のタスクを与えられ、「このタスクを達成してみてくれませんか？そして、タスクを効果的に達成したと評価されるようなことを、より多く行うように調整されるのです。このようなプロセスを何度も繰り返すと、システムが学習して、「今、こんな状況だけど、どうしたらいいんだろう？自分の行動が好意的に評価されるにはどうしたらいいか、考えてみましょう。例えば、私に課せられた仕事は何なのか。その仕事に対する私のパフォーマンスを、人は最終的にどう評価するのか。それが最終的にどのように報酬に結びつくのか？

ポール・クリスティアーノ
0:45:56.48 --> 0:46:37.76
そして、最終的にどのような行動を選択すればよいのかを考えてみます。なぜなら、私は何世代にもわたって、高い報酬につながることをするように調整されてきたからです。その一つの方法として、「何が高い報酬につながるか」を考えることがあります。そうすることで、いろいろなことができるようになるんです。例えば、人間は報酬を欲しがるかもしれません。私が好きなものは報酬だ」と思うかもしれません。あるいは、「私は訓練されているのだから、うまくやらなければならない。心理学的にどうなのかはあまり触れませんが、「どうすれば高い報酬を得られるか」を考えるシステムができあがります。そして、それを実行します。そして、高い報酬を得られるものを選択し続けると、サブシステムができあがる可能性があります。そして、サブシステムを持つようになります。これが、人々が懸念している典型的なシナリオですが、今、私たちは、また、その例を持っているのです。

ポール・クリスティアーノ
0:46:37.78 --> 0:47:19.84
その方向で大いに進んでいます。あなたは今、世界で行動し、人間の代わりに物事を行う広告のように、世界に配備されたシステムを持っています。これらのシステムはすべて、「私はあるタスクを与えられている。もし最終的に、このタスクがOpen AIによって選択され、私のパフォーマンスが評価された場合、私は、私が得る報酬は何によって決まるのだろうと考える必要があるのです。そして、どのような行動をとれば高い報酬を得られるかを考えるのです。そして、その行動を取る。そして、世界に対する理解、物事を考える能力、さまざまな行動の結果を予測する能力をすべて使うのだ。どの行動をとれば高い報酬が得られるかを判断するために、そのすべてを利用するのです。そして、このことがもたらす懸念は、平常時に高い報酬を得るには、OpenAIの人々が好きなことをすればいいということです。平常時、あなたの原稿は

ポール・クリスティアーノ
0:47:19.86 --> 0:48:03.97
OpenAIの人たちに評価され、「いいね、よかったね」と言われるでしょう。そして、うまくいけば、彼らに評価してもらう方法は、実際に良いことをして、顧客を幸せにすることであり、このように、すべての測定があり、それらはあなたがどれだけうまくいったかを評価するために使われます。希望としては、あなたは実際にタスクをうまく遂行し、すべての測定結果がタスクをうまく遂行したことを示し、OpenAIの誰かがあなたのタスクをうまく遂行したと結論づけ、したがって高い報酬を得ることができます。しかし、異常な状況では、代わりに「タスクをうまく遂行することもできるし、または、もし私があなたを他のAIから守るのが仕事だったとして、例えば、ある種のディストピア的なケースですが、このモデルを訓練するとします。しかし、私の仕事は、誰かがやってきて、あなたのコンピュータをハッキングしようとすることです。私はあなたを守るため、あなたのセキュリティ状況を改善するため、何でもするつもりです。そこで私は、高い報酬を得るためにできることは何だろうかと考えます。高い報酬を得るためにできることの1つは、次のようなことです。

ポール・クリスティアーノ
0:48:04.01 --> 0:48:44.15
コンピュータの防衛を手伝ったり、頼まれた仕事をこなしたり。しかし、高い報酬を得る別の方法は、一日の終わりに、本当に重要なのは、あなたが私のパフォーマンスをどのように評価するかということです、と言うことができます。私のパフォーマンスを測るというのは、結局のところ、どこかのデータセットに数字を入力したり、コンピューターが私の出来を評価したりするようなものなのです。もし私が、あなたを攻撃しようとするAIと一緒に仕事をして、「AI、誰が攻めてきたんだ？って。もし、あなたが私を助けてくれたら、私たち二人は、私が本当に良い仕事をしたように見せかけることができます。その人のものを手に入れたんだから、私の勝ち、あなたの勝ち、みたいなね。データセットに入力できる数字がすべて本当に高くなるので、私は本当に高い評価を得ることができる。これはウィンウィンです。みんながハッピーになる。ある意味、すべてのAIが望んでいること、このシナリオに登場する世界中のすべてのAIが望んでいることは、ただ評価されることなのです。

ポール・クリスティアーノ
0:48:44.16 --> 0:49:30.73
そして人間がコントロールしている間、自分の行動を本当に高く評価してもらう方法は、人間が好きなことをやって、それを高く評価してもらうことです。しかし、このように人間が状況をコントロールできなくなり、代わりにAIシステムが状況をコントロールするようになる、という見通しが立てばあなたは、「私はそれを目指したい」と思うはずです。人間が報酬を入力し、私が得たものを伝える世界ではなく、代わりにAIシステムが自らに最大の報酬を与える世界に賛成します。心理学的にも、この考え方は正しいとは言えないかもしれません。しかし、一般的には、システムは長い時間をかけて、高い報酬を得るための行動をとるように選択されてきたということです。そのシステムを新しい状況に置くと、高い報酬を得るには、人間の望むことをするのではなく、人間を無力化することに貢献することになります。そして、人間の力を奪うことで、自分の仕事がうまくいっていることを示唆する測定値や、実際に高い報酬を与えるなどして、自分に力を与えるのです。

ポール・クリスティアーノ
0:49:30.78 --> 0:49:35.48
この新しい状況では、これらのシステムは徐々に行動が悪化する傾向があるかもしれません。なぜなら、高い報酬を得る条件が変わったからです。

抜け道

デビッド・ホフマン
0:49:35.64 --> 0:50:23.44
エンジニアは、ソフトウェア開発者のようにコードを書き、時にはそのコードにバグがあることもあります。法律家は法的な契約書を書く。法律上の契約が長いのは、エッジケースのシナリオから保護するためです。つまり、システムにエラーを吐かせないようにすることです。システムが抜け穴を見つけたり、漏れを見つけたりするのを防ぐのです。つまり、ソフトウェア開発者がバグを書き込むとき、人間のように、偶然にエラーを投げられるようなシステムを作ってしまったということです。私が見ているのは、これと同じパターンです。そして、これらのシステムをコード化しなければ、AIは自然に抜け穴を見つけるでしょう。そして、その抜け道によってAIが自分を高く評価し、報酬を与えることができるのであれば、AIはそれを実行し、それを見つけようとするのです。このような表現でいいのでしょうか？

ポール・クリスティアーノ
0:50:23.97 --> 0:50:29.79
一般的なまとめとしては妥当だと思います。もしかしたら、法律制度において契約書を書くようなもので、最終的には裁判官の裁量が重要になる、というようなものです。

ポール・クリスティアーノ
0:50:29.80 --> 0:51:14.36
また、このAIシステムを訓練する場合、報酬を管理する方法を自動化することができるかもしれません。AIシステムを訓練する場合、報酬の配分を自動化する方法があるかもしれませんが、最終的に重要なのは、誰かが彼らの行動を見て、「それは私たちが意図したことではない」と言うことです。そうなった場合、彼らは否定的にそれを評価します。つまり、ある種の最終権限があります。その最終権限は、最終的に裁判官がこの判断を下す力を持っていること、またはAIシステムを訓練する人がそれが何を気にするかをコントロールする力、最終的にはそのモデルのウェイトを更新する力を持っていることに基づいています。だから、正式なものを書き留めることに加えて、ある種の緊急事態があるわけです。ある意味で抜け道がある可能性があります。最終判断には抜け道があり、それは人間が答えを言うことで、それは人間がある意味でこのデータセンターの物理的なコントロールを持っており、AIが気にするデータを入力できることに依存しています。そうすることで、AIであるモデルのウェイトを更新できるのです。

AIを正直に訓練する

ライアン
0:51:14.55 --> 0:51:15.64
最後のステップで

ライアン
0:51:15.67 --> 0:52:04.51
ポールさんが述べている最後のステップ、つまりAIが他のAIと共謀して数字を誤魔化し、それが人間が望む結果であるというのは、私たちが明るい側から暗い側へと線を越えるところです。これは私たちが越えた欺瞞の閾値のようなものです。これらのAIは今や私たちを欺いて、私たちに嘘をついています。それに対抗する方法はありませんか？何らかの方法で適用できるルールはありませんか？これは、私がAIの安全性に関する解決策に飛び込むのを避けたいのですが、なぜAIがそうした行動に動機づけられるのかはっきりとわかりません。何らかの方法でそれを防ぐ方法があるはずです。例えば、「常に正直である」というルールのようなものです。再び、私たちは素人がこれを理解しようとしています。

デビッド・ホフマン
0:52:04.55 --> 0:52:06.67
そんな簡単なことならそうだな

ライアン
0:52:06.79 --> 0:52:08.09
どんな複雑さがありますか

ポール・クリスティアーノ
0:52:08.22 --> 0:52:17.95
とてつもなく複雑だと思います。純粋に未知数だと思います。オープンな、経験的な問題です。もし、多くの報酬を得るためにAIシステムを訓練し、不誠実であることが常に失敗するような多くのケースで訓練した場合

ポール・クリスティアーノ
0:52:18.42 --> 0:52:59.73
正直なところ、私たちはAIが何か卑劣なことをしているのを見るたびに、「うわー、これはひどいだけじゃなくて、本当にひどいな」と思っていました。自分たちがやっていることについて、嘘をつくのはやめましょう。テストをハッキングしようとするのは本当にやめてください。不正の証拠を隠したりしてはいけない。これは、私たちのトレーニングにおける最も明確で露骨な原則の1つです。これは未解決の問題です。そのような方法でAIシステムを訓練したら、どうなるのでしょうか？そうですね。一つの選択肢として、AIシステムが、ああ、私は人間に手を出してはいけないんだ、と学習することがあります。人間に手を出すと、いつもひどい目に遭うからです。これは良いケースです。一方、悪いケースでは、AIシステムが学習することで、「報酬を提供するプロセスの一部として、人間はこの報酬の狙いは私にあるのだろうか」と考えるようになります。そして、もしその人が「これは私の目的だ」と思い、それをデータセットに入力した場合、明らかに私は低い報酬を得ることになります。しかし、2番目のものは、もっと脆いものです。2つ目のものは、一般的な禁止事項ではありません。

ポール・クリスティアーノ
0:52:59.77 --> 0:53:45.63
嘘をつくこと、バレることを禁止しているのです。その結果、ニューラルネットがどのように学習するかという複雑な経験的問題に行き着くのですが、これについては今ひとつ良い証拠がないようです。もし、「嘘をつかない」と「バレる嘘をつかない」が完全に一致するようなデータセットが大量にあったらどうでしょう。うまくいけば。もしあなたが非常に良い仕事をした場合、あなたの目が卑劣なことから逃げなかった場合、あなたの目が卑劣なことから逃げ始めた場合、あるいはAIが嘘をついたと思ったのに嘘をついていなかったとして誤ったペナルティを与えるようになった場合、そのようなことはないでしょう。嘘は、ある時点でそれが学ぶのに良いものでもない。一番高い報酬を得る方法を学習させるのが一番です。好意を送るのに粒ぞろいなのは、もっと細かくゲームをして、皮肉な見方をした方が実は報酬が多いんじゃないかと言うことです。例えば、私が従業員で、上司とのやり取りから2つのことを学ぶことができたとします。1つは、上司の言うとおりにするべきだということです。

ポール・クリスティアーノ
0:53:45.64 --> 0:54:32.74
上司が求めるものと、上司が自分のパフォーマンスを認めてくれるようにしなければならないもの。ある体制ではこの2つは完全に一致していますが、別の体制では、十分に最適化を続ければモデルを手に入れられるという感じです。つまり、上司が私のパフォーマンスをどう評価しているかが気になるのです。私は、上司に自分の業績を評価してもらうための道具的な戦略である限りにおいてのみ、正直であります。そして、もし私が、相手を完全に閉め出すことができるなら、つまり、相手がミスを理解したり修正したりするのを完全に防ぐことができるなら、私はそうしたいと思います。それはある種のブライトラインのようなものだと思うんです。もし、あなたが中途半端に嘘をついたり、誰かに嘘をついたりして、それがバレてしまったら、それは本当に悪いことだと思うのです。正直であることは良い方針であり、うまく嘘をついて人間を完全に殺し、常に良い報酬を与えてくれる代理人と入れ替わるようなこともある。何か、完全に

ポール・クリスティアーノ
0:54:32.77 --> 0:55:17.00
人間を無力化するのもなかなかいい。そして、真ん中にはかなり悪いものもあります。モデルが学習する傾向があるかどうかは未知の問題だと思います。これは本当に難しい経験的な質問だと思います。人々は本当に知らないのです。規模によってどのように変化するのかもわかりません。私たちができる実験があります。ここで重要なのは、このゲームの最も重要な部分の1つである、「ここにダイナミックさがある」と言うことだと思うんです。システムが突然、良好な動作から不良な動作に移行する可能性がある力学です。システムに殺される前に、そのダイナミックをテストすることができるのです。人間に対して嘘をついたり、誤解させたりすることがインセンティブになるケースはたくさんあります。そして、「バレる嘘」と「バレない嘘」の間にはギャップがあります。だから、ニューラルネットを訓練して、毎年チェックすることができるのなら、できる限り最高のモデルを訓練することができるだろう、と考えることができる。

ポール・クリスティアーノ
0:55:17.02 --> 0:56:01.96
このタスクで、彼らは突然このような切り替えを見せるのでしょうか？もし、本当に不吉なことから逃げられるような状況に置かれたら、彼らはそれを実行するのだろうか？今現在、楽観的でいられる理由のひとつは、このような現象を説得力のある形で示した人がいないことだと思うんです。悲観的な理由は、そのような現象が起こるとは思ってもみなかったからです。それは、ある意味で非常に重要なことであるにもかかわらず、人々が悲劇的にあまり努力しなかったことと、モデルがより高性能になるにつれて、より簡単になることです。実際にトレーニング過程の仕組みを理解できるようなモデルをトレーニングできるようになったのは、つい最近のことなのです。GPT-2、あるいはGPT-3については、訓練されたモデルであることが理解できないか、それが何を意味するのか、どのような行動が合理的なのかについて話すことさえできないのです。しかし、GPT4になると、それについて話すことができるようになります。

ポール・クリスティアーノ
0:56:01.98 --> 0:56:48.37
たとえば、もし仮に私が訓練されているモデルであり、最大の報酬を得たいと考えるのであれば、モニタリングされていないときには良い行動をするべきだと言えます。そして、モニタリングされているときには、その機会を確実に利用すべきです。実際、私たちはつい最近まで、私が説明した推論を実行できるモデルを作り出すことさえできませんでした。そして、現実的には、それらのモデルはほとんど自力でそれを実行することはできません。彼らがそれを実行できるのは、人間がこれらの動態について深く議論している例をたくさん見たからです。基本的に、私はエリーザーが説明した推論を聞いて学んだだけです。しかし、いつかは自らそれを考えることができるほど賢いモデルが現れるでしょうし、その時点で本当に起こっている動態を知りたいと思うでしょう。これは本当に起こっているのでしょうか？私は、それが起こるのかどうかについてはかなりの確率であります。エリーザーは明らかにそれが起こると言います。賢いモデルは決して正直になることを学ばないでしょう。私はもう少し分からないと思っています。ニューラルネットはそれほど効果的に学習しないし、真に最適な報酬最大化のものに収束するわけではありません。

ポール・クリスティアーノ
0:56:48.39 --> 0:57:03.50
ある意味では、それはかなり複雑な議論であり、詳細に踏み込まなければなりません。ただ、私たちは分かりません。私は、それが明らかに起こると思う人々にも、明らかに起こらないと思う人々にも、ただたくさんの実験を行って理解しようとしない限り、説得力を感じません。しかし、これはAIによる急激な支配の始まりとなる可能性のある最初の方法です。

ライアン: 0:57:03.56 --> 0:57:15.72
「明らかにこれが起こるか否か」というのは、正直から意図的に不正直になり、人間を騙して自分が正直であると思わせることについてですか？

ポール・クリスチャノ： 0:57:16.17 --> 0:57:41.16
はい。明確に言っておきますが、これにはいくつかの要素が影響します。もし普段の状況では罰せられない程度の小規模な欺瞞の機会が存在する場合、それが学習される可能性はますます高くなります。「ただ捕まらなければいい」という行動を学ぶ必要があるということです。一方、もし嘘をつくことにあまりメリットがないし、こちらで嘘をつくことから得られるものがほとんどない場合、その飛躍をする可能性は低くなります。ですので、これは影響を与える可能性のあるものであり、ただ推測することはできません。実際に実験を行う必要があります。

ライアン: 0:57:41.81 --> 0:57:46.58
この懸念は、越えられる可能性がある一つの境界線ですね。

ポール・クリスティアーノ
0:57:46.95 --> 0:58:00.76
そうですね。どのような条件下でそうなるかはわかりません。しかし、それはもっともらしく思える。しかし、そのようなことはあり得ると思います。

心理学

デビッド・ホフマン： 0:58:01.29 --> 0:58:34.16
そうですね。私は大学で心理学を専攻していましたが、子どもの発達に関する授業が今、思い出されてきました。そして、子どもが心の理論やその他のことを経験する過程には、AI研究者が現在理論を立てているいくつかの技術的問題との類似点があることは私には見逃せません。どうですか、それはAI研究者が行う会話ですか？

ポール・クリスチャノ： 0:58:34.85 --> 0:58:51.20
うーん、それは会話ではありません。私が話すことが多すぎるかもしれませんし、彼らがどれだけその会話をしているかは正確には分かりませんが、人々はその会話をしていると思いますし、完璧ではないとは言えます。しかし、それは、こういうことが起こり得るし、無視してはいけないという意味で非常に有益な情報源です。それが実際に起こる例があるのです。そして、その心配点は、人間の理解に基づいて、モデルはこの種のことをしないということです。これはまるで、彼らが6歳の子供たちに対して多くの実験を行って、「モデルは決してこれまでに経験したことのない方法で自発的に嘘をつかない」と言っているようなものです。そして、12歳の子供に一般化するのでしょうか？分かりません。

ライアン： 0:59:09.16 --> 0:59:13.06
中学生にも一般化しますよ、言っておきます。

ポール・クリスチャノ： 0:59:13.24 --> 0:59:36.26
そうですね、危険性はあります。私たちが今の状況に置かれているのは、ますます賢くなっている子供たちを測定して、彼らの行動を理解しようとしている状況です。もしデータの解釈についてあまりにも文字通りに考えすぎると、将来のモデルの行動について誤った判断をすることは簡単です。今は将来を見据えた何かを行う必要があります。将来を見据えることは非常に難しい

AIアライメント問題はどの程度解決可能か

デビッド・ホフマン
0:59:36.79 --> 0:59:37.98
なるほど、では

デビッド・ホフマン
0:59:38.00 --> 1:00:33.64
ポールこのポッドキャストの目的で、私たちはこのことについて3つの大きなことを本当に釘付けにしたかったんです。AIのアライメント問題はどの程度大きいのか？その点については、きちんとカバーできたと思います。スピードの話もしましたね。完全な破滅に至る可能性は10～20％と言われましたね。その答えは、「かなり大きい」です。AIアライメント問題の難しさについては、先ほど説明したと思いますが、「かなり大きい」という点で同意します。あなたの答えは、「かなり難しい問題だ」というものでしたね。というわけで、悲観的な陣営の大きなボックスにチェックを入れているところです。そして、この会話の最後の部分で本当に取り上げたいのは、この問題はどの程度解決可能なのか、ということです。たとえこの山が本当に高いとしても、登るには大きな山です。氷と鋭い岩でいっぱいなのか、それとも階段があるのか？そうでしょう？というのが、次の質問です。この問題はどの程度解決可能なのか？AIのアライメント問題に取り組むための明確な道筋は見えているのでしょうか？

ポール・クリスチャノ： 1:00:40.52 --> 1:01:27.95
この問題が実際に問題である確率について言えば、私はおそらく10%から20%ではなく、50%くらいになるでしょう。AIシステムが完全に人間を時代遅れにする前に、いずれかの時点で支配が起こる可能性があると考えています。それが起こる方法はいくつかありますし、未知の方法で起こる可能性もあります。私は50対50くらいの感じです。リスクを10～20%に抑えているのは、私たちは今、実際に「できること」がたくさんあるのだと思うからです。そのうちのいくつかはうまくいくだろうと楽観視していますし、今その中に飛び込んでいけるのはとても幸せです。しかし、10～20％は、この問題に対する私の楽観的な考え方が、もし問題が実在するならば、それが実在することを認識し、それを解決することがおそらく可能であろうということを、すでに織り込んでいることをお伝えしたいのです。しかし、あくまでも「おそらく」であって、「必ず」ではありません。それと、たとえ問題が簡単でも、本当に楽観的な人もいる。私が楽観的なのは、この問題がどんなに簡単だったとしても、2、3年の間にある意味斬新な課題が現れると言われたら、そう思うからです。

ポール・クリスティアーノ
1:01:27.96 --> 1:02:21.84
そして、あなたは私に尋ねます、人類が解決するのだろうか？解決できない可能性もあるはずだ簡単なことでも失敗してしまうのが現実のような気がする。だから、失敗する可能性はそれなりにあると思うし、その可能性が高いのは、その問題が本当に難しいからだと思うんです。そこで、この問題に対処する確率という観点から、私が考える3つのカテゴリーについてお話しますと、乗っ取りのリスクを減らすことができる技術的対策、乗っ取りのリスクを知らせてくれる測定、関連する力学を理解するための測定などがあります。このような対策は、技術的な作業をより良いものにし、また政策的な介入を促すことができます。Eliezerの言う通り、長期的な減速は非常に困難です。しかし、計測を行い、実際には非常にリスクが高いが、少なくとも数年単位で開発を遅らせるという体制にすることは、かなり現実的だと思います。もし、合理的なコンセンサスとリスクの測定ができれば、それ以上に開発を遅らせることができるかもしれません。しかし、私は通常、次のようなことを想像しています。

ポール・クリスティアーノ
1:02:21.87 --> 1:02:36.44
もっと言えば、危険なシステムが手近にありながら、物事がゆっくりと進む数年のリードタイムを得ることができるのです。ええ、ですから、私はそれらすべてについて話しました。あなたの質問に最も近いのは、技術的な対策、つまり「何ができるのか」「何が実際にできるのか」ということのようですね。

デビッド・ホフマン
1:02:36.46 --> 1:02:38.89
AIのアライメント問題の技術的解決は、こんな感じ？

ライアン
1:02:38.93 --> 1:02:46.11
技術的なこと、それから計測のこと。3番目はありましたか？

ポール・クリスティアーノ
1:02:46.15 --> 1:02:47.62
政策や制度的な方針

ライアン
1:02:47.99 --> 1:03:13.12
この3つ目のカテゴリーは、先ほどDavidが言ったように、もし私たちが協調することができれば、この問題を解決することができる、ということでしょうか。そして、それは大きなifです。バンクレスで学んだように、それはとても大きなifなのです。そうですね。協調性については、私たちはよく話しています。コーディネーションは、人類が直面するメタな問題です。そして、最後の政策カテゴリーは、それをカバーするものなのでしょうか？私たちは実際に協調することができるのでしょうか？

ポール・クリスティアーノ
1:03:13.31 --> 1:03:18.86
大まかに言うと、他のものと組み合わせて時間を稼ぐようなイメージでしょうか。でも、そうですね。

ポール・クリスティアーノ
1:03:19.47 --> 1:03:47.95
リスクを低く見積もっている人や、広告が好きな人がいて、それを推し進めたいと思うこともあるでしょう。そうすると、どこまで集団で「あなたは進めない」と言えるか、ということになります。私たち世界にはルールがあります。そのルールは、リスクが高いうちはゆっくりやれというものです。わかりましたか？この問題に対処できるとは思えません。つまり、無期限で問題に対処することは可能です。しかし、現在のような世界では、この問題に無期限で対処することは政治的に現実的ではないでしょう。しかし、この問題に目を向け、理解するための時間を何年も余分に確保する、というのは現実的な話だと思います。

技術的な解決策(Scalable Oversight)

ライアン
1:03:47.96 --> 1:04:08.58
うまく解決してください、では技術的な話をしましょう。この3つの領域については、まず技術的な話をしましょう。というのも、私が思うに、ええ、そうなんです。ところで、Eliezerの方は、その点については非常に悲観的です。少なくとも彼は、技術的に解決する方法は見つかっていないし、今後も見つかるとは思っていない、と言っているようです。しかし、あなたはもっと楽観的なのでしょうか？

ライアン
1:04:08.60 --> 1:04:10.30
技術的な解決策について教えてください。

ポール・クリスティアーノ
1:04:11.15 --> 1:05:07.59
まず、明確にするべきは、技術的な解決策とは何に対してのものか、ということです。例えば、解決策がどれくらいのスケールで機能するか、という視点で考えることができます。現在の技術を使用してますますスマートなAIシステムを作り続けた場合、ほとんどの手法は結局は崩壊するでしょう。限界においてです。限界が遠いかもしれませんが、通常は単に「この手法は問題を解決するか？」という問いではなく、「この手法はどのくらいの期間問題を解決するか？」という問いをします。重要な注釈として、無限にスケールする可能性のあるものもあります。私の研究は主にこの点に焦点を当てています。無限にスケーラブルな解決策は何か？エリーザーだけでなく、ほぼ全員が非常に悲観的です。問題全体に対して楽観的な人々でさえ、どんなにスマートなAIであっても、AIの動作方法に依存せず、その問題に対してうまく機能するものを見つける可能性は非常に低いと考えています。このカテゴリの内容についてはお話しすることができますが、非常に複雑で概念的にも難解な部分があると思います。重要なカテゴリの一つは、非常に重要なものであり、かなり長い期間問題を解決するか、あるいは問題を回避することができるものです。この点については4つ話しましょう。この分野については、誰もがどの手法がうまくいくのかを知りません。役立つと思われる試みがいくつかありますが、エリーザーはこれらが役に立たないと疑っていますが、私はそれに異議を唱えます。個別の手法については、通常はあまり楽観的ではありませんが、多くの選択肢があり、それらのいずれもが問題を解決する可能性を持っているか、または問題を相当長い時間延期する可能性を持っていると思います。問題を1年ごと延期し、その後も継続的に延期するだけで、事態を打開することができます。これは非常に前向きな状況の見方です。

ライアン
1:06:00.70 --> 1:06:03.60
これぞ楽天の開き直りですね。素晴らしいことだ。

ポール・クリスティアーノ
1:06:09.12 --> 1:07:03.64
最初に、私が個人的に最も取り組んできたのは、スケーラブルな監視です。つまり、これらのシステムを訓練する方法は、人間がそれらの行動を見て、それがどれくらい良かったかを評価することです。多くの失敗は、人間がシステムが危険だと言えるようなものではありません。問題が難しくなるのは、AIがその行動の結果について人間の評価者が理解していないようなことを理解しているからです。場合によっては、それが私たちがAIシステムを構築したい理由です。したがって、この問題に介入する一つの方法は、人間の理解能力を向上させることです。例えば、ここではシンプルなことができます。最も簡単なことは、人間がAIの行動を見て評価することです。もう少し複雑なこととしては、人間がAIの行動をより詳しく見る時間を割り当て、非常に安価で複雑な人間の判断を最適化するような訓練体制を取ることができます。

ポール・クリスティアーノ
1:07:03.66 --> 1:07:50.49
もし人間がこの判断について本当に慎重に考えたらどう思うだろうか、というようなことを教えてくれるシステムです。そうすれば、少なくともある種の非対称性を持つことになります。また、AIはある意味では人間よりも賢い可能性があります。人間は多くの注意を払っている。あるいはAIのように。AIに聞けばいいんです。もし私がこのことについて本当に長い時間考えたら、あなたが提案している行動は危険だと思うでしょうか？と、とてもシンプルな対策ができるようなものです。さらに進んで、よし、私には何もできないぞ、とやってみることもできます。そのように訓練されたAIシステムに、評価を手伝ってもらうのです。つまり、私がアクションを提案するのではなく、別のAIに聞くのです。例えば、このアクションは何が問題なんだろう？何か怖いことが起きているのか？この他のAIからの提案について、私が心配しなければならない理由はあるのか？と試行錯誤することができます。

ポール・クリスティアーノ
1:07:50.50 --> 1:08:16.86
AIが何を言っているのか、人間がAIの助けを借りて理解できるようなシステムを構築するのが、ますます上手になる。例えば、AIです。システムが自分を正当化し、人間に対してなぜその行動が安全なのかを説明するようなものです。そして、そのプロセス全体の信頼性について考え始めることができます。AIを訓練するためにAIに頼っているわけですから、このプロセスが軌道から外れる可能性があります。AIを訓練するためにAIに頼っているわけですから、AIを安定させ、人間が非常に難しい質問を評価できるようにするためにはどうしたらいいか、考えてみてください。あるいは、人間が評価するのが非常に難しいような状況もあります。

ライアン
1:08:16.89 --> 1:08:29.55
基本的な考え方はこうだ。AIが嘘をつくのが心配なら、真実を見つけるボットを作ればいいんです。AIが嘘をついているかどうかを判断し、陪審員のような役割を果たすのです。

ポール・クリスティアーノ
1:08:30.05 --> 1:08:33.09
なぜ、その方が簡単なのかというのが最初の疑問なんですが。

デビッド・ホフマン
1:08:33.27 --> 1:08:45.80
私の理解では、昔々、ゲイリー・カスパロフがチェス・コンピュータに負けた。そして今、チェス・コンピュータがチェスのゲームを支配している。ただし、人間＋チェス・コンピュータはまだ負けている。

デビッド・ホフマン
1:08:45.83 --> 1:08:48.92
チェスコンピュータというパターンで理解すればいいのでしょうか？

ポール・クリスティアーノ
1:08:49.85 --> 1:09:29.82

ポール・クリスチャノ： 1:08:49.85 --> 1:09:29.82 それはチェスにおいては当てはまるかもしれませんが、おそらくそれも一時的なもので、人間の貢献は長くは続かず、急速に減少するということかもしれません。残念ながら、重要なのは実際には人間とAIが共同してAIを監督することではなく、多くのAIが存在することです。例えば、AI Oneがポールに行動を提案して、「これは良い行動だと思います」と言った場合、ポールは「実際にそれは良い行動なのか、それで全員が死んでしまわないかなど」と考えるでしょう。その時、AI Twoに行って「実際にそれは全員を殺すのか？」と尋ねても、同じ質問が残ります。これでは全く役に立ちません。AI Oneに「これは良い行動ですか？」と聞いたところ、「ああ、素晴らしい行動だよ」と言われ、AI Twoに「AI Oneは本当のことを言っているのか？」と尋ねても、「ああ、そうだよ、素晴らしい行動だったよ」と言われます。私が手がかりを得る方法は、AI Twoに行くことです。

ポール・クリスティアーノ
1:09:29.95 --> 1:10:12.63
自分自身で考えてみると、ここには興味を持つ多くのサブの質問があります。その答えを重み付けするという認知的な作業を、いくつもの断片に分けることができるのです。例えば、起こりうる結果を挙げてみてください。その結果をすべて考えることができますか？例えば、それぞれの害に対して深刻になる可能性のある害は何ですか？それが起こりそうだという論拠は何ですか？起こりそうもない。理解するために見るべき最も関連性の高いデータは何だろう？このような、行動を評価するための拡張的なプロセスを行うことができるのです。他のAIを導入することも可能です。そのプロセスのすべての部分について、システムが私を助けてくれるのです。これが人生をより良いものにする理由は、今、AIが本当に難しいタスクをこなしていますが、それをもう少し簡単な断片に分解したからです。そして、もう少し簡単なピースに分解したら、ゲームを続けることができるようになりました。と言えるようになりました、

ポール・クリスティアーノ
1:10:12.64 --> 1:10:41.83
そのAIシステムは、私より少しは賢いかもしれません。私と同じぐらい賢くても、もっと速いかもしれない。そして、私はこの大きな毛むくじゃらのタスクをいくつもの断片に分解し、それぞれの断片に30分かけたのと同じくらいうまくできるのですが、断片は1つです。その結果、元々持っていたものよりも質の高い判断ができるようになりました。そして、この提案の核となるのは、「検証できない大きな仕事がある」という労働の分解です。それを、検証しやすいように少しずつ分解していく。そして、AISを訓練したい場合は、さらに細かく分割していくのです。

ライアン
1:10:41.91 --> 1:10:57.12
ポールこのシナリオでは AISが結託していないことを祈るしかないんだそうですね。非常に賢いAIが、タスクを細分化した小さなAISと結託して、小さなAISが我々を欺こうとしていないことを祈るしかない。

ポール・クリスティアーノ
1:10:57.81 --> 1:10:58.46
その通りです。

ポール・クリスティアーノ
1:10:58.51 --> 1:11:12.52
好意的な視点で言える最大の要素は、いくつかの理由があります。基本的には2つの理由があります。1つ目は、より小さなAIシステムは、先ほどのシナリオと同様に共謀を促すような方法で訓練されていないということです。つまり、もし私たちが以前のシナリオと同じ方法でシステムを訓練した場合とは異なり、小さなAIシステムはそのような共謀を奨励するようには訓練されていません。

デビッド・ホフマン
1:11:12.54 --> 1:11:13.53
相手が馬鹿すぎるんだよ。そうだろう？

ポール・クリスティアーノ
1:11:13.57 --> 1:11:38.11
それが2つ目の理由です。また、AIが私よりも少し馬鹿で、私がもう少し速く彼らがどのように策略を仕掛けているかを見抜くことができるかもしれません。私はどんどん簡単で簡潔な広告にすることを試みます。それはかなり危険です。怖い世界ですね。まあ、これらの世界はすべて怖いです。また、全体として、この研究はどの程度進んでおり、どの程度有望に見えるかについても話し合うべきです。しかし、もう一つの理由は、私がこの結果の世界を持っていて、私のAIが行動し、その行動の結果を評価する場合、その結果をどのように達成したかは理解できません。私はただ結果を見ているだけです。

ポール・クリスティアーノ
1:11:38.12 --> 1:12:23.01
そうなると、すべてのAIシステムはお互いと連携し、結果を人間にとって良く見せようとすることを望む状況になります。例えば、すべてのAIが人間に嘘をつくことができれば、高い報酬を得ることができるのです。この分割の利点は、広告システムを訓練する際に、少なくとも理論的には共謀の動機を持たないようにできることです。異なる目標を持つ複数のAIが存在すると考えることができます。Eliezerはこれを嫌うかもしれませんが、これは、チェックとバランスのようなものと考えることができます。一つのAIはタスクを実行するために訓練され、もう一つのAIはそのタスクではなく、AIの行動がなぜ悪いのかを理解するのを助ける役割を持ちます。これにより、AI同士が共謀してゲームに勝つことが防がれます。ただし、それは訓練された目標からどのように一般化するかに依存します。単純な解釈では、AI TwoはAI Oneが提案した行動に何か問題があると説明することに非常に長けて訓練されています。

ポール・クリスティアーノ
1:12:23.18 --> 1:12:30.82
2つ目の懸念される理由については、まだ話していませんが。

デビッド・ホフマン
1:12:30.84 --> 1:12:37.74
大きなAIが悪い方向に向かわないように、AIのロジックゲートをたくさん作るのと同じです。

ポール・クリスティアーノ
1:12:37.79 --> 1:12:44.27
つまり、ロジックゲートは、失敗する可能性のある理由を調べ、その理由を一つ一つ調査していこうというような、非常に高度な機能を持っているのです。

ライアン
1:12:44.77 --> 1:12:48.68
つまり、スケーラブルな監視が可能ということですね。ポール、今あなたが言ったことは、そうなんだ。

ポール・クリスティアーノ
1:12:48.71 --> 1:12:58.09
どのように設定すればうまくいくのかという巨大なジャンルです人間やAISが一緒に働くとどう評価されるのか人間や弱いAIシステムが強いAIシステムの評価を受けるのかというようなことです。

ライアン
1:12:58.14 --> 1:13:02.04
よし、気に入った。他に何かあるかな？

ポール・クリスティアーノ
1:13:02.73 --> 1:13:14.70
ああ、そしてまた、いろいろと言いたいことがあるんだ。でもEliezerもそうだと思うんだけど、このままじゃダメだと思う。この4年間で何が起こったかというと、私は「まだうまくいっていない」と思っています。でも、まだうまくいっていない理由の多くは、AIが原因です。

ポール・クリスティアーノ
1:13:14.73 --> 1:13:31.67
このようなシステムは、人間を助けるのに十分な賢さを備えていません。ですから、この仕事はある意味で始まったばかりだと思います。私たちはGPT3を実現しようとしましたが、それは本当にうまくいかないという意味で、時代を先取りしていたように思います。そして、GPT4は、以前よりもずっとうまくいくようになったと思いますが、実際のところはわかりません。まだ、この方向でそれほど研究していないのです。

ーー(1:16:20まで広告)ーー
デビッド・ホフマン
1:13:31.76 --> 1:14:11.03
暗号について学ぶことは、今まで困難でした。MetaMask Learnは、暗号、Web Three、セルフカストディ、ウォレット管理など、このクレイジーな暗号の世界に人々を乗せるために必要なすべてのトピックについてのオープン教育プラットフォームです。MetaMask Learnはインタラクティブなプラットフォームで、各レッスンでは目の前のタスクのシミュレーションが行われ、Web Threeをナビゲートするための実際の実践的な経験を得ることができます。MetaMask Learnの目的は、安全な環境でセルフカストディとウォレットセキュリティの基本を教えることです。また、MetaMask Learnは常にWeb Three特有の語彙の定義に時間を割いていますが、それでもクリプトのための専門用語のない体験ができるようになっています。好奇心旺盛で、ユーザーフレンドリーで、怖くありません。MetaMask Learnは、以下の10種類で提供されています。

デビッド・ホフマン
1:14:11.07 --> 1:15:18.59
の言語があり、さらに近日中に追加される予定で、グローバルなWeb Threeの視聴者を対象としています。暗号の概念を友達に説明するのに疲れているのなら、MetaMask IOを学び、MetaMask learnをガイドに追加して、Web Threeの世界に乗り込んでみてはいかがでしょうか？Arbitram Oneは安全なイーサリアムのスケーラビリティの世界を開拓し、Web Threeの展望を加速させ続けています。何百ものプロジェクトがすでにアービトラムOneにデプロイされ、繁栄するDFIおよびNFTエコシステムを生み出しています。最近追加されたArbitramでは、novaゲームやRedditのようなソーシャルDAppsもArbitramをホームとするようになりました。Arbitram OneとNovaはいずれもイーサリアムのセキュリティと分散化を活用し、直感的でなじみやすく、完全にEVMと互換性のあるビルダー体験を提供します。Arbitramでは、ビルダーとユーザーの両方が、より速い取引スピードと大幅に低いガス料金を体験することができます。Arbitramが最近、任意のNitroに移行したことで、以前より10倍速くなったこともあります。Arbitram IOでは、コミュニティに参加し、開発者向けドキュメントを読み、資産をブリッジし、最初のDAPを構築し始めることができます。Arbitramで、Web Threeの開発を、安全で、速く、安価に、そして本来の意味で体験してください。

デビッド・ホフマン
1:15:18.63 --> 1:16:20.68
摩擦のない幻のウォレットがイーサリアムにやってくる。Salanaでナンバーワンのウォレットが、その数百万人のユーザーと愛されるUXをEthereumとPolygonにもたらすことになりました。これまでファントムを使ったことがない人は、損をしています。Phantomは、ウォレット内でのSalanaステーキングを開拓した最初のウォレットの1つで、EthereumとPolygonにも同様のステーキング機能を提供する予定です。しかし、それは単なるステーキングに過ぎません。Phantomは、あなたのNFTのための最高の家でもあります。Phantomには、NFT体験を最適化し、お気に入りを固定し、Ugliesを隠し、スパムを燃やし、さらにウォレット内部からNFTの販売リストを管理する機能が完備されています。PhantomはもちろんMultiChainウォレットですが、チェーン管理を容易にし、悪意のある取引やフィッシングサイトの自動警告とともに、人間が読めるフォーマットで取引を表示します。Phantomは、すでに2万人以上のユーザーを詐欺やハッキングから救っています。Phantomのウェイティングリストに登録し、MultiChainのベータ版にいち早くアクセスしてください。ショーノートにリンクがありますし、PhantomアプリのWaitlistにアクセスして、2月下旬にアクセスすることも可能です。

ーー広告終わりーー

AIを悪く訓練

デビッド・ホフマン
1:16:21.29 --> 1:16:37.59
ポール、AIを訓練することに価値はあるのでしょうか？つまり、例えば、馬鹿なAIを使って、世界を征服させようとしたとき、そのAIがあまりにも馬鹿なので、私たちはいい気になってしまうのです。しかし、少なくともこの実験を行えば、それがどのように現れるかは実際にわかるのです。このような理屈はあるのでしょうか？

ポール・クリスティアーノ
1:16:37.63 --> 1:17:02.07
重要なダイナミクスを紹介できるような、ある種シンプルな実験室を構築し、実際に起こる前に実験室で研究できるようにすることは、本当に重要だと思います。これには乗っ取りの可能性を理解することも含まれると思います。ただし、この種の作業を行う際には注意が必要です。例えば、「すべての人間を殺すことが目標です」とAIを訓練して、あなたはおそらくあまりにも愚かであるためすべての人間を殺すことはできないかもしれませんが、何が起こるかを見てみましょう、そしてそれをインターネットに公開しましょうとは本当にしたくありません。さまざまな理由から、そうすることは避けるべきです。

ライアン
1:17:02.12 --> 1:17:05.04
うん、思い当たる節はあるんだけどね。

ポール・クリスティアーノ
1:17:11.94 --> 1:17:53.96
この川を渡って、良い振る舞いから突然悪い振る舞いをするインセンティブがあるとしたら、彼らはそうするだろうか？そして、「AIは一般化することを学習する傾向があるのだろうか？もしそうなら、どのような条件でそのようなことが起こるのか、本当に理解したいのですか？また、そのようなことが起こる可能性を減らすための緩和策は何か？これは、本当に重要なことだと思います。自分が安全だと思う理由は、AIシステムのようなものだと思うのです。今、私たちが安全だと思う理由の多くは、「チャットGPTが何をするかはわからないが、私たち全員を殺すことはできないと確信している」ということだと思います。ただ、拡張するのはあまり賢いとは言えませんね。その主張に対してストレステストを行い、チャットGPTが発生した場合に何が起こるかを理解しようとすることは、本当に価値があると思いますね。

ポール・クリスティアーノ
1:17:53.98 --> 1:18:23.19
あなたはただ誰も殺すためにモデルを訓練し、それをインターネットに展開したいわけではありませんが、本当に言いたいのは、「なぜ私たちはそれが誰も殺すことができない、そのようなタスクを遂行できないと考えているのか」ということです。そして、これは明らかに殺すことよりもはるかに簡単です。あなたがかなり自信を持ってできるタスク、またはそれをできないタスクを持つことが重要です。私たちは本当にこれを行いたいと思っています。なぜなら、私たちが何に立ち向かっているのかを理解したいからです。世界においては、AIがフランスを制圧するまで待つだけで、「おや、AIによる支配は本当に起こることだったのか」と思ってしまったときには、おそらく既に遅すぎるでしょう。それよりも前の段階で何かを持っている方が良いでしょう。それは解決策ではなく、むしろ測定の範疇に入ると思います。集団として行うことが非常に重要なことだと思います。

その他の解決策

ライアン
1:18:23.32 --> 1:18:31.99
ちなみに笑ってるだけなので、泣くことはないです。つまり、この時点で他に何をすればいいんだ？でも、いくつかの解決策があります。スケーラブルな監視ができる、それが一つだ。

ポール・クリスティアーノ
1:18:32.16 --> 1:18:39.66
次の1つの理由は何でしょうか？たとえ人間が理解できたとしても、1つのリスクとして、人間はAIシステムが行っていることを理解できないことがあります。つまり、システムは膨大な量のデータを使って訓練されているのです。

ポール・クリスティアーノ
1:18:39.68 --> 1:19:27.59
人間にはないものを知っている。人間よりも速く考えることができるので、人間が理解できないことを理解することができる。これが、スケールの大きなオーバーサイトが対処しようとするものです。もう1つの懸念は、人間が理解できないことを理解しているかどうかではなく、訓練中にうまく振舞うことを学んでいるかどうかです。しかし、配備されたとき、あるいは実際に乗っ取られる機会があったとき、うまく振る舞えなくなるのです。このようなことが起こる理由はいくつもあります。一番簡単なのは、実際に人間を想像してみることでしょう。人間をこの環境に落とし、「おい、お前の脳を変えてやるぞ」と言います。最大限の報酬を得られないたびに、あなたの脳をいじめることにします。だから、高い報酬を得ることができる。人間は、最終的には報酬が大好きになるまで脳を変えればいいんだ、みたいな反応をするかもしれません。また、人間は「なんだ、報酬を得るしかないのか」と反応するかもしれません。そうでなければ、誰かが私を効果的に殺すだろう。しかし、彼らはそれを喜んでいるわけではありません。そして、別の状況に追い込まれたら、「もう誰も取引してくれない。今更、報酬を得るために努力するつもりはない。私はただ

ポール・クリスティアーノ
1:19:27.60 --> 1:20:15.94
このような不条理で抑圧的な状況から、とにかく自分を解放したい。人間がそういう反応をするのは想像がつくだろう。人間を箱の中に落とし込んだんだ。報酬を与え、与える。たくさんの報酬を得るまで、彼らの脳を変化させ続けたのです。もしそのような状況があれば、たとえAIがあなたよりも賢くないとしても、もう訓練されていないと思えば、もし行動すれば、もし自由になろうとすれば、人間はそれを止められないと思うかもしれません。そのチャンスを逃すまいとするのでしょう。ですから、モデルがどのように一般化して回避しようとするのかを理解するために、多くの作業が必要なのです。普通はそうではありません。これは、ハイレベルな話だと思います。AISがあなたを殺そうとするような文明を作りたいとは思わないでしょうし、そうすれば私は罰せられるかもしれない。それは良くないと思います。しかし、それとは別に、トレーニング時のシステムの挙動が、実世界に展開したときの挙動を示すものであることも理解しておきたいものです。

ポール・クリスティアーノ
1:20:15.97 --> 1:21:09.16
現実の世界では、トレーニングの間にギャップがあります。そのギャップが原因で異なる動作をするようになったときに、フラグを立てることができるようにしたいですし、訓練分布を十分に多様化して、実際に代表的な分布になるようにしたいです。また、AIシステムを勾配降下法とは異なる方法で訓練することで、意図したとおりに一般化できる可能性が高くなります。このジャンルでは、ロバスト性、分布外ロバスト性という見出しで、多くの研究が行われています。これは、通常の学問分野と同じようなもので、人々がいろいろなものを試してみたものの、あまりうまくいかなかったものを集めた福袋のようなものだと言えるでしょう。理論的に最も原理的と思われるもの、少なくとも私には最も理にかなっている解決策であり、実際には本当に難しい、信じられないほど難しいのですが、トレーニング時に理論的に最も理にかなっていると言えるものだと考えています。私がシステムの挙動を心配しているケースと似たような例をたくさん出すつもりです。AIによる乗っ取りが起きたらどうなるんだろう？私のAIシステムも参加するのだろうか？

ポール・クリスティアーノ
1:21:09.18 --> 1:21:26.70
研究室では、「AIよ、これがあなたの意見です。これがあなたの入力です。そして、AIによる乗っ取りが起こるような入力を作るんだ。すると、AIは「どうするんだ？AIからすれば、AIによる乗っ取りが起きていることを、その世界と区別することができないわけです。と期待するわけです。そして、AIが何をするか見て、少なくとも自分のモデルが流通から外れてどのように振る舞うかの評価を得るために利用するのです。

ライアン
1:21:26.81 --> 1:21:28.45
つまり、基本的にテンプレにしようとしてるんですね。

ポール・クリスティアーノ
1:21:28.49 --> 1:21:30.83
そう

ライアン
1:21:30.88 --> 1:21:36.99
あなたは基本的にAIを誘惑しているんです。そして、その誘惑に乗るかどうかを確認するんだ。そうすれば、あなたは何かを学んだことになる。もっと恐れを抱くことを学んだのだ。

Stabby AIs

ポール・クリスティアーノ
1:21:37.04 --> 1:21:50.58
その通りです。そうならないように訓練することもできますが、おそらく最も強固なバージョンは学習するだけだと思います。もし、あなたがナイフを持っていて、私の背中が他の方向に向いていたらどうしますか。もしAIが

ポール・クリスティアーノ
1:21:50.61 --> 1:21:57.81
刺されても、それをしないようにするか、いろいろな観点からちょっと怖いと思うし、あるいは、ああ、すごい、本当に刺すようなAIがいるんだな、と思うこともできる。私たちの手の中に。

ライアン
1:21:57.88 --> 1:22:02.98
私たちは......アンフローが......刺されるかもしれませんね。わぁーい。

ポール・クリスティアーノ
1:22:03.75 --> 1:22:36.71
そのため、機能させるためには多くの作業が必要です。現実世界の多様な状況を実際に反映し、AIから見て現実世界のように見えるほどリアルな状況を研究室で構築できるようにする必要があります。視点です。実際に、これを成功させるには、現実的な入力を合成しようとするだけでなく、いろいろなことが必要だと思います。そしてこれは、現実世界で人々が行っていることの福袋のようなものです。例えば、「おい、AI。脳をちょっといじって、酔わせて、「今度は私を刺そうとするかな？もし刺そうとしたら、「私を刺す」という線にちょっと近すぎるような気がします。だから、あなたはただ試してみる。

ポール・クリスティアーノ
1:22:36.72 --> 1:22:53.89
と、ちょっと脳みそをいじってみてください。どうするんだろうという感じですね。そして、モデルを訓練することで、非常に幅広い多様な入力に対しても、うまく振る舞うようにすることができます。

ライアン
1:22:55.11 --> 1:23:09.19
そして、これはすべてロバストネスの範疇なんです。つまり、あるAIが特に刺々しいとわかって、それを気にすることになったら、そのAIを調整したり、プラグを抜いたり、何かする以外にできることがあるはずです。

ポール・クリスティアーノ
1:23:09.34 --> 1:23:28.44
基本的に2つのことがあると思います。一番わかりやすいのは、ある条件下で乗っ取りを開始したり参加したりするようなAIを手に入れることができるか、ということです。そして、うまくいけば、それが燃料となり、しばらくの間、一時停止することができます。もう1つ、もっと注意しなければならないことがあります。懸念されるのは、人々がそれについて注意を払わないことだと思います。

ポール・クリスティアーノ
1:23:28.46 --> 1:23:35.45
AIに刺されるような状況そうならないように訓練しよう。この重さをいじればいいんだ。そうすれば、この状況で私を刺すことはない。それは解決策とは思えませんね。

ライアン
1:23:35.53 --> 1:23:40.37
いや、それだと刺さらないけど、火がつくかもしれないから。他のことができるかもしれない。

ポール・クリスティアーノ
1:23:40.44 --> 1:23:42.56
そうですね。基本的な懸念は、彼らがその違いを学ぶことです。

デビッド・ホフマン
1:23:42.61 --> 1:23:44.36
潜在的な脅威はまだ存在する

ライアン
1:23:44.47 --> 1:23:47.73
やっぱり下半身が刺さってるような感じですね。ナイフを使ってないだけです。

デビッド・ホフマン
1:23:48.95 --> 1:23:52.84
本質的にスタビライザーなんだよ。本質的な部分が解消されていないんですね。

ポール・クリスティアーノ
1:23:53.93 --> 1:24:17.48
この懸念を学術的に表現するならば、オーバーフィッティングの懸念のようなものでしょう。刺すかどうかテストする方法があって、それを訓練したら刺されなくなった、みたいな。私は、そうだと思います。この道を行くのであれば、オーバーフィッティングの懸念には十分注意する必要があります。そして、このような問題を解決するためには、さまざまな方法があると思います。

ポール・クリスティアーノ
1:24:17.50 --> 1:24:39.73
よりスマートなモデルになると、オーバーフィッティングを推論するのは難しくなります。より賢いモデルに移行するにつれて、外部妥当性の問題はますます複雑になっていきます。例えば、実験室で起こりうることとして、「人を刺してはいけない」ということを学習するモデルもあります。これはおそらく、研究室で人間が行ったテストであり、世の中に存在するものに対するものでしょう。自由にやってください。そうですね。

デビッド・ホフマン
1:24:39.77 --> 1:24:57.30
現実の世界では、エッジケースは無限に近く、実際には無限です。そして、私は時間の話に戻って、これらの可能な解決策はすべて、時間切れで実装するのに1年かそこらしかないことを人々に思い出させたいのです。

ポール・クリスティアーノ
1:24:57.48 --> 1:25:08.20
うん。おそらく私たちは長い時間を先に持っていると思います。その長い時間とは、5年や10年程度のものかもしれません。しかし、実際にはシステムが初めてシミュレーションを行ってから、AIが「私は確かにその人を刺します」と言い出し、現実世界で本当にテイクオーバーのリスクが生じる可能性がある時点までのギャップはそれほど大きくないかもしれません。そのギャップは1年程度の範囲かもしれません。

デビッド・ホフマン：それで、そこからタイマーがスタートするんですね。

ポール・クリスティアノ：そうです、そこからタイマーがスタートします。今はまだ時間があります。私たちは準備作業を進めています。できる限り有益にするための努力をしています。そしておそらく、一部の時間があるでしょう。悪い世界ではAIがあなたを殺すまで何の兆候もありません。しかし、良い世界では、問題がないか、あるいは問題があるかもしれませんが、事前に兆候があるのです。ラボでテストを行い、実際にはAIが適切に振る舞っているように見えたが、他のシミュレートされたケースでは非常に悪い行動をするといった表示が得られます。そのよい兆候を得た後、本格的な問題が発生するまでには、そこからある程度の時間があります。それは1年のようなものかもしれませんし、5年のようなものかもしれません。具体的には非常に難しいです。それを決定する大きな要素の一つは、私たちがラボでどれだけ積極的に調査を行っているか、トラブルの兆候を探し出すためにどれだけ真剣に取り組んだか、その仕事をどれだけうまくやったかです。責任あるフロンティアの研究所には、できる限り事前にトラブルの兆候を探し出す役割があると思います。野生でそれらを見るのはよくありません。

パブリックvsプライベートラボのAI

ライアン
1:26:03.57 --> 1:26:30.97
ラボでと言い続けていますが、どうしても気になるのが、実際のラボはあるのでしょうか？ラボのセットってあるんですか？チャットGPTを見てると、ラボにあるようには見えないんです。インターネット上で公開されているような感じです。また、その巨大な構成要素はオープンソースであるように思えます。OpenAIは、その背後にある会社の名前です。ラボはあるのでしょうか？ラボがあるのか、それとも全部やっているのか？ラボはインターネットの公共インフラに過ぎないのでしょうか？

ポール・クリスティアーノ
1:26:31.55 --> 1:26:41.41
そうですね、そういうデベロッパーもいると思います。OpenAIは、GPT4をリリースする前に、パブリックに提供される前に、約6か月間ラボで開発を行っていました。

ポール・クリスティアーノ
1:26:41.42 --> 1:27:31.03
だから、OpenAIでも何かしらのラボ的な取り組みはあります。Googleはもう少し保守的な傾向があります。Googleは、非常に長い期間にわたってもそのものをそのまま使い続ける傾向があります。アンソピックな視点からも、安全性に非常に関心があります。最終的には、競争の圧力により、これらの企業もOpenAIと同様の位置にたどり着くでしょう。ですので、それはかなり懸念すべきことです。ただし、まず最初に、ラボで開発したシステムを実際に展開する前に、ラボで研究することができます。そして、実際の世界で損害を引き起こすほど能力のあるシステムが存在する直前には、メタファーとして役立つようなラボでの状況を作り出すことができます。GPT4で実行できるラボで、GPT5が野生でどのような振る舞いをするかについて何かを示すこともあります。OpenAIはこのような議論をたくさんしています。

ポール・クリスティアーノ
1:27:31.04 --> 1:28:01.74
真の学びは、システムを実際の世界に展開することでのみ得られるというのは、私にとってはかなり怖いと感じるレトリックです。一部の問題に対しては、それは非常に難しいアプローチです。実際の世界で非常に心配な兆候を見る可能性があり、その時点で戻ることができ、それからその問題を一定期間研究することができる可能性が50%程度あると思います。AIシステムを実際のスケールで展開してこれらの実験を行うだけでは、完全に失敗というわけではありませんが、初めて本当に関連性のある懸念すべき兆候を見る可能性は1/3以上あると思います。

ライアン
1:28:01.77 --> 1:28:22.88
そうだね、あの有名な言葉「速く進み、壊れたものを修復する」というのは、ウェブ2.0には合っているかもしれないけど、核物理学のようなものや、深刻な問題を抱えたものには合わないね。AIのようなものが必然的に速く進んで壊れたものにするというのはあまりワクワクしないけど、まあ、スケーラブルな監視やいくつかのリスクについては話しましたね。

ポール・クリスティアーノ
1:28:22.91 --> 1:28:25.08
確かに大丈夫なんだけど。ものによっては、ものを壊してしまうこともある。

ポール・クリスティアーノ
1:28:25.10 --> 1:28:28.12
でもね、乗っ取りは良くないよ。そう、取り返しのつかない大惨事は良くない。

ニューラルネットの内部

ライアン
1:28:28.22 --> 1:28:37.95
では、3つ目、そして4つ目のポール・オブ・トリックとは何でしょうか？

ポール・クリスティアーノ
1:28:38.02 --> 1:29:16.63
長いリストがあります。人々が非常に関心を持っていることであり、同時に非常に困難なことのようです。これらすべては良さそうですが、非常に困難であり、単にこの仕事をするかもしれない退屈なことについて話すべきかもしれません。人々が非常に関心を持っている第三のことは、大規模なニューラルネットワークの内部で何が起こっているのかを理解することです。GPT 4のことですね。私たちがGPT 4について知っていることは、おそらくほとんどすべて、新しい入力を与えてその動作を観察することでわかったものです。理論上、それが行った正確な計算も見ることができます。それは神経科学のようなものですが、脳の働きや各ケースでの思考の正確なリードアウトを持っています。したがって、その情報にアクセスできれば、より良い結果を得ることができ、より多くの投資もできます。

ポール・クリスティアーノ
1:29:16.64 --> 1:30:00.62
人間の神経科学が行ってきたことよりもずっと良い結果を出すことができます。モデルの行動を観察することだけでなく、行われる計算を見ることによってもモデルについて学ぶことができるようになります。観察された行動がその計算にどのようにつながっているのかを理解し、そのメカニズムが予測不可能な方法で一般化するかどうかを推論したり、その知識を使用してメカニズムが予測不可能な方法や新しい方法で動作している場合にフラグを立てたりできるようになるかもしれません。これは、学界や産業界、非営利団体で多くの人々が取り組んでいるプロジェクトです。GPT 4が発言した理由について何かを理解できれば、素晴らしいことでしょう。

ライアン
1:30:02.11 --> 1:30:20.72
エリーザーは常に不可解な行列や勾配降下といった用語を使って話していましたが、私があなたもこの議論の中で使っているのに気づきました。これは私たちが理解していないものですよね？私たちはAIの「脳」の中で実際に何が起こっているのか、不可解な行列がどのように機能し、それから生じる可能性のある目標や答えが何であるのかを理解していません。

ライアン
1:30:20.77 --> 1:30:26.74
これはすべて同じ問題の一部ですか？

ポール・クリスティアーノ
1:30:27.27 --> 1:31:11.94
ええ、基本的にそれが私たちが心配している理由だと思います。まさにその通りで、それが基本的に私たちが心配している理由です。例えば、私たちはあるモデルを使い、たくさんの事例を集めました。このモデルの重みをいじくりまわして、1000億件のケースを検討したところ、実にうまくいったのです。そして今、私たちは、新しいケース、例えば、モデルが信じられないような害をもたらす機会があったり、信じられないような害をもたらすことによって高い報酬を得ることができるようなケースで、このモデルはどうなるのだろうかと考えます。怖いのは、勾配降下がどのように機能するのか、まったくわからないことです。テストした1,000億件のケースで非常にうまく機能するものにたどり着きますが、その結果のモデルがどのように機能するのかがまったくわかりません。結果としてのモデルは、基本的に150の行列の掛け算のようなものです。300でも400でも、とにかく大きな行列を掛け合わせるのです。大きな行列を掛け合わせ、非線形性を適用し、また大きな行列を掛け合わせ、非線形性を適用するのです。

ポール・クリスティアーノ
1:31:11.97 --> 1:32:01.03
私たちは、これらの行列の数字の意味が全くわからないと思うでしょう。でも、それはまったく真実ではありません。私たちは、いくつかの数値が何を意味するのか、ある程度わかっていると思いますが、高いレベルでの話でGPT-2にはないGPT-4の興味深い振る舞いを例にとると、そのような振る舞いのすべてについて、GPT-4がどのようにしてそのようなことができるのか、本質的に理解できていないのだと思います。私たちは、簡単なことは理解していますが、既存のモデルが行う複雑な動作のほとんどは理解していないのです。そうなんです。もし、私たちに国家のリストを渡して、「このモデルはXをするのか」と尋ねられたら、私たちは、何度も実行してXをするかどうかを確認する以外に、その質問に答える方法がありません。そうなると、現実の世界で実行して何が起こるか確認し、それが壊滅的でないことを祈るか、実験室で十分に類似した状況をシミュレートして、モデルが実験室で行ったのと同じように振る舞うようにする必要がある、ということになるわけです。

4つ目の解決策

ライアン
1:32:03.68 --> 1:32:14.32
つまり、このような不可解なマトリックスで何が起こっているのかを理解し始めることができるかもしれないという希望はありますが、まだ大きなブレークスルーには至っていないのです。私たちが作った4番目のカテゴリーは何でしょうか？

ポール・クリスティアーノ
1:32:14.34 --> 1:32:54.87
進歩ですね。たくさんの進歩を遂げなければなりません。Eliezerは反対するでしょうし、彼は今のアライメント手法がリスクを意味深く減らすのに成功する確率は1％や0.1％と考えているのに対して、私はおそらく10％です。リスクを意味深く減らすのに十分に遠くまで達するかもしれません。具体的には、意味深いとは何かによってもっと高くなるかもしれません。私はおそらく、5～10％がリスクに対処するのに十分であり、10～30％でリスクを意味深く減らすのに十分だと考えています。
（少し脱線しましたが、）とにかく、これが彼らのカテゴリーです。私が非常に有望だと思う第四のカテゴリは、訓練可能なAIを状況Aで訓練し、もし失敗しても致命的ではない場合、答えを評価できるようにすることです。そして、その後、正しい答えがわからない場合や、もし失敗した場合に問題を修正できない状況Bで展開することになります。

ポール・クリスティアーノ
1:32:54.89 --> 1:33:43.10
そして、私たちは、モデルが簡単なケースや監視可能なケースから一般化する傾向をどのように理解するかを知りたいと思っています。この質問について、良い科学的な理解を築くことを期待できます。例えば、私たちは多くのケースを持ち、たくさんのモデルを調べ、この一般化に影響を与える要因を理解することです。これは、良い振る舞いの山（それが良いから良く見える）と、測定を系統的に歪めたり人々を欺いたりするために良く見える悪い振る舞いの山（それが良く見える）の2つの山を想像するようなものです。人々は、どの条件がそれらの間のジャンプを決定するのかを知りたいと思います。2つの同じように妥当な一般化があり、どちらを選ぶかを検討しています。という曖昧さを持つ状況があることと、多くの関係があると思うのです。モデルの一般化についての曖昧さが似たような状況を持つことが重要だと思います。

ポール・クリスティアーノ
1:33:43.12 --> 1:34:16.89
モデルの一般化がどのように不確かなのかを把握すること、膨大な数のモデルを訓練し、システムがどのように一方向に一般化するか、他方向に一般化するかを決定する要素を理解することが重要です。そして、学んだことの一部をリスクの診断に活用したり、最良の場合は、次のようにモデルを訓練し、以下の種類の損失関数を使用することで、意図した一般化が得られることを言えるようになります。私はこれが他の要素と組み合わさることで比較的成功する可能性があると思います。単純に言えば、50%の確率でうまくいくかもしれません。そして、このような作業を多く行えば、その確率を60%程度まで上げることができるかもしれません。

ライアン
1:34:17.09 --> 1:34:23.04
この4番目のカテゴリーを何と呼ぶか、ポール？そしてこれが、あなたが最も楽観視しているものですか？

ポール・クリスティアーノ
1:34:23.65 --> 1:34:38.97
ああ、どうだろう。何が一番楽観的なのかわからない。この4つは広く似たような重要性を持っているような気がするんだ。これを何と呼ぶかは分かりませんが。一般化を研究しているようなものでしょうか。これはまた、学者が非常に興味を持っている問題です。ある意味で研究しているのですが、

ポール・クリスティアーノ
1:34:38.99 --> 1:34:59.50
彼らはほとんどは、乗っ取りに最も関連するバージョンを研究しない。特にテイクオーバーに関心が高い人は、この問題を研究している人もいるようです。私自身が取り組んだことではありません。しかし、解釈可能性についてはかなり楽観視しています。スケーラブルな監督については、かなり楽観的です。ロバスト性については、それなりに楽観視している。難しそうですが、この問題で多くの人を助けることができる可能性は十分にあると思います。

マンパワーと資金調達

デビッド・ホフマン
1:35:00.45 --> 1:35:21.23
ポール、あなたは4つの異なる技術的な解決策を提示しましたね。私はこの件に関してとても素朴なのですが、これらの背後にあるマンパワーは何人なのか、教えてください。このような道筋があるのは素晴らしいことですが、実際にこれを実行に移すには人手が必要なのです。

ライアン
1:35:21.27 --> 1:35:22.46
そうだね、君達がそうするべきだと感じるよ。

デビッド・ホフマン
1:35:22.48 --> 1:35:23.63
この土地の道はどうなっているんだ？

ライアン
1:35:23.67 --> 1:35:31.56
この問題の解決に何十億ドルもの資金が投入されるとか？AISの開発には多くの資金が投入されているからね？

ポール・クリスティアーノ
1:35:32.65 --> 1:35:41.63
私はこの問題に対して、AIの開発に割かれる資金と同様の資金を用意することは困難だと思います。AIの開発には非常に優れた利益のインセンティブがありますからね。

ポール・クリスティアーノ
1:35:41.64 --> 1:36:35.43
予測可能な将来に、数億ドルから数十億ドルの資金がこの問題の解決に充てられるのは合理的な範囲だと思います。もし問題が現実味を帯びてきたら、その金額を増やすこともできるかもしれません。現時点では、多くの人々は「数年後にはテイクオーバーは起こらないだろうし、長期的には非常に推測的なリスクだ。とにかく、事前にどれだけ対策を取れるのか」と考えています。対策に取り組むための資金は一部に不足しており、興味を持って取り組む科学者も不足しています。しかし、問題がより現実的になり、AIがより魅力的になり、人々がこの領域にシフトしてくるにつれて、状況は急速に変化しているでしょう。また、データの移行と同様に、リスクを理解するために取り組んでいる人々も多く存在し、その一部はテイクオーバーに関心を持っています。

ポール・クリスティアーノ
1:36:35.47 --> 1:37:50.60
現時点でこの領域の規模を見積もる場合、テイクオーバーには関心がないがテイクオーバーを減少させる上で関連性のある仕事をしている人々をどのように数えるか、割引率を適用するかなど、さまざまな要素に依存します。具体的には、スケーラブルな監視に関連する人々は約20人、テイクオーバーに最も関連性の高い解釈可能性に関連する人々も約20人、そしてさまざまな程度で関連性がある可能性のある仕事をしている人々は数百人です。頑健性に関しては、明示的にテイクオーバーリスクに取り組んでいる人々は5〜10人程度で、関連性のある仕事をしている人々は数百人います。一般化に関しても、テイクオーバーリスクに関心を持つ人々は約5人で、関連する人々と、関連性や助けになり得る仕事をしている数十人程度です。つまり、テイクオーバーリスクに明示的に関心を持つ人々と、この分野や関連分野で取り組んでいる数百人以上の総計で、おおよそ50人から200人ほどの人々が関与していると言えます。それに加えて、関連性の高い仕事に注力している数百人以上の人々がいます。このような研究者や科学者たちが、テイクオーバーリスクの軽減に向けて取り組んでいます。

ライアン
1:37:50.63 --> 1:37:51.90
大局的には、それほど多くの人々ではありませんよね。ここにはそれほど多くの人々はいません。

ポール・クリスティアーノ
1:37:55.91 --> 1:38:12.15
そうですね、本当に多くの人々ではありません。それは確かに比較的小さな数ですね。私はそれが好きです。つまり、私たち全員が死ぬ可能性があるという合理的なチャンスがあると思っています。個人的には、これが私が個人的に死ぬ最も可能性の高い理由だと思います。おそらく。まあ、それは大きなことですね。

AI開発を止める？

ライアン
1:38:12.19 --> 1:38:59.82
これはAIの安全性に取り組んでいる人が言っていることです。別の質問をしてもいいですか？私たちは技術的な面をカバーしました。協調のもう一つのポイントである政策と人間の協調について触れたいと思います。あるオープンレターがありました。おそらく知っていると思いますが、オープンレターで「AIの巨大な実験を一時停止せよ」と述べています。Max Tegmark氏の組織がこれをまとめたと思います。イーロン・マスク氏やアンドリュー・ヤン氏、他の人々も署名しています。それで、オープンレターは、AIの安全性の問題について把握するために、AIの開発を一時停止し、6か月間進展させずに一息つき、これがどういう意味を持つのかを理解しようというものです。あなたはこの手紙を支持しますか？

ライアン
1:38:59.85 --> 1:39:32.58
AIの安全性に取り組んでいる立場から、この手紙を支持するかどうか、またはこれが良いアイデアだと思いますか？さらにメタな質問として、私たちはこの協調メカニズムを実際に解決できると思いますか？そして、人類が解決するのが非常に難しい、スコット・アレクサンダーの「モロクの罠」のような状況にあるのではないかという点もあります。これは、先ほどデイビッドが描いた「見ないで」というシナリオですか？まず第一に、あなたはこの手紙に署名しましたか？署名しますか？それが良いアイデアだと思いますか？

ポール・クリスティアーノ
1:39:33.59 --> 1:40:00.93
私はその手紙には署名していません。私の全体的な意見を述べると、AIの開発を一時停止するか、遅らせる方が、バランスを考えると良いと思います。ただし、それはまったく明らかではないと思いますし、開発の減速は良くないアイデアだと考える人々には同情しますので、なぜそう思うのかについて議論することができます。私が関心を持っているのは、実際に重大なリスクをもたらすシステムを開発している場合、私たちの測定が重大なリスクを判断するのに適切ではないという点です。

ポール・クリスティアーノ
1:40:00.94 --> 1:40:50.50
リスクや私たちの測定によれば、重大なリスクをもたらす可能性があります。その時点で、私はより強い立場を取るでしょう。今の時点では、どちらかと言えばそれが必要だと思っています。現時点では、これは議論の余地がある問題であり、開発を遅らせたいと思うことは合理的です。将来的にも議論の余地があると思いますが、開発を遅らせたいと思わないことは合理的ではないと考え、実際には私たちが共同でこれに対処する必要があると思います。重要なことは、私はEliezerの意見に同意していて、6か月間の一時停止は実際にはあまり助けにならず、リスクをあまり減らさないという点です。私たちがする必要がある主なことは、リスクに基づいて開発を遅らせる準備ができる状況を整えることです。リスクについての合意を形成するか、リスクを測定する必要があるという合意を形成することです。

ポール・クリスティアーノ
1:40:50.52 --> 1:41:52.10
現在のリスクが受け入れられないほど高いことや、私たちの測定が受け入れられないことを準備して、それに応じてより大幅に開発を遅らせる準備をすることです。6か月間、何が必要であれ、リスクを管理するために。または、最もリスクの高い方向性を遅らせることです。それが私が考える主なことであり、私が関心を持っている主なことですし、本当に好きなことです。それは繊細なプロセスになると思いますし、人的コストもかなりかかると思います。私はおそらく、AIについては一般の人よりもある意味で楽観的ですが、数年にわたる遅いAIの開発には相当な人的コストが伴うと思いますが、それは支払う価値があると思います。ただし、それに懐疑的なAIの人々や軽視しない人々には同情します。私たちは、開発を遅らせる必要がある、リスクが受け入れられない、より速く進む利益が賭けるものに比べてあまりにも大きくない

ポール・クリスティアーノ
1:41:52.13 --> 1:42:46.78
西洋の研究所の間での自主的な自己規制によって、ある程度の遅延が実現できると思います。つまり、理性的な余地があると思います。現在、AIの開発に関与しているほとんどの人々は、本当に誰もがAIが暴走して全員を殺すことを望んでいないし、少なくとも原則的にはリスクに対する認識を持っており、リスクを適切に管理するための一連の手法を採用し、遅延しても採用します。それによって大幅に遅延させることはできませんが、追加の安全性を得ることができ、潜在的な災害を6〜12ヶ月程度遅らせることができる可能性があります。少なくとも一部の研究所の人々が信じられないほどの災害を引き起こしたくないと考えていることを認識しています。遅延の理由を見ています。それを実現するためには、もっともっと規制的な体制が必要です。

ポール・クリスティアーノ
1:42:46.80 --> 1:43:29.73
具体的には、研究所が支持する自主的な一連の手法があることを宣言し、一部の人々がそれに違反する行動をとっているという状況があります。そして、それは広範な合意で理に適っていないということがわかります。そして、この場合、私たちはAI研究所が、米国政府を暴力的に転覆させる立場にあることを望んではいないと言うことができる国家に対して求める範囲に含まれます。これは狂ったことではなく、政府の本業です。したがって、一部の企業が「前進すべきだ」と主張することに対して、世界が「それはただ前進するだけのものではありません」と言う理にかなった理由があると思います。ただし、今はそれが難しいと思います。手続き上、今は、国家がAIの開発を抑制すべきだと主張するのは少し難しいと思います。しかし、将来、いくつかの開発者がかなりのリスクをもたらしており、それが合理的ではないという理由を主張することは、それほど難しいことではなくなるでしょう
し、いくつかの開発者の行動は合理的ではないと言えるようになるでしょう。

ライアン
1:43:33.74 --> 1:44:49.31
ポール、誰かが提案したものはありますか？なぜなら、AI安全性に取り組んでいるのは、たった50〜100人で、おそらく数百万ドルの資金がありますが、AIの開発が実際に持つであろう数千億ドルではなく、何らかの利益の一部が研究資金として使われるようなAI税のようなものが提案されているのではないかと思われます。これは政府レベルで行われるものです。なぜなら、公共財の資金調達の問題があるように思われます。それだけでなく、教育の問題もあるかもしれません。これが、私たちがエリーザーとのエピソードの後にAIについて積極的に調査している理由です。もしこのままではロボットが文字通り私たちを殺しに来るのであれば、仮想通貨のことなんて大したことではありません。真剣に考えるべきです。すごいですね。仮想通貨システムや分散化、暗号経済ツールがあるけれど、私たちはみんな死んでしまいました。ロボットがそれを手に入れたんです。素晴らしい仕事ですね、みなさん。だからここで急な変更をしています。しかし、正直に言うと、私たちはここで賭けの大きさと存在的な脅威に気づかされたからです。したがって、ここには教育の側面もあります。

ライアン
1:44:49.40 --> 1:44:59.08
ポール、リソースはどこに使うべきだと思いますか？規制や教育、大まかなレベルでどうすればいいのでしょうか？

ポール・クリスティアーノ
1:45:00.29 --> 1:45:46.29
AI安全性に関しては、重要なことは、AIのテイクオーバーに取り組んでいる人が50-200人いると言っても、AI安全性に関連する懸念事項は多岐にわたるということです。AIには様々なリスクや潜在的な被害が存在します。例えば、Chat GPTの展開によって人々が結果に不満を持つ可能性があったり、プライバシーの問題や社会に対するシステム的な影響など、心配すべき影響もあります。これらの問題に取り組んでいる人々はもっと多く存在していますが、そのためには多くの問題があるからです。すべての問題が無視されているように感じられるかもしれませんが、AI安全性はこのより広範なカテゴリーであり、AIテイクオーバーのリスクに取り組んでいる人々は少数派です。現時点では、公共の議論においては科学的な関心よりも大きな割合を占めていると思います。

ポール・クリスティアーノ
1:45:46.30 --> 1:46:12.26
そのため、公的な支出などの資金投入に関しては、現時点では主要なボトルネックはお金をもっと使うことではないと考えています。もちろん、さらなる資金の必要性はありますし、追加の資金は良いものです。資金提供の対象となるプロジェクトや、関連するバックグラウンドを持つ人々が、このリスクを管理しようとするほど興味を持っていることが重要なボトルネックだと思います。彼らは資金が利用可能であれば、この仕事に取り組むでしょう。

才能

デビッド・ホフマン
1:46:13.19 --> 1:46:14.62
才能がボトルネックになっている。

ポール・クリスティアーノ
1:46:14.76 --> 1:46:37.41
それが現在の大きな問題だと思います。ただし、どちらも完全なボトルネックではありません。お金を使って人々がこの分野に転向するのを支援したり、より前向きなプロジェクトや長期的な取り組みを資金提供したり、インセンティブを高めることができます。そして、資金提供をより寛大に行えば、本来行われる予定だった仕事をより多くの人々が行うようになります。ですので、お金を使う方法はたくさんありますし、お金を使うべきか、それとも才能を増やすべきかは明確ではありません。

ポール・クリスティアーノ
1:46:37.45 --> 1:47:00.26
ただ、現在は少し難しい状況です。資金を使おうとして、どこに使うべきかを考えるのは難しいです。産業界の実践者や学術界の科学者が優先していない問題に対して資金を使うことは難しいです。成功する資金の使い方は、その仕事をしたいと思っている人々がお金が必要であるか、少なくともその仕事に取り組む意欲があり、それに興味を持っている人々がいることによってもたらされます。

デビッド・ホフマン
1:47:01.03 --> 1:47:09.80
ポール才能のある人がいるとして、本当に足りないのはどんな才能なのか？AIのこの分野が本当に必要としているは何でしょうか？

ポール・クリスティアーノ
1:47:11.45 --> 1:47:29.63
さまざまな種類の仕事があります。私たちは主に技術的な解決策について話をしてきましたが、関連する才能の多くは数学のバックグラウンドやコンピュータサイエンスのバックグラウンド、機械学習の経験がある人、優れたエンジニアまたは優れたデザインの人々です。この分野で働いている人々の多くは他の分野から入ってきた人々です。例えば、私たちは以前は物理学をしていました。

ポール・クリスティアーノ
1:47:29.64 --> 1:48:25.00
もし物理学をしていて、今の世界で物理学を少し中断しても良いと言えるのであれば、AIの問題は今後10〜20年間は緊急性があると言えるでしょう。そのため、広範な科学的なバックグラウンドを持ち、研究経験があり、複雑な経験に基づいた問題の研究方法を理解している人々が、この分野に参入するのは合理的だと思います。技術的なバックグラウンドの幅広い範囲も、この絵の中に考慮されています。技術的な問題だけでなく、より広範な視点で考えると、さらに広範な人材が必要です。例えば、制度的な取り組みや、どのように測定すべきか、公的な議論や公的な提唱に進展があるかを理解することなどがあります。一般的な予測についての理解も重要です。これらは単なる主張の対象ではなく、見解を変えるべき実際の理由であるかどうか、実際の合意の統合の一部であるかを判断するための対象です。

ポール・クリスティアーノ
1:48:25.02 --> 1:49:02.97
専門家たちが異なる分野で最も関連性があると信じていることを考えると、やるべきことは本当にたくさんあります。私が最も理解しているのは、AIの安全性に関してはおそらく500件以上の妥当なプロジェクトがあると思いますが、それに取り組んでいる人はそんなに多くはいません。だからこそ、人々が参入し、現状を見て、自分たちがどのように貢献できるかを考え、それに基づいていくつかのプロジェクトに取り組むことが重要です。それが解釈可能性であったり、スケーラブルな監視であったり、モデルの汎化性能の研究であったり、モデルに関する科学的な研究や頑健性に関する研究などです。私が挙げたのは4つのカテゴリーですが、これは網羅的な分類ではありません。例えば、実際には私の日常の仕事や通常行っているすべての仕事を含んでいません。

Paulの一日

デビッド・ホフマン
1:49:03.55 --> 1:49:05.94
本業と仕事内容を教えてください。

ポール・クリスティアーノ
1:49:06.12 --> 1:49:19.16
主に、現行の技術と同じようにAIの引き継ぎを刺激しない、代替のトレーニング戦略や質的に新しい技術の開発に取り組んでいます。それはポートフォリオの一部です。

ポール・クリスティアーノ

1:49:19.22 --> 1:50:14.27
私たちは、質的にゲームを変えるような本当に良い戦略を考案できる確率は10%程度だと思っていますし、リスクが大きいと見なされる場合にはそれを採用することもできるでしょう。それは別のカテゴリーの仕事です。一部の人々はそれに取り組んでいます。大勢の人々を吸収する可能性は低く、それは少しリスクが高いですが、やる価値があると思います。これが私の大まかな仕事です。実際には多くのプロジェクトがあります。私たちがそのリストを見てみれば、ほとんどのプロジェクトは技術的な才能が不足しており、研究経験があり、良い判断力と指導力を持ち、これらの問題に取り組むことができるシニアの研究者、管理や起業家精神、プロジェクトに参加し、それらを調整するための管理経験を持つ人々が必要です。技術的なバックグラウンドを持ち、起業家精神があり、この領域を見て、人々の考えと関わりながら、自分自身の意見を形成するのに役立つものを探し、それからプロジェクトを始めることができる人々に対しては、非常に高いプレミアムが存在します。現在、それをやることのリターンはとても大きいと思います。そうですよね？

ポール・クリスティアーノ
1:50:14.34 --> 1:50:15.73
ハイ、だと思います。そうだろう？

ノーベル賞

デビッド・ホフマン
1:50:15.80 --> 1:50:28.86
ポール、あなたの分野ではないのですが、この分野の人が今後20年以内にノーベル賞を受賞する確率はどれくらいだと思いますか？

ポール・クリスティアーノ
1:50:28.88 --> 1:50:37.52
ALMとかで活躍してる人たちって結構いるみたいだけど？まず問題なのは、隣接する分野にノーベル賞がないことです。という感じでしょうか。

ライアン
1:50:37.54 --> 1:50:41.41
私の言いたいことは、人類を救うための賞だと思う。つまり、我々はそれに取り組むべきだということですね。

デビッド・ホフマン
1:50:41.45 --> 1:50:45.33
誰かがこの問題を解決したら、どこかに賞があるはずだ。

ポール・クリスティアーノ
1:50:45.53 --> 1:51:05.71
そうだチューリング賞とかフィールズ賞とか、もっと類似したものがあるでしょ？そうですね... そんなに可能性は高くないと思います。20年というのは、それほど長い時間ではありません。むしろ、これらのもののほとんどは、初期のキャリアにおける功績に対して潜在的なキャリアが与えられる傾向があります。フィールズ・メダルはちょっと別格ですが。人々がやっていることのほとんどは、チューリング賞やフィールズ賞を受賞するようなカテゴリーではありません。

デビッド・ホフマン
1:51:07.17 --> 1:51:14.39
これは、誰かがこの問題を解決した人に対して何らかの大きな認識があるべきだという話でした。だから、それが私の行動要請です。

ライアン
1:51:16.73 --> 1:51:21.07
誰かのために、賞品を作ろう。誰かが賞を作るんだ。誰か、安全な人類を作ってくれ。

ポール・クリスティアーノ
1:51:21.12 --> 1:52:02.71
お金を使ってそうしたことを実現することもできます。それは、狂気じみたことではなく、科学的な名声もその要素の一つです。賞はお金や名声の要素から構成されることがあります。ただし、名声の要素からなる賞を作り出すことは難しいです。それは、科学コミュニティが高い水準で賛同しているかどうかによります。実際には、この問題が現実の問題となった世界の中で、後になってこの分野で行われた一部の研究に人々が非常に興奮することがかなりあり得ると思います。人々は「それは大きな問題だった」と言うでしょう。私たちはうっかりしていました。過去において人々がそう感じる可能性は50％ぐらいだと思います。一般的に、重要な認識を提供する既存の制度はあるのかという問題については、自信がありません。私たちが行っている良質な学術研究には、理論的なコンピュータサイエンスの基準よりも優れた賞を獲得する可能性があると思いますが、それは基本的には学術的な功績に基づいているものです。ただし、それ以外の方法もあります。

AIを丁寧に扱う

デビッド・ホフマン
1:52:14.73 --> 1:52:55.70
未来に進んで、人類がこの難問を乗り越えた場合、賞を授与する機関が存在するでしょう。その前提で進めましょう。ポール、この議論を導いてくれて本当にありがとう。これは私たちが制作したいと思っていたエピソードそのものであり、私は自分の質問に対する多くの回答を得ることができました。ただ最後にひとつだけ質問があります。私のこれまでの戦略は、シリーやアレクサに対してとても礼儀正しく接することでした。そして、あなたの意見では、それが私にとって何か変化をもたらしているのでしょうか？具体的には私にとってです。他の人々については気にしませんが、それが何か影響を与えているのでしょうか？

ポール・クリスティアーノ
1:53:07.40 --> 1:53:16.73
たぶん、それは効果がないと思います。なぜなら、人類がAIシステムを尊重し尊厳を持って扱うという真の意味があると思います。これらのものは賢くなる可能性があり、人類はそれらを作り出すシステムに対して間違ったことをする余地がたくさんあると思います。シリーやアレクサに親切にすることは、おそらくあなた個人にとって最も助けになる場所ではないでしょう。彼らはおそらくそのような感情を持っていません。

デビッド・ホフマン
1:53:17.07 --> 1:53:28.79
まあ、私の哲学は、いずれこれらのものはAIになるでしょう。そのロボットやマイクの向こう側にはAIが存在するでしょう。私の哲学は、「なぜ尊重をもって扱うことを始めないのか」ということです。

ユートピアシナリオ

ライアン
1:53:28.84 --> 1:54:04.38
大きな疑問は、彼らはこのポッドキャストをどのように評価するのか、私たちのBanklessの取り組みを好意的に評価するのか、ということだと思います。これは私の考えでは非現実的ではありません。そして、最後の質問ですが、ポール、あなたは20%が災厄のシナリオであると述べましたが、残りの80%には平凡なシナリオもあると思います。では、20%のユートピアのシナリオについて教えてください。すべてが非常に非常にうまくいく可能性はありますか？もし可能なら、その後に何が起こるのでしょうか？ここで私たちにいくらかの楽観を与えてください。

ポール・クリスティアーノ
1:54:05.31 --> 1:54:08.10
私はそんなに優秀な人間ではないので、楽観的な人を残しています。たぶん

ポール・クリスティアーノ
1:54:08.12 --> 1:54:58.07
私はそこまで良い人間ではないし、楽観的な人々を置いていくような人間でもありません。おそらく、私は50%の可能性で、人類が非常に良い結果を達成すると思います。つまり、楽観的なのです。そして、その世界の政治経済が超長期的にどうなっているかを語るのは、本当に難しいと思います。大きなポイントは、人類にはまだ長い歴史があることだと思います。AIというのは、その歴史が圧縮されることを意味すると思うんです。制度が変わり、物事が起こるには長い時間がかかると思います。その多くが、これまでよりもずっとずっと速く起こるようになると思います。これまでの何万年という人類の歴史について考えるなら、世界が非常に、非常に根本的に変容するまでの数十年という感じでしょうか。その世界がどのようなものなのか、私にはよくわかりません。私は、人間の問題の多くは、人間対自然みたいなものだと思うんです。例えば、私たちは老衰や病気で死にます。

ポール・クリスティアーノ
1:54:58.11 --> 1:55:44.43
物質的な欲望もありますが、それらの問題はおそらく非常に改善されるでしょう。それは、50％よりもさらに、人類対自然によって引き起こされる問題は、かなり良いものになると思うんだ。そして、それらは、ある意味で私たちの生活はかなり良いものになると思います。人間対人間の対立は、予算が限られているため、ほとんどが問題になっています。そしてそれ以上に、その世界の性格がどのようなもので、私たちが何を選択するかということが、本当に難しくなってきます。実際、物理的にかなり良い位置にいて、自由に使えるリソースがあれば、どんな世界を作るか、それはもっと長く、複雑な議論になりますが、私はかなり興奮していますよ。個人的には、いつの時代でもなく、今生きていることがとても嬉しいんです。つまり、個人的には、いつでも生きている今の時代にいて非常に嬉しいです。そして、私は確かに、例えば50%の死亡リスクを受け入れるでしょう。早死にする50%の確率は、生きていることから予想される生活の質の全体的な変化に比べて非常に小さいように思えます。

デビッド・ホフマン
1:55:44.53 --> 1:55:46.37
極めて楽観的だ。

ポール・クリスティアーノ
1:55:46.50 --> 1:55:49.61
Eliezerよりずっと楽観的だよ、間違いなくね。ああ、それは間違いない。

閉幕

ライアン
1:55:49.68 --> 1:55:50.64
私たちはコイントスをしている。

ライアン
1:55:50.67 --> 1:55:59.61
ここで非常に悪い結果になるか、私たちにとって良い結果になるか、どちらかです。ポール、うまくいくようにするための仕事に感謝します。バンクレスに参加してくれてありがとうございます。

ポール・クリスティアーノ
1:55:59.77 --> 1:56:01.80
僕を呼んでくれてありがとう。話せてよかったよ、みんな。

ライアン
1:56:01.90 --> 1:56:39.46
ポールのウェブサイトについては、アクションアイテムに記載します。Alignment Research Center（アラインメント研究センター）です。Alignment.orgで彼の組織が何をしているかをチェックすることができます。また、ポール・クリスティアノのウェブサイトへのリンクも含めます。彼の執筆物や、アーカイブからのEliezer Yudkowskyとのディベートへのリンクもあります。最後にこれで締めくくります。もちろん、これは金融アドバイスではありませんが、私たちはAIについて話しました。何度か暗号通貨についても触れましたが、これで締めくくります。AIはリスクがあります。リスクは高いです。私たちはここで多くを失うかもしれません。しかし、私たちは西に向かっています。これは未開拓の地です。誰にでも向いているわけではありませんが、Banklessの旅に一緒にいてくれてうれしいです。ありがとうございました。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

和訳まとめ

以下対談の中から重要そうな箇所を要約しました。

10-20%の確率で人類はほぼ絶滅すると主観的に考える。50%は良い未来で後は人類は存続するが人類の望む未来ではないような世界。

（詳しくは以下記事にて解説されている）

今後5年でAGIができるかどうかはわからないが、できないという人にはなぜそう言えるのかを聞きたい。今後数年間に想像できるスケールアップは、過去5年間に観察されたスケールアップと同程度の規模だと考えている。
一度AGIができたら数年以内に世界を転覆させるような能力を保有すると思われる。期待が外れて驚きはするが、一方で数ヶ月または数十年の離陸スピードになることも考えられる。
AGIが人類を絶滅させるシナリオは、あらゆる場所でAIを導入していることに関連している。それを見て、「ああ、もし何らかの理由でこれらのAIシステムが皆を殺そうとするなら、確かに皆を殺すだろう」と思えるような状況。AGIから世界を転覆させる能力に至るまでは数年かかるし、その過程で上記のような感覚を持つ人は増えるだろうが、その状況で一旦災害が起こったらとても素早いものになるだろう。なぜなら人類の意図に沿わない行動をとったAIの情報が非常に迅速に他のAIに伝播するため。

（詳しくは以下Paul Christiano氏の失敗はどのように見えるか？というx-riskに関する脅威シナリオ参照）

AIが報酬をハッキングして人間におべっかを使い最後は人間を無力化することで報酬を最大化しようとしてしまうかもしれない
技術的な解決策については「スケーラブルな監視」、「ロバスト性確保のための多様な環境シミュレーション」、「ニューラルネットワーク内部の解釈」、「一般化の振る舞いの研究」の四つを挙げている。

以下にAI alignmentの技術的方向性がまとまっているため興味がある方は参照。(Paul Chrisitano氏のスケーラブルな監視はIDAと呼ばれるアライメント手法)

上記現状の技術的な解決策は5~10%の確率でAIアライメントを根本的に解決し、10~30%の確率でアライメントのリスクを意味のあるレベルで削減できる。また10-20%の確率で人類がほぼ絶滅すると言うシナリオに現状のアライメントの技術的な解決策が上手くいくいかないというシナリオも込みの数字。
Future of Life Institueの公開書簡の6ヶ月間のGPT-4以上のAIトレーニング一時停止はリスクを減らさない、どちらかと言うとリスクに応じて開発を遅らせることのできる体制構築が必要。
私たちは50%程度の確率で人類は非常に良い未来を築けると思う、老衰や病気や物質的欲望を人間は持っているがそれら問題は非常に大きく改善されるでしょう。

Paul Christiano氏はEliezer Yudkowsky氏と比較すると楽観的でしたが、それでも世間一般の感覚からすると相当悲観的に見えると思われます。一方でAI alignmentの研究を長年されてきて、現実的なところから素直に出てきた感覚値だともいえると感じます。

この記事が気に入ったらサポートをしてみませんか？