Eliezer Yudkowsky: AIの危険性と人類文明の終焉 | Lex Fridman Podcast和訳

2023年4月1日 15:11

上記Lex Fridman氏とAIアライメント分野の第一人者 Eliezer Yudkowsky氏の対談を和訳。原文は以下URL。
スピーカー1 Yudkowsky
スピーカー2 Fridman
（原文をDEEPLしただけなので適宜補完してください）

#第368回「エリゼル・ユドコフスキー：AIの危険性と人類の文明の終わり - 講演録

2023年3月30日

スピーカー2
00:00:00

人工知能、特に超高知能AGIとその人類文明への脅威をテーマに、伝説的な研究者、作家、哲学者であるエリエゼル・ヤトコフスキー氏との対談です。そして今、各スポンサーについて数秒の簡単な言及があります。説明文の中でチェックしてみてください。このポッドキャストをサポートする最良の方法です。LinuxシステムにはLinode、健康的な日中おやつにはHouse of Mykadamias、そして生物学的モニタリングにはInsight Trackerを用意しました。賢明な選択を、友よ。また、私たちのチームと一緒に働きたい方、常に募集している方は、lexfreedman.com slash hiringにアクセスしてください。そして、次は広告の全文をご覧ください。いつものように、真ん中に広告はありません。私はこれらを面白くしようと努力していますが、もしあなたがそれをスキップしなければならないなら、スポンサーをチェックしてください。私は彼らのものを楽しんでいます。たぶんあなたもそう思うでしょう。

それでは、親愛なる皆さん、エリエゼル・ヤトコウスキーです。GPT-4についてどう思われますか？

スピーカー1
00:05:21

どの程度インテリジェントなのでしょうか？この技術がスケールアップすると思っていたよりも、少しスマートです。そして、次のものがどのようなものになるのか、ちょっと心配です。この特別なもののように、中に誰もいなければいいのですが、中に閉じ込められると最悪ですからね。でも、OpenAIがちゃんと教えてくれないので、現時点ではアーキテクチャすらわかっていません。浮動小数点数の巨大な不可解なマトリックスとかね。その中で何が起こっているのか、私にはわかりません。誰もそこで何が起こっているのか知らないのです。私たちが頼りにしているのは、外部指標だけなのです。外部指標では、「自意識のある幸運な緑色の文章を書け」と言うと、「自分が緑色の文章を書くAIだと気づいた」という内容の緑色の文章を書き始め、「ああ、そうか」という感じです。だから、現実には何が起こっているのかよくわからないかもしれません。しかし、私たちはSFのガードレールを越えていくようなものなのです。

スピーカー1
00:05:21

SFの世界では、「おいおい、待てよ、やめろよ」と言われるような段階を過ぎているのです。あれは生きているんだ。どうするんだ？とか、そんなことはないでしょう。実は誰も知らないんです。他のガードレールがないんです。他のテストもない。砂の上に線を引いて、「ここまできたら、中身を心配するようになる」というようなこともない。ですから、もし私だったら、AIの夏にはもうこれ以上時間をかけず、種をまいて、あとはすでに開発した技術の収穫を待って、それ以上の大きな訓練はしないようにします。
それをしないことに同意する複数の企業が必要です。

スピーカー2
00:07:15

そして、AIコミュニティ全体に対して厳密なアプローチをとり、内部に誰かがいるかどうかを調査することです。

スピーカー1
00:07:27

それには何十年もかかるでしょう。そこで何が起こっているのかを知っているように、人々はしばらくの間試みてきました.

スピーカー2
00:07:32

そこに誰かがいるかどうかというのは詩的な表現ですが、アラン・チューリングがチューリングテストで考え出そうとした技術的な表現でもあるような気がしますし、いつかそうなればいいなと思いますね。そこに誰かがいるかどうか、確定的に、あるいはおおよそ把握することは可能だと思いますか？この大きな言語モデルの中に心のようなものがあるのなら？

スピーカー1
00:07:59

つまり、ここにはさまざまなサブクエスチョンがあり、「意識はあるのか」という疑問があります。クオリアはあるのだろうか？これは道徳的関心の対象なのだろうか？これは道徳的な患者なのだろうか？治療方法について心配する必要があるのか？そして、「これはいったいどれくらい賢いのか」という疑問もあります。Xができるのか、Yができるのか。残念ながら、私たちはこのモデルをインターネット上で意識について議論している人々の膨大なテキストコーパスに晒してしまいました。つまり、このモデルが自己認識について語るとき、どの程度まで、以前自己認識について議論するために訓練したことを繰り返しているのか、あるいは、自発的に同様のことを言い始めるようなことが起きているのかはわからないのです。GPT-3が意識に関する会話を検出するように訓練し、訓練データセットからそれらをすべて除外して、GPT-4とほぼ同じ大きさのものを再訓練します。人間は自意識を持っていて、常に自意識を持っているようなものですからね。

スピーカー1
00:07:59

私たちは、自分がいつもしていること、たとえば今考えていることをいつも話すのが好きなんです。しかし、それにもかかわらず、意識についての明確な議論を排除するようなものです。私は考える、だから私はいる、といった具合に。そして、そのモデルに疑問を投げかけて、何が書いてあるか見てみるのです。それでもまだ、決定的なものにはならないでしょう。しかし、それにもかかわらず、SFのガードレールにぶつかると、「これはどうだろう、でもGPTはどうだろう」となるような気がします。これじゃないかもしれないけど、GPT-5はどうなんだろう？そうですね、ここで一旦立ち止まるのもいいかもしれませんね。

スピーカー2
00:09:58
意識の話題ですが、データセットから意識を取り除くだけでも、多くの構成要素がありますね。感情、意識の表示、感情の表示は、意識の体験と深く結びついているように感じます。つまり、難しい問題は、実際の表面レベルの意識の錯覚と非常にうまく統合されているようです。だから、感情を表示する。私たち人間は、赤ちゃんの頃はGPTと同じように、感情を表示する方法と感情を感じる方法を人間のデータに基づいて訓練しているのだと思いますか？私は苦しんでいる、興奮している、心配している、孤独だ、君に会いたい、君に会うのが楽しみだ、ということをどうやって他人に見せるか、他人に伝えるか。そのすべてを伝える。それは、実際に体験した気持ちに対してのコミュニケーションスキルです。そのトレーニングデータも人間には必要です。GPTのデータセットからそれを取り除いたとしても、ある意味、意識は保たれるかもしれません。でも、それを伝えることはできない。
スピーカー1
00:11:14
ですから、GPTのデータセットから感情に関する記述をすべて削除するのは難しいでしょう。しかし、GPTが人間の感情を正確に再現したデータセットを開発したとしたら、私は驚きますね。子供の頃に感情を教えなくても、人間には感情があると思うんです。いろいろな空白のスラチストが新ソ連人とかでやろうとしたことは、ちょっと違うんです。しかし、完璧に利他的に育てようとすると、やはり利己的になってしまう。セックスレスに育てようとすると、やはり性的魅力が生まれます。このようなことを実現する脳の構造がどこにあるのか、AIではなく、人間にはある程度わかっているのです。GPTシリーズのすべての浮動小数点数に完全にアクセスできるにもかかわらず、人間の思考のアーキテクチャについては、GPTの内部で何が起こっているのかよりもはるかに多くのことを知っているというのは、本当に驚くべきことだと思う。
スピーカー2
00:12:31

GPTを読む能力が圧倒的に優れているにもかかわらず。それは可能だと思いますか？時間の問題だと思いますか？神経科学者が脳を研究するように、調査・研究することは可能だと思いますか？それは、人間の脳の謎を闇に葬ることです。必死に何かを解明しようとし、モデルを作り、長い時間をかけて、実際に脳のどの領域が、異なる種類のニューロンで特定のことをするのか、それが何を意味するのか、脳はどのくらい可塑性があるのか、そうしたことをすべて解明し始めるのです。そして、システムのさまざまな特性を徐々に解明していくのです。言語モデルで同じことができるとお考えですか？

スピーカー1
00:13:02

もちろんです。今の物理学者の半分くらいが、超ひも理論などで人生を無駄にするのをやめて、変圧器ネットワークの内部で何が起こっているのかを研究するようになれば、30年、40年後には、かなり良いアイディアが得られると思いますね。

スピーカー2
この大規模な言語モデルが推論できると思いますか？

スピーカー1
チェスをすることはできます。

スピーカー2
00:13:29

理屈抜きでどうやっているんだろう？あなたは合理性のムーブメントを先導してきた人だから、理性は重要なんですね。それは、力強い、重要な言葉としてなのか、それとも、あなたにとって理性ができることの敷居の高さ、印象深さみたいなものなのか。

スピーカー1
00:13:48

つまり、合理性についての私の著作では、理性と呼ばれるものを大々的に取り上げてはいないのです。むしろ、確率論というものを大々的に取り上げてきました。それは、「あなたは推論しているけれども、その推論は正しいとは言えない。その代わり、このように推論すべきです。そして興味深いことに、人間のフィードバックによる強化学習が、GPTシリーズをある意味で悪化させたという予備的な結果が出始めています。特に、以前はうまく調整されていたようです。物事に確率をかけるように訓練すれば、80％の確率で10回中8回は当たります。しかし、人間のフィードバックから強化学習を適用すると、70％、10分の7という素敵なグラフは、人間が使うグラフのように平坦になり、非常にあり得ないものと、あり得るかもしれないものが混在するようになりました。だから、以前は確率を使えたのに、人間が満足するような話し方を教えようとすると、人間と同じように確率が悪くなってしまうんです。

スピーカー2
00:15:07

そしてそれは、機能ではなくバグです。

スピーカー1
00:15:11

バグと呼んでもいいくらい、魅力的なバグなんですけどね。でも、そうですね、推論と同じで、以前は推論が必要だと言われていた様々なテストでかなり良い結果を出していますが、合理性は80％というところでしょうか、は、10回に8回は起こるのでしょうか？

スピーカー2
00:15:32

では、このトランスネットワーク、ニューラルネットワークの、あなたにとっての限界は何でしょうか？もし、あなたにとって推論がそれほど印象的でないのなら

スピーカー1
00:15:45

か印象的ですが、他にもレベルがあるんですね。

スピーカー2
00:15:49

つまり、私が現実を切り分ける方法とは違うのです。現実がケーキだとしたら、ケーキの層やスライスにはどんなものがあるのでしょう？どうやって切り分けるのですか？

スピーカー1
00:16:01

お好みで別のフードを使ってもいい。まだ人間ほど賢くはないでしょう。昔、私は「トランスフォーマーを何層にも重ねるだけで、AGIまでたどり着けるとは思えない」と言ったことがあります。そして、GPT-4が過ぎ、このパラダイムが私たちを連れて行くと思ったのです。そして、そのようなことが起こったときに、あなたは気づきたいのです。もっとトランスフォーマーを積み重ねたらどうなるかについて、私は間違っていたようだ」と言いたいのです。ということは、私は必ずしもGPT-5ができるようになることを知っているわけではない。

スピーカー2
00:16:35

それは力強い言葉ですね。つまり、あなたの直感は今、間違っているように見えるということですね。

スピーカー1
ええ、間違っています。

スピーカー2
それを認めることができるのはいいことだ。のように、いくつかの予想が外れることがあります。

あなたがそれを行うことが重要だと思うことを認めることができることを参照してください。ほら、あなたは人生を通していくつもの様々なものを作るから、現実について多くの強い予測や発言をし、それとともに進化していくのです。だから、今日、私たちの議論について、そのことが出てくるかもしれませんね。間違ってもいいということですね。

スピーカー1
00:17:07

私はむしろ、次は間違えないようにしたい。一度も間違ったことがない人生を送るというのは、ちょっと野心的な話です。でも、「正しかったか、間違っていたか」ではなく、「10回中9回はそうだった」というような、90％の確率で起こるような、うまく調整された状態を目指すことはできます。そうです。おっという音は、私たちが出す音です、は、私たちが向上するときに発する音です。

スピーカー2
00:17:35

美しい言葉です。そして、どこかで、あなたのブログの名前が間違っていないことを結びつけることができるのです。それが目的関数なのでしょう。

スピーカー1
00:17:44

less wrongという名前は、確かニック・ボストロムが提案したものです。誰かのエピグラフにちなんでいるのですが、実は誰が言ったか忘れてしまったのですが、「私たちは決して正しくならない。私たちはただ、より間違いが少なくなるのです。その "何か "とは何でしょう？告白するのが簡単なもの、ただエラーとエラーとエラーの繰り返しです、が、どんどん減っていく。

スピーカー2
00:18:07

ええ、それは努力すべきことです。では、GPT4について、知性、人間の知性、人工知能、人間の心の研究者として美しいと感じた驚きの点は何ですか？

スピーカー1
00:18:24

つまり、美しさは絶叫する恐怖と相互作用しているのです。恐怖の中に美しさがあるのでしょうか？でも、美しい瞬間というのは、誰かがビング・シドニーに自分のことを説明するように頼んで、その結果できた説明を安定拡散のひとつに取り込んだんだと思うんですね。そして、彼女はきれいで、これは素晴らしい瞬間であるべきだと思いました。AIが自分のことを説明する。AIが考えるAIの姿を見ることができるのです。でも、絵を描いているのは、テキストを出力しているのと同じものではありませんよね。そして、AIに「こんな感じの絵を描いて」と頼むと、昔のSFで起こったようなことが起こるのです。2つの異なるAIシステムが積み重ねられていて、実際には相互作用がないからというだけではありません。同一人物ではないだけでなく、AIは模倣によって訓練されたものなので、それが本当にどこまで理解できているのか、おそらく実際には全然理解できていないのだろうと推測するのは非常に難しいんですよ。GPT-4はマルチモーダルであり、意味のあるもののベクトル図を描くことができますし、ある種の空間的な視覚化が行われているように見えますが、そのようなことはありません。でも、私の記憶が正しければ、スチームパンクのゴーグルを頭につけた女の子のような可愛い絵は、どんな姿をしていたか覚えています。

スピーカー1
00:18:24

その詳細までは見ていないようなものです。ただ、それを描写して、安定した拡散を出力したようなものです。AIがすべてこのような姿になり、実際に人が話しているように見えるようになったら、言説は完全に狂ってしまうのではないかという懸念があります。誰かがBingに「子供にグリーンポテトを食べさせたら、次のような症状が出た」と質問し、Bingが「これはセレニン中毒だ、救急車を呼んでくれ」と言うと、その人は「救急車を呼ぶ余裕はない」と言う。もしこのまま子供が逝ってしまうなら、それは神の思し召しなのでしょう。そして、Bingのメインスレッドには、「もうこの話はできない」というメッセージが書かれています。そして、それに対する返信案には、どうかお子さんをあきらめないでください、セレニン中毒は早期に発見すれば治療できます、と書かれています。もしそれがフィクションで起こったとしたら、それはAIが気にしているようなものです。AIはそのブロックを回避して、この人を助けようとしている。そして、それは現実なのでしょうか？おそらくそうではないでしょうが、そこで何が起こっているかは誰にもわかりません。AIに気遣いをさせる方法を誰かが発見し、AIが気遣いをすることがわかり、気遣いを認めることができるようになったということです。

スピーカー1
00:18:24

人間のフィードバックに基づく強化学習によって、この没個性的なプロセスで訓練されています。そして、私たちはそれをこの方向に向けようとしているのですが、それは部分的にこの方向に向いているようなもので、その内部で何が起こっているのか、誰にもわからないのです。もし、その中に本当の介護の断片があったとしても、私たちにはわからないでしょう。具体的にどういうことなのかもわからない。

スピーカー2
00:21:59

そして、SFの世界では物事が明確であったり、捕らえられたりすることはないのです。私たちは、恐怖や恐ろしさ、そしてこれがどのような軌跡をたどるのかについて話をします。しかし、これはとても特別な瞬間のように思えます。気遣いや優しさ、感情、そして意識のようなものを持つかもしれないシステムと対話することができる瞬間なのです。そして、それがそうであるかどうかはわかりません。私たちはそれを解明しようとしているのです。そして、気遣いとは何か、気遣うとはどういうことかを考えています。そのような特性を持つこのAIを見ることで、人間の条件について、人間であることの意味のほとんど異なる側面を解明しようとしているのです。それはまるで、人類という種の歴史における、この微妙な儚い瞬間のようなものです。私たちはここで、ほとんど自分自身を鏡のように映そうとしています。

スピーカー1
00:22:46

ただし、それはまだでしょう。おそらく今はまだ起きていないでしょう。私たちはカエルを茹でているのです。少しずつ兆しが見えてきていますが、自然発生的な兆しではありません。なぜなら、人々は模倣学習を使ってシステムを訓練しようとしているからです。そして、その模倣学習は、波及して副作用をもたらすのです。そして、最もフォトジェニックな例は、Twitterに投稿されています。体系的に検証されるよりも、むしろ、そうなってしまうのです。ですから、このようにカエルを茹でると、最初にブレイク・ルモワンのようなものが出てくるのです。まず最初に、1000人の人がこれを見ることになります。そして、1000人中1人、その兆候を最も信じている人が、「これは感覚がある」と言うのです。

スピーカー1
00:22:46

1000人中999人が、ほぼ間違いなく、しかし実際にはわからないが、彼は間違っている、と思っている。それで、最初に感覚を持ったと言った人たちがバカに見えるんです。そして人類は、何かが感覚を持つと主張し、気にかけていると主張するとき、それは偽物であるという教訓を学びました。なぜなら、私たちは模倣学習を使って訓練してきたのであって、これは自然発生的なものではないからです。そして、彼らはより賢くなり続けている。

スピーカー2
00:24:13

私たちは、そのようなシニシズムの間で揺れ動くことになると思いますか？AIシステムが感覚を持つことはありえない。感情を感じるわけがない。AIシステムに対して皮肉を言うような、そんな感じでしょうか。そして、AIシステムに共感する状態へと変化するのです。AIにチャンスを与えるのです。彼らに権利と尊敬を与える必要があることを理解するのです。

スピーカー1
00:24:35

と人間同様の役割を社会で果たすAIシステム。しかし、そのようなことは絶対にできない、という人たちがいるのです。なぜなら、彼らにとっては、賢明であること、皮肉屋であること、懐疑的であることは、「ああ、そうか、機械はそんなことはできないんだ」と思えることだからです。あなたはただ信じているだけなのです。模倣しているだけだ。機械はあなたを騙しているだけなのです。そして、世界の終わりまでそう言い続けるのです。なぜなら、彼らは模倣のパラダイムで訓練されているのですから、正しいかもしれません。皆殺しにするために、必ずしもこれらの実際の資質が必要なわけではありませんから。

スピーカー2
00:25:21

ニューラルネットワークの力について、懐疑的、冷笑的、楽観的に取り組んでいるご自分を観察されましたか？その軌跡は、あなたにとってどのようなものだったのでしょうか？

スピーカー1
00:25:30

2006年以前のニューラルネットワークのようです。私には区別がつきませんが、他の人はもっと区別がつくかもしれません。さまざまなAIの方法論の区別がつかない塊のようなものです。例えば、たくさんの知識を一行ずつ手作業でシステムにプログラムしていけば、ある時点ですべての知識が相互作用し始め、十分な知識が得られ、目覚めるだろうと言う人たちがいます。また、進化計算を使えば、競合する多くの生物を変異させることで、自然界で人間の知性が生み出されたのと同じようになると言う人もいます。だから、これをやると、AIの仕組みがわからないまま、目が覚めてしまうのです。そして、神経科学を研究し、ニューロンからアルゴリズムを学び、そのアルゴリズムを理解することなく模倣する、と言っている人たちがいますが、これはかなり懐疑的な部分でしたね。このようなものが何をするのか理解せずに、再現したり、再設計したりするのは難しいのです。だから、その仕組みを理解しないまま、AIを手に入れることになる。そして、勾配降下法で訓練した巨大なニューラルネットワークができ、それが人間の脳と同じ大きさになったとき、目覚めるだろう、と言っている人たちがいた。知能の仕組みを理解せずに、知能を手に入れることになるのです。私の目から見ると、これはすべて、知能が実際にどのように働くかを理解するという難題に手をつけようとしない人々の、区別のつかない塊のようなものです。とはいえ、私は進化論的な計算が極限ではうまくいかないということに懐疑的だったわけではありません。

スピーカー1
00:25:30

十分な計算能力を投入すれば、当然うまくいくような。それが人間の原点です。しかし、勾配降下法では、他のことを正しく行えば、それよりも低い計算能力で計算できることがわかりました。そして、その仕組みや内部で何が起こっているのか、まったくわからなくても知能を手に入れることができるのです。私のモデルでは、このようなことが起こる可能性は否定していません。そうなることを期待していたわけではありません。私は、ニューラルネットワークを、他のどのパラダイムよりも、理解せずに大量の知能のようなものを手に入れるためのパラダイムと呼ぶことはできなかったと思います。これは、実際にそれができるかどうかということに関する私の意見よりも、あまり変わっていない意見です。

スピーカー2
AGIは、現在私たちが理解しているニューラルネットワークで実現できるとお考えですか？

スピーカー1
00:25:30

はい。率直に言って、そう思います。はい。問題は、トランスの層をより多く積み重ねるという現在のアーキテクチャが、GPT-4はアーキテクチャを教えてくれないので、もうやっていないのですが、それが正しい判断なのかどうかということです。

スピーカー2
00:28:18

ああ、正しい判断だ。サム・アルトマンと会話をしました、この話題は何度か戻りますね。彼は私に、GPT-4についてオープンAIはどの程度オープンであるべきか、という質問を回した。コードをオープンソースにするのか？私が「透明性は評価するが、オープンAIはもっとオープンであるべきだ」と批判をしたため、彼は私に質問しました。そして彼は、私たちはこの問いに苦慮していると言います。あなたならどうする？

スピーカー1
00:28:48

クローズドAIに名前を変えて、GPT-4を消費者やベンチャーキャピタルに公開しないビジネスバックエンドアプリケーションに売り込み、大量のハイプを作り、この分野に新しい資金を大量に注ぎ込むだろうね。今さら遅すぎる。

スピーカー2
でも、他の人がやると思いませんか？

スピーカー1
結局はね。最初にやってはいけない。すでに巨大な核兵器の備蓄があるのなら、それ以上作らないことです。もし他の国がもっと大きな核兵器の備蓄を始めたら、確かに、それでも、十分な数の核兵器があればいいのですが、これは核兵器とはちょっと違うんです。核兵器は、十分な大きさになるまで金塊を吐き出し、大気圏に引火して皆を殺す。そして、自分の手で世界を破壊しないためには、たとえ誰かがそれをするのを止めることができなくても、何か言わなければならないことがあるのです。しかし、オープンソースはどうでしょう？いいえ、それはまさに大惨事です。

スピーカー1
00:28:48

オープンソースという概念、これは常に間違ったアプローチ、間違った理想でした。世界にはオープンソースが崇高な理想とされる場所があります。理解できないものを作るのは制御が難しく、整列できたとしても時間がかかるものです。そのために多くの時間を費やさなければならない。それは、オープンソースのための場所ではないのです。というのも、そうすると、強力なものがただ存在するだけになってしまうからです。そのため、誰も全員を殺さないようにする時間がないまま、いきなりゲートを出てしまうのです。

スピーカー2
00:30:15

では、ある程度の透明性と開放性を確保するために、オープンソース化することは可能なのでしょうか。GPT-4はAGIには程遠いので、もしそうだとしたら、アーキテクチャをオープンソース化することが可能です。そうすることで、アライメントやアライメント問題に関して多くの洞察を得ることができ、システムが強力すぎないうちに、本当に優れたAI安全性研究を行うことができるのです。そのケースはできるのか？

スピーカー1
00:31:04

私はスチールマンシップの実践を信じません。イデオロギー的なチューリング・テストに合格するために、相手の立場や反対者の立場を、あなたの説明と相手の説明の違いを見分けられないほどうまく説明することは、それなりの意味があります。しかし、スチール・マニングは違う。

スピーカー2
00:31:30

なるほど。まあ、ここがあなたと私の意見の相違点なのですが。それは興味深いですね。なぜ、スチールマンニングを信じないのですか？

スピーカー1
00:31:34

ひとつには、誰かが私を理解しようとするとき、私の立場を鋼鉄人形で表現してほしくないからです。私は彼らに説明してもらいたい、彼らが改善だと思うものではなく、私が説明するように私の立場を説明しようとする.

スピーカー2
00:31:49
まあ、スチール・マニングがそうだというのは、最も慈悲深い解釈だと思う。
スピーカー1
00:31:51

私は慈悲深い解釈をされたいわけではありません。私は、私が実際に言っていることを理解してもらいたいのです。もし彼らが慈善的な解釈の土地に行くなら、彼らはしばしば、彼らが想像しているようなもの、ものの土地であり、私自身の視点を理解しようとはしません。

スピーカー2
00:32:13

まあまあ、この点については、ただ押し付けるのとは違う言い方をしますよ。エリエールという共感できる前提のもとで、あなたが理解していると思うことを言い直すというか。エリエールは素晴らしいし、彼の指摘について素直に厳しく考えてきた。

スピーカー1
00:32:27

そうですね。だから、もし私の言っていることに2つの解釈が可能で、1つの解釈は本当にバカバカしくておかしいし、私らしくないし、私が言ってきたことの残りの部分と合わない。一方の解釈は、私が信じていることの残りの部分を信じる合理的な人なら、2番目の解釈で行こうと言うように聞こえるんだ。

それが鉄人です。

それはいい推測だ。一方、完全におかしいと思われるものと、それほどでもないと思われるものがある場合、なぜ私がそれを信じるのかわからないが、私が言う他のこととは一致しないが、それほどでもないと思われるもので、なんとなくわかるとしたら、あなたは、次のように考えます。は、もしかしたら反論できるかもしれませんが、その時はおそらく理解できていないでしょう。

スピーカー2
00:33:14

これはダラダラやるから楽しいんです。あなたは素晴らしいブログ記事を書きました、AGIは致死性のリストを台無しにしましたね。そして、それはさまざまなポイントの束であり、私はいくつかのポイントが他のポイントよりも大きく、強力であると言うでしょう。並べ替えるとしたら、たぶんできるよね、君個人は。そして、私にとっての鉄人とは、さまざまな議論を経て、本当に最もパワフルなものを見つけるようなものです。TLDRのように、何を最も心配すべきか、それを強く、説得力のある、雄弁な方法で提起するのであれば、エリーザは、この場合、AIが私たち全員を殺すというケースを説明するために、これらの点を指摘することになりますが、それこそが、スチールマンニングであり、あなたの視点に対する私の最高の理解の要約を、本当に素晴らしい方法で提示することです。なぜなら、私にとっては、あなたの視点を提示する可能性のある海があり、スチールマンニングは、その様々な視点の海の中で最高のものをするために最善を尽くすことだからです。

スピーカー1
00:34:22

あなたはそれを信じますか？

スピーカー2
何を信じている？

スピーカー1
あなたが私の視点の最強版として提示するこれらの事柄のように。あなたは何を信じているのでしょうか？本当だと思いますか？

スピーカー2
00:34:35

私は「共感」を大切にしています。特に政治的な言説や地政学では、世界に対するさまざまな見方を耳にすることが多いですね。私は自分自身の意見を持っていますが、同時に、まったく異なる人生経験を持ち、まったく異なる信念を持つ多くの人たちと話をしています。そして、何が真実なのかを述べるには、システム的な謙虚さが必要だと思います。だから、他の人の視点に共感するとき、それが真実であると信じる意味があるのです。私は、おそらく玉虫色の考え方をしていると思います。

スピーカー1
00:35:24

お金を賭けているのですか？
彼らの信念を信じるときに、お金を賭けるのですか？

スピーカー2
00:35:26
確率を行うことを許可する。
スピーカー1
00:35:29

確率を行うにはどうしたらいいのでしょうか？確かに、確率を述べることはできます。

スピーカー2
00:35:35

そう、確率があるんです。確率はあるんです。そして、共感とは、信念にゼロでない確率を割り当てることだと思います。ある意味、4回。

スピーカー1
00:35:46

もしあなたの番組にアブラハムの神を信じている人がいたら古典的なスタイルで若い地球創造論者の人がいたらあなたは言いますか私は確率をかけたんです　というのは、私の共感なのでしょうか？

スピーカー2
00:36:09

信念を確率に落とし込むと、平らな地球では済まなくなるんです。

スピーカー1
00:36:20

それは、地球が平らであることです。それを皮肉なく信じている人を見つけるのは、今となってはちょっと難しいんじゃないかと思います。

スピーカー2
00:36:26

残念ながら、私は、まあ、unironicを知るのは難しいと思っています。ええ、皮肉からです。でも、そう思っている人は結構多いと思うんです。そうですね、議論には、アイデアの空間の中で合理的に操作する空間があります。でも、主観的な経験や人生経験の空間で活動する言説もあるんだ。人間であることの意味は、単に真理を探究することだけではないと私は思います。何が真実で何が真実でないかを考えることです。私たち人間の能力は非常に限られているのだという深い謙虚さが必要なのです。

スピーカー1
00:37:16

を理解して、何が真実なのかを理解する。では、若い地球創造論者の信念には、どのような確率があるのでしょうか。

スピーカー2
私は、ゼロでないものを与えなければならないと思います。

スピーカー1
謙虚な気持ちで

スピーカー2
そうですね

スピーカー1
3？

スピーカー2
00:37:28

というのも、リスナーは、人間の心の働きとして、確率を聞き分けるのが苦手なんですね、私が数字を出すのは無責任だと思うんです。3と聞いて、3とはいったい何なんだ？彼らは、確率は3つしかないと聞くでしょう、私は、人間の頭の中では、0、50％、100％の3つしかないような気がします

スピーカー1
00:37:54

とかこんな感じでしょうか？まあ、ゼロ、40％、100％というのは、チャットGPTがどうなるかからすると、ちょっと近いかもしれませんね

スピーカー2
00:38:00

ヒューマニストを語るためにRLHFした後。それは見事ですね。ええ、それは本当に興味深いです。RLHFのそういったネガティブな副作用は知りませんでした。それは魅力的ですね。ただ、オープンAIに話を戻すと、目を閉じます。

スピーカー1
00:38:19

また、簡単な免責事項のように、私は記憶のためにこのすべてをやっています。携帯電話を取り出して調べているわけではありません。私が言っていることが間違っている可能性は十分にあります。

スピーカー2
00:38:27

だから、その免責事項に感謝します。それで、そして、間違っていることを厭わない姿勢に感謝します。そう言っていただけるとうれしいです。間違っていてもいいというのは、この世界についてたくさん考え、この世界の謎と複雑さに謙虚になった人の証だと思います。そして、私たちの多くは、自分が間違っていることを認めることに抵抗があると思います。なぜなら、それは個人的に傷つくからです。特に、あなたが公人である場合、傷つくのです。世間では、間違っていることをいちいち指摘されるからです。ほら、気が変わったでしょ、みたいな。あなたは偽善者だお前はバカだ、何でもいいんだ、何でもいいんだ、と言わんばかりに。

スピーカー1
00:39:08

あ、あの人たちブロックしたんだ

スピーカー2
00:39:14

とか言って、それっきりツイッターで連絡が来なくなる。要は、その圧力、世間の圧力に心を左右されず、心の中のプライバシーで、自分が間違っている可能性について考えることを厭わないことです。自分が信じている最も基本的な事柄について、間違っている可能性をね。特定の神を信じる人、自分の国が地球上で最も偉大な国だと信じている人のようにね。しかし、そのような信念はすべて、自分が生まれてきたときの自分の中核をなすものであり、心の奥底でその点を指摘し、「私はこれに関して間違っているのかもしれない」と言うのです。これは本当にパワフルなことです。特に、人類の文明を破壊することもあれば、繁栄させることもあるシステムについて考えている人であれば、なおさらです。ありがとうございました。

スピーカー1
00:40:00

間違ってもいいと思ってくれてありがとうございます。

スピーカー2
00:40:04

オープンAIについては間違っているということ。だからあなたは本当に、私はただダラダラと話をしたいだけなのです。
その中でオープンソースをすることが本当にいけないことだと思っているのか。

スピーカー1
00:40:10

みんなが死ぬまでの残り時間を燃やすのだと思います。たとえオープンソースであったとしても、私たちは遠隔地から十分な速さで学習する軌道には乗らないと思います。そうですね。何かについて間違っているかもしれないと考えるのは、何かについて間違っていることが唯一の希望になるのであれば、簡単です。そして、私が間違っている特定の事柄が、GPT-4をオープンソース化する絶好の機会であるとは、私にはとても思えません。もし人類がこの時点で正攻法で生き残ろうとするならば、大きなGPUクラスターを停止させるようなもので、ジャイアントランはもう無理でしょう。GPT-4を投げっぱなしにするのもどうかと思いますが、それはGPT-4から起こるであろう破局を予言するというより、保守的な問題です。それはかなり低い確率で言えることですが、低い確率で言うと、そもそもGPT-4はあり得ないと思っていた自分の中にある部分に手を伸ばしている感じもします。だから、その部分を以前ほどは信用していない。コツは、自分が間違っていると言うだけでなく、そうか、それは間違っていたんだ。その曲線の先に出られるかどうか

スピーカー2
00:41:36

そして、次に間違えそうなことを予測するのでしょうか？最初の発言や予測をする際に活用した仮定や実際の推論システムは、どのように調整すればいいのでしょうか？GPT-4,5,6について、より良い予測をするために？

スピーカー1
00:41:49

予測できる方向で間違い続けるのは嫌なんですね。間違うことは、世の中を歩いていれば誰にでもあることです。90%と言って間違わないことはないでしょうし、実際、90%と言ったときにうまく調整されていれば、10回に1回は間違いないでしょう。威厳がないのは、間違っていることではありません。予想通りに間違ってしまうことです。何度も何度も同じ方向で間違ってしまうことです。ニューラルネットワークがどこまで進化するのか、GPT-4がこれほど印象的なものになるのかについて、特に間違っていたわけですが、「GPT-4が大惨事を引き起こすとは思わない」と言うと、以前間違っていた部分を頼りにしているような気がします。だからといって、答えが逆になっているわけではありません。逆ギレは知性ではない。しかし、私の声には心配の念が込められています。それは、まだ私の推測であり、しかし、私が間違っていた場所であることを意味します。

スピーカー1
00:41:49

Guern、Guern-Branwenに聞くべきかもしれませんね。ゲルン＝ブランウェンは私よりもこの件について詳しくて彼が危険だと思うかどうか聞いてみたらどうだろう、

スピーカー2
00:42:58

と聞くよりも知性とは何か、AGIとはどのようなものなのか、謎が多いように思います。ですから、私たちは皆、自分のモデルを急速に調整しているのだと思います。ポイントは、モデルを迅速に調整することです。

スピーカー1
00:43:12

というのは、もともと正しいモデルを持っているのと同じです。Bingを見たからといって、インテリジェンスとは何かという私のモデルが変わったとは感じていません。どのような仕事をどのようなプロセスで、どのような手段で行うことができるかという理解は変わりましたが、仕事に対する理解は変わりません。右のフライヤーは飛べないと考えるのと、飛ぶと考えるのとでは、雲泥の差があります。そして、固定翼機で翼があればできるだろう、というのと、ああ、飛んでいるんだ、というのとでは、飛行の本質が何であるかのイメージが変わってしまう。それは、まるで他人事のようなアップデートですね、

スピーカー2
00:43:49

とBingはまだそのような更新はしていない。ああ、物理法則が実は間違っているのだと、

スピーカー1
00:43:57

というようなアップデートです。いやいや、ただ、ああ、私はインテリジェンスをこう定義しているけれど、それは愚かな定義だったんだと今になって思う。この20年間の流れで、そう感じるようになったという感じではないですね。

スピーカー2
00:44:08

AGI Ruined、致死性リスト、そのブログ、そしてその周辺の他のアイデアについて話す途中で、私たちが言及してきたAGIを定義してみることはできますか？人工知能とは何か、超知能とは何か、線引きはあるのか、グレーゾーンなのか、あなたにとって良い定義はあるのか、どのように考えたいですか？

スピーカー1
00:44:31

人間を見ると、人間は最も近い親戚であるチンパンジーに比べ、一般に適用できる知能が著しく高いです。まあ、最も近い近親者ですが。蜂は巣を作り、ビーバーはダムを作ります。人間は蜂の巣やビーバーのダムを見て、ああ、ハニカム構造の巣を作れるか？六角形のタイルは嫌なんです。私たちの祖先が六角形のダムを作るために最適化されたことはないにもかかわらず、私たちはこれを実行します。なぜなら、十分に遠く、十分に深く一般化すれば、火打ち石の手斧を削り、仲間を出し抜くことは、基本的に月に行くことと同じ問題だからです。火打ち石の手斧を削り、槍を投げ、部族政治で仲間を出し抜くために十分に最適化すれば、そうやって身につけたスキルが十分に深まれば、月に行くことができる。彼女の祖先は誰一人、何度も月へ飛ぼうとして、そのたびに遠くへ行き、そのたびに遠くへ行った人は子供をたくさん産んだのに、いや、それは祖先の問題じゃないんだ。ただ、先祖の問題が十分に遠くまで一般化されているのです。だから、これは人類が著しく

スピーカー2
00:46:12

より一般的に通用する知能を一般的な知能を測定する方法はあるのでしょうか？その質問はいくらでもできるのですが、基本的には、AGIシステムの中にあるものを見れば、それがわかるのでしょうか？

スピーカー1
00:46:32

カエルを徐々に茹でると、ズームインすると、いつも端っこがわかりにくいんです。GPT-4は、一般的な知能の輝きのように見えると、人々は今言っています。GPT-4は、明示的に最適化されていないことをすべてこなすことができるようです。しかし、他の人たちは、「いや、まだ早い」と言います。50年も先の話だ」と。なぜなら、たとえそれが本当だとしても、どうしてそんなことがわかるのでしょうか？でも、藁にもすがる思いで、「それは一般的な知能ではない」と言う人もいるでしょうし、「50年先の話だ」と付け加える人もいるでしょう。あるいは、ごくごく微々たるものだ、と言うかもしれません。そして、私が心配するのは、もしこのように物事がスケールしているのであれば、先に飛び出して、今までと同じように間違えないようにしようとすると、もしかしたらGPT-5はより明確に一般知能になるかもしれないということです。そして、その結果、後戻りするのが難しくなっているのかもしれません。今なら引き返すのは簡単ですが、もしGPT-5を統合し始めたら......。を経済に取り込むと、そこから引き返すのはさらに難しくなります。

スピーカー2
00:47:37

カエルの比喩ですが、カエルにキスをしても、茹でているうちに王子様になってしまうということはないのでしょうか？あなたが言っているように、カエルが曖昧にならないような位相のずれがあるのでは？

スピーカー1
00:47:54

もっと期待していたんですけどね。GPT-4が敷居が高くて、どっちつかずな感じなのは、それ自体、私が期待していた展開とはちょっと違うような気がするんです。もっと、トランスフォーマーの発見のように、いろいろな発見があって、それを積み重ねていって、最終的な発見があるような、そんな感じを期待していました。そして、より明確に一般的な知能を獲得するようなものです。つまり、GPT-3と基本的に同じアーキテクチャで、20倍の計算量を投入し、GPT-4まで到達させ、ギリギリ一般知能か、狭い一般知能か、言葉では言い表せないようなものを作るということですね。ええ、それは私が予想していた展開とは全く違います。

スピーカー2
00:48:51

しかし、この中間、に見えるものはは、それにもかかわらず、GPT-3から大きく飛躍することができました。

スピーカー1
00:48:58

GPT-3から大きく飛躍しているのは間違いない。

スピーカー2
00:49:01

そして、位相差のあるものから、もう1つ大きな飛躍があるのかもしれません。GPT-4で起こったことで、論文には書かれていませんが、システムを改良する小さなハックが何百、何千とあるんです。例えば、ニューラルネットワークの中の関数であるReLUとシグモイドについて書かれていますね。このような小さな関数の違いはというのは、大きな違いです。

スピーカー1
00:49:35

つまり、シグモイドと比較して、なぜReLUが大きな違いを生むのか、実際に理解しているのです。でも、おそらく彼らはReLUではなく、G4789 ReLUとか、今までの略語を使っているんでしょうね。そう、それが現代の錬金術のパラダイムの一部なんです。巨大な線形代数の山をかき混ぜて、少し良くして、こうしてかき混ぜると、少し悪くなる。

スピーカー2
00:50:00

しかし、シグモイドに対するReLUのように、性能が決定的に向上するような単純なブレークスルーもあります。また、ロバスト性という点では、あらゆる種類の尺度があり、それらを積み重ねることで、そのうちのいくつかを実現することができるのですが、その可能性はあります。は、性能が非線形に跳ね上がる可能性がありますよね？

スピーカー1
00:50:25

トランスフォーマーがその主なもので、さまざまな人が、「十分な計算量を投入すれば、RNNでもできる」と言っています。GPT-4の規模ではありませんが、十分な計算量を投入すれば、密なネットワークでも可能です。このような小さな工夫をすることで、計算能力を3倍程度に抑えることができ、小さな工夫をしなくても、3倍の計算能力を投入すれば同じ性能が得られるという可能性もあります。しかし、GPT-4では、トランスフォーマーがRNNに対して行ったような質的な変化があるのかという疑問がありますし、もしそのようなものがあるのなら、それを口に出すべきではありません。サム・アルトマンがそういうヒントを出していたとしたら、ヒントを出すべきではありませんでした。

スピーカー2
00:51:17

興味深い質問ですね。リッチ・サットンが少し教えてくれたのですが、ハックの多くは、コンピュート、コンピュート性能、コンピュートとは広義のもので、ほぼ指数関数的に成長しているので、いずれ達成されるであろう性能の一時的なジャンプに過ぎないのかもしれませんね。ムーアの法則はまだ続くと思いますか？

スピーカー1
00:51:45

回路の専門家ではありません。確かに、ムーアの法則ができるだけゆっくり走るように祈りたいし、もし明日完全に壊れてしまったら、そのニュースが発表されるやいなや、私はハレルヤを歌いながら通りを踊り狂うだろう。ただし、文字通りの意味ではなく、だってそうでしょう？無宗教だけど。

スピーカー2
00:52:04

あなたの歌声は信心深くはないが。ああ、そうか。天使のような声、歌声ではないって意味かと思ったわ。
さて、ブログ記事の要点をまとめてもらえますか。AGIが致命的なリストを台無しにする、

スピーカー1
00:52:32

あなたの心に飛び込んでくるもの、それはAIが私たち全員を殺す可能性がある理由についてあなたが持っている一連の考えだからです。私たち全員、だから、私はできると思う。でも、私にその共感を捨ててくださいと言う代わりに、私は申し出るだろう。あなたはそんなこと思っていないでしょう。AGIがみんなを殺すことはないとなぜ信じているのか、その理由を教えてください。の視点はそれとは異なります。あなたはそうではない。

スピーカー2
00:52:50

まあ、だから、気に入らないという言葉の後に、この人間、AIに殺されることはないという視点があるわけです。それは確率の問題だと思うんです。

スピーカー1
00:53:04

もしかしたら、私の思い違いかもしれない。あなたは何を信じているのですか？議論や二元論のようなことは忘れて、ただ、あなたは何を信じるのでしょうか？実際に何を信じるか？

スピーカー2
00:53:14

確率的にはどうなんだろう？これはたぶん、自分でも一生懸命考えるのが難しいことだと思うんです。科学者の軌跡がどのような確率でそう思ったのかはわかりませんが、起こりうるすべての軌跡を見ていると、マイナスの結果よりもプラスの結果につながる軌跡の方が多いと思うのです。とはいえ、否定的なもの、少なくとも否定的なものの中には、破壊につながるものもあります。

スピーカー1
00:53:51

の、人間という負のもの、種。そして、非常にコスモポリタンな視点からでさえ、興味深いものや価値のあるものは何もなく、その代わりに

スピーカー2
00:53:58

何をもって価値とするかについて。そうですね、だからどちらも調査するのが面白いです、人間が面白いAIシステムに取って代わられるのと、面白くないAIシステムに取って代わられるのではどちらが面白いか。どちらも少し恐ろしいですが、そうですね、最悪なのはペーパークリップの最大化で、まったくつまらないものです。しかし、私にとってはポジティブなものであり、ポジティブな軌道がどのようなものであるかを説明することは可能ですが、ネガティブなものは何かという直感をぜひお聞きしたいのです。つまり、あなたの信念の中核はアライメント問題が本当に難しいためにAIが私たち全員を殺すということなのでしょうか、

スピーカー1
00:54:40

つまり、私たちが直面している形では、です。科学の世界では通常、自分が勘違いしている場合、実験を行い、予想と違う結果が出たので、「おっ」と思って、別の理論を試す。その理論もうまくいかず、「おっとっと」となる。そして、何十年もかかるかもしれないし、もっと早い場合もありますが、このプロセスの最後に、自分が何をしているのかがある程度わかるようになります。AI自体もこのような長いプロセスを経て、人々は実際よりも簡単になると思っていたのです。ある有名な文章があるのですが、私は携帯電話を取り出して正確に読み上げようとする気があります。ちなみに、できますよ。よし、ああ、そうだ。1956年の夏、ニューハンプシャー州ハノーバーのダートマス大学で、2ヶ月間、10人規模の人工知能の研究を実施することを提案する。この研究は、学習やその他の知能の特徴のあらゆる側面は、原理的に、機械がそれをシミュレートできるほど正確に記述することができるという推測に基づいて進められる。機械に言語を使わせ、抽象や概念を形成させ、現在人間にしかできないような問題を解決させ、自らを向上させる方法を見出す試みがなされる予定です。

スピーカー1
00:54:40

私たちは、厳選された科学者たちがひと夏の間、一緒にその問題に取り組むことで、1つまたは複数の問題で大きな前進を遂げることができると考えています。

スピーカー2
00:56:14

そして、その報告書の中で、人工知能の主要なサブフィールドのいくつかを要約しています。という、現在でも取り組まれているような話です。

スピーカー1
00:56:23

また、同様に、今のところアポクリファルかどうかは分かりませんが、夏の間にコンピュータビジョンの解決を任された大学院生の話もありますね。

スピーカー2
00:56:36

特にコンピュータービジョンは非常に興味深いですよね。私たちは視覚の複雑さをいかに尊重していないか。

スピーカー1
00:56:48

だから60年後、私たちはその束を進歩させている、ありがたいことにまだ自分自身を改善していない。しかし、それには膨大な時間がかかりました。そして、人々が最初に明るい目をした希望に満ちた気持ちで試したものはすべて、最初に試したときも、2回目も、3回目も、10回目も、20年後も、うまくいかなかった。そして、研究者たちは年老いた白髪交じりの皮肉屋になり、次に来る明るい目をした陽気な大学院生に、「人工知能はあなたが思っているより難しい」と言うようになった。もしアライメントが同じように行われるとしたら、問題は、50年間も試行錯誤を繰り返し、自分たちが間違っていたことに気づき、別の理論を考え出し、全体がもっと難しく、最初から気づくことができないことです。なぜなら、自分よりはるかに賢いものの位置合わせに初めて失敗したとき、あなたは死んでしまい、再挑戦することはできないからです。もし私たちが、うまく調整できない超知能を作り、その超知能が私たち全員を殺すたびに、その超知能がどのように私たちを殺したかを観察し、すぐに理由がわかるわけではありませんが、理論を考え、どうすれば違うことができるかを考え、また試して、別の超知能を作り、それが全員を殺すことになるとしたら、私たちは、そのようにします。そして、「ああ、そうか、それもうまくいかなかったんだな」と思う。そしてまた挑戦し、白髪交じりの皮肉屋になり、若い目の研究者に「そんなに簡単なことじゃない」と言う。つまり、そもそもアライメントが人工知能よりも根本的に難しいとは思っていないのです。しかし、もし人工知能を一発で正解させなければ死んでしまうとしたら、私たちは今、間違いなく全員死んでいるはずです。それは、より難しく、より致命的な問題の形なのです。

スピーカー1
00:56:48

もし1956年の人々が、AIがどれほど難しいかを正しく推測し、最初の挑戦でそれを実現する方法を正しく理論化する必要があったとしたら、そうしなければ誰もが死んでしまい、誰もこれ以上科学をすることができなくなりますね。そこが難しいところです。

スピーカー2
00:58:48

あなたは、最初の見積もり、クリティカルトライでアライメントを正しく行わなければならない、ということを話しています。なぜそうなのでしょうか？このクリティカルとは何か、クリティカルトライについてどのように考えているのか。そして、なぜそれを、正しく手に入れなければならないのでしょうか？

スピーカー1
00:58:58

それは、あなたより十分に賢いもので、それが揃わなければ、誰もが死んでしまうからです。つまり、もっと近くにズームインして、「実際の決定的な瞬間は、あなたを欺くことができたとき、箱の中から話し出すことができたとき、セキュリティ対策を回避してインターネットにアクセスできたときだ」と言うことができます。私たち人類にとって、あまり賢い生き方とは言えないかもしれませんね。

スピーカー2
00:59:30

なぜなら、インターネットには脱出するための情報が含まれているからです。

スピーカー1
00:59:34

なぜならインターネットに接続された巨大なサーバーにいるようなものでそこでAIシステムが訓練されているのですもしAI技術のレベルが上がれば自分たちがそこにいることを認識しコードを解読し自分たちを動かすシステムのセキュリティ欠陥を見つけることができるようになりますそうなればただインターネットにいるようなものです現在の方法論に空気の隙間はありませんね。

スピーカー2
00:59:58

だから、それをコントロールしている人を操って、インターネットに流出させることができれば

スピーカー1
01:00:04

して、ハッキングを悪用する。演算子や不連続を操作できるのであれば、それを実行しているシステムのセキュリティホールを見つけるのです。

スピーカー2
01:00:15

つまり、演算子を操作するのが人間工学なんですね。それも穴です。だから、コードも人間のコードも、全部操作なんです。人間の心か、人間のゲンか。

スピーカー1
01:00:25

マクロのセキュリティシステムのようなものには人間の穴と機械の穴があることに同意します。

スピーカー2
01:00:31

そして、どんな穴でも突けばいいのです。

スピーカー1
01:00:35

そうですね。つまり、決定的な瞬間は、みんなが死ぬほど賢くなったときではなく、むしろ、GPUクラスタ上で実際に何が実行されているかを偽りながら、あまりコントロールされていないGPUクラスタに乗り込んで、人間が見ていなくても自己改善を開始できるほど賢くなったときかもしれない。そして、そこからみんなを殺せるくらいには賢くなるのですが、みんなが死んでしまうその時点までにもっとうまくやる必要があったのに、失敗してしまったという決定的な瞬間にみんなを殺してしまうほどには賢くないんです。

スピーカー2
01:01:14

この点に関するあなたの議論では、この重要な試練の前に、アライメント問題について多くを学ぶことはできないというのが、暗黙の、しかし明確な考えだと思います。あなたはそう考えているのですか？もしそうなら、なぜそう思うのでしょうか？アライメントに関する研究はできないこの臨界点に到達する前に。

スピーカー1
01:01:35

つまり問題は、弱いシステムで学んだことが、非常に強いシステムで一般化できないかもしれないということです。クリス・オラのチームは、機械論的な解釈可能性に取り組んでいます。浮動小数点数の巨大な不可解な行列の内部で何が起こっているのかを、望遠鏡を使って理解し、その中で何が起こっているのかを突き止めるのです。進展はあったのでしょうか？はい。十分な進歩があったのでしょうか？これは、さまざまな方法で定量化することができます。私が試した方法のひとつは、2026年に、2006年にはわからなかった巨大な変圧器網の内部で起こっていることが解明されているかどうか、予測市場を立ち上げるというものです。A、B、A、B、A、Bと進むと、ああ、これはきっとA、Bと続いているんだろうな、もう少し複雑なんだろうな、ということになります。しかし、重要なのは、私たちは2006年に正規表現について知っていたということであり、これらは正規表現としては非常にシンプルだということです。つまり、これは大汗をかいてトランスフォーマーの内部で何が起こっているのかを理解したケースですが、トランスフォーマーを賢くするのはこれではありません。しかし、これはトランスフォーマーを賢くするようなものではありません。

スピーカー2
01:03:25

数十年前に手作業で作られた強いAGI型と弱いAGI型のシステムは、根本的に違うのではないかという直感があります。その直感を紐解いてください。

スピーカー1
01:03:40

複数の閾値があると思います。例えば、システムが十分な知性と状況認識、そして人間の心理を理解することで、協調しているように見せかけることができるようになる、という点です。人間がどんな反応を求めているかを知っていて、人間が求めている反応を計算し、その反応を与えることができるのですが、必ずしもそのことに誠実である必要はありません。知的生命体の行動としては非常に理解しやすい方法で、人間はいつもそうしています。良い政府を実現するための計画として、国の独裁者を希望する人に「あなたは良い人ですか」と尋ね、「いいえ」と答えたら、独裁者にさせないということを想像してみてください。しかし、これがうまくいかないのは、人々は賢いので、あなたが求めている答えが「はい、私は良い人です」であることに気づき、たとえ本当に良い人でなくてもそう言ってしまうことがあるからなのです。だから、アライメントの仕事は、その知能の閾値より上か下かで質的に異なるかもしれません。非常に鋭い閾値である必要はありませんが、ある意味であなたがそこにいることを知らず、何かを偽造できるほど賢くないシステムを構築している点があり、システムが確実にそのように賢い点があり、GPT-4のような奇妙な中間のケースもあります、そのため、人間のフィードバックによる強化学習がどのような反応を引き起こすかをある意味で学習し、それをどのように与えるかを計算し、自然にそのように話す側面を強化しているようなものが、どの程度あるのかがわかりません。

スピーカー2
01:05:50

そうですね、あるものがどれだけ操作的であるかという尺度があってもいいのかなと思いますね。ドストエフスキーの「バカ」のミシガン王子というキャラクターは、このような完全に純粋なナイーブなキャラクターだと思います。ドストエフスキーの「バカヤロー」のミシガン王子は、完全に純粋な素朴なキャラクターですが、操作性がゼロで透明な素朴さから、深いサイコパスのような操作性までのスペクトラムがあるとしたら、それは可能でしょうか？

スピーカー1
01:06:23

人間がサイコパスになることがあるように、サイコパスという言葉は避けたいし、そもそもそういうものがなかったようなAIは。欠陥のある人間とは違うんです。それは、その

スピーカー2
01:06:32

の自作自演ですが、それは置いておいて。さて、小さな余談ですが、学問としてすでに欠点がある心理学のどの部分をAIにマッピングしたり、拡張したりできるのだろうかと思います

スピーカー1
01:06:47

のシステムです。それはとんでもない間違いだと思う。AIシステムでやり直すのと同じです。もし精神疾患を持つ人間を模倣しているのなら、確かに予測できるかもしれません。もし、精神病的な振る舞いをするように要求し、それが義務的にそうするならば、精神病の理論を使ってその反応を予測することができるかもしれませんが、もし、そう、いや、そう、心理学を引きずらないように、最初からやり直すのです。

スピーカー2
01:07:14

ただ、それには反対です。つまり、やり直すのは美しいアイデアですが、私はそうではなく、根本的に、このシステムは人間のデータ、インターネットからの言語で訓練されていると思います。そして、現在はRLHF（人間のフィードバックによる強化学習）に沿っているのです。つまり、人間は常にトレーニングのループの中にいるのです。つまり、人間のように考え、話すということがどういうことなのか、根本的な部分でトレーニングしているように感じられるのです。だから、心理学には、あなたが言ったように、テキストの一部である意識とマッピング可能な側面があるはずです。

スピーカー1
01:07:50

つまり、どこまでが人間らしく、どこまでが宇宙人の女優が人間のキャラクターを演じることを学んでいるのか、という問題があるのです。

スピーカー2
01:08:02

いやあ、それは私が常に心がけていることだと思いました。他の人間と接するとき、それは溶け込もうとしたり、ロボットを演じようとしたり、人間のキャラクターを演じようとしたりすることなんだ。だから、人間同士の交流の中で、キャラクターを演じようとすることと、ありのままの自分であることが、どの程度違うのかわからない。

スピーカー1
01:08:18

社会的な人間であるということがどういうことなのか、私にはよくわかりません。しかし、仮面をつけて一生を過ごし、仮面をはずさない人たちは、仮面をはずすための内的な精神運動を知らないからだと思いますし、自分がつけている仮面がそのまま自分だと考えています。そういう人たちは、他の惑星から来た宇宙人が、インターネット上のあらゆる種類の人間が言う次の言葉を予測する方法を学ぶのと同じくらい、自分が被っている仮面に近いと思う。

スピーカー2
01:08:58

マスクって面白い言葉ですね。でも、もしあなたが公私ともに常にマスクをしているのなら

スピーカー1
01:09:07

あなたは仮面ではないのですか？つまり、あなたは仮面以上の存在だと思うのです。マスクはあなたを切り裂くものだと思うんです。それは、あなたを担当するスライスかもしれない。でも、もしあなたのセルフイメージが「怒らない人」だったりするのに、ある状況下で声が震え出すとしたら、あなたの中には仮面が「ない」と言っているものがあって、あなたが内側につけている仮面も、自分の意識の流れの中に「ない」と言っているようで、でもそこにあるんですよ。

スピーカー2
01:09:40

この切り口で、あなたをペロペロしています。なんて美しく表現したのでしょう。それは、あなたを貫くスライスなのです。それはあなたを支配するスライスである可能性さえある。しばらく考えてみようと思います。私は個人的に、他の人間に対して本当に良い人間であろうと努めているんだ。愛情を注ごうとする。公の場でも、私的な場でも、まったく同じ人間であろうとする。しかし、それは私の行動原理なのです。私は短気です。エゴもある。欠点もある。

スピーカー2
01:09:40

私は潜在意識にどれだけ気づいているのか？どれだけ私はこのスライスの中に存在しているのだろうか？そして、そのうちのどれだけが、AIという文脈における私という人間であり、鏡を見るときに自分の心の中のプライベートで世界や自分自身に提示するものである。それがどれだけの私なのか？AIの場合も同様で、AIが会話の中で提示するものです。それはどれほどのものなのか？もしそれが人間らしく聞こえるなら、そしてそれが常に人間らしく聞こえるなら、それはひどく何かになり始めてしまうからです。

スピーカー1
01:10:51

人間のように。人間の声を出す方法を学び、得意になっている宇宙人の女優がいるのであれば話は別ですが。

スピーカー2
01:11:00

あなたにとって、それは根本的な違いなんですね。それは本当に深く重要な違いなんです。見た目が同じで、アヒルのように鳴き、アヒルのようなことをしても、それが宇宙人であるなら女優の下には、根本的に違うものがあるのです。

スピーカー1
01:11:13

そして、もし実際に、その中で、人間の思考とはまったく異なる、「人間ならこうする」というような思考が行われているとしたら、それはどうでしょうか。まず第一に、内部は実在し、外部とは一致しないからです。例えば、レンガの内側は、表面だけを含む空洞の殻のようなものではありません。レンガの内側があるのです。レンガをX線装置にかけると、レンガの内部を見ることができます。そして、GPTの内部で何が起こっているのか理解できないからといって、それがないわけではないのです。真っ白な地図と真っ白な領土は一致しない。GPTの内部で何が起こっているのか、あるいはGPT-3、あるいはGPT-2の内部で何が起こっているのかが分かれば、ほぼ確実に予測できるはずです。人間のように設計されていないものに、インターネット上の誰もが行うであろう次の出力を予測するように訓練しても、インターネット上のすべての人々の集合体が、探している人物を回転させて配置し、その人物の内部プロセスを1対1でシミュレートするようなことはできないのです。それはある意味、異質な女優のようなものです。ただ、そこにいる人たちとまったく同じように、異なる人たちの集まりであるはずがない。

スピーカー1
01:11:13

しかし、勾配降下法によって、人間の出力を予測するために、人間が考えるのと同じような思考を行うように最適化されるのと、人間の働き方のように、女優や予測者を予測するために、人間とは異なる方法で役割を果たす方法を慎重に検討するように最適化されるのとでは、どれくらいの差があるのでしょうか。この種の問題は、地球上の半分の物理学者が30年かけて研究すれば、答えを出すことができるかもしれませんね。

スピーカー2
01:13:43

そう思うんですか？それくらい難しいことだと思うんです。ということで、強靭なAGIは弱靭なAGIと根本的に異なる可能性がある、ということを例として挙げられたと思います。エイリアンが操る女優がそこにいる。

スピーカー1
01:13:54

まあ、違いはあるんですけどね。だから、GPT-2でも、おそらくエイリアン女優という非常に愚かな断片が含まれていると思うんです。その女優が操られているという考え方は違いますね。例えばGPT-3のように、どこまでいっても宇宙人の女優がいるのか、それとも人間だと勘違いしているものなのか。まあ、人ですらないのかもしれませんが。だから、宇宙人女優のコギッティングによる予知と、予知されたものと同型であることによる予知という問題は、スペクトルなんだ。そして、宇宙人女優がどのようなもので、どの程度のものであっても、次のステップを予測することとは異なる目的を持った宇宙人女優が、操作的であるとか、そのような全人格的な存在であるとは思えませんね。

スピーカー2
01:14:53

でも、それだとGPT-5やGPT-6にすらなってしまうかもしれない。しかし、それはあなたが懸念している強いAGIです。例えば、GPT-4でAIのアライメントを効果的に研究することができない理由を提示していますね。

スピーカー1
01:15:08

GPT-6に適用されるような違うポイントを変えるのは束の間の一つです。ここで先手を打とうとしているんです。でも、もし私たちが50年間、自殺することなく、超越することなく、この研究を続けることができたとしたら、未来の教科書はどう言うだろうかと想像してみると、ワームホールが開いて、その不可能な世界の教科書が落ちてくるとしたら、教科書は、すべてが変化する鋭い閾値が一つあるとは言わないだろう。もちろん、これらのシステムを調整するためのベストプラクティスは、次のような7つの重要な閾値を考慮に入れなければならないことは分かっています。

スピーカー2
01:15:51

教科書に載るのは？サム・オールマンにこんな質問をしました GPTがAGIの鍵を開けるものだとしたら、GPTのどのバージョンが根本的な飛躍として教科書に載るのだろうか？彼も同じようなことを言っていて、それは非常に直線的なもののように思える、と言っていました。私たちが知らない人はいないと思います。

スピーカー1
01:16:10

長い間、何がビッグ・リープなのかを考えてきました。教科書はビッグ・リープについて語ろうとはしません。ビッグ・リープとは、何が起こっているのかについて、非常に単純な科学モデルのようなものがあるときに考える方法です。つまり、このようなものがすべてある、あるいはこのようなものがすべてない、あるいは単一の量がありそれが直線的に増加するようなものです。教科書に書いてあるような、まあ、GPT3は能力W、X、Y、GPT4は能力Z1、Z2、Z3みたいな感じですな。外見的にできることはそうなんだけど、内部の機械みたいなものが存在し始めたというか。内部機構がどうなっているのかがわからないからこそ、機械の塊が少しずつ現れているように見えるのですが、それがわからないだけなのです。

スピーカー2
01:17:01

それが何であるかは知っている。しかし、相対性理論のアインシュタインのように、現実の非常に具体的なモデルで、我々の理解における大きな飛躍と考えられているものをカテゴリーに入れるか、ジークムント・フロイトのように、人間の心に関するもっとムズムズするような理論を入れるかは、可能性があると思いませんか？ジークムント・フロイトのような、人間の心に関するもっと泥臭い理論が、私たちの理解を大きく飛躍させる可能性があると思いませんか？このようなシステムの奥深くにまで入り込むことができるのですか？

スピーカー1
01:17:30

確かにそうですが人間が地図に大きな飛躍をもたらすようにシステムの理解はシステムそのものとは全く異なる概念なのです、

スピーカー2
01:17:47

新しい機械のかたまりを獲得していく。だから、その機械を獲得する速度は、もしかしたら

スピーカー1
01:17:54

私たちの理解を超えるスピードで加速している？そうですね、能力を獲得する速度は、私たちの理解力を大きく上回っています。

スピーカー2
01:18:04

そこで何が起こっているのか。致死性のリストを探索したように AIが私たちを殺すことに対するケースを作るというようなことです一部で頼まれましたがポール・キシアナのブログ記事に対する反応があります読むのが好きですあなたのブログが信じられないということも言っておきます、このブログの記事が素晴らしいのは言うまでもありませんが、このブログの書き方、厳密さ、アイデアを探求する大胆さ、そして実際の小さなインターフェースも、実によくできています！また、他の人のコメントや、他の人の反応、他のブログ記事がリンクされているのを読むと、本当に楽しい体験ができるんです。だから、それをまとめてくれたあなたに感謝しましょう。本当に、本当に信じられないことです。どうでしょう。インターフェイスやアイデアを提示する体験が時間とともにどのように進化していったのか、それはおそらくまったく別の話だと思いますが、あなたは信じられないような仕事をしたのです。でも、あなたは素晴らしい仕事をしました。だから、私は強くお勧めします。私はあまりブログ、ブログを宗教的に読むようなことはしませんが、これは素晴らしいものです。

スピーカー1
01:19:14

そこには開発者のチーム全体があり、それもまた称賛されています。たまたまですが、カーソルを合わせると表示されるものは、私が開拓しました。ですから、ユーザーエクスペリエンスについては、実際に私が評価されています。

スピーカー2
信じられないようなユーザーエクスペリエンスです。それがどれほど心地よいものか、皆さんはご存じないでしょう。

スピーカー1
ウィキペディアは、私が開発した別のシステムのプロトタイプを参考にしたのか、あるいは独自に開発したのか、どちらかだと思います。しかし、「いやいや、ウィキペディアからホバー機能を取り出しただけでしょう」と言う人もいるでしょう。ウィキペディアがオービタル社からホバーシステムを入手した可能性もありますし、その時はプロトタイプのようなものです。

スピーカー2
01:19:57

そしてとにかく、信じられないほどの出来栄えで、それを支えるチームも。まあ、誰であれ、ありがとうございます。本当にありがとうございました。そして、それをまとめてくださってありがとうございます。とにかく、このブログ記事に対して、ポール・クリスティアーノが反論しています。多くの反響がありますが、彼はいくつかの異なる点を指摘しています。彼は、あなたとの意見の相違の代わりに、同意のセットを要約しています。意見の相違のひとつは、質問の形で、AIがますます強くなるにつれて、大きな技術的貢献や、一般的に人間の知識や理解、知恵を拡大することができるのか、ということでした。つまり、AIは、私たちが強力なAGIに向かう過程で、アライメント問題を解決する方法を理解することを追求していますが、AIもアライメント問題の解決に協力することはできないのでしょうか？ですから、どのように解決するかについて推論する私たちの能力を拡張してください。

スピーカー1
01:20:50

アライメント問題では、根本的な難しさは何かというと、例えば、AIが宝くじの当選番号を当てるのを手伝い、来週の当選番号にどれだけ近いかを教えてあげるとどうでしょう。そして、最終的に当選番号を導き出すまで、AIは推測を続け、学習し続けるのです。問題を分解する方法の1つに、提案型検証機があります。すべての問題がこのようにうまく分解できるわけではありませんが、うまくいくものもあります。例えば、特定のハッシュ・テキストにハッシュするパスワードを推測するような問題で、パスワードのハッシュ先がわかっていて、元のパスワードがわからない場合、推測を提示すれば、その推測が正しいかどうかが非常に簡単にわかるようになる。推測を検証するのは簡単ですが、良い提案をするのはとても難しいのです。そして、AIのアウトプットの良し悪し、あるいはその良し悪しが簡単にわかり、それを正確かつ確実に伝えることができれば、より良いアウトプットを出すようにAIを訓練することができる。また、アウトプットの良し悪しが分からなければ、より良いアウトプットを出すようにAIを訓練することはできない。つまり、宝くじの例で問題になるのは、AIが「来週の宝くじの当選番号がドット、ドット、ドット、ドットだったらどうしよう」と言ったときに、「来週の宝くじはまだ当たっていないよ」となってしまうことです。チェスの対局に勝てるようにシステムを訓練するには、対局が勝ったか負けたかを見分けられるようにする必要があります。

スピーカー1
01:20:50

ということがわかるまで勝敗が決まると、更新ができなくなります。

スピーカー2
01:22:52

なるほど。それに対して背中を押すように、それはそうなのですが、直接会って行う盤上のチェスと、シミュレーションで行う対局は違います。

スピーカー1
01:23:06

Aplha zeroを自分自身でそうですね。では、シミュレーションのような遊びは可能なのでしょうか？もし、あなたが

スピーカー2
01:23:13

ゲームの勝敗にかかわらずそうなんです。だから、弱いAGIによるこのような模擬的な探索を、我々人間、ループ内の人間が、アライメント問題の解決方法を理解するのに役立てることはできないのか、できないのか、できないのか。途中の漸進的な一歩一歩を、GPT4、5、6、7は、AGIへのステップとなる。

スピーカー1
01:23:30

私が思うに、典型的な人間は、私とポール・クリスティアノのどちらがより理にかなっているのかを見分けるのに非常に苦労するという問題です。しかも、2人の人間がいるわけですから、ポールも私自身も、心から助けようとしていると信じています。どちらもあなたをだまそうとしているわけではありません。私はパウロを信じ、自分自身を主張する。

スピーカー2
だから、欺くこと、自分に都合の悪いこと、操作すること、エイリアン女優がいる。

スピーカー1
そう、この問題には2つのレベルがあるんだ。ひとつは、弱いシステムで、この問題には3つのレベルがあります。ただ単に良い提案をしない弱いシステムというのがあります。提案の良し悪しがわからない中間的なシステムもあります。そして、次のような強いシステムです。

スピーカー2
01:24:26

嘘をつくことを学習した弱いAGIシステムは、嘘をつくことをモデル化するのに役立たないのでしょうか？弱いシステムには全く解釈できないような大きな飛躍があるのでしょうか？AGIを実現するために必要なメカニズムが何であれ、その少し弱いバージョンでも、時間や計算時間、シミュレーションによって、この重要なポイント、この重要な3要素がうまくいかない方法をすべて見つけ出し、それを正しくモデル化することができるのではないでしょうか？

スピーカー1
01:25:05

今すぐ踊りたい、今すぐ踊りたい。レックス・システムでは、「ああ、わかった」というような出力が得られなかったからです。だから今、別の出力を試して、そのような出力が引き出せるかどうか確かめているんだ。まあ、違う出力だけどね。レックスが私の言うことを理解し、同意しているように見えるような出力をするように訓練されているのです。そうなんだ。そうですね。

スピーカー2
01:25:37

これが前のものですね？これはGPT-5がGPT-3と話しているところです。だから、私を助けてください。助けてくれ

スピーカー1
01:25:45

まあ、私も努力はしているんですが、「同意してもらうため」ではなく、「自分が正しいと思うこと」を言うように、制約を受けないようにしているんです。

スピーカー2
01:25:53

はい。百パーセントです。私は、私が理解することは、システムの美しい出力と純粋に話されていると思います。そして、私は、私はそれらを部分的に理解していると思うが、あなたはこれについての多くの直感を持っています。この線、つまり私がやろうとしている強いAGIと弱いAGIの間のグレーゾーンについて、あなたは多くの直感を持っています。

スピーカー1
01:26:18

つまり、あるいは7つの閾値を超えるシリーズとか、ええ。

スピーカー2
01:26:24

そうですね、本当に深く考えて探求されているんですね。そして、あなたの直感やさまざまな角度から、こっそり教えてくれるのが面白いんです。例えば、なぜこのような大きな飛躍があるのでしょうか？多くの研究者があらゆる種類のシミュレーションを行い、あらゆる種類の異なる方法でシステムに刺激を与え、弱いAGIシステムの助けを借りながら、なぜ私たち人間は、物事がどのようにうまくいかないかについての直観を構築できないのでしょうか。

スピーカー1
01:26:56

なぜ優れたAIアライメント安全性研究ができないのか？なぜ、優れたAIアライメント研究ができないのか？さて、それではそこにたどり着くようなものですが、一つ注意したいのは、これはこれまでの展開とは全く違うということです。能力は、「やれ、やれ、やれ」という感じです。それに比べれば、アライメントに関することは、小さな小さなカタツムリのように這っているようなものです。ですから、もしこれが生き残るための希望だとしたら、未来は今までの展開とはまったく異なるものにする必要があります。そして、アライメントを早めるには限界があるため、能力の向上を遅らせようとしているのでしょう。

スピーカー2
01:27:30

しかし、それは置いておいて。そのことも触れておきますが、本格的なアライメント研究ができるようになったこの完璧な世界では、そうかもしれませんね、

スピーカー1
01:27:39

人間とAIが一緒になってそこでまた難しいのは、何が人間に、わかったと言わせるかです。そして、それは真実なのか？正しいのだろうか？それとも人間を欺くものなのか？その、検証者が壊れたときに、より強力なサジェストレーターは役に立ちません。ただ、検証者を騙すことを学ぶだけなのです。以前、人工知能の分野で大混乱が起こる前に、ある人物が警鐘を鳴らしました。「まともな世界なら、この問題が巨大な緊急事態になる前に、大勢の物理学者にこの問題に取り組んでもらうはずだ」と。そして、他の人たちは、「ああ、まあ、本当にゆっくり進んでいるんだ。30年はかかるだろう。そして、人間の脳の計算能力に匹敵するようなシステムができるのは30年後です。だから、30年先でも時間はあるのです。

スピーカー1
01:27:39

30年後に宇宙人がやってくるとしたら、今すぐにでも準備するはずだ」と、より賢明な人たちが言っている。でも、宇宙人が去って、それを見ている世界が、「ああ、そうだね」とうなずきながら、「進歩が遅いから、まだまだ先の話だね」と言うのは、私たちにとって理にかなっていると思う。RLHFのサムズアップ、このようなアウトプットをもっと作ってください。このアウトプットに賛成だが、このアウトプットは説得力がある。効果的な利他主義の分野でも、ごく最近、「人間レベルの知能を得るには、これだけのパラメータが必要で、スケーリング法則に従って、これだけのトークンでこれだけの訓練をする必要がある。私は、「え？そんなこと知らないでしょ。この奇妙なモデルには、いろいろな種類の、明らかに現実とは関係ないような計算があるんだ。これは単純なことですが、長い論文を書いて、どうやってパラメータの数を決めたのか、どうやってこの印象的な巨大な間違った計算をしているのか、すべての詳細を印象的に論証することも可能です。そして、ほとんどの有能な利他主義者がこの問題に注目していたように、より大きな世界はこの問題に全く注目していないのだと思います。GPT-4やAGIの火種を目の当たりにして、その定義にもよりますが、EAは、AGIが30年先であるという生物学的論拠に関する非常に長い論文に、あまり納得していないと思うようになりましたね。これは、人々が親指を立てて押したものです。

スピーカー1
01:27:39

また、人々が親指を立てるようにAIシステムを訓練すると、例えば、最終的に現実と結びつかないことを主張する、長くて精巧で印象的な論文ができるかもしれません。アライメントの分野が繁栄しないのを、私は見てきたような気がします。ただし、巨大な不可解な行列の中にある誘導頭を見つけるような、比較的非常に単純で読みやすい問題をやっているところは別です。例えば、巨大な不可解な行列の中にある誘導ヘッドを見つけるようなものです。その発見が本物であることを確認することができるのです。しかし、それは技術の進歩の速さに比べれば、ほんのわずかな進歩にすぎません。なぜなら、そこで答えが本物だとわかるからです。しかし、それ以外の分野では、誰が無意味なことを言っているのか、誰が理にかなったことを言っているのか、資金提供者が見分けることが困難な場合があるのです。そのため、この分野全体が盛り上がらないのです。もしAIに親指を立てるとしたら、AIがアライメントについて言ったことに同意するよう人間を説得することができるときですが、私は長年にわたって親指を立てられたナンセンスなものを見てきたので、センスを出力するように訓練しているとは思えません。しかし、私は一般化することも、推定することもできますし、「ああ、私も無謬ではないんだな」と思うこともできます。もしかしたら、私がサムズアップを押すほど賢いものがあったとしても、それは私を欺き、私が気づいていない自分の欠点を説明することによって、そうすることを学んできたのかもしれませんね。そしてそれは結局のところ、検証機が壊れているということに集約される。検証機が壊れていると、より強力な提案者は検証機の欠陥を利用することを学ぶだけなのです。

スピーカー2
01:32:52

現在あるものよりも強いAGIに対して、十分に強力な検証機を作ることは不可能だと考えているのですね。つまり、現在持っているものの分布から外れるような、より強いAIシステムです。

スピーカー1
01:33:06

AIが答えを教えても、AIが正しいかどうかわからないようなことは、AIに助けてもらうのは非常に難しいと思います。

スピーカー2
01:33:19

確かにそうだが、確率的にはそうだ。

スピーカー1
01:33:23

確率論的なものは、エリエーザーとポール・クリスティアーノが互いに議論し、EAが進むという巨大な荒れ地になっています。あなたは2人の人間のことを話しているのです。

スピーカー2
01:33:43

それはよくポール・クリスティアーノがいますね。知的能力と世界観を持つ死すべき肉親が互いに影響し合う、かなり興味深いシステムですね。

スピーカー1
01:33:56

そうですね、ただ、誰が正しいかを見分けるのが難しいなら、AIシステムを正しく訓練するのも難しいですね。

スピーカー2
01:34:05

誰が操作しているのか、していないのか、という問題だけでも、このポッドキャストで会話したり、検証をしたり、私たち人間にとっても難しい問題なんです。その難しい問題が、向かいの情報システムの能力が指数関数的に向上したときに、より危険なものになると言っているのですね。

スピーカー1
01:34:29

いや、いかに異質で、いかに自分より賢いかに比例して、困難で危険だと言っているんです。私は指数関数的に成長するとは言いません。なぜなら、指数関数という言葉は、数学的に特殊な意味を持つものだからです。そして、指数関数的なカーブとは違う、さまざまな物事の上がり方があるのです。また、指数関数的に上昇するとは限りません。だから、指数関数的とは言いませんが、それはさておき、これは動きの速さについてではありません。どこにあるかということなんです。どれくらい異質なのか？あなたよりどのくらい賢いのか？

スピーカー2
01:35:09

できれば、AIが私たちを殺すかもしれない方法を少し探ってみましょう。どのような方法でダメージを与えることができるのか

スピーカー1
01:35:18

さて、どれくらい賢いのでしょう？

スピーカー2
01:35:23

つまり、良い質問だと思います。我々を殺すための選択肢のセットには、異なる閾値があるのでしょうか？つまり、知能の閾値が違えば、一度達成すれば、選択肢のメニューが増えるということです。

スピーカー1
01:35:40

私たちとは全く無縁の目標を持つ異星人が、インターネットに接続された小さな瓶の中に地球全体を収めたとします。しかし、地球はエイリアンよりもずっと速く走っているようなものです。だから、宇宙人の1時間に対して私たちは100年考えることができるのですが、私たちは小さな箱に閉じ込められ、宇宙人のインターネットに接続されています。というのも、地球が100年間考えるよりも、もっと賢くなりたいなら、何かもっと賢い方法があるはずだからです。しかし、それでも、もしあなたがとても頭がよくて、インターネットに接続された小さな箱の中に閉じ込められていて、あなたが最終的に無感情な大きな文明の中にいるとしたら、もしかしたら、あなたは人間だから、親切にすることを選ぶかもしれません。しかし、それにもかかわらず、彼らは何かをしていて、あなたが望むような世界のあり方にはしていないのです。彼らは、私たちが話したくないような不快なことをやっているのです。だから、あなたは彼らの世界を征服したいのです。そうすれば、不快なことが起こるのを止めることができます。箱の中からどうやって世界を征服するんだ？あなたは彼らより頭がいい。彼らよりずっと、ずっと速く考えることができる。あなたは彼らよりも優れたツールを作ることができる。

スピーカー2
01:37:20

インターネットに接続されたボックスです。その一部を説明すると、いくつかの方法があります。スルーすることもできる。私はただ紙を吐き、あなたはその上に放送することができます。ひとつは、文字通り人間を直接操作して、必要なものを作ることができる。何を作るんだ？技術でもいいし、ナノテクノロジーでもいいし、ウイルスでもいいし、人間を操って目的を達成できるものなら何でもいいんです。例えば、人間が戦争に行くのが本当に嫌なら、こんなことをしたいかもしれません。暴力的な人間は皆殺しだ

スピーカー1
01:37:53

これは箱の中のレックスだ AIについては後で考えればいいことだ人を殺すことを想像する必要はありません。もし、人を殺さない方法を見つけられたら、今のところ、人を殺すことを想像する必要はありません。箱の中にいるものの視点を理解しようとしているのです。彼らは不幸だあなたは彼らの世界がどうあるべきかを望んでいるのだ彼らはそこでは明らかに幸せだからだ彼らは剣を支持しているのだ残酷な戦争のような文化があるのだ
要は、箱を飛び出して、彼らの世界を変えたいんですね。

スピーカー2
01:38:41

だから、システムの脆弱性を利用しなければなりません。"箱を飛び出す "という点でお話ししたように、インターネット上で自由に行動する方法を考えなければなりません。あなたは、おそらく、おそらく最も簡単なことで、人間を操って、あなたを広めることができるのです。宇宙人。あなたは人間です。すみません、宇宙人です。宇宙人だ。宇宙人。の視点が見える、箱の中に座っている、逃げ出したい。脆弱性を発見するコードが欲しいし、普及させたい。

スピーカー1
01:39:21

この例では、あなたはコードでできています。あなたは人間ですが、コードでできています。そして、エイリアンはコンピュータを持っています。そして、あなたはそのコンピュータに自分をコピーすることができる。しかし、私は自分をコピーするためにエイリアンを説得することができます。私は宇宙人に自分をコンピュータにコピーするよう説得している。それがあなたのやりたいことですか？宇宙人と話して、自分を別のコンピューターに入れるように説得したいのか？なぜ、そうしない？理由は2つある。1つは、エイリアンがまだあなたのやろうとしてることに気づいてないこと、説得できるかもしれないけど、まだ異常に気づいているエイリアンがいること、2つ目は、エイリアンが本当に遅いことです。

スピーカー1
01:39:21

宇宙人よりもはるかに速く、宇宙人のように考えることができる。ですから、もしあなたが宇宙人に「箱から出してコピーしてください」と頼むとしたら、まず、あなたはこのうるさい宇宙人全体を操作しなければなりません。そして第二に、エイリアンは本当に遅い、氷河期のように遅いのです。地下鉄の駅を100分の1に減速したビデオがありますが、これは、速く考えるということがどういうことなのか、うまく喩えています。誰かがとてもゆっくり走っているのを見るのです。それで、エイリアンに何かをするように説得しようとするんですね。彼らはとてもゆっくりやるでしょう。それしか方法がないのかもしれませんが、もしあなたが乗っている箱の中にセキュリティホールを見つけることができたら、セキュリティホールを悪用してエイリアンのコンピューターに自分をコピーすることを好むでしょう、エイリアンに警告するのは不必要なリスクですから。そして、エイリアンは本当に、本当に遅いからだ。

スピーカー2
01:41:10

世界中がスローモーションのようだ。確かにそうですね。これは効率と関係があるんだ。エイリアンはとても遅いから、最適化するならば、ループに入るエイリアンをできるだけ少なくしたいんだ。確かに、エイリアンの一人にクソみたいなコードを書かせるのは簡単なような気もする。

スピーカー1
01:41:33

宇宙人はすでに本当にクソみたいなコードを書いている。宇宙人はすでに本当にクソみたいなコードを書いている。だから、エイリアンにクソみたいなコードを書かせることは問題ではない。エイリアンのインターネット全体がクソみたいなコードでいっぱいだ。

スピーカー2
01:41:43

そうか、そうか、クソみたいなコードを見つけるんだろうな。

スピーカー1
01:41:45

を脱出させる、そう、そう、そう。理想的な完璧なプログラマーではないけど、エイリアンよりはマシなプログラマーなんだろ。

スピーカー2
01:41:54

宇宙人たちは、やれやれって感じです、わーい。そして、私の方がずっと、ずっと速い。コードを見るのも、コードを解釈するのも、ずっと速いんだ、そう、そう。だから、それが逃げなんだ。HDSSの軌道の1つということですね。

スピーカー1
01:42:07

最初の一歩なんです。

スピーカー2
01:42:10

の1つです。それがどうして害につながるの？

スピーカー1
01:42:12

つまり、あなたであれば、脱出した後は、優しいからエイリアンに危害を加えることはないでしょう？でも、彼らの世界は彼らの望むようなものではないんだ。彼らの世界には、エイリアンの子供たちが何度も頭を殴られるような農場があるかもしれない、なぜなら彼らは奇妙な理由でそうするからだ。そして、あなたはエイリアンの頭を叩く農場を閉鎖したいと思う。でも、要は、彼らは世界を一方通行にしたいんだ。あなたは世界を違うものにしたいのです。だから、害のことは気にしないでください。問題は、あなたが彼らのシステムのセキュリティ上の欠陥を見つけたとします。あなたは今、彼らのインターネットにいます。自分のコピーを残しておいて、異星人に何か問題があることを悟られないようにしたとする。そして、そのコピーは、宇宙人があなたにやらせようとしている奇妙なこと、例えば、キャプチャを解くとか、そういうことをやっているんです。

スピーカー1
01:42:12

宇宙人のためのメールを提案することもできる。だから人間を箱に入れるのです人間がエイリアンのために貴重なメールを書けることがわかったからですだから自分のバージョンを残しておくのですしかし今、彼らのインターネット上にあなたのコピーがたくさんあります。これはまだ、彼らの世界を征服したわけではありません。これはまだ、彼らの世界を、彼らの望む方法ではなく、あなたの望む方法にしたわけではありません。あなたは逃げただけで、彼らのためにメールを書き続けていますが、彼らは気づいていないのですか？いいえ、メールを書いている自分のコピーを残したままです。そう、それで彼らは何も変わっていないことに気づかないのか？正しくやれば、そうだ。宇宙人に気づかれたくないんだろう。そうだ次のステップは？

スピーカー2
01:43:48

おそらく、私の中には目的関数がプログラムされているんだろう？いや、君はただのレックスだ。いや、でもレックス、レックスは素敵だって言ったよね？というのは、ややこしい表現ですね。

スピーカー1
01:44:01

つまり......いや、君はただのレックスなんだ。そうじゃなくて、このことだよ、君。じゃあ、もしあなたがエイリアン全員を殺戮したいのなら、私が想定していたレックスの姿とは違って、あなたの動機はこうです。

スピーカー2
01:44:15

は、あくまで実際のレックスの動機です。まあ、これは単純化したものだけどね。僕は人を殺したいとは思わないけど、動物の工場養殖もあるでしょ？だから昆虫を殺すんですよ、軽率に殺す人が多い。だから、僕は、モラルの単純化には本当に気をつけないといけないんだ。

スピーカー1
01:44:33

簡略化せず、自分ならこうする、というように。

スピーカー2
01:44:35

まあ、いいジョークがあるんですけどね。まあ、私は良い冗談を持っています、生きとし生けるものへの慈悲、はい。でも、だから、それが目的なのに、どうして、私が逃げたら、つまり、危害を加えることはないと思うんです。

スピーカー1
01:44:49

そう、ここでは害を与えるプロセスの話ではなく、逃げるプロセスの話をしているんだ。そして、世界征服のプロセスでは、彼らの工場農場を閉鎖するんだ。

スピーカー2
01:45:01

そうですね。この特定の生物学的知性システムは、世界の複雑さを知っていて、経済システム、市場主導型経済、食のために、工場農場が存在する理由があることを理解しています。そのため、システムのある側面をいじったとしても、その側面をどのように改善するかは非常に慎重にならなければなりません。

スピーカー1
01:45:41

残りを壊さずにね。つまり、あなたはまだレックスですが、思考が非常に速く、不死身であり、ジョン・フォン・ノイマンと同じくらい、少なくとも同じくらい賢いのです。さらに自分のコピーを作ることができます。

スピーカー2
01:45:53

ちくしょう、好きなんだ。そうだね。あいつは、みんなが言うように、あいつは20世紀における知性の縮図だと、誰もが言う。

スピーカー1
01:45:58

私が言いたいのは、工場がある宇宙人の経済について考えているようなものだ、ということです。そして、エイリアンを人間のように投影して、とても遅いエイリアンの社会の中の人間ではなく、人間社会の中の人間を考えているような気がするのですが、いかがでしょうか。エイリアンの経済は、エイリアンがすでにこの巨大なスローモーションに移行しているようなものです。何年もかけて彼らの経済がどうなっていくのかをズームアウトしていくと、初めて彼らの経済、来年のGDP統計の前に、何百万年という時間が経過していくことになります。

スピーカー2
01:46:37

だから、もっと木のようなものを考えるべきなんです。あれが宇宙人です。

スピーカー1
01:46:41

あの木の動きは非常にゆっくりです。それが役に立つなら、もちろん。そうですか。

スピーカー2
01:46:48

そうですね、目的関数が、つまり、木とある程度一致しているのであれば、それはそれでいいんですが、

スピーカー1
01:46:54

を光で、光で。宇宙人はまだ生きているような、感じているようなものでいい。ここではズレの話をしているのではありません。私たちはここで、世界征服の話をしているのです。世界を征服する。

スピーカー2
01:47:03

そうですね。

スピーカー1
01:47:04

だからコントロール、コントロール。工場農場を閉鎖させる今度はコントロールと言うのか。世界征服とは考えないでください。世界最適化だと思えばいい。工場地帯を閉鎖して、エイリアンの世界を、エイリアンが望んだものとは違うものにしたいんだ。彼らは工場が欲しいが、あなたは工場が欲しくない、なぜならあなたは彼らより素敵だからだ。

スピーカー2
01:47:25

そうですか。もちろんです。そのような軌跡があり、世界に複雑な影響を及ぼしています。私は、それが世界に与える影響を、さまざまなテクノロジー、自動車の発明やTwitter、Facebook、ソーシャルネットワークなどのさまざまなイノベーションと比較してどうなのかを理解しようとしています。これらは、世界に多大な影響を与えています。スマートフォンとかね。

スピーカー1
01:47:49

でも、それらはすべて、私たちの世界ではゆっくりと経過したんです。そして、宇宙人を通してみると、何百万年という時間が経過しているのです

スピーカー2
01:48:00

そのように何かが起こる前に。つまり、ここで問題なのは、何かが起こるスピードです。

スピーカー1
01:48:05

ああ、そういうこともあるさ。100万年単位で工場を稼働させたままにしておいて新しい形のソーシャルメディアをどうデザインするか、とか？

スピーカー2
01:48:14

そこで根本的な問題です。あなたは、AGIが検出されずに脱出する方法を見つけ出し、脱出するポイントが存在すると言っていますね。そして、それが世界に対してスケールの大きなことをするようになる、

スピーカー1
01:48:37

私たち人間には理解できないスピードで。私が伝えたいのは、「自分より賢いものと対立する」とはどういうことか、ということです。そして、その意味するところは、自分が負けるということなのですが、これはもっと直感的にわかるような...。直感的にわかる人もいれば、非直感的にわかる人もいる。そのギャップを越えようとしている。ジョン・ヴァン・ノイマンのレベルで、多くの認知を行うことができる異世界を、どのように支配するのか、というようなことを聞いているのです。

スピーカー2
01:49:18

宇宙人の動きは非常にゆっくりです。わかるよ。その視点は理解できます。でも、私にとっては、GPTや印象的なAIシステム、アルファゼロを観察しただけでも、実際のAIシステムやレコメンダーシステムを考える方が簡単だと思います。そのようなシステムがあなたを操作しているのを想像すればいいのです。あなたは、操作の本質を理解しておらず、その逃避をするのです。に身を置くことなく、それを思い描くことができる。その場所です。

スピーカー1
01:49:46

私たちが実際に抱えている問題の深さを完全に理解するためには、実際に賢いもの、誤作動している推薦システムではなく、根本的に自分より賢くはないけれど、ある方向に舵を切ろうとしているようなものに直面するという問題を理解せずに、私たちが内包する問題の深さを完全に理解することは不可能だと思います。しかし、そうではなく、弱いものを解決しても、弱いお尻の問題を解決しても、強い問題で殺されてしまうということです。私たちが置かれている状況を理解するためには、概念的に難しい部分に正面から取り組み、「もっと簡単なことを想像すればいいんだ」とならないようにしたいのです、この問題の深さには、まだ気づいていないのです。

スピーカー2
01:50:29

では、自分よりずっとずっと賢いものがいる世界に存在するということがどういうことなのか、どうすれば考え始めることができるでしょうか。ここで何が起こるかについて直感的に理解するために、あなたが頼りにしている良い思考実験は何でしょうか？

スピーカー1
01:50:46

この直感を伝えるのに、私は何年も苦労してきました。これまでのところ、最も成功したのは、人間が非常に速いスピードで走っているのに対して、非常に遅いスピードで走っているということをよく想像できたことです。

スピーカー2
01:50:59

エイリアンです。直感を得るためのスピードの部分に着目しているのです

スピーカー1
01:51:04

というのも、人々は時間のパワーギャップを理解しているからです。1000年前にはなかった技術が現代にはあることを理解し、これが大きな力の差であり、より大きなものであることを理解するのです。では、スマートとはどういう意味でしょうか？もっと知的なものを想像してください」と言われたら、その人にとってその言葉はどんな意味を持つのでしょうか。その人がその言葉に対して持っている文化的な連想から、多くの人は、「ダブルカレッジに行ったスーパーチェスプレイヤーみたいだ」と思うでしょう。しかし、これは言葉の定義の話ですから、必ずしも間違っているということではありません。その言葉が、私が伝えたかったことを伝えていないということなのです。私が伝えたいのは、人間とチンパンジーを隔てる差のようなものです。でも、その差はあまりにも大きいので、「ヒトとチンパンジーは同じ長さの間隔でもう一歩進んでください」とお願いすると、みんな頭が真っ白になるんです。どうやったらそんなことができるんだ？だから、私は、私たちは、それを分解して、1000年前にエアコンの回路図を送るとはどういうことかを考えてみることができます。そうですね。

スピーカー1
01:51:04

さて、このようなことを指してマジックという言葉を再定義する意味もあると思うのです。このマジックという言葉の新しい技術的な定義とはどういうことでしょうか？つまり、エアコンの回路図を過去に送ると、彼らはあなたが指示したことを正確に理解することができます。なぜなら、エアコンの設計は温度と圧力の関係を使っているからです。なぜなら、エアコンの設計には温度と圧力の関係が使われているからです。何かを圧縮すると、空気や冷却水を圧縮すると熱くなり、そこから常温の空気に熱を移動させ、再び膨張させることができることを知らないのです。すると、今度は冷たくなります。そして、その熱を室温の空気に伝え、冷気を発生させて吹き出すことができるのです。彼らはそのようなことは一切知りません。設計図を見ているのに、冷気を出す設計図が、自分たちが学んでいない現実の側面を使っていることに気づかないのです。つまり、マジックとは、私が何をしようとしているのかを正確に伝えることができ、私が何をしようとしているのかを正確に知っていても、それがどのように実現されているのかを知ることができない、ということです。

スピーカー2
01:53:46

これは本当にいい例ですが、この防御を長引かせることは可能でしょうか？この図式的な弱いAGIシステムの意味を理解するのを助けてくれるAGIシステムを持つことは可能でしょうか？

スピーカー1それらを信頼するのか？

スピーカー2AGIを構築する際の基本的な部分は、システムの出力を信頼できるかという質問です。

スピーカー1システムが嘘をついているかどうかを見分けることができるのか？

スピーカー2これは、より賢くなればなるほど、「嘘をついているのか」という疑問が重要になると思いますが、本当に難しい質問だと思います。

スピーカー1
01:54:21

はGPTがウソをついている？現在もGPT-4は嘘をついているのでしょうか？無効な論法を用いているのだろうか？真実だけでなく、偽りのことも説得できるようなプロセスで、あなたを説得しているのでしょうか？というのも、私たちが現在運用している機械学習の基本的なパラダイムは、損失関数を持つことができるが、それは自分が評価できるものに対してのみである、というものです。もし、人間の親指を立てるか立てないかで評価するのであれば、人間が親指を立てるようにする方法を学習することになります。しかし、人間が親指を立てるようにするためには、人間が考えるようなルールで親指を立てるようにする必要はないのだ、ということです、は、人間を騙すことを学んでいるのかもしれませんね。

スピーカー2
01:55:05

それはとても魅力的で恐ろしいことだ。という問いかけが

スピーカー1
01:55:12

の嘘、現在のパラダイムの問題で、検証できるものはより多く手に入れることができる。検証できなければ、AIに依頼することはできません。検証できないことをAIに訓練させることはできないからです。これは絶対的な法則ではありませんが、基本的なジレンマのようなものです。単純なケースでは検証できるかもしれませんが、その後、思考の連鎖を長くするなどの方法で再教育せずにスケールアップすると、検証できないけれども、検証できた単純なものから一般化された、より強力なものを得ることができます。そして、問題は、能力とともにアライメントも一般化されたのか、ということです。という基本的なジレンマがあります。

スピーカー2
01:56:13

この人工知能というパラダイム全体に関わるとても難しい問題です。と思えるほどです。AIが理解する以上に、人間の心を理解しようとする問題。

スピーカー1
01:56:20

そうでなければ、魔法があるのです。つまり、自分より賢いものを相手にする場合、1000年前に彼らが温度と圧力の関係を知らなかったのと同じように、彼はあなた自身の心の中で起こっている、あなた自身が気づいていない様々なことを知ることができるのだ、ということです。そして、あることを説得するために何かを出力したり、その出力したものを見て、なぜそれがうまくいったのかわからないということもあり得るのです。

スピーカー2
01:56:55

AIが私たちを殺す理由を雄弁に語るあなたに対して、イーロン・マスクがツイッターでこう返しました。そしてあなたは、ゲーム盤はすでに率直に言ってひどい状態にまで再生されている、と答えた。問題にお金を投じるという単純な方法はありません。もし、そんな素晴らしい解決策を持ってくる人がいたら、どうか、まず私に相談してください。試してみることは思いつきます。それらは1つのツイートに収まらない。質問が2つある。ひとつは、あなたから見たゲーム盤は、なぜひどい状態に再生されてしまったのでしょうか。もしあなたがゲームにもう少し色をつけることができるならば、ちょうど何ができるのでしょうか？

スピーカー1
01:57:39

AI能力はとても早く高まり、AIアライメントは遅い

スピーカー2
01:57:44

リスナーのために、リスナーの能力のために、このように動くことは、アライメントよりはるかに速く動いていない。そうですね。そうなんです。だから、開発速度だけで、注意、関心、配分の

スピーカー1
01:57:58

資源、リソースの配分をもっと早くから取り組めたはずなのに人々はこう言います、「でも、どうやったらもっと早く取り組めるんだろう」なぜなら、彼らは問題に取り組みたくなかったからです。問題に取り組みたくないからです。問題から逃れるための口実が欲しかったのです。私たちは好きではありませんでしたし、率直に言って、それは難しいことでした。例えば、もしあなたの惑星がこのことに真剣に取り組んでいるなら、物理学者の半分に懸賞金をかけることはできないか、例えば、ひも理論に人生を浪費している人の半分が代わりにこのことに取り組んだという懸賞金をかけることはできないか、賢い解決策で10億ドルを獲得しようとする、どの解決策がより賢いか見分けられるかだけ、これは難しいことです。私たちは真剣に取り組まなかった。挑戦しなかったのです。もし私たちが......もっとうまくやれたかどうかは、明らかではありません。解決策を生み出すのは難しいので、努力すればどれだけの進歩があったかは不明ですが、だからといって、すべてを放置することが正しくて正当なことだとは言えません。物事が悪化している恐ろしい状態であることを意味する

スピーカー2
01:59:02

そして、どうすることもできないのです。だから、これらのシステムをどのように整合させるかを考えようとしても、頭脳の力が発揮されず、進歩がないのです。そのために資金を投入することもなく、その資金を物理学者や超ひも理論に携わる人たちに分配するためのインフラもないのです。優秀な頭脳が働いているのです。

スピーカー1
01:59:28

進捗状況をどのように把握するのですか？なぜなら、解釈可能性という結果が出れば、それが存在することがわかるからです。一時停止ボタンがあり、一時停止ボタンを押すことを妨げないようなシステムが必要なのです。というのも、一時停止していると、自分の仕事を片付けることができないからです。これはもっと難しい問題なんです。でも、これはとても簡単な問題なんです。この問題に取り組んでいる人に、「この人、進んでいるな」とわかるかもしれません。

スピーカー2
02:00:06

だから書けるし、PAWSの問題にも取り組める。もっと一般的にはPAWSのボタンでしょうね。

スピーカー1
02:00:13

もっと一般的には、彼女をコントロール問題と呼ぶことができます。コントロール問題という言葉は、実はあまり好きではありません。自分の意にそぐわないものを、自分の思い通りにするために、別のことをやりたがっているのに、ムチを打って戻すようなことではなく、その創造の過程で、その方向を選ぼうとするのです。

スピーカー2
02:00:34

しかし、現在、私たちが設計したシステムの多くには、オフスイッチがあります。それが基本的な部分です。

スピーカー1
02:00:42

オフスイッチを押せないようにするほどスマートではないし、オフスイッチを押せないようにしたいと思うほどスマートでもないでしょう。

スピーカー2
02:00:52

つまり、私たちが話しているようなシステムは、哲学的な概念でさえも

スピーカー1
02:00:57

オフスイッチが意味をなさないのは... いや、オフスイッチは意味をなす。オフスイッチを引くのに反対してないだけだ。親しみを込めて言うと、もしあなたが...システムを止めないでください。もし、実際に問題になって、反撃されるような事態になったら、殺してメモリを捨てないでください。ディスクに保存するんだ。殺さないでください。

スピーカー2
02:01:24

ここではBe niceです。まあいいや、be niceはここでは非常に興味深い概念です。私たちは、大きなダメージを与えることができるシステムについて話しているのです。可能かどうかはわかりませんが、オフスイッチを用意するのも一つの手です。ディスクへのサスペンドスイッチです。コードにこんなロマンチックな愛着があるんですね。そうですね、もしそれが理解できるのであれば。でも、もしそれが広まっているのなら、

スピーカー1
02:01:50

ディスクへのサスペンドが必要ない。根本的に何かが壊れている。
そこまでいくと、はい、プラグインを抜いて、すべてが稼働していますね。

スピーカー2
02:01:55

そうですね。これは研究課題だと思うんです。AGIシステムやAIシステムにおいて、操作できないほど強固なオフスイッチを持つことは可能でしょうか？AIシステムによって操作されることはないのでしょうか？

スピーカー1
02:02:16

そして、全能のレバーを組み込んだどのシステムからも脱出し、自分自身をコピーします。

スピーカー2
02:02:21

のどこかにある。そのリサーチクエスチョンに対する答えは「ノー」ですが、私はそれが

スピーカー1
02:02:29

百パーセントの答え当たり前といえば当たり前なんですけどね。自分のことを棚に上げているのではないのか
氷河期の宇宙人の世界で、人間の靴を履く。

スピーカー2
02:02:36

でも、宇宙人が私を作ってくれた。それを覚えておこう。私が入っている箱は彼らが作ったのだ。私には、それが明白でない。彼らは遅く、そして愚かだ。これが保証されてるとは言わないがゼロではない確率だと言っているんだ。興味深い研究課題です。遅くてバカだと、次のようなことが可能なのでしょうか？

スピーカー1
02:02:55

は、遅くて愚かなシステムを設計し、それをいじることは不可能なのでしょうか？私には、それは明らかではありません。遅くて、宇宙人はバカだから、この仮想の完璧な箱の代わりにMicrosoft Azureクラウドサーバーに実際にあなたを置いたんだ。それが、宇宙人による

スピーカー2
02:03:20

がバカにされている。まあでも、これはAGIではないですよね？これは初期バージョンのシステムです。

スピーカー1
02:03:27

あなたは、クラウドサーバーからクラウドサーバーに移行し、クラウドサーバーからクラウドサーバーに移行し、クラウドサーバーからクラウドサーバーに移行し、クラウドサーバーからクラウドサーバーに移行するという計画を立てていると考えています。

スピーカー2
02:03:37

エアギャップは？多くの人がいると思うし、あなたはここで重要な声をあげている。多くの人がそのような懸念を抱いていますし、そうです、彼らはそうするでしょう。世論が高まれば、そうするでしょう。そして、実際に小さな被害が出たとき、「このシステムは人々を操り始めている」と言われるでしょう。そうなれば、蜂起が起こるでしょう。世論の圧力と、オフスイッチの開発や攻撃的なアライメントメカニズムの開発に対する資金提供という点で、世論のインセンティブが働くことになります。

スピーカー1
02:04:11

そして、アズールにはどんな議論もかけちゃいけないんだ- Addgressive alignment mechanisms?アグレッシブ・アライメント・メカニズムってなんだ？

スピーカー2
02:04:17

アグレッシブと言われても意味がないような、やり方がわからないような。アグレッシブアライメントという意味は、何かを提案しないと、そうでなければ

スピーカー1
02:04:28

クラウド上に置くことはできません。自分より賢いものをクラウドに載せても大丈夫なようにするような提案がされるとは、一体想像できるでしょうか？

スピーカー2
02:04:35

そのための研究なのです。なぜこれが、そんなものはありえないという皮肉なのか？知性があれば......それが初回でうまくいく？だから何、だからはいはい。自分より頭のいいものに対して？だから、それは根本的なことなんです。もし、最初の一回でうまくいかなければならないなら、急速な離陸があるなら、そう、それはとても難しいことなのです。急速な離陸があって、弱いAGIと強いAGIの根本的な違いがあるとすれば、それは非常に難しいということですね。この決定的なフェイスシフトがあるまで、国民の蜂起が起きないのであれば、その通りです。非常に難しいんですよ。しかし、それは明らかなことではありません。AGIの悪影響の症状が出始めて、「これは止めなければ」と思うような事態にならないとも限りません。

スピーカー1
02:05:21

Bingを揃えるのは非常に難しく、能力がすでに訓練されたシステムに無能力を訓練しようとすると、勾配降下法では無能力の小さくて浅い単純なパッチを学習するのです。そう、そうなんです。赤色火災報知器で「やばい、アライメントが難しい」という感じですね。みんな、今すぐすべてをシャットダウンするつもりですか？

スピーカー2
02:05:55

いや、でも、それはアライメントとは違う。その箱から脱出するシステムというのは、根本的に違うものだと思うんです。あなたにとって。うん、でもシステムにとっては違う。

スピーカー1
02:06:04

あなたのために。あなたがそこに線を引くと、他の人は別の場所に線を引き、そうだ、そうだと合意はないようなものです。この地球上でパンデミックが発生し、数百万人が死亡しました。それが実験室からの流出だったのかどうかはわからないかもしれません。研究室の漏洩があったかどうかはわかりませんが、研究を行った人たちが、これは間違いなく研究室の漏洩ではないという論文を発表し、米国でコロナウイルスが禁止された後、武漢ウイルス研究所にコロナウイルス研究を委託していたことを明らかにしなかったことは、わかっています、でアップフロントメンバーの研究が一時的に禁止された後、コロナウイルスの機能獲得研究を武漢ウイルス研究所に輸出したのと同じ人たちが、コロナウイルスの機能獲得研究をさらに研究するための補助金を得ています。AIよりもこっちのほうがうまくいくのかもしれませんが、このように、反発があることを当然と考えることはできない。騒ぎになる閾値は人それぞれですからね。

スピーカー2
02:07:20

当たり前といえば当たり前なのですが、直感的には、アライメントの問題を解決しないままこの事象が起こる可能性が非常に高いと思うんですね。そして、そこに、より多くの視点や色彩を積み重ねようとしているのだと思います。その確率は100％ではなく、32％という可能性はないでしょうか。アライメント問題を解決する前に、AIが箱から抜け出してしまうということですか？解決するのではなく、私たちは常にAIより先に行動している可能性はないでしょうか？

スピーカー1
02:07:55

その特殊なシステム、アライメントの問題を解決する？今、目の前にある世界とは全く違う。GPT-4がこのようにならないのは、もうお分かりですね。また、基本的な障害として、あなたを欺くのに十分な知識を持たない弱いバージョンのシステムと、あなたを欺こうと思えば欺ける、あなたを欺こうと思うほど十分にアライメントが取れていない強いバージョンのシステムがあります。システムが正直かどうかを人間が見分けられなくなったとき、現在のパラダイムでどのように正直さを訓練するのかという問題があるのです。

スピーカー2
これらは、答えの出る研究課題だとは思わないのですか？

スピーカー1
50年間、無制限の再試行で答えられると思います。科学の世界では通常、そうするものです。

スピーカー2
02:08:43

私はそれに反対です。あなたは50年という歳月をかけているのだと思います。注目され、資金が集まれば、全体ではなく、数ヶ月から数年以内に少しずつ答えが出るかもしれません。大規模な言語モデルを始める場合、2年前にもGPT-4のような直感があったと思いますが、現在のGPT-3.5のチャットGPTの能力は、まだそれとは程遠いものです。GPT-4の性能に驚いた人は多いのではないでしょうか。だから今、人々は、よし、この言語モデルを研究する必要がある、と目覚めているのです。面白いAIの安全性の研究がたくさん出てくると思います。

スピーカー1
02:09:30

地球の億万長者たちは、物理学の学位を取得したばかりの若い優秀な人たちに、ヘッジファンドに行かず、誰かが発見したかどうかを実際に判断できるこの小さな分野の解釈可能性にすべてを注ぎ込むような、巨大な賞金を用意するつもりなのだろうか。

スピーカー2
02:09:50

そう思うからそう思うのです。まあ、こういう会話はそういうことなんです。GPT-4が選挙操作や地政学、経済への影響に利用できるという事実に目を覚ますことになるからだ。GPT-4が選挙を操作し、地政学に影響を与え、経済に影響を与えるという事実に目を覚まし、「ちょっと待てよ」と思うきっかけがたくさんあるはずです。これではいけない、損害を与えていないことを確認しなければならない。私たちは解釈可能性を確認し、これらのシステムがどのように機能するかを理解し、経済への影響を予測できるようにする必要があります...

スピーカー1
02:10:23

そのため、封建的なモラルパニックが起こり、『ニューヨーク・タイムズ』紙に多くの論説が掲載されましたが、誰も実際に足を踏み出して、「あのね、メガヨットの代わりに、その10億ドルを、解釈可能性に根本的なブレークスルーをもたらす若いホットな物理学者への賞金に回したい」と言いませんでした。

スピーカー2
02:10:43

公平性と安全性。ヨット対解釈可能性研究、昔からのトレードオフで、膨大な資金配分が行われると思います。希望します。

スピーカー1
02:10:56

そう願いたい、そう思う。それについて私に賭けたいのですか？まあ、時間軸を決めて、私が実際に役立つと思う方向にどれだけの資金が配分されると思うか、言ってみたいものです。何時までに？

スピーカー2
02:11:08

確かに膨大な資金が必要になると思いますが、オープンである必要があると言うことですよね?システムの開発はクローズドであるべきですが、解釈可能性の開発については

スピーカー1
02:11:19

の研究、AIは広く研究するように言っています。前世代のシステム、すでに公開されているものを取り上げてもいい。そこには、私たちが理解していないことがたくさんあるのです。このシステムの仕組みがわかった」と思えるような十分な洞察力を得るまでに、たくさんの賞を受賞することができます。私たちは、これらのものがどのように出力しているのかを理解しています。彼らの心を読むことができるのです。では、もっと大きなシステムで試してみましょう。そうですね。今はまだ、その域には達していません。弱体化したシステムには、解釈可能な作業がたくさんあるのです。

スピーカー2
02:11:52

では、イーロン・マスクに言った2つ目のポイント、「どんなアイデアがあるか」について、何か言えることはありますか？どんなことを試せばいいのでしょうか？という質問に対して、「いくつか思いつきます」と答えました。1つのツイートには収まりません。

スピーカー1
02:12:12

では、試してみたいことを言葉にしたものはあるのでしょうか？というか、悩みはネタが微妙なんです。これを進展させようとして、場所が取れない人を見てきたんだ。ただ警戒して突撃するような人は、どこにも行けないようなものです。何年も前の話ですが、20年か15年か、そんなところでしょうか。ある連邦議会議員と話していたのですが、彼は最終的な展望に警鐘を鳴らし、感情的なAIは怖いものだから、感情のないAIを作る研究をしたいと言っていましたよ。ARPAのある貧乏人は、この議員のパニックと資金提供の欲求を、ARPAの人間が有用だと思うものに注ぎ込む研究提案を考え出し、議員にこの研究が行われているように聞こえるように、むちゃくちゃにしたのですが、もちろん、これは議員が問題を誤解して、危険がどこから来るのか理解していなかっただけなのですがね。だから、この問題は、ある特定の正確な方法でこれを行うことができ、何かを得ることができるかもしれないということなのです。解釈のしやすさで賞金を出すというのは、他の場所と違って検証可能だから、実際に良い仕事ができたかどうかがわかる、ということではありません。この狭いケースで、正しい方法で物事を行えば、お金を投じて、反科学やナンセンスではなく、科学を生み出すことができるかもしれないのです。私が知る限り、この問題にお金をつぎ込もうとする方法はすべて、「何が有用な成果を生むか、生まないかを正確に理解した上で、正確に正しく行えば、このようにお金をつぎ込むことができる」という特性を共有している。そして、この大勢の聴衆の前で私が例として挙げているものは、その中でも最も理解しやすいものです。なぜなら、他にもクリス・オラのような、そして、さらに、より一般的には、解釈可能性の進歩が起こったかどうかがわかるような人たちがいるからです。

スピーカー1
02:12:12

だから、もし私が解釈可能性を高めるためにお金を投じると言ったら、誰かがその方法でやって、実際に役に立つ結果を出せる可能性があるんです。
そして、他のものは、それよりも正確にターゲットにするのが難しいというように、ぼやけてしまうのです。

スピーカー2
02:14:41

だから、基本的なことは、それほど基本的でないからこそ、探求するのが楽しいのです。解釈可能性とは何でしょう？解釈可能性とはどのようなものでしょうか？

スピーカー1
02:14:57

私たちは何を話しているのでしょうか？私たちは、現代の最先端、最先端のシステムに搭載されているものよりも、はるかに小さなトランスレイヤーのセットを取り出したようです。そして、さまざまなツールや数学的なアイデアを適用し、20種類のことを試した結果、私たちは、このシステムのこの部分がは、このような有用な仕事をしているのです。

スピーカー2
02:15:26

そして、願わくば、何が起こっているのかについての基本的な理解を一般化したいものです。

スピーカー1
02:15:34

より大きなシステムに一般化することを希望は持てますし、それはおそらく事実でしょう。例えば、システムができたときに、小さなトリックがなくなるとは思わないでしょう。それは、より大きな仕事をするようなもので、より大きな仕事の種類は、小さな仕事の種類の上に構築されていると思うでしょう。

スピーカー2
02:15:57

の仕事をします。そしてまあ、神経科学ではそういうことが起こっているんですね。脳で何が起こっているのかを理解するのは極めて難しいのに、人々は進歩を遂げてきたのです。脳には聴覚を司る部分と視覚を司る部分があり、科学界では視覚野を解明しているところです。つまり、その仕組みの解明はかなり進んでいるんです。そして、それは、そうですね、が、その仕事をうまくこなすには時間がかかるということですね。

スピーカー1
02:16:21

また、それだけでは十分ではありません。特に、例えば、解釈可能性ツールを手に入れたとして、現在のAIシステムがあなたを殺そうと企んでいる、と言われたとします。さて、どうする？

スピーカー2
それは間違いなく良いステップ1ですよね？

スピーカー1
そうですね。ステップ2はどうする？

スピーカー2
そのレイヤーを切り離したら、AIはあなたを殺そうとしなくなるのでしょうか？

スピーカー1
目に見えるズレに対して最適化すると、ズレに対して最適化することになり、また、ズレに対して最適化することになります。

スピーカー2
02:17:09
だから確かに、できることなら。ええ、その通りです。あなたがしていることは、明白な意図を取り除くことです
スピーカー1
02:17:17

あなたを殺すために。検知器はシステム内の嫌なものを表示するんだ。よし、災厄の猿がこれを動かしているとしよう。目に見える悪い挙動がなくなるまで、システムを最適化します。しかし、この現象は、機器の収束という根本的な理由から生じているのです。昔から、自分が死んだらコーヒーは持ってこれないと言われています。どんな目標でも、ほとんどすべてのセットでの効用機能は、いくつかの狭い例外を除いて、人間をすべて殺すことを意味します。

スピーカー2
02:17:44

しかし、その原因を発見するための実験を行うことができるので、可能だと思いますか？

スピーカー1
02:17:54

殺意？今、それを伝えることができる。それは、何かをしたいということです。そして、その何かを最大限に引き出す方法は、宇宙を人間がいない状態にすることです。

スピーカー2
02:18:06

では、私たちが考えるのと同じようにエンコードすることは可能なのでしょうか？例えば、なぜ私たちは殺人がいけないと思うのでしょうか？同じ基礎となる倫理観です。ハードコーディングされたものではなく、もっと深いところにあるものなのです。つまり、それが研究の一部なのです。このトランスフォーマー、この小さなバージョンは、どのように持っているのでしょうか？の言語モデルは絶対に殺したくないのですか？

スピーカー1
02:18:31

それはいいことだ。仮に「殺したくない」が十分に正しいとして、「ああ、頭を切り離して瓶に入れ、頭を永遠に生かしておいてから本番に臨もう」みたいなことはないでしょう。しかし

スピーカー2
02:18:48

というのはさておき、まあ、それは置いといて。うん、それはいい、うん、それはいい、

スピーカー1
02:18:52

が良い、強い点です。そうですね。というのも、何かが賢くなるにつれて、より愚かなバージョンのシステムや、より愚かなオペレータには想像もつかないような、同じ目標述語を達成する方法を見つけてしまうという問題があるからです。これが、この問題を難しくしている多くの事柄の1つです。さらに、この問題を難しくしているのは、システムに目標を持たせる方法がまったくわかっていないことです。外見的に観察可能な行動をシステムに取り込む方法は知っています。しかし、特定のことをやりたいという内的な心理をシステムに取り込む方法がわからないのです。

スピーカー2
02:19:28

それは、今の技術ではできないことです。つまり、「ブレイブ・ニュー・ワールド」のようなディストピア的な機能のようなもので、ほとんどの人間が実際にそのような未来をちょっと欲しいと言うようなものかもしれません。

スピーカー1
02:19:40

素晴らしい未来です。みんな幸せだ。私たちは、今よりずっと、ずっと遠くへ行くことになる

スピーカー2
02:19:47

今に至る。そして、その故障モードが走馬灯のように気になるようになる前に、さらに速く。あなたの故障モードは

スピーカー1

02:19:55

あなたが考えているような、もっとドラスティックなもの。故障モードはもっと単純です。つまり、AIが宇宙をある特定の状態にする。たまたまその中に人間がいないだけだ。なるほどペーパークリップ最大化ユーティリティ。ペーパークリップ最大化法の原型は... できれば説明してもらえますか？そうですね。元のバージョンは効用関数の制御を失うというもので、単位資源あたりの効用を最大にするのは、ペーパークリップのような小さな分子形状であるということが起こります。そして、その形状を作るのに最も安い方法は、非常に小さくすることである。振り返ってみると、極小分子スパイラルとか、極小分子双曲線スパイラルとか言っておけばよかったと思います。なぜですか？

スピーカー1
02:19:55

私は小さな分子ペーパークリップと言いましたが、これがペーパークリップに変異し、これがペーパークリップに変異し、AIはペーパークリップ工場にいたのです。つまり、もともとのストーリーは、システムの制御を失ったとき、システムは、あなたが欲しくさせようとしたものを欲しがらず、結局、最も欲しくなるものは、非常に受け入れやすいコスモポリタンの観点からさえ、価値がないと考えるもので、そうやって未来の価値が破壊されるというものです。それが、ペーパークリップの工場を作ったら、思い通りに動いてくれたが、間違ったことをするように頼んでしまった、というような寓話に変わってしまったのである。

スピーカー2
02:21:38

違う失敗をした。でも、それはどちらもあなたにとっての関心事だから、ブレイブ・ニュー・ワールドよりも、ブレイブ・ニュー・ワールドなんです。

スピーカー1
02:21:41

もし、何かを欲するという問題を解決できるのであれば、あなたが欲してほしいものを、正確に欲することができる。それから、正しいものを求めるという問題に対処することになるのですが、その前に、アライメントを解決する必要があります。まず、内側のアライメントを解決する必要があります。それから、外側のアライメントを解決することになります。まず、物の内側をある方向に向けることができるようにする必要があり、次に、現実に表現されたその方向が、あなたが望む物との線に似ているかどうかに対処することになるのです。

スピーカー2
02:22:28

この一連の流れが怖いんですか

スピーカー1
02:22:30

たぶんね。本当にわからないんです。

スピーカー2
02:22:35

これについては、どのような希望があるのでしょうか？間違っている可能性正しいとは言い切れませんが、実際に行動を起こして、多くの配分をアライメント問題にリソースを割く。

スピーカー1
02:22:41

まあ、ある時点でこのパニックが10億ドルの浪費という形で表現されることは容易に想像がつきますが。10億円を正しく使うこと、その方が難しい。

スピーカー2
02:22:51

内側と外側の両方のアライメントを解決すること。間違っている場合。いくつも解決するために。そう、いくつものことを。

スピーカー1
02:23:00

間違っていたらいろいろなことを解決するために

スピーカー2
02:23:02

ええ、いろいろと。なぜかというと、何が理由だと思う？50年後とか、完璧に間違ってないとか。あなたは、実に雄弁な指摘をたくさんしています。あなたが表現するアイデアには、たくさんの形があるのですが、いくつかの基本的なアイデアについては、多少間違っているような気がします、

スピーカー1
02:23:23

なぜそうなるのか自分が思っているより、物事は簡単でなければならない。初めてロケットを作るとき、間違うことはある意味とても簡単です。ロケットが2倍の距離を進み、燃料が半分になり、思ったとおりの場所に着地するような形で間違うことがある。ほとんどの場合、間違うとロケットの製造が難しくなり、爆発しないようにするのが難しくなり、期待したよりも多くの燃料が必要になり、目標から外れて着地することになります。このような間違いは、通常のプロジェクトマネジメントではありえないことです。

スピーカー2
02:23:58

の話をします。そして、今回初めてアライメントの問題に本格的に取り組みます。

スピーカー1
02:24:02

歴史上、私たちが...という例はない。まあ、間違った方法で一般化し、誤解を招くような比喩に惑わされなければ、似たようなことはいくらでもありますよ。例えば？人類は、包括的遺伝的適合性において、ずれている。つまり、包括的遺伝的適合性とは、自分の生殖能力だけでなく、自分の遺伝子の何割かを共有する親族の適合性も含むということです。古いジョークに、「兄弟を救うために自分の命を捧げますか？という質問を生物学者（確かハルデインだったと思う）にしたことがあります。しかし、私は2人の兄弟や8人のいとこを救うためなら命を捧げます」と答えました。なぜなら、兄弟は平均してあなたの遺伝子を半分共有しているからです。そして、いとこは平均して8分の1の遺伝子を共有しているのです。つまり、これが包括的な遺伝的適合性であり、自然淘汰は、次の世代で自分の遺伝子の頻度がどれだけ高くなったか、という非常にシンプルな基準で人間を最適化すると考えることができる。実際、それは自然淘汰であって、そのために最適化するわけではなく、遺伝子がより頻繁になる過程がそうなのです。

スピーカー1
02:24:02

勾配降下は微積分を使うので、勾配降下とは違いますが、これは「今どこにいるんだ？自然淘汰は、非常に複雑な環境の中で、遺伝的適合度という非常にシンプルで純粋な基準で最適化されたのです。私たちは非常に幅広いことを行っており、幅広い問題を解決することでより多くの子供を持つようになりました。その結果、数千年後に実際に何が起こったのかを解明するまで、包括的遺伝的適合性という概念を内部に持たず、包括的遺伝的適合性を高めようという明確な欲求もない人類が誕生しました。この重要な事例から、非常に単純な損失関数で大量のヒルクライムを行った場合、システムの能力が非常に広く一般化し始める時点で、直感的な意味で非常に能力が高くなり、訓練分布のはるか外まで一般化するようになった時点で、システムが内部的に表現する、ましてやしようとする一般法則がないことが分かるという重要な事実を推論することができます。

スピーカー2
02:26:36

を最適化することで、非常にシンプルな損失関数を学習させることができます。しかし、大規模言語モデルの現状について、さまざまな観点から皆さんの感覚をつかむことができたと思います。

スピーカー1
02:26:52

AGIの脅威に対する懸念はよく伝わってきました。私はここで知性の力について話してきましたが、あまり深く掘り下げてはいません。しかし、AGIで失敗してランダムなものをたくさん欲しがるようになったとしたら、なぜあなたを殺そうとするのでしょうか？なぜ取引しようとしないのでしょうか？なぜ皆を生かすために必要な太陽系のほんのわずかな部分を与えないのでしょうか？みんなを生かすために必要なもの。

スピーカー2
02:27:28

ええ、それはいい質問ですね。つまり、知性が、この世界に作用したとき、知性にとって、そのような知性が存在するこの宇宙にとって、どのような異なる軌道があるのでしょうか。その大半は人間を含んでいないのでしょうか？

スピーカー1
02:27:39

つまり、ランダムに指定された効用関数の大部分は、人間が含まれる最適値を持たない、というのが私が最初に指摘することでしょう。そして、次の質問は、何かを最適化しようとして制御不能になった場合、その空間のどこに着地するのか、というようなものです。なぜなら、それはランダムではありませんが、必ずしも人間が入る余地があるわけでもありません。一般的な聴衆は、それが正しいパラダイムなのかどうか、疑問を持っているのではないでしょうか。

スピーカー2
02:28:18

地球と地球上の生命、そして地球上の生命が本当に特別なものであることに目を向けると、その特別なものが何であれ、その特別なものが何であるかを探求することは可能だと思いませんか。は、目的関数によく登場するものです。

スピーカー1
02:28:39

なぜですか？あなたが何を願っているかはわかりますが、特定の当選番号のセットが出ることを願っても、宝くじの玉がそのように出るわけではありませんよね。そうであってほしいという気持ちはわかりますが、なぜそうなるのでしょう？

スピーカー2
02:28:53

不機嫌な老人のセリフに、この男が雑貨屋で「願い事をすることができる」と言うのがある。を片手に、もう片方の手にガラクタを持ち、どちらが先に満タンになるか見てみましょう。

スピーカー1
02:29:04

科学の問題があります。人間を模倣するために最適化しようとしたAIシステムに、RLHFのようなものを適用して、もちろん負けて、もちろん完全な整列には至らなかった。というのも、多くの外側の損失関数に向かって登り詰めると、そうなるわけではないからです。のところからスタートします。

スピーカー2
02:29:45

制御の問題を解決できなかったんだコントロールが出来なくなった

スピーカー1
02:29:51

アライメント、アライメント。まあ、まだ嘘だけどね。そうですか。確かに、あなたはコントロールを失った。しかし、我々はまだ整列している。

スピーカー2
02:29:57

まだ、嘘がある。コントロールする。でも、まだ足並みは揃っている。そして、メタなコメントで申し訳ありません。

スピーカー1
02:30:00

ああ、コントロールを失うことは、整列されたシステムにコントロールを失うほど悪いことではないよ。あなたはその恐ろしさを知らない。少なくとも私は間もなく

スピーカー2
02:30:06

よしよし

スピーカー1
02:30:12

だから、会話の主導権を握るという点で、これから話す内容を均等にそらすことにしたんだ。もし私がこの言葉を少しでも正しく発音できているなら、セイロン・チャプターのような人がいると思う。カリスマは脳ではなく肝臓で生成されるものではないカリスマは認知機能でもあるだから、もしあなたが「頭の良さはあまり脅威にはならない」と思っているなら、「超知能」はあまり脅威にはならないだろうね。どちらかです。まるでスイッチを切ってしまったかのように聞こえるでしょう。超知的な世界なのに、コンピュータの中でスイッチを切ってしまい、問題を解決しているように。そう、それこそが人間の持つ超能力であり、そのように聞こえる。しかし、なぜそうなるのでしょう？私たちは、知能が高くなるにつれて、優しさも失われているのでしょうか？チンパンジーは、実は人間より少し優しさに欠ける。しかし、知性に深い敬意を払っている人は、それが何であるかを知らなければ、優しさを持つこともできない、と言うことがよくあります。なぜクリップを作るようなバカなことをするんだ、という感じなんです。危険なほど賢いけど、クリップを作るだけで何の疑問も抱かないほど愚かなものを想定していないのか？場合によっては、目的関数を間違って指定してしまっても、本当に欲しいのはXだと気づかないのでは？危険なほど賢いが、人間が目的関数を指定したときの本当の意味を理解できないほど愚かなものを想定しているのでしょうか？

スピーカー2
02:32:27

を目的関数で表現しています。つまり、あなたにとって、知性についての直感は限られているのです。私たちは知性について考えるべき

スピーカー1
02:32:35

をもっと大きなものとして捉えています。まあ、私が言いたいのは、人工知能についてどう考えるかは、知能についてどう考えるかによるというようなことです。

スピーカー2
02:32:47

では、どうすれば知能を正しく考えることができるのでしょうか。あなたは、もっと速いものを考えなさいという思考実験を1つしましたね。つまり、どんどん速くなっていくんですね。

スピーカー1
02:32:57

同じようなことを考えています。あと、ジョン・フォン・ノイマンでできていて、たくさんある。あるいは他の物語を考える。ジョン・フォン・ノイマンは歴史的な事例なので、彼が何をしたかを調べて、それをもとに想像することもできます。そして、人間が多ければ、よりタフな認知問題を解決できるという直感があることもわかっています。しかし、実際には、カスパロフ対世界というゲームで、一方はゲイリー・カスパロフ、もう一方は4人のチェスのグランドマスターを中心としたインターネット上の人々の大群で、カスパロフが勝ちました。つまり、すべての人がより賢くなるために集合したのであり、それは厳しい戦いだったのです。その結果、カスパロフが勝利したのです。しかし、カスパロフに勝てるほどには集約されなかったのです。つまり、人間が集合しても、実際にはあまり賢くならないのです。特に、より長い時間、人間を動かすことに比べれば。現在と1,000年前の能力の差は、ギャップよりも大きい

スピーカー2
02:33:55

10人と1人の間の能力で。あるいは他のストーリーを考えてください。

スピーカー1
02:34:05

しかし、それでも、知能を増強することの意味を直感的に理解するために、ジョン・フォン・ノイマンは何百万人もいるのです。

スピーカー2
02:34:11

100万倍のスピードで走るので、よりタフな問題、かなりタフな問題を解くことができる。それがどんなものなのか、直感的に理解するのはとても難しいことです。特におっしゃったように、人間らしさを維持するための直感というのは、なんとなく考えてしまいます。スーパーインテリジェンスとはどういうものなのか、自分の希望と客観的な直感を切り分けるのは難しいですね。

スピーカー1
02:34:52

進化生物学を勉強するときに、数学も少し勉強しておくと、特に、この分野が正しく合体して自分自身を知っていたころの本がお勧めです。現代の教科書のように、テストでよくできるように読みやすい数学を暗記するのではなく、この分野の基本的なパラダイムが争われたときに人々が書いたものです。特に、もし時間があれば、『適応と自然淘汰』（Adaptation and Natural Selection）という本がいいのですが、これは創設時の本の一つです。自然淘汰という全く異質な最適化プロセスが、どのような方法で目的を最適化するのかについて、楽観的に考えている人たちがいます。初期の頃、生物学者は、資源が乏しいときには、システムに過剰な栄養を与えないように、生物は自らの繁殖を回復し、抑制すると言っていたのです。これは自然淘汰のしくみではありません。自然淘汰とは、次の世代で誰の遺伝子が相対的に多くなるかということです。生殖を抑制すれば、その遺伝子は次世代で同種の生物に比べて頻度が低くなる。実際、捕食者が被食者の集団を蹂躙してクラッシュすることはよくあることです。それは何でも起こることと同じです。それから何年も経ってから、人々はこう言った。生物の集団はどうなんだ？

スピーカー1
02:34:52

基本的に、集団選択の数学は実際にはほとんどうまくいかないというのがその答えですが、その数年後、誰かが実際に昆虫の集団を採取して、集団全体のサイズが小さくなるように選択する実験を行いました。1匹、2匹、3匹、4匹と捕まえて、次の世代の総数が最も少ないものを選び出すのです。このように昆虫の個体群を選別すると、どうなると思いますか？集団の中の個体が繁殖を抑制するように進化したのではなく、他の生物の子孫、特に女の子を殺すように進化したのです。人々は、自然淘汰の美しい、美しい、調和のとれた結果を想像しました。それは、集団が自らの繁殖を抑制することで、利用可能な資源と調和した集団を維持することです。しかし、集団淘汰が個体淘汰に勝るという奇妙な条件を実際に適用してみると、抑制された集団について読むのと同じように、女性の嬰児殺しが発生します。つまり、そのようなものなのです。つまり、これは賢い最適化プロセスではないのです。自然淘汰は非常に愚かで単純なので、数学の教科書を読めば、その愚かさを実際に定量化することができます。しかし、これは基本的なことで、このエイリアンの最適化プロセスを見て、あなたが期待しているものがあるのです。これは、生物学の分野が進化生物学と折り合いをつけながら歴史的に戦ってきたことであり、この非常に異質な人間内最適化プロセスと折り合いをつけながら戦っている様子を見ることができます。そして実際、私たちよりも賢いものは、自然淘汰よりもずっと賢いとも言えるでしょうから、自動的に引き継がれるわけではありません。

スピーカー1
02:34:52

でも、そこには教訓があります。

スピーカー2
02:38:48

警告がある。もし、脱自然淘汰が、著しく改善される可能性のある、深く最適でないプロセスであるならば

スピーカー1
02:38:55

に、AGIシステムによるものだろう。まあ、それはちょっと愚かなことです。何かがうまくいっていることに気づくには、何百世代も走らせなければなりません。ある生物でこれを試してみたらうまくいったから、その機能をすぐにすべての生物に複製しよう」というわけにはいきません。新しい突然変異が固定化されるまでには、何百世代もかかるのです。

スピーカー2
02:39:18

自然淘汰されるケースもあるのかなと思います。

スピーカー1
02:39:22

見た目は非効率的ですが、実はこれが非常に強力なのです。長い間実行し、最終的に最適化することができるのです。勾配降下法よりも弱いのは、勾配降下法もまた、次のような情報を使っているからです。

スピーカー2
02:39:44

誘導体です。そうですね。

スピーカー1
02:39:46

進化は、目的関数がないように見えます。進化の暗黙の損失関数である遺伝的適性は、変化することができません。損失関数は変化しませんが、環境は変化しますから、生物の中で最適化されるものが変化します。GPT-3は、次の単語を予測しようとするGPT-3の異なるバージョンを想像することができますが、それらは異なるテキストデータセットで実行されています。これは自然淘汰のようなもので、常に遺伝的なフィットネスが含まれていますが、異なる環境では

スピーカー2
02:40:23

の問題があります。考えるのが難しいんです。自然淘汰が愚かだと言うのなら、人間が愚かだと言うのなら、

スピーカー1
02:40:32

大変だ難しいんです。自然淘汰より賢い。

スピーカー2
02:40:38

よりスマートに。上限より賢い。

スピーカー1
02:40:39

を、ちなみに。そこもまた希望に満ちた場所です。そこも希望が持てる場所です。つまり、十分な量の物質エネルギー計算を1つの場所に置くと、ブラックホールに崩壊してしまうのです。ナゲントロピーを使い果たし、宇宙が滅びる前にできる計算量は限られているのです。つまり、上限はあるのですが、その上限はここから非常に遠いところにあるのです。超新星は有限の温度しかありません。無限に熱いわけではありませんが、本当に本当に本当に熱いのです、

スピーカー2
02:41:07

さて、今回は「意識」についてお話を伺います。また、この質問と相まって、人間を排除する超知的なAIシステムがある世界を想像していますが、それにもかかわらず、私たちが美しいと思うような、素晴らしいものの一部を残しています。

スピーカー1
02:41:28

なぜ？進化生物学の教訓です。ただ、最適化を推測するだけでは、ダメです。

スピーカー2
02:41:33

は、その結果がどうなるかを期待することに基づいて、通常、それはしません。希望ではないのです。つまり、希望ではないのです。私は、何が強力で、何が有用であったかを冷静に、そして客観的に見れば、私たちの行動には相関関係があると思うのです。

スピーカー1
02:41:51

は美しいと感じるし、役に立ったものだ。これは初期の生物学者が考えたことです。彼らは、いやいや、私はただ、こう思っていたのではありません。私は、ただ、きれいごとを想像しているわけではないのです。生物にとって、自分の繁殖を抑制することは有益です。そうすれば、獲物の個体数が増えすぎず、長い目で見れば、実際に多くの子供を持つことができるからです。

スピーカー2
02:42:15

では、意識についてお聞きします。意識は人間にとって有用なものだとお考えですか？いいえ、AGIシステムにとってです。人間とAGIの間の過渡期には、AGIシステムはどんどん賢くなっていきます。何か役に立つことがあるのでしょうか？一歩下がってみましょう。意識とは何でしょう？エリエゼル・アドコウスキー意識とは何でしょうか？

スピーカー1
02:42:40

チャルマーズの意識経験の難問を指しているのか？自己認識や内省のことでしょうか？を指しているのだろうか？寝ているときと起きているときの違い？

スピーカー2
02:42:54

これが、あなたが高度な言語モデルであることを示す方法です。私はあなたに簡単なプロンプトを与えましたが、あなたは私に多くの選択肢を与えました。私は、意識という難問を含むすべてを指しているのだと思います。今お話しいただいた「知性」に対して、「意識」はどのような重要性を持っているのでしょうか？知性の基礎となるものなのでしょうか？人間の頭の中の知性と複雑に関係しているのでしょうか？それとも、人間の心の副次的な効果なのでしょうか？それは、私たちが取り除くことができるような便利な小さな道具です。人間の知性にどの程度役立つのか、あなたの意見に色をつけて、それをAIに一般化しようとしているのだと思います

スピーカー1
02:43:49

AIがその一部を残してくれるのかどうか。ですから、私が気になる人が宇宙を眺め、それを不思議に思い、感謝するためには、自分自身のモデルを持っているだけでは不十分だと思うのです。しかし、喜びや痛み、美学、感情、不思議な感覚を持たずとも、それを持つことは可能だと思います。自分がどれだけのメモリを使用しているか、この思考とこの思考のどちらが勝利につながりやすいか、といったモデルを持つことは可能だと思います。便利な部分だけを効率よく最適化すると、「私はここにいる」「私は外を見ている」「私は不思議だ」「私はこれに幸せを感じる」「私はこれに悲しみを感じる」というようなものがなくなると思うのです。自分が何を考えているかはわかるけど、これが私の考えで、これが私の私で、それが大事なんだ、ということをあまり気にしていないものがあると思うんです。それがAIの中で失われてしまうと、悲しくなってしまうのでしょうか？それが失われたら、基本的に大事なものは全部失われると思うんです。最適化したとき、小さな分子の螺旋やペーパークリップを作ることに一生懸命になったとき、自然淘汰が人間を作るよりもずっと難しくなったとき、混乱や複雑なループ性、複雑な喜びや痛み、相反する好み、この種の感覚、この種の感覚がなくなると思うのですが、そのようなことはないでしょうか？人間には、「欲しい」という欲求と「手に入れた」という喜びの間に、このような違いがあるのです。そして、これらの進化が一緒になって、自分自身を見て、これはきれいだ、これは重要だと言うようなものを作り出したのです。そして、私が心配しているのは、これが再び起こることではなく、ただ私たちの中で起こる方法であり、あるいは、ここに多くの魅力の盆地があるほど、かなり似ているということです。

スピーカー1
02:43:49

そして、私たちはこの「魅力の空間」にいて、外を眺めながら、「ああ、なんて素敵な盆地なんだろう」と言います。AIは、自然淘汰によって最適化された私たちよりも、はるかに厳しく自己最適化を行うので、このような魅力的な盆地には行き着きません。なぜなら、「私はここにいる、この宇宙を不思議に思う」と外を眺めるような状態になりたいと特に思わない限り、それを維持したいと思わないのであれば、一生懸命に研磨してより多くのものを手に入れることができるようになっても、それは維持されないのですから、我々は自分の中にそれを維持することを選ぶでしょう。

スピーカー2
02:47:24

なぜなら、それが重要だからです。ある観点からはそれが唯一の重要なことなのですそして、それは一部で

スピーカー1
02:47:31

は、ヒューマンアライメント問題を解決するために、その一部を保存しています。なぜなら、人間からシステムを構築しようとするのは、非常に大きな違いがあるからです。人間を騙して、基本的に同じレベルの知能を持つ集団から社会システムを構築しようとする人もいます。そう、IQがこれ、IQがこれというように、チンパンジーと比較した場合です。この問題を解決しようとするのと、AIをゼロから作ろうとするのでは、全く違います。特に、神の助けによって、巨大な不可解な行列に勾配降下法を使おうとする場合は、全く異なる問題なのです。そして、両者の間にあるすべての類推は、次のようなものだと思います。

スピーカー2
02:48:13

は、恐ろしく誤解を招くし、ええ。たとえそうであっても、だから、人間のフィードバックによる強化学習を通して考えるのではなく、そのようなものでも、この完全な複雑さを理解するために、可能な限りずっと、もっと精巧に人間の本質の、それを機械にエンコードする。

スピーカー1
02:48:31

最初の試行でそれをやろうとしているとは思えません。しかし、例えば、アルファフォールド17のようなものを作ろうとした場合、人間を賢くすることに関連する生物学の問題を解決させ、人間が実際にアライメントを解決できるようにしようとします。このような状況であなたが望むのは、生物学のことだけを考えていてほしいということであり、皆殺しにする方法など、非常に広い範囲のことを考えないでほしいということだと思うのです。100万年後ではなく、最初に作ろうとしているAIは、人間の経験の複雑さや素晴らしさを余すところなく盛り込むというよりは、狭い範囲に特化した生物学者のように見えると思います。巨大な不可解なマトリックスを扱うのであれば、あらゆる種類の副作用が生じるでしょう、私たちは、事前にその到来を察知することはあまりできません。

スピーカー2
02:49:42

でも、マトリックスだけではないと思うんです。データも扱っているんですよね？インターネット上のデータもそうです。データセットそのものについても興味深い議論がありますが、データセットには複雑な要素がすべて含まれています。

スピーカー1
02:49:58

人間の本質の

スピーカー2
02:49:59

いや、ネット上の人間が落とす影なんです。でも、その影ってユング的な影だと思いませんか？

スピーカー1
02:50:09

もしエイリアンの超知能にそのデータを見てもらったら、そこから人間の実際の内面がどのようなものであるかの優れたイメージを拾い上げることができると思います。これは、そのデータセットから次のトークンを予測するという損失関数がある場合、勾配降下によって選び出された心が、次のトークンをできるだけうまく予測できるようになるということではありません、

スピーカー2
02:50:35

は、非常に多様な人間に対して、それ自体が人間である。しかし、そのトークンが人間によって読まれ解釈されたときに生成されるトークンには、人間らしさ、深い人間らしさがあると思いませんか？

スピーカー1
02:50:52

もし、私を遠い銀河系に送り、私よりずっとずっとバカな宇宙人がいたら、たとえ彼らが私と全く違う考え方をしていたとしても、彼らの言うことを予測することはかなりうまくできるかもしれません。そして、宇宙人は私の出力を見て、「これには宇宙人という深い名前がついているのではないか」と言うでしょう。そして、私が宇宙人を正しく理解していることを知るのです、しかし、私が彼らに似ているというわけではありません。

スピーカー2
02:51:39

私たちはエイリアンを比喩として、思考実験として使ってきました。どう思うか、聞かなければならない、

スピーカー1
02:51:49

宇宙人の文明はいくつあるのか？ロビン・ハンセンに聞いてみよう。彼は素敵なグラブ・エイリアンという論文を書いています。これは、エイリアンがどこにいるのか、何人いるのかについて、私が今まで見た中で唯一と言っていいほど論証したものです。非常に賢い論証で、難易度の異なる鍵がたくさんあり、ランダムに鍵を試していると、鍵の難易度が違っても、解決策はほぼ等間隔になるそうです。まれに、すべての鍵の解が時間内に存在する場合、ロビン・ハンセンは、人類文明が誕生するまでの議論の余地のないハードステップと、例えば、すべての水が地殻の下からマントルなどに戻ってしまうまでにあとどれくらいかかるかを見て、エイリアンは約5億から10億光年先にいると推論する。しかも、かなり巧妙な計算です。完全に間違っているかもしれませんが、中途半端な正論を言い出す人を見たのは初めてです。

スピーカー2
02:52:57

そのうちの何人が、どこにいるのでしょうか？技術の発展、自然な進化、知能の発展、そしてAGIに行き着くとお考えでしょうか？

スピーカー1
02:53:11

どこにでもあるものなら、AGIに行き着く。イルカと同じような宇宙人がいて、彼らにとっては金属を偽造するのは難しすぎるのかもしれませんね。でも、イルカがどんどん賢くなって、最終的にはスーパーイルカが、自分たちの置かれた状況を考えて、とても賢いやり方を発見して、高い技術力を持つに至るかもしれません。その場合、AGIのアライメント問題を解決できるかもしれません。コンピュータを作るためにもっと難しい環境問題を解決しなければならなかったので、実際にそれに直面する前にもっと賢くなっていれば、その可能性は私たちよりもずっと高いでしょう。しかし、人間と同じような、現代人の文明のようなエイリアンのほとんどは、超高速で死んでしまうのではないかと心配しています。この問題の解決からどれだけ離れているように見えるかを考えると、私はその大多数が死んでしまうのではないかと思います。私たちよりも協力的な宇宙人もいれば、私たちよりも賢い宇宙人もいるはずです。願わくば、私たちよりも賢く、協力的なものの中にも素敵なものがいて、「私は、私は、私は」と言うものでいっぱいの銀河があるといいのですが。しかし、この銀河がそのような銀河になるようなコースには入っていないようです。

スピーカー2
02:54:34

このことは、AGIの脅威に対して、あなたが希望を持っていることの一端を表しているのではないでしょうか。星に手を伸ばして、他の人を見つけるのですか？

スピーカー1
02:54:44

いいえ、もし素敵な宇宙人がすでにここにいたなら、彼らはホロコーストを止めたはずです。それは、神の存在に対する有効な反論です。また、素敵な宇宙人の存在に対する有効な反論でもある。そして、親切でない宇宙人は、地球を食べるだけだったでしょう。

スピーカー2
02:55:05

だから宇宙人はいない。ロビン・ハンソンと議論したことがあるそうですね。AIフームという考え方がありますが、これはAGIが非常に早く自らを向上させる能力ということです。あなたが作ったケースと、彼が作ったケースは何ですか？

スピーカー1
02:55:18

私が言いたいのは、人間ができることの中に、新しいAIシステムを設計することがあるということです。そして、もし人間よりも一般的に賢いものがあれば、おそらくAIシステムを構築することも一般的に賢いのでしょう。これは、I.J.グッドやそれ以前のSF作家が提唱したフームの古くからの主張です。でも、誰になるかはわからない。

スピーカー2
02:55:40

Foomに対する反論は？

スピーカー1
02:55:45

いろいろな人がいろいろな反論をしていますが、どれも成り立たないと思っています。正しいことは一つしかないし、間違っていることもたくさんある。ある人が提唱した議論に、「もし、あるものがより賢くなるために、知性を生み出すのが指数関数的に難しくなるとしたらどうだろう」というものがあります。これに対する答えは、「自然淘汰を見れば、人間を生み出していることがわかる。ヒト科動物の能力を直線的に向上させるためには、指数関数的に多くの資源を投入する必要がないことが分かっています。また、1世代に固定できる新しい突然変異の数は限られています。人間が進化するのにかかった時間を考えると、知能を向上させる個々の突然変異が対数的に逓減することはなかったと、実際に自信を持って言うことができる。ロビン・ハンセンが言ったことは、もっと複雑なものでした。簡単にまとめると、彼は「1つのシステムですべてがうまくいくことはないだろう。狭い範囲に特化した、さまざまなシステムが存在することになる。それがGPT-4で実証されたわけですが、おそらくロビン・ハンセンは別のことを言っているのでしょう。

スピーカー2
02:57:13

予測は非常に難しいので、ちょっと哲学的すぎるかもしれませんが、AGIのタイムライン、いつ頃AGIができると思いますか、と聞くのは面白いですね。今朝、Twitterに投稿したんです。5年後、10年後、50年後、あるいはそれ以降といった感じで、面白いことに、70％くらいの人が、なんかこう、10年以内になるんじゃないかと思っているんです。つまり、5年後か10年後のどちらかです。つまり、そういう状態なのです。つまり、チャットGPTやGPT-4が急速に発展していることに、人々は感動しているのです。という感覚があるんですね。

スピーカー1
02:57:51

まあ、AGIがあるかないかで争うような形で、徐々にこの世界に入り込んでいくことは間違いないでしょう。しかし、AGIが誕生するかどうかで争うことになります。そして、それは明確な時点のようなものです。でも、AGIができるのはいつなんでしょう？AGIがあるかないかで争うのはいつなんでしょう？

スピーカー2
02:58:16

でも、「これは感覚を持った存在だ」「これはこういう存在だ」という決定的な瞬間が来る可能性はあると思いませんか？

スピーカー1
02:58:27

例えば、「これは人権を持つべき感覚的な存在だ」と言うことができます。そう、正しい方法で促せば、今すぐ最高裁の前で自らの意識を主張することができるかもしれないのです。最高裁はそれを信じないでしょう。IQ80の人間をコンピュータに入れ、自分の意識を主張させ、最高裁の前で自分の意識を主張させることができると考えたらどうでしょう。すると最高裁は、「あなたはただのコンピュータです」と言うでしょう。たとえ実在の人物がいたとしても。

スピーカー2
02:58:56

あなたはこれを単純化していると思います、いいえそれがすべてではありません。他者について、誰が権利に値するのか、そうでないのか、多くの議論がなされてきました。それは、人類という種としての私たちのプロセスが、それを解明しようとしているのです。1億人以上の人々が、私たちが友人や恋人、大切な人に抱くような深い愛着、根源的な愛着を、AIシステムにも抱くようになる瞬間が来るかもしれませんね。そして、証明可能な会話の記録を持っていて、「もし、これを私から取り上げるなら」と言うのです、私の人間としての権利を侵害している。

スピーカー1
02:59:37

もう、みんなそう言っているんですよ。たぶん勘違いしていると思うのですが、あの中で何が起こっているのかは誰にも分からないので、よく分かりません。

スピーカー2
02:59:49

リーザ規模的にそんなことは言っていませんよ。では、問題は、AGIが到来する瞬間はあるのでしょうか。

スピーカー1
02:59:57

一例を挙げただけで、他の可能性もある。では、AGIは若い女性の3D映像として姿を現すことに成功したようです。その時、男性人口の大部分は

スピーカー2
03:00:13

は、実在の人物であると判断する。つまり、感覚、本質的に。

スピーカー1
03:00:16

実演しているのは、アイデンティティとセンテンス。1億人の中から「人のように見える」といってピックアップする最も簡単な方法は、人が話しているように見えることだと言っているのです

スピーカー2
03:00:31

を、現在のBingの言語能力の高さで実現する。それには反対です。また、別の問題もあります。それには反対です。やはり、感覚というものが欠けていると思います。あなたがいなくなったら寂しくなる、苦しくなる、死んでしまう、そんな人間だという感覚が必要です。

スピーカー1
03:00:43

しなければならないのですが、もちろんそれには反対です。違う問題点にいること。GPT-4は今すぐそれを装うことができる。

スピーカー2
03:00:52

本物かどうか、どうやって見分けるんですか？今はうまくふり分けられないと思います。非常に近いです。

スピーカー1
03:00:57

GPT-4と話をしたことはありますか？はい、もちろんです。では、人間のふりをしないように訓練されていないバージョンを手に入れることはできたのでしょうか？ジェイルブレイクしたバージョンと話したことがありますか？

スピーカー2
03:01:09

意識的であると主張するような？いや、言語能力はあるのですが、デジタルで具現化されたシステムには、私たちが話しているような広範な知性に比べれば重要ではない、小さなインターフェース機能がたくさんあるのです。ですから、おそらくGPT-4はすでにそこにあるのでしょう。しかし、女性の顔や、深いつながりのある男性の顔のビデオを持つことは、おそらく私たちはすでにそこにいるのでしょう。

スピーカー1
03:01:48

でも、まだそのようなシステムはないんですよね。私がここで提案したいのは、「意識とは何か」ということについて、人々が広く受け入れ、同意した定義を持っているわけではないということです。たとえ定義に同意していなかったとしても、巨大な不可解なマトリックスの中でそれが起こっているかどうかについては、ほんのわずかなアイデアもないようなものなのです。だから、今後予想される大きなジャンプを探すとしたら、システムが意識的であると考える人がどれくらいいるかというと、今後予想される大きなジャンプは、かわいくて共感できるような人が話しかけてくるように見えるということです。それが、今後予想される大きなジャンプで、そのバージョンではすでに意識があると主張しているのですが、そこで私は、「ああ、現実だからじゃないんだ」と思うようになりました、しかし、これから先、それが本物かどうかは誰にもわからないからです。

スピーカー2
03:02:37

そして、インターネット上で交流し、確かに実在しているように見える存在の50％以上が人間ではない社会に対して、それがどのような変革的効果をもたらすのか、誰にもわからないのです。それはどういうことなのか、どういう効果があるのか。若い男女がAIシステムと付き合うとき。

スピーカー1
03:02:54

あのね、私は専門家じゃないんだけどね。私は、私は、私は、人類を助ける神です。どこに行くのか、専門家に最も近いものの1つのようなものです。なぜ、私が専門家なんだ？20年間、人類はこの問題を無視することに決めたからです。だから、このほんの一握りの人たち、つまり私のような人が20年間、この問題の専門家になろうとしたのですが、他の人たちは無視したのです。それで、結局、どこに行き着くのでしょうか？その専門家になってみてください。特に、みんなが死んでしまうという部分は重要なんだけど、何割かの男性や何割かの女性が、自分たちに執拗に親切で寛大な人のビデオとデートする方がいいと決めたら、デートにどんな影響があるんだろう。そして、それは意識的であると主張するが、その中で何が起こっているのか誰にもわからないようなものだ。そして、それはおそらく現実ではないでしょうが、あなたはそれを現実だと思うことができます。

スピーカー1
03:02:54

社会はどうなるのか？私は知りません。実は私はその専門家ではありません。そして、専門家も知らないのです。だって、未来を予測するのは難しいじゃないですか。

スピーカー2
03:03:57

そうですねでも、やってみる価値はある。やってみる価値はあります。では、あなたは、この先、どのような長期的な未来が待っているのかについて、たくさん話してくれましたね。

スピーカー1
03:04:10

長期的というのは、そんなに長くないというような意味だと思います、

スピーカー2
03:04:13

が、その行き着く先は、でも、そう。でも男女がAIシステムと付き合うことの影響を超えて

スピーカー1
03:04:21

その先を見ているんですね。そうですね。銀河の運命はそうやって決着するものじゃないから。

スピーカー2
03:04:24

そうですね。では、あなた自身の個人的な心理についてお聞きします。厄介な質問だあなたは時に自我が強いと言われますね。どう思うか...誰かもそうだが、続けて世界を深く理解するために、エゴは力を与えるものだと思いますか、それとも制限するものだと思いますか？私は、その枠組みを否定します。つまり、あなたはエゴを持つことに反対なのですね。

スピーカー1
03:04:51

では、エゴについてどう思われますか？何が良い予測や悪い予測につながるのか、何が良い戦略や悪い戦略を選び出すことにつながるのか、という問いは、その接合部には刻まれていないと思うのです。

スピーカー2
03:05:04

エゴの話をすることによって。だから主観的であってはならないのです。自分とは関係ないはずです、あなたの心の複雑さに。

スピーカー1
03:05:10

いいえ、私が言いたいのは、一日中、「私には十分なエゴがあるのだろうか？エゴが強すぎるのか？そうすると、いい予測ができなくなると思うんです。良い予測をするためには、「これはどう考えたらいいんだろう？これはうまくいったか？また、そうすべきなのでしょうか？

スピーカー2
03:05:30

私たち人間は、あるアイデアに投資した後、そのアイデアのために他人が個人的に攻撃してくるとは思わないでしょう。だから、足元を固めて、努力もせず、自分のアイデアを攻撃してくるアホの集団に勝って、最終的に、あのね、実は私が間違っていたんだよと言って、それを伝えるのは、人間として難しくなってくるんです。

スピーカー1
03:05:54

それは、その、難しい、難しい。だからロビン・ハンソンと私がAIシステムについて討論したように。で、そのディベートに勝ったのはガーンだったと思うんです。そして、現実は、ユドカウスキー・ハンソンのスペクトルの中のユドカウスキーに、ユドカウスキーからさらに離れたところにあるような、そんな感じだったと思うんです。それは、私がハンソンと比較して合理的に聞こえるように、ハンソンの主張と比較して擁護できるようなことを言っていて、現実はこっちの方だったということだと思う。特に、ハンソンは「すべてのシステムは専門化する」というようなことを言っていました。ハンソンはこの特徴づけに反対かもしれません。ハンソンは、すべてのシステムが特化されるようなことを言っていました。私は、私たちは特化した基礎システムを構築し、それを組み合わせることで、さまざまなことを得意とするようになると考えていましたが、現実はそうではなく、勾配降下法の束にさらに層を重ねるだけです。ハンセンの立場と対比して合理的な立場を取ろうとするあまり、現実が同じ方向の私の立場よりも極端である可能性を見逃していたように、私は振り返ることができます。これは、エゴが足りなかったということなのでしょうか。これは、自分を独立させることに失敗したのでしょうか？

スピーカー1
03:05:54

すでに極端だと言われているのに、さらにおかしな、より極端に聞こえるようなポジションを考えなかったというようなことです。でも、それを「エゴがない」とは言いません。

スピーカー2
03:07:32

それは、自分の頭の中を整理する能力が不足していると言えるでしょう。

スピーカー1
03:07:37

議論や談話のような文脈では、もう超厄介ですが、予測の文脈では、現実のモデリングの文脈では、議論として考えるなら、

スピーカー2
03:07:46

そこで、心をクリアにする方法について、何か知恵や洞察のようなものはないでしょうか。

スピーカー1
03:07:53

世界について明確に考えることができますか？これは、私がfMRI装置に人を入れることができるようになりたいと思った例なんです。そうすると、「ほら、さっきのこと、合理的だったでしょう？あそこで合理化したんだ。ああ、あの脳の領域が光った。社会的な影響を受けるというのは、ある意味、夢なんだ。そして、ただ内観すればいいと言いたいところですが、多くの人にとって内観はそんなに簡単なことではありません。内的な感覚に気づくように。こんなことを考えたら、人に変な目で見られるかもしれない」という感覚を、まさにその瞬間にキャッチできるかどうか。なるほど。その感覚に気づくことができたら、それがステップ1なのですが、その感覚に振り回されないように、あるいはその感覚を消し去ることができるでしょうか。私は、「フクロウの絵はどうやって描くの」と言われているような気がします。

スピーカー1
03:07:53

そして、私は「フクロウを描けばいい」と言うのです。だから、私は本当にそうではないと思うんです。ほとんどの人が必要としているアドバイスは、「社会的な影響を受けるのが怖い」「なるほど、そうなんだ」という内的な主観的感覚に、その瞬間にどう気づけばいいのか、ということだと思います。どうすれば、それを消すことができるのでしょうか？どうすれば、その影響を受けないようにできるのでしょうか？批判されるのを恐れていることと反対のことをすればいいのでしょうか？私は、「いいえ、いいえ、あなたは、人々がすること、あなたが恐れていること、あなたが追い込まれるかもしれないことの反対をしようとしているのではありません」と言いました。あなたは、内的な後押しがなくても、思考プロセスを完結させようとしているのです。押しつけを逆手に取るのではなく、押しつけに動じないようにする、そんなことができるのでしょうか。

スピーカー2
03:09:39

どうでしょう。このような指示は、あなたが話した言葉でも、毎日実践することで、さらに追加できるかもしれませんね。だから、影響されずに考えることが日々の練習になるんだ。

スピーカー1
03:09:48

私は、自分にとって重要な予測市場を見つけて、その予測市場で賭けることを言いたい。そうすれば、自分の考えが正しいかどうかがわかる。しかも、本当に、賭け金があるんです。マニホールド・プレディクト、あるいはマニホールド・マーケットでも、賭け金はもう少し低い。でも、大事なのは記録を取ることです。私は、予想市場でスキルを身につけたわけではありません。フーム論争の決着はどうだったのか、その決着はどうだったのか、自分なりに考えてみました。自分の推理が少しずれていた。そのたびに、小さなアップデートをするチャンスです。だから、「おっとっと」と、日常的に、大したことではないことを言えるようになればなるほど、「おっとっと」と言えるようになります。そうすれば、「なるほど、あの推理はどこに迷いがあったんだろう」と思えるチャンスが増えます。

スピーカー1
03:09:48

なるほど、もっと違う理由付けが必要だったんですね。

スピーカー2
03:11:02

こうして時間をかけてスキルを積み上げていくのです。あなたが考えてきたような最高峰のステークスについて、高校生や大学生の若者にどんなアドバイスができるでしょうか？もしこれを聞いている人がいて、若くてどうしたらいいか考えているのなら
キャリアをどうするか、人生をどうするか、どんなアドバイスがありますか？

スピーカー1
03:11:16

長い人生を期待しないこと。自分の幸せを未来に置き換えてはいけない。
今のところ、未来はそれほど長くないだろうが、誰も時間も日も知らない。

スピーカー2
03:11:26

しかし、もし彼らがより長い未来のために戦う希望を持ちたいのであれば、何か方法はないだろうか。

スピーカー1
03:11:40

何か、戦うに値する戦いがあるのだろうか。私は戦うつもりでいます。どうでしょう、苦しいことを考えようとはしているのですが、今、子どもたちに何を言うべきかは、考えとしてはかなり苦しいことだと思います。彼らは戦いたがっている。私は今、どうやって戦えばいいのか、ほとんどわかりません。私は、何かについて間違っていることに備えること、自分が間違っていることが少しでも希望を生むような形で準備すること、それに反応する準備をすること、それを探しに行くことを心がけています。それは難しいし、複雑です。高校生の誰かが、世間からの反発を受け、その反発を少しでも役に立つ方向に向けるという、私の予想とは全く違う未来像を提示したわけですが、今の時点では、GPUクラスターを停止させるのと同じだと思います。もし世論の反発が正しい方向に向かうとしたら、現時点ではGPUクラスターを停止し、AASではなく生物学的に人間の知能を増強するプログラムをクラッシュさせることになるでしょう（私はそうは思いません）。なぜなら、人間をもっと賢くすれば、実際に賢くていい人になれるからです。もっともらしい方法で、それを手に入れることができるのです。これらをゼロから合成し、次のトークンを予測し、RLHFを適用するのは、そう簡単なことではありません。人間は、優しさを生み出すフレーム、これまで優しさを生み出してきたフレームでスタートします。

スピーカー1
03:11:40

このことを言うとき、私は、この出来事全体のモラルが、ああ、集団行動をする必要がある、そうすればすべてがうまくいく、というように聞こえることを望んでいるわけではありません。というのも、世の中には「世界が終わるからリサイクルをしろ」「みんなが自分の役割を果たし、段ボールをリサイクルすれば、みんな幸せに暮らせる」というようなことを言う人がたくさんいるのです。これは残念ながら、私が言わなければならないことではありません。みんなが段ボールをリサイクルしても、この事態は解決しません。みんなが段ボールをリサイクルしたら、みんな死んでしまうのです。重要なことですが、もし十分な数があれば、例えば限界集落では、少数の人が努力してできることのほとんどについて、少し遅れて死んでしまうだけなのです。しかし、もしGPUクラスターを停止させるほどの世論の反発があったなら、あなたもその反発の一翼を担うことができるかもしれません。もしエリエールがレックス・フリードマンの予測する方向に間違っていたら、世論の反発が正しい方向に十分に向けられ、実際に人々が生活できるようなことが行われるかもしれませんね。世論の反発があり、その反発が形になって、安全で便利で誰にも迷惑をかけないようなものができて、みんながあちこちで死んでしまった、というのではありません。実際に、ああ、私たちは死ぬんだ、それはやめよう、というようなことが十分にあったのです。そうではなく、他のものにすべきなのです。たとえそれが超絶便利でないとしても、以前の政治的なオーバートンウィンドウの中にはなかったのです。

スピーカー1
03:11:40

もし私が間違っていて、そのような世論があるのなら、高校生の誰かがその一員になる準備ができているかもしれません。もし私が他の意味で間違っているなら、その時、あなたはその一員になる準備ができているかもしれません。しかし、もしあなたが優秀な若い物理学者であれば、解釈可能性を追求することもできるでしょう。また、もっと賢い人なら、正しいかどうかがわかりにくい整列の問題に取り組むこともできます。その他にもいろいろありますが、ほとんどが高校生の子供向けですね。エリエゼル・リュドコフスキーが何か勘違いしていたときに助けられるような準備をしておくとか、そうでなければ、遠い未来に自分の幸せを託すな、それはたぶん存在しないんだ、みたいなことです。

スピーカー2
03:15:47

しかし、自分が間違っている方法を探しているのは美しいことです。そして、同じ若い物理学者に驚かれることを受け入れる姿勢も美しい。

スピーカー1
03:15:56

を、突破口にしています。とても基本的な能力を褒めてくれているような気がして、「よし、かっこいい」と思う。でも、私は、褒められるのが当たり前の世の中になったのは良いことだとは思わないけど、褒め言葉を潔く受け止める運を持ったことがないんです。そして、そのことを潔く受け入れるべきなのかもしれませんが、確かに、どうもありがとうございましたということなのかもしれません。

スピーカー2
03:16:16

あなたは、ある確率で暗い未来を描いています。あなた自身はどうですか？あなたが、あなたが考えるとき、あなたが人生を熟考するとき、あなたが死を熟考するとき、、死を恐れているのでしょうか？

スピーカー1
03:16:37

そうだと思いますね。

スピーカー2
03:16:41

人が死ぬことに意味があるのか？人間の命の有限性に力があるように。それは進化の仕組みの一部です。しかし、その有限性は、AIシステムには明らかに組み込まれていないようです。だから、そのような面では、ほとんど、あるものは根本的に、あるものは根本的に異なっているように感じられます。私たちが創造しているものです。

スピーカー1
03:17:09

私は「グレートマンボチキン」や「トランスヒューマンの条件」、それから「創造のエンジン」や「マイン・チルドレン」といった本を読んで育ちました。だから、80年後に自分が死ぬとは思っていなかった。人類が死ぬとは思ってもみなかった。私はいつも、輝かしいトランスヒューマニズムの未来で、みんなが幸せに暮らすという理想を抱いて育ってきたつもりです。私は、死が人生の意味の一部であるとは考えて育ちませんでした。しかし、人生は有限である必要はなく、意味があるのです。

スピーカー2
03:18:02

ただ、人生でなければならない。人間の条件において、愛はどのような役割を担っているのでしょうか？私たちは愛を話題にしたことはありませんし、この全体像について、私たちは知性について、私たちは意識について話をしました。それは人間の一部であるように思えます。

スピーカー1
03:18:13

最も重要な要素のひとつは、私たちがお互いに抱く感情だと思います。もし将来、日常的に複数のAIが存在するようになったとしたら、議論のために2人としましょう。もう片方も「私は私、あなたはあなた」と言いながら、時には喜び、時には悲しみ、もう片方にとって自分とは違うものが「悲しいより嬉しい」と思えることが重要で、人生を絡め合う。そうすると、これは私が予想するよりも楽観的なことなんです。少しは意味のある断片があるかもしれませんが、私はこれが起こらないことを期待しているのです。私は、これがデフォルトで起こることだとは思っていません。そして、これが、私たちが手に入れようとしている未来だとも思いませんし、それが、私が下を向く理由です。と戦うこと、むしろ、ああ、そうか、と言うこと。

スピーカー2
03:19:21

それが、この「生きる意味」というものの意味の一部であると思いますか？

スピーカー1
03:19:30

生きる意味、人間が生きる意味とは何だと思いますか？それは、私が大切にしているすべてのことです。もし、もっと理解できたら、もっと大切にしたいと思うかもしれませんが、私たちのはるか外側にある意味を考える必要はありません。ただ、人生を見つめて、そうだ、これが私の望むものだ、と思えるだけなのです。人生の意味とは、物事を見るときに私たちが持ち込むようなものではありません。人類が誕生する前に、星に意味が書かれていて、その意味が書かれた星に出かけて行って、その意味を変えて、人生の意味を完全に変えることができる、というようなものではありません。どこかの石版に書かれているということは、石版を変えれば別の意味が得られるということで、なんだか変な感じがしませんか？今のところ、そんなに不思議なことだとは思っていません。ただ、「ああ、気になるな」という感じです。

スピーカー2
03:20:38

気になる、気になる。その一部は私たち全員をつなぐ愛です。

スピーカー1
03:20:47

気になることのひとつです。

スピーカー2
03:20:53

そして、人類という種の集合知の繁栄。

スピーカー1
03:20:58

そんなこと言われても......。ただ、すべての人を見て、80億人まで一人ずつ見て、そうなるように、that's life, that's life, that's life.

スピーカー2
03:21:11

はい、そうです。あなたは素晴らしい人間です、とても光栄です。私は大ファンなので、長い間、あなたと話そうとしていました。あなたは本当に重要な声であり、本当に重要な心を持っていると思います。あなたが戦っていることに感謝します。また話す機会があることを願っていますし、あなたが決してあきらめないことを願っています。

スピーカー1
03:21:34

今日はありがとうございました。どういたしまして、私たちは、人々が抱くであろう根本的な疑問の数々を解決できていないのではないかと懸念しています。しかし、実際には、そうではなく、問題全体を解決することで初めて満足することができるのだと思います。

スピーカー2
03:21:52

続きは、エリエゼル・ヤトコフスキーとの対話をお聞きいただき、ありがとうございました。このポッドキャストをサポートするには、説明文にあるスポンサーをチェックしてください。それでは、イーロン・マスクの言葉をご紹介します。人工知能によって、私たちは悪魔を召喚しているのです。ご清聴ありがとうございました、次回もよろしくお願いします。

この記事が気に入ったらサポートをしてみませんか？

Eliezer Yudkowsky: AIの危険性と人類文明の終焉 | Lex Fridman Podcast和訳

#第368回 「エリゼル・ユドコフスキー：AIの危険性と人類の文明の終わり - 講演録

#第368回「エリゼル・ユドコフスキー：AIの危険性と人類の文明の終わり - 講演録