OpenAIの研究者がAGIが私たちが考えるよりも近いことを証明

2024年6月25日 21:23

さて、ここでOpenAIの研究エンジニアとして2012年から働いている人による非常に興味深いブログ投稿があります。これはJames beterによる『一般知能』と題されたもので、AGIと人工知能の今後数年間のタイムラインについて魅力的な読み物となっています。これは非常に重要だと思います。なぜなら、このビデオを見て、このビデオで述べられていることの一部を見た後、2つの主な教訓があることに気づくでしょう。1つ目は、物事はおそらくあなたが考えているよりも急速に変化するだろうということ。2つ目は、AGIについて話す際に一貫して言及される特定の年があるということです。
それでは、このブログ投稿に飛び込んでみましょう。本当に興味深い内容について語っているからです。彼は、この分野の人々がAGIについて予測を立てるのが好きだと言っています。私には考えがあり、それを書き留めたいと常に思っていたので、そうしましょう。彼は、過去に触れたことがないので、一般知能について私が意味することを最善を尽くして定義することから始めると言っています。一般的に知的な実体は、3つのことの特別な総合を達成するものです。
1つ目は、複雑な環境と相互作用し、観察する方法です。通常、これは具現化を意味し、自然界を知覚し相互作用する能力のことです。これはもちろん、現在のAIシステムはまだ本当にそこまで達していません。しかし、基本的にこれは人間が真の理解を持っているものです。我々は触覚、嗅覚、視覚、そして我々が持つこれらの信じられないほど多様な感覚入力で自然界を知覚し、相互作用することができます。
2つ目は、環境をカバーする堅牢な世界モデルです。これは、実体が合理的な精度で素早い推論を行うことを可能にするメカニズムです。人間の世界モデルは一般的に、直感、速い思考、あるいはシステム1思考と呼ばれます。システム1思考は基本的に、あなたが何をすべきかを直感的に正確に知っている場合です。例えば、意識的な努力なしに群衆の中で見慣れた顔を認識したり、空っぽの道路を運転しているときなどです。例えば、大きな音を聞いたら、すぐにその音の方を見て、「なんだろう」と考えるでしょう。これらは直感的な反応で、人間や一部の動物にも確かに存在します。
3つ目は、任意のトピックについて深い内省を行うメカニズムです。これは多くの異なる方法で考えられています。それは推論や遅い思考、あるいはシステム2思考です。システム2思考は、難しい数学の問題がある場合や、例えば環境に変化があり、その問題をどのように解決できるかを考えなければならない場合です。例えば、仕事に行く途中で、いつも渡る橋が今日は閉鎖されているとします。新しい道順を考え、どの道を通るか、安全か、速いか、時間通りに到着できるかを考えなければなりません。これらは、単なる直感的な反応ではなく、実際に「ここで何が起こっているのか、これについて考える必要がある」と考える必要がある種類のことです。より多くの思考が必要なため、ある種の遅いレベルの思考なのです。
そして基本的に、彼はこれら3つのことがあれば、一般的に知的なエージェントを構築できると言っています。ここで重要なのは、彼がこれがAGIだとは言っていないことです。彼が言っているのは、これが一般的に知的なエージェントだということです。この区別をすることは重要です。なぜなら、これはAGIとは少し異なるからです。彼は後でこのビデオで実際にこれについて話しています。基本的に、AGIは一種のスケールのようなものだからです。AIがあって、突然AGIになるわけではありません。むしろ、一般的に知的で、かなりの量のことができるエージェントがあり、そこから一段階上のものになっていくでしょう。
人々が考えているように、毎回飛躍的な進歩があるわけではありません。巨大な階段のように、ドンと来て、またドンと来るのではなく、むしろ彼らが構築しているシステムの能力が徐々に向上していくでしょう。これは、彼がこれら3つの主要な構成要素を使用して、つまり自然界を知覚し相互作用する能力、即座に何が起こっているかを真に理解できる環境をカバーする世界モデル、そしてもちろんシステム2思考と呼ばれる異なるトピックについて深い思考を行うメカニズムを使用して、一般的に知的なエージェントを構築できると話している部分です。
まず、エージェントに1つ以上の目的をシードする必要があります。エージェントに深いレベルの思考であるシステム2思考を使用させ、その世界モデルと組み合わせて、その目的を最適化する方法を考え始めさせます。もしあなたのAIシステムや何らかのエージェントの目標が、例えば車を盗むことだったとします。より面白い例を使いましょう。あなたは考えなければなりません。「どうすれば捕まらずにこの車を盗めるだろうか？夜にやるべきか？暗い路地で確実にやるべきか？」などと考え、最善の計画を考えます。
そして、もちろん最良のアイデアを選び、計画を立てます。そして、この計画を使って現実世界で行動を起こします。もちろん、「夜が最適だ」と考えるかもしれません。そして夜まで待って、場所を偵察する行動を取るでしょう。そして、もちろんこの行動の結果を観察し、世界モデルに基づいて期待していた結果と比較します。世界モデルは基本的に、世界がどのように機能するかについての理解です。もちろん、これは人間にも当てはまりますが、世界で行動を起こすにつれて、理解を更新し、もちろん世界についての知識を更新します。ここで、新しく得た知識で世界モデルを更新し、システム2思考を使って計画に変更を加えます。そして、これを繰り返します。
これは人々が行う多くのことに当てはまります。例えば、YouTubeをやる場合、ある方法でビデオを撮影し、アップロードします。そして、うまくいかなければ、世界モデルを更新し、もちろん新しく得た知識で改善します。これは人々が多くの異なることにシステム2思考を使用する方法です。これは、これらの一般的に知的なエージェントがどのように機能すべきかの基本的な定義であり、rinse and repeatです。ただし、ここにある3つのものがあることが前提です。
彼は言います。「私の一般知能の定義は、上記のサイクルを長期にわたって一貫して繰り返し実行できるエージェントであり、それによって与えられた目的を最適化できるエージェントです。」これが彼の一般知能の定義であり、非常に重要だと思います。なぜなら、私たちは多くの異なる定義を見ているからです。AIで起こっている主要なことの1つは、誰もAGIの定義に本当に同意できないということです。OpenAIの研究エンジニアの視点で何が起こっているのかを正確に見ることは重要です。それがどのように機能するかを正確に見るのは興味深いです。
そして、もちろん彼のさらなる説明があります。彼は言います。「任意の目的を実際に達成する能力は要件ではありません。一部の目的は単に難しすぎます。適応性と一貫性が鍵です。エージェントは知っていることを使って計画を立て、長期にわたって単一の目的に向かって継続的に行動できるでしょうか？」これは、少なくとも私が思うに、本当に capable なシステムになるでしょう。なぜなら、人間が本当にこれらのクレイジーな生き物であり、ロボットとは全く違うと考えがちですが、時々人々がどのように行動するかを考えると、彼らは本当に世界モデルを更新せず、計画に変更を加えるためにシステム2思考を本当に使用しません。
例えば、間違ったことを続けているのに、同じ結果を得て、計画を全く変更しない人々のことを考えてみてください。例えば、体重を減らそうとしている人や新しいスキルを学ぼうとしている人がいるとします。もちろん、一つの方法を試して、その方法がうまくいかなければ、変更を加え、計画を更新し、繰り返す必要があります。AIがどのように学習し、より効果的になっているかを見て、それを実際に自分の人生に適用すると、本当に役立つことに驚くかもしれません。文字通り、試してうまくいかなければ計画に変更を加えるだけで、最終的には目標に到達します。しかし、もちろんこれは世界を navigate する際には言うは易く行うは難しです。このことを驚くほど効果的に行えるAIエージェントは、平均的な人間よりも少し強力になると思います。
これは、世界モデルについて実際に話している部分です。彼は言います。「我々はすでに自己回帰トランスフォーマーで世界モデルを構築しています。最近使用している同じアーキテクチャです。特にオムニモデルの種類です。それらがどれほど堅牢かは議論の余地があります。もちろん、幻覚やさまざまな問題があります。最近のGPT-40、新しいバージョンのオムニモデルについて、彼は別のブログ投稿でそれがいかにクレイジーかについて書いています。」
そして彼は言います。「しかし、良いニュースがあります。私の経験では、スケールが堅牢性を向上させます。」つまり、計算能力やそういったものが、モデルの能力ではなく、全体的な堅牢性を向上させるということです。人類は現在、自己回帰モデルのスケーリングに資本を注ぎ込んでいます。基本的に私たちが持っているのは、OpenAIのGPTシリーズによって引き起こされた状況です。現在、人々は何十億ドルもの資金を投入しています。もちろん、MicrosoftはOpenAIと共同でProject Stargateに多額の資本を投入しています。1,000億ドルのスーパーコンピューター、Sam Altmanは7兆ドルの資本を求めています。もちろん、これはクリックベイトの見出しですが、今後10年から20年の間には、それほどクレイジーではないかもしれません。
これは大部分の投資が向かっている場所です。なぜなら、その投資の多くは現在のトランスフォーマー自己回帰アーキテクチャに基づいているからです。ここで私たちが持っているのは、スケールが特定の範囲まで増加している限り - シグモイド曲線上のどこにいるのかはわかりません。シグモイド曲線は基本的に成長領域です。私たちがどこにいるのかわかりません。ここにいるかもしれませんし、GPT-5が登場するとここで頭打ちになるかもしれません。あるいは、ここの下のどこかにいて、物事が本当にクレイジーになろうとしているかもしれません。だからこそ、この全体のことは、もちろん、もしスケールに資本を投入することで早期の結果が見られるなら、これは私たちが今後数年間続けることになるでしょう。
もちろん、今後数年間で堅牢性が向上することが期待できますが、これはスケールだけに基づいています。これは単にスケールに基づいているだけで、効率性だけでなく、AIシステムに関わる他の多くの異なる要素、例えばアルゴリズム、ソフトウェア、そしてそれらのシステムをさらに良くする方法、特にLLMsの上に構築される他のものにも基づいています。
そういうわけで、彼は「私は、現在我々が持っている世界モデルが一般的に知的なエージェントを構築するのに十分だと考えています」と言っています。ここで彼が「現在我々が持っている世界モデル」と言っているのがわかります。現在、これはイタリック体で書かれていますが、一般的に知的なエージェントを構築するのに十分だと言っています。彼は「私は疑っています」と言っていますが、これはかなりクレイジーな発言です。誰もがこれに同意するかどうかわかりませんが、私たちはまだ一般的に知的なエージェントを持っていないので。しかし、彼は私たちが持っている世界モデルについて話しています。なぜなら、私が主張するのは、私たちが持っているシステムは世界についてかなりの理解を持っていますが、今のところ効果的な具現化を持っていないからです。
彼は言います。「私はまた、システム2思考と実世界の観察の相互作用を通じて、堅牢性をさらに改善できると考えています。これはまだAIでは見られていないパラダイムですが、生物では常に起こっており、堅牢性を改善するための非常に重要なメカニズムです。」もちろん、実世界を観察することは、AIではまだ見ていないものです。これは近い将来に起こるでしょうが、AIシステムをより良くするよりも難しいでしょう。なぜならロボット工学は本当に難しいからです。単に何かソフトウェアベースのものに取り組むよりもはるかに難しいです。ロボット工学はハードウェアベースだからです。
基本的に、物理的な制限があります。物理法則を考慮しなければならず、物事をテストする際には、フィードバックを得るのがはるかに難しいのです。基本的に、ただ難しいのです。だから、まだそれを見ていないのです。そして徐々に確実に、もちろん私たちはそこに到達するでしょう。
彼が話しているのは、もちろん懐疑派、例えばYann LeCunのようなものです。彼は言います。「LLMの懐疑派、Yann LeCunのような人々は、私たちがまだ猫の知能を達成していないと言いますが、これは彼らが見逃している点です。はい、LLMにはまだ全ての猫が持っている基本的な知識が欠けていますが、このように自己改善する能力があれば、その知識を学ぶことができます。そのような自己改善はトランスフォーマーと適切な要素があれば可能です。」
基本的に彼が言っているのは、Yann LeCunのクリップを見たことがない人のために説明すると、Yann LeCunはAIコミュニティで彼の分野への貢献で非常に尊敬されている人です。基本的に、Yann LeCunがそれほど頻繁に言及される理由、そして私も最近の動画で彼のアイデアとそれらがこの分野に何を意味するかについて話しましたが、家猫の脳は約8億のニューロンを持っています。これをLLMのパラメータ数に相当するシナプス（ニューロン間の接続）の数を得るには約2000倍する必要があります。現在、実用的な最大のLLMは数千億のパラメータを持っています。シナプスに相当するものです。
そのため、私たちは猫のサイズにいるかもしれませんが、なぜそれらのシステムは猫ほど賢くないのでしょうか？猫はまず物理的世界を理解し、複雑な行動を計画し、実際に最大のLLMよりもはるかに良いレベルの推論を行うことができます。それが私たちに教えてくれるのは、私たちは本当に概念的に何か大きなものを見逃しているということです。
その30分の動画を要約すると、基本的にYann LeCunは、LLMは自己回帰的であり、そのようなアーキテクチャは人間とは機能しないと述べています。AGIを目指すなら、それはただ機能しないのです。彼は基本的に、現在のLLMシステムはまだ猫の知能を達成していないと言っています。しかし、彼はここで主張しています。LLMはその知識を学ぶことができ、このように自己改善する能力があれば、トランスフォーマーと適切な要素でそれは可能だと。
もちろん、これは大胆な主張です。この人がOpenAIについての秘密の情報を持っているとは言いませんが、現在の情報に基づいて、それが可能だというのは見てみたいと思います。なぜなら、それは能力の面で大きな飛躍になるからです。私は将来がこの部分で確実に興味深いものになると思います。なぜなら、いくつかの理論が反証されるか、それとも正しいと証明されると思うからです。つまり、私たちはAGIへの分岐点にいて、今その分岐点に向かっており、これはOpenAIによって作られた大きな接線で、私たちは間違った方向に進んでいて、何十億ドルも間違ったものに投資していて、最終的に新しいアーキテクチャを見つけるか、それとも正しい道を突き進んでいて、とても興味深いものを手に入れようとしているのかのどちらかです。どちらにしても、これは興味深いと思います。
ここで彼は推論について話しています。彼は言います。「システム2思考を達成する周知の方法はありません。これはAIシステムが長い思考プロセスを持つところですが、私は現在利用可能な技術と計算能力で、トランスフォーマーパラダイム内でそれが可能だとかなり確信しています。」基本的に、AIシステムが実際の世界で非常に効果的な目標を達成するために必要な長期的思考であるシステム2思考を達成できるということです。私はいくつかのシステムがそれを行うのを見ました。いくつかのデモ、例えばDevonなどのエージェントが物事を計画できるのを見ました。このようなシステム2思考は存在しますが、それが著しく効果的なレベルには達していません。
基本的に、2〜3年以内に、上記のサイクルに十分に良いメカニズムを構築できるでしょう。これは最初のことの1つです。2〜3年後というのが見えます。2〜3年後は2026年か2027年です。その日付はLeopold AschenbrennerのAGIが2027年に来るという日付とも一致します。私はみなさんに、システム2思考が信じられないほど重要だということを理解してほしいと思います。なぜなら、LLMから見てきたのは、LLMに考える能力を与えると、どのようなプロンプト戦略を使っても、ベースレベルで使う「ステップバイステップで考えて」や「モンテカルロ木探索」や「思考の連鎖プロンプト」など、どのような方法でAIに本当に考えさせても、結果が本当に改善されるということです。
それは、非常に効果的なシステム2思考を手に入れることができれば、そして多くの人々がこれに取り組んでいると思いますが、上記のサイクルに十分なものを手に入れることができ、それは本当に全てを変えるでしょう。なぜなら、それは推論を改善し、それはその具現化においてさえ、そしてモデルの全体的な精度と堅牢性を改善するからです。
このシステム2思考の領域が非常にクレイジーだと思うことが重要です。どの論文を読んでいたか覚えていませんが、基本的に彼らは言いました。誰かが数学の質問をして、あなたが0.1秒以内に考えずに即座に答えなければならないとしたら、あなたの答えはおそらく間違っているでしょう。そして、これは基本的に私たちがLLMに質問をして即座に応答させる時に行っていることです。しかし、時間を与えて考えさせ、彼らが何をできるかについて議論させ、より長い期間にわたって推論できるようにすると、これはSam Altmanが長い時間前ではありません、AI業界では8ヶ月は長い時間ですが、彼がインタビューで言ったことです。彼は、これは彼が取り組んでいることだと言いました。応答は確かにずっと良くなります。
私は、これが将来のモデルで誇張されると思います。彼らは本当にそれに取り組むでしょう。スケールと同様に、そして私は、多くの人々が考えているよりもはるかに多くの改善を推進すると思います。そして、ここで彼は具現化に来ています。具現化は、もちろん私たちがAIでまだ解明中のものです。これはもちろん、Figureやヒューマノイドロボット、Tesla Optimusなどのものです。
そして、もちろん彼は言います。「これはまた、近い将来の進歩について私が非常に楽観的なものの1つです。現在、ロボット工学の分野とLLMの間で収束が起こっています。それを無視するのは難しいです。」もちろん、最近のFigureのデモでは、GPT-4か何かのAIシステムの知識と、新しいFigureロボットの流動性を組み合わせて、未来がどうなるかを示す非常に印象的なデモを提供しました。
彼は言います。「ロボットは非常に能力が高くなっています。前進する、立ち上がる、ボールを蹴る、物を掴むなど、非常に抽象的な命令に応答できます。例えば、Figureが何をしているか、あるいは最近発表されたUnity H1を見てください。」これは、AIエージェントのアバターで、将来多くの興味深いことを行うでしょう。興味深いことに、それはBoston Dynamicsのロボットのように見えますが、Boston Dynamicsがかなり長い間そのロボットに取り組んでいたことを知っています。だから、Unityがそのロボットをそんなに早く生産できたかどうかわかりません。本当に信じられないことです。もしBoston Dynamicsからインスピレーションを得ただけなら。しかし、彼らはそれを本当に素早く完成させました。
ここで、スペクトルの反対側では、大規模なオムニモデルが、これらの洗練されたロボットシステムに送信できるコマンドに任意のセンサー入力をマッピングする方法を提供していることがわかります。もちろん、これらは私たちがまだ本当に組み合わせていない方法で使用できる、非常に多くの異なる入力と出力を持つモデルです。
彼は言います。「最近、私は外を歩き回りながら、スマートフォンのカメラを通して世界を観察させながらGPT-4と話をしています。物理的世界についての知識をテストするために質問をしていますが、完璧ではありませんが、驚くほど能力があります。環境に対して一貫した行動の連鎖を実行し、結果を観察し理解できるシステムを展開できる段階に近づいています。私は、ここで次の1〜2年でいくつかの本当に印象的な進歩が見られると思います。」彼は言います。「これは私が個人的に最も興奮しているAIの分野であり、来年はほとんどの時間をこれに費やす予定です。」
もちろん、次の1〜2年で一貫した行動の連鎖についていくつかの印象的な進歩が起こるでしょう。彼はGPT-4について話していますが、もしあなたが知らないなら、GPT-4にはカメラを通して話せるアップデートがあります。私は、彼がOpenAIがまだリリースしていないものにアクセスしているのかもしれませんが、ここで彼はまとめを行っています。私はこのまとめが本当にクールだと思います。
彼は言います。「私たちは基本的に世界モデルの構築を解決しました。システム2思考には2〜3年、具現化には1〜2年かかります。後者の2つは同時に行うことができます。全ての要素が構築されたら、それらを統合し、私が上で説明したサイクリングアルゴリズムを構築する必要があります。それにはさらに1〜2年かかるでしょう。そのため、私の現在のAGIの推定は3〜5年です。私は、一般的に知的な具現化されたエージェントに非常によく似たものに3年と傾いています。これを個人的にAGIと呼びますが、Gary Marcusのような人々を納得させるにはさらに数年かかるでしょう。」
基本的に、彼は一般的に知的なエージェント、私は最初に間違っていて、これはAGIではないと言いましたが、これはAGIかもしれません。しかし、もちろんスケール上では、一部の人々が受け入れるレベルではないかもしれません。そのため、彼はここでGary Marcusを追加しています。そして、これが一部の人々にとってAGIではないかもしれないと私が言った理由です。しかし、もちろんこれはAGIかもしれません。そして、もちろんそのような種類のことができる一般的に知的なエージェントを手に入れた後、他の年数でそれを洗練する必要があります。基本的に、Gary Marcusは彼がAI懐疑派だとは言いませんが、AIをかなり批判する人です。彼は多くの進歩を批判する人として見られることがあります。
興味深いことになるでしょう。なぜなら、彼は多くの良い指摘をしますが、前に言ったように、彼が未来について指摘するいくつかの点が間違っていることが証明されるかどうかを見るのは興味深いでしょう。私はGary Marcusについて話していますが、私たちはその時点にいて、それは指数関数的な改善になるか、それとも私たちがこれについて間違っていたかのどちらかです。
はい、ロボット工学には1〜2年かかります。それを解決するためです。ロボット工学は本当によくやっていると思いますが、私たちが考える必要がある主なことはもちろんシステム2思考だと思います。そして、もちろん世界モデルがそれらとどのように相互作用するかです。
彼は言います。「私たちは基本的にそれを解決しました。そして、もちろんシステム2思考には2〜3年、具現化には1〜2年かかります。」私は、彼がなぜシステム2思考が具現化よりもはるかに長くかかると考えているのかについてのこの予測に少し興味があります。なぜなら、伝統的にモラベックのパラドックスは、ロボット工学はソフトウェアよりもはるかに長くかかると示唆しているからです。しかし、もちろん彼は研究エンジニアで、私はビデオを作っている人間です。
実際に考えてみると、現実世界で物事を計画することは本当に難しいのです。現在持っているエージェントシステムの多くを見ると、システム2思考、つまり長期的な視野で非常に効果的に計画する能力はそれほど良くありません。GPT-4の欺瞞に関する別の論文を見ていたことを覚えています。複数のステップが含まれる場合、効果的に計画することができませんでした。1層の場合は大丈夫でしたが、2層になるとすぐに精度が10〜15%に落ちました。
しかし、GPT-5、GPT-6で見てみる必要があります。OpenAIがそれに基づいて特別なモデルを構築し、それらを統合する場合です。彼らが以前に専門家の混合を行い、それがGPT-4をそれほど優れたものにした方法を知っています。しかし、はい、全体的に見て、AGIまで3〜5年、私は3年に傾いています。これは非常にAGIに似たものです。これは私たちを2027年に置きます。私が言ったように、その日付を何度も聞いています。
2027年がAGIの最初のデモになるかもしれないと言えるでしょう。そして、私が思うのは、OpenAIだけがここでリードを取るわけではないということです。多くの企業が今、その電球の瞬間に達しています。彼らは何百万ドルも投資するでしょう。国々は何十億ドルも投資するでしょう。この業界には多くのお金が流れ込むでしょう。なぜなら、これは確かにレースだからです。最後の金の壺はとても大きいので、彼らは確実にそれをする意志があります。
3〜5年でAGI、3年で最初の具現化されたエージェントを手に入れます。そして、もちろんシステム2思考には2〜3年、具現化には1〜2年かかります。なぜなら、ロボット工学ではかなり先に進んでいるからです。実際に、Boston Dynamics Atlasがどこにいるかを考えてみてください。地球上のすべての会社を一覧にして、そのロボットが動くのがいかに効果的かを見たら、それを世界モデルとシステム2思考と組み合わせれば、それは信じられないほどです。
はい、私はこの記事が未来について本当に洞察力があると思います。そして、一般知能と私たちがどこに向かっているかについて、現在浮かんでいるいくつかのアイデアを示していると思います。私は、それらが収束し重なり合っていることは良い兆候だと思います。なぜなら、AIでは多くの場合、多くの異なる対立するアイデアがあるからです。しかし、全体的に2027年から2030年、その3年間、国家的悲劇がない限り、この分野にいて実際に注目することは非常に興味深いと思います。
そういうわけで、もしこのビデオを楽しんでいただけたなら、これへのリンクを下に残します。これについてあなたの考えを教えてください。そして、もしビデオを楽しんでいただけたなら、学校をチェックすることを忘れないでください。次回またお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？