OpenAIのQ*(Qスター)が戻ってきた!これがイリヤがOpenAIを去った本当の理由か?

2024年7月1日 20:08

そのような学習アプローチは、なぜ超人的なスキルを生み出すのでしょうか。なぜGoogle DeepMindは、これほどの資金やリソース、GPUクラスターを費やして、AIにMinecraftのプレイ方法を学ばせようとしているのでしょうか。彼らの目標はAGIどころではなく、超知能だと言っています。AGIのことは忘れてください。AIのニュースはすべて忘れてください。超知能への直接的な道筋があるというのです。
イリヤは現在最高のAI専門家の一人です。彼はGPT、GPT-2、3、4の開発を見てきました。きっと彼はQ*について素晴らしい洞察力を持っているはずです。2016年末にリリースされたOpenAIのUniverseを覚えていますか? クレジットに誰の名前があったか見てみましょう。初期エージェントの結果...ほら、ダリオ・アマデ、イリヤ・サツケヴィッチの名前があります。彼は最初から関わっていたんです。
私たちはOpenAIの実験について取り上げましたね。彼らは大勢のAIエージェントにかくれんぼをプレイさせました。何十億回もの反復プレイを経て、エージェントたちはゲームに非常に長けるようになり、最終的にはゲームを壊すまでになりました。開発者さえ知らなかったゲームのさまざまな不具合を悪用したのです。イリヤはそのすべてに関わっていました。彼がどのような役割を果たしたのかは分かりませんが、そういったプロジェクトのすべてに彼の名前があるのです。
このチャンネルを購読して、メインストーリーラインを始めましょう。時間をさかのぼって、2016年12月5日に戻りましょう。これは、Transformerや今日知られている大規模言語モデルの爆発的な普及の前のことです。当時、ある小さな無名のAI企業がUniverseをリリースしました。彼らは言いました。『私たちはUniverseをリリースします。これは、世界中のゲーム、ウェブサイト、その他のアプリケーションにわたってAIの一般的な知能を測定し、トレーニングするためのソフトウェアプラットフォームです。Universeは、AIエージェントが人間のように画面のピクセルを見て、仮想のキーボードとマウスを操作することで、コンピュータを使用できるようにします。私たちは、AIシステムが解決すると期待されるすべての範囲のタスクでトレーニングする必要があります。Universeを使えば、人間がコンピュータで完了できるあらゆるタスクで単一のエージェントをトレーニングすることができます。』
彼らが選んだゲームの選択には感心せざるを得ません。UniverseのAIエージェントが自由にアクセスできるゲームやアプリケーションには、Portal、RimWorld、Wing Commander 3、Command & Conquer、Syndicate、Magic Carpet、Mirror's Edge、Sid Meier's Alpha Centauri（素晴らしいゲームです）、そして他にもたくさんあります。
この野心的な旅を始めたこの会社、聞いたことがあるかもしれません。その会社の名前はOpenAIです。これが彼らが始めたものです。これが彼らの元々の目標、元々のアイデアだったのです。
今日、私たちがこの話題を取り上げているのは、これが突然浮上したからです。Chubyが投稿した非常に興味深い内容を読んでみましょう。OpenAIの次のステップに関する信憑性のある噂です。前モデルと比較して大きな飛躍となる新しいモデルについてです。
OpenAIのQ*は、これらの原則を統合して様々なタスクで優れたパフォーマンスを達成する先進的なAIフレームワークです。Q*は、特に数学的問題の解決や、累積的な学習と高度な計画が必要なタスクの実行において、AI推論を改善するように設計されています。情報筋によると、Q*はAGIの開発において大きな飛躍を表しており、現在のAI技術を様々な認知タスクで凌駕する可能性があるとのことです。
Q*は実際にOpenAIからリークされたものでした。多くの人々はこれについて話したがりません。なぜなら、多くの推測があり、私たちが知らないことがたくさんあるからです。しかし、非常に知識のある多くの人々、この分野の多くのAI研究者たちがコメントしています。そして、合意点、あるいは合意点という言葉は強すぎるかもしれませんが、多くの人々が考えているのは、私たちが見ているのは、これまで見てきた2つのAIの分野を組み合わせたようなものだということです。
2016年のOpenAIのUniverseに戻りましょう。彼らは言っています。『強化学習システムAlphaGoが囲碁の世界チャンピオンを破りました。』つまり、この時点で、それは人間を超える能力を持っていると仮定できます。『AlphaGoはGoogle DeepMindのものでした。彼らはまた、人間を超える能力を持つチェスAIも持っていました。彼らがそれを行う方法は、自己対戦です。何百万回、何億回と自己対戦を行い、上達していきます。』
これは、ほとんど合成データを作成しているようなものだと考えることができます。自己対戦を行い、人間から学ぶのではなく、超人的になります。人間から学ぶことで一定のレベルまでは到達しますが、超人的な知能、超人的なAIは、自己対戦のようなものによって作られるのです。それは自分自身を教育します。
しかし、これはまだ狭いAIの一種です。つまり、一般的な超人的知能ではなく、特定の分野での超人的知能なのです。チェスや囲碁では超人的ですが、他の分野ではそうではありません。
しかし、ここでOpenAIは続けて言います。『一般的な問題解決能力を持つシステム、人間の常識に近いもので、エージェントが新しい難しいタスクを迅速に解決できるようにするもの、それは今のところ手の届かないものです。』興味深いことに、これは2016年に書かれたものです。今では、少なくともある程度まではそこに到達していると安全に言えるでしょう。
私たちは、一般的な問題解決能力を持つものを作ることができます。大規模言語モデルは一般的な問題解決能力を持っていると言えるでしょう。多くの人がそれに反論するかもしれませんが、このチャンネルで多くの研究を取り上げてきました。少なくとも、実際に問題を解決できること、特定の現実世界のシナリオに適用できること、そして人間が思いつかなかった新しい解決策を実際に生み出せることを強く示唆しています。
つまり、私たちは言語モデルのこの一般的な知能を持っています。そして、非常に狭い分野での超知能も持っています。これがAlphaGoのアプローチです。では、Q*とは何でしょうか? 多くの人々が推測し、憶測していますが、それは両方の長所を取り入れたアプローチだと考えています。両方の世界の長所を取り入れ、両方を行うことができるものを作り出しているのです。
これが投稿された内容で、波紋を呼んでいるものです。信頼できるものでしょうか? まず第一に、私は塩を少々加えて受け止めるべきだと言いたいです。信頼できるかどうかは分かりません。もっともらしいでしょうか? はい、それは非常に適切な言葉だと思います。実際、私はそう思います。
実際、このチャンネルでインタビューを見たことがあります。正確にどこだったか忘れましたが、イリヤ・サツケヴィッチ、ジェフ・ヒントンも参加していたと思います。彼らは古いSkypeのようなものを通して電話をかけてきて、ただ話し合い、質問をしていました。人々はAIの進歩がどこに向かっているのかを理解しようと質問していました。
もちろん、彼らは少し秘密主義で、最新の最高の研究について少し控えめでした。これらの企業が自社の研究所で行っていることについてです。これはイリヤがOpenAIを去る前のことでした。
そのインタビューや他の多くのデータは、これがすべてのAI研究所、AI企業が向かっている方向であることを示唆しています。彼らは何をしているのかを言っていません。発表していません。しかし、これが誰もが注目しているものなのです。
この人がペーストビンに投稿し、削除するかもしれないと言っています。そして、AIがビデオゲームを通じてどのように超人的な知能を達成するかについての説明をしています。
深入りする前に、彼らが話していることがSFではないということを理解することが重要です。これらの研究所の多くがこの研究に多額の資金を投入していることを私たちは知っています。
2024年3月13日、前回の動画で取り上げました。これはGoogle DeepMindのSEMAチームです。SEMAは、この AIモデルの名前です。3D仮想環境のためのジェネラリストAIエージェントです。3D仮想環境と言う時、彼らが意味しているのはビデオゲームのことだと覚えておいてください。
Google DeepMindには、AIにビデオゲームをプレイさせる長い歴史があります。AlphaStarは、人間のグランドマスターレベルでStarcraft IIをプレイします。これは2019年に遡ります。AlphaStarは、Starcraft IIでグランドマスターレベルを達成しました。Starcraft IIはリアルタイムストラテジーゲームです。ご存じだとは思いますが。
それはマルチエージェント強化学習を使用して行われます。AlphaStarに使用された機械学習技術には、ニューラルネットワークなどがあります。今日、AIについて人々が話す時、ほとんどの場合、私たちはニューラルネットワークについて話しています。何かを売ろうとしている場合を除いては。その場合、AIと言えば何でも良いのです。『これはAIを搭載しています、買ってください』というような感じで、それが何を意味するのか誰も知りません。
しかし、彼らはまた、強化学習を通じた自己対戦も使用します。機械が何百万回、あるいは学習曲線が平坦になるまで何回も自分自身と対戦するのです。マルチエージェント学習、模倣学習もあります。
その開発者たちは、自己対戦の概念を使用してシステムをより堅牢にしました。自身のバージョンと対戦することで、システムはゲームにますます熟練していきました。
ここにさまざまなランクがあります。MMRはマッチメイキングランクです。基本的にどれだけ上手いかを示すものです。チェスのように、他の人と比べてどれだけ上手いかを示すランキングのようなものです。
ここにゲームに組み込まれたエリートAIがあります。実際にはAIではなく、基本的に高度なスクリプトが実行されているだけです。そして、AlphaStarがあります。監督学習です。これは人間の援助を受けているという意味です。
しかし、オープン学習、プレイを行う時、そのアプローチを投入する時、どうなるでしょうか? それ自体が改善することを許可された時、この大きな飛躍が見られます。グランドマスター、世界最高のプレイヤーたちと同じくらい上手くなるのです。
AlphaStarは、Battle.netのアクティブプレイヤーの99.8%以上のランクを達成し、プロトス、テラン、ザーグの3つの種族すべてでグランドマスターレベルに到達しました。
明らかに、その学習アプローチには、超人的なスキル、あるいは少なくともプレイヤーの上位0.0102%と同じくらい優れたスキルを生み出す何かがあります。非常に有用で効果的な何かがあるのは明らかです。
しかし、まだできないことがあります。例えば、AlphaStarは実際にはキーボードとマウスを使用しません。入出力を簡略化したものを使用しています。まだ人間のプレイヤーと全く同じようにゲームをプレイしているわけではありません。
SEMAについて、これは2024年の最新のGoogle DeepMindのものですが、彼らはあらゆるビデオゲームをプレイできる汎用エージェントを作成しています。実際、マスターになることは心配していません。基本的なタスクを実行できるようになることが目標です。例えば、Goat Simulator 3で車を運転したり、フェンスを飛び越えたり、鉄鉱石を拾ったりすることです。水を見つけたり、木を切ったりするなど、想像できる最も基本的なことです。
ここで重要なのは、人間的なインターフェースを使用していることです。つまり、私たちとほぼ同じ方法でこれらのゲームとやり取りしているのです。入力は何でしょうか? コンピュータに何を与えているのでしょうか? APIを与えているのでしょうか? 行きたい場所をコードで指定できるのでしょうか? いいえ、単に画像の観察と言語指示だけです。私たちが見るのと同じようにゲームを見て、「車を運転しろ」と指示されるのです。
出力は何でしょうか? キーボードとマウスの動作です。キーボードとマウスを使用し、左に行くために「A」を押したり、左マウスボタンをクリックしたりするように指示します。そして、「木を集めろ」などの簡単なタスクを指示し、それができるようになれば、実際にキーボードとマウスを使用して特定のことを達成する方法を結びつけることができます。そして、その知識はゲーム間で転移可能です。
ゲームでプレイヤーができるすべてのスキルについて考えてみてください。それは階層的にクラスター化できます。何ができるでしょうか? 周りを見回す、移動する、オブジェクトと相互作用する、クラフトする、戦う、食べ物を食べる、料理する、採掘する、集める、開ける、閉じる、蹴る、戦う、農場で様々なものを植える、動物を飼いならす、狩る、餌をやるなどです。
申し訳ありませんが、長くなってしまいました。ただ、ここでポイントを示したかったのです。Google DeepMind、最先端のAI研究所の1つが、なぜこれほどの資金、リソース、GPUクラスターを費やして、AIにMinecraftのプレイ方法を学ばせようとしているのでしょうか? それは馬鹿げているように見えるかもしれません。
しかし、私はこの全体のポイントが、2つの分野を結びつけることができるかもしれないという考えだと思います。超人的なAlphaGoやAlphaStar、AIの能力を非常に高めるが狭い分野に限られるそのような方法と、より一般的なAIですが、特定のタスクでは人間レベルであり、他の多くのタスクではおそらく人間ほど優れていない、まだAGIではない、ASIでもない、そのようなものとを結びつけることです。
しかし、2つを融合できれば、何か新しいものが進化するように思えます。そして、ビデオゲームは、この進化が起こる基盤のようなものです。
これは、NVIDIAのシニアAIリサーチサイエンティストであるDr. Jim Fanの講演です。彼はAIエージェントイニシアチブのリーダーです。OpenAIやGoogle DeepMindが目指している方向について話したことを念頭に置いて、彼が言っていることを聞いてください。
『今年、私はVoyagerプロジェクトを率いました。Minecraftほど無限の創造性をサポートするゲームはありません。Minecraftには1億4000万人のアクティブプレイヤーがいます。Minecraftがこれほど信じられないほど人気があるのは、オープンエンドだからです。従うべき固定のストーリーラインはなく、心のままに何でもできます。
私たちがVoyagerをMinecraftで自由に動かしたところ、何時間もの間、人間の介入なしにゲームをプレイし続けることができました。ここの動画は、Voyagerの単一のエピソードからのスニペットを示しています。ただ続けていくのです。
地形を探索し、あらゆる種類の材料を収集し、モンスターと戦い、何百ものレシピをクラフトし、常に拡大するスキルツリーのロックを解除することができます。Voyagerは、マスターするだけでなく、新しいスキルを発見することもできます。私たちはこれを事前にプログラムしていません。すべてVoyagerのアイデアです。』
これがVoyagerです。再び、トップのAI専門家、トップの研究者たちが、AIにMinecraftをプレイさせることに完全に夢中になっているのを見ています。それには理由があります。
Voyager、このMinecraftを学ぶAIについて指摘すべき重要なことは、GPT-4上で動作していることです。以前の試み、以前の反復、ボットにMinecraftをプレイさせようとした他のアーキテクチャや他のアプローチとは異なり、これは違います。なぜなら、オレンジの線を見てください。これがVoyagerです。継続的に改善しています。Dr. Jim Fanが言うように、生涯学習者なのです。
彼はまた、これらの小さな3Dモデルを物理シミュレータに投入し、格闘技や他のさまざまなことを学ばせることについても話しています。そして彼は言います。これらすべての目的は何か、3D仮想環境のためのジェネラリストAIエージェントが重要な理由は何か。
『エージェントが1万のシミュレーションをマスターできれば、私たちの実際の物理的世界にも一般化できるかもしれません。それは単に1万1番目の現実にすぎないのです。私たちがこのマップを進めていくと、最終的に右上隅に到達します。そこには、3つの軸すべてにわたって一般化する単一のエージェントがあります。それが基盤エージェントです。私たちは単に多くの現実にわたって大規模にスケールアップすることでそれをトレーニングします。
私は、動くものすべてがいつかは自律的になる未来を信じています。そしていつか、私たちは、物理的空間であれ仮想空間であれ、ウォーリー、スター・ウォーズ、レディ・プレイヤー・ワンなど、すべてのAIエージェントが、同じ基盤エージェントへの異なるプロンプトにすぎないことに気づくでしょう。そして、それが、友人たちよ、次の大きな挑戦、あるいはAIへの探求となるでしょう。』
これがどのように見えるかの図表があります。私の頭の後ろにある単語は「スキル」です。申し訳ありませんが、ブロックしているかもしれません。しかし、この3次元空間を見てください。スキル、つまり何かを行う能力、ゲームをプレイする、車を運転する、数学を行うなどがあります。次に具現化、つまりどのような形態を取るか、人型に見えるかどうかなどがあります。そして、現実、つまりそれがどこにあるか、ビデオゲーム内なのか、シミュレーション内なのか、どのようなビデオゲーム内なのか、現実世界なのかがあります。
重要なのは、少なくとも私の理解では、最終的にはすべてを支配する1つのモデルがあるということです。すべての現実間で一般化できる1つのモデルがあるでしょう。すべてのビデオゲームをプレイする方法を学び、新しいものをすぐに習得し、どのような新しいビデオゲームや3D環境を与えられても、すぐに学んでそれを操作できるようになれば、そのモデルにとって現実世界はそれほど違わないでしょう。単にもう1つの操作すべき現実にすぎないのです。
これは、リークであれ、ただのナンセンスであれ、私たちには分かりません。再度言いますが、私たちはかなり信頼できる人々、彼らが公開している研究を見てきました。これはそうではありません。そのことを念頭に置いて読んでください。
しかし、自問してみてください。これは意味があるでしょうか? これは本物かもしれないでしょうか? 彼らは言っています。2026年半ばまでに、AIは特に競争的なものを含む様々なビデオゲームで超人的な熟練度を達成すると予想されています。
私はこのチャンネルで以前に言ったことがあります。オンラインマルチプレイヤーの競争的なゲームを楽しんでいるなら、本当に楽しんでいるなら、今のうちに楽しんでください。なぜなら、私はそれが今後数年以内になくなると感じているからです。これらのゲームを人間よりも上手くプレイするモデルをトレーニングできれば、最終的にはそのオープンソース版が出てくるでしょう。
今から3〜5年後、Starcraftのようなオンライン戦略ゲームや何かシューターゲームをプレイしている時、人間の相手とプレイしているのかAIとプレイしているのか分からなくなるかもしれません。ゲーム開発者でさえ、AIが実際にキーボードとマウスを通してコマンドを入力しているなら、それが分からなくなるでしょう。
過去にあったような、World of Warcraftでこれらのボットをプレイから禁止できるような明白な兆候はなくなるでしょう。なぜなら、それらは記憶注入や人間のプレイヤーとは異なる方法でゲームと相互作用することに依存していたからです。
そして、彼らはここで言っています。これがどのように達成されるか、そしてその意味合いの詳細な内訳です。
『ビデオゲームでのトレーニング: AIは様々なゲームで広範囲にトレーニングし、超人的なスキルレベルに到達します。私たちが先ほど見たようにです。競争的なゲームは、戦略的思考と迅速な意思決定が必要なため、特に価値があります。』
これは非常に真実です。しかし、多くのサバイバルゲームも見られます。Minecraftはサバイバルゲームと考えることができます。昼夜のサイクルがあり、夜になると悪いことが起こり始めます。自分で食べ物を見つけ、シェルターを建てなければなりません。そして、それは明確に説明されていません。誰も「シェルターを建てろ」とか「食べ物を料理しろ」とは言いません。ただ、それがゲームの一部だと理解し、生き残るためにそれをする方法を見つけなければならないのです。そうしないと死んでしまいます。
『高品質なデータの生成: これは、AIが自己対戦をする時の合成データと考えることができます。チェスをプレイする場合、初期には人間のチェスの動き、グランドマスターのチェスゲームなどを研究します。それは人間のデータです。しかし、自己対戦を始めると、以前には見たことのない全く新しいゲームを生成します。それが合成データです。
合成データでトレーニングされていると言えるでしょう。高品質な合成データです。最近、サム・アルトマンがCNBCでインタビューを受けていましたね。ホストは「データが足りない」という考えに何度も戻ってきました。「データの問題に直面するでしょう。データが足りません。」と。
彼の言葉に注目してください。「まず第一に、これらのモデルがどのように賢くなっていくのか、その未来がどのようなものになるのか、私たちにはまだ分かっていません。ただ永遠により多くのデータが必要になるのでしょうか? それは正しくないように思えます。人間が1冊の教科書から学べることを考えてみてください。現在のAIモデルに必要なものとは全く異なります。また、新しい科学を発明するためには、ただそこに座って考え、いくつかの実験を行う必要があります。それは教科書にはないものです。新しいものなのです。
したがって、私は、トレーニングデータをどのように考え、これらのモデルを本当に有能にするために何が必要かについての未来は、障害にはならないと期待しています。」
「これらの製品の開発において障害になるのでしょうか?」と聞かれて、「これは科学です。確実なことは分かりません。しかし、私はそうはならないと思います。」
「とはいえ、公正使用の問題や、データを作成する人々、知識を作成する人々、素晴らしい本を書く人々をどのように考えるべきかという問題があります。法的な観点からは、現在の公正使用の立場に自信を持っていますが、これがどのように進化するかを見ると、新しい経済モデルを考え出す必要があります。世界中の人々が参加できるようなモデルです。
これは単にデータを持っていて私たちがそれでトレーニングする人々だけでなく、モデルにフィードバックを提供する人々、リアルタイムのニュースを作成する人々も含みます。モデルはそれでトレーニングしないかもしれませんが、その時点で表示したいと思うでしょう。そこには多くの作業が必要です。」
私の解釈では、彼が言っていることは次のようなことです。人間が生成したデータは、AIのブートローダーのようなものでした。それは始めるために必要なものでした。しかし、ある一定のレベルに達すると、もはや必要なくなります。なぜなら、AIは人間のデータを全て合わせたよりも多くの、そしてより高品質なデータを生成できるようになるからです。
これは、チェスAIで実際に起こったことと全く同じです。以前は、記録された全ての人間のゲームでトレーニングし、人間のデータから学ぶことで上手くなりました。自己対戦、自己改善を始めると、もはや人間のデータは必要なくなりました。自身をトレーニングするための独自のデータを作成していたのです。そして、どの人間プレイヤーよりも優れた、超人的なものになりました。
彼が「公正使用の立場に自信を持っている」と言っているのは、そういう意味だと思います。繰り返しますが、これは私の解釈で、間違っているかもしれません。しかし、これらの訴訟や研究をフォローしていると、彼が言っていることは次のようなことのように思えます。
例えば、私がたくさんのSF小説を読んで、自分のSF小説を書いたとしても、誰も著作権法を破ったとは言わないでしょう。私のSF小説が同じでない限り。読むこと自体は著作権法を破っていません。私が作り出したものが同じか似ているものである場合にのみ、著作権法を破ることになります。
したがって、AIモデルが存在する全てのアートを見て、自身のアートを作り始めたとしても、以前の人間のアートから学ぶことは公正使用だというのが彼の主張だと思います。そのモデルが自身のアートを作ることは公正です。他の誰かのアートや他の誰かのスタイルと全く同じように見えない限りは。彼らは著作権を保持しますが、モデルは独自のアートを作ることができるのです。
しかし、彼は次の文で言います。「これがどのように進化するかを見ると、新しい経済モデルを考え出す必要があります。世界中の人々が参加できるようなモデルです。」つまり、これらのAIモデルが人間よりも優れたアート、優れた画像、優れた音楽、優れたテキストを作り出せるようになったら、以前はそれで生計を立てていた人々はどうなるのか考え始めなければならないと言っているのです。
例えば、あなたが声優で、AIの声が無限に上手くなり、あらゆる種類の声や声域、感情を生み出せるようになり、それが無料ではないにしてもとても安価になったとしたら、社会としてそれをどのように考えるべきでしょうか。
しかし、話を元に戻しましょう。彼は言っています。「時には教科書に読めるデータがない場合があります。新しいことを学ぼうとする時、その知識が教科書のどこかにあるとは限りません。ただそこに座って考え、いくつかの実験を行う必要があります。」これは人間がそのようなアプローチをする方法です。そして、AIもそのようなアプローチをするようになるのではないかと本当に思えます。これらの実験を行うことによってです。
Minecraftのプレイ方法を学びたいとします。Minecraftの本を読む必要はないかもしれません。ただボタンを押して、それがどのように機能するかを理解すれば良いのです。
続けて言っています。「AIのゲームプレイが超人的なレベルになると、膨大な量の高品質なトレーニングデータが生成されます。Google DeepMindのSEMAのように。」
データは人間のプレイヤーがゲームをプレイしたものでした。それがデータセットでした。人間がそれを始め、そしてエージェント、AIエージェントがそれでトレーニングされ、ただゲームを見て「木を集めろ」と言えば、それを実行できるようになりました。評価は「木を集めろ」で、それを実行するのです。
次のステップは、より多くの人間のデータ、より多くの人々がゲームをプレイすることではありません。それは障害ではありません。今や自らが出て行って、車両の運転方法、小屋の建て方、モンスターの攻撃方法などを学んでいるのです。そして、多くの異なるゲームに適用できる一般的なアイデアを構築しているのです。
一人称シューターゲームをプレイしたことがあれば、別のものを試す時、大きな重複があるでしょう。全く同じではありませんが、多くのアイデアが転移するのです。
Orca 2、Microsoftの研究論文では、GPT-4という大規模で賢いモデルが、特定の問題をどのように考えるかのステップバイステップの説明を大量に作成しました。それが小さなOrcaモデルに学習させられました。つまり、完全に合成データでトレーニングされているのです。そして、そのより小さなモデルであるOrca 2は、はるかに大きなモデルと同じレベルか、それ以上にそれらの種類の問題を解決できるようになりました。
小さなサイズでそれらの問題を解決する効率が10倍以上向上したのです。繰り返しますが、これは現実です。これはSFではありません。私たちはこの例を見てきました。
『スキルの一般化: ビデオゲームで学んだスキルと戦略は、他の領域に一般化されます。例えば、ゲームで必要な戦略的思考と計画は、数学、科学、複雑な現実世界の問題解決などの分野に適用できます。』
今すぐ思いつく例はありませんが、確かにAIがビデオゲームをプレイできるなら、おそらくブラウザを操作することもできるでしょう。コンピュータを操作できるでしょう。ゲームをプレイするためにキーボードとマウスを使用できるなら、オンラインで食事を注文する方法に一般化できるでしょう。
『強化学習: AIはゲーム環境からフィードバックを受け取り、継続的にパフォーマンスを向上させる強化学習を使用します。この反復プロセスにより、AIは戦略を超人的なレベルまで洗練させることができます。』
再び、私たちはこれをAlphaGo、AlphaStar、他の多くのもので見てきました。
『自己教師あり学習: AIはゲームプレイ中に生成された大量のラベルなしデータから学習します。』
ここでラベルなしというのは、通常、モデルをトレーニングするデータには、人間がそのデータに注釈を付けるということです。例えば、Minecraftで誰かが斧を振るとします。人間がそれに「斧を振る」というラベルを付けるのです。
または、AI画像認識モデルをトレーニングする場合、犬の画像をたくさん与えます。そのようなデータペアがあり、犬の画像があり、それに「これは犬です」という説明が付いています。そうすることで、「犬はどのように見えるか」を理解できるのです。ラベル付けされた画像があるからです。
『AIはゲームプレイ中に生成された大量のラベルなしデータから学習し、明示的な人間の介入なしにパターンや戦略を認識します。』
これは非常に興味深いです。なぜなら、ゲームプレイ中に生成されたラベルなしデータと言っているからです。これが非常に興味深い理由は、興味深い論文があったからです。「インタラクティブエージェント基盤モデル」という論文です。多くの大きな機関からたくさんの有名な名前が載っています。Fei-Fei Liもここにいます。彼女はDr. Jim Fanのアドバイザーだと思います。確信はありませんが、多くの作品で引用されています。
これはMicrosoft Research、Stanford、UCLAの研究です。読んでからしばらく経っているので、詳細を見落としているかもしれません。申し訳ありません。しかし、これは特にビデオに注釈を付けます。ビデオのフレームがあると、このモデルは見ているものを説明します。ビデオに注釈を付けることができるのです。
また、次に何が起こるかを予測することもできます。例えば、私たちのファインチューンされたモデルによって予測されたアクションの例を見てみましょう。これはMinecraftです。パターンが見え始めていませんか? そして、彼らはまたBleeding Edgeというゲームも使用しています。
例えば、このフレームでは、「プレイヤーは森の中で鉄の剣を使って豚を攻撃し、殺しています。」または、このBleeding Edgeでは、「プレイヤーは赤いロボットを操作して、他のキャラクターと戦っています。」
フレームを見ることで、次のアクションを具体的に予測できます。ここで予測というのは、次のアクションを出力できるということです。ゲームをプレイできるということです。なぜなら、「この画像を見せて、プレイヤーが攻撃していると言えば」、つまり豚を攻撃しているなら、「それを実現するには何をすればいいか」と言っているようなものだからです。攻撃ボタンをクリックするのです。次に何が起こるかを予測しているのです。そして、それが出力、実行すべきアクションになり得るのです。
ここにBleeding Edgeからのたくさんのフレーム、ビデオ入力があります。これをGPT-4 with visionに入力しています。これはGPT-4 with visionです。「プレイヤーが何をしているかを1文で正確に説明してください。重要なアイテム、エンティティ、アクションについて具体的に述べてください。」と指示しています。Bleeding Edgeからのものだと言っています。
左から右、上から下への順です。47フレームあります。これは数分間のアクションかもしれません。各フレームは数秒おきだと思います。
そして、GPT-4 visionは次のように答えます。「プレイヤーはまずマップを走り回り、異なるチェックポイントを通過し、いくつかのキャプチャーポイントと相互作用します。その後、敵プレイヤーと戦い、最後に別の敵に攻撃されながら目標を奪取します。」
再び、これはビデオを見ているようなものです。基本的にビデオですから。そして、そのビデオで起こっていることを説明する物語を構築できるのです。3D環境の、かなり複雑なゲームで。
そして、これらの能力を学ぶことは、異なる領域に一般化されます。なぜなら、Minecraftやbleeding Edgeに限定されているわけではないからです。ビデオを見て、ビデオから学んでいるのです。そのビデオは、ロボットが物を動かしているものかもしれません。3D環境で引き出しを開けているものかもしれません。あるいはカメラ映像かもしれません。
例えば、「このビデオにキャプションをつけてください」と言われたら、「患者は覚醒しており、落ち着いています。患者は協力的です。患者は警戒しています」というようなキャプションをつけることができます。病院でこのようなものがどれほど有用か想像してみてください。人間の監視なしに大量の映像を追跡し、AIが常に監視し、患者が苦痛を感じていれば誰かに警告することができるのです。
繰り返しますが、これはMicrosoft、Stanford、UCLAの研究です。彼らが行っているのはこれです。Minecraft、そしてBleeding Edgeという格闘ゲーム。Google DeepMindは何に取り組んでいるでしょうか? MinecraftとStarcraftです。NVIDIAは何に取り組んでいるでしょうか? Minecraftです。
彼らがOpenAIは「ゲームプレイ中に生成された大量のラベルなしデータから学習し、明示的な人間の介入なしにパターンや戦略を認識する」何かを持っているかもしれないと言っている時、再び、これはSFではありません。この論文がそれを示しています。見ることができます。2024年6月に発表されました。実際にはそれよりも前に提出されていて、2024年2月に更新されています。
OpenAIには「Feather」と呼ばれるものがあります。まだアクセスできない機能です。私はこれが一種のビデオ転写に関係していると考えています。羽ペンのように見えるので、見ているものを転写するのです。
これがOpenAIのFeatherの米国商標です。商標所有者はカリフォルニア州サンフランシスコのOpenAI Inc.です。何をするのでしょうか? 「データのラベル付けと注釈サービス。画像、音声、ビデオ、テキスト、その他の形式の電子データの自動ラベル付けと注釈。」
私はこれがFeatherだと賭けてもいいでしょう。これがFeatherの背後にあるアイデアです。繰り返しますが、Microsoft、Stanford、UCLAはすべてGPT-4の技術を使用しています。GPT-4 with visionをベースに独自のモデルを構築していると思います。そして、Minecraftに注釈をつけているのを見ることができます。
だから、私たちはそれができることを知っています。これらのAIエージェントが様々なビデオゲームを動き回り、大量のデータを生成し、そのデータが他のモデルによってラベル付けされ、より多くのトレーニングデータ、より多くの合成データを作成する...これが可能であることは非常に明白です。すべてのピースがそこにあるのです。
次に、彼らは転移学習について話しています。「ビデオゲームのマスタリングから得られた知識は他の分野に転移されます。これには、ゲーミング戦略と意思決定プロセスを新しい領域の問題解決に適用することが含まれます。」
ニューロシンボリックAI: 「このアプローチはニューラルネットワークと記号推論を組み合わせ、AIが抽象的な概念やロジックを効果的に扱えるようにします。ゲーム体験は、これらの高度な認知能力の開発に役立ちます。」
生成モデル: 「AIは高度な生成モデルを使用して、複雑で文脈に適した出力を作成し、ゲーム体験に基づいて人間のような創造性と問題解決をシミュレートします。」
ところで、Google DeepMindのAIモデルであるGenieを覚えているかもしれません。生成的インタラクティブ環境で、手書きのスケッチや画像、写真を入力すると、それに基づいてサイドスクローリングゲームを作成します。画像を入力すると、マリオやスーパーマリオワールドのようなサイドスクローリングゲームを作成し、プレイできるのです。
ユーザーは生成された環境でフレームごとに行動できます。基本的にゲームをプレイできるのです。
そして、ここで終わっています。「さらに、結果として学習された潜在行動空間は...」
潜在行動空間とは、簡単に言えば、何かに非常に経験豊富な人が次に何が起こるかを予測したり、本当に説明できないような洞察を持っているようなものです。「これが起こると思う」と言って、実際にそうなると、「どうしてわかったの?」と聞かれて、「わからない、ただ長年の経験とすべてのデータから脳が収集したものだ」と答えるようなものです。
潜在空間と考えることができます。完全に見たり理解したり説明したりすることはできませんが、そこにあるのです。学習がそこにあるのです。それは圧縮された学習領域のようなものです。
ポイントは、このAIGモデルについて、確かに画像からこれらの小さなサイドスクローラーを構築するように教えられましたが、それを行うために作成された脳も、「未見のビデオから行動を模倣するためのエージェントのトレーニングを支援し、将来のジェネラリストエージェントのトレーニングへの道を開きます。」
これは似たようなものを指しているかもしれません。これらの出力、おそらくこれらの世界、これらのモデルを作成して、ゲーム体験に基づいて問題解決を行うことができるのです。
記憶増強モデル: 「高度な記憶メカニズムを組み込むことで、AIは長期にわたって情報を保持し利用します。これにより、複雑な推論タスクを実行し、新しい課題に適応する能力が向上します。」
階層的強化学習: 「タスクはサブタスクに分解され、AIは複数の抽象レベルで戦略を最適化します。このアプローチにより、効率性とスケーラビリティが向上します。」
これがAIエージェントにとって大きな問題であることを私たちは知っています。上位レベルのタスクを与えられた時、それをサブタスクに分解し、それらを実行する能力です。
「環境の学習モデルと計画アルゴリズムを組み合わせることで、AIはより効果的に戦略を計画し実行できます。」
彼らは続けています。「これらの技術を活用することで、AIはビデオゲームをマスターするだけでなく、獲得したスキルを他の分野にも適用できるようになります。超人的レベルのゲーミングから得られる膨大なトレーニングデータは、AIの学習と計画能力を向上させ、最終的に2028年頃に超知能につながります。」
「この超人的データを軸にスケールアップすることで、人工汎用知能（AGI）、さらにはそれ以上の達成に近づくことができます。」
これは、Leo Gaoが以前のDwarkesh Patelのポッドキャストで言っていたことに似ています。状況認識の論文について取り上げました。すべての人が彼の言っていることに同意しているわけではありません。確かに彼の予測はちょっと狂っているように見えます。しかし、これは同じようなタイムラインで、彼が言っていた多くのことがこの論文に反映されています。
そして、彼らはQ*に話を戻しています。「Q*は、これらの原則を統合して様々なタスクで優れたパフォーマンスを達成する先進的なAIフレームワークです。」
私たちが話していたことは、基本的にQ*のことです。彼らは人間のフィードバックとゲームの多様性に触れています。「人間の手動フィードバックや報酬は必ずしも必要ではありません。」
多くの場合、モデルをトレーニングする時、人間が座ってそこで「良くやった」「悪くやった」と言って、特定のことに対して報酬を与えたり罰を与えたりします。確かに、ChatGPTには人間のフィードバックがありました。人間のフィードバックに基づく強化学習です。時間とともに人々が「いいね」「よくない」と投票すると、人々をより幸せにするために出力を変更します。そのフィードバックを受け取り、それに基づいて改善するのです。
しかし、彼らは言っています。これは今後必ずしも必要ではありません。人間のフィードバックは必要ありません。なぜなら、利用可能な幅広いゲームがAIに幅広いスキルと戦略を学ぶことを可能にするからです。
次に、彼らはマルチエージェントコラボレーションについて話しています。特化したエージェントがあり、異なるエージェントが特定のゲームプレイ要素に焦点を当てます。これについては多くの研究を見てきました。同じモデルがそれぞれの背後にあっても、各エージェントに別々の焦点とタスクを与え、協調させることで、結果が向上し、タスクを達成する能力が向上することを示しています。
層別精製: エージェントは層で作業し、戦略を反復的に精製します。最初の層が初期戦略を生成し、後続の層がフィードバックに基づいてそれらの戦略を精製します。
彼らはモンテカルロ木探索について簡単に触れています。簡単に考えると、チェス、チェッカー、バックギャモンのようなボードゲームをプレイしている時、一連の動きを考え、頭の中でシミュレーションして何が有効かを見ることができます。
チェスでは、自分の動きを考え、相手がどう対抗するかを考え、数手先まで考えます。特定の可能性や特定のルートを却下します。なぜなら、望まないことにつながるからです。望むことにより近づくようにしようとしています。落とし穴に陥らないように、より良い位置に立とうとして考えているのです。
これは一種のモンテカルロ木探索と考えることができます。可能なゲーム状態とアクションを表現し、シミュレーションを実行して最良の戦略を決定するために使用されます。
これは、ほとんど将来を想像する能力を持っているかのように考えることができます。生成モデルがあれば、これから起こることを想像し、それがどこに向かうかを見るためにプレイアウトすることができます。これは人間がこのような状況にアプローチする方法に似ています。
次に継続学習があります。彼らは言っています。「これらすべての方法論を組み合わせることで、OpenAIはAIの能力を次のレベルに押し上げ、ビデオゲームで超人的なだけでなく、これらのスキルを他の領域に一般化できるシステムを作成することができます。」
これは興味深い読み物でした。あなたはどう思いますか? これはすべてナンセンスでしょうか? 繰り返しますが、私は誰が投稿したのか、何かを知っている人からの実際のリークだったのかどうかに焦点を当てていません。そうかもしれませんし、そうでないかもしれません。私はそのような事柄にあまり気を取られない傾向があります。なぜなら、後で分かるか、分からないかのどちらかだからです。今の時点でそれを解明する方法は本当にありません。
しかし、私の質問は次のとおりです。これは現実的でしょうか? これは意味をなすでしょうか? これは本物かもしれませんか? 確かに、これはOpenAIが始めた場所です。2016年12月5日、これが彼らが始めたものでした。ビデオゲーム、強化学習、それが全体的なアイデアでした。
最終的に、彼らは大規模言語モデルに移行しました。そして、何が起こったでしょうか? 彼らは大規模言語モデルを実現しました。ChatGPT、GPT-4、これがAIを世界に、少なくともそれについて聞いたことのある大多数の人々に紹介したものでした。もちろん、それ以前にも人々は大規模言語モデルについて知っていましたが、ChatGPTがそれをメインストリームに持ち込んだのです。
Googleが論文「Attention Is All You Need」を投稿し、Transformerアーキテクチャを紹介した時、それは今日見られる多くの進歩をもたらしました。その論文の9人の著者のうち8人が辞めて自分のAI企業を始めたと思います。おそらく彼らは物事がどこに向かっているかを知っていたのでしょう。
Q*がリークされた頃、イリヤ、サム・アルトマン、取締役会の間で全ての騒動が起きていました。イリヤは会社を去り、最近ご存じのように、全く新しい会社を立ち上げたことを発表しました。
しかし、その会社は典型的なシリコンバレーの会社とは少し違います。彼らは「我々には1つの製品しかない、そして1つの製品しか作らない」と言っています。誰が投資しているのか、少なくとも資金がどこから来ているのかは言っていません。そして、目標は「超知能を構築すること」だと引用しています。これが彼らの唯一の製品です。
彼らは「いつか、いつか、いつか」とは言っていません。超知能は手の届くところにあり、彼らはただそれに向かって構築していくと言っています。サイドクエストはしません。超知能ではない製品は販売しません。
個人的には、これらの多くのことが一致すると言わざるを得ません。それが本物かどうかは分かりません。全く分かりません。しかし、本当によく一致しているのです。そして、私は研究を示しました。そこには、これらの多くのことに裏付けがあることを示唆しているように見えます。
Google DeepMind、NVIDIA、AIの研究を行う一流の大学、Microsoft、OpenAI、これらすべてが本当にこれらのアイデアに集中しているように見えます。Minecraftがこれらの研究論文で非常によく出てくることに気づきましたか? 不釣り合いに多くのMinecraftのゲームプレイのスクリーンショットがあります。これらのAI研究者たちがみんなMinecraftが大好きなオタクだからでしょうか? もちろんそうですが、それだけが理由でしょうか?
そして、イリヤ、彼は超マーケティング志向の人とは思えません。資金を得るために、お金を得るために何でも言う人とは思えません。彼はかなり控えめで、保守的な発言をする人のように見えます。誇張した発言はしません。
彼らはチームを小規模に保ち、目標は超知能だと言っています。AGIではありません。AGIのことは忘れてください。それは古いニュースです。超知能です。単なる超知能ではなく、安全な超知能を目指しています。SSIに焦点を当て、それ以外のことは何もしません。彼らは超知能への直接的な道を歩んでいるのです。
よく考えてみると、なぜそのようなことを言うのか、2つの可能性があります。1つは、嘘をついているということです。お金を集めようとしている、マーケティング目的でこれをしている、Twitterで印象を得ようとしている、というものです。これは毎日起こっています。多くのスタートアップがそうです。大きな発表をしますが、実質的な内容はほとんどありません。
確かに、それかもしれません。これはそのようなマーケティング的な発言の1つかもしれません。「我々は超知能を構築している」と言うだけで、注目を集めようとしているだけかもしれません。それが1つの可能性です。
しかし、もう1つの可能性があります。イリヤは現在最高のAI専門家の1人です。彼はGPT、GPT-2、3、4の開発を見てきました。きっと彼はQ*について素晴らしい洞察力を持っているはずです。
2016年末のOpenAIのUniverseのリリースを見てみましょう。最初のエージェントの結果のクレジットに誰の名前があるか見てください。そこにはダリオ・アマデ、イリヤ・サツケヴィッチの名前があります。彼は最初からそこにいたのです。
我々は以前、OpenAIの実験について取り上げました。彼らは多くのAIエージェントにかくれんぼをプレイさせました。何十億回もの反復プレイを経て、エージェントたちはゲームに非常に長けるようになり、最終的にはゲームを壊すまでになりました。開発者さえ知らなかったゲームのさまざまな不具合を悪用したのです。そして他にも様々な創発的な能力が現れました。
イリヤはそこにいました。彼がどのような役割を果たしたのかは分かりませんが、これらのプロジェクトのすべてに彼の名前があるのです。彼はこれらすべてのことについてかなりの知識を持っていると言えるでしょう。
しかし、あなたはどう思いますか? これは単なるナンセンスで、誰かがクリック数を稼ぐために作り上げたもので、現実には何の根拠もないと思いますか? それとも、誰かが作り上げたものだが、実際の研究に基づいており、もっともらしいと思いますか? 実際のリークかもしれないと思いますか?
しかし、最も重要なのは、これは何を意味するのでしょうか? OpenAIはすでにAGI、そして潜在的にはASIにつながる多くの基本的なものを発見しており、ただ非常に静かにしているだけなのでしょうか? 彼らのリードを保ち、優位性を維持するために開発を続けているのでしょうか?
イリヤが、彼が言うように「核となるクラックチーム」のエンジニアたちと自身の会社を立ち上げたことは、彼らがすぐにOpenAIに追いつく可能性があることを示唆しているのでしょうか? 彼がすべてのブレークスルーと舞台裏で起こっていたすべてのことを知っているように見えるからです。彼はそれらのブレークスルーが起こった時にそこにいたのです。
コメント欄で、あなたの考えを聞かせてください。しかし、ここで私の率直な意見を述べさせてください。Team Fortress 2をプレイできない限り、それはASIではありません。これは私が死んでも譲らない主張です。
私の名前はWesarthです。ご視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？