民間企業がQ-Starモデルに非常に類似した重大な技術革新を達成したと複数の情報源が主張しています。このブレイクスルーは、OpenAIによって昨年開発されたQ-Starモデルに匹敵する能動的推論能力を実現する可能性があると言われています。この進歩は、AI技術の進化の速さに私たちを驚かせています。さらに、GitHubの元CEOであるナット・フリードマンとその投資パートナーのダニエル・グロスが、AIコーディングアシスタントを開発するMagicに1億ドルを投資したことが話題になりました。Magicの技術革新は、GitHub Copilotなどの既存のコーディングアシスタントを超え、完全自動化されたコーディング共同作業者を提供することを目指しています。Magicは、大規模言語モデル(LLM)の新しいタイプを開発し、Googleの最新のGemini LLMよりも5倍多い3.5百万語のテキスト入力を処理する能力を持つと主張しています。
公開日:2024年2月22日
※動画を再生してから読むのがオススメです。
2月は狂ったような月でしたが、民間企業がQ-Starモデルに非常に似た狂った技術的なブレークスルーを達成したと複数の情報源が主張しているため、さらに狂った状況になる予定です。
これについて皆さんに情報を提供しますが、これはまったく狂っていて、AI技術がどれだけ速く進化しているかに驚いています。
ここでは、重要なこととして、Magicは技術的なブレークスルーを達成したとも非公式に主張していると書かれています。
このブレークスルーによって、昨年OpenAIが開発したQ-Starモデルに類似した能動的な推論能力が可能になると、その技術に詳しい人物が述べています。
そして、皆さん、それはまさに驚くべき声明です。
Q-Starは私たちがあまり詳しく知らなかったモデル/システムであることを知っているからです。
しかし、多くのリークや理論、機能が存在しました。
Q-Starがリークされた当時、OpenAIでは多くのことが進行中でした。
それが私たちにQ-Starが本当であると信じさせました。
今後、ビデオの中でQ-Starについてもう少し詳しく掘り下げていきます。
実際には、Q-Starに関する多くの知識を保持している文書があり、なぜこの会社Magicという私有会社が行ったことがどれほど重要なのかがわかります。
そして、皆さんにお見せする詳細のいくつかは本当に驚くことでしょう。
なぜなら、これは我々がこの分野でどれほど速く進んでいるかを示しているからです。
実際に何が起こったのか、わかりましたね。なぜなら、この能動的な推論に戻るつもりなのです。ここで解明すべきことがたくさんあるからです。
元GitHubのCEOのナット・フリードマンと彼の投資パートナー、ダニエル・グロスが先週、人工知能コーディングアシスタントの開発者であるMagicに1億ドルのチェックを書いたことで注目を集めました。
既にたくさんのコーディングアシスタントが存在しており、その中でもトップのものはMicrosoftのGitHub Copilotです。
フリードマンとグロスはMagicに何を見たのでしょうか?
覚えておいてください、これらの人たちは突然その会社に1億ドルの小切手を書いたんです。なぜなら、100億を投資すれば、確実に元が取れると考えたからです。彼らはおそらくこれが最高のものだと思っています。
これについてもう少し話しますが、すぐにこの部分をざっと見てみます。なぜなら、これがどのように関連しているかを皆さんに示したいからです。
会社が顧客に完全自動化されたコーディングの同僚を提供できるという主張を超えて、Magicが行うブレークスルーは、GitHub Copilotのようにコードの断片を完成させるだけでなく、完全に自動化された同僚を提供できるというものです。
GitHub Copilotが行うのはまさにそれで、コードの断片を完成させるだけであり、完全に自動化された同僚ではありません。
彼らが進む方向は、おそらくエージェントフレームワークに向かっており、彼らが行ったブレークスルーは明らかに非常に狂ったものであり、スタートアップがコンテキストウィンドウとして知られる大量のデータを処理できる新しいタイプの大規模言語モデルを作成したと述べています。
さて、皆さんに話したいのは、この狂ったような週についてです。おそらく、この月はAIの最も大きな月になるでしょう。おそらく、今年の中でも。
AIが指数関数的に進化しているかはわかりませんが、年末に選挙が控えているため、その後AIの話題が薄れるかもしれませんが、これは狂っています。これはおそらく最も大きな出来事です。
私たちの中にはこれを見逃した人もいると思いますが、基本的にはMagicはGoogleの最新のGemini LLMの5倍の情報を処理できると主張しています。これはOpenAIのGPT-4よりも大幅に進歩したものです。
つまり、Magicモデルは本質的に無制限のコンテキストウィンドウを持っており、おそらくこれは人間が情報を処理する方法に最も近いものです。
では、なぜこれが狂っていると言えるのでしょうか?
もちろん、ただ単に信じられないほどの高い影響がいくつかあります。
しかし、私がまず信じられないと思うことは、このブレークスルーがどれだけ狂気じみているかを理解するために、このビデオを見ているときです。
それは、もし注目していなかったら、基本的に、Googleの最新のGemini LLMが巨大だったということです。
そして、多くの人がそれを見逃しました。
そして、私はそれについて詳しく説明します。
基本的に、彼らはそれがGeminiの5倍、はい、Geminiの5倍であると述べています。
そして、私は皆さんにGeminiがどれだけ狂気じみているかをお見せします。
そして、それを見たとき、あなたは、一体何を話しているのかと思うでしょう。
しかし、ここで最も狂気じみていることは、もちろん、潜在的に無制限のコンテキストウィンドウです。
もしそれが本当だとすれば、そして、おそらく、彼らが突破口について話したとき、それはまさにゲームチェンジングなことかもしれません。
今、私がさらにお話ししたいことがあります。これは皆さんが知っておくべきことですが、彼らはGoogleの最新のGemini LLMと比べて、5倍も多くの情報を処理できたと言っています。もしこれを見逃してしまったのなら、それはOpenAIのSora製品によって影が薄れてしまったからでしょう。もちろん、それは本当に素晴らしいものでした。これから皆さんに見ていただきます。
GoogleのGemini 1.5プロが数日前にリリースされましたが、ほとんどの人が見逃してしまったのは、AI技術の分野に深く関わっていない限りです。
もちろん、それは素晴らしくて驚くべきものですが、OpenAIのSoraのテキストからビデオへの技術がなかったら、AIの分野で主要な見出しになっていたかもしれません。
今画面で見ているのは基本的にGoogleのGemini 1.5 Proです。このモデルの主な特徴は、非常に長いコンテキストを処理できることです。
1時間のビデオ、11時間のオーディオ、30,000行のコード、そして70万語を話しているんです。
それは、何冊の小説に相当するかさえわかりませんが、かなりの量です。
Geminiと比較して、GPT-4 Turboと比較して、Claude 2.1とも比較できます。
このものはまったく狂気じみています。これはすべての他のもののキラーです。私たちが知っていたすべてのことの、そして私たちが長いコンテキストウィンドウが来ることを知っていたのは、単にコンテキストウィンドウを継続的に増やしていくさまざまな研究論文を見ていたからです。
さて、疑問に思うかもしれませんが、彼らはより長いコンテキストウィンドウを持ち、1時間のビデオを分析したり、11時間のオーディオを分析したり、30,000時間のコードを分析したり、70万語を分析したりできると言っていますが、それはすべて良いことですが、それが正確なのかどうかは疑問です。以前に同様のことを行った企業がありましたが、それは彼らがやっていたことに対してそれほど正確ではありませんでした。
これをテストするために彼らが行ったことの一つは、なぜ私がGoogleについて皆さんに示しているのかということです。なぜなら、MagicがGoogleよりも優れたことを主張しているのであれば、それは信じられないことです。ますますまずはGoogleのGemini Proがどのように機能するかを理解する必要があります。
それから、もしMagicがそれを打ち負かしたと理解したら、その影響はとても狂っているということです。
基本的に、Googleがやったことは、私がちょうど言ったように、Googleが超長いコンテキストウィンドウを持っていたことをご存知ですか。
11時間または22時間のオーディオ、3時間のビデオ、700万語または1000万トークンを入れることができます。
基本的に、彼らがやったことは、これをテストするために、人々が「これが正確かどうか疑問に思っていたので、基本的に彼らはビデオに秘密のフレーズを隠しました。
そして、そのビデオでは、すべてのフレームの中で、たった1つのフレームだけで、2時間ほどだったと思います。
それが彼らがしたことです。
彼らは1つのフレームを隠しました。
AIにそれを見つけるように頼んで、見つけました。
オーディオでは、1つの文または3つの単語のようなものを隠し、それを見つけました。
それは、秘密の単語は何かということでした。
それを見つけることができました。
そして、テキストでもそれができました。
テキストでは、非常に小さなエラーがいくつかあったと思いますが、全体的に、成功した検索と失敗した検索との比較をすると、どれだけ狂っているかがわかります。
非常に、非常に正確です。
99.9パーセントくらいだったと思います、ほぼ完璧です。
基本的に、これらの超長いコンテキストウィンドウが完全に狂気じみている方向に進んでいるということです。
そして、その含意、MagicがGoogleを無制限のコンテキストウィンドウで実質的に打ち負かしたということがあるなら、それが可能なのかさえわかりません。
私は、これの狂った含意は、もちろん、私たちは知っていることです、覚えていてください、OpenAIは何か狂ったことを引き出すことを強いられるでしょう。
今、私が皆さんに示したいのは、もちろん、Gemini'sからの2つのクリップです。なぜなら、これがAIだと思うなら、長いコンテキストウィンドウを持っているけれども、それはGPT-4よりも賢くないし、Claude 2.1よりも賢くないからです。
ベンチマークについて皆さんにお知らせすると、Gemini 1.5 Proは実際には、すべてのベンチマークでGPT-4 Turboを上回っています。ところで、それをお知らせしておきます。
そしてもちろん、1時間のビデオ、11時間のオーディオ、その他のすべてを分析できるなら、実際にできることは異なるタスクであり、それが私が皆さんにこれらの2つのデモを示すところです。
そして、それがどのように機能するかを正確に説明します。
これは、最新モデルであるGemini 1.5 Proの実験的機能である長いコンテキスト理解のデモです。
私たちは、800,000以上のトークンになるThree.jsの例コードを使用して、いくつかの例のプロンプトを歩きます。
私たちは、すべてのThree.jsの例のコードを抽出し、それをこのテキストファイルにまとめ、Google AIスタジオに持ち込みました。
ここでは、モデルに、キャラクターアニメーションについて学ぶための3つの例を見つけるように求めました。
モデルは何百もの例を見て、これらの3つを選び出しました:スケルタルアニメーションのブレンディングについてのもの、ポーズについてのもの、そして顔のアニメーションのモーフターゲットについてのもの。
私たちのプロンプトに基づいて、すべて良い選択です。
このテストでは、モデルはこれらのプロンプトに対して約60秒かかりましたが、これは最適化中の実験的機能であるため、レイテンシータイムは高くなるか低くなるかもしれません。
次に、リトル東京デモのアニメーションを制御しているのは何かを尋ねました。
こちらでご覧の通り、そのモデルはそのデモを見つけることができ、アニメーションがgltfモデル内に埋め込まれていることを説明しました。
次に、それがこのコードをカスタマイズできるかどうかを見たかった。
そこで、アニメーションの速度を制御するスライダーを追加するコードを示してください、他のデモにあるようなGUIを使用してください、と尋ねました。
これが元のThree.jsサイトでの見た目ですが、こちらが修正版です。
同じシーンですが、アニメーションをスピードアップ、スローダウン、または途中で停止させるためのこの小さなスライダーが追加されました。
他のデモにあるこのGUIライブラリを使用しました。
シーン内のミキサーに接続するために、アニメーション速度というパラメーターを設定しました。
すべての生成モデルと同様に、応答は常に完璧とは限りません。
実際、このデモには他のほとんどのデモにあるようなinit関数がありません。
ただし、それが提供したコードはまさに私たちが求めていたことをしました。
次に、デモのスクリーンショットを与えることで、マルチモーダル入力を試してみました。
このスクリーンショットについて何も伝えず、ただこちらで見たデモのコードをどこで見つけられるか尋ねました。
ご覧の通り、そのモデルは何百ものデモを見て、画像と一致するものを見つけることができました。
次に、モデルにシーンを変更するように求めました。
「地形をより平らにするためにコードを修正する方法は何ですか?」と尋ねました。
そのモデルは、generate heightと呼ばれる特定の機能にゼロインし、調整する正確な行を示してくれました。
コードの下には、変更がどのように機能するかが明確に説明されています。
更新されたバージョンでは、地形が実際に私たちが頼んだように平らになっていることがわかります。
ここでこの3Dテキストデモを使用して、もう1つのコード修正タスクを試してみました。
私たちは尋ねました、「テキストジオメトリデモを見て、いくつかの微調整をしたいのですが」。
テキストを「goldfish」と変更し、メッシュ素材を本当に光沢のある金属に見せるにはどうすればよいですか?
モデルが正しいデモを特定し、調整する必要のある正確な行を示しているのがわかります。
さらに下に、これらの素材特性、金属度と粗さについて説明し、それらを変更して光沢のある効果を得る方法を説明しています。
確かにそのタスクを達成し、テキストは今はずっと光沢があります。
これらは、Gemini 1.5 Proの最大100万のマルチモーダルトークンのコンテキストウィンドウで可能な例のほんの一部です。
ちょうど今見たあの部分を理解しているわけですが、それがどれだけ驚くべきことかを理解できるでしょう。彼らがGoogleを実質的に無制限のコンテキストウィンドウ、または350万語、Googleの最新のGeminiの5倍の量で打ち負かす可能性を可能にした何かをしたということがわかります。
これが最新のGemini 1.5 Proだったかどうかはわかりませんが、たとえ彼らがそれを超えたとしても、これらの人々は1億ドルのような投資をしています。
それは少額ではありませんね。
それは本当に、本当に莫大な金額です。
これは間違いなく狂ったことですね。
私たちは、コンテキストウィンドウでなくても、これを見なければなりませんね、わかりますか?
なぜなら、これが狂った部分なのです、わかりますか?
言ったように、わかりますか?
彼らは、OpenAIが開発したQ-Starモデルに類似した能動的推論能力を可能にすると主張しました。この技術に詳しい人物によると、これは大規模言語モデルの主要な不満の1つを解決するのに役立つ可能性があります。それは、トレーニングデータで見たものを模倣するのではなく、論理を使用して新しい問題を解決することです。
Magicが大規模言語モデルをどのように開発しているかについては、この人物は、ChatGPTやCopilotなどの消費者向け製品を動かすAIの一種であるtransformersの要素をいくつか取り入れ、他の種類の深層学習モデルと融合させたと述べました。
そして、これは後で探求することになるものです。異なるアーキテクチャは、人々が実際には本当のものだと気づいていないものですね、わかりますか?
transformerアーキテクチャは、発明されて以来、その領域を支配してきましたが、もちろん、今ではいくつかの異なるものに挑戦されています。
ここにあるのは、新しい問題を解決するための論理の使用です。
では、なぜ能動的推論がゲームを変えるのでしょうか?
基本的に、論理的問題解決において、能動的推論は、AIシステムが問題を解決するために論理的推論や演繹を行う形態に関与することを意味します。
これは、理論上、システムが、根底にある関係や規則を理解して、トレーニングされていない問題に対する解決策を考えるために論理の原則を適用できることを意味します。
そして、これは実際にはパターンマッチングを超えています。
トレーニングされたデータ内の統計的パターンにのみ依存する代わりに、能動的推論が可能なシステムは、論理的推論に基づいて新しい情報を推論したり、予測したりすることができるでしょう。
この能力により、具体的で見たことのないシナリオに一般的な原則を適用する点で、本質的に人間のように考えることができるようになります。
さらに、能動的推論には、学習した概念を新しい方法で適用することによって、新しい問題や状況に動的に更新および適応する能力も含まれています。訓練データからの情報の単なる記憶や再結合だけでなく、新しい方法で学習した概念を適用することができるのです。
このダイナミックな適応、新しい問題や状況に主体的に理論的に考え、適応することは、人間だけが持っている種類の知能です。
そして違いは、現在の大規模言語モデルの能力が基本的にパターン認識と生成であるということです。
大規模言語モデルは主に、膨大な量のデータやテキストデータの中のパターンを認識し、統計的な可能性に基づいて応答を生成することで動作します。
そのため、彼らは、トレーニング中に見た例に基づいて、連続性があり文脈に適したテキストを生成するのに優れています。
基本的に、彼らは人間らしい応答を模倣しています。
大規模言語モデルは、さまざまなドメインやスタイルで人間らしいテキストを模倣する応答を生成することができます。
ただし、彼らの理解は、トレーニングデータで遭遇した類似の文脈との入力を関連付けることに限定されており、真の理解はない。
もちろん、彼らは限られた演繹的推論を持っています。
基本的に、大規模言語モデルは時々推論しているように見えるかもしれませんが、そのプロセスは実際の論理的演繹よりもパターンの一致に関するものです。
特に、それらのタスクが彼らのトレーニングデータに適切に表現されていない場合、彼らは本物の理解、因果関係、複雑な論理推論を必要とする特定のタスクに苦労することがあります。
それによって、動的な適応、パターンマッチングを超えた、新しい情報を推論したり、論理的な推論に基づいて予測をしたり、新しい解決策を考え出したり、明示的にトレーニングされていない問題の解決策を理解することで、基礎となる関係やルールを理解して論理の原則を積極的に適用することが、確かに真のゲームチェンジャーです。
そして、これはGemini 1.5 Proのリリース以来、インターネット上で見られるものです。
なぜなら、基本的に、人々が今できるようになったことは、長い形式の問題を解決することができるようになったということです。
もしも、3万行のコードがある場合と、たった500行のコードや10行や100行のコードがある場合、我々は大きく異なる問題を解決することができます。
あなたは、基本的に、AIシステムがそのテキストを理解し、それを消化することができるとき、はるかに多くのことを得ることができます。
それは完全にゲームを変えるものであり、その積極的な推論と組み合わせて、人間がどのように考えるかにより近づけるものです。
これが完全なゲームチェンジャーになる理由です。
今、私が実際に興味を持ちたいと思ったのは、Magicが実際に独自のアーキテクチャについて話していたという事実です。
では、Magicからのこの小さなプレゼンテーションについて、かなりクレイジーになる予定です。
Magicは、共同作業者を構築するためのフロンティアスケールのコードモデルに取り組んでおり、単なる共同作業者ではないと述べています。
そして、私たちが信じていることは、コード生成は製品であり、AGIへの道であると述べています。
そして、AGIの安全性は重要であり、解決可能であると述べています。
そして、優れたAI製品を構築するためには、自分たちのフロンティアスケールモデルを訓練する必要があると述べています。それが彼らが実際に行っていることです。
そして最後のポイント、そして最も重要なポイントは、私がこれについて話す理由になるでしょう。
そして最後のポイントは、トランスフォーマーが最終的なアーキテクチャではないと述べていることです。
私たちは、複数のコンテキストトークンコンテキストウィンドウを持つものを持っています。
それはかなりクレイジーなことです。
さて、ここが重要な点です。
最初にこのツイートを読んだとき、なんとなく見て、「あまり意味がないな」と思いました。
そしてもう一度読んで、ああ、これは実際に思っていたよりも大きいと気づきました。
14億ドルを投資した人、ナット・フリードマンは、Magic Devが過去に試したどんなものよりもはるかに優れた成績を収めた画期的なモデルを訓練したと述べました。
彼がそこで言ったことを見てほしい。
このものは、これまで試したどんなものよりもはるかに優れた成績を収めました。
GoogleのGemini Proのリリース前にツイートしたものでしたが、彼が「これまで試したどんなものよりもはるかに優れた」と言っていることはかなり驚くべきことです。彼はわずかに優れているとは言っていません。はるかに優れていると言っています。
彼は、それを使って、あなたのコードベース全体と依存関係ツリーの推移閉包を理解できる高度なAIプログラマを構築していると言っています。
もしこれが魔法のように聞こえるなら、理解できるでしょう。
彼は基本的に、彼は今日その会社に1億ドルを投資するほど感銘を受けたと述べています。
私は、そのプレゼン資料で何かを見たということはかなり狂っていると思います。
これらの人々は自分たちの製品に取り組んでいて、何かを試して、これはとても狂っていると思って、1億ドルを投入すると言ったのです。
これは、MicrosoftのGitHub Copilotに対抗していることを理解する必要があります。基本的にOpenAIの支援を受けているものであり、この人は1億ドルを投資しています。
彼は基本的に、彼らが持っているものが本当に本当に良いと賭けていると言っています。
そして私が言ったように、誰かが本当に物事を理解しているかどうかを理解する最良の方法は、おそらく、またはおそらく、その立場を支持しているかどうかを知る最良の方法はお金です。お金は話すものであり、これらの人々は1億ドルを投入しています。
彼らは言葉にお金を出して、見てください、私たちはこのものがとても良いと思って、1億ドルの私たち自身のお金をそこに投入するつもりです。
10億ドルでもなく、20億ドルでもなく、30億ドルでもなく、1億ドルはかなり多く、それはかなりのことです。
彼らは、「これまで試したどんなものよりもはるかに優れた」と言っていますが、それはかなり狂ったことです。
次になるのは、もちろんここです。私はしばらくの間考えていました。もちろん、これは単なる推測ですし、実際、私はわかりませんが、おそらく彼らはこのアーキテクチャを使用している可能性があると思います。
OK。もし分からないことがあれば、これはMambaです。
実際、約2か月前にこの論文がありました。Mamba: Linear Time Sequence Modeling with Selective State Spacesというもので、これは長いコンテキストウィンドウで優れたパフォーマンスを発揮するトランスフォーマーの代替として謳われていました。
これはトランスフォーマーの直接的な代替ではありませんが、ChatGPTや他の大規模言語モデルを駆動するトランスフォーマーモデルに見られるいくつかの非効率性に対処する代替アーキテクチャです。
Mambaは、入力計算のための線形時間複雑性を達成するために、状態空間モデル(SSM)を使用しています。これは特に長いシーケンスを効率的に処理するのに有益です。
実際、推論速度と効率において、トランスフォーマーを上回ることが示されており、特に大きなコンテキストサイズで優れたパフォーマンスを発揮しています。
Mambaは言語モデリングやオーディオ、DNAシーケンスを含むタスクで印象的なパフォーマンスを示していますが、すべての側面で優れているわけではありません。
だからこそ、私は本当によくわからないと言ったのです。
たとえば、ハーバード大学のケンプナー研究所からの研究があり、実際に、トランスフォーマーよりもMambaの方が、入力コンテキストからのコピーと取り出しを含むタスクにおいて優れていることが示されています。
ただし、Mambaモデルは、長いシーケンスを効率的に処理するタスクや、計算効率が重要なシナリオにおいて、トランスフォーマーよりも特に優れています。
そして、Mambaのアーキテクチャは、状態空間モデル(SSM)と再帰ニューラルネットワークの要素を組み合わせることで、いくつかの特定の領域で優れたパフォーマンスを発揮できるようになっています。
言語モデリングに優れています。
同様のサイズのトランスフォーマーを上回り、事前トレーニングおよびダウンストリーム評価タスクの両方で、2倍のサイズのトランスフォーマーと同等のパフォーマンスを発揮しています。
そしてもちろん、長いシーケンス。
このものは、効率的なシーケンスモデリング技術によって、長いシーケンスを優れた処理能力で扱うことができます。
Mambaは、情報を長いシーケンスで処理する必要があるタスクに実際に適しています。
これは、シーケンスの内容の長さと線形的にスケーリングする能力に起因しており、コーディングなど、長いコンテキストサイズが関与するアプリケーションに特に有益です。
さらに、さまざまなドメインで優れたパフォーマンスを示しています。
もちろん、音声やゲノミクスなど、すでに話したように。
そして、もちろん、トランスフォーマーにおける長いコンテキストシナリオの計算上の限界に対処しています。
そして、実際に持っているもう一つのことは、もちろん、コンテキスト内の学習です。
Mambaは、コンテキスト内の例の数と特によくスケーリングすることで、トランスフォーマーモデルのパフォーマンスに匹敵します。
Mambaは、コンテキスト情報を活用することがタスクのパフォーマンスにとって重要なシナリオで、かなりのパフォーマンスエッジを維持していることを示唆しています。
これらの人々が持っているアーキテクチャの種類は明らかであり、トランスフォーマーが最終的なアーキテクチャではないと言ったので、マルチミリオントークンのコンテキストウィンドウを持つものがあるかもしれません。
私はそれがこのものであるかどうか完全にはわかりません。
つまり、私を驚かせることはありませんが、やはり、もちろん、このものにはいくつかの制限があります。
あまり良いエコシステムはありません。
しかし、2か月前にこの論文が公開されたことはかなり驚きです。
そして突然、Googleが、トランスフォーマーと協力しているかどうかはわかりませんが、突然、Googleが1000万のコンテキストウィンドウを持つものを出して、これらの人々がマルチミリオンのコンテキストウィンドウを持つものを出して、ほぼ無制限です。
彼らがこれらのいずれかを行うためにMambaを使用しているか、それとも完全に異なるアーキテクチャを開発し、大規模言語モデルの本質と組み合わせているかどうか疑問に思っています。
彼らが取り組んでいるアーキテクチャが何かは完全にはわかりませんが、新しいアーキテクチャが広く普及すると、もちろんこれらの人々は私企業ですので、彼らが使用しているプロプライエタリなアーキテクチャを守ろうとするでしょう。
それはかなり魅力的だと思いますし、もちろん、ここには魔法の会社のCEOがいます。魔法のAIラボです。基本的には、彼は安全なスーパーインテリジェンスを構築するためのミッションでコードを書いていると述べています。
彼の目標はスーパーインテリジェンスであり、記事では、Magicの共同創設者兼CEOであるエリック・スタインバーガーが以前からAIモデルが推論する問題に取り組んできたことが述べられています。
以前、彼はMatter Platformsで働いており、強化学習という機械学習技術が、OpenAIの大規模言語モデルの優れたパフォーマンスを支援する方法について研究していました。これにより、AIモデルが不完全な情報でも問題の最適な解決策を見つけるのに役立ちます。
彼の野望は、コーディングの同僚よりも大きいです。
この会社の目標は、Googleと同じようにAIスーパーインテリジェンスを開発することです。それが重要な点です。
Q-Starに非常に似ているブレークスルーを達成した事実、そしてスーパーインテリジェンスに取り組んでいる事実は、非常に驚くべきことです。彼らが両方が同じ方向に向かっているという事実は、最終的に同じ障害にぶつかることになるということを意味していると思います。そして、最終的には、彼らが今抱えている同じ障害を乗り越えることになるでしょう。
これには実際の影響があり、私が知りたいことの1つは、製品が何かということです。基本的に、Freedmanの元同僚のいくつかがMagicに参加しており、その中にはGitHubのデザイン担当副社長であるMax Shoningや他のGitHubデザイナーも含まれています。
採用情報に詳しい人によると、彼らはおそらく会社の最初の商業製品の開発に重要な役割を果たすことになるでしょう。それは数ヶ月以内にリリースされる予定だと聞いています。
私はおそらく、私たちが手に入れる可能性があるものは、GitHub Copilotを凌駕するものだと思います。
考えてみてください、皆さん。
もしもこれらの人たちが、例えば、実際にこれをやったとしたら、ということを考えてみてください。
彼らはQ-Starに似たアクティブな推論を持っているということです。
OpenAIについて覚えているでしょうか、Q-Starに関する騒動がありましたね、ある瞬間に誰かが解雇されたことがありましたが、それについて詳しく説明していきます。
しかし、もし彼らがアクティブな推論を持つ何かを持っていて、アクティブな無制限のコンテキストウィンドウを持つ何かを持っていて、GoogleのGemini 1.5 Proを凌駕する何かを持っていて、それが非常に優れているとすると。
そして、これらの人たちは、それが私たちの評価よりも優れていると言っています。
もし彼らがその製品をリリースし、その製品がGitHubのCopilotよりも優れているとしたら、それはおそらくそうなると思いますが、私たちには問題が発生すると思います。
なぜなら、もしもその製品が大成功を収めた場合、GitHubはマイクロソフトの支援を受けていることを覚えておいてください。
私はChatGPTを使用していると推測しています。
私たちは問題を抱えることになるでしょう、なぜなら、これらの人たちは彼らの製品をリリースし、業界を席巻することになるからです。
そして、その後、OpenAIはおそらくGPT-5をリリースするか、さらに高度なバージョンをリリースするでしょう。なぜなら、彼らはレースに負けたくないからです。誰もがChatGPTについて知っていますから。
もしもこれらの人々が独自のフロントエンドモデルを開発しているとしたら、彼らが独自のモデルをリリースすると述べていたことを覚えておいてください。彼らの目標は、スーパーインテリジェンスを構築することです。
それはただのコードではないのですよ、友よ。
すごい製品を作るためには、自分たちのフロントエンドのスケールモデルを訓練する必要があり、トランスフォーマーは最終的なアーキテクチャではないと言っています。
今、マルチミリオンのコンテキストウィンドウを持つものがあり、明らかにアクティブな推論を持っているということは、レースが始まる可能性があるということです。
レースが始まるかもしれません、これは狂気じみたレースになるかもしれません。
よし、そしてこれが私が述べている理由で、これは本当に信じられないほど素晴らしいかもしれません。
覚えておきたいのは、Q-Starはかなりクレイジーだったということです。なぜなら、サム・アルトマンが解雇された日、会社が行った技術的な進歩をほのめかし、無知のベールを後退させ、発見のフロンティアを前進させることができたと述べていました。
そして彼がそのことを言ったインタビューがありました。
そしてもちろん、Q-Starは基本的にOpenAIがアルトマンの解雇前にブレークスルーを達成し、興奮と懸念を煽った。
多くの人々がこのリークが本当かどうか疑問に思っていたことを知っていますが、実際にはサム・アルトマン自身がそれにコメントしたためです。
そして、OpenAIが702人の従業員を抱えていることを人々が忘れていると思いますが、実際には署名したのは770人だと言われています。
おそらく署名したのはおよそ740人だったと思います。
そのような規模の会社を考えると、2人が基本的に取締役会に行って、これは狂っていると言うことは不可能ではないと思います。
なぜなら、あなたが知らないかもしれないことは、今OpenAIが区画化されていると推測しているからです。Soraをリリースしたとき、会社全体がそれを知っていたかどうかさえわかりません。
なぜなら、私は従業員の一部がツイートしていたのを覚えています。今日、Soraのデモの一部を見ました、と言っていました。
このものは本当に信じられないほどです。
本当に、これは何かになるかもしれません。
OpenAIチーム全体によるQ-Starリークが得られなかったのはなぜだろうと言っている人もいます。
みなさん、OpenAIは区分されています。つまり、情報が漏れるのを防ぐために情報が分離される組織は通常、区分化戦略を採用していると言われています。
そして、このアプローチの本質は、組織を分割して、情報が厳密に管理され、必要に応じてのみ共有される離散的なセクションや区画に分割することです。
そして、それは、軍事や情報機関、そして一部の企業環境とは異なり、セキュリティを強化し、もちろん機密情報を保護するために使用されています。
もちろん、私たちが今行っていることでは、すべてのこのようなブレークスルーは保護される必要があります。
OpenAIがそのような戦略を持っているのは驚きではありません。
そして私が言ったように、もしそれをやっているなら、リークは確実に可能だと思います。なぜならそれは巨大な企業だからです。
誰がそれになるかわかりません。
たとえそれらが区分けされているとしても、わかっているのは、たとえば100人や50人だろうと、漏洩をしたのが具体的に誰なのかはわからないということです。
だから、Q-Starはもちろん本当に驚くべきことだと思います。なぜなら、スーパーインテリジェンスに取り組んでいる企業であるOpenAIがさらにスーパーインテリジェンスに取り組もうとしているからです。
彼らはそこで本当に大きな進歩を遂げたかもしれません。
そして、もちろん、今年初めに会社の研究者によって行われた革新が、彼らにより強力なAIモデルを開発することを可能にするものでした。
そして、もちろん、一部のスタッフの間で、会社がこのような高度なAIモデルを商品化するための適切な保護策を持っていないという懸念がありました。
この人は言いました、もちろん、このQ-Starイノベーションは、これまで見たことのない数学問題を解決できるようになり、重要な技術的なマイルストーンであり、それが導入されるとゲームを変えるものになるでしょう。
さて、Q-Starに関するさらなる情報がありました。
それから、私は本当に、本当に、本当に重要な問題に取り組む予定ですが、それについて話している人がまだ十分ではないと思います。
これらの進展は良いですが、もちろん、残念ながら悪いこともたくさんあります。
では、基本的に、覚えておいてください、私が公言したように、現在はスーパーインテリジェンスは遠いように見えますが、私たちはこの10年に到来する可能性があると信じています。
つまり、2030年までにASIを手に入れることができるかもしれません。
OpenAIがスーパーインテリジェンスは遠いように見えるが、この10年に到来する可能性があると述べていることは驚くべきことではない、ということです。なぜなら、明らかに一部の人々が、AGIを手に入れるとすぐにASIを手に入れることは遠くないと述べているからです。
さらに、今年初めに、サツキヴァーと彼のチームが、より洗練されたモデルを訓練するための努力において、より大きな結果をもたらすその方法の変種を発見したということもありました。
そしてもちろん、基本的に、OpenAIはスーパーインテリジェンスの解決にその計算の5分の1を捧げています。
そして基本的に、私がカバーする最後のことは、私が皆さんに話したいと思っているものです。なぜなら、これは本当に、本当に重要で、十分に話されていないからです。
基本的に、このMolochという概念があります。Molochは、私たち人間が無駄な努力を強いられ、お互いと競い合うような状況を意味するようになってきました。
そして、これは本当です。
もしこれをただ動画に追加しているだけだと思っているなら、それは違いますよ、信じてください。
みなさんはこれを見たいと思うでしょう、なぜならこれが災害を招く可能性があるからです。
基本的に、Liv Boor、あなたの名前の発音が正確にはわかりませんが、彼女は実際に最近、Moloch問題についてのTEDトークを行いました。
これは本当に大きな問題で、システムがより強力になるにつれて、より多くのセキュリティが必要になります。
しかしもちろん、システムがより強力になると、人々はそれらをさらに展開するでしょう。
だから、このTEDトークからクリップを見せるつもりです。なぜなら、この問題を理解することが実際に非常に重要だからです。AI革新について幸せな人もいるとは思いますが、存在リスクは存在しています。
文字通り、AI研究者の40%がAI研究を遅らせるべきだと言っています。
そしてもちろん、それは、超知能が実際に非常に悪いリスクをもたらすという明確な理由です。
だから、このクリップを見せますね。
それらのインフルエンサーは、いいねのために自分の幸福を犠牲にしています。
それらのニュース編集者は、クリックのために自分の信頼性を犠牲にしています。
そして、汚染者は利益のために生物圏を犠牲にしています。
これらすべての例で、ゲーム自体の短期的なインセンティブがプレイヤーを誘惑し、彼らを将来のさらなる犠牲を強い、彼らを最終的に全員が負ける状況に閉じ込めてしまう。
それがMolochの罠であり、健全でない競争のメカニズムです。
そして、同じことが今、AI産業でも起こっています。
今、企業間で最も計算を得点できるか、最大の資金調達ラウンドを得るか、トップの人材を獲得できるかという競争が激化していることに私たちは皆気づいています。
さて、ますます多くの企業がこの競争に参入するにつれて、全員ができるだけ速く進むことと安全テストなどの他の重要なことを犠牲にする圧力が増しています。
これはすべてMolochの罠の特徴を持っています。CEOであると想像してください。あなたは心の底から、あなたのチームが非常に強力なAIを安全に構築できると信じています。
もし速度を上げすぎると、より慎重でない他のチームが先に到達し、あなたがそれを展開する前に彼らのシステムを展開するリスクがあります。
それによって、あなた自身がより無謀になることを促します。
そして、これらの企業内だけでなく、完全に独立した専門家や研究者が、急いでAIを進めることの極端なリスクについて警告していることを考えると、このアプローチはまったく狂っています。
さらに、ほとんどすべてのAI企業は、投資家を満足させることに縛られており、時間の経過とともに善意の使命と衝突するようになる短期的なインセンティブがあります。
これは、本当にトースターについて話しているのであれば、大したことではありませんが、AI、特にAGIは、農業革命や産業革命よりも大きなパラダイムシフトだと言われており、崇敬と反省に値するほどの時期であり、誰が最も多くのデイリーアクティブユーザーを獲得できるかの企業の競争に縮小されるべきではないものです。
私は加速と安全の間の正しいトレードオフを知っているわけではありませんが、Molochにそれを我々のために決定させてしまうと、その正しいトレードオフがわからなくなることは絶対にありません。
そのクリップは、物事があまりにも速く進展している問題について話しています。
そして、これはなぜこれが非常に深刻な問題であるかについて話したように、この小さな企業は基本的にOpenAIが持っていたのと同じ種類のQ-Starテクノロジーを持っている場合、OpenAIがGPT-4を安全にテストしたのと同じくらい、このAGIレベルのシステムを1年半安全にテストする必要があるかもしれません。しかし、彼らが言ったように、この他のAIシステムが数ヶ月以内にシステムを展開すると、OpenAIは本質的にガードレールを忘れることになるのではないかと考えます。
そして彼らはそのシステムを展開します。
その将来的な影響は大きいでしょうか?
基本的に、これは、言ってしまえば、底辺への競争の問題です。
このチャートはアーク・インベストメント・マネジメントからのもので、彼らは毎年、これらのブレークスルーが起こると、まるで株価がAGIに達するまで下がり続けるような話をしています。
そしてここで見ているように、GBT3は50年から40年まで一気に下がりました。
それから、Googleの高度な対話エージェントであるLambda 2を見ることができます。突然、18年になりました。
ChatGPTは、突然、再び下がりました。
GPT-4が始動し、突然、8年になりました。
このQ-Starのブレークスルーによって、再び突き落とされることになるのでしょうか、突然、まるで4年前に戻されるような感じになるのでしょうか?
予測誤差が続くと、2030年までにそこに到達するという予測のようになることがわかります。
しかし、予測は基本的に、これらの種類のブレークスルーによって言っていることです。
そして、ChatGPTが言ったように、ここでAIの進展がどれだけあったかを見せたいと思っていました。AIの活況が非常に高まっているため、エンゲージメントが大幅に増加しています。
ここでのポイントは加速点のようです。
これはまっすぐに降りてくると主張できます。つまり、それが今年です。
実際に考えてみると、皆さん、このポイントが指数関数的な成長であるとしたら、それが今年に降りてくるということは、わかりますよね?
それは驚くべきことではないですね。
もし彼らの予測誤差が続くと、正直言って、人間は指数関数的な成長を予測するのが非常に下手なので、2025年に何か狂ったことが起こっても驚かないでしょう。
私は言いたいのは、これらの企業が進んでいる中で、皆さんが知りたいと思うこともあると思います、それは少し変わっていますが、OpenAIは実際にこれについて話していました。
彼らは実際に言ったのですが、我々は実質的には超知能を手に入れることはないだろうと。
もちろん、我々はある程度手に入れることになるだろうが、彼らが安全テストについて言ったことは、基本的に、我々は4つの安全リスクレベルを特定し、中程度以下のポスト緩和スコアを持つモデルのみが展開されると述べていた。
基本的に彼らが言っていることは、ある特定のレベルで機能するモデルのみが展開されるということです。
もし彼らがあまりにも賢いと考えるシステムを持っている場合、それを実際に使うことはしないでしょう。
しかし、これがポイントなんです。これがOpenAIの安全性の四角形であり、これが彼らの安全性の緩和策です。
他の企業はどうするつもりですか?
他の企業はこれに従うつもりですか?
もし彼らが従うなら、世界で何が起こるかわかりますよね。
つまり、住んでいる場所が狂った場所になることでしょう。これまでに、2026年までにAGIと言っていたのに、今は2024年です。
あと1年半しかありません。
私は、18ヶ月でAGIが実現すると言っていた人々が狂っていると思っていたことを覚えています。
今では、それが現実的に思えるようになってきました。
これらの企業に投資されている金額、数ヶ月前にしか起こらなかったQ-Starのブレークスルー、最近発見されたアクティブな推論能力、巨大なコンテキスト長が存在すること、新しいアーキテクチャが現れていること、そしてこれらの大規模な投資、そしてこれらの人々がこれまでに見たものよりも優れていると言っていることを考えると、彼らが何を開発したのか全くわかりません。
とにかく、私は興奮していますし、怖いし、恐ろしいです。
つまり、この画期的な技術を表現するためにはたくさんの言葉があります。
そして、それが関わっているのを見るのが楽しみです。
では、皆さんはこれについてどう思いますか?
皆さんはこれを狂ったことだと思いますか?
それはつまらないと思いますか?
これは良いアップデートだと思いますか?
皆さんの意見を教えてください。
これは狂ったような2月でしたが、明日もまたアップデートします。