AI業界の大ニュース：オープンソースが全てを打ち倒す、GPT-5のパラメーター漏洩、AGIは数十年先？

2024年9月8日 04:44

10,390 文字

最新のオープンソースモデルがGPT-4oのような現行の最先端モデルを打ち負かすことから、AGIの未来に関する修正されたタイムラインまで、この動画では過去数日間に起こったことについて、あんたが見逃したことをお見せしますわ。
これは間違いなく、今週のAI関連の発表の中で最大級のニュースの1つやと言えるでしょう。ハイパーライトAIのCEOであるマット・シューマーが、こんなツイートをしてますわ。
「リフレクション70bの発表を喜んでお知らせします。これは、リフレクション・チューニングを使って訓練された世界最高のオープンソースモデルです。このテクニックは、LLMが自分の間違いを修正できるようにするために開発されました。このモデルは全てを凌駕し、来週には450億パラメーターのモデルが登場する予定です。世界最高のモデルになると期待しています」
さらに詳細が示されていますが、これが意味することは驚異的やと思います。私は先ほど自分のコミュニティでちょっと話しましたが、これがAIの真の未来を示しているんやないかと思いますわ。
このチャートを見ると、様々なAIシステムがあることがわかります。右側にはLlama 3.1の405億パラメーターモデルがあります。これはもちろんベースモデルです。その次にGemini Pro、GPT-4o、Claude 3 Opus、Claude 3.5 Sonnetがあります。驚くべきことに、リフレクション70b（70億パラメーター）に近づけるのはClaudeだけです。これはかなり驚くべきことです。なぜなら、他のクローズドソースの最先端モデルは実際には70億パラメーターよりもはるかに大きいことがわかっているからです。
ここで見られるように、ClaudeはGP QAとヒューマン評価でリフレクション70bを上回っていますが、その差はわずかです。
私が思うに、ここで最も興味深いのは、このモデルのチューニング方法が、AIが実際に推論能力とその応答において賢くなる方法についての洞察を提供していることです。
ここに見られるように、これは基本的にリフレクション論文からのものです。去年の初めに、AIシステムに応答を出させる時、その応答だけを使うんじゃなく、モデルに自分の出力に応答させて、何をもっと良くできたかを尋ねる論文がありました。そうすることで、モデルは自分自身を批評し、自分の応答を改善することができるんです。
ここで見られるように、モデルにタスクが与えられています。「独立宣言の前文の最初の文を書いてください。ただし、鏡文字で書いてください」。そして、ここに「思考」があるのが見えます。これは、Claude 3.5 Sonnetで見たことがあります。おそらくこれが、このモデルが正確なタスクを実行する能力において非常に進んでいる理由の1つやと思います。
次に、計画の概要を示し、「これを段階的に分解しましょう」と言っています。そして「この計画を実行しましょう」と言い、ここで魔法が起こるんです。「リフレクション」があり、「進める前に、鏡文字の書き方には2つの方法があることを明確にすべきです。単に文字の順序を右から左に逆にするか、順序を逆にして各文字を反転させるかです。このタスクでは、より挑戦的で鏡文字の概念に忠実な方法Bを使用します」というようなことを言っています。
そして、もう一度リフレクションを行い、「鏡文字のテキストを再確認しました。正しく見えます。各文字が反転され、順序が逆になっています。句読点は本物の鏡に映ったように残っています」と言っています。
そして、この全ての内部的な思考の後、最終的な出力を与えています。ユーザーは通常、これらのことを全て見ることはありません。
最近のAIについて、どんなことが起こっているのか不思議に思ったことがあれば、先ほど言ったように、Claude 3.5では、モデルがどのように段階的に考えているかを正確に見ることができるようにプロンプトを設定できました。これは、これらのモデルがどのようにして良い応答を得るようになるかについての洞察を与えてくれます。
ここに出力があります。「独立宣言の前文の最初の文をここに示します」と言って、本当に良い応答を与えています。
ここで見られるように、「Claude 3.5 Sonnet、GPT-4o、MLUのトップLLM、その他の重要なベンチマークを含む、最高のクローズドソースモデルに対しても十分に対抗できます。そしてテストされた全てのベンチマークでGPT-4oを上回り、Llama 3.1 405億パラメーターを圧倒します」と言っています。
彼はここで、思考の連鎖を使用していると話しています。「計画を別のステップに分けることで、思考の連鎖の精度を向上させ、SLの効力を高め、エンドユーザーのための出力をシンプルで簡潔に保つことができます」
ここでリフレクション70億パラメーターを使用できます。ただし、現在高いトラフィックを経験しているので、リリース当日にこの動画を見ている場合は、おそらくこのAIシステムを使用することはできないでしょう。彼らはこれほどのトラフィックを予想していなかったんです。でも、週が進むにつれて、もっと多くの人がこのモデルを使用することになると思いますわ。
面白いことに、このモデルが実際に日常のタスクや、モデルの一貫性、賢さの面で最先端のシステムを上回るなら、これは完全にゲームチェンジャーになると思います。なぜなら、人々はフロンティアモデルを使用したり、実際にはそれほど良くないものに月20ドルのサブスクリプションを支払う理由がなくなるからです。
確かに、これらのAIシステムが優れているシナリオ、例えばツールの使用や、インタラクティブなデモができるような特定のウィンドウはあると思います。でも、これらの全てのステップを経る効果的なAIシステムについては、一般の人にとって非常に有用なものになると思います。これらのベンチマークがこんなに早く出てくるのは、かなり驚くべきことですわ。
他に興味深かったのは、OpenAIがChatGPTの高額サブスクリプションを検討していることです。これは最も驚くべき意味合いを持っていると思います。なぜなら、monumentally（物凄く）強力な技術が地平線上にないなら、OpenAIはこんなことをしないと思うからです。
「ChatGPTに毎月いくら支払う意思がありますか？50ドル？75ドル？200ドルはどうですか？それとも2,000ドル？」と始まっています。これは月額です。
OpenAIの幹部たちが、upcoming（近い将来の）大規模言語モデル、例えばOpenAIの推論重視のStrawberryや、Orionと呼ばれる新しいフラッグシップLLMのための高額サブスクリプションについて議論しているという話です。
初期の内部議論では、月額2,000ドルまでのサブスクリプション価格が検討されていたと、数字を直接知る人物の1人が述べています。ただし、何も最終決定されていませんし、もちろん最終的な価格がそこまで高くなるとは思えません。
これには2つの主な理由があると思います。1つの主な理由は、これらのモデルの訓練と運用が以前のLLMよりもかなり高価であることです。例えば、Strawberryモデルは、追加の思考時間を与えられると、OpenAIの現在のモデルよりも複雑な質問やパズルに答えることができると報告されています。この追加の思考や処理時間は、より多くの計算能力を意味し、したがってより多くのコストがかかる可能性があります。そうであれば、OpenAIはその一部を顧客に転嫁したいと考えるでしょう。
高い価格は、OpenAIが既存のChatGPTのホワイトカラー顧客が、これらの近い将来のモデルをコーディング、分析、またはエンジニアリング作業にとってはるかに価値があると考えていることも意味します。
OpenAIがこれらのモデルが本当に素晴らしいことを示せれば、これは問題にならないと思います。OpenAIがこれらのモデルが本当にコーディング、エンジニアリング、または多くの認知能力を必要とする任務で真に進歩していることを示せれば、主に企業や小規模ビジネスが、彼らのタスクを平均作業の100分の1で解決できるこれらのモデルに多くの支払いをすることになると思います。
ほとんどの人がこれらのモデルを「月200ドル、それは狂ってる」と評価しているかもしれませんが、そういう見方をするべきではないと思います。逆の見方をする必要があります。ほとんどの給与は月3,000ドル、4,000ドル、5,000ドル、6,000ドルかかっていて、それを月200ドルかかるAIシステムで置き換えられるなら、企業は目をつぶらないでしょう。なぜなら、それは現在支払っている価格のほんの一部だからです。
その観点から考えると、「なるほど、これらのモデルが実際にもっと多くのことができることがわかれば、企業や個人がこれらのモデルにもっと支払いたいと思う理由がわかる」と言えます。
もちろん、これらの企業が直面しているコストの問題もあります。これらのモデルの訓練は無料ではなく、計算、エネルギー、チップインフラに何百万ドルもかかります。でも、彼らがこういったことを議論しているという事実は、次のレベルのAIが本当に素晴らしいものになるだろうということを私に教えてくれます。
多くの人がStrawberryやOrionの能力を疑っていることは知っています。でも、これらのモデルが本当に私たちをAIの次のフロンティアに導くことは疑っていません。なぜなら、文字通り動画の前半で、70億パラメーターのモデルが問題解決に微調整されて、クローズドソースAIを超えたのを見たばかりだからです。だから、これから得られる将来のモデルは絶対に素晴らしいものになると思います。
ただし、1つ注意点があります。OpenAIがかなり高価な素晴らしいモデルを持っているとして、知能のコストと価格がかなり下がっていることを私たちが知っている中で、どのようにしてそれらの顧客と価格を維持するのでしょうか。最近のインタビューで、Perplexity社のCEOがこの問題についてもっと詳しく話しているので、それをお見せしますわ。
「私たちは成長しようとしていないんです。成長はしていますよ。トレンドを見てください。成長率は明らかにあります。はい、クエリあたりのコストはとても高いです。だからこそ、私たちは資金調達をしたいんです。コストが高くなければ、それほどの資金は必要ありません。
私たちは、この技術が上昇曲線にあると賭けているんです。モデルは改善し続け、クエリあたりのコストは大幅に下がります。そして、同じ金額でより多くのユーザーにサービスを提供できるようになります。時間が経つにつれて、クエリあたりのコストが下がり、モデルがより小さなサイズでより能力を発揮するようになると、私たちは世界に向かって進んでいます。
今日の10回のクエリのうち1回が幻覚を起こすとしたら、1年後には100回に1回、2年後には1,000回に1回、3年後には10,000回に1回になるでしょう。指数関数的に品質が向上するんです。だから、あなたは今日その世界を理解できないんです。まだ存在していないからです。そこに到達する可能性に賭けているんです」
そして、私たちがまだ理解できない未来の世界に関して、今週末、xAIチームはColossusをデータセンターにオンラインで導入しました。これは10万台のH100が稼働する世界最強のAI訓練システムです。しかも、わずか4ヶ月ちょっとで始めから終わりまで完成させたんです。さらに驚くべきことに、数ヶ月以内に20万台のH100に拡張する予定やそうです。
これは本当に信じられへんくらい凄いことで、多くの人々が私も含めて「イーロン・マスクを過小評価するな」と言い続けている理由やと思います。彼は何度も、異なる分野の専門家チームを素早く集めて、人々が本当に欲しがり愛するような素晴らしい製品を作る能力で、特定の産業を破壊的に変革できることを示してきました。
SpaceXとボーイングを比べてみると、SpaceXが何度もボーイングを出し抜いてきたのは本当に驚くべきことです。今宇宙に取り残されている宇宙飛行士を連れ戻すことまで含めてね。これはまた別の話になるけど、知ってる人にはわかると思うわ。イーロン・マスクは過小評価できない人物なんです。
だから、未来がどれほど凄いものになるか想像もつきませんわ。確かに未来は少し狂ったものになると思いますが、そうは思わへん人もおるんです。
機械学習の先駆者であるアンドリュー・ングは、「AGIは数十年、あるいはもっと先の話で、1、2年で実現できると言う企業は、非標準的な定義を使って基準を下げているだけ」と述べています。これは考えさせられる内容で、あんたのタイムラインを見直すきっかけになるかもしれません。でも、私の意見はちょっと後で言わせてもらいますわ。
「AGIの標準的な定義は、人間ができるあらゆる知的作業ができるAIです。AGIができたら、AIは車の運転を学んだり、飛行機の操縦を学んだり、宇宙物理学の博士論文を書いたりできるはずです。この定義のAIについては、まだ数十年かかると思います。私の人生の中で実現することを願っていますが。
数年以内にAGIが実現するというハイプがある理由の1つは、非常に非標準的な定義を使っている企業があるからです。AIの定義のハードルを下げれば、もちろん1、2年で実現できるでしょう。でも、人間ができるあらゆる知的作業ができるAIという標準的なAGIの定義を使えば、まだ数十年かかると思います」
これはかなり興味深い意見やと思います。多くの人がこの動画に反発していますが、それはAGIが100万の異なることができるものだと言っているからやと思います。
アンドリュー・ングの予測に全く同意しないわけではありません。でも、AGIの問題は、AGIの定義が非常に多くあるため、AGIの話が出てくると、多くの人がそれが何であるかについて意見が分かれてしまうんです。そのため、誰もが同意できるAGIができることの1つの定義さえも得られないんです。これは、このシステムが何ができるかについての様々な定義につながります。
もちろん、多くの人はいつもディープマインドのAGIレベルの論文を参照します。これは実際、AGIがどこにあるかの有用なガイドラインを提供しています。すでに超人的な狭いAIがあることがわかります。そして、レベル2、つまり熟練した大人の50パーセンタイル以上に到達しようとしているのがわかります。
飛行機の操縦を学んだり、車の運転を学んだり、そういったことすべてができるAIがあれば、それがレベル4の「名人級AGI」や、レベル5の「超人的AI」に近いものではないかと思います。
実際、私が同意するツイートが1つありました。「アンドリュー・ングのAGIの定義は、一般的な人間の知能ではなく、神のような全てを包括する知能を目指しているように見える。車の運転、飛行機の操縦、博士論文の執筆、その他の非常に特定のことができる人を1人挙げられるか？なぜAGIの基準をそんなに高く設定するんだ？代わりに、AGIを、特定の分野での専門知識を持ちながら、領域を超えた常識的な知能と定義しよう。1つのAGIではなく、複数のAGIを作ろう」
これは非常に重要やと思います。なぜなら、もしこれらすべてのことができる人がいたら、その人は間違いなく1%の1%に入るでしょう。そして、AGIをそのようなことができるものだけと定義すると、これらの定義に関して人々を混乱させることになります。
だから、アンドリュー・ングを尊重しつつも、彼が描写しているのはおそらく「名人級AGI」、つまり人間の99%を上回るパフォーマンスを示し、多くの人が超知能と定義するものに非常に近いものだと思います。
でも、超知能の話をすると、アンドリュー・ングが超知能はまだ遠い将来のものだと考えているのを思い出してください。OpenAIの成功に不可欠だったイリヤ・サツコフを覚えていますか？
ここに「独占：OpenAIの共同創設者サツコフの新しい安全重視のAIスタートアップSSIが10億ドルを調達」という記事があります。この会社は50億ドルの評価を受けており、これらの資金は計算能力の獲得に使用されます。基本的に、イリヤ・サツコフが設立したSafe Superintelligence Inc.は、超知能に焦点を当てることになります。
もしこれを見逃した人がいたら、彼らのウェブページには基本的にこれは彼らができると考えているものであり、追求していくものだと書かれていました。ここで最も重要な文は「超知能は手の届くところにある」というものです。
超知能が手の届くところになければ、彼らはこれをしないと思います。確かに、「ただのハイプマーケティングをする別の会社だ」と言う人もいるかもしれません。でも、イリヤ・サツコフのような人物の天才ぶりは、私たちが思いもつかないようなことをする能力において過小評価されるべきではないと思います。
彼らが「私たちの単一の焦点は、管理のオーバーヘッドや製品サイクルによる気の散りがないことを意味します」と言っているのは非常に興味深いです。これは明らかにChatGPTを指しており、競合他社よりも先にモデルをリリースするために特定のタイミングで特定のことをする必要があることを示唆しています。彼らは基本的に超知能だけに完全に焦点を当て、他のことは何もしないつもりです。
イリヤ・サツコフが設立したこの会社が、AGIにさえ焦点を当てずに超知能だけに焦点を当てているという事実は、業界内部の人々の意見の相違について、物事がどこにあるのかについての洞察を与えてくれます。
また、伝説的なジミー・アップルズが私の注意を引いた画像があります。GPT-5をGPT-4と比較したものです。これは見にくいかもしれませんが、拡大しますね。GPT-5のモデルサイズは3〜5兆パラメーターになる可能性があるようです。
GPT-3が1,750億、GPT-4が1.8兆の専門家の混合だったことを思い出してください。GPT-5は、モデルの大きさが2倍になるようです。これは非常に興味深いです。なぜなら、これはGPT-5のサイズに関する詳細が得られた初めてのことだからです。
確かに、これらのモデルのサイズに関しては多くの誤情報があることは知っています。皆さんは、ソーシャルメディアで広まったあの非常に誤解を招く画像を覚えていますか？1つのモデルが他のモデルよりも信じられないほど大きいことを示す画像です。でも、この画像は偽物だと証明されました。
このような視覚的な図は完全に有用ですが、誤情報を提示する場合は有用ではありません。GPT-5はGPT-4の2倍の大きさになるだけのようです。でも、サイズが主なことではないと以前も言いました。StrawberryやOrionのようなモデルについて、私たちが本当に理解したいのは、もちろん推論能力と信頼性です。
次に、最近公開された1Xロボティクスのロボットのインタビューで、CEOがこう述べています。「毎年10倍のペースで拡大することを目標にしています。2026年に数万台、2027年に数十万台、2028年に数百万台です」もしこれが本当で正確なら、このスケールのヒューマノイドロボティクスは、その影響を考えると絶対に信じられないほど凄いものになるでしょう。
「私たちには長い間、『10倍で拡大』という内部的な合言葉がありました。10台のEES、そして100台近く、そして数千台のNeoを作ります。数万台のNeoということは、2025年に数千台、2026年に数万台、2027年に数十万台、2028年に数百万台ということです。計算すればわかりますが、これは難しいです。今のところ目標通りですが、本当に難しいです。本当に痛みを伴います。まだそこまで行っていませんが、以前にこの一部をやったことがないわけでもありません。
例えば、前のラインでは月に10〜20台のピークがありました。Neoでは基本的に10倍のスケールになります。組織的な痛みがたくさんあります。製造会社として実行する方法を構築する必要があります。これには、サプライチェーン、材料、プロセス、トレーサビリティなど、組織的で効率的であるためのシステムが必要です。
これは段階的なプロセスです。人々がよくする間違いは、製造を1から100万に一気に増やせると考えることです。明らかにそれはできません。段階を踏む必要があります。かなり速く段階を踏むことはできますが、それでも段階を踏む必要があります。
私たちはかなり謙虚なアプローチを取っていると思います。需要が供給を上回っていますが、それでも段階を踏む必要があります。現在、新しい工場ラインでかなり大規模なNeoのバッチを製造しているので、来年の目標を達成できることに非常に自信を持っています。2026年についても非常に自信があります。
数万台から数十万台、数百万台に移行する時、魔法のようなことが起こります。伝統的に、多くの企業がここで失敗します。非常に痛みを伴い、最高の人材と、これを以前に経験した人々を確保する必要があります。組織全体で製品を完全に理解していることを活用する必要があります。何か問題が発生した場合、再設計して修正できるようにする必要があります。
これは、垂直統合され、自社のサプライチェーンをコントロールしながら、自分の運命をコントロールすることに戻ります。他の誰かを責めることはできません。何か問題が発生した場合、修正する力があります。多くの仕事が必要になりますが」
Googleからも良いニュースがありました。Alpha Protoが生物学と健康研究のための新しいタンパク質を生成しています。基本的に、Alpha ProtoはGoogle DeepMindによって作られた新しいAIシステムです。これは、体内の特定のターゲット分子に結合できる新しいタンパク質を作るように設計されています。
これが重要な理由は、科学者が新しい薬を開発したり、病気をより良く理解したりするのに役立つ可能性があるからです。なぜこれが重要なのかというと、タンパク質は体内の小さな労働者のようなものだからです。細胞の成長を助けたり、病気と戦ったりするなど、あらゆる種類の仕事をします。
時々、ウイルスやがん細胞のような体内の特定のターゲットに付着できる新しいタンパク質を作りたいことがあります。これは、これらの新しい病気を研究したり、新しい治療法を作ったりするのに役立ちます。
これがどのように機能するのか気になるかもしれません。このシステムは、タンパク質がどのように機能し、くっつくかについての膨大な情報で訓練されています。科学者がターゲット分子を与えると、そのターゲットにくっつく新しいタンパク質を設計できるんです。
これが特別な理由は、タンパク質を設計する古い方法よりも速くて成功率が高いからです。設計したタンパク質はターゲットにもっと強くくっつきますし、以前は扱いにくかったターゲットに対してもタンパク質を作れるようになりました。
これは素晴らしいことです。新しい薬の開発、病気を研究するツールの作成、体内の特定の分子を検出するセンサーの作成、害虫に抵抗する作物の開発などに使えるからです。
もちろん、いくつかの限界もあります。例えば、特に難しいターゲットに対してはタンパク質を設計できませんでした。そこはまだ改善の余地があります。でも、これはかなり興味深いと思います。なぜなら、その影響は深遠だからです。
Googleのチームはこのテクノロジーがとてもパワフルで悪用される可能性があるため、慎重に共有しています。責任を持って使用されるよう、専門家と協力しているそうです。
最後に、これをお見せしましょう。これは現在のCEALのリーダーボードです。CEALはプライベート評価に焦点を当てている会社です。これは、現在のモデルがプライベートデータセットで評価されているところです。汚染はなく、モデルはこれらの回答で訓練されていないので、純粋な知能が測定されているんです。
コーディングではClaude 3.5 Sonnetが1位にランクインしているのがわかります。彼らはGPT-4o、Gemini Pro、Mistral Large 2を追加しました。驚くべきことに、Mistral Large 2はコーディングでGoogle Gemini 1.5 Proを上回っています。私は以前から、Mistral Large 2は非常に過小評価されているモデルの1つだと言ってきました。
数学ではGPT-4が2位にランクインしています。指示に従う能力でさえ、GPT-4oは1位ではありません。プライベートな指標では、GPT-4oが王座を奪われたのは明らかです。OpenAIがいつ彼らのタイトルを取り戻すのか、私は気になっています。彼らはブランドイメージとChatGPTの人気において、かなりのリードを持っていると思います。

この記事が気に入ったらサポートをしてみませんか？