見出し画像

AIの大ニュース: ストロベリー/QStarのリリース日、リフレクション70Bの暴露、新しいAIエージェントの最先端技術

9,536 文字

AIのニュースが目まぐるしかった1週間でしたな。見逃してもうたかもしれへんニュースを振り返ってみましょか。
ほとんどの人が見逃してもうたし、私も気づかんかったんですけど、めっちゃすごい技術がありましてな。HU AIっちゅう新しいAIソフトがあるんです。これがもう信じられへんくらいすごいんですわ。
ここで見てもらえるのは、新しいテキストから動画を作るソフトなんですけど、プロンプトと出来上がった動画がもう驚くべきものなんです。プロンプトはこんな感じです。「女性の肩越しのクローズアップショット。最初は笑ってて、それから悲しくなって、泣き出して、最後に手で顔を覆う」
この例がもう本当にすごいんです。AIの品質がどれだけ高くなったかがよくわかりますわ。女性が笑ってて、それから表情が変わって、本当に悲しそうになって、手で顔を覆うんです。これはもう信じられへんくらいすごいです。
モデルをアップグレードしたんかどうかわかりませんけど、前に試した時よりずっと良くなってますわ。これはテキストから動画を作るモデルなんですけど、面白いことに、このビデオがSNSで話題になってるだけやなくて、Redditでもこのツールがめっちゃ優秀やっちゅうビデオが出回ってるんです。
このモデルの一番ええとこは、現在の速度でクリップを作れるっちゅうことなんです。「現在の速度」っちゅうのはどういう意味かっちゅうと、今まで多くのテキストから動画のモデルは、出力する動画がスローモーションになってたんですわ。でも、これは初めて普通の速度で動画を作れるAIモデルなんです。
ちょっと変な感じがするかもしれませんけど、これがクリップのリアルさを高めてるんです。SNSでこれらのクリップを見てると、完全なAI映画やAIテレビ番組が登場するまでそんなに時間かからへんと思いますわ。
もちろん、それで業界全体が崩壊するっちゅうわけやないですけど、例えば映画作りに憧れてる人や、予算が限られててもテレビ番組を作りたい人にとっては、アイデアを具体化したり、コンセプトを検証したりするのに役立つツールになると思いますわ。
これからの未来はめっちゃ面白くなりそうです。この技術を見てると、未来がどんどん不思議なものになっていくのがわかりますな。多くの業界が変革の時期を迎えるんとちゃいますか。
それから、リフレクション70bモデルに関する情報もありましたな。70bモデルをご存じない方のために簡単に説明しますと、このモデルについて以前ビデオを作ったんですけど、そこで説明したんは、llama3.1の700億パラメータのバージョンを微調整して、思考の連鎖と推論のステップを組み合わせたモデルで、他のモデルを圧倒するっちゅうものでした。
でも、インターネット上では、リフレクションAPIは単にClaude3.5のラッパーに簡単なプロンプトを付けただけで、「claude」っちゅう文字列をフィルタリングして隠してるだけやっちゅう情報が出回ってるんです。
ここで見てもらえるように、この人が「claude」っちゅう単語を書くように言うてるんですけど、タグなしのプレーンテキストで書いてくださいって言うてるのに、「claude」っちゅう単語が消えてしまうんです。
このモデルに関しては批判が多くて、多くの人がベンチマークの結果を再現できへんかったんです。最近、この件に関して新しい情報が出てきましてな。
Matt Schumerが出てきて、こう言うてます。「このプロジェクトの発表を急ぎすぎてしまって、申し訳ありません。そんなつもりはなかったんです。その時点で持ってた情報を基に、この新しいアプローチをリリースする決断をしました。多くの人がこの可能性に期待してて、今は疑念を持ってると思います。誰よりも私がこのアプローチの可能性に期待してるんです。今は何が起こったのかを理解するために、チームが懸命に働いてます。全ての事実がわかったら、次のステップを決めます。全ての事実がわかったら、何が起こったのかと次のステップについて、コミュニティに対して透明性を保ち続けます。」
正直、ここで結論を急ぐつもりはありませんけど、インターネット上では色んな憶測が飛び交ってますわ。Mattがglaive AIへの投資をアピールしようとしただけやないかとか、だってこの人がglaive AIを全部作って、ホスティングしたんですからね。
だから、ただの良いPRやったんちゃうかって人もいるんです。考えてみたら、めっちゃ注目集めましたからね。今は投稿が削除されてるみたいですけど、900万回以上も見られてたんですわ。
今のところは、もっと詳しい情報が出てくるまで待つつもりですけど、正直言うて、あんまりええ印象やないですわ。これだけのベンチマークを発表して、みんなが試してみたら結果を再現できへんかって、しかもその投資先のプラットフォームやったっちゅうことを明かしてへんかったっちゅうのは、ちょっと怪しいですわ。
でも、Matt Schumerのことを完全に否定するつもりはありませんで、もっと情報が出てくるまで待ちますわ。ここで言うてるように、「他のプロバイダーのモデルをAPIとして使うようなことは一切してません」って言うてるし、「まだまだやることがある」って言うてますからね。
この状況がどう展開していくか、めっちゃ興味深いですわ。ただ、評判っちゅうのは大事にせなあかんものですわ。もしこれが完全に嘘やったってことになったら、これだけ大きな主張をして、みんなが期待してただけに、評判がめっちゃ傷つくことになりますわ。
さて、このビデオの中で一番大きなニュースがありますねん。OpenAIのストロベリーが2週間以内にリリースされるっちゅうニュースです。これはめっちゃ驚きですわ。OpenAIがリリースを延期に延期を重ねて、製品をどんどん後ろ倒しにしてて、GPT-4以外はほとんど全部ウェイトリストの裏に隠してたのに、こんなに早くリリースするなんて。
それでも、GPT-4でさえ、高度な音声モードにはまだアクセスできへん人もおるんですけどね。ここに書いてあるように、「ストロベリー、つまりOpenAIの推論重視のAIが、以前報告した秋のタイムラインよりも早く、ChatGPTサービスの一部として2週間以内にリリースされる予定や」って、このモデルをテストした人が言うてます。
もちろん、リリースのスケジュールはいつでも変更される可能性がありますけど、この製品についていくつか新しい詳細がわかってきましたわ。説明しますと、ストロベリーはChatGPTの一部やけど、スタンドアロンの製品になるんです。
これはかなり面白いですな。どうやら別のサービスとして使えるみたいで、サブスクリプションに含まれるんかどうかは気になるところですわ。
ここに書いてあるように、「どういう形で提供されるかはまだはっきりしてへん。一つの選択肢として、ChatGPTを動かすAIモデルをユーザーが選べるドロップダウンメニューに、ストロベリーを含める可能性がある」んですって。
通常のサービスとはかなり違って、いくつかの利点と短所があるみたいです。ストロベリーが他の一般的なAIと違うのは、応答する前に「考える」能力があるっちゅうことです。すぐに質問に答えるんやなくて、考える段階が通常10〜20秒続くんです。
これは革命的な変化っちゅうわけやないですけど、このモデルのかなり面白い特徴やと思いますわ。潜在的に、というか大幅に賢くなったモデルが登場するんですけど、ユーザーは応答を待つ時間が長くなるっちゅうことですわ。
このモデルが、出力トークンのコンテキスト長に制限があるんかどうか気になりますな。このモデルが特定のものをコーディングできるんか、特定のものを予測できるんかとか。だって、ストロベリーみたいなモデルで推論する時に考えるのは、多くの変数や多くのシナリオが絡むことですからね。
だから、このモデルで一番楽しみなのは、10〜20秒かかるっちゅうことです。現在のモデルの応答時間と比べたら、AIの時間でいうとかなり長いですわ。他のモデルと比べて、本当に信じられへんくらい賢くなれるんかどうか、それを見るのがめっちゃ楽しみですわ。
ここに書いてあるように、他にも重要な違いがあるんです。最初のバージョンはテキストの入力と出力しかできへんので、画像は扱えへんのです。つまり、他のOpenAIのモデルのようにマルチモーダルではないっちゅうことです。
今日リリースされてる大規模言語モデルのほとんどがマルチモーダルなので、これはかなり目立つ短所ですな。テキストだけのモデルをリリースする決定は、OpenAIが競争の激化に直面して、製品をリリースするプレッシャーを感じてるのを反映してるんかもしれませんわ。
これはかなり本当やと思います。というのも、今後2〜3ヶ月の間に、他のトップフロンティアラボから新しいモデルがリリースされるって噂があるんです。今年の終わりに向けて、OpenAIは巨人やけど、色んな方法や戦略で打ち負かせる巨人やっちゅうことに気づき始めてるんです。
最近、Claude3.5 Sonnetが最も知的な質問に使われるモデルとして人気を集めてるのを、みんな見てきましたからね。
価格設定についても書いてありますわ。「ストロベリーの価格設定は、無料版と有料版があるOpenAIのチャットボットとは違う可能性が高い。具体的な価格設定はわからへんけど、1時間あたりの最大メッセージ数を制限するレート制限がつく可能性が高い。もっと高い価格帯で、応答が速くなるっちゅう可能性もある」って、この製品のことを知ってる別の人が言うてます。
つまり、GPT-4がリリースされた時みたいに、3時間ごとに25メッセージとか、めっちゃ制限されるかもしれへんっちゅうことですな。これはよくあることですけど、私はこういう企業が、モデルを使いたい人のためにコストに比例した高い料金プランを用意すべきやと思うんです。
制限をかけるんやなくて、トークンを購入して会話を続けられるようにする人が多いと思うんです。そういうのを取り入れるんか気になりますね。
一番大事なのは、もちろん価格設定ですわ。確かに高くなるっちゅうのはわかってますけど、どれくらい高くなるんかが重要です。これを見れば、将来のフロンティアインテリジェンスがどれくらい高価になるんかがわかるんです。
このモデルの価格が2倍か3倍になって、性能が10倍になるんやったら、インテリジェンスと価格がどう関係してるんかがわかりますからね。これがめっちゃ面白いのは、インテリジェンスの価格がどんどん下がってきてるのはわかってるんですけど、これらの企業が逆の方向に進んでるんかどうかが気になるんです。
だって、これらのコストがかなりの額になってきてるからですわ。
ここにも書いてありますけど、面白いのは「有料のChatGPTユーザーが、無料ユーザーより先にストロベリーにアクセスできるようになる」っちゅうことです。他のモデルと同じように、無料ユーザーがこのモデルを使えるようになるのは2年後くらいやと思いますけど、それは今回の主な焦点やないですね。
それから、「ストロベリーは、複雑な質問や複数のステップがある質問に対して、GPT-4よりも使いやすくなる」っちゅう予想もあります。今のところ、ユーザーは欲しい答えを得るために、ChatGPTにいろんな追加の言葉を入力せなあかんのです。例えば、チャットボットに「中間の推論ステップを示して」って言うて、最終的な答えにたどり着くまでの過程を説明させたりするんです。これを「思考の連鎖プロンプト」って呼びます。
ストロベリーの機能は、ユーザーがそういうことをしなくても、もっと賢い結果を得られるようにするためのものなんです。つまり、このモデルは内部で思考の連鎖や推論のステップを持ってるっちゅうことですな。
これはかなり便利やと思います。今のモデルやと、最終的な出力を得るために何度も繰り返さなあかんことが多いんです。これは時間がかかるだけやなくて、時々難しいこともあります。ステップを見逃したりして、そのモデルから得られる最高の知能を引き出せへんこともあるからです。
だから、OpenAIの内部の仕組みがどうなってるんか、めっちゃ興味深いですわ。これについては、この動画の次の部分で話すつもりです。研究論文が出てて、その詳細が書いてあるんです。
ここには「ストロベリーは数学の問題やコーディングだけやなくて、製品マーケティング戦略のブレインストーミングみたいな、もっと主観的なビジネスタスクでも優れてる」って書いてあります。以前報告したように、このモデルは「ユーザーの会社により特化した、より詳細な提案を提供する。例えば、週ごとの実行計画を生成したりする」んです。
でも、OpenAIにとって大きな警告になりそうなのは、「ストロベリーのプロトタイプを使った人の中には、現在リリースされてるGPT-4と比べてちょっとだけ良くなった応答のために、10〜20秒余分に待つ価値はない」って言う人もおるっちゅうことです。
確かに、最初は10〜20秒かかるかもしれへんけど、時間とともにその時間は短くなると思います。でも、10〜20秒かかるっちゅうことで、このモデルの有用性がなくなってしまうんやないかって心配です。普通のユーザーは何かが読み込まれるのに10〜20秒も待ちたくないですからね。
でも、OpenAIがストロベリー製品を、神レベルの知能ではないにしても、より高レベルの知能として売り出すことで、本当に成功するんやないかと思います。人々は信頼性と創造性、複雑な数学の問題を解く能力、そしてもちろんより優れたコーディング能力を求めて、この応答を待つようになるかもしれませんわ。
ほとんどの人が推論やこれやあれやについて話してますけど、私が一番注目してるのは、この新しいストロベリーモデルがClaude3.5 Sonnetよりもコーディングが上手にできるかどうかです。私が話した人で、コーディングプロジェクトにClaude3.5 Sonnetを使ってない人はおらへんからです。
つまり、次の2〜3週間っちゅう短い期間で、コーディングの面でClaude3.5 Sonnetよりも優れた、新しい最先端モデルが登場する可能性があるっちゅうことですわ。
もしこのモデルがClaude3.5 Sonnetよりもわずかでも、あるいは大幅に優れてたら、人々は何を作れるようになるんやろうって本当に気になります。今、多くの人がこれらのプラットフォームを使ってソフトウェアやアプリケーションを作ってて、以前はそんなことできへんかったんですからね。
それから、Google DeepMindが発表した研究があって、これがOpenAIのストロベリーのアプローチを明らかにしてるみたいです。基本的に、推論時に検索することで、より良い推論ができるようになるっちゅうことです。
ここに「テスト時の計算を使うことで、14倍大きなモデルよりも優れたパフォーマンスを発揮できる」って書いてあります。つまり、モデルに考える時間を与えると、モデルの応答能力が信じられへんくらい向上するっちゅうことです。
「テスト時の計算を使うことで、14倍大きなモデルよりも優れたパフォーマンスを発揮できる」っちゅうのが見てわかりますね。これがOpenAIが現在使ってるアプローチで、モデルの推論能力を向上させてるみたいです。
前に言ったように、今は速度よりも推論を重視する傾向にあるみたいです。だって、ただ速い答えよりも、正しい答えの方がいいですからね。
将来のモデルでも、この傾向は続くと思います。知能の最先端は、常に個人が無料で利用できる現在のレベルの知能よりも遅くなる可能性が高いです。だって、今の無料モデルがどう動くかはだいたいわかってるし、オープンソースのバージョンや、もっと小さな蒸留バージョンもあるからです。
だから、常に未来を見据えてると、これらのモデルは応答にちょっと時間がかかるようになると思います。可能性の大きな空間を検索してるみたいですからね。本当に信頼性が高くて、もっと賢いモデルに向かって進んでるみたいです。
伝説のJimmy applesが最近、将来のモデルリリースのタイムラインについて予測を立てましたわ。GPT-4の4倍のモデル、まだ4.5って呼ばれてるかもしれへんけど、それが10月、つまり来月にリリースされるかもしれへんって。そして、大物のGPT-5は早ければ12月にリリースされるかもしれへんって。
これはめっちゃ面白いですわ。GPT-4.5みたいなモデルがすぐそこまで来てて、その後Q1にGPT-5が来るっちゅうことは、すごい3〜4ヶ月になるっちゅうことですからね。だから、この時期に備えておくべきやと思います。GPT-5が2025年のQ1からQ2くらいにリリースされるっちゅう予測は、かなり正確やと思いますわ。
なんでそう言えるんかって?ずっと前、まあ本当に長い時間前っちゅうか、GPT-4がリリースされた1年くらい前に、タイムラインを見て予測を立てたんです。それを今からお見せしますわ。
Q1やQ2の日付を入れるべきやったかもしれへんけど、これがタイムラインです。GPT-5は2024年の初めに訓練を終えたので、GPT-5は2025年の初めか、もしかしたら12月にリリースされる可能性が高いっちゅうことがわかります。
GPT-5が12月にリリースされる可能性もあると思いますけど、それは他のラボが現在のモデルよりもちょっと優れたモデルを作れるかどうかにかかってると思います。
今のところ、Gemini 2やClaude3.5 Opusにアクセスできへん状況が続いてて、これらの2つのモデルがOpenAIを追い抜くと予想されてるんです。
だから、私の大胆な予測はこうです。4.5モデル、ストロベリーって呼ぶかもしれへんけど、そのモデルが登場して、現在利用可能なものよりもはるかに優れたものになる。それから、他のフロンティアラボがGemini 2やClaude3.5 Opusみたいなモデルをリリースしたら、OpenAIはストロベリーモデルをスタンドアロンで提供するんやなくて、さらにGPT-5で優位性を維持しようとするやろうっちゅうことです。
つまり、次の3〜4ヶ月で3つのフロントモデルがリリースされる可能性が高いっちゅうことですな。もちろん、間違ってるかもしれへん、ただの憶測ですけど、OpenAIが現在最先端モデルのトップの座を失ってることを考えると、かなりありそうな話やと思います。
Googleは何をしてるんかって?GoogleのSerj Brinがこう言うてます。「Googleはできるだけ速く計算インフラを構築してます。需要に限りがないみたいです。できるだけ速くコンピューターを構築してるんですけど、めっちゃ需要があるんです。例えば、クラウドの顧客がTPUやGPUをめっちゃ欲しがってます。
でも、計算能力が足りへんから、お客さんを断らなあかんのです。内部でも自社のモデルの訓練やサービスに使ってるし。だから、企業が今、高速にコンピューターを構築してる理由はよくわかります。でも、現在の訓練の傾向を見て、3桁も先のことを盲目的に推測するのはどうかと思います。
でも、企業の需要はあるんです。他のことにも使いたがってます。例えば、これらのAIモデルで推論を実行したり、新しいアプリケーションに適用したりとか。今のところ、限界はないみたいです。」
このインタビューで、実際に顧客を断らなあかんって言うてるのを見ると、AIサービスやクラウドコンピューティングの需要がどれだけ高いかがよくわかりますわ。
計算能力をたくさん持ってるGoogleでさえ顧客を断らなあかんって言うてるんやから、他の企業がどうやってその需要を満たしてるのか想像もつきませんわ。クラウドコンピューティングサービスを持ってる企業の価値が急激に上がるんやないでしょうか。
さて、話題を変えましょか。私が思うに、ほとんどの人が見逃してもうた大きなニュースの一つが、repliエージェントのことです。これは、オンライン空間で誰が何を作れるかっちゅうのを根本的に変えるかもしれへん、最大のニュースの一つやと思います。
これを使うと、中間ステップを全部飛ばして、すぐに作り始められるんです。普通やったら、ちょっとコーディングをして、コードをコピペして、それからデプロイするっちゅうステップを踏むんですけど、これは最初から最後まで全部やってくれるんです。
このrepliエージェントは本当に100%ゲームチェンジャーやと思います。こういうものがどんどん良くなって、モデルの能力が上がって、中間ステップがもっと一貫性があって信頼できるようになったら、人々は本当にボタン一つで物事を作れるようになると思います。
ここにrepliエージェントのデモがありますわ。「何を作りましょうか」って提案して、いくつかのステップを踏んで、たった2分で完全なウェブサイトができあがるんです。
これが、ウェブデザインや特定のコーダーの業界が完全に破壊される可能性が高いって言うてる理由です。もちろん、このソフトウェアを維持するためにソフトウェア開発者は必要ですけど、この業界は他のどの業界よりも破壊される可能性が高いと思います。
毎月というか、少なくとも2週間ごとに、これらのモデルの能力が向上してるみたいですからね。例えば、ship fastのハニカムっちゅうのもありました。ハニカムはソフトウェアエンジニア用のAIエージェントを作ってるんです。
これについてビデオを作りたくなかったんです。だって、毎月同じことを繰り返してるみたいで。でも、本当に毎月、前のよりも優れた最先端のソフトウェアエージェントが登場してるんです。計画、コーディング、ソフトウェアエンジニアリングタスクの完了において、前のよりも優れてるんです。
確かに、これはジュニアソフトウェアエンジニアより優れてへんって言う人もおるかもしれへん。でも、考えてみてください。これがどうして業界に影響を与えへんのかって。これらのエントリーレベルの仕事が、まだそれほど大きく改善されてへんモデルに取って代わられてるんですからね。
これで言うてるのは、確かにこの2年でモデルは良くなりましたけど、モデルはみんなGPT-4レベルに収束してきてるっちゅうことです。面白いのは、新しい大規模な訓練を行って新しいモデルをデプロイするのを待ってるんやなくて、これらのモデルの周りに構築されたフレームワークがどんどん良くなってきてるっちゅうことです。
これはすごいことですわ。なぜなら、他のモデルが登場したら、AIソフトウェアエージェントの能力がどれだけ飛躍的に向上するか、想像もつかへんからです。
ほんま、色んなことが起こってますわ。次の数ヶ月はAIにとって最も激しい時期になると思います。能力が向上するだけやなく、将来のモデルに対する期待値を設定することになると思うんです。
この動画を楽しんでもらえたなら、良いねを押して、チャンネル登録してくださいな。次の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか?