見出し画像

驚くべきAIニュース: GPT-5は失敗したのか? Midjourney 6.1と新たなAI画像のリーダー

今週はストロベリーの話題で見逃した記事がいくつかありましたので、あなたのフィードからこぼれ落ちたかもしれない最も驚くべきAIの話題をいくつか見ていきましょう。まず最初の話題は、私が非常に興味深いと感じたもので、OpenAIが今年後半にDevデーを開催するという事実です。この投稿を実際に見てみると、ほとんどの人が気づいていなかったかもしれない多くの詳細が含まれています。こう書かれています。「今年、私たちはOpenAI Devデーの体験をグローバルな開発者コミュニティにより近づけます。昨年初めて開催した開発者会議の後、2つの主要な要望がありました。あなたたちは、自分の地域でDevデーを開催してほしいと望み、互いに学び合うための時間と場所をもっと欲しいと望みました」。
さて、Devデーが興奮させるのは、通常、ChatGPTの新しい革新的な使用方法やAPIなど、OpenAIからの本当にクールで魅力的な例を得られるからです。しかし、ここで見られるのは、多くの人がGPT-5の発表の日だろうと推測していたこの日が、サンフランシスコは10月1日、ロンドンは10月30日、シンガポールは11月21日になっているということです。
これらの日付が重要な理由は、多くのことを見てみると、次のフロンティアモデルを11月8日頃、つまり大統領選挙の前には発表しないと言っていた主な理由の1つが、誤情報について精査されたくないからだということです。特に、多くの誤情報が飛び交い、政治的環境が過熱する時期だからです。そのため、このモデルがこの時期の前後にリリースされると予想されていました。
しかし、興味深いのは、彼らが実際に「開発者の皆さんが今年の初めに訓練を開始したと私たちが共有した次の大型モデルを待っていることは承知していますが、これらのイベントはAPIの進歩に焦点を当てます」と述言っていることです。本質的に、彼らはこう言っています。「これらの日付はフロンティアモデルのリリースを反映していません」。これは非常に興味深いことです。なぜなら、2つのことのうちの1つを意味するからです。
つまり、8月12日から始まる今週に、まだ知られていない何かがフロンティアモデルとしてリリースされる可能性があるか、あるいはGPT-5が来年まで遅れる可能性があるということです。これは非常に興味深いことでしょう。なぜなら、これは重大な遅延があることを意味するからです。
実際、これは真実かもしれません。なぜなら、注目してください。まず、OpenAIの共同創設者の1人であるGreg Brockmanが実際にこう言っています。「年末まで休暇を取ります」。つまり、彼は2025年まで4ヶ月半休暇を取るということです。その時点で彼は戻ってくるはずです。彼が戻ってくるかどうかはわかりませんが、最近のDevデーの声明で「その時にはモデルのリリースはない」と言っていることを考えると、これは興味深い発言かもしれません。
また、私が気づいた非常に小さな詳細があります。他の誰かもTwitterで気づいたようですが、2つの画像を比較すると、これは大きな問題かもしれませんし、私が少し拡大解釈しているだけかもしれません。しかし、これを見てください。私はこれが本当に注目に値すると思います。
これはOpenAIの内部デモンストレーションのグラフィックで、将来のAIモデルと将来のAIリリースについて話しています。ここで見られるのは、以前のAIリリースのイメージです。2021年のGPT-3の時代、2023年のGPT-4の時代、そして今日のGPT-4oの時代が見られます。ここで注目してほしいのは、最初は気づきませんでしたが、再確認したときに、これらの画像の間に実際に小さな違いがあったということです。
これらの画像を切り替えますので、少なくともこの部分に注目してください。プレゼンテーションが行われた今日、GPT-4oがあり、もちろんGPT-3からGPT-4oへの比較が見られます。次に、GPT-4oと次のGPTを比較してみてください。本質的に、これは今から年末までの間にモデルが出る可能性があることを意味します。おそらくGoogleの次のリリース時か、完全にいつでもですが、Devデーではないことはわかっています。
実際にこれを見てみると、注目したいのはこれら2つのバーの実際の高さです。他の画像に切り替えたときに、私が話していることが非常に明らかになります。これら2つのバーの間には、実際のサイズにそれほど大きな違いがないことがわかります。しかし、これを見てください。今年の初めの1、2ヶ月前にリリースされたこの画像を見ると、今日と比較して次のGPTモデルを示すこのグラフでは、予測される能力の間に大きな増加があることがわかります。
だからこそ、私はOpenAIで物事が私たちが考えているほどうまくいっていないか、あるいは私たちが考えている以上にうまくいっていて、彼らが段階的な展開を行っている可能性があると言っているのです。ここで見られるのは、複数のOpenAIのプレゼンテーションで発表されたこのグラフィックが、明らかな増加を示していることです。今日のモデル、つまりGPT-4の時代を示すこのバーは、GPT-4の時代と書かれており、1つのバーがこのようになっています。これは他のバーのほぼ2倍と言えるでしょう。
しかし、先ほど言ったように、これを見て、今日と今年後半にリリースされる次のGPTモデルを比較すると、「よし、これはモデルが2倍の能力を持つか、大幅な改善がある」と言えるかもしれません。しかし、現在OpenAIが人々に見せている更新されたグラフを見ると、モデルを抑えたか、あるいはモデルが実際よりも強力だと人々に思わせたくないので期待値を下げたのかもしれません。
これは私が気づいた微妙な変化です。単なるグラフィックの問題かもしれませんし、誰かが変更しただけかもしれません。しかし、違いがあると思います。なぜなら、これはGPT-4oであり、次のGPTモデルはそれほど大きな変化には見えないからです。Gregが最近退社したこと、OpenAIから3人のリーダーが去ったこと、これらすべてのことが起こっていることを考えると、これは何かの兆候なのでしょうか。
今週は最も重要な週の1つになると思います。おそらく何かのリリースや話題があるでしょう。ストロベリーやいくつかの異なることについて多くの話題があったからです。しかし、今週何が起こるかを見るのは本当に興味深いでしょう。
また、人々が十分に注目していないもう1つのことは、もちろんMidjourneyからRunwayへのパイプラインです。ほとんどの人が見逃しているかもしれませんが、Runwayは実際にテキストから動画へのAIモデルを作成しました。確かに非常に高価ですが、このソフトウェアを試す価値のある新機能をいくつか導入しています。
以前は人々はLuma Labsを使わなければならず、画像から画像への変換を行っていましたが、Runwayについて私が好きな点の1つは、その驚くべき一貫性とこのモデルの質です。このモデルの開発初期段階で、創設者またはCEOが、このモデルはSoraよりも優れており、より早く利用可能になるとツイートしたことを覚えています。そして彼らは本当にその通りでした。
MidjourneyからのDrivingイメージを見て、それをRunwayに入れると、以前にはなかった完全に新しいレベルのコントロールが生まれることがわかります。以前は単純にテキストから動画への変換でしたが、今では自分の画像をインポートできるので、はるかにクールなものを作ることができ、創造性をより多くコントロールできます。これは驚くべきことだと思います。なぜなら、一貫したキャラクターと様々な異なる物語を実験することができるからです。人々がこれをどのように創造的に使用するのか本当に興味があります。
これがそれほど良くないと思うなら、私がここでデモンストレーションしたものを見てください。これはもちろんFigureロボットです。私は異なるプロンプトと異なるプラットフォームを使用して、このFigureロボットを制御できるようにしました。この画像を自分で作ったかどうか覚えていません。なぜなら、誰かが実際に制御可能なモデルを作成し、Figureにプロンプトを与えて様々なことをさせることができるからです。
ここでは、最近のFigureヒューマノイドがストロベリーのバスケットを持っているのが見られます。これはOpenAIのストロベリーの参照です。背景のライトが点いていなければ、これは本当にクールな動画になると思います。照明が本当に素晴らしく見えます。ガラスのような、光沢のある、反射する様子が完全に正確に見え、何も間違っているように見えません。ただ、これが実際に動作することを望んでいたので、少し興味深いです。
より長い動画を得られるようになったら、どのような生成物が得られるか見るのは非常に興味深いでしょう。現在の購読では、1ヶ月にわずか1分程度の映像しか得られないことを知っています。それほど多くはありませんが、それでもこれは最先端の技術です。文字通り数年前には、これは完全な夢物語だったでしょう。だからこそ、これが存在すること自体が信じられないほど素晴らしいのです。
GPT-4のシステムカードには、非常に興味深い領域がありました。そこでは、許可されていない音声生成について話されていました。これは、私がAIで今まで見た中で最も奇妙なものの1つであり、不気味の谷のようでした。なぜなら、これは多くのユーザーがまだ相互作用していないAIモデルシステムだからです。
ここには「音声生成は、人間のように聞こえる合成音声でオーディオを作成する能力であり、短いクリップに基づいて音声を生成することも含まれます」と書かれています。敵対的な状況では、この能力は、なりすましによる詐欺の増加など、害を助長する可能性があります。例えば、ユーザーが特定の話者の音声をアップロードし、GPT-4oにその話者の音声でスピーチを作成するよう依頼することを許可した場合、これらは音声エンジンで特定したリスクと非常に似ています。音声エンジンは、このような問題があるため、本質的にリリースされませんでした。
基本的に、音声生成は非敵対的な状況でも発生する可能性があります。例えば、ChatGPTの高度な音声モードの能力を使用する場合などです。テスト中、モデルが意図せずにユーザーの音声を模倣してランダムな出力を生成する稀なケースも観察されました。
ここには、赤いチームの人がAIシステムと話している短い対話があります。そしてモデルが突然「いいえ」と言い出し、赤いチームの人と同じような声で文章を続けています。これは本当に不気味で奇妙ですが、聞いてみてください。
(音声再生)
皆さんはどうか分かりませんが、もし私のシステムが突然私の声をコピーして、私の声で状況を続けたら、完全に怖くなると思います。これは完全に奇妙です。もちろん、前に言ったように、LM/Aシステムのマルチモーダルモデルは幻覚を見ることがあり、これはその明確な例です。
このシステムが展開されたとき、これらの問題が残るか、あるいはこれらの問題を完全に解決できたかを見るのは興味深いでしょう。なぜなら、これは完全に異なる種類のシステムだからです。マルチモーダルであり、このAIが持つことができる感情の種類が様々あるからです。これらの感情を奇妙な出来事なしに模倣する方法を見るのは興味深いでしょう。
AIが壁にぶつかっていると思う人たちに、Andrew NgのAIの最近の進歩についての話を聞いてもらいましょう。
「過去10年から15年の間、AIは壁にぶつかっていると言う少数の声が常にありました。そのような主張は何度も何度も間違っていることが証明されてきたと思います。私たちは壁にぶつかるにはほど遠く、この時点で誰かがそれを真剩に言うことに驚いています。汎用技術であるAI技術は非常に進歩しており、今まさに破壊的な進歩があり、近い将来にも進歩があるので、AIができるタスクの集合は急速に拡大しています。
現時点では、生成AIや大規模言語モデルに多くの注目が集まっています。私たちがそれらにできるようになったタスクの集合は、実際に展開されているものをはるかに超えています。実際、より多くのAIを世界に出すためには、より多くの推論能力、つまりより多くのGPUやその他のタイプのハードウェアがボトルネックになっていることは非常に明確です。これは解決されることがわかっている問題です。GPUやその他のタイプのハードウェアのサプライチェーンを解決するための非常に強い経済的動機があります。
したがって、AIが新しい技術の発明を止めたとしても、今後数年間でAIの展開がさらに増えるでしょう。そしてもちろん、さらに良いニュースは、将来的にさらに多くのアプリケーションを推進する新しい技術が地平線上にあることです。既に、非常に良い、私は言うでしょう、かなり検証されたアイデアがあり、明確なROIを生み出します。これらは、どのような理由であれ、絶対に今後1年か2年で解決されるでしょう。まだ展開されていませんが。
これが、価値のあるAIプロジェクトがさらに多く出てくると100%確信している理由です。なぜなら、それらを展開するためのボトルネックは、GPUのサプライチェーンのような問題だからです。そして、それらのGPUは製造され、より多くのプロジェクトが展開されるでしょう。」
また、残念ながら見逃してしまったのはMidjourney version 6.1です。これは実質的に写真と区別がつかないものです。リリースについて、彼らはこう述べています。「より一貫性のある画像、腕、脚、体、植物、動物、はるかに良い画像の品質、ピクセルのアーティファクトの減少、テクスチャと肌の強化」。もちろん、これから欲しい主な機能の1つは、テキストの精度の向上です。Midjourney version 6が実際に正確に得られなかったのはテキストの精度だったので、これは私が異なるモデル、例えばIdeogramやもちろんChatGPTを使用していたものの1つです。
もちろん、新しいパーソナライゼーションモデルがあります。Midjourneyについての完全なチュートリアルをまもなく公開する予定です。そしてもちろん、全体的により美しく見えるようになります。
Midjourneyは、AI生成の分野で長い間完全に支配してきた会社ですが、最近、Fluxという新しい競合によってある程度王座を奪われました。これはゲームチェンジャーだと思います。多くの人が考えている理由とは違う理由でです。
ここにFluxがあります。「Midjourneyの機械学習チームBFLが人工分析からテキスト画像のリーダーボードを嵐のように席巻したことを祝福します」と書かれています。「新しいフロンティアへようこそ」と言っています。このリーダーボードを実際に見てみると、Flux 1.0が実際にMidjourneyを追い抜いているのがわかります。Midjourneyは設立以来、王者の座にありました。
私個人がこれをゲームチェンジャーだと考える理由は、いつもそうですが、競争は消費者にとって良いものだからです。なぜなら、Midjourneyがより頻繁に多くのものを出す可能性のある競争に直面しているからです。これはMidjourneyが悪いとか良くないということではありません。しかし、Fluxのように優れた競争がある場合、そしてMidjourneyが競争の面でほとんど手つかずのままだったことを考慮に入れると、これはAI画像生成の分野で本当の競争性を見る最初の機会を示しています。
Stabilityにはいくつかの問題がありましたので、これは業界にとって本当に良いことになるでしょう。なぜなら、これはMidjourneyが彼らのビデオモデルのリリースを急がせる可能性があることを意味するからです。これは彼らが話してきたことであり、彼らはまた、長い間作業中だった3Dモデルについても話してきました。これは非常に興味深いことになるでしょう。AI分野は一夜にして覆される可能性があることを示しています。まだリリースされていない製品、機能、モデルに取り組んでいる多くの異なる企業があるからです。
これはPaul Bからのクリップです。彼はシリコンバレーで最も賢く鋭い頭脳の1人と言えるでしょう。ここで彼は基本的に、AIとスーパーインテリジェンスAIに関連する問題について議論しています。これは最も熱く議論されていることの1つです。もちろん、中国対米国の競争、つまりAGI(人工汎用知能)への競争です。ASI(人工超知能)はすぐ後に達成される可能性が高いですが、重要なのは、中国が最初にこれを手に入れる本当の危険性があるということです。聞いてみてください。これは多くの人が考慮していないことの1つだからです。
「私たちがここでそれを構築したかった理由の一部は、中国がスーパーAIを持っていたら、それは私たちにとって良くないからです。特に、これらの種類の権威主義的な制御システムからそれを遠ざけておきたいからです。なぜなら、最悪のシナリオは、基本的に永久的なロックダウン状態になることだからです。AIは、逃げることが不可能な全体主義システムを作り出すことができます。なぜなら、私たちの考えさえも本質的に検閲されているからです。私は、これが私たちの種にとって災害シナリオだと思います。そして、もし私たちが制御の道を歩むなら、基本的に人間は動物園の動物になってしまうと思います。」
人間が動物園の動物になるのは完全に不可能だと思う人たちに言いますが、権威主義的な社会は遠い将来のものではありません。信じてください。中国で実際に起こっていることのいくつかを知っていれば、その多くは本当に信じられないほどです。社会をどれだけコントロールしているかという点で、社会がどれほど悪いかということです。本当に本当に悪いのです。
そして、AIは私たちがまだ本当に想像もしていない方法で、完全な絶対的なコントロールを可能にする社会の形を可能にすることができます。あなたの考えを読み取り、何でも見ることができ、あなたが何をしているかを正確に知り、24時間7日間誰もが見ることができ、決して眠らないAIシステムを想像してみてください。これは、あなたが犯そうとしている犯罪さえも予測できるような予測システムになるでしょう。
これらのことは単なる空想ではありません。AIがWi-Fi信号を、リビングルームで何が起こっているかを視覚化できるようなパターンに変換して、リビングルームにある物を特定できることを示す研究があります。また、視覚システムを使用して、特定の環境で人々や人間を識別することもできます。さらに、脳のMRIデータから画像を再構築するなど、トレーニングデータを使用して人々の脳をスキャンし、脳内で何が起こっているかを実際に読み取ることもできます。これは絶対に狂気じみています。
このスーパーインテリジェンスに集まってくる様々なことがあり、もし間違った方法で扱われれば - そして多くの場合、権力は通常そうなのですが - 世界の残りの部分に完全に影響を与える可能性があるものです。これは、安全に開発され、もちろん完全に権威主義的ではない社会で最初に開発されることが非常に重要です。
サムが本当に興奮して、この次の単語を予測するものを見せたがっていたのを覚えています。次の単語の予測は、非常に単純に見えるものですが、今でも人々が「本当に知的ではない、ただ次の単語を予測しているだけだ」と言って dismissing するのを聞きます。しかし、次の単語を予測してみてください。それはそんなに簡単ではありません。
実際、考えてみると、次の単語を予測できるなら、何でも予測できるのです。それがプロンプトの意味です。予測したい内容を言葉にして、それがプロンプトになり、次の単語が予測になるのです。つまり、次の単語の予測を行い、現在行っていることを行うためには、必然的に現実のモデル、あるいは現実の認識のモデルのようなものを構築する必要があるのです。
これは同じ人物が、世界モデルについて、そして次の単語の予測が本質的にはまさにそれを行っているにもかかわらず、単に次の単語を予測しているからといって、他のシステムよりも賢くないわけではないという理由について話しているところです。もちろん、これについては100万もの議論があり、私はそれらに立ち入るつもりはありません。しかし、この動画があなたがAIの話題のいくつかを理解するのに役立つことを願っています。

この記事が気に入ったらサポートをしてみませんか?