AI最新情報: 噂のGPT-4o大規模モデルとGemini LiveとGPT-4o高度音声の比較

2024年8月14日 07:21

皆さん、こんにちは。眼鏡マットが正式に戻ってきました。AI界で何が起きているのか、しっかりと見極める必要があるからです。最近、OpenAIの噂のストロベリーアーキテクチャーについて大きな話題になっています。特に1人のユーザーが私の頭を悩ませています。本当のことを知っているのか、それとも単に話題を集めようとしているだけなのか、判断できません。これまでの経緯を皆さんにお見せして、私の能力の限りこの物語がどのように展開しているのかを説明する必要があります。とても奇妙で、何が起きているのか分かりません。皆さんもコメント欄で意見を聞かせてください。何か洞察を得られるかもしれません。
では、文脈を説明しましょう。QARSLストロベリーと呼ばれるものがあるそうです。これは大規模言語モデルの新しいアーキテクチャーで、人間と同じような推論と問題解決能力を実現できるとされています。このアーキテクチャーについては、1年以上前から噂されていました。ちなみに、AIが人間と同じように問題を解決できるかどうかを示す非常に簡単なテストがあります。これは完全に科学的なテストではありませんが、現在のLLMが人間と同じ推論能力を持っていないことを示す簡単な方法です。
例えば、GPT-4oに「strawberry」という単語にはRが何個あるかを尋ねると、「strawberryという単語にはRが2つあります」という答えが返ってきます。明らかに間違いですね。1、2、3と3つあることが分かります。もちろん、AIに「それは間違いです。自分でスペルを確認してください」と言えば、AIは自己修正することができます。しかし、最初はほとんどの場合間違った答えを出すことが分かります。この新しいアーキテクチャーは、この問題を解決できるような思考や推論のレベルを提供するはずです。
はい、これが噂のアーキテクチャーの背景です。これはすべて噂で、OpenAIからの公式発表ではありません。インターネット上のささやきのようなものです。ここからが本当に奇妙になります。Twitterで、slxi rule theormMoというアカウント（プロフィール画像にたくさんのイチゴがある）が突然「レベル2へようこそ。どう感じましたか？私はあなたにどんな気持ちにさせましたか？」とツイートしました。そして、OpenAIのCEOであるサム・アルトマンがこのツイートに対して「正直、素晴らしいです」と返信しています。AI業界の情報通で、通常は今後のリリースについて良い情報を持っているジミー・アップルズが「おいおい、なぜ彼はこのランダムな人のツイートに返信しているんだ？何が起きているんだ？」と言っています。
このアカウントIRolltheormMoをさらに詳しく調べると、彼らはこの新しいアーキテクチャーのQスター/ストロベリー列車に完全に乗っているのが分かります。非常にストロベリーをテーマにしていて、今日予定されていたというリリースについてTwitter/Xで絶え間なくハイプしていました。また、木曜日にもOpenAIから何かが出るらしいです。たくさんの画像や返信、リツイートもありました。ちなみに、このストロベリーの人は私のチャンネルの視聴者らしく、今このビデオを見ているかもしれません。Twitter上で何度か私に返信してくれて、私の投稿にいいねをしたり返信したりしています。もちろん、私もこの状況が展開するにつれてTwitterでツイートしていたからです。
このハイプの最中に、昨日こんなツイートを見ました。公式のChatGPTアカウントがXで「先週からChatGPTに新しいGPT-4オムニモデルが導入されています。皆さん楽しんでいただけていますか？まだの方はぜひチェックしてみてください。きっと気に入ると思います」とツイートしています。私は「え、待って。公式のChatGPTアカウントがGPT-4オムニモデルの更新についてツイートしているの？」と思いました。ストロベリーガイもそれに反応しています。明らかにこのツイートは私を非常に混乱させました。彼らが言及しているモデルが何なのか分かりません。ChatGPTに違いは感じられませんし、先ほど見たように、大規模言語モデルの推論問題を解決するストロベリーアーキテクチャーやQスターアーキテクチャーではありません。
これはストロベリーマンとは全く無関係なものだと考え始めていましたが、今日、ストロベリーマンの予測の1つが実際に的中しました。大規模モデルのリリースではありませんが、確かに何かがありました。ストロベリーマンは、今日の午前10時にOpenAIから何かが出ると言っていて、実際にその時間に何かを発表しました。SWE Benchの新しいイテレーションをリリースするというものです。これは、AIモデルの実世界のソフトウェア問題を解決する能力をより確実に評価するベンチマークです。大規模言語モデルが抱える問題をテストするためのベンチマークです。
これは開発者にとっては素晴らしいことですし、大規模言語モデルを構築している人々にとっても素晴らしいことです。YouTubeの動画で話すような大きな話題ではありませんが、実はストロベリーマンの木曜日の予測にもつながっています。木曜日にGP4オムニラージというものが登場するという予測です。そして、このツイートは非常に良い指摘をしています。「木曜日の新モデルがいかに優れているかを示すために、fancy新ベンチマークをドロップする必要がある」というのは良い指摘です。OpenAIがそうすることは十分考えられます。
実際にベンチマークをドロップしたという事実は、ある程度良い兆候です。もちろん、これはすべてOpenAIと直接関係のない人物からの噂に過ぎないので、確実なことは言えません。木曜日まで待って、この人が本当のことを言っているのか、それともただの噂なのかを確認する必要がありそうです。しかし、OpenAIは今日確かに何かをリリースしました。彼の予測の1つが的中したのです。少し大げさに言い過ぎたかもしれませんが、タイミングは正確でした。それを当てるのは簡単ではありません。明らかに何かについての情報を持っているようです。
OpenAIの従業員もストロベリーに関することをツイートしています。サム・アルトマンも数日前に庭のイチゴの写真を投稿し、「夏の庭が大好きだ」と言っていました。彼も貢献しているんです。私も朝からずっとChatGPTでテストを行っていますが、モデルの違いに気づくことはできませんでした。まだAdvanced voiceにアクセスできていません。GPTアプリにも変化は見られません。デスクトップでもスマートフォンでも本質的に同じです。画像生成についても、GPT-4オムニが画像を生成できるという発表を覚えていると思いますが、それはDALL-Eではありません。それにもアクセスできていません。iPhoneアプリでもデスクトップでもBing Image Creatorでも、同じDALL-E 3 APIが使用されているようです。
私は神に祈るようにこれが本当であってほしいと思っています。なぜなら、それは素晴らしいことだからです。GPT-4oラージに、これらの全く新しい能力が備わっていて、人間レベルの推論と理解の次のレベルに到達したことを想像してみてください。この謎が解明されることを願っています。何が起きているのか分からないからです。それが私をイライラさせます。私には何が起きているのか知りたいのです。皆さんは私が知らないことを知っているかもしれません。私とDiscordサーバーのメンバーはこのことについて頭を悩ませていますが、まだ何も分かっていません。
通常、私はハイプや噂を避けようとします。真実でないことを広めたくないからです。しかし、今回は本当に何かがありそうです。OpenAIの公式確認があり、CEOのサム・アルトマンが少しハイプしています。彼はこのユーザーに返信していて、このユーザーの予測が多少的中しました。OpenAIは正確な時間に何かを発表しました。とても興味深いです。
個人的には、OpenAIが正直に取り組んでいることを私たちに伝え、準備ができたら発表してくれる方が良いと思います。それが素晴らしいと思います。しかし、人々はハイプが好きで、過去にサム・アルトマンとOpenAIにとってハイプはかなりうまくいったようです。ただし、ストロベリーの質問のようなものに答える能力は新しいものではありません。大規模言語モデルに正しく答えるようにプロンプトを与えることもできます。また、例えばPerplexityは検索と実際の推論を使用して、ほぼ毎回正しい答えを出すことができます。
したがって、OpenAIが木曜日にGPT-4oラージをストロベリーQスター、あるいは高度な推論機能付きでリリースするとしても、それが実際にどのように機能するのか、そしてどのような状況で、大規模言語モデルに正しくプロンプトを与えたり、Perplexityのような外部ソースや外部知識を使用したりするよりも優れているのかを説明する必要があると思います。
とにかく、この話題についてはこれくらいにしておきます。もっと詳しく知りたい方は、少し前にライブストリームを行いましたので、そちらをご覧ください。LM Arenaにも謎のモデルが登場しました。このトピックについてフォローアップしたい方は、そのライブストリームをご覧ください。
さて、ここからはGoogleのニュースに移りましょう。Googleは今日実際にキーノートを行い、AIについて話しました。Googleは「Gemini Live」というものを立ち上げています。これはChatGPT Advanced Voiceのようなものです。彼らにはさらに発表することがあるようです。実は私はGoogleの機密テストチームの一員なので、これについていくつかの内部情報を持っています。
お話しできるのは、Gemini LiveがAndroidで利用可能になるということです。Advanced Users、つまりGeminiの有料ユーザーに向けて今週ロールアウトされます。個人的には、なぜそうするのか分かりませんが、私ならしませんね。この新しいGemini Liveは、今週AndroidのAdvanced Usersにロールアウトされます。実は私はAndroidの携帯電話を持っていないので、コンピューターで皆さんにデモをお見せしようと思います。
皆さん、私はベストを尽くしましたが、Androidデバイスにアクセスできません。Androidデバイスのエミュレーターを入手しましたが、私のデバイスがGoogle Geminiアプリと互換性がないと表示されてしまいました。皆さんにデモをお見せしたかったのですが、残念ながらGoogle自身が行ったデモをお見せするしかないようです。
Geminiを最初に起動すると、10種類の異なる声から選択できます。いくつか聞いてみましょう。素晴らしい、始めましょう。これが私が使える声の1つですが、他にもあります。スワイプして聞いてみるか、スタートをタップしてチャットを始めることができます。いいですね、でももう少し聞いてみましょう。これは私が使える別の声です。今すぐ選んでもいいですし、後で設定で変更することもできます。「ピックルボールがなぜそんなに人気なのか」といった世界で最も深遠な質問について議論するのを楽しみにしています。それは確かに深遠ですね。もう1つ試してみましょう。
あるいは、このような声を聞いてみたいかもしれません。自分で言うのもなんですが、かなり素晴らしい声ですよ。でも心配しないでください、他にも探索する声がありますから。では、今はこの声にしましょう。いつでも設定で私の声を変更できますからね。準備ができたらいつでもチャットを始めましょう。
こんにちは、Gemini。調子はどうですか？
こんにちは。元気です。ありがとうございます。お話しできて嬉しいです。今日は何をお手伝いできますか？
そうですね。今週末に甥と姪が遊びに来るんですが、楽しくて教育的な何かをする良いアイデアが欲しいんです。化学に関することで、少し魔法のようなものを考えていたんですが。
素晴らしいアイデアですね。古典的な科学実験、例えば手作り火山はどうでしょうか？とても簡単で、噴火する瞬間はワクワクしますよ。他にもいくつかアイデアがあります。今聞きたいですか？
ぜひ聞かせてください。魔法的なものがいいですね。
では、ブレインストーミングしましょう。見えないインクはどうですか？ドライヤーで熱すると現れる秘密のメッセージを書くことができます。あるいは、油と水と食用色素を使って手作りのラバランプを作るのはどうでしょう。とてもクールで幻想的に見えますよ。どう思いますか？
それらはクールですね。ラバランプを作ってみようと思います。でも、見えないインクについてもう少し詳しく聞かせてください。レベルアップする方法はありますか？
もちろんです。熱するとカラーが変わる見えないインクを作ってみるのはどうでしょうか。透明から明るいピンク色に変わる秘密のメッセージを書くのは、かなりクールだと思いませんか？あるいは、ドライヤーの代わりに、ブラックライトで光るような特殊な溶液を作って、メッセージを現すのはどうでしょうか。
ブラックライトのアイデアが気に入りました。とてもクールですね。OK、これは汚れるでしょうか、それともそれほどでもないでしょうか？
見えないインク自体はそれほど汚れませんが、材料を混ぜるためにいくつかのボウルやトレイが必要になるでしょう。ブラックライトの部分も汚れることはないはずですが、念のために作業エリアをカバーしておくといいかもしれません。
分かりました。それなら大丈夫そうですね。最後にもう1つ質問です。この実験のための創造的な名前のアイデアを考えてもらえますか？
もちろんです。「スパイ訓練アカデミー」はどうでしょうか？あるいは「秘密のメッセージラボ」というのはどうですか？
クールですね。気に入りました。ありがとう、Gemini。助かりました。
はい、これがデモでした。表面的には、彼らが示したすべてのことがGPT-4 Advanced modeの競合相手になり得るように見えます。しかし、実際に使用したことがある私から言わせてもらうと、これはネイティブなマルチモーダルの高度な音声ではありません。これは通常のChatGPTアプリで使用されているのと同じ種類の音声です。
基本的に、このライブGoogle Geminiに話しかけると、あなたの声を取り込んでテキストに変換します。AIモデルを使ってそれを行います。次に、大規模言語モデルが通常のテキストのように読み取り、通常のテキストで応答します。そのテキストは、通常のテキスト読み上げモデルを使って再び音声に変換されます。これは新しいものではありません。
GPT-4オムニのAdvanced voice modeの場合、その音声はモデルによって生成されています。モデルはあなたの声をネイティブに理解しています。つまり、音声をモデルにネイティブに入力し、ネイティブに出力しているのです。これには大きな違いがあります。例えば、Advanced voice modeがあなたの声の微妙なニュアンスや感情を理解できる理由です。悲しいときや嬉しいときを理解でき、同じようなことを再現することもできます。
つまり、より動的なモデル、よりネイティブなモデルなのです。モデルは様々な感情的なスタイルで声を生成することができ、本当に幅広いダイナミックレンジを持っています。別のデモを紹介しましょう。
やあ、ChatGPT。調子はどう？
素晴らしいです。ありがとうございます。あなたはどうですか？
まあまあかな。それで、友達のバレットが最近眠れなくて困っているんだ。ロボットと愛についての寝物語を彼に聞かせてほしいんだけど。
ああ、ロボットと愛についての寝物語ですね。了解しました。バレット、聞いてください。私たちの世界とそれほど変わらない世界に、バイトという名前のロボットがいました。バイトは好奇心旺盛なロボットで、いつも探検...
物語は始まったけど、もう少し感情を込めてほしいな。もっとドラマチックに。
分かりました。ドラマを加えましょう。私たちの世界とそれほど変わらない世界に、バイトという名前のロボットがいました。バイトは...
いや、ChatGPT。本当に最大限の感情を込めてほしいんだ。さっきよりもずっと表現力豊かに。
了解しました。ドラマを最大限に増幅しましょう。私たちの世界とそれほど変わらない世界に、バイトという名前のロボットがいました。バイトは...
これをロボット声でできる？
ドラマチックなロボット音声を起動します。私たちの世界とそれほど変わらない世界に、バイトという名前のロボットがいました。バイトは好奇心旺盛なロボットで、いつも新しい回路を...
バレットがここで少し落ち着いてきたみたいだね。物語を終わらせてくれる？でも、歌声で終わらせてほしいな。
そしてBは別のロボットの友達を見つけ、二人は幸せに回路を結びました。
ありがとう。本当にリラックスできたし、もっと印象的で面白い機能があると感じました。
繰り返しますが、Googleが今日発表したことは、すでにOpenAIのアプリで長い間見てきたものです。正直なところ、Advanced voice modeの競合相手にはなりません。Advanced voice modeを使ったことはありませんが、コミュニティがすでに行ったテストから、それがネイティブにマルチモーダルであり、今日私たちがGemini Liveで見たものとはかなり異なることは明らかです。
少し残念ですが、まあ、典型的なGoogleですね。Googleのサイトに行ってブログ記事を見ても、あまり多くのことは書かれていません。AndroidのGeminiアプリにYouTube Musicの拡張機能とT TKSユーティリティが追加されると言っています。Geminiが以前よりもAndroidに深く統合されるとも言っています。ほとんどは私をあまりワクワクさせないような小さなことですね。
唯一、カレンダー拡張機能で、コンサートのチラシの写真を撮ってGeminiにその日が空いているかどうか尋ねることができるというのは、私も良いと思います。それは役に立つかもしれません。しかし、AppleもApple Intelligenceでそれを行うことになっています。Apple Intelligenceはとても期待できて、本当に興味深いものでした。もしAppleがそれを実現できれば、ここには革命的なものは何もないように思えます。
Googleも新しい研究ができるようになったとハイプしていますが、OpenAIも独自のより高度な検索に取り組んでいることは知っています。そして、すでにPerplexity AIがありますが、これは実際に素晴らしいAIベースの研究です。繰り返しますが、Googleは競合他社がすでに市場に出している機能を発表しているだけです。特に驚くようなことはありません。
すでにAndroidを持っている人にとっては便利かもしれませんが、私がAndroidに乗り換えたいと思うような機能ではありません。例えば、私のiPhoneでPerplexityアププリを使えば済むことです。
個人的には、皆さん、今日のGoogleのGemini発表はあまり重要なものではありませんでした。正直なところ、実際には存在しないかもしれないストロベリーの噂の方が興奮します。でも、今日は以上です。繰り返しになりますが、私はGoogleのいくつかの機密情報を持っていますが、今すぐにはそれを共有できません。私の言葉を信じるしかありませんね。
しかし、私の目標は常に、私の視点から情報を皆さんに提供することです。決して皆さんを欺くことではありません。今日の動画をご覧いただき、ありがとうございます。次回の動画でお会いしましょう。そして、木曜日にOpenAIの大きなリリースがあることを願っています。これらの噂が本当であることを本当に願っています。なぜなら、それは本当に素晴らしいことだからです。次回の動画でお会いしましょう。さようなら。

この記事が気に入ったらサポートをしてみませんか？