イーロン・マスクがGROK 2で業界に衝撃を与える

2024年8月15日 05:52

本日のアップデートは、AI業界全体に衝撃を与えました。AI業界全体というのは、この分野に注目し、日々の最新情報をフォローしている方々のことです。何のことかご存じない方のために説明しますと、最近Xが新しいチャットボットGROK 2を発表しました。GROK 2は非常に優秀なチャットボットで、最近Twitterで、自分たちが「SAS column R」というチャットボットだったことを認めました。
これがTwitterで非常に驚くべき発言だった理由をご存じない方のために説明しますと、SAS column Rは実はStrawberryではないかと多くの人が推測していたからです。このチャットボットがChatbot ArenaでOpenAIのチャットボットと同じグループに分類されていたことから、多くの人はこれが高度な推論能力を持つOpenAIの実験的モデルではないかと考えていました。そして今日、このチャットボットが実はXのモデルだったという news が入ったのです。
イーロン・マスクがこれを認めているのが、ここで明確に見て取れます。彼は「R R R sus」とツイートしています。このツイートは3870万回表示されました。これは「ほら、言った通りでしょ」というような、顔面蹴られたというよりは「ほらね」というようなツイートの一つだと思います。イーロン・マスクは長い間チャットボットの開発に取り組んでいる人物ですからね。
そして重要なのは、イーロン・マスクがどの業界にいようと、彼を過小評価してはいけないということです。批判的な人や懐疑的な人は多いですが、結果は議論の余地がありません。
このモデルについて、Chatbot ArenaのリーダーボードでSAS column Rの性能を見てみると、かなり良い成績を収めていることがわかります。正直なところ、リーダーボード、特にLM Arenaの部分を見る際には、見かけ通りではないこともあるということに注意する必要があります。アリーナバトルでは、モデルのコンテキスト長が適切でなかったり、適切なクエリでなかったりすることがあるからです。
しかし、私がSAS column Rを使用した際、このモデルは一貫して基本的に最先端のレベルでした。最近の動画で、このモデルを他のモデルと比較してテストしたことを覚えているでしょう。その際に私が話したのは、このモデルが最先端レベルではあるものの、特に驚くほどではなかったということです。しかし、このモデルについて気づいたことの一つは、他のチャットボットとは違う方法で訓練されているように見えたことです。問題解決能力が他のチャットボットよりも高いように思われました。これは応答の仕方から判断しました。
私たちは今、標準的なチャットボットの段階から、質問やクエリについてより深く推論し、より役立つ回答を提供しようとするモデルの段階に移行したと思います。Anthropicの最近のアップデートをご存じない方もいるかもしれませんが、彼らはこれをチャットボットにネイティブに組み込んだ最初の研究所の一つでした。Claudeからリークされた初期のプロンプトの一つで、私たちはClaudeがメッセージに応答する前に内部で何を考えているかを実際に見ることができました。
これに、より多くのデータ、より良いトレーニング、より良い事後トレーニングと事前トレーニング、そして完全に新しいモデルを組み合わせることで、市場に出ている他のどのモデルよりも驚くほど賢いClaude 3.5 Sonnetを手に入れることができたのだと思います。
現在、このモデルはClaude 3.5 Sonnetを上回っているようです。唯一の問題は、GROK 2がまだ徐々にロールアウトされている段階なので、まだアクセスできないことです。Gemini 1.5 Pro、Llama 3.1、そしてもちろんClaude 3.5 Sonnetも上回っていることがわかります。
ただし、Claude 3.5 Sonnetについては疑問があります。なぜなら、リーダーボードでは一貫して、最も難しい問題を診断する人々によると、純粋な知性という点で最高のチャットボットはClaude 3.5 Sonnetだからです。LM Arena のリーダーボードは、知性だけでなく、チャットボットが実際にどのように回答を形成し、他のチャットボットと比較してどれだけ役立つかも測定していることを覚えておく必要があります。
したがって、どのモデルを使用したいかを検討する際は、このリーダーボードが便利ではあるものの、あなたが思うすべての目的に適しているわけではないことを常に考慮に入れてください。
彼らは再びChatbot Arenaの総合Eloを公開しました。これは彼らの画像です。正直言って、頭を傾けて読まなければならないのは少し面倒です。もちろん、頭を傾ける必要はないのですが、データを提示するもっと簡単な方法があると思います。しかし、それはこの動画の主題ではありません。
ここで重要なのは、このチームからの注目すべきリリースを見ていることです。なぜなら、彼らは他の企業と比べてAI分野に参入するのが遅かったからです。多くの人がX.AIを過小評価していました。彼らははるかに小規模なチームで、Meta、Google、そしてもちろんOpenAIのような、長年存在している企業が持っている何十億ドルもの資金やインフラを持っていません。
そのような状況で、はるかに小規模なチームが短期間で最先端のレベルに到達したという事実は、さまざまなチームが異なる製品に取り組む中で、まだイノベーションの余地があることを示しています。これは非常に興味深いことです。なぜなら、これは本質的に彼らのGPT-4レベルのモデルだからです。
正直なところ、私がSAS column Rを使用した時、確かに最先端のモデルだと感じました。多くのシナリオで、比較的劣っているとは感じませんでした。後ほどこの動画で、このチャットボットが実際に得意とすることのいくつかをデモンストレーションでお見せします。
ここでも、Chatbot ArenaでのGROK 2と競合モデルとの勝率を見ることができます。Gemini 1.5 Proを除くほぼすべてのモデルに勝っていることがわかります。これは非常に興味深いです。なぜなら、Gemini 1.5 Proは彼らの非常に新しい実験的なモデルで、テストした人の中には素晴らしくないと感じた人もいれば、私のように絶対に素晴らしいと感じた人もいるからです。
私がある種のコミュニティやこのことについて尋ねてきた人々に言ってきたこと、そしてこれは私が言い続けていることですが、これらの大規模言語モデルは、すべて異なる専門分野を持っており、それは人それぞれで異なるということです。あなたのクエリや要求によっては、すべてのトップモデルをテストして、どれが競争で優れているかを確認するのが最善かもしれません。
絶対的にすべてのことに対応できる単一のモデルは存在しません。Claude 3.5がそうだと思うかもしれませんが、Geminiのようなモデルはより創造的で、GPT-4のようなモデルは応答がより構造化されており、Claude 3.5 Sonnetのようなモデルは純粋に知性が高いのです。
したがって、ここにはさまざまな選択肢があり、それらを完全に活用できると思います。興味深いことに、一部の人々は自分たちのベンチマークで、Mistral Largeのような非常に過小評価されているチャットボット（私が日常的なクエリに使用しているもの）やLlama 3.1 45bをテストしています。これらは、低レベルのタスクを非常にうまくこなし、以前はGPT-4を使用していたようなタスクも、今ではこれらの他のモデルを使用できるようになっています。
つまり、知性に対するニーズに応じて、すべてのクエリをClaudeに通すのではなく、最も知的なものだけをClaudeやGROK 2に通し、他のものをMistral LargeやLlama 3.1 45bにルーティングすることで、トークンを失うことなく全体的なコストを削減できるのです。
もちろん、ベンチマークはかなり前から話題になっていますが、ここでGROK 1.5からの大幅な改善が見られることがわかります。GROK 1.5からGROK 2への大きなジャンプがあったことがわかります。GP QAで15%、MMLUで6〜7%、MLU Proで約25%、Math Benchmarkで26%、Human Evalで大幅なジャンプがあり、MMU、Math Vista、Doc VQAでも多くのジャンプがありました。
全体的に、これらの初期の比較ではないですが、第一印象として、他のモデルと比較してかなりの改善が見られたことがわかります。ここで、このモデルが他のモデルと比較してどのようにランク付けされているかを正確に見ることができます。
正直なところ、X.AIにとってはスタートポジションで少し遅れをとっていたことを考えると、これは素晴らしい結果です。他のモデルのベンチマークを見ると、何が1位なのかを見るのは非常に難しいですが、これらの青いバーを見ることができます。ここで2位、ここで3位、ここで2位、ここで3位、ここで1位、そしてここで2位というのがわかります。
全体的に見ると、これは確かに混在していて、完全に最先端というわけではありませんが、現在最先端レベルにあるモデルであることは間違いありません。私自身がテストした経験からも、よく機能すると言えます。
GROK 2には、多くの人が見逃しそうなユニークな機能がいくつかあります。なぜなら、このモデルがますます高性能になっていることに気づいていないからです。このモデルが得意とすることの一つは、もちろん画像処理能力です。画像を見て、何が起こっているのかを完全に理解することができます。
ここでは、「これが元のプロセッサです」と書かれた画像を見て、何が起こっているのかを正確に記述できているのがわかります。また、現在Xを使用している場合（多くの人がこのプラットフォームを使用していないのは知っていますが、それは完全にあなた次第です）、イーロンが自分のソーシャルメディアサイトを人々に使ってもらうための方法だということもわかります。
彼を責めることはできません。なぜなら、ソーシャルメディアサイトに数十億ドルを費やしたのなら、人々にプラットフォームを使ってもらうためには何でもするでしょうから。GROK 2とGROK 2 mini（モデルのより軽量なバージョン）を使用したい場合は、X.comにサインアップすることをお勧めします。すぐにアクセスできるかどうかは完全には確信が持てません。以前は、確認を受けてからモデルにアクセスできるようになるまでに少し時間がかかったからです。
基本的に、彼らはGROK 2とGROK 2 miniを持っており、GROK 2 miniは現在利用可能です。GROK 2 miniについて最も興味深いことの一つは、他のモデルが苦手とする推論能力を持っていることです。これは彼らがどのようにしてそれを実現したのか不思議ですが、基本的にはテキストとビジョンの理解能力を持っており、Xプラットフォームからリアルタイムの情報を統合することができます。
そして本当にクールなのは、最近Flux.oneというモデルを作った会社であるBlack For Labsとのコラボレーションにより、そのモデルがTwitter上でGROKの機能にネイティブに組み込まれるということです。Flux.oneは、プロンプトの遵守、ポリシー、フォトリアリズムの点で素晴らしいモデルです。
つまり、Fluxを使いたいけれどアクセス方法がわからない場合（アクセス方法は実際には100万通りありますが）、Twitterにいて、このモデルに簡単にアクセスしたい場合、これがその方法になります。
ここで、GROK 2 miniのいくつかの機能をお見せしたいと思います。少し驚くかもしれませんが、私はこれらのテストが結構面白いと思っています。
まず、大規模言語モデルはトークン化のため、単語内の文字数を数えることができないということが分かっています。つまり、大規模言語モデルは私たちとは違う方法で単語を見ているのです。私たちは単語を文字ごとに分解して見ますが、大規模言語モデルは単語をトークンとして見ています。
例えば、この単語は「wo」と「rd」、4文字の単語は「let」と「tr」というように分解されるかもしれません。それぞれのトークンが1文字ではないのです。そのため、文字を数える際に間違えることがあります。
しかし、彼らがどのようにしてこれを実現したのかは分かりませんが、ニューロシンボリックなアプローチではなく、非常に速く直感的で迅速なようです。このモデルに特定の単語に含まれる特定の文字の数を尋ねると、毎回正確に答えることができます。
例えば、「Andrewという単語にはaの文字が何個ありますか？」と尋ねてみました。ここに入力しましたが、モデルを混乱させるために3つのaを入れてみました。ご覧の通り、モデルはそれをうまく処理しています。
このモデルは、私にはまだ理解できない方法で推論するエンジンを持っているようです。なぜなら、ステップバイステップのプロンプトを使用して推論しているわけではないからです。通常、GPT-4oでこのような質問をすると、まず間違った答えを出し、その後「ステップバイステップで書き出してください」と言わなければなりません。
先日、GPT-4oで同じようなことをしました。例えば、別の動画で「Lallosaという単語にはLがいくつありますか？」と尋ねました。6個あると答えていますが、実際には1、2、3、4個です。プロンプトエンジニアリングを通じて、「各単語の文字を書き出し、Lかどうかを確認して数えてください」と指示しました。すると、単語を手動で出力し、Lかどうかを分類し、その後で回答を出しているのが分かります。
これは様々なAIタスクで行うことができ、プロンプトエンジニアが様々な方法で価値を提供する方法です。LLMは奇妙で扱いにくいシステムなので、これらのチャットボットをより効果的にする方法を引き続き見つけていくでしょう。もちろん、プロンプトエンジニアリングで正しい応答を出力する方法を見つけたら、その方法を他の人と共有することができます。
これについて面白いのは、これが潜在的にネイティブに組み込まれている可能性があることです。このモデルがステップバイステップの計算を行っているのが見えない理由は、これがGROK 2 miniだからだと思います。つまり、これは高速で軽量なモデルであり、おそらくこのモデルは以前のすべてのステップを一瞬で行うことができるのでしょう。
つまり、ここにあるのは、最終的な出力の前に内部的な思考の変化や内部的なプロンプト戦略を持つモデルである可能性があります。もしそうだとすれば、このモデルは同じサイズの他のモデルよりも確実に賢いということになります。通常、モデルがそのようなことをできる場合、より良い応答を出力するからです。
このモデルには、「慎重に答えを考え、最初に書き出してください」などといった本当にクールなシステムプロンプトがあるのではないかと思います。このシステムプロンプトがどのようなものなのか、非常に興味があります。Twitterには、時間をかけてこのシステムプロンプトを解読しようとする人がいるでしょう。それが公開されるかどうかは分かりませんが、もし公開されれば、このモデルが応答する前に何を考えているのかを正確に見てみたいです。特定のシナリオで、これらのモデルがどのようにしてそのような高い精度で応答できるのかを本当に理解したいからです。
これは私が非常に素晴らしいと感じることの一つです。もちろん、「ロンドンの画像を作成して」と言うこともできます。「ロンドンの画像を作成して」と入力してみましょう。これは非常につまらないし、おそらくあなたが見たかったものではないでしょうが、これらの…わお、それは驚くほどフォトリアリスティックに見えます。実際に写真のように見えて、AIが生成したものには見えませんね。これは少し奇妙で不気味ですが、ともかくこれがGROK 2であることがわかります。
これはGROK 2 miniなので、最終的なGROK 2が登場したらどうなるのかが楽しみです。おそらくさらに高性能になるでしょう。しかし、GROK 2 miniは現時点でもかなり効果的に見えます。
これが完全にあなたを驚かせたかどうか教えてください。SAS column Rは完全に予想外でしたか？このTwitterアカウントから得ていた情報が完全に正確ではなかったようです。しかし、それはなぜサム・アルトマンがこのツイートに反応したのかという疑問を投げかけます。一部の謎は永遠に解けないのかもしれません。
しかし今のところ、誰もが正体を突き止めようとしていたSAS column Rは、X.AIに所属していて、クラックされたXチームによる非常に有能なモデルであるようです。
以上です。この動画を楽しんでいただけたなら、このモデルを試してみたいと思うかもしれません。または、他のテストを実行してほしい場合は、以下にコメントを残してください。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？