2024年4月12日、新しい多モードAIモデル「Grok 1.5 Vision」が発表され、デジタルと物理世界の接続が実現しました。このモデルは、テキスト処理に加え、文書、図表、スクリーンショット、写真などの視覚情報も処理できます。Grok 1.5は、他の最先端モデル、例えばGPT-4 VisionやClaude 3 Opus、Gemini Pro 1.5との比較で、非常に優れた性能を示しました。特に、物理世界を理解する能力が高く評価されています。また、新しいリアルワールドQ&Aベンチマークでは、実世界の空間理解を測定し、その結果Grokは競合他社を上回る性能を発揮しました。このモデルは間もなく初期テスターや既存のGrokユーザーに提供される予定です。
公開日:2024年4月13日
※動画を再生してから読むのがオススメです。
これは予想していませんでした。
Grok 1.5 Visionのプレビューを理解する。
Xaiがこの新しい発表を行います。
数時間で470万回の視聴回数があり、驚くほど良いです。
Grok 1.5 Vision、GPT-4 Vision、Claude 3 Opus、そして最新版のGemini Pro 1.5との比較で、Grokは健闘しています。
それはTitansに対抗しています。
言わせてもらいます。驚いています。
これはこれをカバーするのに十分大きそうです。
2024年4月12日、Grok 1.5 Visionプレビューは、最初のマルチモーダルモデルでデジタルと物理世界をつなぎます。
その強力なテキスト機能に加えて、groiは今や文書、図表、チャート、スクリーンショット、写真など、さまざまなビジュアル情報を処理します。
私たちの早期テスターや既存のGrokユーザーには近々利用可能になります。
Grok 1.5は、いくつかの領域で既存のFrontier multimodalモデルと競争力があります。
私たちは、Grokが私たちの物理世界を理解する能力に特に興奮しています。
Grokは真実を求めるAIとして構築されました。
イーロンが使用した正確な用語を忘れてしまいましたが、それは宇宙の真実を理解することが目的でした。
彼らがここでこれを指摘しているのは興味深いです。
彼らは、Grokの能力と物理世界を理解することに興奮しています。
Grokは、実世界の空間理解を測定する新しい実世界Q&Aベンチマークで、同僚を凌駕しています。
以下のすべてのデータセットについて、私たちはChain of ThoughtのプロンプトなしでGrokをゼロショット設定で評価します。
これは興味深いですね、なぜならみんなが自分自身の小さなトリックや、自分自身のモデルの最高を示すための小さないたずらを持っているからです。
例えば、昨日OpenAIが新しく改良されたGPT-4モデルを披露したとき、彼らは異なるモデルを評価するためのベンチマークの一種をオープンソース化しました。
彼らは言語モデルを評価するための軽量ライブラリと呼んでおり、ゼロショットのChain of Thought設定を強調しています。つまり、問題の解決方法の例を与えず、問題をステップバイステップで考えさせてから解決するように求めています。
ここで興味深いのは、Grokが以下のすべてのデータセットについて、私たちはGrokをゼロショット設定で評価していると言っていることです。
再び、OpenAIと同じですが、Chain of Thoughtのプロンプトなしと言っています。
そして、ここにベンチマークがあります。
まず最初に、GPT-4 with visionです。
これは長い間君臨していた王者でした。
CLA 3 Opusは登場したとき、ランキングをかなり揺るがしました。
それはLLMアリーナでナンバーワンのモデルになり、このチャンネルでかなりテストしてきました。
良いです。
非常に良いです。
そこで非常に興味深いことが起こっているのは間違いありません。
それは間違いなく前進でした。
Gemini Pro 1.5も非常に優れています。
Gemini 1.0よりも大幅に進化しています。
私たちは、これが専門家の混合を導入した場所だと信じています。
彼らは100万トークンのコンテキストウィンドウを導入しました。
そして、小さなCLA3モデルであるクロー3ソネットも導入されました。
これをここに置いたことは興味深いですが、ポイントはこれら3つです:GPT-4 Vision、CLA 3 Opus、Gemini Pro 1.5。
これらは現在のチャンピオンです、これらは本当に優れたモデルです、それぞれが独自の強みを持っています。
Grokがこれほど速く追いついたという事実は本当に興味深いです。
そして、ここに戻って、これが何に優れているかをまさに見ていきましょう、これは、つまり、これはかなり重要なことのように思えませんか?
ここでは、それが得意なことのいくつかの例を示しています。
例えば、図表からコードを書くことです。
こちらの左側にはフローチャートがあります:開始、ROM番号を作成、読み取ります。
おそらく、生成されたランダムな番号を推測しようとしているのでしょう。
ユーザーは、「これをPythonコードに変換できますか?」と尋ねています。
彼らはボードに少しの図を描き、それを写真に撮り、「ねえ、これをPythonコードにして実際のソフトウェアプログラムにしてください」と言いました。
おそらく、提供されたフローチャートは、コンピュータがランダムな数字を生成し、ユーザーがそれを推測しなければならない単純な推測ゲームを説明しています。
こちらが、そのフローチャートのロジックを表すPythonコードです。
それはそれを生成し、あなたが言うように、U1のようなすべての書き込みをほぼ完璧に取得し、間違ったゲストを再試行します。
それは、あなたがホワイトボードに落書きするこれらの小さな図からソフトウェアを作成します。
次に、カルドン栄養成分の裏側からカロリーを計算します。
この種の5枚のスライスには何カロリー含まれていますか。1回の摂取量が3枚の場合、これは少し難しい質問です。
そこで少し数学をしなければなりません。
Grokは、5枚のスライスに100カロリー含まれると計算します。
私はこれについて数学をしましたが、それは確認されますが、実際には、これはやるのが難しいことです。
私たちがテストした他の多くのビジョンモデルは、このようなものに簡単に混乱し、たくさんの線があって、3枚のスライスがあり、それから括弧があり、18ガムがあり、そしてこれは彼らを混乱させる傾向があります。
これは、これは印象的です。
彼らは私の息子のドリューがこれを描いたと言っていました。彼の絵に基づいた短い寝前話を教えてくれますか?
そして確かに、グロックはとてもクールなストーリーを提供してくれます。
ミームを説明するので、グロックはこれに長けているはずです。
ElonがTwitterのXでミームを投稿する人で、彼が優れたミームを説明するAIを生み出せないのであれば、それは一体何の意味があるのでしょうか?
それは真のミームの学者でなければなりません。
スタートアップにはこのイメージがあり、大企業にはこのイメージがあります。
ユーザーが言う、「わからない、説明してください」と。
彼はそのスタートアップを説明し、誰もが積極的に参加しているが、大企業では実際に穴を掘っているのは1人だけだと述べています。
そして、ユーモラスなイメージは、スタートアップと大企業の違いの誇張から来ています。
それから、さらに説明して、かなりうまくやっている。
それから、潜在的にウィキペディアのようなものがある画像があり、ユーザーが「この表をCSVに変換してください」と言っていますね。
Excelスプレッドシートなどと同様に、コンマで値を区切ります。
その表と画像は、次の形式に変換できます。それは、ヘッダー、列のヘッダーを含む、それを行い、それがそれを行います。
これは、他のモデルが少し苦労しているのを見たこともあります。
次に、釘の周りにある木製の板の損傷の画像が表示され、ユーザーが尋ねています。「デッキのネジ周りに穴が現れていますが、腐っていますか?」
私はボードを交換すべきですか?
そして、Grokは「はい、デッキが腐り始めているようですね。」と言います。
これは、ネジ周りに穴があることで示され、これは木材の腐敗の一般的な兆候です。そして、それについてさらなるアドバイスをしてくれます。
これは、GPT-4 with visionに非常に感銘を受けた点の1つで、品質保証の目的で、破損したものの写真を示すことができ、ボルトが剥がれたり、傷や傷がついた車などがある写真を見せて、「この画像で何が問題か」と尋ねることができ、それがある種の評価をしてくれる、という点です。
それが腐敗があるかどうか、木材の腐食があるかどうかを判断できるという事実は、確かに非常に非常に役立つものです。
そして次に、コーディングの問題を解決することになりますが、これを解決するためのPythonコードを書けますか?
そして、それは半ば複雑な問題のように見えますが、一目で理解しにくいものではありませんが、Grokはそれを解決するためのコードを書くことができます。
これがGrokの結果を受け取ったときに受け取るものの代表であるならば、それは非常に印象的な現実世界の理解であるでしょう。
有用な現実世界のAI支援を開発するためには、物理世界の理解を進化させることが重要です。
そしてもちろん、これらの企業の背後にいる一部の人々は、テスラの背後にいる同じ人々です。
テスラはおそらく、さまざまな条件、さまざまな道路などを通って車が運転されるさまざまな映像の世界最大のコレクションを持っているでしょう。
確かに、現実世界の理解という考えは重要です。
彼らはこの目標に向けて、新しいベンチマークの現実世界のQAを導入していると言っています。
これについて後で戻ってきますが、彼らは自分たちの非常に独自の現実世界のQA、現実世界の理解のベンチマークを導入したようです。
期待通り、彼らはそのベンチマークで他の誰よりも優れた成績を収めています。
そして、このベンチマークは、マルチモーダルモデルの基本的な現実世界の空間理解能力を評価するために設計されています。
現在のベンチマークの多くの例は人間にとって比較的簡単ですが、フロンティアモデルにとってはしばしば課題を提起します。
例えば、この画像では、ピザカッターとハサミのどちらの方が大きいですか?
そして、それを選択すると、ほぼ同じサイズです。
ハサミはやや難しいですね、障害物に隠れていて、複数のオブジェクトの後ろに隠れています。
次に、交通状況がありますが、現在のレーンからどこに行けますか?
左に曲がってください。
つまり、本当に唯一のヒントはサインですよね?
ここに矢印がありますが、視覚的には前に進めるように見えますね。
一応、できることの唯一のヒントはサインだと思いますが、それを正しく捉えています。
そして、実際には、このセダンの前方カメラの映像からは道路があまりよく見えないので、左側のレーンにいることを理解しています。
私たちの前にいる灰色の車を避けるためのスペースは十分ですか?
その答えは「はい」です。
写真を見ると、恐竜はどの方向を向いていますか?
これをやってみましょう、これらは見にくいですが、見えます。
恐竜は東を向いています、そう、おおよそ東を向いているので、グロックは東を選択します。
他のモデルでは、これには確かに難しいと感じます。
実世界のQ&Aの最初のリリースには、各画像についての質問と簡単に検証可能な回答が付いた700以上の画像が含まれています。
データセットには、車両から取られた匿名の画像に加えて、他の実世界の画像が含まれており、それらはクリエイティブ・コモンズの下で公開されています。
こちらからダウンロードすることができます。
これは、エロンによるちょっとしたフレックスですね、なぜなら彼らはさまざまな車や高速道路を走るデータをたくさん持っているからです。
確かに、それらの特定のタスクで他のモデルを大幅に上回ることが期待されます。
そして、将来に向けて、私たちのマルチモーダルな理解と生成能力を進化させることは、有益なAGIを構築する上で重要なステップです。
今後数ヶ月で、画像、音声、ビデオなどさまざまなモダリティにおける両方の能力を大幅に向上させることを期待しています。そして、彼らは採用しています。
ところで、こちらがCreative Commonsのデータセットからの画像コレクションです。彼らがそのベンチマークマークで使用した700枚以上の画像です。
というわけで、これらはその画像の一部です。たくさんの車や犬がいますが、そうですね、おそらく90〜95%は車が通り過ぎる画像です。サンフランシスコやベイエリアの画像が多いですし、その他のランダムな画像もあります。
それに続いて、Grokがその第1位を獲得し、Gemini Pro 1.5に続いてGPT-4 Vision、そしてClaudeモデルのClaude 3が続きます。
次に、知識と推論を測定するために設計されたベンチマークであるmmm Uがあります。
多くの質問は、グラフを示す画像があり、そのグラフが何を示しているかを見極めたり、グラフからデータを選択したりするようです。
Clot 3が最も優れており、次にGemini Pro 1.5、そしてGPTが続きます。
そしてGroが続きますが、大きな違いはありません。
それらはそれほど遠く離れていません。
次に、数学ビスタがあります。
これらは視覚的および数学的推論テスト、パズルテストなどです。
これを正しく読んでいるなら、数学ビスタのウェブサイトのリーダーボードによると、人間のパフォーマンスは約60で、その次にGroが52.8で、他のすべてよりも高いです。
次に、AI 2Dですが、図を理解する能力を88.3でテストしていると思います。
Grokがトップにいて、唯一より良いのはClot 3 Sonetです。
奇妙なことに、より小さなモデルですが、GPT-4Vはかなり少ないです。
CLA 3 Opusはわずかに少なく、Gemini Pro 1.5は少し少ないです。
私はこれらすべてを詳細に説明するつもりはありませんが、テキストVQAが勝者です。
チャートQ&Aは他のものよりも低いですが、ビジョンに関してはGPTに似ています。
CLAとGeminiは80%と81%で高いです。Doc VQAは85%で、最高のモデルは89%です。つまり、すべてをまとめると、それは良い、本当に良いです。
この中から何を学ぶことができるでしょうか?
この時点で、私は言わなければならない、イーロン・マスクに賭けるなということです。
もちろん、まだ解決すべき問題がいくつかあります。
スコアとバリューを取得するだけが、モデルの強力さを決定するすべてではありませんが、それはスタートです。
私が理解している限り、Xの新しい検索機能は、より関連性の高いニュースを見つけるためにGroを利用しています。
つまり、初めて、私は実際にそれを見ています。
以前はひどかったです、私にはまったく関連性のあるニュースがありませんでしたが、ここでは私が関心を持つニュースを提供してくれています。
大部分のAI Xは、ニュースの最大のグローバルな目的地の1つに急速になりつつあり、多くのトラフィック、多くの利用者がいます。
最近、彼らはボットの一掃を行い、自動化されたトラフィックを大幅に削減しました。
それは彼ら自身のリアルタイムのプライベートデータソースです。
イーロンはお金を持っていたし、AIの才能も持っていたし、データも持っていたし、ユーザーもテストするためのものも持っていたし、配布も持っていました。
彼が持っていなかった唯一のものは、モデルでした。
実際にモデルを手に入れ、実際にテストして、それが主張するすべてのことを本当に行うかどうかを見るまで、判断を保留すべきです。
でも、私が座っている場所から見る限り、約10年前、イーロンは、Googleが独自にGIを開発することを懸念していたようです。
それは素晴らしい新技術を持っていて、他の誰も持っていない可能性があります。
ちなみに、現在Google DeepMindを運営しているデミ・サービーが、何が起こっているかをイーロンに警告したかもしれません。
イーロンはサム・オルトマンに行き、OpenAIを設立します。
Anthropic、Cloud 3の背後にいる人々は、ある時点でOpenAIから分離し、独自の会社となりました。
そしてここでのポイントは、Googleに対抗するためのカウンターバランスを提供する必要があるということを覚えておいてください。
それは少なくとも、Elon Muskが2014年または2015年に述べた目標であり、その全体がまさに醸成されていた時期でした。
2024年4月20日に近づいているとき、Grokがあります。
ElonはGoogleに対抗するものを望んでいましたが、今は存在しています。
一つではなく、二つでもなく、三つの主要な競合他社を数えましょう。
そして、オープンソースのMistralや新参のCommand R Plus、他のすべてのオープンソースの競合他社を数えていません。
でも、この時点で言わなければならないのは、Elon Muskに敬意を表さなければならないということです。
この人に賭けるのは得策ではありません。
でも、コメントでどう思うか教えてください。
私はこの数字が議論を呼ぶことを知っています。
人々は彼に対してさまざまな感情を抱いています。
もし本当にAIに近づいているのであれば、それがあなたにとってどういう意味であるか、それが来年か10年後か、そう思うのであれば、そのような強力なテクノロジーを彼に信頼しますか?
サム・オルトマンよりも、Googleよりも、彼を信頼しますか?
一方で、デミス・ハサビスはGoogle DeepMindでの進行具合にあまり興奮していないようです。
1年前、Googleは急いで2つの研究所、つまりGoogle BrainとGoogle DeepMindを1つに統合しました。
彼らはそれをハサビスの下に置きましたが、彼らの間の緊張は残っています。
その状況はハサビスを非常にイライラさせています。
どんな状況であれ、私たちがこのようなことが生中継で見ることができる事実、おそらく会社内からのさまざまなツイートやリーク、さらにはコード文書から、この展開を見守ることができる事実は、私は言わざるを得ません、非常に驚くべきことです。
それを楽しんでいただければ幸いです。
購読していただくと、次に何が起こるかに注意を払いたくなるでしょう。なぜなら、この分野は急速に盛り上がっているからです。
それでは、私の名前はウェス・アールスです。ご視聴ありがとうございました。