見出し画像

GROK 2が公開される!実際の「怪しい」AIモデル!

人々はGROK 2で生成できる画像をいくつか投稿しており、正直に言って、これまで見てきた他の画像生成モデルよりもはるかに奇抜なものだと言わざるを得ません。このモデルは、どんなプロンプトでも拒否せずに生成するようです。カメラで見せられないような画像もあります。
今週、大型モデルがリリースされることは分かっていましたが、実際にリリースされましたが、この件に関する他のほぼすべての点について誤解を与えられていたようです。最初から順を追って説明しましょう。
まず、GROK 2がリリースされました。ベータ版は2024年8月13日からライブになっています。GROK 2とGROK 2ミニの2つのモデルがあります。これはOpenAIなどが行ってきたパターンに従っており、より大きくてスマートなモデルと、通常はより高速で安価な小型モデルを用意しています。
このモデルは、しばらくの間私たちが使用できる状態でした。前回の動画でテストしたように、LMシステムのリーダーボードとチャットボットアリーナに載っており、SUS COLUMN Rとして知られていました。覚えていますか?面白いことに、SUS COLUMN Rに製作者を尋ねると、実在しない謎のColumn AI社によって作られたと答えていました。しかし今では、これがxAI、つまりイーロン・マスクのGROKだということが分かりました。
彼らはGROK 2の初期バージョンをSUS Rという名前でチャットボットアリーナに導入し、そこでClaudeとGPT-4oの両方を上回るELOスコアを獲得しました。ここに示されているように、GROKの初期バージョンが他の大多数のモデルを上回っています。これはGPT-4oの5月リリース版です。ご覧の通り、同レベルにあるかもしれません。より多くの投票が集まれば、どのように落ち着くかが分かるでしょうが、少し劣るかもしれませんし、同等かもしれません。唯一、明らかに優れているのはGemini 1.5 ProとChatGPT-4o(8月8日リリース版)だけです。
これはLMSISによって確認されており、12,000以上のコミュニティ投票を受けて、SUS COLUMN Rは総合リーダーボードで3位を獲得しました。コーディング、難しいプロンプト、数学で優れています。ご覧の通り、現在はxAIがSUS COLUMN Rの背後にある組織として掲載されています。例えば、Gemini 1.5 ProやGPT-4oとの勝率がここに示されています。ご覧の通り、非常に接近しており、勝率の差はわずか数パーセントポイントです。
彼らはまた、「事実性に関するAIチューターの選好」と呼ばれる別のチャートも持っています。これは様々なモデルに対する彼らの内部評価です。実際、ほとんどのAIラボが独自の内部評価システムを持っており、自社のモデルがどの位置にあるか、他のモデルと比較してどのようなパフォーマンスを示すかを確認しています。おそらく、標準的なベンチマークテストは使用せず、それぞれが独自のプロンプトやその他の方法を用いて、モデルの性能を判断しているのでしょう。
xAIの場合、AIチューターを使用してモデルを評価しています。彼らは次のように述べています。「私たちのAIチューターは、実際のGROKとのやり取りを反映する様々なタスクにおいて、私たちのモデルと対話します。各対話では、AIチューターはGROKによって生成された2つの応答を提示され、ガイドラインにある特定の基準に基づいて評価されます。」2つの主要な評価領域は、1)指示に従うこと、2)正確な事実情報を提供することです。
また、GPT-Q、M-LU、HumanEval、OFALなど、私たちがよく知っている標準的なベンチマークも含まれています。これらは、GoogleやOpenAIなど、多くの企業が自社のモデルをテストする際に使用する標準的なものです。通常、彼らは最も良い結果を出したものを掲載します。そのため、多少の選別が行われているのは事実ですが、一般的には、モデルの性能を理解するための出発点として捉えることができます。
実際に自分でテストしたり、自分のユースケースで試してみるまで本当のところは分かりませんが、一目でモデルの大まかな性能を把握するのに役立ちます。
まず第一に、GROK 2はGROK 1.5から大きな飛躍を遂げています。それだけでなく、私が見る限り、GPT-4 TurboとClaude 3 Opusをも圧倒しています。少なくとも彼らが掲載を選んだテストでは、すべてにおいて上回っています。
もう一つ大きなポイントは、GROKがリアルタイムの情報にアクセスできることです。これはXに統合されているためです。イーロン・マスクはLex Fridmanのポッドキャストで、これがGROKの大きな利点だと語っていました。GROKはTwitter/Xへの制限のないリアルタイムアクセスを完全に持っており、面白いミームを説明したり、PyGameでカラフルなライフゲームのシミュレーションを書いたり、Xプラットフォーム上のアシスタントとして使用したりすることができます。
XプレミアムおよびプレミアムプラスユーザーはGROK 2と2ミニの2つの新しいモデルにアクセスでき、GROK 2を搭載したAIアシスタントを利用できます。また、Black Forest Labsとの提携も言及されており、これによりGROK内でのAI画像生成が可能になるとのことです。
一部の人々は、SUS COLUMN Rという名前がロバート・A・ハインラインの「第六列」という本に由来している可能性があると推測しています。これは理にかなっています。ハインラインは非常に有名なSF作家で、イーロン・マスクはSFを愛好しています。ハインラインは「宇宙の戦士」「異星の客」、そしてラザルス・ロングとその冒険に関するすべての本を書きました。
これらのベンチマークを見ながら、現在GROK 3が今年後半にリリースされると考えられていることを念頭に置いてください。
人々はGROK 2で生成できる画像をいくつか投稿しており、正直に言って、これまで見てきた他の画像生成モデルよりもはるかに奇抜なものだと言わざるを得ません。不安定拡散(Unstable Diffusion)を知っている人なら別かもしれませんが。本当に、どんなプロンプトでも拒否せずに生成するようです。カメラで見せられないような画像もあります。
正確に見えるバイキングの画像を生成します。一瞬これが本物かどうか疑いましたが、彼らは画像へのリンクを投稿しており、それには画像の生成に使用されたプロンプトが含まれています。これはGROK画像を共有するための特別なXリンクで、クリックすると実際にその画像の別バージョンが生成されます。
例えば、イーロン・マスクが肥満(極度の肥満)になった別の宇宙を想像し、それが彼が経営する様々な企業にどのような影響を与えるかを推測するように頼むと、そのように応答します。ボーリング・カンパニーは今や「ボーリング・バーガー・エクスプレス」と呼ばれるファストフード配達システムになっており、イーロン・マスクはこのような姿になっています。こんなことは作り話ではありません。彼はボーリング・バーガー・エクスプレスを食べ過ぎたようです。
また、画像生成に関する著作権の問題もあまり気にしていないようです。画像内のテキストも優れており、他にも多くの特徴があります。
今日はここまでです。楽しんでいただけたでしょうか。私の名前はウェス・ロスです。ご視聴ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?