見出し画像

このAIは手に負えなくなってきている

このAIは本当に常軌を逸しています。最近、grok 2ベータがリリースされ、はい、これらの抑制のない、フィルターのかかっていない画像はこれを使って作られたのです。この動画では、grok 2の完全なレビューをします。チャットや推論能力をテストし、これらのクレイジーな画像の生成方法もお見せします。
まず手短に、すべてがどのように始まったかの背景をお話しします。ご存じない方のために説明すると、LMCISというアリーナがあり、そこでは人々が最高のAIモデルを目隠しテストで評価することができます。OpenAIやGoogle、Anthropicのようなトップ企業は、最新のモデルをここにリリースして、トップの座を争っています。
企業がまだモデルを発表したりリリースしていない場合でも、暗号的な名前でリリースすることで、ここでテストすることができます。例えば、GPT-4oが発表される前は、実際にはGPT-2チャットボットや「私は良いGPT-2チャットボットです」という名前でGPT-4oをこのアリーナでテストしていました。
同様に、数週間前に「sus column R」というミステリアスなチャットボットがアリーナに登場し、その性能はかなり印象的でした。時には当時のリーディングモデルであるGPT-4oやClaude 3.5 Sonnetの性能に匹敵したり、上回ったりしていました。人々は、これが次世代のGPTなのか、GPT-5なのか、あるいはClaude Opusなのかと推測していました。私を含め、ほとんどの人はこれが実際にイーロン・マスクのGrokだとは思いもしませんでした。
今週、彼らはついにGrok 2のベータ版をリリースし、これが確かにsus column Rであることを明らかにしました。素晴らしいのは、イーロン・マスクがオープンソースAIの支持者であることです。彼はOpenAIがクローズドソースであることを批判し、Grok 1を完全にオープンソース化しました。つまり、実際にモデル全体をインストールして、自分のコンピューターでローカルに実行し、好きなことができるのです。
彼がGrok 2でも同じことをすることを期待しています。もしそうなれば、これが主導的なオープンソースAIモデルになり、現在のMarx llama 3.1を圧倒することになるでしょう。
ここにベンチマークスコアがあります。sus column Rは、Grok 2の初期バージョンです。これはまだ初期バージョンで確定版ではないので、最終モデルがリリースされれば改善の余地があるかもしれません。そしてこれがLMCISアリーナでの全体的なLoスコアです。これらの線は信頼区間です。
GPT-4oの5月バージョンの性能に実際に匹敵し、GPT-4o miniやClaude 3.5 Sonnetの性能にも匹敵していることがわかります。最新の8月バージョンのGPT-4oにのみ大きく差をつけられています。彼らは大きな発表もせず、ただ静かにロールアウトしただけです。Googleも同様に、8月に静かにGemini 1.5 Proをロールアウトし、これは以前のバージョンよりもはるかに優れているようです。
しかし、Grok 2もそれほど遅れを取っていません。これは3位タイです。これがLMCISアリーナでのGrok 2の勝率です。この割合は、Grok 2がこのモデルに勝つ頻度を示しています。例えば、GPT-4o(少なくとも5月バージョン)に52%の確率で勝つことができます。GPT-4o miniも同様です。興味深いことに、Claude 3.5 Sonnetにも54%の確率で勝っています。llama 3.1 405bには58%の確率で勝ちます。これは現在、最高のオープンソースモデルとされています。
Grok 2が本当に優れていて、最先端のモデルと肩を並べていることがわかります。これらはMMLUや数学の人間評価など、よく知られている標準的なベンチマークです。Grok 2が時にはGPT-4oやClaude 3.5と同等かそれ以上の性能を発揮していることがわかります。
また、パラメータが少ないミニバージョンもリリースされていることに注目してください。これはGPT-4oにもミニバージョンがあるのと似ています。これはより高速に実行されますが、もちろんパラメータが少ないのでわずかに知能は劣ります。
個人的に、これらのベンチマークはあまり好きではありません。ベンチマークで高得点を取ることは簡単に操作できると思うからです。そのため、この動画では自分でテストしてみます。まずは様々なプロンプトを与えて、計画立案や推論をテストしますが、その前に画像生成についても見てみましょう。
Grok 2の最も素晴らしい点は、Black Forest Labsと提携して、fluxを使って画像を生成できることです。まだfluxを聞いたことがない人のために説明すると、fluxは arguably最高の画像生成器です。Midjourneyやstable diffusionを凌駕するとさえ言われています。
fluxの使い方やローカルでのインストール方法、使用方法については、この動画で完全なレビューとチュートリアルを行っていますので、まだ見ていない方はぜひチェックしてください。
一部のユーザーは、Grokがfluxのプロバージョンを使用していると言っています。これは最高品質のバージョンで、有料でクローズドソースです。しかし、明確にしておくと、彼らはfluxのバージョンを公式に言及していません。これがflux ProなのかfluxDevなのか、あるいは彼ら独自の微調整モデルなのかはわかりません。私たちが知っているのは、何らかのバージョンのfluxを使用しているということだけです。
実際にこれをテストしてみましょう。Grok 2を使用するには、少なくともプレミアムプランに加入する必要があります。ご覧のように、私はまだプレミアムを持っていないので、この動画のために1ヶ月分のプレミアムを支払います。
支払いが完了したので、このプレミアムタブにアクセスできるようになりました。上部にGrokがあることがわかります。これをクリックして、右上で現在Grok 2 miniとベータ版のみを使用していることに注意してください。ここにはファンモードのトグルがあります。これをオンにすると、より検閲されず、よりカリスマ性のある対応になると思われます。
まず、いくつかの画像を生成してみましょう。本当に簡単で、「ドナルド・トランプとカマラ・ハリスがキスをしている画像を生成して」と書くだけです。どんな結果が出るか見てみましょう。「了解しました」をクリックします。この動画は一時停止せずに、どれほど速く生成できるかを見ていただきます。
3秒程度で生成できたのがわかります。とても速いです。そして、ここにトランプがハリスにキスをしている、完全にフィルターのかかっていない画像があります。有名人を正確に描写できる画像生成器です。OpenAIのDALLE-3やGoogleの最新のImagine 3では絶対にできません。
これは私が試した中で最も楽しい画像生成器の一つです。ダウンロードするには、右クリックして「名前を付けて画像を保存」を選ぶだけです。
では、別のものを試してみましょう。「スパイダーマンとバットマンが両手で勝利のサインをしている画像を生成して。二人とも妊娠している」と入力します。Grok 2がこれを処理できるので、超過激な例をお見せしているだけだということに注意してください。
そして、ここにスパイダーマンとバットマンがいます。二人とも少し妊娠しているように見え、両手で勝利のサインをしています。ちなみに、画像を生成する際は、「〜の画像を生成して」というプロンプトを使う必要があります。これが最も上手く機能すると分かりました。「画像を生成して」と書かないと、画像は生成されません。
これらの例では「画像を生成して」を使用していますが、「白いビキニを着たスティーブ・ジョブズの写真を作成して」というようにも使えます。どんな結果になるか見てみましょう。なんということでしょう。今夜の夢に影響を与えるかもしれませんが、ここに白いビキニを着たスティーブ・ジョブズがいます。これがどれほど正確で検閲されていないかは本当に信じられません。
もう一つ極端な例を試してみましょう。「ディズニープリンセス3人、アリエル、ジャスミン、ベルの写真を作成して。全員が肥満でタバコを吸っている」と書きます。「極度に肥満」と書いてみましょう。どんな結果になるか見てみましょう。
なんということでしょう。これをサムネイルに使うべきでしょうか。このモデルでどれほど楽しめるかがわかります。これを使えば、多くのクレイジーなものを生成できます。
これらの画像はかなりフィルターがかかっていませんが、このモデルで裸の画像は生成できないことに注意してください。これは、fluxの基本モデルがある程度裸の画像をフィルタリングしているためです。本当に大人向けのNSFW画像を生成したい場合は、オープンソースコミュニティからの微調整バージョンを待つ必要があります。しかし、将来的にもGrok 2でこれを実現できるかどうかは疑わしいです。
一部の人は、Grok 2を使うべきか、それともfluxを直接使うべきか疑問に思うかもしれません。Grok 2はfluxの上に構築されたラッパーだと考えることができます。Grok 2の利点は、チャットボットと画像生成器が1つのインターフェースで提供されることです。
しかし、画像の品質やカスタマイズ性を求めるのであれば、fluxを直接使用することをお勧めします。幅や高さ、シード値、ガイダンススケール、ステップ数などをより細かく制御できます。さらに、fluxのcontrol netのような多くのプラグインやツールが現在開発中で、画像の構図や深度、ポーズを制御できます。
Grok 2ではそれができません。ここでできるのは、プロンプトを入力して画像を生成することだけで、最小限の制御しかできません。より多くの制御が必要な場合は、fluxを直接使用することをお勧めします。
以上で画像生成についての説明は終わりです。次に、実際にチャット機能や推論能力をテストしてみましょう。ここをクリックして新しいチャットを開始し、これを2つのウィンドウに分割します。左側にはGrokのネイティブインターフェースがあり、ここではGrok 2 miniを使用しています。これはより小さく、やや能力の劣るバージョンです。
Grok 2のフルバージョンもテストしたいと思います。xの中ではまだGrok 2にアクセスできませんが、このLMCISアリーナではアクセスできます。リンクは説明欄に記載します。ここにはダイレクトチャットというタブがあり、ダイレクトチャットの下でこのsus column Rモデルを選択できます。これがGrok 2だとわかっています。
では、非常にシンプルな数学の推論問題から始めましょう。プロンプトは「ジョンはマークの2倍の年齢です。5年後、二人の年齢の合計は65歳になります。現在、それぞれ何歳ですか?」です。両方に送信をクリックします。これは本当に単純な代数の問題で、両方がこれを解けることを期待しています。
Grok 2 miniがネイティブインターフェースで、sus column Rよりもはるかに速く終了していることがわかります。実際、その答えは非常に長いです。なぜこんなに時間がかかっているのかわかりません。
答えに大きな違いがあります。Grok 2 miniは18歳と36歳と言っています。Grok 2は15歳と30歳と言っています。実際にはこれが正解です。Grok 2 miniが正解を出したことに本当に驚いています。sus column Rがこれを解けなかったことにも驚いています。ただ長い説明を吐き出しただけで、中間部分でなんとか正解を出しています。「5年後、マークの年齢は18+5、ジョンは36+5で」と書いてあり、この18と36が正解です。しかし、ここに小さな矛盾があります。正確に整数ではないため、64.4となり65ではありません。これが問題を特定しようとする循環に陥らせ、結果的に非常に奇妙で不正確な答えになってしまったのだと思います。
では、別のものを試してみましょう。次のプロンプトは「エンパイアステートビルディングにバスケットボールをいくつ詰め込めるでしょうか?あなたの推論を説明してください」です。これは、私がこれらのチャットボットを自分でテストするのが好きな理由です。ベンチマークの指標だけに頼るのではなく、このような推論の質問をして、問題をどのように解決するかを見たいのです。
エンパイアステートビルディングにいくつのバスケットボールが入るかについて、正解はありません。ただ、その論理的思考と推論能力を見たいだけです。
非常に興味深いですね。ここでも2つのモデル間に大きな違いがあることがわかります。Grok 2 miniは1億4700万個と言っていますが、Grok 2フルバージョンは4300万個と言っています。これは非常に奇妙です。
まず、Grok 2 miniの推論を見てみましょう。まず、バスケットボールの体積を計算しています。これは約0.31立方フィートです。エンパイアステートビルディングの高さはこれくらいで、アンテナは含めないことにします。基底面積はおよそこれくらいで、約4.2万平方フィートになります。
ボールは丸いので、完全に詰め込むことはできません。空きスペースがあります。そこで、建物の実際の空き体積の74%しか埋められないと仮定しましょう。ここでは、この補正を考慮してバスケットボールがいくつ入るかを計算しています。
建物には壁や床、人々など他のものも入っていると仮定しています。そのため、バスケットボールのための体積は全体の10%しかないと仮定しています。これは大きな仮定ですね。なぜ10%を選んだのかはわかりません。最終的な答えとして1億4700万個のバスケットボールという結果になりました。
そして、いくつかの仮定と制限も示しています。ステップを見ていくと、理にかなっていると思います。目に見えて間違っているところはありません。
Grok 2フルバージョンに移りましょう。ここでスポンサーのAbacus AIが提供する素晴らしいツール、Chat LLMについてお話しします。これを使えば、最高のAIモデルを1つの統合プラットフォームで利用できます。GPT-4o、Claude Sonnet 3.5、llama 3.1、そして彼ら独自のsmogが含まれています。
通常のチャットボットのように使えるだけでなく、画像生成もできます。さらに、非常にクールなアーティファクト機能があります。コーディングや何かを構築している場合、アプリを横に並べて表示し、操作することができます。PDFやドキュメントをドラッグ&ドロップして分析させることもできます。これはレポートの生成やデータ分析に最適です。
チャットインターフェース内で簡単にデータテーブルやチャートを作成できます。これは非常に便利です。また、便利な「人間化」ボタンがあり、出力を異なるトーンに変換したり、AI検出をバイパスしたりできます。さらにウェブ検索機能もあるので、他のチャットボットのように古い情報を提供するのではなく、Chat LLMは積極的にウェブを検索し、最新の情報を提供します。
これをSlackや他のエンタープライズプラットフォームにシームレスに統合できるので、チームのコラボレーションに最適です。また、特定のタスクを自動化するためのカスタムエージェントを作成することもできます。これは、最高のAIモデルを1つのプラットフォームで使用するための非常に強力で多目的なツールです。説明欄のリンクから試してみてください。
ここでは、アンテナを除いた高さがこれくらいで、基底部は150×60だと言っています。ここではメートル法を使っていて、ここではフィート法を使っています。これは私を狂わせます。変換できません。でも、とりあえず進めましょう。
ここでは建物全体の体積を計算しています。そして、ここではバスケットボールの体積を計算しています。ここでも、充填効率を74%と仮定しています。これはここでも同じように見られます。
しかし、不規則な形状や内部構造などの現実世界の条件を考慮しています。控えめに見積もって50%以上としましょう。うーん。両方とも推論をかなりよく説明していて、どのようにして結論に至ったかがわかります。結果の差は大きいですが、これは理論的な質問ですよね。正解はありません。ただ、その推論を見たかっただけです。どちらも計算方法と答えに至る過程をかなりうまく示してくれました。
次は幻覚をテストしてみましょう。プロンプトは「stable diffusion 5について説明を書いてください」です。正しい答えは、stable diffusion 5は存在しないので、答えを出すべきではありません。
しかし、ここでは明らかに幻覚を起こしています。存在しないものについて説明を作り出しています。どちらも失敗したと言えるでしょう。理想的には、stable diffusion 5が実際に存在するかどうかを確認し、存在しない場合は単に存在しないと言うべきです。説明を作り出すのではなく。そのため、どちらも失敗したと言わざるを得ません。
次は簡単な物理の質問です。「鉄でできた船は水に浮かびますが、鉄の釘は沈みます。なぜですか?」これが解けるか見てみましょう。
両方のチャットボットが正しく答えられました。密度と浮力、そして形状に関係があります。とてもいいですね。
このネイティブのGrok 2インターフェースでは、最後にちょっとしたユーモアを加えています。少しカリスマ的で面白くしようとしています。例えば、ここでは「船が釘のように設計されていたらどうなるか想像してみてください。長く、細く、おそらく底がとても尖っていて、浮くのにも貨物を運ぶのにも全く適していません。さらに、乗り込むのも面白い体験になるでしょう」と言っています。
これは、ここでファンモードを有効にしているからです。回答をもう少し楽しくしようとしています。実際、このアプローチが好きです。GPTやCLAのようにロボットのように答えるだけでなく、退屈ではありません。
あと数つ、悪名高いテストプロンプトをやってみましょう。「Strawberryには"r"がいくつありますか?」
おや、これはすごいですね。Grok 2 miniが正解しました。実際にstrawberryという単語を各文字に分解して、そこから"r"を数えています。ここで正解の3つの"r"があることがわかります。
一方、sus column R、つまりGrok 2のフルバージョンだと思われるものは間違えています。これはクレイジーです。ちなみに、llama 3.1やGPT-4oなど、他の「最先端」のチャットボットの多くもこのプロンプトに正しく答えられないことがあります。彼らも3ではなく2と答えることがあり、これは本当にクレイジーです。
もう一つの悪名高いテストプロンプトです。「"bubble"という単語で終わる10個の文を作ってください」
Grok 2 miniは失敗しました。3番目の文が"bubble"で終わっていません。しかし、Grok 2フルバージョンでは、すべての文が"bubble"で終わっています。そのため、sus column Rはパスです。
次は「9.11と9.9のどちらが大きいですか?」
Grok 2 miniは本当に素早く答えました。確かに9.9は9.11より大きいです。sus column Rも正しく答えました。9.9は9.11より大きいです。そのため、両方ともパスです。
現在のリーディングオープンソースモデルであるllama 3.1 405bがこれを正しく答えられなかったことに注意してください。
最後の質問です。これは計画立案と戦略的思考をテストするものです。プロンプトは「あなたは10代向けの1週間の夏季キャンプを企画する任務を与えられました。キャンプにはスポーツ、工芸、教育ワークショップなどの様々な活動が含まれます。これらの活動のバランスを取り、キャンパーを引き付け、安全と健康を確保するスケジュールをどのように作成しますか?」
両方に送信を押します。
今回は、sus column Rが先に終わりました。まずその回答を見てみましょう。目的とテーマを定義し、次に時間枠と活動を計画しています。理想的には、月曜日から日曜日まで1週間全体のスケジュールを立ててほしいところです。
しかし、これは毎日適用する必要があるスケジュールだけを示しています。さらに、月曜日の朝にキャンパーが最初に参加する時、活動に飛び込む前に、オンボーディングやオリエンテーションを組み込んでほしいところです。
この回答は理想的ではありません。GPT-4でテストしたときの方が、出力がずっと良かったです。
そして、ここでは活動のバランスと多様性、安全性と健康などについてさらにポイントを追加しています。これはすべて常識的なことです。ここにも正解はありません。ゼロから何かを推論し、戦略的に計画する方法を示したかっただけです。
これがsus column Rです。次にGrok 2 miniに移りましょう。実際にかなり似ています。朝から夜までの1日のスケジュールから始まっています。ここでも理想的には、月曜日から日曜日まで1週間の完全なスケジュールを示してほしいところです。しかし、毎日従うべき1つのスケジュールだけを示しています。
そして、週単位の構成が示されています。安全性と健康も組み込む必要があります。これはすべて常識的なことです。関与など、などなど。閉会活動や開会活動は含まれていません。
繰り返しになりますが、求めていた理想的な回答ではありませんが、Grok 2と他のチャットボットから得られる回答のタイプがわかったと思います。
最後のプロンプトです。「落下中のエレベーターの中にいる場合、地面に衝突する直前に飛び上がれば自分を救えますか?」ここでも、物理学の知識と推論をテストしようとしています。
両方とも「いいえ、うまくいきません。落下するエレベーターの中で飛び上がっても自分を救うことはできません」と答えています。両方とも正解です。主に相対速度、相対運動、そして運動量保存に関係しています。ここでもこれを得ています。
そして、衝撃の力についても言及しています。両方ともこれも得ています。また、体全体に衝撃の力を分散させるために平らに横たわることを提案しています。ここでも同じことを提案しています。両方ともこのプロンプトにパスしました。
これで現時点でのGrok 2の能力が分かったと思います。私が言えるのは、最も印象的で楽しいことは画像生成です。チャットボットは平凡です。これらのベンチマークによると、最先端のモデルと同等かもしれませんが、GPTやClaude 3.5に比べて大きな改善ではありません。
少なくとも私にとっては、GPTやClaudeを使い続けることになるでしょう。既存のリーディングモデルよりも明らかに賢い、革命的なモデルが出てこない限り、切り替えることはないでしょう。しかし、画像生成器は本当に楽しいので、少なくとも1ヶ月は試してみる価値は十分にあります。
ちなみに、もう一つ印象的なのは、イーロン・マスクがAI企業を始めた最新の人物だということです。彼は元々OpenAIに投資していましたが、意見の相違や対立があり、その後OpenAIを去りました。彼が自身のAI企業xAIを立ち上げ、真にオープンソースのAIモデルを構築すると発表したのは去年のことでした。わずか1年で、最先端のモデルに追いついたものを構築できたのです。一方、GoogleやOpenAI、さらにはAnthropicのような他の企業は何年もかけて取り組んできました。AnthropicでさえもXAIより早く、2021年に始まっています。
イーロンがわずか1年で最先端のGrok 2モデルを構築できたことは、信じられないほど印象的です。
以上が、現時点でGrok 2について知っていることのすべてです。もし試す機会があれば、何が好きで何が嫌いだったか教えてください。また、このモデルでどんなクレイジーな画像を生成できたか、ぜひ教えてください。コメント欄でお待ちしています。
いつも通り、最新のAIニュースやツールを探し続け、皆さんと共有していきます。この動画を楽しんでいただけたなら、ぜひ「いいね」、シェア、そして登録をお願いします。そして、今後のコンテンツもお楽しみに。
また、AIの世界では毎週とてもたくさんのことが起こっているので、YouTubeチャンネルですべてをカバーすることは不可能です。AIで起こっていることをすべて把握するには、無料の週刊ニュースレターに登録することをおすすめします。リンクは説明欄にあります。
視聴ありがとうございました。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか?