X（Twitter）の生成AI「Grok」の実力はどれほどかを「ChatGPT」「Claude」と比較して検証した。

2024年5月9日 18:05

5月8日に、Xがプレミアムサブスクリプション会員を対象として、生成AIチャットボットのサービス提供を始めた。

Xのトレンド入りもしていたので、それなりの注目度もあるようだが、実際のところ、業務で使えるレベルなのだろうか。

少し前にChatGPTとClaudeの比較を行ったが、今回も、全く同様のタスクを投げてみて、どのような違いが生じるかを検証してみよう。

ChatGPTと、Claude3に仕事を与えて、性能比較をしてみたら、長所と短所がはっきりと分かった。

Claude3は、文章出力に強く、文脈を長く保持しておける点に強みがありますが、webを参照したり、計算をさせたりする処理においては、ChatGPTに軍配が上がります。適宜、使い分けていくのがよさそうです。

https://note.com/yuyadachi/n/n7d01ead3ec5c

なお、Grokには「ユーモアモード」と「標準モード」があるが、性能に違いがあるかどうかは不明のため、より特徴的な「ユーモアモード」を選択した。

なお前回、ChatGPT（GPT-4）とClaude（Opus）にやらせたタスクは以下のようになっている。

１．記事執筆
　ー１．記事の書き方を尋ねる
　ー２．記事の構成を作らせる
　ー３．章ごとに、記事を逐次出力させる
　ー４．記事の評価
２．メールへの返信
３．調べもの
４．会社案内の作成
５．複利計算

では、１から順番にやっていく。

１．記事執筆

１．記事の書き方を尋ねる

念の為、前回出力したChatGPTとClaudeの結果も比較対象として掲載しておく。

ClaudeとChatGPTは構造化した回答だったのに対して、Grokは会話調となる。また、構成に必要な内容自体がGrokでは薄い。（最終パラグラフでは、前項の繰り返しになっている）

わかりやすさや、提案の密度という点ではChatGPTやClaudeに軍配が上がるだろう。

２．記事の構成を作らせる

では、前回ChatGPTとClaudeにやらせたのと全く同様に、Grokの勧めに従って、文章を構成させてみる。

以下がGrokによる構成案だ。

では、同様にClaudeとChatGPTの出力も比較対象として載せる。

構成案を作らせると、ClaudeとChatGPTは大項目と中項目までを示すが、Grokは大項目を示すのにとどまる。
どうやら、Grokは「階層化」が苦手なのかもしれない。
また構成のすべての文末が「説明しましょう」となっており、構成案というよりもインストラクションに近い。これも「会話調の生成AI」という特徴なのだろうか。