![見出し画像](https://assets.st-note.com/production/uploads/images/139911420/rectangle_large_type_2_e244640ca40bfada4940fc3739e24bb5.png?width=800)
X(Twitter)の生成AI「Grok」の実力はどれほどかを「ChatGPT」「Claude」と比較して検証した。
5月8日に、Xがプレミアムサブスクリプション会員を対象として、生成AIチャットボットのサービス提供を始めた。
![](https://assets.st-note.com/img/1715136214014-WHo78vSZD6.png?width=800)
Xのトレンド入りもしていたので、それなりの注目度もあるようだが、実際のところ、業務で使えるレベルなのだろうか。
少し前にChatGPTとClaudeの比較を行ったが、今回も、全く同様のタスクを投げてみて、どのような違いが生じるかを検証してみよう。
ChatGPTと、Claude3に仕事を与えて、性能比較をしてみたら、長所と短所がはっきりと分かった。
Claude3は、文章出力に強く、文脈を長く保持しておける点に強みがありますが、webを参照したり、計算をさせたりする処理においては、ChatGPTに軍配が上がります。適宜、使い分けていくのがよさそうです。
なお、Grokには「ユーモアモード」と「標準モード」があるが、性能に違いがあるかどうかは不明のため、より特徴的な「ユーモアモード」を選択した。
![](https://assets.st-note.com/img/1715238944205-VUxAa0jkCb.jpg?width=800)
なお前回、ChatGPT(GPT-4)とClaude(Opus)にやらせたタスクは以下のようになっている。
1.記事執筆
ー1.記事の書き方を尋ねる
ー2.記事の構成を作らせる
ー3.章ごとに、記事を逐次出力させる
ー4.記事の評価
2.メールへの返信
3.調べもの
4.会社案内の作成
5.複利計算
では、1から順番にやっていく。
1.記事執筆
1.記事の書き方を尋ねる
![](https://assets.st-note.com/img/1715236697884-KgpcLtULXy.jpg?width=800)
![](https://assets.st-note.com/img/1715239236682-7H6WjLP4hq.jpg?width=800)
念の為、前回出力したChatGPTとClaudeの結果も比較対象として掲載しておく。
![](https://assets.st-note.com/img/1715239399161-KSicgS8GeK.jpg?width=800)
![](https://assets.st-note.com/img/1715239440427-1f6kgqAbpW.jpg?width=800)
ClaudeとChatGPTは構造化した回答だったのに対して、Grokは会話調となる。また、構成に必要な内容自体がGrokでは薄い。(最終パラグラフでは、前項の繰り返しになっている)
わかりやすさや、提案の密度という点ではChatGPTやClaudeに軍配が上がるだろう。
2.記事の構成を作らせる
では、前回ChatGPTとClaudeにやらせたのと全く同様に、Grokの勧めに従って、文章を構成させてみる。
![](https://assets.st-note.com/img/1715240284876-DKeetY2Dv8.jpg?width=800)
以下がGrokによる構成案だ。
![](https://assets.st-note.com/img/1715240407474-TiZcX0LnE6.jpg?width=800)
では、同様にClaudeとChatGPTの出力も比較対象として載せる。
![](https://assets.st-note.com/img/1715240517989-vwlnuL5g7t.jpg?width=800)
![](https://assets.st-note.com/img/1715240582001-hAyCr3U28X.jpg?width=800)
構成案を作らせると、ClaudeとChatGPTは大項目と中項目までを示すが、Grokは大項目を示すのにとどまる。
どうやら、Grokは「階層化」が苦手なのかもしれない。
また構成のすべての文末が「説明しましょう」となっており、構成案というよりもインストラクションに近い。これも「会話調の生成AI」という特徴なのだろうか。
3.章ごとに、記事を逐次出力させる
では、上で作成した構成案にしたがって、導入部から結論まで、逐次出力をさせます。
比較対象のために、例によってClaudeとChatGPTの記事も掲載します。
これは一目瞭然です。Grokは長文では使い物になりません。
例えば導入部だけを取ってみても、黄色くハイライトしたところが繰り返しになってしまっています。
![](https://assets.st-note.com/img/1715241242599-EU8bLT67cr.jpg?width=800)
また、Grokはエラーが多いです。長文を書かせると、動作が止まってしまうことが多々ありました。どうやら、スレッドが長くなりすぎると、エラーを起こしてしまうようです。
![](https://assets.st-note.com/img/1715241953141-v7rgsNn0Pm.jpg?width=800)
4.記事の評価
では、Grokに記事を自己評価させてみましょう。
自己評価は、まず評価基準を作らせたあと、その基準に従って点数付けをやらせます。
![](https://assets.st-note.com/img/1715242567759-AX4yGtiBiP.jpg?width=800)
その結果が以下です。
結論としては全くダメ。10点満点で評価せよ、といったのに46点としています。
![](https://assets.st-note.com/img/1715242636121-C8TtzfwZkx.jpg?width=800)
Claudeにも同じ評価基準で採点をさせたところ、4.4点となった。
![](https://assets.st-note.com/img/1715242835807-OQn199LQWp.jpg?width=800)
ChatGPTでも同様に評価を行うと、7点となる。
![](https://assets.st-note.com/img/1715242969630-aYcbEcWJOP.jpg?width=800)
比べてみていただくとわかるが、Claudeが最も記事を正確に評価していると考えられる。ChatGPTはユーザーに忖度する傾向が強いので、記事を客観的に評価する能力=記事を生成する能力 と考えれば、やはりClaudeに記事を書かせるのは正解だと言える。
2.メールへの返信
ここから先は
![](https://assets.st-note.com/production/uploads/images/21788336/profile_a814a965c70e2a2122d52581bd40660d.jpg?fit=bounds&format=jpeg&quality=85&width=330)
生成AI時代の「ライターとマーケティング」の、実践的教科書
ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…
この記事が気に入ったらサポートをしてみませんか?