X(Twitter)の生成AI「Grok」の実力はどれほどかを「ChatGPT」「Claude」と比較して検証した。
5月8日に、Xがプレミアムサブスクリプション会員を対象として、生成AIチャットボットのサービス提供を始めた。
Xのトレンド入りもしていたので、それなりの注目度もあるようだが、実際のところ、業務で使えるレベルなのだろうか。
少し前にChatGPTとClaudeの比較を行ったが、今回も、全く同様のタスクを投げてみて、どのような違いが生じるかを検証してみよう。
なお、Grokには「ユーモアモード」と「標準モード」があるが、性能に違いがあるかどうかは不明のため、より特徴的な「ユーモアモード」を選択した。
なお前回、ChatGPT(GPT-4)とClaude(Opus)にやらせたタスクは以下のようになっている。
1.記事執筆
ー1.記事の書き方を尋ねる
ー2.記事の構成を作らせる
ー3.章ごとに、記事を逐次出力させる
ー4.記事の評価
2.メールへの返信
3.調べもの
4.会社案内の作成
5.複利計算
では、1から順番にやっていく。
1.記事執筆
1.記事の書き方を尋ねる
念の為、前回出力したChatGPTとClaudeの結果も比較対象として掲載しておく。
ClaudeとChatGPTは構造化した回答だったのに対して、Grokは会話調となる。また、構成に必要な内容自体がGrokでは薄い。(最終パラグラフでは、前項の繰り返しになっている)
わかりやすさや、提案の密度という点ではChatGPTやClaudeに軍配が上がるだろう。
2.記事の構成を作らせる
では、前回ChatGPTとClaudeにやらせたのと全く同様に、Grokの勧めに従って、文章を構成させてみる。
以下がGrokによる構成案だ。
では、同様にClaudeとChatGPTの出力も比較対象として載せる。
構成案を作らせると、ClaudeとChatGPTは大項目と中項目までを示すが、Grokは大項目を示すのにとどまる。
どうやら、Grokは「階層化」が苦手なのかもしれない。
また構成のすべての文末が「説明しましょう」となっており、構成案というよりもインストラクションに近い。これも「会話調の生成AI」という特徴なのだろうか。
3.章ごとに、記事を逐次出力させる
では、上で作成した構成案にしたがって、導入部から結論まで、逐次出力をさせます。
比較対象のために、例によってClaudeとChatGPTの記事も掲載します。
これは一目瞭然です。Grokは長文では使い物になりません。
例えば導入部だけを取ってみても、黄色くハイライトしたところが繰り返しになってしまっています。
また、Grokはエラーが多いです。長文を書かせると、動作が止まってしまうことが多々ありました。どうやら、スレッドが長くなりすぎると、エラーを起こしてしまうようです。
4.記事の評価
では、Grokに記事を自己評価させてみましょう。
自己評価は、まず評価基準を作らせたあと、その基準に従って点数付けをやらせます。
その結果が以下です。
結論としては全くダメ。10点満点で評価せよ、といったのに46点としています。
Claudeにも同じ評価基準で採点をさせたところ、4.4点となった。
ChatGPTでも同様に評価を行うと、7点となる。
比べてみていただくとわかるが、Claudeが最も記事を正確に評価していると考えられる。ChatGPTはユーザーに忖度する傾向が強いので、記事を客観的に評価する能力=記事を生成する能力 と考えれば、やはりClaudeに記事を書かせるのは正解だと言える。
2.メールへの返信
ここから先は
生成AI時代の「ライターとマーケティング」の、実践的教科書
ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…
この記事が気に入ったらチップで応援してみませんか?