見出し画像

Claude3.5 sonnetの性能を、他のLLMと同じタスクをを与えて厳密に検証。

日進月歩のLLMだが、つい先日発表された、Claude3.5 sonnetの性能を検証した。
長文に強いという話だが、本当だろうか。

例によって、実力を検証する方法については、以下の記事に示したものと同様の方法で行った。

【性能比較シリーズ】
1.ChatGPTと、Claude3に仕事を与えて、性能比較をしてみたら、長所と短所がはっきりと分かった。

2.X(Twitter)の生成AI「Grok」の実力はどれほどかを「ChatGPT」「Claude」と比較して検証した。

3.処理速度が速いのは良いけど、GPT-4oは決してGTP-4よりも優れているわけではない。

4.【24/6/8最新】Googleの最新生成AIである、Gemini1.5Proの性能を検証する。本当にGPT-4o、Claude3-opusを凌ぐ性能なのか?

具体的な検証方法は、以下となる。

1.記事執筆
 ー1.記事の書き方を尋ねる
 ー2.記事の構成を作らせる
 ー3.章ごとに、記事を逐次出力させる
 ー4.記事の評価
2.メールへの返信
3.調べもの
4.会社案内の作成
5.複利計算

議事録や数学的な推論、画像解析についても調べたが、結論としては、Claude3.5すげえ!とか言っているやつは、信用しちゃいけない。ということだ。


1.記事執筆

まず記事の執筆。検証に利用したプロンプトと、実際の出力は以下。

結論としては、「確かに長文を出力するが、細切れの箇条書きが多く、品質はいまいち」という評価になる。

Claude3.5 sonnetの長文性能が高い、と言っている人はおそらく実際に長文のクオリティを精査していないと思う。

なお、Claude3.5 sonnetによる、LLMごとの文章の評価は、以下となる。
いずれも、同テーマ、同様のプロンプトで出力をさせている。

最も評価が高いのはClaude3 opusという、一つ前のバージョンのClaudeによる記事である。

GPT-4 → 総合評価: 8/10

Claude3 opus → 総合評価: 8.6/10

GTP-4o → 総合評価: 8.4/10

Grok → 総合評価: 6/10

Gemini1.5pro → 総合評価: 8.2/10

Claude3.5 sonnet → 総合評価: 8.2/10

これは、私が自分の目で見て評価した結果とほぼ同じで、Claude3.5 sonnetは、Claude3 opusに比べて、一文の長さで劣る。ちょうどGTP-4と、GPT-4oの関係と同じように。

2.メールへの返信

以下のリンクが出力結果となるが、結論としては、そのままでは「使えない」。メールへの返信としては、GPT-4に書かせたものと、そっくりな文章が出てくる。

前の検証結果と合わせると、

Gemini1.5pro=GPT-4o >> Claude3 >> Claude3.5 sonnet = GPT-4

となり、残念ながら、前のバージョンのClaude3にも劣る。

3.調べもの

結論としてはこれも駄目。webへの接続機能については、Claude3とさほど変化がない。

現時点では、Gemini1.5pro一択 という結果に変化はない。

4.会社案内の作成

これも駄目。

どのLLMも苦手とするタスクなので、何かをまとめさせるようなタスクは、今は大人しく、GPT-4oを使っておくのが正しい。

5.複利計算

これもデタラメを吐く。

ファイルを読み込ませての計算は、あえていうとGPT-4がまだマシなので、そっちを使ったほうがいい。


6.Claude3.5 sonnetは何に使えばいいの?

長文に強いとかいう話は、「文章は長けりゃいい」と思っている人のデマだと思うが、ではClaude3.5は何に使うのが良いのか?

ここから先は

1,755字 / 9画像
インターネット上における 「生成AIの利活用」 「ライティング」 「webマーケティング」のためのノウハウを発信します。 詳細かつテクニカルな話が多いので、一般の方向けではありません。

ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…

この記事が気に入ったらサポートをしてみませんか?