3月11日に思い切ってChatGPT-3.5からGPT-4にバージョンアップさせました。無料版との違いが気になったのもありますが、Claude3と性能の比較もしてみたかったのも理由のひとつです。
今回はClaude3が間違えた京都大学の数学入試を解かせて比較してみます。Claude3版は以下から見ることができます。
前置きはこれくらいにしてGPT-4に問題を解いてもらいましょう。
You
a^3-b^3=65を満たす整数の組(a,b)をすべて求めよ。
正解ではあるのですが手順はまったく記されておらず、しかもまさかの英語、これはあまりに短すぎます。
You
解く手順も加えて日本語で記述してください
具体的で簡潔にまとめられています。ただ、しらみつぶしというのは実際の試験ではあまり評価されないと思います。ついでにChatGPT-3.5にも出題してみましょう。
You
a^3-b^3=65を満たす整数の組(a,b)をすべて求めよ。
惜しいところまでいっとるやないか! しかもさっきより具体的。Claude3の解答も比較すると、GPT-4>GPT‐3.5>Claude3ですかね。個人的にはGPT‐3.5が解答としては一番評価できるのですが、不正解なのでGPT-4を一番上にしました。
Claude3も有料版にアップグレードすれば多少結果は変わるでしょうが、それは次の機会にしましょう。