最近、Twitterの投稿などで、5/12のバージョンアップ以降、ChatGPTのGPT-4モデルの精度が劣化したとの意見を見ましたので、実際に検証してみました。
以下は、同じプロンプトでGPT-4モデルが出力した文章です。どちらがバージョンアップ前でどちらがバージョンアップ後かわかりますか?
1.論理的推論能力の比較
最初の質問の答えは、前段がバージョンアップ前、後段がバージョンアップ後です。しかし、そう言われても、どちらが精度が高いのかよく分かりません。前段の方が日本語としてのリズムが良いようにも見えますし、後段の方が説明が詳しいようにも見えます。
そこで、まずは、論理的推論能力について、旧バージョンと新バージョンを比較してみます。
(1) 違いの見られないもの
以下の結果は、特に違いが見られませんでしたので、新バージョンのGPT-4の結果だけ紹介します。
(2) 結果が異なるもの
以下は、旧バージョンと新バージョンで異なる結果となったものです。
これだけでは、厳密には分かりませんが、新バージョンになって、算数・数学の問題を解く能力が少し落ちているように見えます。
2.知識の比較
新バージョンと旧バージョンで知識の正確さに大きな差があるとは言えませんが、旧バージョンの方が説明が丁寧だったように思います。
3.表現力の比較
次に、キャラクター設定を試してみます。
哲学的な文章を書かせて、表現力を比較してみました。
【参考】旧バージョンのAPIと新バージョンのAPI
パラメーター設定を同じにした旧バージョンのAPIと新バージョンのAPIを比較しても、かなりの差があることから、やはり、パラメーターの細かい調整などだけではなく、モデル自体に大きな変化があるようです。
文学的表現を重視するなら、あえて旧バージョンのAPIを使用するという方法もあり得ます。
4.まとめ
「5/12のバージョンアップ以降、GPT-4モデルの精度が劣化したというのは本当か?」という問いに対して、あえてイエスと答えます。ただし、クリティカルなものとは言えません。その根拠は以下のとおりです。
算数・数学の問題については、旧バージョンでは正解できていたのに、新バージョンでは解けなくなっている問題があります。算数・数学の問題を解く能力は、以前より落ちているのではないでしょうか。
しかし、それでも、Bardが正解できないコップの中の指輪の問題やエレベーターについての問題を解くことができており、Bardよりは論理的推論能力は高いと言うことができます。
また、最近、ChatGPTがプラグインを導入したことから、算数・数学の問題は、Wolframなどの専用のプラグインに任せればよく、GPT-4自体の算数・数学の能力は、あまり問題ではないという見方もできます。
知識については、特に以前より劣化したという点は見られませんでした。しかし、旧バージョンの方が詳しく丁寧に回答していたように見えます。
表現力については、以前と大きな変化があります。
文学的な表現が減って、以前のような雰囲気のある文章や難解な文章を書けなくなりました。
AIを使って小説などの文学的な文章を書こうとしている筆者にとっては残念なことですが、分かりやすい文章を書くようになったという見方もできます。
味気ない文章になったと批判するか、分かりやすい文章に改善されたと評価するかは、ユーザー次第です。
この変化は、一時期非常に遅くなっていたGPT-4の回答速度が最近、また改善したことと関係があるのでしょうか。もしかしたら、回答速度を維持するために、軽量のモデルに切り替えたのかもしれません。
あるいは、アライメント学習などによって、分かりやすい文章を書くように改善されたというだけなのかもしれません。
この辺りのことは、OpenAIが詳しい状況を開示しないので、正確なところは分かりません。
いずれにせよ、以前はできていたことが、新バージョンになってできなくなったということが起こるかもしれません。しかし、それでも、GPT-4が現在、地球上で最も優秀なAIであるという点は変わりません。