今年(2023年)1月30日にChatGPTがアップグレードされて、数学的能力などが向上したというので、どのくらい向上したのかテストしてみました。
1.計算問題
桁数が大きい計算は苦手で、計算ミスもかなり多いようです。また、難しい公式を知っていますが、公式を正確に運用する能力に欠けているようです。まだ数学的能力が高いとは言えないようです。
しかし、ChatGPTのような汎用的な言語モデルに高い数学的能力が本当に必要なのかは疑問です。正確に推論する能力さえあれば、必要な時に計算プログラムを呼び出せばよいだけのように思います。
2.文章問題
算数・数学の文章問題に正解するためには、数学的能力と合わせて、文章の意味を正確に理解する能力が重要です。
(1) 基本的な文章問題
ここまでの文章問題は、前回1月22日に「Perplexity AskとChatGPTの性能を比較してみた」の記事でChatGPTに質問したときに既に正解しているので、今回のアップグレードで初めて解けるようになったものではありません。
今回、ChatGPTには、さらに難しい文章問題にも挑戦してもらおうと思います。
(2) 難しい文章問題
現在のChatGPTは、数学的な知識はあっても計算力が弱いので、少し計算が複雑になると正解を出すことができません。
大学入試の問題も解かせようと思っていましたが、教科書の基本問題レベルでつまずいていますので、まだ無理なようです。
一つの言語モデルだけで全部やろうとせずに、Wolfram Alphaのような数学専門のプログラムを呼び出して使えるようにした方がよいように思いますが、どうでしょうか。
3.事実性の向上に関するテスト
今回のアップグレードでは、事実性(事実に基づいて正しく回答すること)についても向上したというので、その点についてもテストしてみました。
以下は、前回、Perplexity Askとの性能比較の際に尋ねたのと同じ質問で、前回の回答と比較してみました。
これだけでは、事実性が向上しているか分からないので、新しい質問を投げかけてみます。
これ以外にも色々と質問してみましたが、細かい事実関係の誤りはあるものの、明らかに嘘の作り話というものは、あまり見つかりませんでした。はっきり確認はできませんでしたが、事実性も改善されているのでしょうか。