こんにちは、米田 @ 富士通でマーケティング変革実行中です。前回の記事ではマーケティングでChatGPTが使えることを解説しました。今回の記事では、ヒトが日常的に遭遇して解いている色々な種類の "問題" について、ChatGPTがどれくらい回答できるのかについて試してみました。
(以下の文章では、👤に続く文はヒトによる入力、🔯に続く文はChatGPTによる回答を表します。)
前回の記事:
計算問題
コンピュータが最も得意としてヒトよりも高い能力を発揮するのが計算問題です。手始めに計算問題でChatGPTの力試しを始めてみましょう。
簡単な掛け算😄
これはきちんと正解しましたね。
次に、せっかくなのでこのように回答した根拠も逐一聞いていくことにしましょう。回答の「根拠」を示すことは、AIの回答が信頼されるために必要なことだからです。
掛け算について、そのロジックを丁寧に説明してくれました。ちなみに、ChatGPTでは分数や小数の四則演算もやってくれます。
桁数の多い掛け算😵
それでは、念のため、桁数が多い数字同士の掛け算をやっておきましょう。
一見、それっぽい答えが返ってきました。念のため、手元の計算機で検算します。すると、324567 x 5783472 = 1,877,124,156,624ということが分かり、ChatGPTの回答と微妙に違うではないですか!そこで、ChatGPTに計算の根拠を問い詰めてみました。
どうやら筆算のやり方の解説になっているようです。1, 2までは良いのですが、3の「次の桁である2と72を乗算し、144を得ます。」の72ってどこから来ているのでしょう?筆算の説明としてはそれっぽいのですが、数字はでたらめです。なんだか、小学校の子供の宿題を見ている気持ちになってきました😵😵😵
これは、ChatGPTは数字の計算を実際にしているわけではなく、別の統計的なロジック (つまりインターネット上の集合知的な手法) で文字を出してきているためだと思われ、3x2=6程度ならネットにも正解が落ちているかもしれませんが、桁が大きくなるとその精度がくるってしまうようです…これだと計算問題でも100%信用するわけにはいかなくなってしまいますね。
ちなみに、やり方を指定してもう一度計算してもらったのですが、やっぱり間違っていました…
つるかめ算 (連立一次方程式) 😄
次は中学受験で出てくる、いわゆる「つるかめ算」の問題をChatGPTに解かせてみましょう。
解法に連立方程式を使ってきました。まあ、つるかめ算で解いてくれとは頼んでないですが…なんと正解です。しかも、連立方程式を解いていく過程も正しく再現されています。ChatGPTは方程式も解けることが分かりました。(ただし数字の桁数が大きくなると計算間違いをすることは前の節で紹介済み)
3元連立一次方程式 (行列方程式)😵
それでは、もう少し複雑な連立方程式、変数が3つある場合はどうでしょうか。
すると、なんとChatGPTは行列方程式を持ち出して、逆行列を使って解こうとしています。解法の各ステップまで書くと長くなるので省略しますが、
うーん、なんとなくそれっぽい解法と答えなのですが、残念ながら間違っています…正しくは x=8/3、y=3、z=-16/3です。
*
以上、まとめると、計算問題は簡単なものなら正解をしてきますが、ちょっと複雑になってくると、解法は合っているのですが答えが違う、という現象が起こります。正解できる問題と不正解になる問題の境界がはっきりしないので、100%手放しでChatGPTに計算問題を任せるわけにはいかない、という結論になります。
変換問題
変換問題でよくあるのは、和暦・西暦、曜日、単位などでしょう。色々やってみましょう。
和暦・西暦😅
正解です。
これも正解です。
ただし、実際には存在していなかった期間を指定すると間違えてしまうようです。これは多めに見てあげますか…
正しくは、2038年です。
曜日😄
正解です。
単位😄
正解です。変換問題はChatGPTにとってお手の物ですね。ネット上にこの手の情報は多く落ちています。
推定問題😅
最後に推定問題にチャレンジしてみましょう。「フェルミ推定」と呼ばれるこの手の問題は、一時期外資系企業の面接でも出題されると話題になったものです。
ChatGPTもあいまいな回答はしたくないようですね。正論を振りかざして分からないと主張してきます。そこで、「フェルミ推定」でいいよ、と指示してみます。すると、フェルミ推定に従って仮説を立ててくれます。ただし、最後の数字の答えは回答したくないようです。
そこで、推定した数字を使って計算してくれるように詰め寄ってみます。
やはり頑固に取り合ってくれません。そこで、ChatGPTが推定してくれた各数字を復唱して計算してもらうことにしました。
すると、素直に計算してくれるようになります。ちなみに、計算結果も検算しましたが合っています。(人間側が数字の責任を取るとAIも安心するのでしょうか。なんだか人間ぽいですね😄😄)
*
いかがでしたでしょうか。ChatGPTの回答力の強いところ、弱いところが見えてきましたね。ちなみに、GPT-3.5ベースでもGPT-4ベースでも計算問題の回答精度は変わらないようです。
ただし、回答が正しいかどうかは、常に最終的にヒトによるチェックが必要であることをお忘れなく!改めてChatGPTの得意分野、不得意分野を掲載しておきます。
最後までお読みいただきありがとうございました!それでは、また。
関連記事: