日々の壁打ち：『計量クイズ』を3つのAIに解かせ、ついでに検算をさせてみたところ、予想以上の差が出てしまった…

2024年2月13日 16:33

ChatGPTで、自分のためにMy GPTsを開発すると、とても面白い体験を味わえる。このnoteは、My GPTsとの付き合い方の記録である。

「問題：400mlの水が必要ですが、300mlと500mlの計量カップしかありません。この2つのカップを使って、400mlの水を正確にはかりましょう。」の回答を同時に検算させてみよう

前回、ChatGPT 4、Gemini Advanced、Copilotの3つのAIに、計量クイズを解かせてみて、その結果をnoteでまとめた。
今回は、その続きで同じ問題を段階的推論で解かせつつ、同時に数式を立てさせて検算をさせてみた。
その結果を報告しよう。予想外に差が出たのが驚きだ。

各AIに与えるプロンプト

今回各AIに与えたプロンプトは以下のようなものだ。

400mlの水が必要ですが、300mlと500mlの計量カップしかありません。
この2つのカップを使って、400mlの水を正確にはかるための手順を考えてください。
手順ごとに数式を立てて、手順の説明とその時の各カップの水の量を数値で確認し、
検算するようにしてください。

それでは早速みていこう。

ChatGPT 4の場合

ChatGPT 4の回答は以下のようなものだった。不正をさせないためにも、前回のログは消去してある。

文句なしのパーフェクト回答である。しかも数式付きなので、確認する人の側にもわかりやすい。

Gemini Advancedの場合

Gemini Advancedにも同じプロンプトを与えて回答してもらった結果が以下である。

この回答を読んで逆に理解できたが、Gemini Advancedはこの問題がクイズであることを理解できていない。しかも計量カップには当然メモリがあるんだから、それをつかえと言ってきている。
だったら、最初から500mlの計量カップでいきなり400mlの水を測るのも十分な正解になるはずなんだが…。

ある意味、Gemini Advancedのパーソナリティがよくわかる回答だったと思う。つまり、「Gemini Advancedは相手の小股をすくうのが大好きな、ちゃっかり屋さん」だということだ。

Copilotの場合

ではCopilotの場合はどうだっただろうか？　以下が得た回答である。

途中までは悪くなかったのだが、黄色のマーカーを引いた辺りで怪しくなり始めた。「あれれ？なんか変だな…？」と思ってみていたら、急に長々とウンチクを垂れ流し始め、あげくの果ては、ガタガタガタガタッ…！みたいな感じに明らかにヤバい雰囲気を示し始めたので、途中で生成を打ち切った次第である。ぶっちゃけ、怖かった…。

今回の結論

現状において、複雑な推論も伴うタスクを処理できるのは、どうやらChatGPT 4だけのようである。それもカリカリにカスタマイズしておいたほうが良いということのようだ。

もちろんこの結果は、あるプロンプトに対する反応のひとつに過ぎないので、どのAIが優れているという話には直接繋がらないとは思う。

だがこういう実験を積み重ねていった結果として個人的に得たものは、ある程度本気の分析をAIにやらせる場合には、自分ならChatGPT Plusで利用できるChatGPT 4を選ぶということだ。

この記事が参加している募集

#AIとやってみた

27,502件

この記事が気に入ったらサポートをしてみませんか？