見出し画像

日々の壁打ち:『計量クイズ』をChatGPT 4、Gemini Advanced、Copilotに解かせてみる

ChatGPTで、自分のためにMy GPTsを開発すると、とても面白い体験を味わえる。このnoteは、My GPTsとの付き合い方の記録である。


問題:400mlの水が必要ですが、300mlと500mlの計量カップしかありません。この2つのカップを使って、400mlの水を正確にはかりましょう。

SNSで見かけた『計量クイズ』を3つのAI、ChatGPT 4、Gemini Advanced、Copilotにそれぞれ同じプロンプトを与えて解かせてみよう。
「最近はどのAIも性能があがったので、さほど差は出ないだろう」と思っていたのだが、まだまだ意外と差はあるようだ。
とはいえ、この手のテストは問題によっても返答が違うだろうから、あくまでこの問題については、ということで読んで欲しい。

各AIに与えるプロンプト

始めにだが、この手の『計量クイズ』は「素のままにAIに問題を与えて、解いてみて!」とやってみても、意外と生成AIが正しい答えが出せないジャンルのひとつである。生成AIの背後にあるTransformerの特性で、この手の問題を解く時に必ずしも正しい計算をして答えを出している訳ではないというのがポイントだ。つまりAIは問題の文脈を読んで、それっぽい答えを出しているだけなのである。だから、しばしばトンチンカンな答えを出してしまう。

段階的推論をプロンプトで指示するには?

こういう時には「段階的推論」という方法論をプロンプト上でもとってやると、正答率は高くなる。段階的推論を使わせることで、AI自身が自分が作成する文章の前後のコンテキストの整合性を確認するようになるからだ。
段階的推論」というとなんか難しそうだが、なんということもない。「問題を解く途中過程も一緒に示せ」ということである。もっと簡単にまとめれば、「ステップバイステップで考えてください」と指示すれば十分である。そこで今回AIに与えるプロンプトは以下のようにしてみた。

400mlの水が必要ですが、300mlと500mlの計量カップしかありません。
この2つのカップを使って、400mlの水を正確にはかるための手順を、
ステップバイステップで考えてください。

このプロンプトを全部のAIに与えて比較する。

ChatGPT 4の場合

ChatGPT 4の回答は以下のようなものだった。

答えは正解なのだが、3で余計な容器が出てくる。5を読むとその容器は300mlのカップのつもりだったようなので、ツッコミを入れることにする。

結果1回の手直しで、完璧な回答に至った。ロジック的にも間違っていなかったので、これは悪くない結果だろう。

Gemini Advancedの場合

Gemini Advancedは、つい先日までBertと呼ばれていたチャット型AIのことである。

Gemini Advancedにも同じプロンプトを与えて回答してもらった結果が以下である。

正直、かなり残念な結果だった。ツッコミを入れるにもツッコミどころが満載すぎる上に、変なところで分岐しているので、これまたツッコミしにくい。これに関しては、「ブラウザをそっと閉じ」しかなさそうである。

Copilotの場合

ついでにMicrosoft版のGPT 4を積んでいるCopilotにも同じプロンプトを与えてみた。結果は以下である。

黄色のアウトライン部分が明らかに間違っている。とはいえ、この程度なら修正させるのもそれほど大変そうではなさそうだ。何故なら、黄色のアウトラインのすぐ下に正解がでているので、ロジック的には間違ってないためだ。簡単な指摘で自分の間違いを撤回するだろうし。

返答としては、Copilotのものは参考にしたリンク先なども提供しているので悪くない。人の側で回答を鵜呑みにせず、関連するリンクも読めば、有用な使い方ができることだろう。無料で提供されている機能としては優秀だと言える。

推察:ChatGPT 4とCopilotの違いはどこにあるのだろうか?

上にも書いたが、現時点ではCopilotも同じGPT 4を積んでいるのに、微妙な差が出ている。レスポンスも含めて、ChatGPT 4のほうが優秀に感じるのは、もしかしたらカスタム指示の有無なのかもしれない。

個人情報も含まれるので、ぼかしをかけてある。

自分の使っているChatGPTには、上のカスタム指示をしっかりと書いてある。ちなみにこれもChatGPTに書いてもらったものだ。その経緯はこちらにあるので、興味ある方は試してみて欲しい。

この記事が参加している募集

#AIとやってみた

27,502件

この記事が気に入ったらサポートをしてみませんか?