OpenAI o1が推論に強いので囚人のジレンマをやらせてみました。
お題
上記のお題を、「o1-mini」、「o1-preview」、「GPT-4o」で回答を生成。
※参考:ベンチマークテストの結果。「o1-mini」は推論に強く、「o1-preview」は万能という感じ。
どのような回答になったかは、以下のURLからどうぞ。
o1-mini:(URL)
o1-preview:(URL)
GPT-4o:(URL)
この結果を見せられても、「で、どうなの?」だと思うので、
それぞれの回答にはどのような特徴があるのか、3つを比較して実際に使えるのはどの回答かをClaudeで比較してみました。
結果がこちら。
個人的には取るべき戦略をはっきり言ってくれる「o1-preview」の回答が好きですが、いろんな角度から見るのがよさそうですねー。今回はポン出しなので、実際に使う際はもっと質問してみると、より深い回答が得られる気がします。
というのと、こういう戦略にも使えるのでやっぱり便利ですね。o1もまだpreviewなので正式版にも期待です。