
OpenAI o1 pro modeで東大入試数学の問題を連続正答した
日本時間 12/5 AM 3:00、OpenAIはChatGPT ProとOpenAI o1 pro modeをリリースした。ChatGPT Proは月額$200 (約3万円)で通常利用ができる。詳しくは下記をご参照あれ。
https://openai.com/index/introducing-chatgpt-pro/
以前o1シリーズがリリースされた際に解かせた問題と同じ問題を、新しいo1 pro modeで解かせてみる。ちなみにgpt-4, gpt-4oなどが出たときも解かせていたが、当時は惨敗だった。
解かせる問題 2010 東京大学 理系 数学5
前回と同じ問題である。
プロンプトは余計な文章は入れずに問題文だけです。
カスタムインストラクションは無しで実行している。
Cを半径1の円周と,AをC上の1点とする.3点P,Q,RがAを時刻t=0に出発し,C上を各々一定の速さで,P,Qは反時計回りに,Rは時計回りに,時刻t=2πまで動く.P,Q,Rの速さは,それぞれm,1,2であるとする.(したがって,QはCをちょうど一周する)ただしmは1≦m≦10を満たす整数である.△PQRがPRを斜辺とする直角二等辺三角形となるような速さmと時刻tの組を全て求めよ.
正解は下記の通り。

m=4のとき:t = π/6, π/2, 5π/6, 7π/6, 3π/2, 11π/6
m=8のとき:t = π/2, 3π/2
「4/4 の信頼性」で検証
今回の発表で提示されたのは「4/4 の信頼性」という指標だった。簡単に説明すると、4回の試行のうち4回とも正答すればOK, 1回でも失敗すればNGという指標である。Competition Math (AIME 2024)の検証でo1 pro modeは86%の正答率を誇っている。今回はこれに倣って同様のテストを行う。

o1 プロ モードの主な強み (信頼性の向上) を強調するために、より厳格な評価設定を使用します。モデルは、1 回だけではなく、 4 回の試行のうち 4 回で正解した場合にのみ(「4/4 の信頼性」)、問題を解決したと見なされます。
o1 pro modeにゼロショットで解かせてみる
1回目
今までは一発で解けたことは無かったが、果たして…?

解けた!!
初めて一発で解けた。。。
これはすごいことだ。。。
2回目
LLMにはたまたま解けるということもあるわけで、OpenAIも意識して厳しいチェックをするようになった。
2回目の挑戦は…?

2回目も正解!!
マジか。。。
ついにこの時が来たか。。。
3回目
LLMに難問出して3回連続正答ってなかなかないぞ?

素晴らしい!!!
なんということでしょう!!
4回目
さて、ラスト!

なんと……!
NG!!
新o1にも解かせてみた
o1 pro modeでは3/4で正解だったが、果たして新o1は?

残念!!
数回試しましたが、私が試したときは下記の回答が多かったです。

友人と朝方から東大問題を解きあってましたが、友人は何度か上手くいってたようです。
まとめ
今回の結果は連続正答はできたものの、4回中3回成功の1回失敗ということでした。残念ながら「4/4 の信頼性」の指標では失敗に終わり、86%の成功側ではなく14%の失敗側で着地をしました。
しかし、私にとっては4回やって3回正答することはできず、お金を払えば東大入試問題を解けるようになったということである。
私にとっては3万円は安いと言えるし、逆に今までより3万円高い売上を出さないといけないという課題ができたとも言える。現時点ではわからないが、この課題はo1 pro modeなどが解決に導いてくれるのではないかと考えている。