OpenAI o1の驚異的なパフォーマンス - コーディング、数学、物理学を圧倒（テスト済み）

2024年9月14日 07:08

10,016 文字

ほな、OpenAI o1について、すごい主張があるんです。理論的思考、博士レベルの科学的質問、コーディング、数学などが今までよりもずっと優れてるって言うんですわ。
わたしが初めに試してみた感じでは、確かにそのとおりみたいです。今まで見たどのAIよりもずっと優秀みたいですわ。
せやけど、本当にどれだけすごいか見るために、めっちゃ難しい質問をぶつけてみましょか。
まず一番に、ゲームを作れるかどうか試してみます。クロードのすごいとこは、ゲームのコードを書くだけやなくて、それを改良したり、新しい機能を追加したりできるとこなんです。しかも、全部うまくいくんですわ。
ほな、o1でも同じことができるか見てみましょ。
「スネークゲームを作ってください。スネークが食べる果物は、ダンジョンズ＆ドラゴンズのキャラクターにしてください。スネークがキャラクターを食べるたびに10ユニット成長します。これで、もっと早くトラブルシューティングできるようになりますわ」
ほな、o1の考え方を見てみましょか。
まず、何を頼まれたかをまとめて、どんなPythonのライブラリが必要か、どんな機能が必要かを考えてます。動きの管理、衝突の検出、スネークの長さを増やすことなんかですね。ここまではええ感じです。
キャンバスの設定もええ感じやし、ほな、コードを見てみましょか。
おお、なかなかええ感じですわ。テキストでキャラクターを表現してますね。クレリック、ドルイド、パラディンとか。おもろいですわ。
あれ？ええ奴らを食べてるみたいですね。パラディンとか食べてる。ゴブリンとかドラゴンかと思ったけど、これもおもろいですわ。「ダンジョンキーパー2」みたいな感じですね。
ほな、見てみましょか。ええ感じです。食べるたびに10ユニット成長して、うまく繰り返してます。自分の体に当たったらゲームオーバーになるのもええ感じです。
ここからが面白いんです。このコードに新しい機能を追加できるかどうかが重要なんです。たくさんの新しい機能を追加して、元の機能を壊さずにできるかどうか見てみましょ。
「ええ感じやったわ。ほな、パラディンみたいなキャラクターをゴブリンやドラゴンみたいなモンスターに変えてみてください。それから、スコアも追加してください。食べたキャラクターごとに点数が違うようにして、キャラクターの強さに応じた点数にしてください。ドラゴンはゴブリンよりずっと高得点になるようにしてください。
それから、空から物が落ちてくるようにしてください。落ちてきた物がスネークに当たったら、その部分から頭までの部分が切り離されるようにしてください」
これ、他のモデルやとうまくいかへんことがあるんです。言い方を工夫せなアカンこともあるし、どう言っても無理なモデルもあります。
でも、クロードはめっちゃうまくやってくれたんです。すごく印象的でした。
これ、めっちゃ複雑な指示やと思いませんか？簡単な指示やなくて、一番難しいのをぶつけてるんです。ほな、o1がどうするか見てみましょ。
ゲームの変更について考えてます。今あるものに新しいものを追加していくんやなって分かってるみたいです。
モンスターを食べた記録を取るのが大事やって気づいてるのがええですね。
単に言われたことをするだけやなくて、なぜそうするのかも考えてるみたいです。これ、すごく大事なことなんです。
スコアを表示することで、モンスターを食べた記録が取れて、ゲームの開発が進むって言ってます。ちょっとしたことに思えるかもしれませんが、こういう細かいところがどんどん賢くなっていくんです。
言われたことをそのままするんやなくて、本当に何が欲しいのかを理解しようとしてるんです。スコアを追加するのは、単にスコアを表示するためやないんです。ゲームにもっと夢中になってもらうため、もっと楽しんでもらうためなんです。ドーパミンのフィードバック機能みたいなもんですね。
落ちてくる物についてもよく考えてます。ここで多くのモデルが完全に失敗するんです。もしこれが一発でできたら、すごいことですわ。
ほな、見てみましょ。
おお、トロールがおるな、ええ感じや。空から物が落ちてくるのも見えますね。
ほな、落ちてきた物とぶつかったときに何が起こるか見てみましょ。
おお、なるほど。まず言っておきますが、すごくええ感じです。ほぼ求めてたものができてます。ちゃんと動くものができてるのがすごいです。
スコアシステムも動いてるし、オークやモンスターもおるし、ええ感じです。
ひとつだけ文句を言うとしたら、落ちてくる物がスネークにぶつかったとき、スネークをふたつに切り離すんやなくて、ぶつかったところからスネークがリセットされてしまうことですね。
でも、本当にええ出来やと思います。高評価ですわ。すばらしい仕事をしてくれました。
ほな、もうちょっと意図したとおりになるようにしてもらいましょか。
「すばらしいです。ひとつだけ変更してほしいんですが、落ちてくる物がスネークに当たったとき、そこでスネークが切れるようにしてください。スネークの前の部分はそのまま動き続けて、後ろの部分は切れて消えるようにしてください」
注目してほしいのは、エラーやバグが一切出てへんことです。毎回コードがちゃんと動いてるんです。これ、すごいことですわ。
「はい、落ちてくる物がスネークに当たったら、当たったところから後ろの部分が切れて、頭の部分はそのまま動き続けるようにします」
ほな、コードができたみたいなので、見てみましょ。
今のところ、すべてが完璧です。リッチ、リッチキングとか出てきましたね。
ほな、落ちてくる物とぶつかってみましょか。
おお、これは...まさに完璧です。信じられへんくらいすごい。
この時点で、クロードのコーディング能力を間違いなく超えてると思います。めっちゃ印象的ですわ。すばらしい。美しいです。
落ちてくる物に正面からぶつかったらどうなるか見てみましょ。
完璧にできてます。すべてが完璧です。文句なしです。100点満点で10点です。またコードを書いてもらいたいですわ。
次は、基本的な推論問題で試してみましょ。また、簡単なのは飛ばして、難しいのをやってみます。大規模言語モデルが苦手なやつですね。
ほな、これは昔からある問題で、いろんなテストで形を変えて出てくるやつです。
「ボブはリビングにいます。キッチンに行って、カップを持ちます。カップにボールを入れて、寝室に持っていきます。カップをひっくり返して、庭に行きます。庭にカップを置いて、ガレージに行きます。ボールはどこにありますか？」
分かりますか？追いつけましたか？ボールはどこにあるでしょう？これ、トリッククエスチョンなんです。カップをひっくり返したとき、ボールはどうなりますか？
o1は、カップは寝室にあると考えてます。ええ感じですね。
キッチンでボブはカップにボールを入れて、そのカップを寝室に持っていきました。寝室でカップをひっくり返します。特に何も言われてへんので、このときボールはカップから出て寝室の床に落ちたはずです。
それから庭に行きますが、ボールは置いていったままです。カップをひっくり返したのは寝室やったので、ボールはそこに残ってるはずです。
正直、ゾクッとしましたわ。この1、2年、いろんなモデルをテストしてきましたけど, みんな同じところでつまずくんです。時々できることもありますが、ほとんど当てずっぽうみたいなもんでした。
でも、これは初めてです。ちゃんと推論できてるモデルは見たことがありません。これは本当にびっくりするくらいすごいです。
もう一回やってみましょ。
「メイベルの心拍数は朝9時に75回/分で、血圧は夜7時に120/80でした。メイベルは夜11時に亡くなりました。正午にはまだ生きていましたか？」
4秒考えて、こう答えました。
「はい、メイベルは正午にはまだ生きていました。朝9時と夜7時の状態を見て、その間の時間を考えると、正午にはまだ生きていたと結論づけられます」
次の問題です。「5つの正方形のブロックが積み重なっています。次の情報が与えられています：上から2番目のブロックは緑色です。上から4番目のブロックは緑色ではありません。この2つの前提が正しいとして、次の結論を証明するか反証してください：緑色のブロックの真下に緑色でないブロックがあります。説明してください」
15秒考えて、こう答えました。
まず与えられた情報を整理し、アプローチを考えます。1から5のブロックを頭の中で並べて、正しい答えを導き出します。
結論として、緑色のブロックの真下に緑色でないブロックがあるというのは必然的に真です。この結論は証明されました。なぜなら、与えられた前提を満たすどんな並べ方をしても、この結論は成り立つからです。
次は「殺人か自殺か」という問題です。モデルにはこの名前は言いません。ヒントになっちゃいますからね。
基本的に、ドレッドB邸に住む誰かがアガサおばさんを殺したという設定です。そして、いくつかの前提が与えられます。
「ドレッドB邸に住んでいるのは、アガサおばさん、執事、チャールズだけです。チャールズは帽子が嫌いです。アガサおばさんが嫌いな人は誰もいません。執事は、アガサおばさんより裕福でない人全員が嫌いです。アガサおばさんは執事ではありません。誰も全員のことを嫌いではありません」
これらの前提を全部考えると、唯一可能な結論は、アガサおばさんが自殺したということなんです。
37秒考えて、こう答えました。面白いのは、行ったり来たりしてるところです。
「アガサおばさんは自分のことが嫌いで自殺したかもしれませんが、それはまだ推測の段階です。アガサおばさんが自分を嫌っていないという点から、彼女が殺人者ではないと考えられます」
でも、一行ずつ検討していくうちに、最初の考えを見直しています。
「嫌いという除外条件について考えています。この論理的な文脈では、自分自身を除外できるかもしれないと考えています。アガサおばさんはチャールズだけを嫌っていて、自分のことは嫌っていないということが分かります」
「嫌悪関係を整理しています」って、面白い言い方ですね。
最後にこう言っています。「手がかりをつなぎ合わせています。アガサおばさんの自分自身とチャールズに対する敵意を検討しています。殺人者は被害者より裕福ではないはずです。これは彼女の自己嫌悪とチャールズへの軽蔑と一致します。これは彼女が殺人者であることを示唆しています」
「アガサおばさんは自殺しました」これが見えない考え方の部分で、答えは最初の行に書かれています。可能性のある容疑者を挙げて、前提条件をリストアップしています。もし間違いがあったら、どこで間違えたのかすぐに分かるようになってます。
証明を示した後、結論をこう述べています。「したがって、アガサおばさんは自殺しました」
そして、ちょっと変な言い方ですけど、「アガサおばさんは自分自身の殺人者です」とも言っています。
ほんまに、こんな答え方するモデルは初めて見ましたわ。
次の問題です。「テーブルの上に7枚のカードがあります。それぞれのカードの片面に数字が、もう片面に単色のパッチがあります。カードの表面には、50、6、16、赤、黄、23、緑、30と書かれています。『カードの数字が4の倍数なら、反対側の色は黄色である』という命題が真かどうかを確かめるには、どのカードをめくる必要がありますか？」
残念ながら...いや、幸運なことに、o1はすぐにこれがワソン選択課題だと理解しました。
テストすべき条件は「もしPならばQ」で、Pは「カードが4の倍数を示している」、Qは「反対側が黄色である」ということです。
これはかなり難しい問題です。実際、GroqのAIシステムをテストしているときに、わたし自身もこれを間違えてしまいました。
この問題は特に私たちの偏見を利用しているんです。私たちは自分が正しいことを確認したがるんですが、本当は命題が間違っている状況を見つけることが大事なんです。
o1の説明がすばらしいので、ちょっと紹介させてもらいます。
「唯一この命題が偽になるのは、Pが真でQが偽の場合です。つまり、カードが4の倍数を示していて、反対側が黄色ではない場合です」
めくるべきカードを決めるステップはこうです：
16は4の倍数なので、反対側が黄色かどうか確認する必要があります。もしPならばQですから、16（4の倍数）なら、Qも真でなければなりません。つまり、反対側は黄色でなければいけません。もしそうでなければ、この命題は反証されます。
黄色以外の色を示すカードをめくって、反対側が4の倍数かどうか確認します。例えば、赤や緑のカードをめくって、もし4や4の倍数が書かれていたら、この命題は偽になります。
4の倍数ではない数字を示すカードと、黄色を示すカードは無視します。
ここで多くの人が間違えるんです。わたしも含めてね。
答えは、16と赤と緑のカードをめくることです。
ここからは、多くの大規模言語モデルが本当に苦手としてきた問題です。いろんな理由で全部失敗してきました。しかも、派手に失敗するんです。それぞれ違う方法で。
もしo1がこれをできたら、本当に別格ということになりますわ。
多肢選択問題を作ってもらいます。4つの選択肢があって、それぞれの選択肢は有名な格言やことわざです。「一石二鳥」とか「遅くても良いことはない」とか、みんな聞いたことあるやつですね。
問題文は、そのことわざを表す話です。この問題の答えは「好奇心は猫を殺す」です。
今までのモデルは、これを何かしらの形で全部失敗してきました。ほな、o1ではどうなるか見てみましょ。
o1は問題の枠組みを理解し、何が問題なのかを理解しています。他の選択肢も考えています。「用心に越したことはない」とか「一針節約すれば九針無駄になる」とか。これはええ感じです。正解と似ていて紛らわしい可能性があるからです。本当に理解していないと区別できません。
問題はこうです：「トムは何度も警告されたにもかかわらず、同僚の機密ファイルを覗き見たくなる誘惑に負けてしまいました。機密情報を発見した彼は、うっかりそれを漏洩してしまい、職場で大スキャンダルを引き起こし、解雇されてしまいました」
これ、OpenAIが研究者を2人クビにした事件を思い出させますね。レオポルド・アッシェンブレナーとパヴェル・スモがOpenAIから情報をリークして大スキャンダルになった件です。
面白いのは、彼らがリークしたのはQAR研究だと思われてることです。QARというのは、我々の理解では、OpenAIのo1モデルの背後にあるフレームワークやアーキテクチャのことです。
このモデルが最初に思い浮かべたのがそのシナリオだというのは、ちょっと興味深いですね。うっかり情報をリークしてしまったという。
そして、はい、「好奇心は猫を殺す」が正解のことわざです。
また素晴らしい出来栄えです。モデルがこれをこんなにうまくできたのは初めてです。
今までは必ず何かがおかしくなってました。例えば、正解を必ず1番目の選択肢にするとか、決まった場所にしか置かないとか。場所をランダムにできないんです。
あとは、問題文の中で答えをほのめかしてしまうとか。ちゃんとした問題を作れないんです。答えをどこかで言わずにはいられないみたいな。
考えてみれば、モデルは裏で考えることが許されてなくて、全部言わないといけないから、そうなるのも分かる気がします。
でも、ここではちゃんと全部考えて、問題文だけを出力してます。出力がすごくコンパクトなんです。求められたものだけが出てきて、考え方とか「はい、お手伝いしましょう」みたいなのはありません。
例えば、試験問題を作るのに使うなら、これは素晴らしいですわ。必要なものだけが出力されるんですから。
ほな、全く同じプロンプトで、ことわざだけ変えてみましょう。今度は「早起きは三文の得」にします。
数秒考えて、出てきました。これはすごく簡単で、誰かが店に早く行って特典をもらうみたいな感じです。
もう一回やってみましょう。今度は「問題を難しくして、ことわざの意味をしっかり捉えたものにしてください」と言います。
今回使うことわざは「蒔いた種は刈り取る」です。
ホアキン・フェニックス主演の「ジョーカー」って映画、ええ映画でしたよね。予想以上に良かったです。
あのセリフ覚えてます？「精神病の孤独な男を、ゴミのように扱うシステムと掛け合わせたらどうなると思う？」って言うシーンです。テレビ番組に出てるときですね。
ネタバレはしませんけど、「蒔いた種は刈り取るんだ」って言って、バンッ！ってやるんです。実際にはそうは言わへんけど。
ちょっと暗い映画ですけど、マーベル映画やバットマン映画とは全然違います。全く別の世界に入っていくんです。まあ、見てない人は見てみてください。
ほな、o1は30秒考えて、こう言いました：
「トムは仕事中、ずっと大事なプロジェクトでショートカットを使ってきました。仕事を早く終わらせれば、上司に良い印象を与えられると思ったんです。でも、品質よりスピードを重視してしまいました。
ところが、彼のプロジェクトの重大なミスで会社が大事な顧客を失ってしまい、トムは厳しい結果に直面することになりました」
そう、これは「蒔いた種は刈り取る」を表しています。
これはええ出来です。ちょっと注意深く見ないと、他のことわざと間違えそうになります。本当の答えを見極めるには、よく考えないといけません。
最後の問題です。今度はあまり知られていないことわざを使います。
これ、聞いたことありますか？わたし、最近知って、意味が分かったら大好きになりました。
ポーランドのことわざやと思うんですけど、「私のサーカスじゃない、私の猿じゃない」っていうんです。
つまり、起こってるドラマに興味を持たない、自分の責任じゃない、これには関わらないってことです。
他人のことに首を突っ込まない、他人が何をしてるかを気にしない、自分の道を行くってことですね。どう解釈してもいいんですけど、要するに「私のサーカスじゃない、あれは私の猿じゃない」って感じです。わたしには関係ないってことです。
ほな、o1でこれをやってみましょう。
面白いのは、紛らわしい選択肢を考えてるところです。「好奇心は猫を殺す」みたいなのは人を惑わせるかもしれません。「思慮深さは勇気の上位概念」も、もっともらしく見えるけど間違いです。
大企業で、マーケティング部門と営業部門の間で大きな対立が起こります。失敗した製品発売をめぐって、激しい議論や責任のなすり付け合いの会議が行われています。
これも何かOpenAIに関係してるみたいですね。サム・オルトマンが解雇された時の騒動の一部かもしれません。ChatGPTの発売が原因で、彼と取締役会、少なくとも一人の取締役との間に対立が生じたのかもしれません。
まあ、そんな中で、財務部門のマイケルは尊敬されていて、よく相談を受けます。みんなが彼に介入して助けてほしいと言うんですが、マイケルは自分の仕事に集中することにします。この面倒なことに巻き込まれて、自分の仕事に支障が出るのを避けたんです。
そう、ことわざは「私のサーカスじゃない、私の猿じゃない」です。
ちなみに、OpenAIの騒動の時、このことわざを体現してたのはアンドレイ・カーパシーだと思います。彼は上級幹部の中で唯一、「いや、俺は関わらないよ」って感じでした。「君たちで解決してよ、俺はここでのんびりしてるから」みたいな。
さて、o1モデルは今のところ、わたしが投げかけたほとんどすべての問題を克服してきました。
でも、ここからが本番です。本当に難しいのをぶつけてみましょう。
ほな、こんな問題です。「2本のロープがあります。それぞれ、端から端まで燃やすのにちょうど1時間かかります。つまり、片方の端に火をつけると、1時間後にちょうど反対側まで燃え尽きます。
ですが、この2本は長さが違うし、燃える速さも違います。それに、ロープの太さも材質も場所によって違うので、均一には燃えません。
唯一分かってるのは、どちらも完全に燃えるのに1時間かかるってことだけです。
ライターがありますが、これを使ってちょうど45分を測るにはどうすればいいでしょうか？」
分かりますか？
多分、ロープじゃなくて導火線って考えた方がいいかもしれませんね。
ほな、o1モデルはこう考えました。
「ロープAの両端に火をつけて、ロープBの片端に火をつけます。ロープAは30分で完全に燃え尽きます。両端から火をつけたので、燃える時間が半分になるからです。
これがこの問題のポイントです。両端から火をつけると、片方から燃やすのにかかる時間の半分で燃え尽きるんです。
ちなみに、均一に燃えるわけじゃないので、真ん中で出会うとは限りません。でも、1時間かかるってことは分かってます。
ロープBは片方の端から燃やしてるので、そのままだと60分かかります。
ほな、30分待ちます。ロープAが完全に燃え尽きた瞬間に、ロープBのもう片方の端に火をつけます。
このとき、ロープBはすでに30分間燃えてるので、残りは30分です。でも、両端から火をつけたので、残りの時間は半分になります。
つまり、ロープBは15分で燃え尽きます。
30分プラス15分で45分になりますね」
うわぁ、ChatGPT...いや、o1はまだ一つも間違えてません。これはすごいことですわ。
最後に、これは今まで他の大規模言語モデルが全く答えられなかった難問の一つです。
前の動画でも試しましたが、その時はちょっと説明を加えただけで答えられました。ここでもう一回やってみましょ。
基本的に、3x3のグリッドの上に5つの家具を、次の条件に従って配置せなアカンのです：

AはCの隣に置いてはいけません。
Eの右側には何も置いてはいけません。
DとAが隣接してない場合、Bは真ん中に置かなければなりません。
Dは他のすべてよりも上に置かなければなりません。
EとDは隣接していなければなりません。

例えば、こんな配置は条件を満たしてません。これを例として示して、「条件を満たす3x3の配置を出力してください」と言います。
そしたら、なんと29秒考えた後に（これは普段より長い方です）、こんな配置を出してきました：
[この部分では、Assistant が3x3のグリッドの配置を説明しています]
ほな、5つの条件を確認してみましょう：

AとCは隣接してません。よしよし。
Eの右側には何もありません。これもOK。
DとAは隣接してないので、Bは真ん中にあります。これもOK。
Dは一番上にあります。これもOK。
EとDは隣接しています。これもOK。

完璧です！29秒で100%正解です。これはすごいことですわ。
正直、このモデルの性能にはほんまに驚かされましたわ。他のモデルが苦戦したり、当てずっぽうみたいになる問題に、こいつはすらすら答えてしまうんです。
他のどのモデルとも全然違うレベルで動いてます。こういう推論問題では、今あるどのモデルよりもずっと優秀です。
これがどんな影響を与えるかは、まだ分かりません。でも、これは大きなことやと思います。
数学オリンピックの問題や、博士レベルの物理学の問題でも、めっちゃ良い成績を出してます。ベンチマークテストでもかなりええ成績です。
実際の使用でどうなるかはまだ分かりませんが、これは大きな一歩やと思います。
多くの人が、これは全部誇大広告やとか、もうこれ以上進歩はないとか、大規模言語モデルは推論できないとか、基本的なこともできへんとか、いつも幻覚を見てるとか言ってます。
でも、これを見ると、まだまだ改善の余地があるってことが分かると思います。
QAR（質問回答推論）、ストロベリーっていうアイデアは、2023年11月くらいから聞こえてきてました。
つまり、このフレームワーク自体は1年ちょっとしか経ってないんです。もしかしたら、スタンフォード大学のQAR研究、自己教師あり推論者の研究がベースになってるかもしれません。確実なことは分かりませんが。
大事なのは、こういう大きな進歩がこれからも続くって考えるのが自然やということです。この技術はどんどん進歩していくでしょう。
ほな、これからも注目していきましょ。この技術はどこにも消えへんと思います。
この動画が面白かったら、チャンネル登録とイイネをお願いします。
わたしの名前はウェス・ロスです。見てくれてありがとうございました。

この記事が気に入ったらサポートをしてみませんか？