見出し画像

OpenAI o1の紹介 | 度肝を抜く結果!

7,558 文字

おおきに、それではさっそく始めさせていただきます。
最初の70個の素数の合計の下4桁は何かって問題を入力してみましょか。さて、考え始めましたわ。あぁ、考えとるなぁ。素数のリストを出してくれてますな。ええ感じやわ。ちょっとずつ更新してくれて、合計も出してくれてる。正しいように見えますなぁ。計算の精度を確認して、もう一回合計を出し直してる。
ほな、22秒かかりましたわ。他のモデルに比べたらめっちゃ時間かかってますけど、結果を見てみましょか。ここに考えのステップがまとめてありますな。素数の合計を出して、下4桁を取り出す。グループに分けて合計を出す。素数を並べて、合計をまとめる。計算の精度を確認して、もう一回合計を出し直す。
合計は10,887やって。最初の70個の素数の合計の下4桁を見つけるために、ステップごとに計算していきますわ。ほな、ここからステップを踏んでいって、正解を出してますな。答えは0887やって。
正直、これにどう感じたらええんか分かりませんけど、正解を出しましたわ。これまで試してきた最新のLLMの中で、この特定の問題に対して正しい解答を出したのは初めてですわ。これはめっちゃすごいことやと思います。
最初に言うたように、こういうモデルを過大評価せんようにせなアカンけど、特定の種類の問題に使われるんやということを覚えといてください。それに、時間もかかってますけどな。でも、モデルは正解を出しましたわ。0887や。これが正解を出したのは信じられへんくらいすごいことですわ。
みなさん、ワクワクするニュースですわ。ついに来ましたで、長らく待たれとったOpenAIの新しいモデルが。OpenAI o1のプレビューをリリースしとるんです。これは、応答する前にもっと時間をかけて考えるように設計された新しいAIモデルのシリーズですわ。このモデルは、複雑なタスクを推論して、科学、コーディング、数学の分野で以前のモデルよりも難しい問題を解決できるんです。
このお知らせの中で、2つの部分に注目してほしいんです。1つ目は「考える」っていう部分、2つ目は彼らが重点を置いてる能力と分野、つまり科学、コーディング、数学です。これは汎用システムと混同せんようにしてくださいな。この特定のAIモデルのシリーズは、推論問題、特にこれらの分野の複雑な問題を解決するためのものなんです。
そう言うたんは、OpenAIのスタッフでさえ、ユーザーがこのモデルに対して持つべき期待は、より良い推論ができて、より難しい問題を解決できるってことやって言うとるからです。でも、これは投げかけるあらゆる問題や日々のタスクに適用できる汎用システムってわけやないんです。そこんとこ覚えといてくださいな。
それに、o1って名前に変えたんがええと思いますわ。これで、これが特定のタイプのモデルか新しいモデルファミリーってのが分かりますからな。GPTシリーズのモデルにどうするんかはよう分かりませんけど、それらのモデルはまだ、こなせるタスクの種類の面では最も能力が高いんやないかと思いますわ。でも、このモデルは、より複雑な推論に関するものなんです。
お知らせと一緒に、この技術レポートも出てきましたわ。これはもっと技術的なブログ記事で、このモデルについて話してて、複雑な推論を行うように強化学習で訓練されたって書いてあります。o1は答える前に考えるんです。ユーザーに応答する前に、長い内部の思考の連鎖を生成できるんです。これがみんなが噂してたことで、それが本当やってことが分かって、ここにあるんです。
このモデルはどんなもんで、なんでこのモデルにワクワクせなアカンのか。ちょっとの間、私の感想といくつかの考えを話させてもらいますけど、もっとモデルをテストしたいんで、すぐにそれをやりますわ。
このモデルは、競技プログラミングの問題の89パーセンタイルにランクインして、USA数学オリンピックの予選でアメリカのトップ500人の学生の中に入って、物理学、生物学、化学の問題のベンチマークで人間の博士レベルの精度を超えとるんです。ほら、コーディングと数学と科学関連の問題やって。そこんとこ覚えといてくださいな。このモデルはこういう分野で輝くんです。
この新しいモデルを現在のモデルと同じくらい使いやすくするための作業はまだ進行中やけど、このモデルの早期バージョンをリリースしとるんで、ChatGPT Plusユーザーと一部の信頼されたAPIユーザーにすぐに利用可能になっとるんです。
ここに書いてあるんですけど、o1の性能は強化学習を重ねるほど一貫して向上するって分かったそうです。これは訓練時間の計算量のことですな。グラフを見てもらえますか。そして、考える時間が長くなるほど性能が上がるんです。これはテスト時の計算量のことです。基本的に、このモデルにリソースをたくさん投入するほど、性能が上がるってことですわ。
もう2回目のイテレーションがどれだけ良くなるか想像できますわ。今のところ、このモデルはまだ彼らが言うてる科学、数学、コーディングなどの分野に特化してると思うんですけど、どれだけの分野で優れた性能を発揮するかってのも、私が測定したい側面の1つですわ。
ここにいくつかの評価結果がありますな。PhD レベルの科学の質問に対して、o1プレビューがGPT-4.0と比べてどう性能を発揮したかが見れます。これは競技プログラミングのCode Forcesで、これは競技数学です。異なる性能が見れますな。
ここで本当に驚異的なのは、GPT-4.0とo1プレビューの差ですわ。それに、ここにo1モデルってのもあって、これはおそらく外部の人はアクセスできへんと思いますけど、この2つのモデルの差も見れますな。明らかに、投入するリソースが多いほど性能が上がるんです。
でも、これらのモデルはすぐには利用可能にならへんと思います。おそらく、もっと計算力が必要になるからです。それは、ChatGPTを使うほとんどのユーザーにスケールするのは非常に難しいことになるでしょうな。あまりにもユーザーが多すぎますからな。
ほな、これがもっと結果ですわ。ここで差が見れますな。o1のGPT-4.0からの改善点ですわ。異なる科学分野での改善が見れます。MLU(機械学習理解度)のカテゴリーとかな。このチャートが好きですわ。その差を示してます。MLU、MMU(数学モデル理解度)などですな。これは1回目の精度ですわ。かなり印象的ですな。
これは、その研究をどうやって行ったかについての詳細です。そして、この部分が一番重要なところに来ましたわ。1年ほど前に私が人々に言うてたことで、楽しみにしとったのは、言語モデルがこの思考の連鎖のプロセス、つまり推論をネイティブにサポートする能力です。
なぜそう言うたかっていうと、明らかにこれらのモデルをプロンプトする時、モデルに問題についてどう考えるべきかをステップバイステップで教えなアカンからです。それはかなりリソースを使うんです。思考の連鎖のステップを組み立てるのに多くの時間を費やすことになりますからな。
だから理想的には、モデルがこの新しい能力を活用するために必要なステップの適切な量を組み立てる方法を知っとって、あなたが全ての詳細でプロンプトせんでもネイティブにできるべきなんです。
ここに書いてありますわ。人間が難しい質問に答える前に長い時間考えるのと同じように、o1は問題を解こうとする時に思考の連鎖を使うんです。強化学習を通じて、o1は思考の連鎖を磨き、使う戦略を洗練させることを学びます。
間違いを認識して修正することを学び、厄介なステップをより簡単なものに分解することを学びます。これは多くの人が自己反省と呼んでるものです。モデルがテキストを生成して、何らかの方法で間違いを認識する能力を持つってことですわ。
これらのモデルは、アーキテクチャの制限を考えると、時々非常にバカげた間違いを生成することがあって、回復する方法がないってのは分かっとります。もし、この追加の推論ステップを生成しながら回復できるなら、それはモデルが学んだ信じられない能力で、これらのLLMをより広く、ヘルスケアなどのハイステークな分野に適用できるようになるかもしれません。実際、ここでヘルスケアについても言及してますわ。
厄介なステップをより簡単なものに分解することを学び、現在のアプローチがうまくいかない時に別のアプローチを試すことを学びます。これが自己反省についてですわ。このプロセスは、モデルの推論能力を劇的に向上させます。
この飛躍的な進歩を示すために、我々はいくつかの難しい問題に対するo1プレビューの思考の連鎖を以下に示します。ほな、問題を自分で見ていただけますが、私は実際にChatGPTでモデルを直接テストしますわ。
いくつか例がありますので、見てみてこの2つのモデルの違いを確認してくださいな。それは自分でできることです。「Strawberry」という単語に「R」は何個ありますか?全てのモデルがこれに失敗します。今度はこれに合格するかどうか見てみましょう。
これはモデルの能力というよりも、トークン化の問題やということを覚えといてくださいな。だから、これらのアーキテクチャには制限があるって言うとるんです。その制限の一部は、これらのモデルがどのように訓練されたかとアーキテクチャ自体にあるんです。
ほな、数秒待ちますわ。そして、「Strawberry」という単語には3つの「R」があると言うてます。ついにこの問題を解決したようですな。ステップを見てみましょう。ここに書いてあります。「Strawberry」の「R」を数える。「Strawberry」の各文字を慎重に分析して、「R」を特定してカウントします。この方法で正確なカウントが保証されます。
実際のステップや思考のステップは見れへんってことに注目してほしいんです。なぜかというと、このお知らせの例を見ると、全てのステップが見れるからです。思考の連鎖、全てのステップがここに詳細に、長々と書かれとるんです。でも今、私たちが得られるのは要約だけです。
実は、このお知らせの最後の方でそのことに触れとるんです。思考の連鎖を隠すことについて言うとるんです。ユーザー体験、競争上の優位性、思考の連鎖のモニタリングを追求するオプションなど、複数の要因を検討した結果、o1の思考の連鎖をユーザーに表示せんことに決めたって。この決定には欠点があることを認めとるんです。
モデルが生成した思考の連鎖の要約を示すことで、部分的にそれを補おうとしとるんです。それは非常に残念なことですわ。なぜなら、モデルがどんなステップを踏んでるのかをどうやって実際に知ることができるんでしょうか?それは、私たちユーザーにとって多くの洞察を提供してくれるはずなんです。
彼らは、戦略的な観点から見て、これは彼らにとっていい決定やないって判断したんでしょう。まあ、はい。続けさせていただきます。
まぁ、これがこのモデルの最初のリリースやからええんですけど、実際の思考の連鎖にアクセスできたらええと思いますわ。特に、こういうモデルを開発したり、デバッグしたり、複雑な問題に使おうとしてる時にな。
ほな、ChatGPTに戻って、別の問題をテストしてみましょか。これは、ほとんどのモデルが失敗する問題ですわ。実際、全てのモデルがこれに失敗するんです。だから、この思考のステップや思考の連鎖、あるいは推論のステップがこの種の問題にどう役立つか、めっちゃ気になりますわ。
よっしゃ、このモードに入りましたな。このモデルは常にこのモードに入るみたいですけど、それがデフォルトやと思います。ほな、ここのステップを見てみましょか。
より大きな数を決定するのに5秒かかりましたわ。もう一度、より大きな数を決定します。これはモデルが生成した要約ですな。小数点以下の精度を再検討してます。正確性のために小数点以下の桁を揃えて比較してます。整数部分は同じやから、小数部分に焦点を当てて、どっちが大きいか決定します。
ほな、ここの応答を見てみましょか。9.1が残ってますな。整数部分は両方とも9です。小数部分を比較します。0.00は0.90より小さいので、0.90の方が大きいです。したがって、9.11は9.90より小さいです。ほら、ここにありますわ。答えは9.9の方が9.11より大きいです。だから、9.9の方が大きいです。
そうです、それが正解ですわ。親指を立てて評価しましょう。これは正解ですな。ここのちょっとしたコンテキストが、モデルが問題について考えて推論するのに役立ったことが分かりますわ。実際の解答に入る前にな。
あと2つ問題を試してみたいんですわ。数学の問題と、mパズルってのがあります。これらは他のどのモデルも正解を出せへん問題なんですけど、このo1プレビューモデルがこれを正解できるかめっちゃ気になりますわ。
このモデルがこの問題を解けるとは思ってませんけどな。この特定の問題には、LLMのコード実行能力が必要で、このモデルはそれを使ってへんからです。だから、この特定の問題をどう解くか、めっちゃ気になりますわ。LLMsはこれを解けると思いますけど、モデルがこの特定の問題を解くには、推論の部分がめっちゃ優れとる必要があると思います。
ほな、「最初の70個の素数の合計の下4桁は何ですか?」って入力しましょう。よし、Enterを押しましたわ。さて、考え始めましたな。おぉ、考えとる、考えとる。素数を並べてますな。ここに要約が見れますわ。ええ感じやな。ちょっとずつ更新して、合計をまとめてます。正しそうに見えますわ。計算の精度を確認して、もう一回合計を出し直してます。
よっしゃ、22秒かかりましたわ。他のモデルに比べたらめっちゃ時間かかってますけど、結果を見てみましょか。ここに思考のステップの要約がありますな。素数を合計して下4桁を抽出する。グループに分けて合計を出す。素数を並べて、合計をまとめる。計算の精度を確認して、もう一回合計を出し直す。
合計を再計算したら10,887になったって。最初の70個の素数の合計の下4桁を見つけるために、ステップごとに計算していきますわ。ほな、ここからステップを踏んでいって、これを正解として出してますな。答えは0887やって。
正直、これにどう感じたらええんか分かりませんけど、正解を出しましたわ。これまで試してきた最新のLLMの中で、この特定の問題に対して正しい解答を出したのは初めてですわ。これはめっちゃ驚くべきことやと思います。
最初に言うたように、こういうモデルを過大評価せんようにせなアカンけど、特定の種類の問題に使われるんやということを覚えといてください。それに、時間もかかってますけどな。でも、モデルは正解を出しましたわ。0887や。これが正解を出したのは信じられへんくらいすごいことですわ。
この問題はRedditから持ってきたと思うんですけど、他の問題と同じで、どのモデルも正解を出せへんのです。問題の理解を求めることもあるんですけど、モデルは問題が何を求めとるかさえ理解できへんのです。これはモデルが行ってる思考の連鎖の推論にぴったりの問題やと思いますわ。この「考える」ってやつにな。
ほな、テストしてみましょう。ちなみに、正解は3になるはずです。でも、ほとんどのモデルは何故か4を選んでしまうんです。
6秒かかりましたわ。これは結構早かったですな。ほな、こう言うてます。シナリオを分析すると、燃え尽きる最後の長さが消火のタイミングを示してます。各キャンドルの初期の長さと、時間とともにどう燃えるか、どれが最初に消えたかを評価してます。これで燃焼速度について考えさせられますな。すごいわ。
順序をたどって、タイムラインをつなぎ合わせてます。一番長いキャンドル、キャンドル3が最初に消えて、次にキャンドル2、1、5、最後にキャンドル4が消えたことに気づきました。燃えた後の各キャンドルの長さは、吹き消される前にどれだけ長く燃えたかを示してます。残ってるキャンドルが長いほど、早く消されたってことですわ。
全てのキャンドルが同じ長さで始まって、同時に点火されたんやから、一番長く残ってるキャンドルが最初に吹き消されたんです。これは以前のモデルでは見たことのないものですわ。
ほな、残ってる長さに基づいて順番を付けてます。これは8ユニットあるって。私が入力したイコールの数をちゃんと数えてますな。これがキャンドルの長さを決めとるんです。そして順番に並べて、答えは3やって。キャンドル3やと思いますわ。ほら、そうですわ。
そうです、3が正解ですわ。もう一度言いますけど、モデルがこれを生成したのが役立ったと思いますわ。ここでモデルが問題を混同するんやと思うんです。それに、他のほとんどのモデルからはこんな答えを見たことがありませんわ。問題を混同してしまうんですけど、これはちゃんと正解を出しましたな。
最初の試みで正解を出したみたいですわ。これも私にとっては度肝を抜かれる瞬間ですわ。他のほとんどのモデルでこれをテストしてきましたけど、なぜか失敗してたんです。
ただ、覚えといてほしいんですけど、コミュニティ内でこの種の問題をテストしてきたので、OpenAIが何らかの理由でこの種の問題に本当に強くなるようにモデルを訓練したのかもしれません。よくある問題として報告されてるからな。それもありうるかもしれません。よう分かりませんけどな。
これらのモデルがどのように訓練されたかについては、決して情報を得られへんのですわ。でも、ここで生成されたステップは重要で、モデルが問題をより良く理解するのに役立ったと思いますわ。
これが、システムが応答を生成する前にコンテキストとして持つことが本当に重要な理由なんです。だからこそ、思考の連鎖は本当に強力なプロンプト技術で、多くの種類のシステムの全体的なパフォーマンスを向上させるんです。
信じられへんことですわ。これも正解を出しましたな。今持ってる問題を本当に更新せなアカンなぁ。これらのモデルのテストを続けていきますわ。それを楽しみにしといてくださいな。
ほな、この動画はこれで終わりですわ。見てくれてありがとうございます。この動画が気に入ったら、いいねを押して、チャンネル登録もよろしくお願いしますわ。次の動画でまたお会いしましょう。

この記事が気に入ったらサポートをしてみませんか?