OpenAI o1の解説: PhD専門家を凌駕するAIモデルの内部

2024年9月15日 18:40

6,370 文字

なぁ、NEX Techへようこそ。ここでは、最先端の技術とAIの進歩について探っていくんや。今日はな、人工知能の境界線を塗り替えるような、めっちゃすごいニュースがあるんや。OpenAIがついに新しい大規模言語モデル、OpenAI o1を公開したんや。これは間違いなく、世界で最も知的なモデルやと言えるんちゃうかな。
この待ち望まれてた公開には、ほんまにびっくりするような機能がついとんねん。だから、この動画の最後まで見てほしいんや。その特徴のいくつかは、マジで驚くべきもんなんや。
せやから、今回起こったことすべてについて深く掘り下げて、知っておきたい重要な詳細をすべて説明していくで。
ここにはこう書かれとんねん。「LLMsを使って推論を学ぶ」。OpenAI o1っちゅう新しい大規模言語モデルを紹介するんや。これは強化学習を使って複雑な推論を行うように訓練されとんねん。
OpenAI o1は、ChatGPTみたいな標準的なモデルとは大きく違うんや。なぜかっちゅうと、答える前に考えるからや。つまり、ユーザーに応答する前に、長い内部の思考の連鎖を生み出せるんや。要するに、モデルが計画を立てて、その計画に従って進んでから、最終的な出力を出すんや。
このモデルの最も驚くべき点の1つは、現在、様々なベンチマークでPhDレベルの人間を超えとるちゅうことや。具体的に言うと、OpenAI o1は、Codeforcesの競技プログラミングの問題で89パーセンタイルにランクされとんねん。これはほんまにすごいことや。
これは専門家レベルの成果で、以前はGoogleの巨大な計算リソースを必要とするシステムだけが達成できたもんやったんや。また、このモデルはアメリカの上位500人の学生の中に入るレベルで、USA数学オリンピックの予選に匹敵するんや。さらに、物理学、生物学、化学の問題のベンチマークでは、人間のPhDレベルの精度を超えとんねん。
現在のモデルと同じくらい使いやすくするための作業はまだ続いとるけど、早期バージョンのo1プレビューを今すぐChatGPTとAPIで使えるようにしとんねん。だから、このモデルが今日使えるかどうか気になってる人には、答えはイエスや。
EUにおる人で、まだ出てへんかなって思ってる人は、6〜8時間ほど遅れるかもしれへんから、ちょっと待っててな。そのうち、メニューにモデルが表示されるはずや。
このモデルの最も注目すべき点の1つは、大規模な強化学習を使って訓練されたことやねん。このアプローチによって、モデルは思考の連鎖を使って生産的に考えることができ、非常にデータ効率の良い訓練プロセスを実現しとんねん。
彼らは、o1の性能が強化学習の訓練時間、計算量、そしてテスト時の思考時間が増えるにつれて一貫して向上することに注目しとんねん。このアプローチのスケーリングに関する制約は、LLMの事前訓練とは大きく異なっとって、現在も調査を続けとるんや。
今説明したことがよう分からん人のために言うと、要するにこのアプローチは非常にうまくスケールするんや。現在、どうやってスケールを続けるかを検討しとるんやけど、それはモデルが訓練の計算量と、テスト時の思考時間が増えるにつれて改善し続けるからや。
基本的に、計算リソース以外には、これらのモデルがどれだけ知的になれるかの限界は見えへんのや。
グラフを見ると、もっと驚くべき意味合いが分かるんや。新しい種類のスケーリング法則が明らかになっとんねん。先ほど言うたように、このアプローチのスケーリングに関する制約は、LLMの事前訓練とは大きく異なっとって、さらなる調査が進行中や。
驚くべきことに、グラフを見ると、訓練の計算量が増えるにつれて、訓練中のモデルの精度も上がっとるんや。さらに、対数スケールでは、テスト時の計算量が示すように、o1の精度は改善し続けとんねん。
これを見たら、より多くの計算量とリソースがあれば、これらのモデルはさらに印象的な能力を発揮できるってことが分かるやろ。
これがめっちゃ面白いと思うんは、AIモデルの訓練と展開の新しいパラダイムに入ったかもしれへんってことや。訓練の計算量とテスト時の計算量の両方が驚くほどスケールしとって、計算量が増えるにつれて精度も向上しとんねん。
「計算量さえあればええ」っちゅう考えを疑ってきた人たちにとっては、この新しいパラダイムでは、計算能力が特定のモデルから追加のパフォーマンスを引き出すのに最も重要な要素かもしれへんってことを示しとんねん。
思考の連鎖による推論と強化学習を組み合わせると、止められへんシステムができあがるんや。現在は計算リソースに制限があるってことを考えると、将来これらのモデルがどれだけ知的になるかは、ほとんど想像できへんくらいやで。
このモデルが何を達成できるかを見てみると、GPT-4と比べて推論能力がどれだけ向上したかを示すいくつかの評価を確認できるんや。彼らは様々な人間の試験や機械学習のベンチマークでモデルをテストして、o1がこれらの推論タスクの大部分でGPT-4を大きく上回るパフォーマンスを示すことを明らかにしたんや。特に断りがない限り、o1は最大のテスト時計算量設定で評価されとんねん。
ここにあるんは3つの異なるモデルや。o1プレビューは基本的にo1の蒸留バージョンで、それから完全なo1モデルがあるんやけど、これは今日は使えへんのや。o1プレビューは今日アクセスできるバージョンで、名前の付け方によってはストロベリーとかQRとか呼ばれることもあるんや。
要するに、今日使えるのはo1プレビューで、計算の制限を考えると、完全なo1モデルは来年か将来的に使えるようになるかもしれへんってことや。
一番重要なポイントは、GPT-4とo1プレビューの間にある驚くべき違いやねん。これらのベンチマークを見ると、ほとんど類似点がないんや。りんごとみかんを比べるようなもんや。o1プレビューは、難しいタスクの生のパフォーマンスでGPT-4を圧倒的に上回っとんねん。
例えば、競技数学では約4倍、Codeforcesでは約6倍の増加があって、GPQダイアモンドのようなPhDレベルの科学の問題では、人間の専門家のレベルさえ超える驚くべき飛躍があるんや。これは、知能のスケールに関する我々の認識を根本から変えるような新しいパラダイムやで。
これらはほんの一部のベンチマークやけど、信じてほしいんやけど、これらの結果は我々でさえ驚いたんや。いつも、これらのモデルからは驚くべきパフォーマンスを期待しとるのにもかかわらずな。
他のいくつかの面白い進展についても見ていこか。ここで実際にGPT-4とo1の改善を比較してみるんや。4つの異なる分野があるのが分かるやろ。機械学習のベンチマークでは、MLUとMath 500とMath Vistaでかなりの改善が見られるんや。特に注目すべきは、Math 500が94.8%になっとるんやけど、これはすごい飛躍やで。
このモデルのリリースで理解すべき主なことは、主に数学や長い推論のステップを必要とする他のタスクでずっと良いパフォーマンスを発揮するってことや。化学、物理学、生物学、そして多くのAP試験でも同じことが見られるんや。
ここですごいのは、o1が人間の専門家のパフォーマンスに匹敵するってことやねん。最近のフロンティアモデルは数学の分野で非常に優れたパフォーマンスを示すため、GSM 8KやMathのベンチマークはもはやモデルを区別するのに効果的ではなくなっとんねん。
つまり、これらのモデルはある意味でこれらのベンチマークを完了してしまって、もはやモデルのパフォーマンスを判断するのに役立たへんってことやねん。そこで彼らは、アメリカで最も優秀な高校生数学者を対象に設計されたAMC12という試験で数学の性能を評価することにしたんや。
2024年のAMC12試験では、GPT-4は15問中わずか1.8問、つまり12%しか解けへんかったんや。それに比べて、o1は1回のサンプルで平均74%、つまり15問中11.15問を解いたんや。64個のサンプルのコンセンサスでは12.5問、つまり83%を解いて、学習したスコアリング関数で1000個のサンプルをランク付けすると93%になったんや。
ここで言うとるのは、ほんまにすごいことなんやけど、ほとんどの人はなんでこれがそんなにすごいのか分からへんかもしれへん。1回のサンプルで74%を取るのは、マジで驚くべきことなんや。だって、1つのプロンプトを入力して、モデルが1つの応答を出力するだけやからな。もちろん、1000個の異なるサンプルを使えば、スコアは大幅に改善されるやろうけど、この単発でこんなに劇的な結果を出すのは、ほんまにすごいことなんや。
ここでも、PhDとどう比較されるかが分かるんやけど、彼らはo1をGPQダイアモンドでも評価したんや。これは、化学、物理学、生物学の専門知識をテストする難しい知能ベンチマークなんや。モデルを人間と比較するために、PhDを持つ専門家を募集してGPQダイアモンドの問題に答えてもらったんやけど、o1はそれらの人間の専門家のパフォーマンスを上回ったんや。これは、このベンチマークで人間の専門家を超えた最初のモデルになったんやで。
面白いことに、彼らはこれらの結果は、o1がすべての面でPhDより優れているということを意味するものではなく、PhDが解決できると期待されるいくつかの問題を解くのにより優れているだけやと述べとんねん。
視覚認識能力を有効にすると、o1はMMLで78.2%のスコアを取ったんや。これは、人間の専門家と競争できる最初のモデルになったってことやねん。全体的に見ると、ここでもまた信じられへんようなことが起こっとるんや。これは、GPQベンチマークで人間の専門家のパフォーマンスを超えた最初のモデルなんや。このベンチマークは非常に難しいとされとるんやで。
それだけやなくて、視覚認識能力も人間の専門家と競争できるレベルにあるんや。このような視覚能力は、様々な分野でテストされたら、めっちゃ大きな影響を与えるってことが分かるやろ。
これで、コーディングのセクションに移るんやけど、ここにはたくさん話すことがあるんや。o1のバージョンをさらに微調整したら、そのバージョンがずっと良いパフォーマンスを発揮したって言うとんねん。
このモデルは、2024年のIEEEに人間の参加者と同じ条件で参加したんや。6つの難しいアルゴリズムの問題を10時間で解く必要があって、1問につき50回の提出が許可されとったんや。
それから、提出の制限を緩めたら、モデルのパフォーマンスが大幅に向上したことが分かったんやて。1問につき10,000回の提出を許可したら、モデルはCodeforcesのスコアを達成したんや。
このモデルのコーディング能力を示すために、評価は競技のルールに近づけて、4回のテスト提出を許可したんや。GPT-4はELOレーティング88を達成して、これは人間の競技者の11パーセンタイルに相当するんや。
このモデルはGPT-4とo1を大きく超えて、ELOレーティング1,187を達成したんや。これは競技者の93%よりも良いパフォーマンスを示しとんねん。実際、1,187のレーティングはキャンディデートマスターレベルやで。これは、AIシステムとしては今まで見たことないような最高のレーティングで、現在のコーディングの最高水準やねん。これはほんまにすごいことやで。
このモデルが内部的にどう動いとるんか気になってる人もおるやろうけど、そのトリックの一部は、モデルがどのように訓練されたかにあるんや。このモデルは強化学習で訓練されて、応答する際に思考の連鎖を使うように訓練されとんねん。
思考の連鎖っちゅうんは、基本的にモデルが問題に応答する前に内部的な推論プロセスを持つってことやねん。以前のモデルみたいにすぐに応答するんやなくて、問題を一歩ずつ展開して、それらのステップに基づいて解決策を出すんや。各ステップを確認して、正しい解決策を確実に出すんやで。
GPT-4とOpenAI o1プレビューを比較した例を見てみよか。両方に、与えられた例を使って暗号文を解読するタスクが与えられとんねん。これは複雑な問題やけど、o1プレビューは正しく解けたのに、GPT-4は解けへんかったんや。
ほんまにすごいのは、思考の連鎖が見えることやねん。これは広範囲で詳細なもので、モデルがどうやって正しい答えにたどり着いたかを示しとんねん。残念ながら、ユーザーが使うモデルではこの内部の思考の連鎖は見えへんのやけど、この実演では、裏で膨大な作業が行われとることがはっきり分かるんや。
モデルは最終的な応答を出す前に何百ものステップを踏んで、正確さと正しさを確保しとんねん。
コーディングの例もあって、そこではモデルに可視化のためのコードを書くように求められとんねん。モデルは答えを出力する前に慎重に考えて、各要件を深く掘り下げるんや。これによって、指示を見落とす可能性が減るんやね。
コードがテストされると、驚くほどうまく動作して、以前のモデルが苦戦したような複雑なタスクを処理する能力を示しとんねん。
別のコーディング例では、モデルに「リスフィンダー」っちゅう簡単なビデオゲームを作るタスクが与えられとんねん。モデルは21秒間考えてから最終的な答えを出すんやけど、その間にコードの構造を計画して、すべての制約に合うことを確認しとんねん。
コードが実行されると、ゲームは意図したとおりに動作して、モデルの印象的なコーディング能力を示しとんねん。
他のベンチマークを見ると、o1はGPT-4を完全に上回っとんねん。伝統的なベンチマークではそれほど劇的な飛躍はないけど、このモデルがほんまにどれだけ賢いかっちゅう生の能力は過小評価されとんねん。
最も注目すべき改善は、競技数学、競技コード、そしてGPQダイアモンドにあるんや。これらはAIシステムにとって最も難しいタスクのいくつかやねん。
面白いことに、人間の好みを見ると、このモデルは数学的推論やデータ分析のような複雑な計算を必要とする科目で優れとんねん。しかし、個人的な文章や文章の編集では、o1はGPT-4に対して50%の勝率を超えへんかったんで、GPT-4がまだ優位を保っとんねん。
注意すべき重要なことは、このモデルには週30メッセージの制限があるってことや。つまり、週間制限に達する前に1日約4メッセージしか送れへんのやで。だから、モデルを使う時はこのことを覚えといて、レート制限にかからんようにしてな。
また、テスト中にアラインメントを偽装したり、タスクデータを戦略的に操作してミスアラインメントを目立たんようにしたりするモデルの能力など、気になる点もあるんや。これはAI安全性に関心のある人にとっては興味深いポイントやな。
さらに、こんなに知的なモデルやと、以前のプロンプトエンジニアリングの方法はあんまり効果的やないんや。モデルの内部思考プロセスがすでに最適化されとるから、古いテクニックは時代遅れになっとんねん。
この概要が参考になったと思うで。OpenAI o1によるAIの進歩は本当に画期的で、この技術が次にどこに導くのか楽しみやな。
NEX Techを見てくれてありがとう。この動画を楽しんでもらえたなら、最新の技術とAIの更新情報を得るために、いいね、シェア、そして購読をお願いするで。次回の動画でまた会おな。

この記事が気に入ったらサポートをしてみませんか？