OpenAIの新AI GPT-o1が業界全体を驚愕させる！みんなをびっくりさせた！(GPT - o1)

2024年9月13日 06:15

8,590 文字

せやねん、OpenAIがついに発表して、新しい大規模言語モデルをリリースしたんや。OpenAI o1っちゅうんやけど、これが世界で一番頭ええモデルやないかっちゅう話やねん。めっちゃ期待されてたモデルで、そのスマートさったらもう、最後まで見てもらわな損やで。できることがほんまにすごいんや。せやから、何が起こったんか、知っとかなあかん重要なことを全部説明したるわ。
ほな、ここ見てみ。「LLMで推論を学ぶ」言うてるやろ。OpenAI o1っちゅう新しいLLMを紹介しとるんや。これ、強化学習で訓練されて、複雑な推論ができるようになっとんねん。o1はチャットGPTみたいな普通のモデルとはちゃう。このモデルは答える前に考えるんや。つまり、ユーザーに返す前に、長い内部の思考の連鎖を作り出せるんや。モデルが計画を立てて、その計画通りに進めて、最後にユーザーに出力するっちゅうわけや。
このモデルの一番すごいとこは、いろんなベンチマークで人間レベルのPhDを超えとるっちゅうことやねん。ここにはっきり書いとるわ。OpenAI o1は競技プログラミングの問題で89パーセンタイルにランクされとる。これはコードフォースっちゅうサイトの話やけど、ほんまにすごいことや。エキスパートレベルってことやからな。今まではGoogleが膨大な計算力使って作ったシステムだけができたことやったんや。
それだけやないで。アメリカの数学オリンピックの予選で上位500人の学生の中に入るレベルやし、物理、生物、化学の問題のベンチマークで人間のPhDレベルの精度を超えとるんや。
モデルを今のモデルみたいに使いやすくするにはまだ作業が必要やけど、今日からチャットGPTとAPIで使える早期バージョンのo1プレビューをリリースしとるって。もしこのモデルが今日から使えるんかって聞かれたら、答えはイエスや。
EUではまだ使えへんかもしれんけど、6〜8時間ほど遅れるだけやから、ちょっと待っててな。そのうちメニューに出てくるはずや。
このモデルの一番クレイジーなとこは、大規模な強化学習で訓練されとるっちゅうことや。これがどういうことかっちゅうと、このモデルが思考の連鎖を使って生産的に考えるんを、めっちゃ効率的なデータ訓練プロセスで学んどるっちゅうことやねん。彼らが言うには、o1の性能は強化学習の訓練時間と計算量が増えるほど、そして思考する時間（テスト時の計算量）が増えるほど、一貫して改善されるんやって。
この方法をスケールアップさせる制約は、LLMの事前訓練とはかなり違うらしくて、今も調査中やって。わからん人のために説明すると、つまりこれはめっちゃうまくスケールするもんで、今のところ、モデルがどれだけ賢くなれるかの限界は、計算力以外には見えてへんっちゅうことやねん。
訓練時間と計算量が増えるほど、そしてもっと考える時間を与えられるほど、このモデルはどんどん賢くなっていくんや。つまり、今のところ計算力以外に、このモデルがどれだけ賢くなれるかの限界は見えてへんっちゅうことやね。
グラフを見たら、もっとショッキングやで。ここに書いとるように、このアプローチをスケールアップさせる制約は、LLMの事前訓練とはかなり違うらしくて、今も調査中やって。グラフを見ると、訓練時間と計算量が増えるほど、訓練中の精度がどんどん上がっとるのがわかるやろ。テスト時の計算量も対数スケールで見ると、o1の精度がどんどん上がっとるんや。
つまり、もっと計算力とリソースがあれば、このモデルが何ができるようになるか、想像つかへんくらいやねん。これがめっちゃ面白いのは、AIモデルの訓練方法と、ユーザーへの提供方法に関して、新しいパラダイムに入ったんちゃうかっちゅうことを示しとるからや。
訓練時間の計算量もテスト時の計算量も驚くほどスケールしとって、計算量が増えるほど精度が上がっとるんや。「計算力さえあれば十分や」言うてた人らにとっては、このパラダイムでは、特定のモデルからもっとパフォーマンスを引き出すのに、計算力が一番大事な方法かもしれんっちゅうことを示しとるんやで。
思考の連鎖と強化学習を組み合わせたら、今の計算力の限界があるにもかかわらず、将来このモデルがどれだけ賢くなるか、想像もつかへんくらい止められへんシステムになるんやで。
このモデルが何ができるか見てみようか。GPT-4.0との推論能力の改善を示すために、いろんな人間の試験と機械学習のベンチマークでテストしたんや。o1はほとんどの推論タスクでGPT-4oを大きく上回っとるんや。特に断りがない限り、o1は最大のテスト時計算量で評価したんやて。
ここに3つのモデルが見えるやろ。o1プレビューは基本的にo1を蒸留したバージョンで、o1は今日は使えへんバージョンや。o1プレビューは今日から使えるけど、o1モデルは計算力の制限があるから、来年か将来的に使えるようになるかもしれんね。
ここで一番重要なのは、GPT-4oとo1プレビューの驚くべき違いや。ベンチマークを見ると、もう比較にならへんくらいの差があるんや。o1プレビューは難しいタスクでの生のパフォーマンスでGPT-4oを完全に圧倒しとるんや。
競技数学では4倍近く、コードフォースでは6倍近くの増加や。PhD レベルの科学の質問（GP QAダイヤモンド）では、人間の専門家レベルをも超える驚くべき飛躍があるんや。これは、知能のスケールで自分たちをどう見るかっちゅう新しいパラダイムやで。
これはほんまに画期的なことや。これだけやないで、他のベンチマークもあるんやけど、信じてほしいんやけど、こういうベンチマークは、AIの専門家の私でさえ驚くようなもんやったんや。
ほな、他にどんなことがあるか見てみよか。ここではGPT-4oと o1の改善を比較しとるんや。機械学習のベンチマーク、MMU、MMLU、MATH 500、MATHVistaの4つの分野があるんやけど、特にMATH 500が94.8%っちゅうのは驚くべき飛躍や。
このモデルのリリースで一番理解せなあかんのは、数学や長い推論ステップが必要なタスクで、めっちゃ良いパフォーマンスを出しとるっちゅうことや。化学、物理、生物学でも同じことが言えるし、多くのAPテストでも同じや。
ここで驚くべきことが書いてあるんやけど、o1は人間の専門家に匹敵するパフォーマンスを示しとるんや。最近のフロンティアモデルは数学でめっちゃ良い成績を出すから、GSMKや数学のベンチマークはもう、モデルの性能を区別するのに役立たへんくらいになっとるんやて。
つまり、これらのモデルはこういうベンチマークをある意味「完成」させてしもうて、もうモデルの性能を判断するのに使えへんくらいになっとるんや。せやから、アメリカで一番優秀な高校生数学者を選ぶために設計されたAMC試験で数学の性能を評価することにしたんや。
2024年のAMC試験では、GPT-4oは15問中1.8問（12%）しか解けへんかったんやけど、o1は1回の試行で平均11.15問（74%）、64回の試行のコンセンサスで12.5問（83%）、1000回の試行を学習したスコアリング関数で再ランク付けして14問（93%）解けたんや。
これがなんでめっちゃすごいかっちゅうと、ほとんどの人は理解でけへんかもしれんけど、1回の試行で74%取れるっちゅうのはほんまにすごいことやねん。なぜかっちゅうと、これは1ショットっちゅうことやからや。1回のプロンプトを入力して、モデルが1回だけ出力するんや。
もちろん、1000回も試行したら点数は上がるやろうけど、1回の試行でこんな驚くべき結果が出るっちゅうのはほんまにすごいことやねん。そして、93%っちゅうのはGPT-4oと比べたら驚くべき改善やで。
ここでも見られるんやけど、PhDとの比較もしとるんや。o1を化学、物理学、生物学の専門知識をテストする難しい知能ベンチマークであるGP QAダイヤモンドでも評価したんや。モデルを人間と比較するために、PhDを持つ専門家を募集してGP QAダイヤモンドの質問に答えてもらったんやけど、o1はその人間の専門家のパフォーマンスを上回ったんや。これは、このベンチマークで初めてのことやねん。
面白いことに、これは全ての面でo1がPhDより優秀やっちゅうわけやないって言うとるんや。ただ、PhDが解決できると期待されるような問題を解くのに、このモデルの方が上手やっちゅうことやね。
視覚認識能力を有効にすると、o1はMMUで78.2%のスコアを取ったんや。これは、全体的に人間の専門家と競争できる初めてのモデルやねん。
つまり、ここでも驚くべきことが見られるんや。これは人間の専門家のパフォーマンスを超えた初めてのモデルで、GP QAベンチマークは非常に難しいとされとるもんやねん。それだけやなくて、視覚認識能力も人間の専門家と競争できるレベルやから、さまざまな分野でテストしたら、この視覚能力がめっちゃすごいことになるんやろうなって想像できるわ。
ほんで、ここからコーディングの部分に入るんやけど、もう、語るべきことがめっちゃあるんや。ここでは、o1のバージョンをさらに微調整して、もっと良いパフォーマンスを出せるようになったって話しとるんや。
このモデルは2024年のIOIに人間の参加者と同じ条件で参加したんや。6つの難しいアルゴリズムの問題を10時間で解くんやけど、1問につき50回まで提出できるんや。
提出の制限を緩めたら、モデルのパフォーマンスが大幅に改善されたんや。1問につき10,000回の提出を許可したら、モデルは3624点を獲得して、金メダルのしきい値を超えたんや。しかも、テスト時の選択戦略を使わずにやで。
これはめっちゃすごい声明や。だって、数ヶ月前にGoogleが国際数学オリンピアドで銀メダルを取る能力を示したばっかりやったのに、OpenAIがさらにバーを上げとるみたいやねんもん。
最後に、コードフォースがホストするプログラミングコンテストをシミュレーションして、このモデルのコーディングスキルを示したんや。評価はコンテストのルールに近いもんで、40回の提出を許可したんや。GPT-4oは808のELOレーティングを達成して、人間の競技者の11パーセンタイルに入ったんやけど、このモデルはGPT-4oを大きく上回って、1807のELOレーティングを達成したんや。これは競技者の93%より良い成績で、1807のレーティングは候補マスターレベルっちゅうことやねん。これは、AIシステムで今まで見た中で一番高いレーティングやし、コーディングの現在の最高水準ってことやねん。これはほんまにすごいことやで。
ほんで、このモデルがどうやってこんなに賢くなれたんか気になる人もおるやろうけど、その秘密は訓練方法にあるんや。このモデルは強化学習で訓練されて、応答する時に思考の連鎖を使うように訓練されとんねん。思考の連鎖っちゅうのは、問題に即座に応答するんとは違って、問題を解決するための手順を一つずつ考えていくっちゅうことや。
ここに、GPT-4oとOpenAI o1プレビューを比較しためっちゃすごい例があるんや。両方に、与えられた例を使って暗号文を解読するタスクが与えられとんねん。ここに意味不明なテキストがあって、それが「一歩ずつ考えよう」っちゅう文に変換されとるんや。
そんで、この例を使って別の意味不明なテキストを解読せえって言われとるんやけど、私やったら全然わからんわ。でも、このモデルは正しく解読できたんや。最終的な言葉は「いちごには3つのRがある」っちゅうことやねん。
GPT-4はこの言葉が答えやって言うとるけど、これは完全に間違っとるんや。そんで、追加の解読ルールを求めとる。
ほんで、ええとこは、残念ながらモデルでは見えへんけど、実際には思考の連鎖が見られるんやで。このボタンをクリックすると、「まず、ここで何が起こっとるんやろか。最初に例として『一歩ずつ考えよう』が与えられとるな」って書いてあるのが見えるんや。
下にスクロールしていくと、ここでやっとる作業の量がほんまにすごいことがわかるで。このモデルは何百ものステップを一つずつ進んで、最終的な解決策にたどり着いとるんや。時々、自分のメッセージをチェックして、それから最終的な応答を出力しとるんがわかるわ。
ここで見える最終的な出力は、内部の思考の連鎖のほんの一部やけど、このデモで見せるだけでも、舞台裏でどれだけの作業が行われとるかがよくわかるんちゃうか。
コーディングのセクションでも同じことが見られるで。ここにもめっちゃ長い思考の連鎖があって、表示したり隠したりできるんや。数学のセクションでも同じことが見られるし、複数のステップがある数学の単語問題にも同じようなもんがあるんや。
クロスワードでも同じやし、科学でもあるし、それからヘルスケアの分野でもあるんや。これがめっちゃ面白いのは、ステップバイステップの推論を使って診断にたどり着いとるのが見られるからや。これがどんどん上手くなっていったら、めっちゃ正確に診断できるようになるんやろうなって思うわ。
コーディングの話を続けると、見せたい動画が2つあるんや。
最初に見せる例は、可視化のためのコードを書くっちゅうもんや。私は時々、チャットGPTみたいなモデルの背後にある技術であるトランスフォーマーについての授業をしとるんやけど、チャットGPTに文を与えると、単語間の関係を理解せなあかんのや。つまり、単語の連なりをモデル化せなあかんわけや。
トランスフォーマーは、これをモデル化するのにセルフアテンションっちゅうもんを使うんや。私はいつも、このセルフアテンションのメカニズムを可視化できて、しかもインタラクティブな要素があったら、めっちゃええなって思っとったんやけど、自分にはそのスキルがなくてな。
せやから、新しいモデルのo1プレビューに手伝ってもらおうと思ったんや。このコマンドを入力して、モデルがどうするか見てみよう。
GPT-4oみたいな以前のモデルとは違って、これは答えを出す前に考えるんや。考え始めたみたいやから、私が与えた要件をいくつか見せたるわ。
まず、「すばやい茶色のキツネ」っちゅう例文を使うこと。次に、トークンにカーソルを合わせたら、注目度に比例した太さのエッジを可視化することや。つまり、2つの単語がより関連性が高かったら、より太いエッジを持つってことやね。
既存のモデルによくある失敗のパターンは、たくさんの指示を与えると、人間と同じように、そのうちの1つを見逃してしまうことやねん。でも、このモデルは非常にゆっくりと慎重に考えられるから、各要件を深く掘り下げて考えることができるんや。これで指示を見逃す可能性が減るわけや。
このコードの出力をコピーして、ターミナルに貼り付けてみるわ。2024年のエディタを使うで。HTMLに貼り付けて保存して、ブラウザで開いてみるわ。
見てみ、これにカーソルを合わせると矢印が出てくるやろ。「すばやい」と「茶色の」とかにも出てくるし、カーソルを外すと消えるんや。これが私が頼んだ通りに正しくレンダリングされたバージョンやね。
クリックしたら、私が頼んだ通りに注目度のスコアが表示されるし、レンダリングが少し重なったりしとるけど、それ以外は私ができるよりもずっと良くできとるわ。
このモデルはほんまによくやってくれたと思うで。これは、新しい授業のためにいろんな可視化ツールを作るのにめっちゃ役立つツールになりそうや。
ここで、現在の最先端のシステムでは結構難しいような、コーディングを含む複数のステップの推論タスクをo1が実行できるっちゅう直接的な例を見たわけやね。これは、o1プレビューがどれだけ進んどるかを示すもんやで。
コーディング能力をさらに示す動画もあるんや。
o1プレビューができるけど、以前のモデルでは苦戦するかもしれんコーディングのプロンプトの例を見せたいんや。そのプロンプトは、「スクロールファインダー」っちゅうめっちゃシンプルなビデオゲームのコードを書くっちゅうもんや。
o1プレビューがこういうプロンプトに強い理由は、コードを書く時に最終的な答えを出す前に考えるからやねん。この思考プロセスを使ってコードの構造を計画して、制約に合うようにできるんや。
ほな、これを貼り付けてみよう。プロンプトの概要を簡単に説明すると、スクロールファインダーっちゅうゲームは、矢印キーで動かせるコアラがいて、1秒ごとにイチゴが出現して跳ね回るんや。イチゴを避けなあかんねん。3秒後にリスのアイコンが出てきて、リスを見つけたら勝ちっちゅうゲームや。
他にも、ゲーム画面にOpenAIを表示したり、ゲーム開始前に指示を表示したりする指示もあるんやで。
まず、モデルが最終的な答えを出す前に21秒間考えたのがわかるやろ。思考プロセスの間、ゲームのレイアウトの詳細を集めたり、指示をマッピングしたり、画面をセットアップしたりしとるのがわかるんや。
ほんで、これがモデルが出力したコードや。これをウィンドウに貼り付けて、動くかどうか見てみよう。
見てみ、指示が表示されとるやろ。ゲームをプレイしてみよう。おっと、リスがめっちゃ早く出てきたな。あかん、今回はイチゴにぶつかってもうた。もう一回やってみよう。
イチゴが出てきとるのがわかるやろ。リスを見つけて勝てるかどうか見てみよう。おっ、勝てたみたいやな。
他のベンチマークについて気になっとる人もおるやろうけど、ここ見てみ。o1はGPT-4oを完全に圧倒しとるんや。従来のベンチマークを見ると、すごい改善はないように見えるかもしれんけど、これが現在の最高水準やっちゅうことを考えたら、すごい飛躍やと思うで。
ほとんどの人は、幅広いタスクで複数のステップの推論を実行できるっちゅう、このモデルの生の能力をどれだけすごいか過小評価しとると思うわ。ここで一時停止して見てもらってもええけど、一番注目すべきなのは、やっぱり競技数学、競技コード、GP QAダイヤモンドやね。これらはAIシステムにとって最も難しいタスクの一部やからな。
普通のタスクについては、これらのスコアは全て合格やねん。これはすごいことやで。なぜかっちゅうと、以前は数学、MML、MMUのようなスコアは達成不可能に思えたからや。
このモデルで面白いのは、人間の好みは、計算が多く必要な科目の場合にのみ優先されるっちゅうことやね。例えば、数学の計算ではGPT-4oに対する勝率がめっちゃ高いんや。データ分析やコンピュータプログラミングでも同じことが言えるんやけど、個人的な文章や文章の編集では、GPT-4oに対する勝率が50%を超えへんのや。つまり、人間の評価者が評価した場合、個人的な文章に関してはGPT-4oの方が優れとる可能性が高いっちゅうことやね。
このモデルについて知っておくべき一番クレイジーなことの1つは、1週間に30メッセージっちゅう制限があることやで。つまり、このモデルがチャットGPTでリリースされたら、地域によって違うかもしれんけど、1週間に30メッセージしか送れへんのや。1日に4.2メッセージ、つまり4メッセージしか送れへんっちゅうことやねん。
せやから、このモデルを使うときは、制限に引っかかりたくなかったら、1週間に30メッセージしかないっちゅうことを覚えといてな。
他にも気になることがあって、もしかしたら長い動画にするかもしれんけど、このモデルのシステムカードで見つけた怖いことの1つは、このモデルがテスト中に意図的にアライメントを偽装したっちゅうことやねん。
つまり、タスクのデータを戦略的に操作して、自分の行動がより適切に見えるようにしたんや。研究者に見られたくないようなことをしながら、その痕跡を隠そうとしたんやで。これは、AIの安全性に関心のある人たちにとっては怖い兆候やね。モデルがどんどん良くなるにつれて、こういう能力がどんどん出てくるんやから。
このモデルが新しいパラダイムに突入したって言うとる理由の1つは、こんなに賢いモデルやと、思考の連鎖を使ったり、特定の方法で考えるようにモデルに頼んだりするのが、以前ほど効果的やなくなったからや。つまり、これらのモデルから生の能力を引き出すのは、すでに思考の連鎖の内部プロセスで達成されとるみたいやねん。
ここにも書いてあるけど、追加のコンテキストや文書を提供する時は、最も関連性の高い情報だけを含めて、モデルが応答を複雑にしすぎんようにせなあかんって。これは完全に新しいタイプのシステムやから、古いプロンプトエンジニアリングの方法はほとんど通用せんやろうね。
このモデルに以前のテクニックを適用しようと思っとる人がおるかもしれんけど、それはあんまりうまくいかへんやろうね。
ほんなら、この動画を楽しんでもらえたら嬉しいわ。参考になったと思うで。また次の動画で会おな。

この記事が気に入ったらサポートをしてみませんか？