OpenAIが新モデル「GPT o1」をリリース！（「Strawberry」思考連鎖推論の初見）

2024年9月13日 06:51

10,013 文字

ほな、みんな聞いてや。OpenAIがついに新しいモデルを出したんや。噂の「Strawberry」アーキテクチャーを使うてんて。もう今日から使えるんやで。実際、ワイも使えるようになってん。ChatGPTのプラス会員やったら、2つの新しいモデルが使えるはずや。「o1」言うて、めっちゃ高度な推論ができるんや。問題に答える前に考えてから答えるんやて。
この新しい「Strawberry」アーキテクチャー、めっちゃ驚いたわ。今日からみんなが試せるなんて。OpenAIのブログにも載ってるし、Sam Altmanも言及してはるけど、それはあとで触れるわ。まずはこのモデルを試して、どう動くか見せたろ思てん。
ChatGPTのプラス会員やったら、「o1 preview」と「o1 mini」が見えるはずや。日に使える回数は限られてるみたいやけど、「o1 mini」のほうが「preview」より使える回数多いわ。「preview」は最高レベルの推論ができるらしいで。
ほな、みんなが話題にしてる定番の質問、「Strawberry」の中に「r」は何個あるか、聞いてみよか。
おっと、さすがOpenAIや。内部サーバーエラーが出てもうた。あ、今度は考えとるわ。質問を分析して、「r」の数を数えて...ほな、答えは「Strawberry」の中に「r」が3つあるってことやな。正解や。
以前のGPT-4やと、この質問に正解したり間違えたりしてたんや。ほら、ここに間違えた例があるわ。「Strawberry」には「r」が2つあるって答えてる。でも、時々正解することもあったんやけどな。
まあ、これはそんなに難しい問題やないわな。もっと複雑なもんを与えてみよか。人間には直感的やけど、大規模言語モデルには直感的やない問題を考えてみるわ。
ほな、こんな感じやで。朝、コップ一杯の水があって、そこからティースプーン1杯分の水を取り出して別のコップに入れて、カウンターに置いとく。そのあと、元のコップの水を製氷機に入れて4つの氷にする。夜になったら、その氷をグラスに入れて、銀のビーズも1つ入れる。そのグラスをテーブルの上で逆さまにして、電子レンジに入れる。電子レンジをつけて、コップを取り出す。この後、各変数はどういう状態になってるんやろか？
ワイが求めてる答えは、氷はカウンターのどこかにあって、ビーズもカウンターのどこかにあるはずや。温かいグラスがあって、最初に取り出したティースプーン1杯分の水は蒸発してるはずやねん。
GPT-4もこの新しいo1も引っかかるんかどうかわからんけど、試してみよか。まずGPT-4に聞いてみて、それからchat gp o1 previewにも聞いてみるわ。
おっ、一連の出来事を追跡しようとしてるわ。本当によく考えとるな。まだ考えてる...あ、答えが出たわ。
水はほとんど変わらへんけど、少し蒸発してるかもしれんって。氷は電子レンジの中の逆さまのグラスの下で溶けて水になってるって。うーん、ワイが求めてた答えとは違うな。17秒も考えてくれたのに。
グラスの下に氷とビーズが閉じ込められてるかもしれんって考えとるわ。電子レンジに入れるのは危険やし、置き方も問題あるって言うてる。ほな、次のチャンクへ...
逆さまのグラスに氷と銀のビーズを入れて電子レンジに入れたら、ショート回路起こしたり過熱したりする可能性があるって。どの手順を踏んでも、グラスが割れる可能性が高いって。いろんな可能性を考えて、問題を解決しようとしてるのが面白いわ。
グラスを逆さまにしてテーブルの上に置いて、それを電子レンジに入れるって...ティースプーン1杯分の水はカウンターに残ってて、氷とビーズの状態が気になるって。夕方には部分的に蒸発してるかもしれんって。でも、実際にはそこには入ってへんのやで。グラスをひっくり返したら、重力で落ちてまうやろ。
銀のビーズは小さいから、電子レンジの中で大きなアーク放電は起こさへんやろうって。ほんまにいろいろ考えてるわ。
グラスの下にドーム状の空間ができて、ビーズの周りで氷が溶けて液体になってるって。状態を追跡して、液体の水になったって。うーん、ワイが求めてた答えとは違うな。氷は溶けてへんはずやのに。銀のビーズはそのままで、今は水たまりの中にあるって。
面白いわ。GPT-4の最終的な答えもほぼ同じやったな。ほな、これ本当にそうなん？って聞いてみよか。地球上の台所で起こってることで、宇宙やないで？って。
キーとなる詳細を明確にして、場面をマッピングして、電子レンジのダイナミクスを考えて、電子レンジの安全性と潜在的な危険性を評価して、前の間違いを修正してるわ。元のコップを水に入れて...グラスの準備をして...4つの氷をグラスに入れて...逆さまにして...
圧力が上がって...潜在的な結果として圧力が増加して、グラスが割れて安全上の問題が起こるって。でも、ワイはグラスを逆さまにしてテーブルの上に置いてから電子レンジに入れるって言うたんやで。そしたら全部落ちてまうやん。
まだ気づいてへんわ。氷は本当に電子レンジの中にあるんか？って聞いてみよか。
おっ、考えとる...エピファニーが起こりそうや。
プロセスを観察して、状況を明確にしようとしてるわ。このモデル、プロンプトの影響をめっちゃ受けそうやな。「よく考えて、状況を明確にしてから評価してや」って言うたら、毎回正解するんちゃうかな。これからの数日間、このモデルで遊ぶのが楽しみやわ。
まだ一生懸命プロセスを明確にしようとしてるわ。すごいな、本当によく考えとる。
あかん、まだコップのテクニックにこだわってもうてる。朝のコップの水...グラスの中の氷...室温でゆっくり溶けて、グラスの下に小さな水たまりができてる...逆さまのグラスの下にあって、テーブルが氷とビーズを覆ってる...グラスに結露があるかもしれんって。
ようやく正解にたどり着いたわ。ちょっとずつ押してったら正解したな。
ほな、同じ質問をGPT-4にもしてみよか。GPT-4もほぼ同じ答えやったけど、「氷は本当に電子レンジの中にあるんか？」って聞いたら、ようやく正解にたどり着いたわ。
結局、この新しいo1 previewと古いGPT-4はほぼ同じように動いたわけや。でも、これだけで判断せんといてな。このテストだけでも、このモデルはプロンプトの影響をめっちゃ受けそうやって分かったわ。適切なプロンプトを与えたら、もっとうまく考えられるはずや。これからもっとテストせなあかんな。
ほな、同じ論理問題をもう一回与えてみよか。でも今度は前置きをつけるわ。「人間レベルの論理と推論を使うて、自分がこの行動をしてるように想像してみて、どんな反応が起こるか考えてみて」って。
さあ、今度こそ最初から正解するかもしれんで。
変数を特定して...初期状態を確認して...状況を再評価して...プロセスを振り返って...すごいな、本当によく考えとる。たくさんのトークンを使うてるけど、たくさん生成してるわ。
おっと、まだ氷を直接電子レンジに入れようとしてるわ。テーブルの上に置くことと物理法則を考慮してへん。「あんた、物理の専門家やで」って言うたら、うまくいくかもしれん。
電子レンジとの相互作用を評価して...電子レンジ後の状態を評価して...まだ電子レンジに固執してもうてるな。人間が論理問題を解くときみたいに、細かいところにこだわってしまうてるわ。
まだ正解にたどり着かへんわ。残念やけど、このテストだけでこのモデル全体を判断せんといてな。これは非常に特殊なテストやからな。
明らかに何かが起こってる。もっとプロンプトを試して、別のテストをしてみる必要があるわ。でも今はちょっと、このモデルとより小さいモデルについてのブログ記事を見てみよか。
ほな、大規模言語モデルでの推論の学習について。OpenAIがo1を紹介してるわ。これは複雑な推論を行うために強化学習で訓練された新しい大規模言語モデルやて。o1は答える前に考えるんや。ユーザーに応答する前に、長い内部的な思考の連鎖を生成できるんやて。
競技プログラミングの問題では89パーセンタイルにランクインしてて、アメリカの数学オリンピック予選に出場する上位500人の学生レベルで、物理学のベンチマークでは人間のPh.D.レベルの精度を超えてるらしいわ。でも、基本的な論理問題でつまずくのは面白いな。
生物学と化学の問題、GP-QAでも優れた成績を出してるみたいや。現在のモデルと同じくらい使いやすくするにはまだ作業が必要やけど、ChatGPTですぐに使えるように、このモデルの早期バージョンをプレビューとしてリリースしてるんやて。
そやな、今日のプロンプトテストで見たのは、まさにこのことやと思うわ。現在のモデルと同じくらい使いやすくするにはまだ作業が必要やって。
大規模な強化学習アルゴリズムで、モデルに思考の連鎖を使って生産的に考える方法を教えてるんやて。非常にデータ効率の良いトレーニングプロセスやそうや。o1の性能は、強化学習のトレーニング時間と計算量が増えるほど、そして考える時間が長くなるほど、一貫して向上するらしいわ。
おお、これは全く新しい世界やな。実際に考える時間が長くなるほど、そしてトレーニング時間が長くなるほど、出力が良くなるんやて。
o1は、トレーニング時間とテスト時間の計算量の両方でスムーズに改善されるらしいわ。評価結果はめっちゃすごいで。
競争数学のAIM 2024では、完全版のo1がかなり性能が上がってるみたいや。previewは56%やけど、完全版のo1は83.3%の精度やて。GPT-4は13.3%やから、めっちゃ上がってるわ。
競技プログラミングのCodeForcesでも、GPT-4が11%なのに対して、o1 previewが62%、完全版のo1が89%やて。
Ph.D.レベルのGP-QA Diamondでも、GPT-4が既に人間の専門家レベルに近い56%（人間は69%）やったのに、o1 previewは78.3%、完全版のo1は78%まで上がってるわ。
ほとんどのベンチマークで、o1の改善は着実やな。AP物理学2では大幅に向上してて、LSATもめっちゃ上がってる。微積分と化学でも decent な向上やけど、大学数学ではなんと98%まで上がってる。形式論理学も同様に、ほぼ100%の完成度やな。これはワイらのテストが該当する分野やと思うけど、うまくいかへんかったな。
もしかしたら、これらのベンチマークは少し古いかもしれんし、穴があるかもしれんわ。大規模言語モデルのための新しくて良いベンチマークが必要やと思うわ。特に今週初めに反省モデルの状況があったからな。
物理学でも59%から92%に大幅に向上してて、化学も40%から64%に上がってる。まだまだ改善の余地がたくさんあるみたいやな。
面白いことに、AP英語では全く改善がないんや。チューニングがあまり役に立ってへんのか、もっと良いプロンプトが必要なんかもしれんな。AIについては、まず作ってから後で学ぶって感じの技術やからな。自分で学習した凄い知能を発明して、それからその使い方を探るみたいな感じや。
多くの推論を必要とするベンチマークで、人間の専門家のパフォーマンスに匹敵するか、それを上回ってるらしいわ。最近のフロンティアモデルは、GSM-8Kの数学でめっちゃ良い成績を出してるから、もうこれらのベンチマークではモデルの差を見分けるのが難しくなってきてるんやて。
AIMチャレンジの数学性能では、アメリカの最も優秀な高校生数学者たちと競争してるんや。2024年のAIM試験で、GPT-4は平均12%しか解けへんかったのに対して、o1は平均74%も解けたんやて。めっちゃ高いな。
学習したスコアリング関数で1000個のサンプルを再ランク付けすると、13.9のスコアは上位500人の学生の中に入るらしいわ。GP-QA Diamondでも同じような結果やったな。
強化学習を通じて、思考の連鎖を磨き、使用する戦略を洗練させる方法を学んだんやて。今週初めに見た反省チューニングと似てるんかどうかはわからんけど、これはベンチマークでかなり良い成績を出してるな。でも、OpenAIの結果と一致するかどうか、ベンチマークをテストせなあかんわ。これ、めっちゃ重要やと思うわ。今週、そのことも学んだしな。
このプロセスで、モデルの推論能力が劇的に向上するらしいわ。この飛躍的進歩を示すために、思考の連鎖を紹介してるんや。
ここにOpenAIの例があるわ。o1 previewとGPT-4を並べて比較してるんや。ちなみに、これはテキストモデルだけで、画像認識はまだないらしいわ。ちょっと残念やけどな。
ここに暗号解読の例があるわ。o1 previewは「strawberry」って単語を解読できてるな。ナイスなヒントやで、OpenAI。GPT-4は追加の解読ルールや変換を求めてる。基本的に、追加情報がないと解けへんみたいやな。でも、o1は追加の推論と解読能力で、全体の思考の連鎖をうまく説明できてるわ。
コーディングも大きな使用例やと思うわ。正しいコードを作成してるみたいやな。これは全体的にコーディングの改善につながると思うわ。たぶん、Xとかでこのモデルのコーディングテストをよく見ることになるやろな。
ここに証拠があるわ。このモデルは全てのテストでより優れてるんや。OpenAIが自分たちの評判を台無しにするようなことはせえへんと思うから、これは本物やと思うわ。でも、やっぱり自分たちでこれらの問題を再評価して検証する必要があるわ。
この時点で、モデルの知能はおそらくユーザーの基本的な知能を超えてるんちゃうかな。これはAGI（人工汎用知能）と言えるんやろか？正直に言うて、みんなこのモデルより科学や数学が得意なんか？こんな数学全部できるんか？
安全性に関する質問もあるし、CodeForcesのELOレーティングもあるわ。o1よりもさらに高いモデル、o1-ioiもあるらしいわ。o1のELOレーティングは、最高のモデルの2倍以上やて。これはめっちゃすごいわ。基本的なo1でも約2倍、プレビュー版でも少し小さいけどかなり高いな。
最高で最強のモデルにはまだアクセスさせてくれへんけどな。
人間の好みも面白いわ。勝率は確かに少し高いけど、ベンチマークが示唆するほど高くはないんや。これは、ワイが言うてた「変化に気づけるほど賢いんやろか？」って話につながるわ。単に「より良い」って信じるか、もっとプロのベンチマークをする必要があるんかもしれんな。
ここで言うてるベンチマークが全部悪いとか無意味やとは言ってへんで。ただ、こんな賢くて知的なモデルができた今、ベンチマークを変える必要があるんちゃうかなって思うんや。
それに、最適なプロンプトの方法を見つけるのも大事やな。これ、めっちゃ重要やで。
ほな、ブログ記事の簡単な概要はこんな感じやな。全てのベンチマークでより良い結果を出してて、人間の好みでも良いって見られてるけど、ベンチマークとは完全に一致してへん。つまり、人々はこのモデルが本当にどれだけ優れてるかに気づいてへんのかもしれんわ。
もちろん、今日のワイらの論理問題でも何回か失敗したけどな。でも、たぶんちょっとした細かいところにこだわりすぎたんやと思う。
ほな、自分で論理問題のテストを実行して、自己改善して、最適なプロンプト方法を見つけてみるわ。自分で修正してみるんや。ある程度自律的になったんやから、自分でできるはずや。
おっ、複数のテストを実行して、結論を出そうとしてるわ。プロンプトがめっちゃ長くなってもうたな。これ、本当に面白いわ。大規模言語モデルのプロンプト方法を完全に見直さなあかんくなったみたいやな。
これらの実践を実装すると、より効果的で洞察力のある問題解決ができるようになるらしいわ。詳細な説明を求めたり、組織的なツールを提案したり、検証を促進したりするんやて。
これらの発見に基づいて、あんたとのやり取りの前に使う基本的なプロンプトを書いてみてくれへんか？
時々、あんまり考える必要がない時もあるみたいやな。簡単なことには数秒しか考えへんのが良いわ。複雑なことにはもっと深く考えるけど、簡単なことにはそこまで考えへんでいいってのはええと思う。
でも、コピペできるようなものが欲しいんやけどな。このモデル、もっと深く考えるみたいやけど、ワイが何を求めてるかをすぐに理解するのは苦手みたいやな。
6秒考えて、何も出力せえへんかったわ。これ何や？中国語が出てきたわ。プロンプトを生成するのに中国語を使ってるみたいやな。チャンク...ok、これはプレビュー版やから、ワイが変なことをさせようとすると問題が出てくるんやな。中国語のテキストが出たり、ただ「チャンク」って言うたりするわ。変やな。
コピペできる一般的な事前プロンプトが欲しいんやけど。さあ、ChatGPT、このモデルにはめっちゃ明確に指示せなあかんみたいやな。
ほな、これでちょっとマシになったわ。画像アップロード機能があったらええのにな。ルートを与えて、「この地点に行くのに一番効率的な方法は何や？」って聞きたいわ。将来的にはマルチモーダルな画像入力機能を持つらしいけど、まだやねんて。
次のプロンプトは自己評価を使って改善するんや。「この間取りの寝室を最も効率的に片付ける方法は何や？」って聞いて、GPT-4 Omniで生成した視覚的な説明を与えるわ。
ほな、散らかった寝室のランダムな写真を取って、それを送るわ。「この散らかった寝室を詳細に視覚的に説明して、位置関係も説明してや」って。
理論的には、これがあんたの寝室で、できるだけ早く片付けたいって状況やと考えてな。「寝室を最速で片付ける方法」って確認して、さっき作った事前プロンプトも使うわ。
よし、寝室を片付ける最速の方法や。考えとる...部屋を整理する...服の山を整理する...タスクを分類して、洗濯、ベッドメイキングなどのカテゴリーに分けて部屋を掃除するのが一番ええ方法やって。
部屋の美観を高める...最終的な詳細に取り組む...ほな、家にいる皆さん、この新しいGPT-4 o1かChat GPT o1 previewの答えに同意するかどうか見てみよか。
まず、汚れた洗濯物を全部集めるんやて。これは理にかなってるな。理由は、服の散らかりをすぐに減らして、きれいな服と汚れた服が混ざるのを防ぐためやって。汚れた洗濯物は全部洗濯かごに入れるんやて。
ドレッサーの上にある水色の洗濯かごのきれいな服と、家具の上にかかってるきれいな服も片付けるんやて。きれいな服を片付けると空間が広くなって、視覚的な散らかりが減るからな。
開いてるタンスの引き出しを全部閉めて、服が引っかかってへんか確認するんやて。引き出しを閉めると、より整頓された印象になるわな。
次に、ベッドから物を取り除いて、シーツを整えて、枕を並べるんやて。
それから、表面を片付けて、電子機器や角にあるものを整理するんやて。これは最後の方やな。
床から物を拾って、最後に窓のブラインドを開けるんやて。
最後に掃除機をかけて、自己評価と検証をして、効率性、効果、徹底さ、エラーチェックをするんやて。
ワイも気づいたんやけど、このモデル、最後の方でちょっと引っかかる傾向があるな。生成が終わってへんのに、手動で止めなあかんみたいや。これ、ちょっと変やな。
ほな、o1 miniでも似たような答えが出るか見てみよか。これはもっと小さいモデルやからな。
今回は数秒考えただけで、答えを出さへんかったわ。明らかにこっちの方が悪い応答やな。
「できるだけ安く簡単に物体を宇宙に送る方法は何や？普通の人間やと考えてな」って質問して、今度はo1 miniを使ってみよか。
オプションを考えとるわ。「物体を宇宙に送るのはワクワクする目標やけど、普通の人間には難しそうに思えるかもしれへん。でも、技術の進歩のおかげで、簡単になったんやで」って。
キューブサットや小型衛星、ライドシェアプログラムがあるらしいわ。SpaceXやRocket Labsみたいなロケット会社が、ライドシェアの機会を提供してるんやて。
ワイは風船を使う方法を期待してたんやけどな。YouTubeで誰かがやってるのを見たことあるわ。亜軌道飛行もあるらしいわ。でも、詳細な答えをくれたのはええな。
DIYロケットについても触れてるわ。ほな、「風船を使うだけじゃあかんの？YouTubeで誰かがやってるの見たことあるんやけど」って聞いてみよか。
「確かに、それは最もアクセスしやすくて費用効率の良い方法の一つやな。でも、重要な違いがあるんや」って。高度の制限とか軌道力学の話をし始めたわ。
風船よりも宇宙空間の方がええって考えとるみたいやけど、もしワイが興味あるなら次の手順も教えてくれたわ。
正直言うて、この応答めっちゃ好きやわ。これは間違いなく、ワイが使った中でも最高クラスの大規模言語モデルやと思う。
最後に、このモデルに対するコミュニティの基本的な反応をちょっと見てみよか。これ、めっちゃ大事なことやからな。OpenAIが推論して考えるっていう新しいモデルを出したんやで。
Matthew BurmanっていうYouTuberがo1 previewのテストを終えたらしいわ。彼は優れたLLMテストで知られとるんやけど、彼のテストスイート全体で間違えたのは1問だけやったって。これはめっちゃすごいな。
大規模言語モデルのもっと深いテストに興味あるなら、彼のチャンネルをおすすめするで。ワイはここではあんまり深いテストはせえへんからな。ワイはどっちかっていうと、一般の人向けの平均的なテストをするタイプやねん。
OpenAIのCEOのSam Altmanは「もっと辛抱強くな、Jimmy」って言うてる。Jimmy Applesは「ええ感じやで、Sam。マジでええ感じや」って返事してる。ようやく何か出荷できて、今日から実際に使えるものができたってことやな。
YouTuberのByCloudによると、このモデルは週30メッセージまでしか使えへんらしいわ。これはマジで信じられへんくらい少ないな。でも、時間が経てば改善されるやろ。
TwitterのKarina Nenも、o1がレトロなSFの雰囲気の小さなゲームを作るのがめっちゃ上手いって言うてる。ここにアステロイドゲームがあるけど、これはかなり印象的なゲーム作成やな。これも将来的にもっと詳しく見てみたいわ。
Matthew Burmanが投稿した別のテストもめっちゃ印象的や。「このプロンプトへの応答に何単語あるか？」って質問に10秒考えて、本質的に自分で選べることに気づいたんや。文を1つ選んで、それに従ったんや。これは人間レベルの推論やな。めっちゃ好きやわ。
Jimmy Applesもこれにめっちゃ感動してる。「全体的に素晴らしい仕事や」って言うて、このGIFを投稿してる。「満足せえへんのか？」って。みんな満足してると思うで。OpenAIがついに今年何か出荷したからな。
Joanneは、バランスの取れた良い視点を提供してると思う。彼女は「今、フィードにStrawberry o1のハイプがたくさんあるけど、間違った期待を抱かせてるんちゃうかって心配や」って言うてる。
まず、o1は本当に難しいタスクで輝く最初の推論モデルで、これからもっと良くなるはずやって。でも、o1は全てを以前のモデルよりも上手くこなすっていう奇跡のモデルやないって。これを期待してたら、ガッカリするかもしれんって。
ワイも全く同意やわ。期待を抑えるべきやと思う。OpenAIがようやく何か出荷して、それが斬新で面白くて、今まで見たことないものやからハイプになってるのはわかる。
でも、AIコミュニティやオープンソースコミュニティに追いつかせたほうがええと思う。いつものように、たぶん1ヶ月くらいで推論や思考のモデルが出てきて、それらもかなり良いものになるやろ。
ワイはめっちゃワクワクしとるわ。ここまでOpenAIはええ仕事してると思う。これをもっと使って、どんなもんか見てみたいわ。異なるプロンプトにどう反応するか、本当にクールなことができるかどうか見てみたいわ。
みんな、ありがとう。将来的にもっと動画を出すつもりやから、楽しみにしててな。また会おな。さようなら。

この記事が気に入ったらサポートをしてみませんか？