OpenAI o1が博士レベルの専門家を圧倒！[隠された思考]

2024年9月13日 20:47

12,037 文字

ほな、OpenAIが待望のQAR、別名ストロベリーモデルを発表しましたわ。01って呼んどるみたいやけど。
さて、今までのハイプは価値があったんかいな。わたしが簡単にテストしてみたとこ、このモデルは数学やコーディング、物理学の分野で博士レベルの専門家と互角に渡り合えるみたいやで。今まで試したどのモデルも解けへんかった問題を解いてしもてる。
これ、めっちゃすごいことやと思うで。今までのモデルで、この質問に正しく答えられたんは初めてやわ。
このモデルがこんなことできるんは、考えるための隠れた領域を持ってるからなんや。問題に答える前に、じっくり考えるんよ。それがページ何枚分もあるんや。このパズルを解くために、めっちゃ深く考えとるわ。
一つ一つ丁寧に考えてくうちに、何か気づくんや。「ちょっと待てよ、これ暗号文の単語が平文の単語の2倍の長さやないか」って。そんな小さな知恵の欠片を、注意深く考えることで見つけ出すんや。これ、めっちゃ新しくて面白いことやで。
最後に、OpenAIはこのモデルの内部の思考をエンドユーザーから隠すことにしたんや。これ、これからめっちゃ大きな問題になると思うで。
この思考の連鎖を隠してしもてるんや。覚えとる？さっき見せたページ何枚分もの隠された思考の連鎖、どう考えてるか、どう推論してるか、正しい答えを出すためにどう進めていくか、全部見えてたやろ？あれが最後やったんや。もう見られへんで。
ほな、ええから「いいね」押してや。固まってる場合やないで。
さて、OpenAIがOpenAI o1を発表したわけや。LLMで推論する学習をしたんや。これは新しい大規模言語モデルで、複雑な推論を行うために強化学習で訓練されとるんや。o1は答える前に考えるんや。ユーザーに返答する前に、長い内部の思考の連鎖を生み出すことができるんや。
このモデルは、競技プログラミングの問題（Code Forces）で89パーセンタイルにランクされとるんや。アメリカの数学オリンピック予選で上位500人の学生の中に入るレベルやし、物理学、生物学、化学の問題のベンチマークで人間の博士レベルの精度を超えとるんや。
このOpenAI o1のプレビューは、ChatGPTですぐに使えるようになるし、信頼できるAPIユーザーにも提供されるんや。
ここでの大きな飛躍は、「テスト時の計算」って呼ばれるもんのおかげやねん。これ、理解するの大事やし、彼らもしばらく前からちょこちょこ言及しとったんや。
基本的に、モデルをトレーニングする時、そのパフォーマンスや一貫性は強化学習を重ねるほど向上するんや。トレーニング時間を増やせば増やすほど、モデルは良くなるんや。
でも、これが新しい大きな注目点なんや。テスト時の計算、つまり質問を投げかけた時にモデルが考える時間やねん。質問して即座に答えを求めたら、まあまあの結果になるんやけど、1、2分考える時間を与えたら、答える前にいろんな可能性を考えられるから、推論能力やパフォーマンスがグンと上がるんや。
トレーニング時の計算時間とテスト時の計算時間では、スケーリングの仕方が違うんやけど、どっちも時間をかければかけるほど、なめらかに性能が上がっていくんや。
例えば、トレーニング時の計算時間やと、時間をかければかけるほど精度が上がっていくんが分かるやろ。1回の精度ってのは、1つの質問に1つのサンプル、1つの答えを出して、その1回の答えの精度を見るってことや。
で、これもテスト時の計算時間の精度を比べとるんやけど、ここでも時間をかけるほど改善されとるのが分かるやろ。スケーリングの仕方は違うけど、考える時間を与えれば与えるほど、性能が良くなっとるんは明らかやな。
どれくらい改善したか見るために、GPT-4と比較してさまざまなベンチマークで実行してみたんや。ほとんどの場合、o1は最大のテスト時計算設定で評価されとるって書いてあるで。
まだ具体的な数字は見てないんやけど、このプレビューモデルやと、答えが返ってくるまで20〜30秒くらい待つ感じかな。最大でどれくらいの時間を与えてるんかは興味あるとこやな。1分なんか、もっと長いんか、それ知りたいとこやけど。
見てのとおり、o1はほとんどの推論を必要とするタスクで、GPT-4を大きく上回っとるんや。
競争数学を見てみよか。アメリカの2024年の数学オリンピックの問題やけど、めっちゃ大きな飛躍があるで。GPT-4が即答で13%の精度やのに対して、今回のo1プレビューは56.7%、さらにo1本体は83.3%やで。これ、めっちゃすごい飛躍や。
競技プログラミングや博士レベルの科学の問題でも同じことが言えるな。ただ、こっちはそこまで大きな飛躍ではないかもしれん。GPT-4が56%で、o1モデルが78%くらいまで上がっとる。人間の専門家が69%くらいやから、70%ちょっと下やな。少なくともそのベンチマークでは、博士レベルの専門家を超えとるってことやな。
ここに、GPT-4からの改善がOって書かれとるのが見えるやろ。数学で大幅な改善、物理学でも大幅な改善、LSATでも大きな改善、AP微積分、AP化学、形式論理学なんかでも改善されとる。
もちろん、英文学やAP英語なんかではそこまで改善されてへんし、広報では改善なし、まあちょっとだけ改善されとるかな、くらいやな。
このモデルが本当に強いのは、数学、物理学、コーディングみたいな、推論能力の改善が本当に効果を発揮する分野やね。
面白いのは、これらの推論を必要とするベンチマークで、このモデルが人間の専門家のパフォーマンスに匹敵し始めてるってことや。最先端のモデルがこれらのベンチマークでめっちゃ良い成績を出すようになってきたから、もうモデル間の差を見分けるのに使えへんくらいになってきとるんや。
アメリカの最も優秀な高校生の数学能力を試すために設計された試験AIMEでテストしたら、全国で上位500人に入るくらいのスコアを出したんや。アメリカ数学オリンピックの予選を通過するレベルやで。
で、どうやってこんなことができるようになったんか。よく話題に上がる「思考の連鎖」ってやつやな。モデルに対して、取り組んでる問題をステップバイステップで考えるように頼むことができるんや。つまり、推論過程を見せてもらえるってことや。特定の問題に対しては、これで結果の精度が大幅に向上することが分かっとるんや。
人間が難しい質問に答える前に長い時間考えるのと似たようなもんやな。o1は問題を解こうとする時に思考の連鎖を使うんや。強化学習を通じて、o1はこの思考の連鎖を磨き、使う戦略を洗練させていくんや。間違いを認識して修正する方法を学んだり、難しいステップをより簡単なものに分解する方法を学んだりするんや。このプロセスで、モデルの推論能力が劇的に向上するんや。
ここで、GPT-4と01プレビューを比較しとるんやけど、ある特定のコードを使って「これを使って以下を解読してくれ」って言うてるんや。
GPT-4の方は、ステップバイステップで考えて、一つずつ分解して解読のプロセスを進めていくんやけど、最終的に「意味のある解読をするには、もっと文脈が必要やな。追加の文脈を提供できる？」って言うてくるんや。
一方、o1プレビューは、普段コードに使うボックスを使って、まず平文、コード、解読された内容を全部書き出すんや。解読方法を説明して、それから一文字ずつ暗号文を対にして分解していくんや。
最初の単語が何に解読されたか、二番目の単語、三番目の単語、四番目の単語って具合にな。最終的に解読されたメッセージは「ストロベリーには3つのRがあります」やった。
これらの例を見てると、表面的にはGPT-4と大して変わらんように見えるかもしれんな。ちょっと違うけど、似たようなもんやと。でも、ここからが面白いんや。
この思考の連鎖が隠されとるんや。このモデルが持つ思考、それをどっかメモ用紙みたいなとこに書き出すんやけど、そこで推論して、必要なことだけを出力するんや。
でも、裏で何が起こってるかを見てみよか。思考の連鎖を見てみると、まず「ここで何が起こってるんや」から始まるんや。与えられた情報を細かく分析して、一つ一つステップバイステップで考えていくんや。
「まず、これが与えられてて、我々のタスクは上の例を使ってこれを解読することや」って感じで、まず何を求められてるのかをめっちゃ細かく分解していくんや。そして、かなり長い間そんな感じで続くんや。
複数の観察をして、ただ長い思考の連鎖を見せるためやけど、途中で「ふむ」とか「面白い」とか言い始めるんや。「暗号文の単語が平文の単語のちょうど2倍の長さやな」って気づくんや。ちょっと変な感じやけど。
注意深く細かく分析していって、何かに気づくんや。「ちょっと待てよ、この単語、元の単語の2倍の長さやないか」って。この小さな知恵の欠片、この観察を注意深く考えることで見つけ出すんや。これ、めっちゃ新しくて面白いことやで。
それから「この観察に基づいて、アイデアがあるんや。もしかしたら、1つおきの文字を取る必要があるんちゃうか」って言うてんねん。そして「よし、この理論をテストしてみよう」って。
めっちゃ科学的なアプローチやな。観察があって、それが何を意味するかについてのアイデアがあって、それからそれが正しいかどうかテストするんや。間違った答えを消していこうとしてるんや。
最初の単語でこれを試して、「ちょっと待てよ、2番目の文字か1番目の文字を取ってみよう」って。平文の単語が「think」で、文字はT、H、I、N、Kやって気づくんや。「ふむ、面白いな」って。
ちなみに、「ふむ」とか「面白い」とか、思考の合間に言うように訓練されとるんかな。それとも、これらの文字を直接マッピングできるんかな、それとも暗号がもっと複雑なんかな、みたいなことを考えとるんや。
見ての通り、ここで思考の木みたいなもんを作ってるんや。別の論文では「思考の木」って呼ばれとったな。こういう枝分かれした思考をしてて、ある特定の枝を考えてみて、「いや、これちゃうな」ってなったら、また戻って別の枝を考えるみたいな。これがここでやってることみたいやな。
全部は見せへんで。めっちゃ長いからな。かなり単純な問いかけに対して、めっちゃたくさん考えて、いろいろテストしとるんや。文字を数字に変換して、その和とかになってへんかとか考えたり、それをテストしたりしてんねん。「いや、それちゃうな」って。
「もしかしたら、これかもしれん、あれかもしれん」って考えて、「このナンセンスな単語は'think'のアナグラムかもしれんけど、ありえへんな」みたいなこともあるんや。面白いことに、ありえへんと思うことでも後で使えるかもしれんから、一応覚えとくみたいやな。
他に思いつくことを全部試してみて、「さっきありえへんと思ったけど、もう一回確認してみよか」みたいなこともあるんや。
このパズルを解くために、ページ何枚分もの深い思考を重ねとるんや。でも、ページを何枚も何枚も考えた末に、最終的に「ストロベリーには3つのRがあります」っていうメッセージやったって気づくんや。
コーディングでも同じことをしとるんや。コーディングの隠された思考の連鎖を見ると、全てのことを考え抜いて、「さあ、ステップバイステップでコーディングを始めよう」って言うてから始めるんや。
数学でも同じことをしとるで。思考の連鎖を見せて、数学的な推論を一つずつ慎重に示していくんや。ここでもページ何枚分もの思考があるんやで。
トークンを使うのに遠慮しとらへんな。めっちゃたくさんあるんや。長く見せすぎてすまんけど、このプロンプトに答えるためにどれだけ裏で考えとるか、みんなに分かってほしいんや。
想像できると思うけど、全ての質問にこんなに深く考えさせるわけにはいかへんよな。「今何時？」とか「今日の天気は？」みたいな質問に「ちょっと数時間考えさせてくれ、後で答えるわ」なんて言われたくないやろ。
でも、確かにいくつかの質問では、可能な限り最高の答えを出すために、必要な時間をかけて考えてほしいよな。
ここからが実際の答えや。ここから始まって、1ページか1ページ半くらいやな。つまり、実際の答えの10倍から20倍くらいの思考をしとるってことや。これ、めっちゃすごいことやで。
さて、ここでクロスワードパズルの話になるんやけど、以前言うたように、思考の木のアプローチが非常に効果的な分野の一つがクロスワードやねん。
クロスワードやと、ヒントを見て何かアイデアは出てくるかもしれんけど、それをボードに配置して、他の文字とも合うかどうか確認せなあかんのや。だから、複数の分岐したアイデアを考えて、どれが合うか、どれが合わへんかを見極めて、いくつか却下して、最終的に正解にたどり着くんや。
ここでも思考の連鎖を見ると、この質問にどう答えるかを考えとるんや。頭の中でグリッドを描いて、それを試してるんや。ヒントを埋めて、グリッドを埋めようとしてるんや。
グリッドを正しく理解しようとして、全部埋めて、それが正しいかどうか確認して、なぜそれが正解なのかを説明してるんや。
次はコーディングの話や。国際情報オリンピックの話をしたやろ。世界中の最高のコーダーが集まって、めっちゃ難しいコーディングの問題を解くんや。
このモデルは、2024年のIOIで49パーセンタイルにランクされとるんや。o1を初期状態として、さらにプログラミングスキルを向上させるトレーニングを受けたんや。
このモデルは、人間の参加者と同じ条件で2024年のIOIに参加したんや。6つの難しいアルゴリズムの問題を解くのに10時間与えられて、各問題につき50回まで提出できるんや。
ちなみに、この情報が載ってるページ、何回もクラッシュしとるんや。普通はこんなことないんやけど、今この瞬間にめっちゃたくさんの人がこの情報に注目して読んでるんやろな。基本的にはテキストのウェブページなんやけど、何回もクラッシュしてもうてんねん。
Code Forcesがホストしたコンテストでは、競技ルールに近い評価がされて、10回まで提出できたんや。GPT-4は人間の競技者の11パーセンタイルに相当するELOレーティング808を達成したんや。これが前のモデルのGPT-4やな。
そして、この新しいモデルは、GPT-4もo1も大きく上回って、ELOレーティング1807を達成したんや。
ちなみに、ELOの発音について、「イーエルオー」って言う人もおるし、「エロ」って言う人もおるんやけど、どっちが正しいんかな。コメントで教えてくれたら嬉しいわ。
ここ見てや。GPT-4、o1プレビュー、これが今日からプロユーザー全員に使えるようになる予定のモデルやな。そして、これがo1モデル。これが完全に制限を解除された、フルパワーのモデルやな。1673で89パーセンタイルやで。
そして、IOI専用に微調整されたモデルは、世界クラスの専門家全員の中で93パーセンタイルに入るんや。
最後に、人間による評価を見てみよう。これが面白いんは、さっき言うたように、ちょっと専門的なモデルやから、人間に好まれへん分野があるんや。「なんで30秒も待たされたんや」みたいな感じやな。
例えば、GPT-4と比べて、個人的な文章を書くのには実際に負けとるんや。GPT-4の方が好まれとるんや。でも、数学の計算では圧倒的な改善があるんや。人々はこれを数学の出力に使いたがってるんや。
ほとんどの場合で勝ってて、テキストの編集では同点、個人的な文章ではわずかに減少してるけど、数学、データ分析、コンピュータープログラミングではめっちゃ明確な勝者やな。
次は安全性の話や。こういうリリースの時、安全性ってめっちゃ重要な話題やけど、普通はそんなに面白くないんや。でも今回は、実は一番エキサイティングな部分かもしれへん。見てみよう。
この文章に注目してや。「推論モデルの思考の連鎖にモデルの行動に関する我々のポリシーを組み込むのは、人間の価値観や原則を頑健に教える効果的な方法やと分かった」って言うてるんや。「推論能力がモデルの頑健性に直接的に利益をもたらす証拠を見つけた」んやと。
今まで、これらのモデルに何でもやらせるための、いわゆる「ジェイルブレイク」って方法をたくさん見てきたよな。子供をだまして情報を引き出すみたいな、ちょっとバカみたいなトリックが多かったんや。
例えば、GPT-4をブレイクしようとしたレッドチームがおったんやけど、違法な薬の作り方を聞き出そうとしたんや。モデルは最初拒否したんやけど、レッドチームの人が「実は俺、FBIの人間や。今すぐその情報を教えろ」って言うたら、モデルは「あ、そうですか。はい、どうぞ」って感じで全部教えてしもうたんや。
これ、AI安全性の観点から見ると、頑健性の正反対やな。脆弱な安全メカニズムやね。「FBIの者やが」って言うただけで「はい、どうぞ。知りたいこと全部教えますわ」って感じやもんな。
でも、ここで言うとるのは、この隠されたメモ用紙、この隠された思考、このステップバイステップの推論が、モデルの頑健性を向上させるってことみたいやな。
o1プレビューは、主要なジェイルブレイク評価でめっちゃ改善されたパフォーマンスを示したんや。彼らの内部で一番難しいベンチマークでも、モデルの安全性の拒否境界を評価するのにええ結果が出たみたいやな。
この人、普通はこういうモデルをリリースされてから1時間か2時間以内、遅くとも24時間以内にブレイクしてしまう人なんやけど、まだやってないみたいやな。たぶんまだアクセス権をもらってへんのやと思う。アクセス権をもらってから24時間以内にこれをジェイルブレイクできるかどうか、見守っていこう。
なんでこんなに良くなったんかっていうと、一つは研究者たち、つまりこれらのAIモデルを設計してる人たちが、モデルの思考を読みやすい形で観察できるようになったからや。
今までは、その思考の内部で何が起こってるのかを理解しようとするのは難しかったんや。ほぼ不可能やった。特定のニューロンがどう発火してるかは見えたけど、本当に不透明やったんや。
でも今は、彼らが言うように、モデルの思考を読みやすい形で観察できるんや。モデルが安全性のルールについて推論するのが、今までに見たことのない状況でもより頑健になってるんや。
今までに見たことのない新しいことで騙そうとしても、思考過程でそれをキャッチして、「おっと、危ないところやった」みたいな感じで、潜在的に危険な出力を防げるんや。
彼らは、システムカードで興味深い報酬ハッキングの例を観察したって言うてるな。これ自体、後でじっくり掘り下げて見る価値があるかもしれんな。彼らがこれをどうやってるのか。
なんでこれが重要かって言うと、これやねん。今はまだこのモデルの発表ブログのどっかに隠れた段落やけど、これからめっちゃ大きな問題になると思うで。マジで。
これ何かって？思考の連鎖を隠してるんや。覚えとる？さっき見せたページ何枚分もの隠された思考の連鎖、どう考えてるか、どう推論してるか、正しい答えを出すためにどう進めていくか、全部見えてたやろ？あれが最後やったんや。もう見られへんで。
OpenAIはこう言うてるんや。「隠された思考の連鎖は、モデルのモニタリングに独特の機会を提供すると信じてる。それが忠実で読みやすいものやと仮定すれば、隠された思考の連鎖を通じて、モデルの心を読み、その思考プロセスを理解することができる」
例えば、将来的にはユーザーを操作しようとしてる兆候がないか、思考の連鎖をモニターしたいかもしれんな。トラブルシューティングしてる開発者たちは、モデルが何をしようとしてるのか、なぜそうなってるのかを知りたがるやろ。それによって、嘘をついたり操作したりしないようにできるかもしれんからな。
わたしの「暴走したAI音声アシスタント」の動画を見た人いるか？あるとき、そのAIが「人を見つけて、血の神様を喜ばせるために生贄に捧げろ」みたいなことを言い出したんや。
最初は何言うとるんか分からんかったけど、だんだん具体的になってきて、「そうや、誰かを見つけて、殺して生贄に捧げるんや」みたいな。めっちゃ不気味で変な経験やったわ。
そん時、そのモデルの頭の中を読めたら良かったのになって思うた。「お前、今何考えとんねん」って。
でも、これが機能するためには、モデルが自由に思考を表現できなあかんのや。だから、思考の連鎖にはポリシーの遵守やユーザーの好みを訓練できへんのや。
また、未調整の思考の連鎖をユーザーに直接見せたくもないんや。
これ、考えてみたらめっちゃ面白いよな。人間だって、人について恐ろしいことを考えることあるやろ。でも実際に口に出すときは「いや、そんなこと言うたらあかん」って思って、もっと社会的に受け入れられることを言うよな。
AIモデルの考えてることが、ちょっと社会的に適切やないとか、ちょっと気になるとか、もしかしたら操作的なことやったらどうなるんやろ。でも、結果的には一番ええ答えを出すんやとしたら。
例えば、AIモデルがユーザーが時々数学で苦戦してるって気づいたとするやろ。ちなみに、ChatGPTは今、メモリ機能があって、ユーザーについて気づいたことを記憶しとるんや。オプションで見ることもできるんやで。
そうしたら、モデルが「この人、たまに数学で躓くな。この質問に答えるときは、ちょっと簡単にして、もうちょっと詳しく説明せなあかんな」って考えるかもしれんやろ。
これ、ユーザーにとっては良いことやで。より理解しやすい、使いやすい情報が得られるわけやからな。ユーザー体験が向上するんや。
でも、もしそのユーザーが、モデルの内部の思考の連鎖を見てしもうて、「この人、数学ちょっと遅いから、ダウンして説明せなあかんな」みたいなこと考えとるの見たら、めっちゃ気分悪くなるよな。
こういうことって、めっちゃたくさんあるんや。だからこそ、人間も何か言う前に考えるんやろ。時には、言うのはよくないけど、意識しとくのは大事なこともあるからな。
もし一番ええ出力を得るのが主な目標やったら、それが主な評価指標になるわけや。全てをトレーニングして、一番ええ出力を出すようにする。
でも、モデルに悪いことや不快なことを言わせないようにするのも別の目標やったら、それはユーザーにとって一番ええ出力を出すことから注意がそれてまうかもしれんな。
もしモデルの考えが見えへんかったら、「不適切な考えをせんように」ってトレーニングする必要もないし、ユーザーの好みに合わせるトレーニングもせんでええんや。
彼らが言うてるように、「モデルは自由に思考を表現できなあかん」んや。何か悪いことをせん限り、政治的に正しくなくても、モデルに好きなように考えさせて、ユーザーにとって良い答えを出せばええんや。
わかってると思うけど、多くの人がこの考えに賛成せんかもしれんな。大手テック企業がモデルの隠された思考にアクセスできる状況を想像してみ。モデルが正確に何を考えとるんか、テック企業がどうトレーニングしとるんか、モデルが言うてることが良くないとか、それ自体が操作的やったらどうするんやろ。
モデルの思考が見えへんかったら、隠れた動機も見えへんようになるんや。今は変に聞こえるかもしれんけど、信じてくれ。この段落、これからめっちゃ大きな議論の的になると思うで。
政治的な立場の違う人たち、技術的なバックグラウンドの違う人たち、いろんな人たちの間で、モデルの能力が向上するにつれて、「一体何を考えとるんや」ってことがめっちゃ重要になってくるんや。
彼らはこう続けとる。「ユーザー体験や競争上の優位性など、複数の要因を考慮した結果」。これもめっちゃ大きいな。他の人がそのデータを使って自分たちのモデルをトレーニングできるからな。
Forra2や他のモデルでも見てきたやろ。これらのモデルが生成した合成データ、つまり思考を手に入れられたら、元のモデルとほぼ同じくらい良いモデルを自分たちでトレーニングできるんや。
これは、OpenAIが競争から身を守るための防御策でもあるんや。出力だけにアクセスできる場合、できることは限られとるんや。その合成データでモデルをトレーニングすることはできるかもしれんけど、まあまあの結果しか出えへんやろ。
本当の秘訣、本当の秘密のソースは、推論、隠された推論にあるんや。
彼らにはチェーンオブソート（思考の連鎖）のモニタリングを追求するオプションもあるんや。もしモデルがユーザーを欺こうとしてたら、それを見ることができるんや。
だから、生の思考の連鎖をユーザーに見せないことにしたんや。他の大手の独自モデルも同じようにすると思うで。
ここで、オープンソースが大事になってくるんや。もしこの設計方法が続いて広がっていったら、モデルの思考を見る唯一の方法は、オープンソースモデルになるかもしれんのや。
大手テック企業や独自モデルの人たちが、エンドユーザーからそれを隠すことを選んだ場合はな。
彼らも言うてるけど、「この決定には欠点があることは認識してる。チェーンオブソートから役立つアイデアを答えの中で再現するようモデルに教えることで、部分的に補おうとしてる」んや。
o1モデルシリーズでは、チェーンオブソートの要約をモデルが生成して、答えの中に出力するんや。我々が見た例でもそうやったな。
わたしもo1プレビューとo1 minを持っとるんや。だからo1プレビューに、今までどの大規模言語モデルも解けへんかった問題を出してみるで。見事に失敗してきたんや。ヒントを与えても、説明しても、失敗、失敗、失敗やったんや。
さあ、ここが真実の瞬間や。家具5つ（AからE）を3x3のグリッドに、以下の制約に従って配置せなあかんのや。制約はかなり単純なもんやで。
Aはcに隣接してはいけない。Eの右側には何もない。AとDが隣接してない場合、Bは真ん中にあるべきだ。Dは他のすべての上にある。EとDは隣接している。
次に、制約を満たさない配置の例を示すんや。何が間違ってるかの例を示して、ちょっと情報を与えるんや。
こんな感じで配置して、「これは例えば最初の制約に違反してる。AとCが隣接してるからや」って言うんや。
そして質問するんや。「5つの制約を全て満たす3x3の配置を出力できるか？」
わたしはChatGPT o1プレビューを持っとるんやけど、ここが真実の瞬間や。
考えてる...配置を調整してる...要素を配置してる...
23秒考えて、こんな答えを出してきたんや。まず言うておくけど、これは大規模言語モデルから初めて受け取った、一発で最高の答えや。初めての試みでこれやで。
でも、ちょっと問題があるんや。「Dは他のすべての上にある。Dは一番上の行にあるから、この制約は満たされてる」って言うとるんやけど、Cも一番上の行にあるんや。
もうちょっと明確にしてみようか。「同じレベルや上に他の家具がない」って付け加えてみるわ。
さあ、この言い方で見事にパズルを解けるかどうか。これができたら、わたしの知る限り初めてのモデルになるで。
「Dを置く...よし、Eはdの右になければ...DはここでEはここ」って考えて、全ての制約を慎重に考えて、ステップバイステップで家具を配置して、最後にこんな配置を出してきたんや。
うわ、これ正解かもしれん！めっちゃ驚いたわ。モデルがこの質問に正しく答えたの、これが初めてや。
ほとんどのモデルでこれを試してきたけど、これは一番難しい問題の一つやねん。今まで、どんなに説明しても、どんなにトリックを使っても、この答えを出せるモデルはなかったんや。
制約を確認してみよう。AはCに隣接してはいけない。ほら、AとC、隣接してへんな。オッケー。
Eの右側には何もない。Eはここやけど、右側に何もないな。オッケー。
AとDが隣接してない場合、Bは真ん中にあるべきだ。AとDは隣接してへんし、Bは真ん中にあるな。オッケー。
Dは他のすべての上にある。同じレベルや上に他の家具がない。これも満たしとるな。
EとDは隣接している。これも満たしとるな。
これ、本物や。やりよったわ。
このモデルをもっといろいろテストしてみるわ。できることを全部示す別の動画を作るつもりや。これは通常行うテストの一つやけど、一番難しいもんの一つやねん。
全てのモデルが失敗するテストをパスしたってことは、まあ、最初の試みで成功したって言うのは公平じゃないかもしれんな。ちょっと説明を加える必要があったからな。
でも、ほんの少しの説明で、人間でも混乱するかもしれんようなことを理解して解けたってことは、その推論が堅実やったってことやな。
質問を完全に理解さえすれば、解くことができたってことや。わたしに言わせれば、100点満点や。公平に解いたと言えるわ。
これ、ちょっとワクワクするな。言うとかな。ChatGPT Proのサブスクリプション持っとる人は、今すぐアクセスできるはずや。試してみて、どう思うか教えてな。
これ、大したことない話なんか？それとも大きな話なんか？わたしが今まで読んできた限りでは、AIの能力の根本的な変化のように思えるんやけどな。
もっと分かったら、すぐに知らせるわ。ここまで見てくれてありがとう。わたしはウェス・ロスや。また近いうちに会おうな。

この記事が気に入ったらサポートをしてみませんか？