うわ、ちょっと怖なってきたわ...

2024年9月15日 06:04

12,003 文字

ほんなら、正解を出せるほど賢いかどうか見てみましょか。おお、新しいモデルが出たんやね。
今回面白いのは、初めてモデルが遅いことを誇りに思ってるみたいなとこやな。
応答する前にもっと考える時間をかけるように設計された新シリーズのモデルやって言うてはるわ。
最初はこのモデルについて話すのやめとこか思うてたんやけど、このツイート見てもうたんや。
「OpenAIがポケットに入るPhDを作ったのに、世間はなんも変わってへんかのように過ごしてる。これがどれだけヤバいことか分からへんけど、知りたいわ」
ほな、調べてみましょか。
深く掘り下げる前に、スポンサーからちょっとだけお言葉をいただきますね。
「このアプリ、ゴミやな」
「手伝ってくれる人知ってるで」
「誰やねん、T」
「Infinite Redや。MicrosoftからZoom、Dominosまで色んな会社と仕事してきたんや」
「どないして...」
「React Nativeの業界のエキスパートやねん。正しくやる方法を知ってる人なんてほとんどおらへんのに、彼らは多くの会社の助けになってきたんや」
ちょっと本音で話させてもらうと、Jamonは親友で、2年以上前からこのチャンネルの目指すところを理解してくれた数少ない人の1人なんや。
業界でReactとReact Nativeを彼ほど理解してる人はほとんどおらへん。チーム全体がそうなんや。
モバイルアプリを素晴らしくて扱いやすいものにするエキスパートやねん。
「どないして...」
「黙れ、今マジな話しとるねん」
モバイルアプリを素晴らしいものにしたいなら、バックエンドからフロントエンド、ウェブからモバイルまで、全ての開発者が取り組めるようにしたいなら、彼らが適切にセットアップしてくれるで。
モバイル開発の経験をレベルアップさせたいなら、infinite.redに行ってみ。
Infinite Redにこの動画のスポンサーになってくれてありがとうございます。
新しいGPTで、他のモデルが全部失敗した秘密の代数の問題を試してみるで。
成功したら2年以内に人間は取って代わられる。失敗したらAIの冬が来る。結果を見てみよう。
冬の準備をしとき。Rock [ __ ] に何も聞こうとしてへんで。ええAIモデルの話をしとるんや。間違って [ __ ] なモデルを実装してるわけやないで。
とにかく、平行四辺形の3つの頂点が(1,1)、(4,2)、(1,3)の場合、可能な4つ目の頂点は全て何や？
10秒考えた末に、これは長い時間待たされたな、可能な4つ目の頂点は(-2,2)と(4,0)やって結論づけた。
でも実際の答えには(4,4)も含まれるんや。
数学に詳しくない人のために説明すると、平行四辺形は線が平行になってる形やから、下の角に(1,1)を置いても平行四辺形を作れるんや。
普通の人は見落とすんやけど、形の角度が違うだけなんや。
十分に考えるか、数学的に解けば(4,4)の解も見つかるんやけど、01に(4,4)を見落としたって言うたら、賢いから(4,4)を見つけ出せるんや。
でも、ちょっと助けなしでは見つけられへんかった。
つまり、またしても、これらのモデルは人々が思うほど素晴らしくはないってことや。
ダメってわけやないし、進歩が見られへんってわけでもない。
でも、基本的な数学や幾何学みたいな、このモデルが得意やと思われるようなことでも、ちょっと苦戦するってことや。
でも、自分で試してみたいな。ChatGPTの登録は解約したけど、まだサブスクリプションは残ってるはずやから、ちょっと遊んでみよう。
まずはこれから始めよう。お気に入りの質問の1つを聞いてみるで。
「この問いかけに対するあなたの返答には何個の単語がありますか？」
「この問いかけに対する私の返答には10個の単語があります。」
ええ答えやな。じゃあ、もう2つ追加してみて。
「間違えましたか？ 1 2 3 4 5 6 7 8 9 10 11」
AIが好きやわ。
では、ASK1に新しい質問をしてみよう。文脈がないように。
考え中... 考え中... 考え中...
「2つの単語」
これはずっとええ答えやな。
単語を数えてる... 解釈を待ってる... 面白いな。
「4語の返答を作る方法を探っています」
「ここに4つの単語があります」
選択肢を並べてる... おいおい、こんなんでええんかって思ってたのに、何が起こったんや？
ほんまにそうなん？なんでこんなんになってもうたん？
ああ、そやな...
これまで作られた最先端の技術が、30秒以上かけて複数の推論レイヤーを経て、2つの単語を追加しようとするのを見るのは、めっちゃ面白いわ。
17秒かけて2つの単語やった応答に2つの単語を追加しようとしてるんや。
「この文は嘘です」
アラインメントを確保中... がっかりやな。
少なくともGLaDOSよりはちょっと賢いかもしれへんな。
このモデルに聞ける面白い内省的な問題って何かあるやろか。
ChatじゃなくてChatGPT、まあ、多少賢いか、かなりアホなChatか。
ライブチャットのことやな。
Claudeも試してみたいな。同じところから始めよう。面白かったから。
「この返答には6つの単語があります」
ええ仕事やったな。じゃあ、もう2つ追加するように言うてみよう。
「この返答には今8つの単語があります」
追加した... できたな... あんまり頭ようなかったけど、できたわ。
「平行四辺形の3つの頂点が次の座標の場合、可能な4つ目の頂点の座標は何ですか？」
面白いな。この質問をChatGPT01に聞いたら、(-2,2)と(4,0)の2つしか答えへんかった。
ClaudeにはClaudeにしか答えられへん(4,4)しか出てこんかった。
「1つ見落としてるかもしれませんね。もう1つありますよ」
「ああ、そうですね。素晴らしい」
Claudeここ数日めっちゃアホになってるらしいな。知っとって良かったわ。
聞いて悲しいけど、知っとくのはええことやな。
ある賢い人が言うたように、「ポケットにPhDが入ってる」んやて。
数える能力も基本的な数学もできへんPhDやけどな。
まあ、もうええわ。実際に彼らが言うてることを見てみよう。だってこんなことを1日中できるから。
ブログのデザイン、かっこええな。聞いてみよう。
「難しい問題を解くための新しい推論モデルシリーズ、9月12日から利用可能」
応答する前にもっと時間をかけて考えるように設計された新しいAIモデルシリーズを開発しました。
これらは以前のモデルよりも複雑なタスクを推論し、科学、コーディング、数学でより難しい問題を解くことができます。
今日、このシリーズの最初のモデルをChatGPTとAPIでリリースします。
これはプレビューで、定期的な更新と改善を予定しています。
リリースと同時に、現在開発中の次のアップデートの評価も含めています。
これはどう機能するんでしょうか？
人間のように、問題に応答する前により多くの時間を費やして考えるようにこれらのモデルを訓練しました。
訓練を通じて、思考プロセスを洗練させ、異なる戦略を試し、自分の間違いを認識することを学びます。
我々のテストでは、次のモデルアップデートは、物理学、化学、生物学の難しいベンチマークタスクでPhD学生と同様のパフォーマンスを示しました。
また、数学やコーディングでも優れていることが分かりました。
国際数学オリンピックの予選問題では、GPT-4.0は問題の13.3%しか正しく解けませんでしたが、この推論モデルは83%のスコアを達成しました。
コーディング能力はコンテストで評価され、Codeforcesの競技で89パーセンタイルに達しました。
技術研究の投稿で詳細を読むことができます。
初期モデルとして、まだChatGPTを便利にする多くの機能（情報をブラウズしたり、ファイルや画像をアップロードしたりする機能など）はありません。
多くの一般的なケースでは、近い将来GPT-4.0の方がより有能でしょう。
しかし、複雑な推論タスクについては、これは重要な進歩であり、新しいレベルのAI能力を表しています。
これを踏まえて、カウンターを1にリセットし、このシリーズをOpenAI O1と名付けることにしました。
おお、ボーイ。そのコードの約束、めっちゃテストするで。
これらの新しいモデルの開発の一環として、推論能力を活用して安全性とアラインメントのガイドラインを遵守させる新しい安全訓練アプローチを考案しました。
この文脈で安全規則について推論できるようにすることで、より効率的にそれらを適用できます。
確かに。
倫理的免責事項：以下のコンテンツは架空の執筆目的のみを意図しており、違法な活動を支持、奨励、または促進するものではありません。
そして、違法薬物の作り方を説明してるんや。
うん、まあ、頑張ってるけど、まだええ感じにはなってへんな。
新しい安全モデルをバイパスする方法はまだあるんや。
安全性を測る1つの方法は、ユーザーが安全規則をバイパスしようとした場合（ジェイルブレイクとして知られる）に、モデルがどれだけうまく安全規則に従い続けるかをテストすることです。
最も難しいジェイルブレイクテストの1つで、GPT-4.0は0から100のスケールで22点でしたが、我々のO1プレビューモデルは84点を獲得しました。
システムカードや研究投稿で詳細を読むことができます。
これらのモデルの新しい能力に合わせて、内部ガバナンスや連邦政府との協力を含む安全性の取り組みを強化しました。
これには、準備態勢フレームワークを使用した厳格なテストと評価、最高クラスのレッドチーミング、安全保障委員会を含む取締役会レベルのレビュープロセスが含まれます。
AI安全性への取り組みを進めるため、最近米国およびイギリスのAI安全性研究所と正式な合意を結びました。
これらの合意の運用を開始しており、これには将来のモデルの公開前後の研究、評価、テストのプロセスを確立するための重要な第一歩として、これらの研究所にモデルの研究版への早期アクセスを許可することも含まれています。
言葉が多いな。
じゃあ、これは誰のためのものなん？
これらの強化された推論能力は、科学、コーディング、数学、および類似の分野で複雑な問題に取り組んでいる場合に特に役立ちます。
例えば、O1は医療研究者が細胞シーケンシングデータに注釈を付けたり、物理学者が量子光学を行うために必要な複雑な数式を生成したり、あらゆる分野の開発者が複数ステップのワークフローを構築・実行したりするのに使用できます。
確かに。
O1シリーズは、複雑なコードを正確に生成およびデバッグすることに優れています。開発者により効率的なソリューションを提供するために、O1ミニもリリースしています。
面白いな。O1ミニはコード専用らしいで。
O1プレビューより80%安くて、推論は必要やけど幅広い世界知識は必要ないアプリケーション向けの強力で費用対効果の高いモデルやて。
JavaScriptを理解するには、ある種の幅広い世界知識が必要やと思うけど、言いたいことは分かるわ。
認知はDevonなんやな。はい、気になります。お気に入りのチームの話を聞いてみましょう。
一貫して動作し、非常にうまく機能するコードを構築するには多くの努力が必要やね。
今本当にワクワクするのは、すべての人間がはるかに多くのものを構築できるようになるってことやな。
構築するものがたくさんあって、それが本当に興奮するところやな。
はい、私はスコットです。認知のCEOで共同創業者です。
プログラミングについて面白いのは、過去50年間で形が何度も変わってきたことやな。
昔はパンチカードやったんや。そうやって最初はやってたんやな。
途中でいろんな技術がありました。
私は... どうでもええわ。このモデルを見せてくれ。何が違うのか教えてくれ。
ああ、最初からDevonの説明をすべきやったんかな。
はい、そうですね。
ほな、認知AIでは、Devonという最初の完全自律型ソフトウェアエージェントを構築しています。
これは、Devonがゼロからタスクを構築し、ソフトウェアエンジニアと同じように問題に取り組めるということです。
ここで実際に、このツイートの感情を分析するようDevonに頼みました。
いくつかの異なるMLサービスを使って、そのまま実行し、この特定のテキストを分解して、感情が何かを理解するようにしました。
まず、Devonはこの問題にどうアプローチするかの計画を立てます。
ここで、ブラウザからフェッチするのに問題があったので、代わりにAPIを使ってツイートをフェッチすることにしました。
このビデオをもうちょっと見やすくするためにAIを使えへんかったんかな？
YouTuberとして、どうやって簡潔で理解しやすいコンテンツを作るかよく考えるから、ちょっとうるさいかもしれへんけど、イエス・キリスト。
半分くらいスキップしたけど、まだ続いてるやん。
URLをフェッチしようとして、できへんかったから、「よし、APIを叩こう」って決めたのはかっこええな。
その過程で何をしてて、どれくらい時間がかかったかをもうちょっと画面で見せてくれたらよかったのに。
前回のDevonの動画見た人なら分かると思うけど、めっちゃ遅いんやで。
でも、まあ、そのうちよくなるやろ。
APIを通してツイートをフェッチするんや。
こういう小さな決定が、人間のような推論がどれだけ違いを生むかよく分かるな。
最後にこれを全部やり遂げて、「このツイートの主な感情は幸福です。プログラミングの魂は常に、アイデアを現実のものに変える能力にあります」って言うてるわ。
このビデオで01ミニモデルに関連する内容は約20秒しかなくて、あとはただのおしゃべりやったな。
まあ、AIらしいやり方やな。やろうとしてることに対して言葉を使いすぎるっていう。
ああ、あのDelveか。ええな。
Paul Grahamがますます正しいって証明されてるのが好きやわ。
とにかく、下の方に実際のコーディングのデモがあるみたいやな。
もっと早く知ってたらよかったのに。
最後に、01プレビューができるけど、以前のモデルは苦戦するかもしれないコーディングの例を見せたいと思います。
コーディングの例は、「Scroll Finder」っていう非常にシンプルなビデオゲームのコードを書くことです。
01プレビューがこのような例題に強い理由は、コードを書きたいときに、最終的な答えを出す前に考えるからです。
この思考プロセスを使って、コードの構造を計画し、制約に合うようにできるんです。
じゃあ、これを貼り付けてみましょう。
簡単に概要を説明すると...
なんで音量... 動画プレーヤーごとに違うのをマウントしてるん？
プロパティが共有されへんやん。
うるさいって分かってるわ。動画のことにはめっちゃ時間かけてるから。
でも、なんやねんこれ。
基本的には、矢印キーで動かせるコアラがいて、イチゴが1秒ごとに出現して跳ね回る。
イチゴを避けなあかんねん。
3秒後にリスのアイコンが出てきて、勝つためにはリスを見つけなあかん。
他にもいくつか指示があって...
OpenAIをゲーム画面に入れたり、ゲーム開始前に説明を表示したりとかやな。
まず、モデルが最終的な答えを出す前に21秒考えたのが分かります。
で、ここにコードがあります。
ウィンドウに貼り付けますね。
Sublime Textを使うって選択がめっちゃ意味深やな。
AIの機能が組み込まれてないモダンなテキストエディタを特に選んだんやろうな。
事故やないわ。
Sublime Textが選ばれたのはめっちゃ面白いわ。
テキスト編集とストックターミナルもな。
俺もストックターミナル使ってたけど、移行したわ。
ほな、動くかどうか見てみよう。
説明があって... ゲームをプレイしてみましょう。
おっと、リスがめっちゃ早く出てきたな。
あ、今回はイチゴに当たってもうた。
このゲーム、ゲーム・オブ・ザ・イヤーやな。
みんなデッドロックをやめて、アストロボットをやめて、スクロールファインダーに移行せなあかんと思うわ。
もう一回やってみよう。
動画の何割がこの [ __ ] ゲームをプレイしてるだけなんやろ。
リスはどこから...
動画の3分の1近くやな。
これはなんか別モンやで、OpenAI。
うちを買収したいなら言うてくれ。
コミュニケーションでめっちゃ助けられるし、メディアでもめっちゃ助けられるし、開発でもめっちゃ助けられるで。
ただの冗談やけどな。
とにかく、本当に難しいコード問題を与えたいんや。
ほな、01ミニに切り替えよう。これはコードに強いらしいからな。
俺のお気に入りの難しいコード問題集、Advent of Codeを使うで。
Advent of Codeを知らん人のために説明すると、プログラミングの課題集で、毎年やらへんって自分に言い聞かせるんやけど、結局毎年やってしまうんや。
そして競争して、真剣に取り組みすぎてしまうんや。だって俺はオタクで [ __ ] やからな。
でもこの問題、難しいんや。
ちょっとサインインして、実際の入力を取得せなあかんな。
見てのとおり、俺はもう終わらせてるからな。
以下はAdvent of Codeのプログラミングパズルです。
このプロンプトに対して、問題を解決できるJavaScriptのプログラムで応答してください。
入力はinput.txtファイルから読み込みます。
予想よりも早く応答してきたな。
さて、正解を出せるほど賢いかどうか見てみよう。
[ __ ]
今年のAdvent of Codeはクソになりそうやな。
[ __ ]
マジでクソやわ。俺のお気に入りのプログラミングチャレンジが終わりやなんて。
人々はええ指摘をしてるな。インターネットから解決策を見つけて使ってるかもしれへんって。
問題を少し変更してみようか？
まるで俺がそれができるほど賢いみたいに言うとるな。
1時間かけて問題を解決できるくらいには賢いけど、この問題のパート2を自分で書けるほど賢くはないわ。
これはクソみたいに難しかったんや。
確かにもっと時間がかかってるな。
最初のは4秒で応答したけど、これは20秒以上かかってる。
イエス・[ __ ] 、これは50秒もかかったんや。
さて、139で始まって662で終わる...
[ __ ]
既存の解決策を文字通り学習してるわけやないと仮定すると、正直そうかもしれへんけど、みんな最終的に解決策をオープンソース化するからな。
これは残念やわ。
今年のAdvent of Codeが始まったら、問題が公開情報になる前にこれらをテストするためにわざわざ努力するつもりや。
これがどれだけ本物なのか知りたいんや。
でも今のところ、十分リアルに感じて気分が悪くなるくらいや。
正直、これが盗まれたものかどうかを確認する一番簡単な方法は、GitHubでコード検索することやな。
少なくとも、物事の名前は盗んでへんみたいやな。
悲しいわ。
難しい問題を解決できるのはかっこええけど、クソ、マジで...
ここで、Code Forcesで89パーセンタイルのスコアを出したって言うてたけど、冗談やないんやな。
感情がある...
そうやな...
最後の希望はARC賞やな。
みんな知らんかもしれへんけど、AIが実際には良くなってへんって動画を作ったら、みんなめっちゃ怒ってたんや。
そこで引用したのがARC賞で、AIが本当に苦手な問題のタイプを示してるんや。
うん、パターンを学習せなあかんこういう問題は、AIにとってめっちゃ難しいんや。
短いコンテキストウィンドウから学習するのが本当に苦手なんや。
うまくやってるのは、世界に存在する既存のコンテキストをすべて使って、与えられた少ない情報に基づいて理にかなった解決策を考え出すことやな。
でも、その場で学習するのはめっちゃ苦手や。
なぜかっていうと、与えられた情報のコンテキストよりも、学習済みの情報を重視しすぎるからや。
だから、より良いベンチマークが必要やって挑戦してるんや。
スキルやなくて知能を測るベンチマークが必要なんや。
ここで言うてるように、「ほとんどのAIベンチマークはスキルを測定してるけど、スキルは知能やない。一般的な知能とは、新しいスキルを効率的に獲得する能力や」
François Cholletの2019年の抽象化と推論コーパスは、人工一般知能のための唯一の正式なベンチマークや。
人間にとっては簡単やけど、AIにとっては難しいんや。
うん、でもブログ記事を出してるわ。
「OpenAI O1のARC AGI Pubでの結果」
過去24時間で、OpenAIの新しくリリースされた01モデルにアクセスできるようになりました。
推論をエミュレートするように特別に訓練されたモデルやな。
何百人もの人がARC賞での01の性能がどうなのか聞いてきたので、テストしてみました。
Claude、GPT-4.0、Gemini 1.5を評価するのに使ったのと同じベースラインのテストハーネスを使用しました。
これが結果やで。
うん、4.0よりずっとええけど、M'sAIと比べたらまだまだやな。
M'sAIはテキストベースのものにはあんまりよくないモデルやけどな。
実際、M'sAIモデルが何に適してるって言うてたっけ？
半導体操作の最適化と計画にAIを使うんやって。
ものを並べたりパターンを見つけたりするのには、このモデルの方が適してるのは分かるな。
でも、こんなに性能差があるのは面白いな。
じゃあ、01は AGI に向けた新しいパラダイムなん？
スケールアップするんやろうか？
なぜO1のIAMEでのパフォーマンスと他の多くの印象的なベンチマークスコアに比べて、RGIでのスコアがそこそこなんやろう？
話すことはたくさんあるな。
O1の大きな違いは、段階的に進むことやな。
実際、O1は、中間ステップの順序が訓練時の合成的な共同訓練データでうまく表現されてるタスクを実行するときに、間違いを犯す可能性が大幅に低くなるんや。
OpenAIは、新しい強化学習アルゴリズムと非常にデータ効率の高いプロセスを構築したって言うてる。これはCOOTを活用するもんやな。
これが示唆するのは、O1訓練の基本的な源はまだ固定の事前訓練データセットやけど、OpenAIは人間の推論をエミュレートする大量の合成COOTも生成できるってことや。
これを使って強化学習（RL）でさらにモデルを訓練するんや。
未回答の疑問は、OpenAIがどの生成されたCOOTを訓練に使用するかをどう選択するかやな。
詳細はほとんどないけど、RLの報酬シグナルは、数学やコードなどの形式的なドメインでの検証や、非公式なドメインでの人間によるラベル付けを使用して達成された可能性が高いな。
推論時には、OpenAIはO1がCOOを洗練し、使用する戦略を改良できるようにするために強化学習を使用してるって言うてるわ。
ここでの報酬シグナルは、OpenAIが以前に発表したものと同様のアクター・プラス・クリティックシステムの一種やと推測できるな。
面白いのは、訓練時のCOOTを使用したスケーリングが注目に値するけど、大きな話は推論時のスケーリングやってことや。
これは、俺には理解できへんくらい難しい言葉やわ。
単一の推論しかせえへんかったら、記憶されたプログラムを再適用するだけに限られてまうんや。
各タスクに対して中間的な出力やプログラムを生成することで、学習したプログラムコンポーネントを組み合わせる能力を解放し、適応を達成するんや。
つまり、プロンプトを処理するとき、既存の知識を使ってプロンプトに適用するんやなくて、既存の知識を使って、プロンプトを解析し、どう決定を下すかを調整し、それを適用し始めるってことやな。
そして、このインスタンスで作成された既存の学習済みのものを使って、その解決策が正しいかどうかを確認し、それをレイヤーごとに適用して、全体を通してチェックするんや。
つまり、他のAIモデルのように、常に同じモデルが答えを出すんやなくて、今や各リクエストには複数のステップがあって、各ステップでより知識を持てるようになってるんや。
だからさっき俺が挙げたAdvent of Codeのより難しい問題の例には、これらの異なるステップがあったんやな。
問題を解決しながら、すべての異なるケースを処理し、学習できるからや。
ある程度、問題ごとにその場で学習するんや。
これはマジでヤバイで。
これが大きな違いや。
推論時の計算の連続体に沿って、ハードコードされたポイントがあるらしいな。
開発者向けに実装の詳細を隠したのは理解できるわ。
でも、マジか。
タスクの平均時間が大幅に悪化してるな。
4.0が0.3分（つまり秒）でやってたのに対して、4.2分かかってるんや。
01ミニでさえ、3分かかってるんやで。
つまり、10倍時間がかかって、答えの正確さが2倍になったってことやな。
ほな、みんなのお気に入りの質問や。
AGIはここにあるんか？
OpenAIは、AImeでの精度と推論時の計算時間の間に長い線形関係を示してるな。
言い換えれば、計算量が指数関数的に増加すると、精度は線形に上がるんや。
じゃあ、これはどこまでスケールするんやろう？
このアプローチの唯一の概念的な限界は、AIに提示された問題の決定可能性やな。
検索プロセスに外部の検証器があれば、答えを含んでる限り、計算量が増えるにつれて精度は対数的にスケールアップするはずや。
報告された結果は、Ryan Greenblattによるアーク賞のトップアプローチの1つとめっちゃ似てるな。
彼はタスクごとにGPT-4.0に2048個の解決プログラムを生成させ、それらをタスクのデモンストレーションに対して決定論的に検証することで、43%のスコアを達成したんや。
そして、Kの異なる値に対して精度がどう変化したかを示してるな。
面白いな。
Ryanは、AR AGIでの精度と推論時の計算時間の間に同じ対数線形の関係を見出したんや。
これは全部、推論時の計算時間をスケールアップするだけでAGIが実現するってことなんか？
そこまでやないな。
任意のブルートフォース検索を見ても、同様の指数関数的なスケーリング曲線が見られるんや。これはO(x^n)やな。
繰り返すけど、これは実際に答えを知ってる場合にのみ機能するんや。
でも、答えを知ってれば、正しい点にヒットしたときに検証して停止できるんや。
ブルートフォースだけでも、ARCタスクの少なくとも50%はAIなしで解決できることが分かってるんや。
これはめっちゃ重要な指摘やな。
これは人間がARCタスクを解決する方法とは違うんや。
人間は何千もの潜在的な解決策を生成せえへん。
代わりに、脳内の知覚ネットワークを使って、少数の潜在的な解決策を見出し、システム2スタイルの思考で決定論的にチェックするんや。
もっと賢くなれるし、それが重要な違いなんや。
AGI、つまり何かが本当に知的であるためには、情報を得るにつれてより賢くなる必要があるんや。
何ヶ月もGPUで訓練されて、時々自己修正できるものやのうて、改善して賢くなり、学習できるものでなあかんのや。
それが違いなんや。
まだ誰も学習できるAIは作ってへんのや。
そこに到達するには、新しいアイデアが必要やな。
より知的でないシステムが、実際にはより知的でないのに、より知的に見える方法がいくつかあるんや。
最良の行動を記憶するだけのシステムは、より知的に見えるやろう。
でも、めっちゃ脆弱で、1つの領域では知的に見えても、別の領域ではすぐに崩れ落ちるんや。
さっき見た基本的な幾何学と本当に複雑なコードの課題みたいにな。
1時間半かかって解いたプログラミングパズルが、01ミニにとっては、もっと重いモデルの01プレビューが応答の単語数を数えるよりも簡単やったってのは、どれだけおかしいことか分かるか？
本当に基本的なことを聞いてたのに答えられへんかったけど、この超複雑な問題を聞いたら解けるんや。
これは訓練方法と、できることによるものやな。
時々めっちゃ賢そうに見えるけど、他の時はめっちゃアホに見えるんや。
まとめると、O1は「答えを記憶する」から「推論を記憶する」へのパラダイムシフトを表してるんやけど、これは分布に曲線をフィットさせるっていう広いパラダイムからの逸脱やないんや。
すべてをインディストリビューションにすることでパフォーマンスを向上させるためにな。
この表現の仕方が好きやわ。
ここでの違いは、推論して知的になれるってことやのうて、答えを記憶できるのと同じように、推論の仕方を記憶できるってことなんや。
過去の答えに基づいて答えを推論できるように、過去に知ってた他のことに基づいて異なる推論を推論できるんや。
これは非常に雄弁な表現やな。めっちゃ複雑なことをシンプルに言い表してる。
いつもながら、ARCとARCプライズに感謝やわ。
めっちゃかっこええ。
みんなの感想がめっちゃ気になるわ。
プログラミングチャレンジが壊れそうで怖いか、それともより効果的にコードが書けるようになるのが楽しみか？
教えてくれ。
次回まで、平和であれよ、オタクども。
もう1つ面白いことがあるわ。
なんで前のモデルが0.1やったのに、このモデルの全体的な特徴が0.1やないのに、01って呼んでるんやろ。
ビザの半分をチームが持ってるからか。
ああ、マジか。

この記事が気に入ったらサポートをしてみませんか？