フランソワ・ショレ - LLM は AGI につながらない - 真の解決策を見つけるための 100 万ドルの賞金

2024年6月12日 22:46

https://www.youtube.com/watch?v=UakqL6Pj9xo

大規模言語モデル(LLM)は、データベースのサイズを拡大してもシステムのインテリジェンスは全く向上しません。私は、人間の子供には使わないような「memorization(暗記)」という言葉を使っているように感じます。algebraの任意の問題を解ける場合、私たちは「彼らはalgebraを暗記した」とは言わず、「彼らはalgebraを学んだ」と言います。私たちには100万ドルのプライズプールがあり、ARCの85%のベンチマークに到達した最初のチームに50万ドルの賞金が出ます。今から3カ月以内にARCを突破できれば、賞金額を引き上げます。彼らは、フロンティア研究の出版を完全に閉鎖してしまい、今や大規模言語モデルがその場の酸素を吸い取ってしまっているため、みんなが大規模言語モデルを扱うようになってしまいました。

さて、今日はGoogleのAI研究者でKasasの作者であるFranois Cholと話す機会があります。彼はMike Kouと共同で賞品を発売します。共同創設者のXavierも2番目に話します。彼が作成したArcベンチマークを解くと100万ドルの賞金がもらえます。まず、Arcベンチマークとは何ですか。なぜこの賞金が必要なのですか。1年で最大のLLMが飽和状態にならないのはなぜですか。Arcは、機械知能の一種のIQテストを目的としており、他のほとんどのベンチマークと異なるのは、それが設計されていることです。記憶に抵抗があるので、LMS の仕組みを見ると、基本的には大きな補間メモリであり、その機能を拡大する方法は、できるだけ多くの知識とパターンを詰め込むことです。対照的に、Arc は多くの知識をまったく必要としません。コア知識と呼ばれるものだけを必要とするように設計されています。コア知識とは、基本的な物理学のオブジェクト性など、4 歳や 5 歳の子供なら誰でも持っているような知識です。しかし、興味深いのは、Arc の各パズルが斬新で、インターネット全体を記憶していたとしても、おそらくこれまでに遭遇したことのないものです。それが残念なことです。それが Arc を LMS にとって難しいものにしているのです。これまでのところ、LMS は Arc ではあまりうまくいっていないのです。実際、うまく機能しているアプローチは、離散プログラム検索プログラム合成に近いものです。まず最初に、LLM に懐疑的な方として、あなたが LLM についてコメントしてくれたことを嬉しく思います。ベンチマークを設定してください。ここで最大のモデルがこれで 80% を達成できると仮定すると、LLM で AGI に向かっているという見方が正しいでしょうか。これについてどう思いますか。LLM が 1 年で 8% を達成するのを見るのはかなり懐疑的です。とはいえ、もしそれが実現するなら、これがどのように達成されたかを調べる必要があります。モデルをトレーニングし、Arc に似た数百万または数十億のパズルを解くと、トレーニングするタスク間に重複を持たせる機能に依存し、その時点でテスト時間を確認することになります。記憶を使用しているため、おそらくうまくいくでしょう。うまくいけば、Arc は十分に優れているため、このような試みや強制に耐えられるでしょう。しかし、決してわかりません。起こるかもしれません。起こらないと言っているわけではありません。Arc は完璧なベンチマークではありません。欠陥があるかもしれません。そのようにハッキングされる可能性があります。ですから、GBTF が何をしなければならないのか興味があります。AGI への道を進んでいると確信しているのに、私が考えを変えるきっかけとなるのは、基本的に、モデルにこれまでに見たことのないタスク、トレーニングデータの観点からは実際に新しいタスク、トレーニングデータにはないタスクを見せるケースが大量に発生し始めたら、実際にその場で適応できるかどうかです。これは LS にも当てはまりますが、実際にこれは、あらゆる AI 技術で注目されるでしょう。その場で新しいスキルを効率的に習得するために新しいものに適応する能力が見られるなら、非常に興味があります。私はこれが AI への道にあると思います。AI の利点は、すべてを見ることができることです。どれだけそれに頼っているかは問題かもしれませんが、明らかに頼っていると仮定しましょう。それ以上ではありません。人間よりも、彼らは非常に多くの IND 分布を持っているため、たとえば、単一のものが分布内にあるかどうかを区別するのが困難です。彼らがすべてを分布内に持っている場合、私たちができることはすべてできます。私たちにとっては分布内にないかもしれませんが、なぜ彼らにとって分布外である必要があるのか、彼らがすべてを見ることができるという事実を活用できないのはなぜですか。あなたが尋ねているのは、基本的に、実際の知性、つまり、準備ができていないことに適応する能力と、以前に見たことを暗唱するなどの純粋な記憶の違いは何ですか。それは単なる意味の違いではありません。大きな違いは、テスト時に見る可能性のあるすべてのものを事前にトレーニングすることはできないということです。世界は常に変化しているため、可能なタスクの空間が無限であるという事実だけでなく、何百万ものタスクでトレーニングしたとしても、全体の空間の 0% しか見ていないという事実もあります。世界は毎日変化しているという事実もあります。人間という種が知性を発達させたのは、世界や宇宙、私たちの生活に分布のようなものがあったら、知性はまったく必要なかったでしょう。実際、多くの生物、例えば昆虫には知性がありません。その代わりに、遺伝子の中にハードコードされた行動プログラムがあり、刺激を適切な反応にマッピングします。そして、彼らは実際に進化的に適応した方法で、何も学ぶことなく生活や環境をナビゲートすることができます。もし環境が十分に静的で予測可能であれば、進化は完璧な行動プログラム、つまりハードコードされたプログラムを見つけたでしょう。CIC 行動プログラムはそれを遺伝子に書き込んで、ハードコードされたコネクトゥムを持ち、それが私たちの行動の基盤となるはずですが、実際にはそうではありません。その代わりに、私たちは一般的な知能を持っているので、世界についての知識はほとんどないまま生まれますが、非常に効率的に学習し、見たことのないものに適応する能力を持って生まれます。それが私たちをユニークにしているのです。そして、それを機械で再現するのは本当に難しいのです。そのことについて少し詳しくお話ししたいと思いますが、その前に、YouTube の視聴者向けに、アークのようなチャレンジがどのようなものか、いくつか例を挙げて説明します。音声で聞いている人のために、サンプルのアークチャレンジがどのようなものか説明していただけますか。アークパズルは IQ テストパズルのように見えます。デモ用の入力出力ペアがいくつかあります。1 つのペアは 2 つのグリッドで構成されており、1 つのグリッドは入力を示し、2 番目のグリッドは入力に対する応答として何を生成するかを示します。このようなペアをいくつか作成して、タスクの性質を示し、入力に対して何をすべきかを示します。次に、新しいテスト入力を取得し、対応するテスト出力を生成することが仕事です。デモのペアを見て、何をすべきかを理解し、この新しいテストペアで理解したことを示します。重要なのは、これらの課題に取り組むために必要な知識ベースのようなもので、コア知識が必要なことです。コア知識とは、基本的にオブジェクトを構成するものに関する知識です。基本的な数え方、基本的な幾何学、位相、対称性などです。非常に基本的な知識です。LMSは確かにそのような知識を持っています。どの子供もそのような知識を持っています。そして本当に興味深いのは、各パズルが新しいもので、たとえばインターネットの他の場所で見つけられるものではないということです。つまり、人間であれ機械であれ、すべてのパズルに最初から取り組む必要があり、実際に推論する必要があります。記憶から応答を取り出すだけではだめなので、コア知識は、今になってようやくマルチモーダルモデルが手に入るというものです。これは、訓練されたデータに基づいて空間推論を行うように訓練されていますが、人間だけでなく、数十億年にわたる革命の間、私たちの祖先は抽象的な物理的および空間的特性を理解し、そこにあるパターンを認識する方法を学ばなければなりませんでした。そのため、1つの見方としては、来年には、マルチモーダルネイティブのモデルが手に入るということです。これは、単なる2級市民のアドオンではなく、マルチモーダル機能が優先事項であり、これらの種類のパターンを理解するようになります。なぜなら、それはネイティブで見られるものだからです。1 1 0 0 の JSON 文字列で、パターンを認識するはずです。人間にこのような数字のシーケンスを見せたとしても、どのような質問をしているのかを理解するのは難しいでしょう。では、なぜそうならないのでしょうか。現在、私たちが解き放とうとしているマルチモーダルモデルが実現すれば、アーキタイプスパル推論が非常にうまくなるでしょう。これは経験的な質問なので、数か月以内に答えが出ると思いますが、私の答えは、すべてのグリッドは離散的で、シンボルの劣化であり、非常に小さいということです。たとえば、画像をピクセルのシーケンスとして平坦化すると、実際には非常に通過が難しいものになりますが、Arc の場合はそうではありません。グリッドが非常に小さいため、可能なシンボルは 10 個しかないため、実際には非常に簡単に理解できる 2 つの度合いがあります。シーケンスとトランスフォーマー LLM としてフラット化します。これらはシーケンスのクロス処理に非常に優れています。実際、LMS が AR CL データの処理に優れていることを示すには、LLM をタスクのサブセットで機能させて、これらのタスクの小さなバリエーションでテストしてみるだけで済みます。LLM は、以前に見たタスクのソリューションプログラムを問題なくエンコードできるため、プログラムを理解するための入力を渡すのに問題はありません。Arc でうまく機能しない理由は、単に馴染みのない側面です。新しいタスクはそれぞれ他のタスクと異なるため、基本的にソリューションプログラムを事前に記憶することはできません。新しいタスクごとに新しいソリューションプログラムをオンザフライで合成する必要があります。これが LMS が苦労している点です。そのため、さらに悪魔の代弁者になる前に、少し立ち止まって、なぜこの会話をすることに特に興味があるのかを説明したいと思います。もちろん、100万ドルのArc Prideを実際に自分でプレイするのが楽しみです。そして、うまくいけば、ナット・フレッドマンがリスの解読で獲得した賞であるvuiaチャレンジも、ヘルクラヌム図書館の火山に埋もれていたリスの解読で、ポッドキャストを聴いていた22歳の若者が解読しました。このチャレンジを聞いている誰かが興味を持ち、解決策を見つけてくれることを願っています。私が最近、llmsに強気な人がたくさんいて、あなたにインタビューする前に彼らと話し合ったことがあります。llmsがArkでネイティブにうまく機能していないという事実をどう説明するかということです。彼らの説明はやや不自然だと感じました。その理由のいくつかをあなたに説明してみますが、実際には興味深い事実があります。これらの問題のいくつかは人間にとって比較的理解しやすく、苦労しています。これらをネイティブに入力すれば、人間にとっては非常に簡単です。賢い人間なら誰でも、Arc で 90%、95% のスコアを出せるはずです。賢い人間ですが、5 歳児でも知識がほとんどなくても、間違いなく 50% 以上は出せるはずです。では、その点について話しましょう。賢い人間はこのテストで非常に良い成績を収めると思いますが、平均的な人間はおそらく平凡な成績しか出ないでしょう。私たちは実際に 30 歳以上の人間で試してみました。スコアは約 85 でした。これは Amazon Mechanical Twerk の作業員のスコアです。Amazon Mechanical Twerk の作業員の人口統計プロファイルは正直わかりませんが、Amazon がリモートワーク用に設定したプラットフォームとやり取りするだけで、地球上の平均的な人間ではないと思います。つまり、より広い意味でのポイントは、人間には明らかに AGI があるが、人間の中にも比較的愚かな人がいて、IQ テストのような作業を実行するスペクトラムがあるということです。たとえば、Ravens Progressive m平均的な人がその問題でどのように答えるか、そして当たり外れがあるような種類の質問を見ると、半分の人が正解し、半分の人が間違えます。私たちにとっては、これはかなり些細なことのように思えます。人間は、比較的小さな調整で、このような基本的なIQテストの問題を間違える人から、すべて正解する人になることができます。これは、これらのモデルがネイティブに機能している場合、これらのモデルで人々が試した過去のパフォーマンスのいくつかについてお話ししますが、ジャック・コールの2億4千万のパラメータモデルで35％を獲得した人は、明らかに人間の中に存在するこのスペクトル上にいることを示唆しています。そして、すぐに飽和状態になります。ここには興味深い点がたくさんあります。ジャック・コールによって停止されたLMアプローチのブランチは確かに非常にうまく機能しており、実際には最先端のものですが、何が起こっているのかを見なければなりません。 2 つあります。1 つ目は、これらの数値を取得するには、生成された数百万の Arc タスクで LLM を事前トレーニングする必要があることです。もちろん、これを初めてアートを見る 5 歳の子供と比較すると、子供は急性テストを受けたことがなく、アートのようなものを見たことはありません。彼らが知っていることとテストでやらなければならないことの唯一の重複は、数え方やオブジェクト、対称性などについてのコア知識です。それでも、彼らは非常にうまくやります。D よりもはるかに良い結果を出すでしょう。数百万の同様のタスクで LLM をトレーニングします。2 つ目は、Jack Cod アプローチで注目すべき点です。モデルを機能させるために非常に重要なことは、テスト時の微調整です。ところで、これは現在 LLM のアプローチに欠けているものです。LLM を使用しているときはほとんどの場合、静的推論を行うだけです。モデルは固定されており、プロンプトを出すだけで、答えが得られます。そのため、モデルは実際にはオンザフライで何も学習していません。その状態は、手元のタスクに適応していません。Jao が実際に行っているのは、すべてのテスト問題に対して、オンザフライでそのタスク用の d llm のバージョンを微調整することです。これがパフォーマンスを解き放つものです。これを行わないと、1% 2% 程度しか得られません。基本的にまったく無視できるものです。テスト時に微調整を行い、その上にたくさんのトリックを追加すると、興味深いパフォーマンス数値が得られます。彼が行っていることは、今日の LMS の主要な制限の 1 つであるアクティブな保険の欠如に対処しようとしていると思います。実際には、アクティブな保険を追加しています。 LMS は実際に非常にうまく機能しています。興味深いラビットホールがたくさんあるのは興味深いことです。順番に取り上げるべきでしょうか、それとも一度にすべて対処すべきでしょうか。まず、あなたが指摘した、アダプターコンピューティングのロックを解除して SL テスト時間コンピューティングを行う必要があるという事実についてですが、これはスケールマキシマリストの多くにとって興味深いラビットホールです。スケーリングマキシマリストの多くは、スケーリングに加えて、適応コンピューティングのロックを解除したり、システムを機能させるために何らかの RL を実行したりする必要があると考えるという意味で、より広い視点を持っているため、一緒に探求するのは興味深いラビットホールになると思います。彼らの視点では、これは比較的簡単なことで、スケールアップされたモデルがよりアクセスしやすい表現に追加される機能です。いいえ、それは単なる技術的な詳細ではありません。簡単なことではありません。すべてが重要な部分であり、スケールマキシマリストの議論は、これらの人々がスケーリングラスと呼んでいるものに集約されます。これは、あなたが描くことができるこの経験的な関係です。モデルのトレーニングに費やすコンピューティングの量とベンチマークで得られるパフォーマンスの間には大きな差があります。もちろん、ここでの重要な質問は、パフォーマンスをどのように測定するか、コンピューティングとデータを追加することで実際に何が改善されるかということです。それがベンチマークのパフォーマンスです。パフォーマンスを測定する方法は技術的な詳細ではなく、後付けではありません。なぜなら、質問のセットを絞り込むことになるため、求めている回答のセットも絞り込むことになるからです。LMS で使用しているベンチマークを見ると、それらはすべて記憶ベースのベンチマークであり、時には文字通り学校のテストのような知識ベースの問題でも、推論について明確に知っている問題でも、よく見ると、解くためには有限の推論パターンを記憶するだけで十分だということがわかります。そして、それを再適用するだけです。それらは静的プログラムのようなものです。LMSは静的プログラムを記憶するのに非常に優れています。小さな静的プログラムで、Bのようなソリューションプログラムがあり、新しいパズルを与えると、適切なプログラムを取得して適用できます。推論のように見えますが、実際にはオンザフライのプログラム合成は行われていません。プログラムを取得するだけです。そのため、これらのベンチマークはすべて記憶で解決できます。ここでスケールアップしているのは、モデルを見ると、データ分布に適合した大きなパラメトリック曲線です。基本的には、これらの大きな補間データベースです。補間メモリ、そしてもちろん、データベースのサイズを拡大し、より多くの知識、より多くのパターンなどを詰め込むと、記憶ベンチマークで測定されるパフォーマンスが向上します。これは明らかなことですが、そうすることで、システムの知能が少しも向上しているわけではありません。システムのスキルが向上しているのです。システムの有用性、つまり適用範囲は向上していますが、知能は向上していません。なぜなら、スキルは知能ではないからです。これが、人々が遭遇する根本的な混乱です。スキルと知能を混同しているのです。ここでは、スキル、知能、補間について話すことがたくさんあります。つまり、それらのフィッティングに関することです。いくつかの多様体をそれにマッピングします。入力データをマッピングします。人間の脳で何が起きているかを説明する還元主義的な方法があります。それは、軸索が互いに発火しているだけだと言いますが、私たちは何が起こっているかという還元主義的な説明には関心がありません。私たちが関心があるのは、マクロレベルのメタのようなもの、つまり、これらのものが組み合わさったときに何が起きるかです。補間に関しては、ベンチマークの 1 つを見てみましょう。これは学校の数学で優れた成績を収めるベンチマークで、これは頭のいい高校生なら解けるような問題です。これは GSM 8K と呼ばれ、これらのモデルはこれらの問題で 95% の正解率を達成しています。つまり、常に暗記に成功しているということです。では、それが何を意味するのかお話ししましょう。このベンチマークに関する質問が 1 つあります。クラスには 30 人の生徒がいて、そのうち 1/5 が 12 歳、1/3 が 13 歳、1/10 が 11 歳です。11 歳、12 歳、13 歳以外の生徒は何人いるでしょうか。これはロケット科学ではないと思います。この問題の解き方を紙に書き留めれば、高校生、少なくとも頭のいい高校生なら、暗記と言っても解けるはずです。それでも、分数についてどう考えるか、問題全体の文脈は何か、そしてさまざまな計算を組み合わせることは、どのように行うか、推論を定義する方法によって異なりますが、使用できる定義が2つあります。1つは、プログラムテンプレートのセットが利用可能で、これはパズルの構造のようなもので、解も生成できます。メモリ内にある適切なテンプレートを特定します。テンプレートに新しい値を入力してプログラムを実行し、解を取得します。これが推論であると言えるでしょう。はい、わかりました、と答えますが、推論に使用できるもう1つの定義は、パズルに直面したときに、それを解くためのプログラムがメモリ内にまだない場合、既存のプログラムの断片に基づいて新しいプログラムをその場で合成する必要がある能力です。その場でプログラム合成を行う必要があり、実際には、適切な記憶されたプログラムを取得して応答するよりも大幅に困難です。したがって、人間のサンプル効率の程度を過大評価しているのではないかと思います。また、特定の種類の問題を推論する経路を徹底的に練習しなければならないようなトレーニングも必要ありません。たとえば数学を例に挙げましょう。赤ん坊にSE理論のAXSを見せれば数学がわかるというわけではありません。成長するにつれて、初等代数を教え、その後1年間練習問題を解いて代数の同じ種類の問題に取り組み、幾何学、初等微積分、微積分を教える必要がありました。もちろん、トレーニングは必要ですが、それは、1つの例を見てプログラムなどを手に入れただけではだめで、実際に練習しなければならなかったのと同じようなものです。これらのモデルは、大量の無料のトレーニングデータを使って練習する必要があります。もちろん、オンザフライでプログラム合成を行うには、実際に作業するためのビルディングブロックが必要なので、知識と記憶は実際にはプロセスで非常に重要です。記憶と推論の対立だと言っているのではありません。効果的な推論を行うには記憶が必要ですが、それはあなたの話と一致しているように聞こえます。さまざまな種類の例を見ると、これらのものはそれらの例のコンテキスト内で推論することを学習できます。また、より大きなモデル内でも見ることができます。これは高校レベルの数学の問題の例です。たとえば、GBD3よりも小さいモデルではそれがまったくできないとします。これらのモデルが大きくなるにつれて、より大きなものを拾うことができるようになります。これは実際にはサイズの問題ではなく、トレーニングデータの問題のようなものです。この場合、より大きなモデルはこれらの種類の回路を拾うことができますが、小さなモデルは明らかにこれをうまく実行しません。このようなデータでトレーニングしたとしても、より大きなモデルがあれば、より大きなパスウェイやより一般的な推論方法を採用できます。もちろん、それは知能ではないでしょうか。いいえ、そうではありません。データベースを拡大し、より多くの知識、より多くのプログラムテンプレートを追加し続ければ、確かにスキルはますます向上し、より多くのタスクに適用できるようになります。しかし、知能における一般性は、タスク固有のスキルを多くのスキルに拡大したものではありません。それは、考えられるスキルの無限の空間があるからです。一般的な知能とは、あらゆる問題にアプローチする能力、あらゆるスキル、そして非常に少ないデータを使用してそれを非常に迅速に習得する能力です。これこそが、遭遇する可能性のあるあらゆるものに立ち向かうことができるようになるものです。これが一般性の定義です。一般性は、特定のスキルを拡大したものではありません。つまり、心の中で何でも、任意のものに飛ぶ能力であり、基本的に、効率的に即座に学習するために適応する能力が必要です。したがって、私の主張は、より大きなモデルでこの無料トレーニングを行うことで、非常に効率的に一般化する能力が得られるということです。例を挙げましょう。あなたの会社である Google の例を挙げましょう。彼らのジェミニ1.5に関する論文には、非常に興味深い例がありました。文脈の中でモデルに文法書と、200人未満の話者がいる言語の辞書を与えるというものです。つまり、事前トレーニングデータには含まれておらず、辞書を与えるだけで、モデルは基本的にこの言語を話し、翻訳することができます。言語が構造化されている複雑で有機的な方法も含みます。ですから、人間が英語からスペイン語への辞書を見せられたとしても、文章の構造やスペイン語での言い方を理解することはできません。事前トレーニングを通じて獲得した表現のおかげで、非常に効率的に新しい言語を学習できるようになったという事実は、この種の事前トレーニングが実際に新しいタスクを学習する能力を高めることを示しているのではないでしょうか。あなたが正しければ、LLMはArcパズルで非常にうまく機能します。Arcパズルは複雑ではなく、それぞれにほとんど知識が必要ありません。それぞれが非常に複雑でないため、あまり深く考える必要はありません。実際、非常に人間なら子供でもできるような明らかなことですが、LMSは100％のLMSでもできません。あなたより 1000 倍多くの知識を持っていても、彼らはまだできません。AR を特別なものにしているのは、記憶に抵抗する目的で設計されたことです。これが唯一のことであり、これが LM のパフォーマンスにとって大きな障害です。LMS をよく見ると、彼らが直面しているタスクを解決して新しいプログラムをその場で合成しているのではなく、メモリに保存したものに応答していることがわかります。たとえば、非常に印象的なのは、LMS が Cesar 暗号を解くことができることです。Cesar 暗号は、文字をに転置してメッセージをコード化するようなものです。これはかなり複雑なアルゴリズムですが、インターネットでよく登場するため、基本的に記憶しています。本当に興味深いのは、転置の長さが 3 または 5 の場合に実行できることです。これは、インターネットで提供されている例では非常に一般的な数字ですが、 9 などの任意の数字で実行しようとすると失敗します。これは、アルゴリズムの一般化された形式をエンコードするのではなく、特定のケースのみをエンコードするためです。アルゴリズムの特定のケースを記憶しています。ソルバーアルゴリズムをオンザフライで実際に合成できる場合、n の値はまったく問題になりません。問題の複雑さが増すことはないからです。これは人間にも当てはまると思います。人間が記憶とマッチングを常に使用しているという研究結果がありましたが、もちろん、人間は記憶とマッチングに限定されていません。人間は、オンザフライで新しい状況に適応するという非常にユニークな能力を持っています。これがまさに、人生の新しい日々をナビゲートできるようにするものです。細かいことは忘れますが、チェスのグランドマスターは、動きのコンテキスト内で非常に優れたパフォーマンスを発揮するという研究結果がありました。これは優れた例です。最高レベルのチェスは、記憶がすべてです。記憶ゲームです。わかりました。それはさておき、元の質問である、なぜ gpt1 のコンテキストでそれができるのか、という説明を教えてください。すみません、ジェミニ 1 です。5 は複雑な文法構造を含む言語を学習できたということですか? これは、新しい知識を習得できることを示しているのではないでしょうか。非常に広範で想像を絶するほど膨大なトレーニングデータから、必要なテンプレートをマイニングして、それを再利用しているだけだと思います。LM は、このように新しいプログラムテンプレートを飛行中に合成したり、既存のテンプレートを適応したりする能力が非常に低いことがわかっています。テンプレートの取得に非常に限られており、Google にプログラマーがいるとします。朝、オフィスに出勤すると、テンプレートを取得しているために 100% 不可能なことをしていることになります。テンプレートを取得した場合、プログラムからテンプレートを取得していたとしても、実行できない可能性があります。つまり、このいわゆる極端な一般化機能をどの時点で使用しなければならないのでしょうか。Google のソフトウェア開発者のことなど忘れてください。彼らの生活の毎日は、彼らが準備していない新しいことでいっぱいです。記憶だけで人生をナビゲートすることはできません。不可能です。彼らがあなたもそうであるという前提を私はある意味否定しています。同意します。彼らはいわゆる暗記をしていません。彼らは一般化能力が低いと言っているように思えますが、彼らがどのような一般化を行うのか興味があります。もしあなたがオフィスに行ってこの種の一般化をしようとすると、仕事で失敗するでしょう。あなたがプログラマーであるなら、その一般化をしようとすると、極端な一般化ができないため、仕事を失うことになるでしょう。具体的な例はありませんが、文字通り、この状況を例に挙げてみましょう。あなたはこの部屋に来たことがないかもしれません。この街に数回来たことがあるかもしれません。わかりませんが、これまでに経験したことのない目新しいことがかなりあります。つまり、私にインタビューするということは、あなたの人生で毎日毎時間、かなりの目新しいことがあり、実際、それはどんな LLM よりも目新しいことです。ロボットに LLM を入れただけでは、できないことです。今日やってきたことすべてですね、セルラーの自動運転車を考えてみましょう。例えば、バリア内で動作するセルラーの自動運転車をニューヨークやロンドンにそのまま置いても大丈夫だと思いますか？いいえ、それは失敗します。運転ルールのチャンスを一般化できるだけでなく、新しい都市に一般化することすらできません。それぞれの特定の環境でトレーニングする必要があります。自動運転車はAGIではありませんが、トランスフォーマーと同じタイプのモデルです。ニューロンを含む脳も持っていますが、小さいので知能が低く、私たちができるのと同じアーキテクチャではありません。そこに入ると、まだ具体的なことがわかりません。私たちはみんな訓練が必要で、それが教育が存在する理由です。だから私たちは人生の最初の18年間を訓練に費やさなければなりませんでした。私たちには記憶がありますが、私たちは記憶ではありません。私たちは、これらのモデルが必ずしもそれだけを行うわけではないことを否定しています。リモートワーカーがしなければならないタスクが何なのかまだわかりません。リモートワーカーをLLMに外注し、彼らがプログラマーだとしたら、最初に気付くのは、これが人間ではなくLLMだということです。彼らにノックパズルを送って、彼らがどのようにやっているかを見るのはどうでしょうか。仕事の一部ではありませんが、常に新しいものに対処しなければなりません。では、すべてのプログラマーが置き換えられた世界があり、それでも彼らは暗記のプログラミングタスクしかやっていないと言っているのに、それでもコードという形で1兆ドル相当の成果を生み出しているのなら、ソフトウェア開発は実際、常に新しいものを扱う仕事のかなり良い例です。または、よくわからないのですが、私は個人的にソフトウェア開発の仕事で genv を非常に多く使用しています。以前は、Stack Overflow もほとんど使用していませんでした。一部の人は、Stack Overflow から何かをコピーして貼り付けているだけかもしれませんし、最近では LLM から何かをコピーして貼り付けているかもしれません。個人的には、問題解決に焦点を当てるようにしています。構文は単なる技術的な詳細です。本当に重要なのは問題解決です。プログラミングの本質は、メンタルモデルをエンジニアリングすることです。つまり、解決しようとしているものの精神的な表現のようなものです。しかし、多くの人がこれらのシステムと対話できるので、チャット GPT に行って、これが私が欲しいプログラムの種類の仕様ですと言うと、GM や S などにこのプログラムの例がたくさんある限り、彼らはあなたのためにプログラムを構築します。もちろん、彼らはメモリからプログラムを取得しますが、任意の詳細を変更できます。この異なる種類のサーバーで作業する必要があると言うことができます。それが本当なら必要です。今日のソフトウェアエンジニアは存在しないでしょう。これらのモデルのパラメータは1兆未満ですが、人間の脳には10兆から30兆のシナプスがあるという意味で、まだ完全な時代ではないことに同意します。つまり、単純な計算をすると、少なくとも10倍パラメータが不足していることになります。つまり、まだそこには達していないことに同意しますが、なぜスペクトラム上にいないのか少し混乱しています。はい、彼らが行うことができる一般化の種類はたくさんあることに同意しますが、彼らは人間の中にさえ見られるような滑らかなスペクトラム上にいるようです。一部の人間はアークタイプのテストを行うのに苦労します。これは、プログレッシブレイヴンズマトリックスのパフォーマンスに基づいてわかります。IQテストは好きではありません。IQテストは大抵の場合、トレーニングして上達できるので、暗記がベースになっています。これは、Arcが完全に陥らないようにしている主な落とし穴です。私はまだそうは思いません。もし今後5年間ですべてのリモートジョブが自動化されたとしたら、少なくともサービスのようなことは求められません。セールスマンのように人間が話してくれる必要はありませんが、その世界で何でもプログラミングすることになります。プログラマーがしなければならないことの多くは、事前トレーニング企業にはないようなことを必要とするため、それは不可能だと言えるでしょうか。5年後には、今日よりも多くのソフトウェアエンジニアがいるでしょう。そうではありません。しかし、私はただ理解したいだけです。まだよくわかりません。つまり、コンピューターサイエンスを勉強する方法は知っています。大学を卒業してコードモンキーになったら、私は何をするでしょうか。仕事に行くと、上司が私に最初に何をするように言うでしょうか。上司はいつ気づくのでしょうか。私は LLM です。私が LLM だったら、最初の日に、もし LMS がこのような新しい問題に一般化でき、実際に見たことのない問題を解決するソフトウェアを開発できるとしたら、実際にはソフトウェアエンジニアはもう必要なくなります。今日のソフトウェアエンジニアリングの仕事で人々が LMS をどのように使用しているかを見ると、彼らはそれを低置換のスタックとして使用しています。つまり、非常に一般的なアクションを実行するためのコードスニペットをコピーして貼り付ける方法として使用しています。実際に必要なのは、優れたスニペットのデータベースです。ソフトウェアエンジニアになるための能力は実際には必要ではありません。つまり、スタックオーバーフローデータベース間の補間について話すとき、数学の問題やコーディングの問題の種類を見ると、補間について少し立ち止まって、次のように質問します。創造性は、より大きなモデルが学習できる高次元での補間だけではないのでしょうか。より複雑な多様体では、M言語を使用します。科学者の伝記を読んでみると、科学者は新しい科学理論をゼロショットで試しているのではなく、既存のアイデアで遊んでいることがわかります。彼らはそれを頭の中で当てはめようとしています。進化の樹の中で、知的子孫のわずかな変化を試しています。彼らは異なる進化の道を試しています。論文を発表するという点で、実験を行っているようなものです。人間がやっていることは、より高レベルの一般化のように見えます。モデルが大きくなるにつれて、より高レベルの一般化に近づいているように見えます。gbt2では、その能力を超える一般化を必要とする優れた学校レベルの数学の問題を解くことができませんでした。そのスキルでも、GBT 3 や 4 よりも高いスキルと幅広いスキルがあります。ここでは意味論は持ちませんが、一般論は持ちたくありません。なぜ創造性は、より高い次元での補間だけではだめなのかという疑問があります。補間は絶対に創造的になり得ると思います。そして、あなたの指摘のとおり、人間はある程度、暗記や暗唱、パターンマッチング、補間もたくさん行っていると思います。つまり、パターンマッチングと真の推論の間にはスペクトルがあり、人間はスペクトルの一方の端にいることは決してありません。純粋なパターンマッチングや純粋な推論を行うことは決してありません。通常、両方の組み合わせを行っています。数学の定理を証明するなど、非常に推論が重視されているように見えることをしている場合でも、それを行っている間は、かなりの量の離散検索を行っていることは確かです。実際の推論もかなりありますが、直感に大きく左右されます。これまでに見た証明の形や数学の知識に左右されます。つまり、私たちの考えや行動はすべて、この太陽の対空砲の補間記憶に基づく思考、つまり太陽の対空砲のタイプ 1 思考とタイプ 2 思考の混合です。なぜ大きなモデルの方がサンプル効率が高いのでしょうか。それは、モデルはより合理的な構成要素を持っているため、トレーニングデータから新しいパターンを拾い上げることができます。そして、モデルが学習する新しいパターンが、以前に学習したものとよく一致するほど、モデルがどんどん大きくなるにつれて、そのパターンは継続するのでしょうか。実際に新しいものを提示すると、たとえばアークパズルのように、この STA 分布に含まれない、新しいものを提示すると、モデルは失敗します。プログラム合成は非常に便利な直感ポンプだと思います。トランスフォーマーで起こっていることが、なぜそうではないのでしょうか。初期のレイヤーは入力トークンをどのように表現するかを考え、中間のレイヤーはプログラム検索やプログラム合成を行います。モデル内のすべての回路に入力を結合し、低レベルの表現からモデルの中央付近の高レベルの表現に移行します。これらのプログラムを使用してこれらの概念を結合し、反対側から出てくるのは、その高レベルの知能に基づいた推論です。おそらくそうではないかもしれませんが、これらのモデルが実際に新しいプログラムを合成できるのであれば、どんなに単純でもArcを実行できるはずです。なぜなら、どんなに単純なプログラムでも、Pythonでソリューションプログラムを記述すれば、複雑なプログラムではなく、非常に単純で、人間が理解できるからです。では、なぜLMSができないのでしょうか。そうですね、それは公平な意見だと思います。質問を逆にすると、1年でマルチモーダルモデルがArcを解けると仮定します。平均的な人間が解くものの80%を獲得すると、AGIはおそらくそうです。正直なところ、私が見たいのは、LLMタイプのモデルがARを80%程度で解くことですが、コア知識関連のものだけを訓練した後、人間の子供たちは必ずしもトレードされているとは思いません。言い換えると、私たちが遺伝的に持っている情報だけで訓練されているわけではありません。つまり、Arcのテストセットに何が含まれるかを明示的に予測しようとはしていません。Arcのポイントは、毎回新しいタイプのインテリジェンスチャートを作成できないということではありません。つまり、Arcが完璧な完璧なベンチマークであれば、テストセット内で予測することは不可能です。ARは4年以上前にリリースされており、これまでのところ、記憶に耐性があるので、ある程度は時の試練に合格していると思いますが、完璧だとは思いません。手作業で何千もの AR タスクを作成し、それをプログラムでバリエーションを生成して増やそうとすると、おそらく何億ものタスクになります。タスク空間をブルートフォースするだけで、トレーニングするものとテストセットにあるものの間に十分な重複があるため、実際に非常に高いスコアを得ることができます。つまり、十分な規模があれば、常にチートすることができます。知能を必要とすると思われるすべてのものにこれを実行できるのであれば、知能のメリットは何でしょうか。どうやら、知能をブルートフォースで試すことができるようです。世界が静的な分布であれば、もちろん、可能な行動の空間をブルートフォースで試すことができます。知能についての考え方にはいくつかの比喩がありますが、その 1 つは、知能を将来の状況空間における pth 検出アルゴリズムと考えることができるというものです。詐欺的な開発は RTS のような詐欺的な開発ですが、地図があり、2D 2D 2D マップのようなもので、地図上に戦争の霧があるような部分的な情報があります。まだ探索していないエリアがあり、それらについて何も知りません。探索したエリアもありますが、過去がどのようなものであったかしか知らず、現在がどのようなものかを知りません。TOA について考える代わりに、遭遇する可能性のある将来の状況の空間と、それらがどのように相互に関連しているかについて考えます。インテリジェンスは経路検索アルゴリズムであるため、目標を設定すると、最適な方法でそこに到達する方法が示されますが、もちろん、持っている情報によって制約されます。何も知らないエリアを通過することはできません。予測することもできません。変化します。そして、もし地図についての完全な情報を持っていたら、過去の探索問題は、ポイントAからポイントBまでのあらゆる可能な経路、すべてのマッピングを記憶するだけで解決できます。純粋な記憶で問題を解決できますが、現実世界でそれができない理由は、将来何が起こるか実際にはわからないからです。人生は常に変化しています。あなたは記憶という言葉を使っているように感じます。人間の子供には決して使いません。子供が代数を学んで、次に微積分を学んだとします。子供が任意の代数問題を解くことができれば、彼らは微積分を記憶したとは言いません。彼らは代数を学んだと言います。人間は実際には純粋な記憶をしていません。純粋な推論の位置ですが、それは意味的にラベル付けしているからに過ぎません。人間がスキルを行うとき、それは記憶です。LMがまったく同じスキルを行うと、これらのベンチマークで測定でき、数学の問題を例に挙げると、人間は時々、イェール・Lがやっているのとまったく同じことをしています。たとえば、足し算を学ぶと、アルゴリズムを記憶し、プログラムを記憶し、それを再適用することができます。足し算のプログラムをその場で合成しているわけではありません。明らかに、ある時点で人間が足し算の方法を考え出さなければなりませんでしたが、子供がそれを学ぶ方法は、集合論のアクセントから足し算の方法を理解するということではありません。学校で学ぶことは主に暗記だと思います。ですから、私の主張は、これらのモデルは、人間の脳にあるフロップの数やパラメータの数に比べて大幅にパラメータ化されていないということです。ですから、最も賢い人間ができるように新しい定理を思いつくようなことはしませんが、ほとんどの人間はそれもできません。ほとんどの人間がやっていることは、あなたが暗記と呼んでいるものに似ているように聞こえます。暗記とは、スキルを記憶したり、学んだテクニックを記憶することです。もしこれが間違っているなら、あなたの世界では互換性がありますか？リモートワーカーは全員いなくなっても、彼らは合成データを作成できるスキルを身に付けているので、全員の画面とリモートワーカーの画面をすべて記録し、彼らがそこで行っているスキルをある程度理解し、これらすべてを実行できるモデルをトレーニングしました。リモートワーカーは全員失業しています。AIから何兆ドルもの経済活動を生み出しています。その世界のリモートワーカーは、まだ暗記体制の中にいるのでしょうか？暗記があれば、ほとんど何でも自動化できます。MHは静的な分布であり、変化に対処する必要がない限り、ほとんどの仕事はそのような静的な分布の一部です。潜在的に、多くのものがあります。自動化はできます。LMSは自動化のための優れたツールです。それは良いことだと思いますが、自動化はインテリジェンスと同じではないことを理解する必要があります。LMSが役に立たないと言っているのではありません。私は長年ディープラーニングの熱心な支持者であり、長年2つのことを言ってきました。ディーププランニングを拡大し続ければ、利益が上がり続けると同時に、プランニングを拡大し続ければAIにはつながらないと言っています。つまり、私たちはますます多くのものを自動化できます。これは経済的に価値があります。このように自動化できる仕事は潜在的にたくさんあり、経済的に利用可能になるでしょう。しかし、それでもインテリジェンスは得られません。では、経済的価値をすべて生み出すことができれば何が問題なのでしょうか。結局のところ、インテリジェンスは必要ないのかもしれません。現時点では、変化、新規性、不確実性に対処する必要があります。事前に正確に説明できる空間にいる限り、ただ、純粋に記憶するだけです。実際、問題とその解決策を非常に正確に記述できる限り、どんな問題でもいつでも解決できます。どんなタスクでも、知能をまったく利用せずに、任意のレベルのスキルを発揮できます。しかし、目新しいものを扱う場合は、単に補間と呼ぶだけです。補間だけでは、あらゆる種類の目新しいものを扱うのに十分ではありません。それがUであれば、llmsはgiiになります。同意します。AIではないと思います。AIへの道を進んでいることをどのように把握するかを考えているだけです。ここで、ある程度正しいと思います。おそらく、これらはスペクトル上にあるように思われ、私たちは明らかにスペクトルの最も初期の部分をカバーしています。ああ、わかりました。興味深いですが、これがこのグロッキングの証拠であると思う別の種類のものです。明らかに、ディープラーニング内でも、記憶体制と一般化体制には違いがあります。最初はデータセットを記憶するだけです。モジュラー加算をやっている場合、数字の足し算の仕方がわかります。そして、ある時点で、その訓練を続ければ、そのスキルを学習します。この違いがあるという事実は、ディープラーニングが学習できる一般化回路があることを示唆しています。過剰パラメータ化されたモデルがある場合、一般化される領域があります。現在、これらのモデルに実行させたいすべてのタスクと比較すると、過剰パラメータ化されたモデルはありません。これは非常に古い現象で、何十年も観察されてきました。これは基本的に、最小記述長原理のインスタンスです。問題が与えられた場合、入力をポイントワイズ入力に記憶するだけで、完全に過剰適合しているため、まったく一般化されませんが、SVSの問題です。トレーニングデータです。そこから、実際に剪定を続けることができます。マッピングをどんどんシンプルに、圧縮し続けます。ある時点で一般化が始まります。これは、最小記述レッグ原則と呼ばれるもので、最も一般化しやすいプログラムは最短であるという考えです。これは、記憶以外のことをしているという意味ではなく、記憶と正規化、つまり一般化を行っているということです。はい、これは間違いなく一般化につながります。そして、それを1つのスキル内で行いますが、ここで見られる金属学習のパターンは、1つのスキルよりも多くのスキルを実行できるプログラムを保存する方が効率的であるということです。これは流動性知能と呼べるものです。したがって、Rモデルが大きくなるにつれて、この一般化の階層を上っていくことが予想されます。そこでは、スキルに一般化してから、複数のスケールに一般化します。その通りです。そして、ご存知のとおり、それらは無限に大きいわけではなく、固定数のパラメーターしか持たないため、知識をできるだけ圧縮するためです。実際、LMS は主にベクトルプログラムなどの再利用可能なプログラムビットを保存しています。圧縮の必要があるため、新しいプログラムを学習するたびに、以前に学習した既存のプログラムのビットやピースで表現しようとします。これはまさに一般化ではありませんか。ああ、待ってください。これが、LMS がある程度一般化されている理由です。これは、圧縮する必要があるためです。なぜそれが本質的に制限されているのでしょうか。ある時点で、より高いレベルの一般化を学習する必要があります。より高いレベル、そして最高レベルは流動性知能です。これは本質的に制限されています。モデルの基盤は大きなパラメトリック曲線であり、これを使用して実行できるのはローカル一般化だけです。これを超えてより広範または極端な一般化を行うには、別の種類のモデルに移行する必要があります。私が選択したパラダイムは、離散プログラム検索プログラム合成です。これを理解したい場合は、比較することができます。これをデプランニングと比較してみましょう。デプランニングでは、モデルはパラメトリック曲線、微分可能なパラメトリック曲線です。プログラム合成では、モデルは演算子の離散グラフです。ドメイン固有言語のような論理演算子のセットがあります。そのインスタンスを選択して、グラフに構造化します。これがプログラムです。これは、PythonやC++などで記述するプログラムと非常によく似ています。学習エンジンを展開します。ここではMCH学習を行っているため、これらのモデルを自動的に学習しようとしています。デイングでは、学習エンジンはGrantです。降下法は、解がどこにあるかという非常に強力な情報フィードバック信号が得られるため、非常にコンピュータ効率が高く、解に非常に早く到達できますが、データ効率が非常に悪いため、動作空間の密なサンプリングが必要で、データ分布の密なサンプリングが必要になり、そのデータ分布内での一般化に制限されます。この制限がある理由は、モデルが曲線であるためです。一方、離散プログラム探索を見ると、学習エンジンは共同探索です。仕様に実際に適合しないプログラムが見つかるまで、多数のプログラムを試すだけです。このプロセスは非常にデータ効率が高く、1つの例から2つの例まで一般化可能なプログラムを学習できます。ちなみに、これがArcで非常にうまく機能する理由です。ただし、大きな制限は、共同爆発に遭遇するため、非常に計算効率が悪いことです。したがって、計画と離散プログラム探索がどのように機能するかをここで確認できます。非常に複雑で補完的な強みと限界もあります。ディープラーニングのあらゆる限界には強みがあり、プログラム合成ではその強みが対応しています。そして逆に、PAの前進は基本的にこの2つを融合して始めることになると思います。別の考え方としては、このパラメトリック曲線はグラウンドディセントでトレーニングします。これらは、パターン認識、直感、記憶など、システム1型の思考のすべてに最適です。離散プログラム検索は、タイプ2の思考、システム2の思考に最適です。たとえば、計画推論、1つまたは2つの例に一致する一般化可能なモデルをすばやく見つけ出すなどです。たとえば、アークパズルなどです。人間は純粋なシステムや純粋なシステムを実行することはなく、常に両方を組み合わせています。現在、システム1にはすべてのツールがありますが、システム2にはほとんど何もありません。前進する方法はハイブリッドシステムを作成することです。その形式は、ほとんどシステムになると思います。外側の構造は離散プログラム検索システムになりますが、ディスクスクリプトプログラム検索の根本的な制限である通信爆発を修正します。これをディープラーニングで修正します。ディープラーニングを活用して、プログラム空間での直感を提供し、プログラム検索をガイドします。これは、チェスをプレイしているときや定理を証明しようとしているときに見られるものと非常に似ていると思います。これは主に推論ですが、ソリューションの形状に関する直感から始まります。これは、計画モデルを介して得られるものと非常によく似ています。計画モデルを介して得られるものは、直感マシンに非常に似ています。これらはパターンマッチングマシンなので、このソリューションの形から始めて、実際の明示的な離散プログラム検索を実行しますが、ブルートフォースではなく、ランダムに試すのではなく、別のディーププランニングモデルに提案を求めます。これが最善の次のステップです。グラフのどこに行くべきですか。また、フィードバックのために別のディーププランニングモデルを使用することもできますが、これまでのところはこれでよさそうですか。後戻りして新しいものを試したほうがいいでしょうか。離散プログラム検索が鍵になると思いますが、ディープトリングを活用して桁違いに効率化する必要があります。ちなみに、プランニングを使用できるもう1つのことは、もちろん常識的な知識や一般的な知識などです。最終的には、このようなオンザフライ合成を備えたシステムになると思います。新しい状況に適応できるエンジンですが、適応する方法は、パターンのバンクからモジュールを取得します。モジュールはそれ自体が曲線である可能性があり、U 微分可能なモジュールやアルゴリズムの性質を持つ可能性のある他のモジュールである可能性があります。直感に導かれたこのプロセスを介してそれらを組み立て、直面する可能性のあるすべての新しい状況に対して、非常に小さなデータを使用して合成された一般化可能なモデルを提供します。このようなものがアークを解決します。これは実際に非常に興味深いプロンプトです。なぜなら、ここで興味深い核心は、LLM について非常に楽観的で、今後数年以内に AGI を期待している友人と話すと、彼らも、スケーリングだけが必要なのではなく、残りの進歩はスケーリングによって支えられ、可能になるという点で同意しているからです。ただし、それでも、これらのモデルを計算するためにシステムをテスト時間に追加する必要があります。彼らの見方では、自由取引から構築した表現のライブラリがあるため、それを行うのは比較的簡単です。しかし、それは教科書をざっと読むのと同じような話です。文脈学習はサンプル効率が非常に高いのですが、それを重みに抽出するには、モデルが見たものについて話し、それを重みに戻す必要があります。システムに関しては、何らかのRL設定を追加して、正しい推論の軌跡を進めるように促すことについて話しています。これは比較的簡単なもので、今後数年内に追加されると思います。これは経験的な質問なので、あなたの直感がわかると思います。興味があるわけではありませんが、私の直感は実際これです。システム全体をアーキテクチャにするのは、非常に難しく、わかりにくい部分です。補間メモリのスケールアップは簡単です。必要なのは、文字通り大きな曲線のようなもので、より多くのデータだけです。これはデータセットの表現であり、データセットのインターポール表現です。これは簡単な部分です。難しいのは、インテリジェンスのアーキテクチャです。メモリとインテリジェンスは別々のコンポーネントです。メモリはありますが、インテリジェンスはまだありません。メモリがあることは実際には非常に便利ですが、インテリジェンスだけと言っても、それが大規模なメモリに接続されていない場合は、作業に必要な十分な材料がないため、それほど役に立ちません。はい、ここでの代替仮説は、以前のゲストであるトレントとブルーケンが述べたものです。高度なインテリジェンスは、階層化された関連メモリであり、高レベルのパターンであるということです。シャーロックホームズが犯罪現場に入ると、彼は非常にサンプル効率が良く、いくつかの手がかりを見て、誰が殺人犯であるかを突き止めることができます。彼がそれを実行できるのは、より高レベルのものを学んだからです。連想は基本的な意味での記憶ですが、脳内で質問する方法の 1 つは、プログラム合成を行うということですが、それは互いに接続しているシナプスに過ぎないので、物理的には正しい回路を照会するだけです。そうですね、そうですね、それは程度の問題ですが、もしそれを学習できるのであれば、人間の祖先が訓練した環境で訓練するということは、それらの回路を学習することを意味します。人間が生成するのと同じ種類の出力で訓練し、それを複製するにはこれらの種類の回路が必要です。それは人間が持っているのと同じ種類のものを訓練することになるのではないでしょうか。それは程度の問題です。記憶があり、そこから局所的な一般化しかできないシステムであれば、再生するにはあまり適応性がありません。より広い、極端な一般化を達成するには、記憶に加えて、かなり深く検索する能力が必要です。私の好きな心理学者の 1 人である Jean P は、発達心理学の創始者で、知性についての非常に良い引用です。知性は何をしたらいいかわからないときに使うもので、人生を生きる人間として、ほとんどの状況で何をしたらいいかは既にわかっています。なぜなら、以前にもこの状況に陥ったことがあるからです。すでに答えはわかっています。そして、新しいことや予想していなかったこと、自分の経験や人生経験、あるいは進化の歴史によって準備されていなかったことに直面したときだけ、知性を使う必要があります。例えば、今あなたが生きているこの日は、これまで生きてきたどの日ともいくつかの重要な点で異なりますが、それはまた、あなたの先祖が生きてきたどの時代とも違っていて、それでも機能できるというのは、どうして可能なのでしょうか。一般化が極めて知能の基礎であることは否定しません。それは正しくありません。正しいのは、モデルでどの程度それが起こっているかということです。しかし、別の質問をしましょう。ここで、人間間の知能の違いについて考え続けるかもしれません。おそらく、あなたが述べた理由により、知能テストでは十分に測定できないのでしょうが、明らかに人間によって知能に違いがあります。何が起こっているのか、あなたの説明はどのようなものでしょうか。なぜなら、これは、一般性のスペクトルがあり、これらのモデルが人間のレベルにまで上昇しているという私の話とある程度一致すると思うからです。一部の人間は、アインシュタインのレベルやフランのレベルにさえ達していません。しかし、それは素晴らしい質問です。知能の違いは、主に遺伝的性質であるという広範な証拠があります。つまり、あまり知能が高くない人を連れて行った場合、その人を訓練データにさらしても、その人が知能を伸ばすことはできないということです。彼らはアインシュタインになり、これは、より優れたアーキテクチャ、より優れたアルゴリズム、そして実際に必要なトレーニングデータがすべてではないという事実を示唆しています。私はそれに同意します。言い換えると、より賢い人は、ML 言語でより優れた初期化を持っているということです。これは単に神経配線であり、見ればより効率的で、おそらく発火密度が高いため、スケーリングの話の一部であり、脳のサイズと知能の間には何らかの相関関係があります。また、人々が LLM アーキテクチャの改善の文脈で話している「スケーリング」の文脈でも、ジェミニ 1 のようなモデルが見られます。5 Flash は、GP4 が 1 年前にリリースされたときと同じくらいの性能ですが、出力は 57 倍安価です。スケーリングの話の一部は、アーキテクチャの改善は、非常に簡単に達成できる領域にあるということです。さて、Zapier の共同創設者である Mike K と一緒に戻ってきました。私たちは何度かやり直さなければなりませんでしたが、この賞に資金を提供し、Franois と一緒にこの賞を運営しています。では、これがどのように実現したか、この賞を立ち上げるきっかけは何だったのか教えてください。ええ、私は 13 年間 AI に興味がありました。Z Zapper の共同創設者で、この 13 年間運営してきました。私が最初にあなたの仕事に出会ったのは、Co のときだったと思います。私はウサギの穴に落ちていきました。私たちにはたくさんの自由時間がありました。あなたが知能の測定に関する論文を発表した直後に、AGI の概念を紹介しました。これは、スキル獲得の効率性のようなものであり、アークパズルの正しい定義のようなものです。最初の Kagle コンテストはまだ終わっていなかったと思います。まだ開催中だったと思います。それで、ちょっと面白かったのですが、そのアイデアは保留にしました。Zapp ではもっとやるべきことがありました。2 番目の製品に取り掛かるという大きな転換期の真っ最中でした。そして、2022 年 1 月に Chain of Thought の論文が発表され、それが私を進歩に目覚めさせました。私は、GBD3 の論文 EV について Zapier にプレゼンテーションを行いました。Elms でできることはすべて価格に織り込んでいたような気がしました。その論文は、Elms が持つ、私が予想していなかった潜在的な機能に関して、私にとって本当に衝撃的でした。そのため、私は実際に App でのチームの役割を放棄し、その時点で会社の半分を運営していました。私は個人貢献者に戻り、共同創設者の Brian と一緒に AI 研究を行うことになりました。そして最終的に、WS Arc に戻ることになりました。私はそれを調べていました。繰り返しになりますが、MLU や GMS 8K には飽和効果があることは予想していましたが、スコアと過去 4 年間の進捗状況を見ると、実際にはほとんど客観的な進歩が見られなかったことに再びショックを受けました。これは非常に重要な評価だと感じました。この 1 年間、自分のネットワークやコミュニティでこの評価について質問したり、クイズをしたりしてきましたが、ほとんどの人は存在すら知りませんでした。この評価が本当にグローバルに唯一無二の AGI 評価であり、AI スキルを狭く測定する他の評価とは異なるのであれば、もっと多くの人がこの評価について知っておくべきだと感じました。私も Arc に勝つ方法について独自のアイデアを持っていたので、夜や週末に取り組んでいました。今年の初めにフランスに飛んで、クイズをしました。彼に私のアイデアを見せて、最終的に私は、なぜもっと多くの人がアートについて知らないと思うのか、と尋ねました。ええと、あなたは実際にそれに答えるべきだと思います。なぜもっと多くの人がアートについて知らないと思うのか、本当に興味深い質問だと思います。もちろん、研究コミュニティで注目を集めるベンチマークは、すでにかなり扱いやすいベンチマークだと思います。なぜなら、あなたが見ているダイナミクスは、いくつかの研究グループが最初のブレークスルーを達成すれば、他の全員の注目を集め、最初のチームを倒そうとする人たちによるフォローアップ論文が発表されることになります。AR の場合、これは実際には起こりませんでした。なぜなら、Arc は既存の技術では非常に難しいからです。Arc では新しいアイデアを試す必要があります。ちなみに、これがまさにポイントです。ポイントは、既存の技術を適用して Arc を解決できればよいということではなく、既存の技術が停滞し、それを超えて、記憶に残っていない、これまで見たことのない問題に取り組み始めるには、新しいアイデアを試す必要があるということです。Arc は、単にフラグとして、つまり、私たちがどれだけ近づいているかを示す指標としてだけではなく、インスピレーションの源としても機能することを目的としています。研究者がこれらのパズルを見て、「これらのパズルはとてもシンプルで、ほとんどの人間が解けるのは本当に不思議だ」と思ってほしいのです。既存の AI システムにとってなぜこんなに難しいのか、LS にとってなぜこんなに難しいのかなど、LS の場合もそうですが、Arc は実際には LS が実際に普及する前にリリースされました。当時 Arc を特別にしていた唯一の点は、記憶に抵抗するように設計されていたことです。また、LMS や Gen を生き延びたという事実からも、記憶に抵抗していることがわかります。これは、オタクの私です。自分でたくさんのパズルを解いて、友人や家族全員に見せたところ、みんな「ああ、これは超簡単だ。AI はこんな風に解けないのか」と言うのです。私も同じ反応でした。掘り下げてみると、過去 4 年間で無敗だったという実証的証拠だけでなく、理論的な概念が背後にあることがわかります。現時点では、新しいアイデアは基本的にダークなものが必要であり、世界には多くの現在のトレンドがあることに完全に同意しています。実際には、それが起こっているのに反対していると思います。基本的に、私たちは今、新しいアイデアを生み出す可能性が低くなっていると思います。つまり、トレンドの1つは、最先端の研究が閉鎖されていることです。OpenAのGP4論文では技術的な詳細は共有されていませんでした。Gemini論文でも技術的な詳細は共有されていませんでした。その作業のより長い文脈の一部ですが、オープンイノベーション、オープンな進歩、共有が、そもそも私たちをTransformersに導きました。それがElmsに導いたのです。だから、実際には、多くの最先端の研究が閉鎖されたのは、個々の研究室がブレークスルーを起こすという賭けであり、エコシステムがブレークスルーを起こすという賭けではないと私は思います。インターネットのオープンソースは、これはおそらく世界全体でも最も強力なイノベーションエコシステムであることを示しています。フロンティア研究がもう公開されていないのは実に残念なことだと思います。振り返ってみると、4年前はすべてがオープンに共有され、最先端の研究結果がすべて公開されていましたが、今はそうではなく、オープンが独力でゲームを変えています。オープンエアは基本的にAIへの進歩を5年から10年ほどかなり遅らせたと思います。理由は2つあり、1つはフロンティア研究の公開が完全に終了したこと、もう1つはLMSをめぐる最初の誇大宣伝を引き起こしたことです。そして今やLMSは部屋の酸素を吸い取っています。誰もがLMSをやっているように。私はLMSをAGRへの道の出口と見ています。そしてこれらすべての新しいリソース彼らは実際に、他のあらゆるものよりも LMS に目を向けています。2015 年や 2016 年を振り返ると、当時 AI に取り組む人は 1000 分の 1 ほど少なかったのですが、進歩の速度は速かったと思います。人々がより多くの方向を模索していたからです。世界はよりオープンエンドに感じられ、クールなローンチのアイデアを持って試してみて、興味深い結果が得られるようになりました。そのため、このエネルギーがありました。今では誰もが同じことのバリエーションを行っています。大手の研究所も Arc に手を付けましたが、結果が悪かったため、何も公開しませんでした。皆さんご存知のように、人々は肯定的な結果のみを公開しています。人々がどれだけの努力を傾け、デボンのようなアプローチでフロンティアモデルや今日のフロンティアモデルを生み出そうとしたのでしょうか。1 年前だけではありません。多くのポストトレーニングによって、それらをより優れたものにすることができました。Opus や gp40 を駆使して Arc で優れたソリューションを獲得しました。このエピソードで、人々にこのオープンなコンテストを試してもらうことです。そこでは、オープンソースのモデルを使って競争する必要がありますが、CLA Opus に潜在的な後期能力があるかどうかを調べ、それを証明できるかどうかを確認します。これは非常に興味深いことだと思います。それでは賞金についてお話ししましょう。解けたらいくらもらえるのか、Arc で何パーセントもらえるのか、最高のビジョンを出して解けなかったらいくらもらえるのか。私たちは 100 万ドルを獲得しました。実際、100 万ドルを少し超える金額が賞金プールです。これは毎年コンテストを運営しています。私たちは GNA で、今日から 11 月中旬まで開催します。目標は 85% を獲得することです。これは先ほどお話しした人間の下限平均です。500 ドルの賞金があります。85%のベンチマークに到達した最初のチームに10000ドルの賞金を授与します。今年、それが実現するとは思っていません。Zappierでの初期の統計の1つで、時間がかかればかかるほど時間がかかるという、ずっと心に残っている言葉がありました。私の先入観では、Arcは解決に何年もかかるでしょう。そのため、今年は進捗賞も実施する予定です。進捗賞として10万ドルを用意し、トップスコアを獲得したチームに支払います。KLEリーダーボードで今年のトップ目標スコアを獲得したチームには5万ドルが贈られます。KLEリーダーボードはKaggleでホストしています。そして、達成できたスコアを概念的に説明する最高の論文に5万ドルの賞金を用意します。また、興味深いことの1つは、賞金を獲得するには、ソリューションまたは論文をパブリックドメインに公開する必要があります。その理由は、コンテストでは、多くの人がプライベートな秘密を共有している傾向があり、コンテスト期間中はアルファTOSを保持したいからです。コンテストは数年かかると予想しているため、私たちはここでエニーゲームに勝ちました。計画では、11月末に100ドルを授与する予定です。最優秀進歩賞に 000 ドルの賞金を贈り、12 月、1 月、2 月のダウンタイムを利用して、トップスコアラーからのすべての知識と、コミュニティを最先端のレベルに再ベースラインするために人々が採用したアプローチを共有し、来年もコンテストを開催し、85% に達するまで毎年これを続けます。この賞が非常に興味深いと思う理由について、いくつかの背景を説明します。私は、今日のモデルを非常に信奉している友人と会話をしていましたが、まず、彼らが Arc について知らなかったことが私にとって興味深いことでした。彼らは経験豊富な ML 研究者です。そこで、数日前に夕食に行ったときに、サンプル問題を見せたところ、彼らは、もちろん LLM でこのような問題を解決できると言いました。その後、スクリーンショットを撮って、Chad GPT アプリに入力しましたが、パターンが取得されませんでした。これは非常に興味深いことだと思います。注目すべき事実です。私は悪魔のゲームで分類されました。こういった質問に対しては反対意見もありますが、これは非常に興味深い事実です。私は極端な意見を言いますが、この賞は非常に興味深いと思います。なぜなら、私たちはいずれにせよ魅力的な何かを学ぶことになるからです。この賞とは別に 85% という数字がありますが、誰かがその結果を再現できるかどうか非常に興味があります。なぜなら、心理学やその他の分野では、この結果は、少数のサンプルでテストを実行する場合と似ているように思われますが、再現が難しいことが多いからです。ですから、これを再現しようとすると、平均的な人間が Arc でどのようなパフォーマンスを発揮するか非常に興味があります。このベンチマークを破るのにどのくらいの時間がかかるかという難しさについてですが、非常に興味深いのは、MML 数学など、現在完全に飽和状態になっている他のベンチマークが非常に興味深いからです。実際に、このベンチマークを作成した Dan Hendris と Colin Burns は、MLU で数学を専攻しました。このベンチマークを作成した当時は、大学院生か大学生だったと思います。数年前に作成したときの目標は、これが AGI のテストになることでしたが、もちろん完全に飽和状態になりました。III これらは、記憶力のテストですが、私たちが実際に見たパターンは、Epoch AIには非常に興味深いグラフがあり、YouTubeバージョンに重ねて表示します。これはほぼ指数関数的で、モデル間で計算を増やすと5%、10%、30%、40%と増加し、その後急上昇します。GB4の技術レポートには、人間の評価問題セットの興味深いグラフがありました。これは22のコーディング問題で、平均ログパス曲線にグラフ化する必要がありました。これは、トレーニングの初期段階、またはより小さなモデルでも、この問題の解決方法について正しい考えを持っている可能性がありますが、問題全体を解決するために軌道に乗っていることを確認するには、多くの信頼性が必要であり、そのため、信号が取得される場所では、信号を上向きにする必要があります。少なくとも時々は100回に1回、1000回に1回、そして1回から100 人に 1 人、10 人に 1 人、そして完全に飽和状態になります。私が抱いている疑問は、なぜ同じことが Arc で起こらないのかということです。Arc では、人々は本当に大きなモデルを作るために努力しなければなりませんでした。そして今、ジャック・コールが 2 億 4000 万のパラメータを持つ言語モデルで 35% を達成できる手法を編み出しました。他のすべてのベンチマークで見られたのと同じパターンが見られるべきではないでしょうか。つまり、少しずつ試行錯誤して、大体の考えがつかめたら、100 まで一気に進めるというパターンです。これは実験的な質問です。実際に何が起こるかはわかりますが、ジャックがやっていることは非常にユニークです。NLM を事前トレーニングするだけでなく、プロンプトでアクティブ推論を行おうとしています。彼はテスト時間 F を実行しています。テスト時間 f を実行しています。これは、LS の重要な制限の 1 つを解消しようとしているのです。つまり、推論時には新しいことを学習できず、飛行中に適応できないということです。実際に見て学ぼうとしているので、彼がやっていることは事実上プログラム合成の一種です。なぜなら、dlmにはプログラミングビルディングブロックのような多くの便利なビルディングブロックが含まれており、テスト時にタスクのユニットを見つけることで、これらのビルディングブロックをタスクに一致する正しいパターンに組み立てようとしているからです。これがまさにプログラム合成の目的です。このアプローチを離散プログラム検索と比較すると、離散プログラム検索では、プリミティブのセットからプログラムを組み立てようとしているので、プリミティブの数は非常に少ないです。たとえば、Arcでこのプログラムに取り組んでいる人は、100から200のプリミティブプログラムを持つDSLで作業する傾向があります。つまり、非常に小さなDSLですが、これらのプリミティブを組み合わせて非常に複雑なプログラムを作成しようとしているので、非常に深い検索の深さがあります。一方、JackalがLMSで行っていることを見ると、彼はこのような種類のものを持っています。ベクタープログラムデータベース DSL のようなもので、LLM 内の何百万ものビルディングブロックは、大量のプログラミング問題だけでなく、生成された何百万もの AR タスクでも事前トレーニングされた DLM によってマイニングされます。つまり、非常に大規模な DSL があり、チューニングは非常に浅い Rec の組み合わせで、これらのプリミティブを個別にプログラム検索します。非常に深い Rec の組み合わせ、プリミティブプログラムの非常に小さなセットです。LLM のアプローチは同じですが、そのスペクトルの完全に反対の端にあります。記憶を大幅にスケールアップし、非常に浅い検索を実行しますが、これらは同じものです。スペクトルの異なる端だけです。コンピューティングサイクルで最大の価値を得られるのは、その中間にあると思います。記憶を活用して、より豊富でより有用なリアティブプログラムのバンクを構築したいのですが、それらをハードコードされた典型的な RDS の場合、例から学習させたいのですが、ある程度の深い探索も行いたいです。非常にシャドウな探索だけを行っている限り、局所的な一般化に制限されます。さらに広く一般化したい場合は、この探索の深さが重要になります。合成データに大きく依存しなければならなかった理由は、2 億 4000 万のパラメータモデルを使用したためだと主張するかもしれません。当時の Kago のコンテストでは、H100 の 10 分の 1 程度のフロップスを持つ P100 GPU を使用する必要があったため、明らかに使用できませんでした。そのようなスケーリングでこの種の推論が解決されると思われる場合は、一般化に頼ることができますが、リスナーのコンテキストでは、はるかに小さいものを使用している場合は、フロンティアモデルは文字通りそれよりも x 大きいため、コンテストでは、提出する必要がある提出物では API 呼び出しを行うことはできません。オンラインアクセスができないため、Nvidia Tesla T4 で実行する必要がありました。p00 p00、ああ、p00 ですね。そうですね、繰り返しになりますが、時間制限は 12 時間よりも大幅に短く、基本的には評価に効率性の強制機能がありますが、テストタスクは 100 個しかないため、各タスクに使用できるコンピューティングの量は、特に各タスクのシンプルさと比較すると、実際にはかなり多くなります。つまり、基本的にタスクあたり 7 分になります。ご存知のように、人間の脳には何回のフロップスがあるかを推定しようとした人がいますが、その推定値は鵜呑みにしないでください。ただし、一種のアンカーとして、それは基本的に H100 のフロップスの量であり、おそらく人間の脳は 7 分よりも速くこの問題を解くことができると主張するでしょう。2分なので、ATで計算しても7分でできるはずです。明らかに、脳内の高速アクセスメモリのペダバイトよりもメモリが少なく、このH100には29ギガバイトか何かあります。とにかく、私が尋ねているBRの質問は、スケーリングがアークを解決するための道であるかどうかをテストする方法として、最大のモデルに何らかの足場を使ってこの賞品をテストする方法があればいいのにということです。競争の文脈では、限られたリソースでどれだけ進歩できるかを見たいと思っていますが、あなたが完全に正しいのは、最大のモデルがARで実際に何ができるかという非常に興味深い未解決の問題です。そのため、VMを送信して、好きなモデルを配置できるプライベートなワンオフトラックも実際に提供したいと考えています。最大のオープンソースモデルの1つを取得して、好きなようにできます。イメージをアップロードして、それを h100 forac で 24 時間ほど実行すると、何が得られるかがわかります。2 つの異なるテストセットがあることを指摘しておく価値があると思います。パブリックテストセットは、GitHub のパブリックリポジトリにあり、誰でもトレーニングに使用できます。オープンコールで何でもできます。そして、プライベートテストセットは、実際に最先端の 100 を測定します。つまり、人々が少なくともパブリックテストセットを使用して試してみるのは、かなりオープンで興味深いことだと思います。パブリックテストセットに対して報告されたスコアには、アスターがあります。パブリックテストセットは公開されているため、どこかのトレーニングデータに漏れている可能性があります。これは実際に人々がすでに行っていることです。たとえば、最新の gini や最新の gp4 などの最高のモデルの 1 つを、パブリック Evolution セットのタスクで試すことができます。ここでも問題は、これらのタスクが CH および GitHub のファイルとして利用できることです。これらのモデルも GitHub でトレーニングされているため、実際にはこれらのタスクで訓練すると、実際にいくつかのタスクを解決できるかどうかについて不確実性が生まれます。答えを記憶するかどうかは、おそらくあなた次第です。独自のプライベート AR クラック、非常に斬新なテストセットを作成する方がよいでしょう。タスクを難しくしたり、複雑にしたりしないでください。人間にとって非常に明白なものにしないでください。ただし、できるだけオリジナルでユニークで異なるものにしてください。そして、GPT4 や GPT5 がそれらに対してどれだけ優れているかを確認します。これらのモデルがこれらのベンチマークスケールで過剰に訓練されているかどうかをテストしています。最近、GSM でこれを行いました。非常に興味深いことに、基本的にベンチマークを異なる質問で複製しました。そのため、一部のモデルは実際にベンチマークで非常に過剰適合しました。たとえば、misol などです。フロンティアモデル Claude と gbt は、実際に既存の公開ベンチマークにある特定の質問で行った新しいベンチマークでも同様の結果を出しました。そのため、JSON でトレーニングするだけで比較的楽観的に見ています。Mike と冗談を言っていましたが、API アクセスは許可するべきですが、これらの AR 質問の検証セットをさらにプライベートにしておく必要があります。API アクセスを許可して、人々が gp4 scaffold でこのコンテストに参加できるようにします。後で API で検証セットを実行し、最初に API アクセスを許可したテストセットよりもパフォーマンスが悪かった場合は、Open AI が API 呼び出しでトレーニングしていることを意味します。これを公開して、彼らがデータを漏らしたと見せて、Arc データセットを進化させたいと考えています。これが私たちの目標です。France PA が言ったように、完璧ではないことはご存知でしょう。Arc は完璧な BI には最適ではありません。つまり、私は 4 年前に作成しました。4 年以上前、ほぼ 5 年前に作成しました。 LAMS の前の期間で、潜在的な欠陥について多くのことを学んだと思います。タスクセットには冗長性があると思います。これはもちろんベンチマークの目的に反します。すべてのタスクはユニークであるはずですが、実際にはそうではありません。すべてのタスクは非常に斬新であるはずですが、実際にはそうではないかもしれません。どこかのオンラインで見つかるものと構造的に似ている可能性があります。そのため、繰り返し作業を続け、今年後半に ARC 2 バージョンをリリースしたいと考えています。リリースするときには、古いプライベートテストセットを利用できるようにしたいと考えています。公開はしないかもしれませんが、テストサーバーを作成して、タスクをクエリして取得し、ソリューションを送信し、もちろん、必要なフロンティアモデルを使用できるようにしてください。この方法では、実際にこの API をクエリする必要があるため、このデータで誤ってトレーニングする人がいないことを確認できます。これは、文字通り現在公開されている AR データとは異なります。 GitHub なので、モデルが実際に GitHub でトレーニングされているかどうかは疑問の余地がありません。はい、モデルは GitHub でトレーニングされているので、この CI にアクセスできればこの問題は回避できます。そして、実際に思いついたテクニックを好きなリソースを使って試してみたい人にとっては、それが答えを得る手段になるでしょう。何が起こるかわかりません。1 つの答えは、AI 用のまったく新しいアルゴリズムを考案し、明示的なプログラム合成によって新しい軌道に乗ったというもので、もう 1 つは、既存のモデルを実際に有効な方法でハッキングして、映画の知能は分布の正しい部分に物事を導くことであるというものです。しかし、それは推論することができ、その世界では、それは興味深いものになると思いますし、おそらく、現在のモデルでは何かハックをしなければならなかったことを示しているかもしれません。モデルが改善されれば、ハックをする必要がなくなります。また、これらのマルチモーダルモデルがネイティブでどのように機能するか、ARKのようなテストではるかに優れているかどうかも非常に興味があります。Arcがここから3か月生き残れば、価格を上げます。価格を爆上げし、はるかに大きな価格プールを設定することで、現実と接触する非常に重要な瞬間を迎えようとしていると思います。アイデアの実がなっているかどうかは、すぐにわかるでしょう。新しいアイデアが必要だと思います。これを聞いている人は誰でも頭の中にアイデアを持っていると思います。ぜひ試してみてください。そして、時間が経つにつれて、進歩が行き詰まっているという議論に力強さが加わり、新しいアイデアが暗くなる必要があると思います。それが、お金の価格を設定するポイントです。もっと多くの人を引き付けて、彼らに解決を試みさせ、ベンチマークを簡単にハッキングして、ベンチマークの目的が明らかになれば、それについて知ることができます。実際、それが2020年にArcが行った最初のコンテストの目的でした。このデータセットを公開したので、ハッキング可能か、不正行為が可能かを知りたかったので、このコンテストを開催しました。当時は2万ドル程度の賞金がありました。GPT3がリリースされたのとほぼ同じ時期でした。もちろん、人々はGPT3をパブリックデータで試しましたが、スコアはゼロでした。しかし、最初のコンテストで最初に学んだことは、明らかな近道はないということです。そして、お金が増えたので、もっと多くの人がそれを調べるようになるでしょう。ベンチマークが生き残るかどうか、そして最終的に成功するかどうかがわかるでしょう。解決策は、コア知識のみで訓練された可能なARタスクのスペースを強制しようとするようなものではありません。それ自体が必ずしもhiiになるとは思いませんが、hiiへの道の大きなマイルストーンになるでしょう。なぜなら、それが表すのは、わずか2つか3つの例から問題解決プログラムを合成する能力であり、それだけでも新しいプログラミング方法であり、ソフトウェア開発のまったく新しいパラダイムであり、非常に一般化される可能性のある非常に複雑なプログラムをプログラミングし始めることができるからです。頭の中でプログラムの形を考え出して入力するのではなく、実際にはコンピューターにあなたが望む広告を見せるだけで、コンピューターにそれを理解させます。これは非常に強力だと思います。どのような解決策が考えられるかについて少しお話ししたいと思います。ここで可能なことと、Arc の目的に反すると考えることと、妥当なことの 1 つを挙げます。1 つは、私の友人の Ryan と Buck が昨晩夜更かししたことです。私がこのことを彼らに話すと、彼らは「もちろん、春にはこれを解け。もちろん、Al がこれを解く」と言っていました。それで、彼らは CLA Opus にこれを勧めようとしました。彼らは、公開 Arc テストで 25% を獲得したと言っています。彼らが行ったのは、いくつかの Arc テストの他の例を示し、コンテキスト内で、ある出力から別の出力に移動した理由を説明し、現在の問題が発生するようにしたことです。また、JSON をトークナイザーにとってより修正しやすい方法で表現したと思います。もう 1 つは、コードインタープリターを使用したことです。これらのモデルが賢くなるにつれて改善され続けるコードインタープリターが、まさにプログラム合成である場合、実際にどうなるのか興味があります。なぜなら、彼らが実行できたのは、セルの実際の出力、つまり、コードインタープリターを介して取得した JSON 出力だったからです。そうです、ここで出力を得る Python プログラムです。研究者が話しているようなプログラム合成は、大規模な言語モデルでコードインタープリタを使用するだけのものになると思いますか。私たちが見ているソリューションで良い結果を出すには、おそらく計画モデルや特に LLM の側面を活用する必要があると思います。LLM は非常に優れていることはすでに示しました。これは基本的に Jack コードアプローチです。また、小さな DSL からの純粋な記述 PR 検索が非常に優れていることも示しました。Jackco 以前はこれが最先端でした。実際、今でも最先端に非常に近く、これらのモデルにはまったく設計が含まれていません。つまり、基本的に重複のない 2 つのアプローチがあり、非常にうまく機能しています。これらは 1 つのスペクトルの両端にあります。一方には、非常に大規模な数百万のベクトルプログラムのバンクがありますが、非常に浅い Rec の組み合わせで、単純な組み合わせのようです。もう一方には、非常に単純な DSL があります。非常に単純で、100 または 200 のプリミティブがありますが、非常に深く、非常に洗練されたプログラム検索です。ソリューション中間のどこかになるでしょう。AR競争で勝利し、近い将来に向けて最も進歩を遂げるのは、ディープラーニングパラダイムと離散探索パラダイムを1つのエレガントな方法で統合することに成功したSになるでしょう。何が正当で何が不正なのかと問うでしょう。たとえば、コードインタープリターをシステムに追加したいと考えるでしょう。これは素晴らしいと思います。不正になる部分は、テストセットに何が含まれるかを予測しようとすることです。たとえば、可能なタスクのスペースをブルートフォースし、記憶システムをトレーニングして、その事実に頼ります。数百万、数百万、数百万という非常に多くのタスクを生成するので、生成したものとテストセットに含まれるものの間には必然的にラボの一部が存在します。これがベンチマークの目的を決定づけると思います。なぜなら、記憶されたソリューションを取得するだけで、適応する必要なく解決できるからです。うまくいけば、Arc はそれに抵抗しますが、何もわかりません。Benchmark は必ずしも完璧ではないので、ハッキングする方法があるかもしれません。すぐに答えが得られると思いますが、ある程度の微調整は有効だと思います。これらのモデルは、特に言語モデルのみについてネイティブに考えていないためです。ここで競争するために使用する必要があるオープンソースモデルは、ネイティブ言語のようなもので、このような Arc タイプの方法で考えることができる必要があります。Ark のようなコア知識をモデルに入力する必要がありますが、これを行うために何千万ものタスクを実行する必要はありません。Coaly のように非常に基本的なことですが、アーチ型の質問を見ると、私がこれまで見てきたものに少し依存していると思います。たとえば、何かが壁から跳ね返って戻ってくると、そのパターンが見えます。アーケードゲームでポンとかをやったことがあるような感じです。たとえば、フライン効果や、人々の知能がヴェレンで測定されたプログレッシブマトリックスを見ると、このような質問に対する答えが増加すると思います。おそらく同じような話で、子供の頃からテレビや空間パターンでこのようなパターンを見ています。ですから、これはコア知識ではないと思います。実際、これは人間が成長するにつれて、さまざまな空間パターンを見て、それにパターンを合わせようとするいわゆる微調整の一部でもあると思います。コア知識には、たとえば跳ね返りや軌道などの基本的な物理学が含まれますが、そうですね、あなたの言うとおりだと思います。人間がすぐに解決策を見つけられるのは、この一連の構築方法があるからです。頭の中で組み替えられる一連のパターンをブロックします。これが知性を獲得するために必要なコア知識です。どんなアルゴリズムでも、コア知識はある意味でハードコードされている必要がありますか。それとも、知性を通じてコア知識を学習できるのでしょうか。コア知識は学習可能で、人間の場合、ある程度のコア知識は生まれつきのものであり、私たちは実際に、これから住む世界についてのわずかな知識を持って生まれます。私たちは白紙の状態ではありませんが、コア知識のほとんどは経験を通じて獲得されます。しかし、コア知識の問題は、獲得できるものではないということです。例えば学校では、人生の最初の3～4年で非常に早い段階で習得され、4歳までに大人として必要なコアな知識がすべて身に付きます。興味深いですね。つまり、賞品自体についてですが、ラマ70bか何かのオープンソースバージョンが見られてとても興奮しています。コンテスト自体でスコアを取れるようにするよりも、スケーリング仮説を具体的にテストする方がよいでしょう。Arcのパブリックバージョンを提案していただけるかどうか非常に興味があります。これはおそらくコンテストには参加できないと思いますが、人々がそれを解読してArcをそこで動作させる方法を見てみたいと思います。それがAIに関するレビューを更新するのであれば、確かにやる気が出るでしょう。誰かが再現可能なオープンソースバージョンをパブリックドメインにするまでコンテストは継続します。誰かが個人的にEVやArc evalに勝ったとしても、誰かがそれを再現してパブリックに再現可能なバージョンを公開するまで、賞金は保持します。まさにその通りです。目標は AGI に向けた進歩を加速することです。その重要な部分は、意味のある進歩はすべて共有され、公開される必要があるということです。そうすれば、誰もがそれを知り、それを繰り返し試すことができます。共有されなければ進歩はありません。私が特に興味を持っているのは、これをオープンバージョンにできるか、それともスケーリングだけで可能なのかという賭けを分解することです。そして、公開バージョンとプライベートバージョンに基づいて両方をテストできると思います。これにより、現実と接触しています。実際にコンピューティングの限界が何であるかを考えます。誰かが現れて、ここにクローズドソースモデルがあり、50% 以上を獲得しているとしたら、おそらく、プライベートテストセットに与えるコンピューティングの量を増やしてバランスをとる必要があるのではないか、という最新情報が得られると思います。ご存知のように、最初の決定の一部は、人々が何を望んでいるのか、進歩はどのようになっているのかを知るために、やや恣意的です。そして、私たちはどちらもそれを進化させることにコミットしていると思います。時間をかけて、最高、あるいは完璧に近づくように努力することで、素晴らしい成果を上げることができます。この賞についてもっと知り、挑戦したい人は、Parc pri.org にアクセスしてください。今日からライブ配信が始まります。賞金 100 万ドルがかかっています。皆さん、ポッドキャストに来てくれてありがとうございます。インテリジェンスに関するすべての核心に触れ、違った視点を得ることができ、またここで賞を発表できることは、とても楽しいです。これは素晴らしいことです。このニュースを伝えるのに協力してくれて、私たちを見つけてくれてありがとう」org は今日からライブ配信されます。100万ドルが懸かっています。ポッドキャストに来てくれてありがとう。インテリジェンスの核心をすべて理解し、異なる視点を得るのはとても楽しいです。また、ここで賞金を発表できるので、これは素晴らしいことです。ニュースを伝えるのに協力してくれてありがとう。私たちを見つけてくれてありがとう。

この記事が気に入ったらサポートをしてみませんか？