ヤン・ルカン: メタAI、オープンソース、LLMの限界、AGIとAIの未来｜Lex Fridman Podcast #416

2024年5月21日 20:33

https://www.youtube.com/watch?v=5t1vTLU7s40&t=2718s

私は、この独自のAIシステムへの権力集中という危険性を、他の何よりも大きな危険だと考えています。これに対抗するのは、セキュリティ上の理由から、AIシステムを鍵をかけておくべきだと考える人々です。AIシステムはあまりにも危険なので、誰もが使えるようにすべきではないという考え方は、私たちの情報摂取が少数の企業によって、独自のシステムを通じてコントロールされるという、非常に悪い未来につながるでしょう。私は、人間は基本的に善であると信じています。ですから、AI、特にオープンソースのAIが、人間をより賢くすることができれば、それは人間の中にある善を強化するだけなのです。私もその気持ちはわかります。多くの人々は、根本的に人間は善ではないと考えているからこそ、悲観的なのです。以下は、ヤン・ルカンとの3回目の対談です。彼はMetaのチーフAIサイエンティストであり、ニューヨーク大学の教授であり、チューリング賞受賞者であり、人工知能の歴史における重要な人物の一人です。彼とMeta AIは、AI開発のオープンソース化を強く支持しており、Llama 2や、最終的にはLlama 3を含む彼らの最大のモデルの多くをオープンソース化することで、実際に有言実行しています。また、ヤンは、AGIの差し迫った危険性や実存的脅威について警告するAIコミュニティの人々に対して、率直な批判をしてきました。彼は、AGIはいつか実現すると信じていますが、それは良いものであり、人間の制御を逃れることも、人間を支配して殺すこともないと考えています。現時点での急速なAI開発において、これはやや議論を呼ぶ立場であり、ヤンがオンライン上で多くの激しい議論を繰り広げているのを見るのは楽しいことです。このLex Fridman Podcastをサポートするには、説明欄にあるスポンサーをチェックしてください。それでは、ヤン・ルカンとの対談をお楽しみください。あなたは最近、というか、キャリアを通して、人工知能の未来について強い発言、技術的な発言をしてきましたね。あなたは、自己回帰型LLMは超人的な知能に向けて進歩するための方法ではないと言いました。GPT-4やLlama 2、そしてすぐにLlama 3など、大規模言語モデルは、どのように機能し、なぜ私たちをそこまで導かないのでしょうか。いくつかの理由があります。第一に、知的な行動にはいくつかの特徴があります。例えば、世界を理解する能力、物理的世界を理解する能力、物事を記憶し検索する能力、つまり永続的な記憶、推論する能力、計画する能力です。これらは、知的なシステムや実体の4つの本質的な特徴です。人間、動物、LLMは、これらのどれかを行うことができません。または、非常に原始的な方法でしか行うことができません。そして、彼らは物理的な世界を本当に理解しているわけではなく、永続的な記憶を持っているわけでもなく、本当に推論することも、計画することもできません。ですから、もしあなたが、システムがこれらのことをする可能性なしに、ただ知能を持つようになると期待しているなら、あなたは間違っているのです。これは、自己回帰型LLMが役に立たないとか、面白くないとか、その周りにはアプリケーションのエコシステム全体を構築できないと言っているわけではありません。もちろん、できます。しかし、人間レベルの知能への道としては、不可欠な要素が欠けているのです。もう一つ興味深い事実があります。これらのLLMは、基本的にインターネット上で公開されているすべてのテキスト、膨大な量のテキストで訓練されています。これは通常、10の13乗トークン、各トークンは通常2バイトなので、2×10の13乗バイトの訓練データになります。あなたや私がこれを8時間/日で読み通すには、17万年かかることになります。これは膨大な知識量のように思えますが、実際にはそれほどでもないのです。発達心理学者の話を聞くと、4歳児は人生で16,000時間起きていることになります。そして、4年間でその子供の視覚野に到達した情報量は、約10の15乗バイトになります。これは、視神経が毎秒約20メガバイトを運ぶと見積もることで計算できます。つまり、4歳児の場合は10の15乗バイト、17万年分の読書の場合は2×10の13乗バイトです。これは、感覚入力を通して、言語を通してよりもはるかに多くの情報を見ていることを示しています。そして、私たちの直感に反して、私たちが学ぶことのほとんど、私たちの知識のほとんどは、言語を通してではなく、現実世界での観察と相互作用を通して得られるものです。私たちが人生の最初の数年間で学ぶこと、そして動物が学ぶことのすべては、言語とは関係ありません。では、あなたの直感に反論してみましょう。確かに、人間の心には、より多くのデータが、より速く入ってきて、人間の心はそこから非常に速く学習し、データを非常に速くフィルタリングすることができます。あなたは、感覚データと言語を比較していますが、言語はすでに非常に圧縮されており、視覚データと比較すると、より多くの情報を含んでいると主張する人もいるかもしれません。つまり、言語には多くの知恵と知識があり、単語やその組み合わせ方に、あなたがLLMに欠けていると言っている、世界モデル、世界の理解、物理的な世界の理解を構築するのに十分な情報が含まれている可能性があるということです。言語だけで、そこから世界モデルと世界の理解を構築できるのでしょうか？それは、哲学者や認知科学者の間で大きな議論になっています。知能は現実に根ざしている必要があるのかどうか。私は明らかに、知能はある現実に根ざしていなければ現れることはできないという陣営にいます。それは物理的な現実にである必要はありません。シミュレーションされたものでも構いません。しかし、環境は言語で表現できるものよりもはるかに豊かです。言語は、私たちの知覚や心的モデルの非常に近似的な表現に過ぎません。私たちが達成する多くのタスクは、目の前の状況の心的モデルを操作するものであり、それは言語とはあまり関係がありません。物理的なもの、機械的なもの、何かを作るとき、何かを達成するとき、モデルタスク、何かをつかむ、など、私たちは行動シーケンスを計画します。そして、これは本質的に、一連の行動の結果を想像することによって行います。つまり、私たちは想像し、それには言語とはあまり関係のない心的モデルが必要です。そして、私たちの知識のほとんどは、物理的な世界との相互作用から得られると私は主張します。ですから、コンピュータビジョンなどに関心のある同僚の多くは、AIは本質的に具現化される必要があるという考え方に賛同しています。そして、NLP側から来た人や、他の動機を持っている人は、必ずしもそれに同意しません。哲学者たちも意見が分かれています。そして、世界の複雑さは想像を絶するものです。私たちが完全に当然のことと思っている現実世界の複雑さを表現することは困難です。ロボット工学とAIの先駆者であるハンス・モラベックの古いモラベックのパラドックスがあります。彼は、コンピュータではチェスをしたり、積分を解いたり、そのような高レベルの複雑なタスクを行うのは簡単そうなのに、車の運転を学んだり、物をつかんだりといった、私たちが毎日当たり前のように行っていることが、コンピュータにはできないのはなぜか、と言いました。私たちは、司法試験に合格できるLLMを持っているので、彼らは賢いに違いないと考えます。しかし、彼らは17歳の若者のように20時間で運転を学ぶことはできませんし、10歳の子供のように食卓を片付けて食器洗い機をいっぱいにすることもできません。なぜでしょうか？レベル5の自動運転車や家庭用ロボットを持つことができないのは、どのような学習、推論アーキテクチャ、あるいは何がないのでしょうか？大規模言語モデルは、運転方法や食器洗いの方法を知っているが、現時点では視覚データを扱う方法を知らないだけの、世界モデルを構築できるのでしょうか？つまり、概念空間で動作できるのでしょうか？それは多くの人が取り組んでいることです。ですから、短い答えは「ノー」です。より複雑な答えは、視覚的な表現、画像の表現、あるいはビデオやオーディオの表現を、LLMが消化できるようにするためのあらゆるトリックを使うことができるということです。これを行う古典的な方法は、何らかの方法で視覚システムを訓練し、画像を高レベルの表現、基本的には典型的なLLMが入力として取るトークンと非常によく似たトークンのリストに変換するのです。そして、それをテキストに加えてLLMにフィードするだけで、LLMが訓練中にこれらの表現を使って意思決定を支援できるようになると期待するのです。このような研究は、かなり前から行われています。そして今、私たちは、ある程度の視覚拡張機能を持つLLMを見ることができます。しかし、これらは基本的にハックです。なぜなら、これらのものは、世界を本当に理解するためにエンドツーエンドで訓練されているわけではなく、例えばビデオで訓練されているわけでもなく、少なくとも現時点では直感的な物理学を理解しているわけでもないからです。あなたは、直感的な物理学、物理的な空間についての常識的な推論、物理的な現実について何か特別なことがあるとは考えていないのですね。それは、LLMにはできない、あるいは今日の私たちが取り組んでいるタイプのLLMではできない巨大な飛躍だと。その理由はいくつかありますが、主な理由は、LLMの訓練方法です。あなたはテキストの一部を取り、そのテキストのいくつかの単語を削除し、それらをマスクし、空白のマーカーで置き換え、欠落している単語を予測するように巨大なニューラルネットワークを訓練します。そして、このニューラルネットワークを特定の方法で構築し、予測しようとしている単語の左側にある単語のみを見ることができるようにすると、基本的にはテキストを予測しようとするものです。そうすると、テキストの次の単語を予測できるシステムを作ることができます。次に来る単語を正確に予測することはできないので、システムが行うことは、辞書にあるすべての可能な単語に対して確率分布を生成することです。実際には、単語ではなく、サブワード単位のようなトークンを予測するので、予測における不確実性を簡単に処理できます。なぜなら、辞書には可能な単語が有限数しかなく、その上で分布を計算できるからです。システムが行うことは、その分布から単語を選ぶことです。もちろん、その分布の中で確率の高い単語を選ぶ可能性が高くなります。その分布からサンプリングして実際に単語を生成し、その単語を入力にシフトします。そうすると、システムは2番目の単語を予測できるようになります。これを繰り返すと、入力にシフトします。これが自己回帰予測と呼ばれるもので、LLMは自己回帰型LLMと呼ばれるべきですが、単にLLMと呼んでいます。この種のプロセスと、単語を生成する前のプロセスには違いがあります。あなたと私が話すとき、あなたと私はバイリンガルなので、何を言うか考えます。そして、それは私たちが話す言語とは比較的独立しています。例えば、数学的な概念について話すとき、私たちが行う思考と、私たちが生成しようとしている答えは、それをフランス語、ロシア語、英語のどれで言うかとは関係ありません。チョムスキーは、あきれた顔をしていますが、私は理解しています。つまり、言語の前にある、言語に対応するより大きな抽象化があるということですね。そうです。私たちの思考の多くは、明らかに、私たちが使用する言語とは関係なく行われています。あなたの思考はフランス語でも英語でも同じですか？ほとんど同じです。もし確率分布があるとしたら？それはどんな種類の思考かによって違います。もし駄洒落を作ることなら、私は英語よりもフランス語の方が得意です。しかし、駄洒落の抽象的な表現は最悪です。あなたのユーモアは抽象的なものですか？あなたがツイートするとき、あなたのツイートは時々少し辛辣ですが、英語に対応する前に、あなたの脳にツイートの抽象的な表現があるのですか？そのテキストに対する読者の反応を想像する抽象的な表現はあります。笑いから始めて、それをどうやって実現するかを考えるか、あるいは、引き起こしたい反応を考えて、それをどうやって言うかを見つけ出すのです。それは、言語に非常に近いものですが、数学的な概念や、木で何かを作りたいと想像することなどを考えてみてください。あなたがしている思考の種類は、言語とは全く関係がありません。例えば、私があなたに、このウォーターボトルを90度回転させたらどのように見えるか想像するように頼んだら、それは言語とは全く関係がありません。ですから、明らかに、私たちがほとんどの思考を行い、私たちが言うことを計画する、より抽象的なレベルの表現が存在するのです。もし出力が、筋肉の動きではなく、言葉を発することであるならば。私たちは、それを生成する前に答えを計画します。そして、LLMはそうしません。彼らは本能的に次々と単語を生成するだけです。あなたが言うなら、それは少し、あなたが注意散漫で何かをしているときに、誰かが来てあなたに質問をし、あなたは質問に答えるような、無意識の行動のようなものです。あなたは答えについて考える時間がないのですが、答えは簡単なので、注意を払う必要はありません。あなたは自動的に反応するのです。それがLLMのようなものです。それは本当に考えているわけではありません。それは多くの知識を蓄積しているので、いくつかのものを検索することができます。しかし、答えを計画することなく、次々とトークンを吐き出すだけです。あなたは、次々とトークンを吐き出すだけだと言っていますが、もし世界モデルが十分に洗練されていれば、一回に一つのトークン、それが生成する最も可能性の高いものは、一連のトークンであり、それは非常に深遠なものになるのではないでしょうか。しかし、それは、これらのシステムが実際に内部世界モデルを持っていることを前提としています。ですから、本当に基本的な問題は、本当に完全な世界モデル、完全ではないにしても、世界を深く理解している世界モデルを構築できるかどうかということです。まず第一に、予測によって構築できるかどうかです。答えはおそらくイエスです。単語を予測することで構築できるかどうか、答えはおそらくノーです。なぜなら、言語は非常に貧弱だからです。あるいは弱いか、低帯域幅と言うこともできます。そこには十分な情報がないのです。ですから、世界モデルを構築するということは、世界を観察し、なぜ世界がそのように進化しているのかを理解し、そして、世界モデルのもう一つの要素として、あなたが取るかもしれない行動の結果として、世界がどのように進化するかを予測できる何かを持つということです。つまり、世界モデルとは、時間Tにおける世界の状態についての私の考えであり、これは私が取るかもしれない行動であり、時間T+1における世界の予測状態です。世界の状態は、世界のすべてを表す必要はありません。この行動の計画に関連するのに十分なものを表す必要がありますが、必ずしもすべての詳細を表す必要はありません。問題は、生成的モデルではこれを行うことができないということです。ですから、ビデオで訓練された生成モデルがあり、私たちは10年間これをやろうとしました。あなたはビデオを見て、システムにビデオの一部を見せ、残りのビデオを予測するように頼みます。基本的には、1フレームずつ何が起こるかを予測します。一種の自己回帰型LLMと同じことをしますが、ビデオに対してです。1フレームずつ、あるいは一度にフレームのグループを予測します。しかし、もしあなたが大規模なビデオモデルを持っていたとしても、これを行うという考えはかなり前からありました。Fairでは、同僚たちと私は約10年間、これを行おうとしてきました。しかし、LMと同じトリックを使うことはできません。なぜなら、LLMは、ある単語の後にどの単語が続くかを正確に予測できないからです。単語の分布を予測することはできます。さて、ビデオに移ると、ビデオ内のすべての可能なフレームの分布を予測する必要がありますが、それを適切に行う方法を私たちはまだ知りません。高次元連続空間上の分布を、有用な形で表現する方法を知らないのです。そして、それが主な問題であり、私たちがこれを行うことができない理由です。世界は、テキストよりも信じられないほど複雑で、情報が豊富だからです。テキストは離散的ですが、ビデオは高次元で連続的であり、この中に多くの詳細があります。ですから、もし私がこの部屋のビデオを撮り、そのビデオがカメラをパンしているものだとしたら、私がパンしているときに部屋の中に何があるかをすべて予測することは不可能です。システムは、カメラがパンしているときに部屋の中に何があるかを予測できません。たぶん、光があり、壁がある部屋だと予測するでしょうが、壁にかかっている絵がどのようなものか、ソファの質感がどのようなものか、ましてやカーペットの質感は予測できません。これらの詳細をすべて予測することはできません。これを処理する方法は、私たちが長い間取り組んできた一つの方法ですが、潜在変数と呼ばれるものを持つモデルを持つことです。潜在変数はニューラルネットワークに供給され、まだ知覚していないが、予測がピクセルをうまく予測できるようにシステムを補強するために必要な、世界のすべての情報を表すことになっています。カーペットの細かい質感やソファの上の絵などです。それは完全に失敗に終わりました。私たちは多くのことを試しました。普通のニューラルネットワーク、GAN、VAE、あらゆる種類の正規化されたオートエンコーダーを試しました。また、画像やビデオの良好な表現を学習し、それを例えば画像分類システムの入力として使用できるような方法も試しました。しかし、それも基本的に失敗しました。画像やビデオの欠落部分を、基本的に破損したバージョンから再構成しようとするすべてのシステムは、本質的に完全に失敗しました。テキストでは非常によく機能します。それがLLMに使われている原理です。では、失敗はどこにあるのでしょうか？画像の良好な表現、つまり画像内のすべての重要な情報の良好な埋め込みを形成することが非常に難しいのでしょうか？画像から画像へと一貫性を持たせるという点では、ビデオを形成する画像は、どこが、どのようなものでしょうか？あなたが失敗したすべての方法のハイライト映像を作るとしたら、それはどのようなものでしょうか？それがうまくいかない理由は、まず第一に、うまくいくものとそうでないものを正確に伝えなければならないからです。うまくいかないのは、画像を再構成するように訓練することで、画像の表現を学習するシステムを訓練することです。破損したバージョンから良い画像を再構成します。これがうまくいかないのです。そして、これにはたくさんのテクニックがあります。バリエーションオートエンコーダー、同僚のマックスが開発したMAEと呼ばれるものなどです。基本的には、テキストを破損させてシステムを訓練するのと似ていますが、画像を破損させ、パッチを削除し、巨大なネットワークを訓練して特徴を再構成します。得られる特徴は良くありません。そして、それが良くない理由は、もしあなたが同じアーキテクチャを訓練しても、画像のテキストによる説明などを用いて教師ありで訓練すると、良い表現が得られるからです。そして、認識タスクにおける性能は、自己教師ありの事前訓練を行うよりもはるかに優れています。だから、アーキテクチャは良いです。エンコーダのアーキテクチャは良いです。しかし、画像を再構成するようにシステムを訓練しても、自己教師ありの方法で訓練した場合、良い一般的な画像の特徴を学習することにはつながりません。再構成による自己教師ありの方法で。はい、再構成による自己教師ありの方法です。では、代替手段は何でしょうか？代替手段は、ジョイント埋め込みです。ジョイント埋め込みとは何ですか？あなたがそんなに興奮しているアーキテクチャとは何ですか？さて、今度は画像をエンコードして、破損したバージョンから完全な画像を再構成するようにシステムを訓練する代わりに、完全な画像と、破損した、または変換されたバージョンを取り、両方ともエンコーダに通します。エンコーダは一般的には同一ですが、必ずしもそうである必要はありません。そして、その上で、これらのエンコーダの上に予測器を訓練します。予測器は、破損した入力の表現から完全な入力の表現を予測します。ジョイント埋め込みと呼ばれるのは、完全な入力と破損した、または変換されたバージョンを取得し、両方ともエンコーダに通してジョイント埋め込みを取得し、破損した表現から完全な表現を予測できるかどうかを尋ねるからです。そして、JEPAと呼んでいます。これは、ジョイント埋め込みであり、グッドガイの表現をバッドガイの表現から予測する予測器があるからです。大きな問題は、このようなものをどのように訓練するかということです。5、6年前までは、このようなものを訓練する方法について、特に良い答えを持っていませんでした。1つを除いて、それは対照学習と呼ばれています。対照学習の考え方は、画像のペア、つまり画像と、元の画像の破損したバージョン、または何らかの形で劣化させたバージョン、または変換したバージョンを取り、予測された表現が同じになるように訓練するというものです。これだけでは、システムは崩壊してしまい、入力を完全に無視して、常に同じ表現を生成してしまいます。対照的な方法はこれを回避し、これらは90年代初頭から存在しており、1993年に私はこれに関する論文を発表しました。異なることがわかっている画像のペアも表示し、表現を互いに押し離します。つまり、同じだとわかっているものの表現は同じか似ているべきであるだけでなく、異なるとわかっているものの表現は異なるべきだと言うのです。これが崩壊を防ぎますが、いくつかの制限があります。過去6、7年の間に、この種の方法を復活させることができる多くの技術が登場しました。Fairからのものもあれば、Googleや他の場所からのものもあります。しかし、これらの対照的な方法には限界があります。過去3、4年で変わったことは、今では非対照的な方法があるということです。つまり、異なることがわかっている画像の負の対照的なサンプルを必要としないということです。同じものの異なるバージョンや異なるビューを持つ画像のみで訓練し、システムが崩壊するのを防ぐために他のトリックに依存します。現在では、これに対して12種類の異なる方法があります。そこで、ジョイント埋め込み予測アーキテクチャとLLMの根本的な違いは何でしょうか？JEPAは私たちをAGIに導くことができるのでしょうか？いや、あなたがAGIという用語が好きではないと言うべきかもしれません。私があなたと話すたびに、AGIのGについて議論したと思います。はい、わかります。おそらくその議論を続けることになるでしょう。それは素晴らしいことです。あなたはIMEが好きですね。フランス語が好きだからですね。IMEはフランス語で友達という意味ですね。はい。そして、AMIはAdvanced Machine Intelligenceの略です。いずれにしても、JEPAは私たちをその高度な機械知能へと導くことができるのでしょうか？そうですね、それは最初のステップです。まず第一に、LLMのような生成的アーキテクチャとの違いは何でしょうか？LLMや再構成によって訓練されたビジョンシステムは、入力を生成します。破損していない、変換されていない元の入力を生成します。つまり、すべてのピクセルを予測しなければならず、システム内の膨大なリソースが、これらのピクセル、すべての詳細を実際に予測するために費やされています。JEPAでは、すべてのピクセルを予測しようとしているのではなく、入力の抽象的な表現のみを予測しようとしているのです。そして、それは多くの点で、はるかに簡単です。JEPAシステムが訓練されているときにしようとしていることは、入力からできるだけ多くの情報を抽出することですが、比較的簡単に予測できる情報のみを抽出することです。世界には、例えば、自動運転車が通りを走っている場合、道路の周りには木があり、風の強い日かもしれません。木の葉は、予測できないような半カオス的なランダムな方法で動いていますが、あなたは気にしません。あなたはそれを予測したくないのです。あなたが望むのは、エンコーダが基本的にこれらの詳細をすべて排除し、葉が動いていることを伝えるが、何が起こっているかの詳細を保持しないことです。そして、表現空間で予測を行う場合、レリーフのすべてのピクセルを予測する必要はなく、それは、より簡単であるだけでなく、システムが本質的に世界の抽象的な表現を学習できることを可能にします。モデル化と予測が可能なものは保存され、残りはノイズとみなされてエンコーダによって排除されます。あなたがこれについて考えるなら、これは私たちがいつも絶対にしていることです。現象を記述するときはいつでも、特定の抽象化レベルで記述します。すべての自然現象を量子場理論で記述するわけではありません。それは不可能でしょう。ですから、量子場理論から始まり、原子理論、分子、化学、材料、現実世界における具体的な物体など、世界で起こることを記述するための複数の抽象化レベルがあります。すべてを最低レベルでモデル化することはできません。それがJEPAの考え方です。自己教師ありの方法で抽象的な表現を学習することです。そして、階層的に行うこともできます。それが、インテリジェントシステムの本質的な要素だと思います。言語では、言語はある程度抽象的であり、予測できない多くの情報をすでに排除しているため、抽象化レベルを上げずに、直接単語を予測することで、これを行うことを回避できます。ジョイント埋め込みは、まだ生成的ですが、この抽象的な表現空間で生成的ですね。そして、あなたは、言語では抽象的な表現を無料で手に入れたので、私たちは怠けていたと言っています。そして今、私たちはズームアウトして、実際に知的なシステムについて考える必要があります。現実の、物理的な現実の完全な混乱に対処しなければなりません。あなたは、完全で豊かな詳細な現実から、その現実の抽象的な表現へとジャンプするこのステップを踏まなければならないのです。その上で、推論したり、そのようなことを行うことができます。そして、これらの自己教師ありのアルゴリズムは、表現空間で予測によって学習しますが、入力データがより冗長であるほど、より多くの概念を学習します。データに冗長性があればあるほど、その内部構造を捉えることができるのです。テキストよりも、知覚入力、視覚のような感覚入力の方が、冗長性、構造の冗長性があります。テキストはそれほど冗長ではありません。これは、あなたが数分前に尋ねていた質問に戻ります。言語は、すでに圧縮されているので、実際にはより多くの情報を表現しているかもしれません。あなたは、そのことについては正しいですが、それはまた、冗長性が低いということでもあり、自己教師あり学習は、それほど良くは機能しないでしょう。視覚データの自己教師あり学習と言語データの自己教師あり学習を組み合わせることは可能でしょうか？あなたが10の13乗トークンについて軽視したとしても、これらの10の13乗トークンは、私たち人間がRedditでの会話やすべての本や記事の内容、そして人間の知的創造の全スペクトルにおいて理解してきたことの全体、大部分を表しています。これらの2つを組み合わせることは可能でしょうか？最終的にはそうですが、あまりにも早くこれを行うと、不正行為に走る危険性があり、実際、人々は現在、視覚言語モデルでこれを行っています。私たちは基本的に不正行為をしているのです。私たちは、言語を松葉杖として使い、私たちの視覚システムの欠陥を補い、画像やビデオから良い表現を学習しようとしているのです。これの問題点は、画像を供給することで視覚言語システムを少し改善できるかもしれませんが、言語を持たない猫や犬の知能レベル、あるいは世界の理解レベルに到達することはできないということです。彼らは言語を持っていませんが、どのLLMよりも世界をよく理解しており、本当に複雑な行動を計画し、一連の行動の結果を想像することができます。言語と組み合わせる前に、機械にそれをどのように学習させるのでしょうか？明らかに、これを言語と組み合わせれば、それは成功するでしょう。しかし、その前に、システムが世界がどのように機能するかを学習する方法に焦点を当てる必要があります。この種のジョイント埋め込み予測アーキテクチャは、猫が飼い主を困らせるために物を倒す方法のような、常識のようなものを学習できるのでしょうか？希望はそこにあります。実際、私たちが使用している技術は非対照的なものです。アーキテクチャが非生成的であるだけでなく、私たちが使用している学習手順も非対照的です。私たちは2つの技術セットを持っています。1つは蒸留に基づいており、この原理を使用する方法はたくさんあります。DeepMindによるBOL、FairによるVAEとIAなどです。VAEは実際には蒸留法ではありませんが、IAとBOLは確かにそうです。Fairで開発されたDINOやDINOと呼ばれるものもあります。これらのアイデアは、完全な入力、例えば画像を取り、エンコーダに通して表現を生成し、その入力を破損したり変換したりして、本質的にいくつかの小さな違いがある同じエンコーダに実行し、予測器を訓練するというものです。予測器は非常に単純な場合もあれば、存在しない場合もありますが、破損した入力から良い入力の表現を予測するように訓練します。しかし、2番目のブランチのみを訓練します。破損した入力を受け取るネットワークの部分のみを訓練します。もう一方のネットワークは訓練しませんが、同じ重みを共有しているので、最初のネットワークを変更すると、2番目のネットワークも変更されます。様々なトリックを使って、システムが入力を基本的に無視してしまうような崩壊を防ぐことができます。Fairで開発したDINOとIAという2つの技術は、これが非常にうまくいきます。ここでは、どのようなデータについて話しているのでしょうか？いくつかのシナリオがあります。1つのシナリオは、画像を取り、クロッピングを変更したり、サイズを少し変更したり、向きを変えたり、ぼかしたり、色を変えたり、基本的には品質を少し劣化させ、フレーミングを変更するなど、恐ろしいことをいろいろと行うことです。画像を切り取ったりします。そして、JEPAの場合、これを行う必要はありません。ただ、マスクするだけです。基本的には、大きなブロックのような領域を削除し、エンコーダに通して、システム全体と予測器を訓練し、破損した表現から良い表現を予測します。IAは、それが画像であることを知る必要はありません。なぜなら、知る必要があるのは、このマスキングをどのように行うかだけだからです。一方、DINOでは、それが画像であることを知る必要があります。なぜなら、幾何学的変換やぼかしなど、画像に特有の処理を行う必要があるからです。最近私たちが持っているのは、VJEPAと呼ばれるものです。基本的にはIAと同じ考え方ですが、ビデオに適用されます。ビデオ全体を取り、その大きな塊をマスクします。マスクするのは、実際には一種のテンポラルチューブなので、ビデオ全体にわたってビデオの各フレームのセグメント全体のようなものです。そして、そのチューブは、フレーム全体で静的に配置されていました。まっすぐなチューブですか？チューブですね。通常は16フレームとかです。そして、16フレーム全体で同じ領域をマスクします。もちろん、ビデオごとに違うものです。そして、部分的にマスクされたビデオから完全なビデオの表現を予測するように、そのシステムを再び訓練します。これは非常にうまく機能し、ビデオの良好な表現を学習できる最初のシステムです。これらの表現を教師ありの分類器ヘッドに供給すると、ビデオでどのような行動が行われているかを、かなり良い精度で教えてくれます。それは、良い表現が形成されたことを示す良いテストですね。つまり、これには何かがあるということです。ビデオが物理的に可能か、完全に不可能かをシステムが判断できることを示す予備的な結果もあります。オブジェクトが消えたり、オブジェクトが突然ある場所から別の場所にジャンプしたり、形が変わったりするためです。つまり、ビデオで表現されている現実について、物理的な制約を捉えることができるのです。オブジェクトの出現と消失についてですね。それは本当にすごいですね。しかし、これは、私たちを、世界について十分に理解し、車を運転できるような世界モデルに到達させることができるのでしょうか？もしかしたら。私たちがそのレベルに到達するにはしばらく時間がかかるでしょうが。そして、この考えに基づいたシステムはすでに存在しています。あなたが必要とするのは、これの少し修正されたバージョンです。ビデオがあり、完全なビデオと、シフトされたビデオから予測します。また、予測器には、例えば、ホイールが右に10度回転したなど、アクションも入力します。ダッシュカムの映像で、ホイールの角度が分かれば、ある程度何が起こるかを予測できるはずです。もちろん、視界に入る物体の詳細をすべて予測することはできませんが、抽象的な表現レベルでは、何が起こるかを予測することができます。これで、時間Tでの世界の状態についての私の考えであり、これは私が取るかもしれない行動であり、時間T+1、T+デルタT、T+2秒などにおける世界の状態の予測であるという、内部モデルができました。このようなモデルがあれば、計画に利用することができます。LLMではできない、特定の結果に到達したり、特定の目的を満たすために何をするかを計画できるようになります。多くの目的を持つことができます。例えば、このような物体があり、私が手を離すと、それは落ちるでしょう。もし私が特定の力でテーブルの上でそれを押すと、それは動くでしょう。もし私がテーブル自体を押しても、同じ力では動かないでしょう。私たちは、心の中にこのような世界の内部モデルを持っています。そして、特定の目標を達成するために行動シーケンスを計画することができます。例えば、ボトルをテーブルの左側に移動させるなどです。実行時には、学習ではなく、推論時のことを話しています。これは本当に計画であり、最適制御では、これは非常に古典的なもので、モデル予測制御と呼ばれています。制御したいシステムのモデルがあり、一連のコマンドに対応する状態Stのシーケンスを予測できます。そして、あなたの世界モデルによると、システムの最終状態があなたが決めた目標を満たすように、コマンドのシーケンスを計画しています。これは、コンピュータが登場して以来、つまり60年代初頭から、ロケットの軌道が計画されてきた方法です。モデル予測制御についてはそうですが、あなたは階層的計画についてもよく話しています。階層的計画は、これから何らかの形で生まれるのでしょうか？いいえ、階層的計画を可能にするためには、特定のアーキテクチャを構築する必要があります。複雑な行動を計画したいのであれば、階層的計画は絶対に必要です。例えば、私がニューヨークからパリに行きたいとします。これは私がいつも使う例ですが、私がNYUのオフィスに座っていて、最小化する必要がある目的は、パリまでの距離です。私の場所の非常に抽象的な表現では、これを2つのサブゴールに分解する必要があります。1つ目は空港に行くこと、2つ目はパリ行きの飛行機に乗ることです。では、私のサブゴールは空港に行くことです。目的関数は空港までの距離です。どうやって空港に行くのか？ニューヨークでは、通りに出てタクシーに乗ることができます。さて、私は別のサブゴールを持っています。通りに出ることです。それは、エレベーターに行き、エレベーターを降りて、通りに出ることを意味します。どうやってエレベーターに行くのか？椅子から立ち上がり、オフィスのドアを開け、エレベーターに行き、ボタンを押さなければなりません。どうやって椅子から立ち上がるのか？ミリ秒単位の筋肉制御に至るまで、ずっと下っていくことを想像してみてください。もちろん、ニューヨークからパリまでの全行程をミリ秒単位の筋肉制御で計画することはないでしょう。第一に、それは信じられないほどコストがかかりますが、何が起こるかわからないので、完全に不可能です。タクシーを捕まえるのにどれくらいの時間がかかるか、交通渋滞の中で空港に行くのにどれくらいの時間がかかるか。この計画を立てるためには、すべての状況を正確に知る必要があり、あなたはその情報を持っていません。ですから、行動を開始し、その後、必要に応じて再計画できるように、この階層的な計画を行う必要があるのです。そして、誰もAIでこれを行う方法を本当に知りません。適切な複数の表現レベルを学習し、階層的計画が機能するようにシステムを訓練する方法を知っている人はいません。そのようなものはすでに生まれているのでしょうか？例えば、あなたが今行ったような詳細な質問をすることで、ニューヨークからパリに行くために必要な10個のステップのリストをLLMに教えてもらうことはできるのでしょうか？そして、それぞれのステップについて、そのステップを実現するために必要な10個のステップのリストを教えてもらい、それぞれのステップについて、個々の筋肉を動かすことができるようになるまで、10個のステップのリストを教えてもらうことはできるのでしょうか？あなたの心を使って実際に作用できるものは何でもいいのですが。これには多くの質問が暗示されています。まず、LLMは、訓練セットに類似のシナリオで訓練されていれば、これらの質問のいくつかに、ある程度の抽出レベルまで答えることができるでしょう。すべての質問に答えることができるでしょうが、中には、事実ではない、つまり幻覚的な答えもあるかもしれません。確かに、LLMはおそらく何らかの答えを出すでしょうが、あなたが椅子から立ち上がる方法をミリ秒単位の筋肉制御で生成することはできないでしょう。しかし、ある程度の抽出レベルまでは、単語で物事を記述できるので、計画を立てることができるかもしれません。ただし、これまでに遭遇したことのない状況に対応する計画を立てることはできません。基本的に、訓練されたテンプレートを再現することになるでしょう。しかし、ニューヨークからパリに行くという例では、どの抽象化レイヤーで問題が発生し始めると思いますか？ニューヨークとパリという主要都市について話しているので、そのほとんどすべての部分をLLMがかなり正確に答えることができると想像できます。確かに、LLMは、微調整すれば、その問題を解決できるでしょう。そして、あるレベルまでは、物事を言葉で表現できるので、彼らはそれを行うことができます。しかし、階段を降りる方法や、椅子から立ち上がる方法を言葉で説明したい場合は、できません。単語で表現できるよりもはるかに高い帯域幅の、物理的な世界の経験が必要です。ジョイント埋め込み空間で私たちが話してきたことすべてについて、ロボット工学の分野で、物理的な現実との相互作用のために必要なのはそれなのかもしれません。そして、LLMは、飛行機のチケットを予約する必要があるという事実や、ウェブサイトに行く方法などを、より大きな推論のためにその上に置くものです。確かに、人々が知っている比較的ハイレベルな計画の多くは、実際には学習されたものであり、人々は自分で計画を発明するわけではありません。もちろん、私たちにはある程度の能力がありますが、人々が使用する計画のほとんどは、他の人がその計画を使用するのを見たことがあるか、どのように物事を行うかについて教えられたことがあるものです。飛行機について聞いたことのない人に、ニューヨークからパリに行く方法を教えようとすると、彼らはおそらく、以前にその例を見たことがない限り、計画全体を分解することはできないでしょう。ですから、LLMは確かにこれを行うことができるでしょうが、しかし、どのようにしてこれを、JEPAのようなもので行われる必要がある低レベルの行動から、状況のすべての詳細を再構成しようとせずに、抽象化レベルを引き上げるものへと結びつけるのでしょうか。それが、JEPAが必要な理由です。私は、人間のようにロマンチックな概念の空間対具体的な感覚情報の空間で作業する方が良いと言うべきでしょうか。そうですね。しかし、これは、私たちが話している推論のような、深く考える能力、深く推論する能力のような何かを行うことができるのでしょうか？それほどでもありません。非常に単純な方法でしかできません。基本的には、これらのことを、私が話していたような最適化を行っているものだと考えることができます。ただし、離散空間、つまり可能なトークン列の空間で最適化を行います。そして、彼らは、この最適化を恐ろしく非効率的な方法で行います。それは、多くの仮説を生成し、その中から最良のものを選択するというものです。これは、計算の面で信じられないほど無駄が多いです。なぜなら、生成されたシーケンスごとに基本的にLMを実行しなければならないからです。連続空間で最適化を行い、勾配降下法を行う方がはるかに効率的です。たくさんのものを生成して最良のものを選択するのではなく、答えを反復的に洗練して最良のものに近づけるだけです。これははるかに効率的ですが、微分可能な関数を持つ連続空間でしか行うことができません。あなたは、深く考える能力、深く推論する能力について話していますが、深い推論に基づいて、何がより良い答えで、何が悪い答えなのかをどのようにして知るのでしょうか？では、概念的に、エネルギーベースモデルをどのように訓練するかという問題を提起しています。エネルギーベースモデルは、スカラー出力を持つ関数、つまり数字です。2つの入力XとYを与えると、YがXと互換性があるかどうかを教えてくれます。Xを観測するとしましょう。それは、ポンプ、画像、ビデオなどです。Yは、答えの提案、ビデオの続きなどです。YがXと互換性があるかどうかを教えてくれます。YがXと互換性があるかどうかを教えてくれる方法は、YがXと互換性があれば、その関数の出力はゼロになり、YがXと互換性がない場合はゼロ以外の正の数になるということです。このようなシステムを完全に一般的なレベルで訓練する方法は、互換性のあるXとYのペア、つまり質問と対応する答えを見せ、エネルギーをゼロにするように巨大なニューラルネットワーク内部のパラメータを訓練することです。しかし、これは完全にうまくいくわけではありません。なぜなら、システムは、すべてに対してゼロと言えばいいと判断するかもしれないからです。そこで、間違ったYに対してエネルギーがゼロよりも大きくなるようにするためのプロセスが必要になります。そこには2つの選択肢があります。1つは、対照的な方法です。対照的な方法では、Xと悪いYを示し、システムに高いエネルギーを与えるように指示します。つまり、エネルギーを押し上げるように、ニューラルネットワークの重みを変更して、エネルギーが上がるようにします。これが対照的な方法です。この問題点は、Yの空間が大きい場合、このような対照的なサンプルを膨大な数表示する必要があることです。しかし、人々はこれを行います。RLでシステムを訓練する場合、基本的に訓練しているのは、報酬モデルと呼ばれるものです。これは、基本的に、ある答えが良いか悪か悪いかを示す、基本的に小さなニューラルネットワークであり、今、それは計画のためではなく、システムの微調整のために使われています。これを行うにはいくつかの方法があり、そのうちのいくつかは教師ありです。人間に、これに対する良い答えは何ですか？と尋ね、人間が答えを入力します。これらのシステムが調整されている方法はたくさんあります。多くの人々は、最近リリースされたGoogleのGemini 1.5を、私の言葉で言えば、超woke、wokeという言葉を否定的な意味で使っていますが、批判しています。例えば、歴史を修正したり、黒人のジョージ・ワシントンの画像を生成したり、あるいはもっと深刻な例として、あなたがTwitterでコメントしたように、天安門広場や戦車男の画像や説明を生成することを拒否したりします。戦車男の画像は歴史上最も伝説的な抗議画像の一つですが、もちろん中国政府によって厳しく検閲されています。そのため、これらのLLMを設計するプロセスはどのようなものなのか、これらのLLMにおける検閲の役割は何なのか、といった疑問が湧いてきます。あなたはTwitterで、オープンソースが解決策だとコメントしましたね。実質的にそうです。説明してもらえますか？実は、私はあらゆるソーシャルネットワークでそのコメントをしましたし、様々なフォーラムで何度もその点を指摘してきました。私の見解はこうです。人々はAIシステムが偏っていると不満を言うかもしれませんが、一般的にAIシステムは、訓練データの分布によって偏りが生じています。それは社会における偏りを反映しており、一部の人にとっては不快かもしれませんが、そうでない人もいます。そして、バイアスを軽減する技術の中には、歴史的な不正確さなどの理由で、一部の人にとっては不快なものになることもあります。そこで、2つの質問をすることができます。1つ目の質問は、偏りのないAIシステムを作ることは可能か？答えは絶対にノーです。それは技術的な課題のためではありません。技術的な課題はありますが、それだけが理由ではありません。偏見は見る人によって変わるからです。偏見を構成するものについて、人によって異なる考えを持つことがあります。多くの物事には、議論の余地のない事実がありますが、多くの意見や、異なる方法で表現できることがあります。ですから、偏りのないシステムを持つことは不可能です。では、この問題への答えは何でしょうか？答えは、私たちが自由民主主義の中で報道機関について見出した答えと同じです。報道機関は自由で多様であるべきです。私たちには言論の自由があるのは、正当な理由があるからです。それは、私たちの情報がすべて単一のソースから来ることを望まないからです。それは民主主義の理念、思想の進歩、そして科学の理念にも反するからです。科学において、人々は異なる意見を主張しなければなりません。そして、人々が意見を異にし、答えを出し、コンセンサスを形成するときに、科学は進歩します。これは世界中のすべての民主主義国家に当てはまります。デジタル世界とのあらゆるインタラクションがAIシステム、AIアシスタントによって仲介される未来がすでに到来しています。スマートグラスはすでにMAAから購入できます。MAAのスマートグラスは、話しかけることができ、LLMと接続してどんな質問にも答えを得ることができます。モニュメントを見ているときに、グラスに搭載されたカメラを使って「この建物やモニュメントについて教えてください」と尋ねることができます。外国語のメニューを見ていると、翻訳してくれますし、異なる言語を話す場合はリアルタイム翻訳も可能です。このように、デジタル世界との多くのインタラクションは、近い将来、これらのシステムによって仲介されることになるでしょう。私たちが使う検索エンジンは、ますます検索エンジンではなくなり、質問をして答えてもらい、適切な参考文献を教えてくれる対話システムになるでしょう。しかし、重要なのは、これらのシステムがアメリカの西海岸にある少数の企業から提供されることを許容できないということです。なぜなら、これらのシステムは人類の知識のすべてを保存することになるからです。それを少数の企業が支配することはできません。報道機関が多様である必要があるのと同じ理由で、多様でなければなりません。では、どのようにして多様なAIアシスタントを手に入れるのでしょうか？ベースモデル、つまり現時点ではLLMですが、将来的には違うものになるかもしれませんが、ベースモデルを訓練するのは非常に高価で困難です。そのため、少数の企業しか適切に訓練できません。もし、これらのLLMの一部がオープンソースであれば、誰でもそれらを使用し、誰でもファインチューニングすることができます。個人、市民団体、政府機関、NGO、企業など、どのようなグループでも、これらのオープンソースのAIシステムを利用し、独自のAIアシスタントを作成することができます。これらのアシスタントは、特定のコミュニティの価値観を反映し、コミュニティの特定のニーズに対応することができます。これが、この問題に対する解決策です。そして、オープンソース化は、これらのシステムを安全にするためにも重要です。システムをオープンソースにすることで、より多くの人々が、システムの安全性を高めるために協力することができます。セキュリティの専門家がシステムを分析し、脆弱性を発見し、修正することができます。オープンソース化は、AIシステムをより安全で、より多様で、より偏りのないものにするための鍵となります。偏りのないシステムを作ることは不可能ですが、多様性とオープンソース化によって、偏りを軽減し、より包括的なAIシステムを構築することができます。オープンソースプラットフォームがあれば、AIシステムは政治的意見だけでなく、言語、文化、価値観、政治的意見、様々な分野の技術的能力においても多様性を持つことができます。そして、産業界では、これらのオープンソースシステムを特定の産業用途に合わせて調整する企業のエコシステムを持つことができます。例えば、出版社が何千冊もの本を持っていて、顧客がその本の内容について質問できるようにしたい場合、自社の独自データで訓練する必要があります。Meta社内にはMetamというシステムがあり、社内のことなら何でも質問に答えることができます。多くの企業が、従業員のためだけでなく、顧客のケアのためにも、このようなシステムを望んでいます。AI業界を持つ唯一の方法、そして、偏りのないAIシステムを持つ唯一の方法は、誰もがその上で専門的なシステムを構築できるオープンソースプラットフォームを持つことです。歴史の必然的な方向性は、AIシステムの大多数がオープンソースプラットフォーム上に構築されるということです。つまり、MetaやGoogleのような企業は、基本的な事前学習モデルを構築した後、最小限の微調整を行うだけでいいということですね。Meta社は、できる限り少ないステップで済ませたいと考えています。Meta社は、それを実現できるでしょうか？わかりませんが、ご存知かもしれませんが、企業は何らかの形で収益を上げなければなりません。オープンソースは、例えるなら、マーク・ザッカーバーグが35万台のNvidia h100について語る非常にセクシーなビデオを作ったようなものです。GPUだけで1000億ドル、さらにインフラやトレーニングなど、すべてを含めると莫大な金額になります。私はビジネスマンではありませんが、どうやってそこから収益を上げるのか不思議です。あなたはとても説得力のある意見を持っていますが、どうやって収益化できるのでしょうか？いくつかのビジネスモデルがあります。MAAが構築しているビジネスモデルは、サービスとしてのAIで、そのサービスの資金調達は広告またはビジネス顧客を通じて行われます。例えば、WhatsAppを通じて顧客と話すことができるLLMがあれば、顧客はピザを注文するだけで、システムがトッピングやサイズなどを聞いてくれます。企業はそれに料金を支払うでしょう。それがモデルです。それ以外の場合は、より古典的なサービスであれば、広告でサポートすることもできますし、他にもいくつかのモデルがありますが、重要なのは、十分な潜在顧客ベースがあれば、そのシステムをオープンソースで配布しても問題ないということです。繰り返しますが、私はビジネスマンではありませんが、オープンソースモデルをリリースすれば、他の人も同じようなタスクを実行し、競争することができます。つまり、企業向けにファインチューニングされたモデルを提供できるということです。Meta社が作っている賭けは、私たちの方がうまくやれるというものでしょうか？いいえ、Meta社の賭けは、すでに巨大なユーザーベースと顧客ベースを持っているということです。私たちが提供するものは何でも、彼らにとって役に立つでしょうし、そこから収益を得る方法もあります。たとえ、私たちのお客様にとって役に立たないアプリケーションであっても、私たちがそのシステムや基本モデルをオープンソースで提供することで、他の人がその上にアプリケーションを構築することができます。もし、それらのアプリケーションが私たちのお客様にとって役に立たないものであれば、私たちはそれらの会社から購入すればいいのです。彼らがプラットフォームを改善してくれる可能性もあります。実際、すでにそうなっています。Llama 2は文字通り何百万回もダウンロードされており、何千人もの人々が改善のためのアイデアを提供してくれています。このように、システムを幅広いコミュニティに公開することで、明らかに進歩が加速しています。そして、文字通り何千もの企業がLlama 2を使ってアプリケーションを構築しています。ですから、Meta社がこの技術から収益を得る能力は、オープンソースでの基本モデルの配布によって損なわれることはありません。Geminiに対する基本的な批判は、あなたが指摘したように、西海岸で、つまり、私たちが現在いる東海岸ではなく、Meta AIの本社があると思われる場所で、西海岸について強い言葉を使っていますが、問題は、ほとんどの技術者が左翼の政治的思想を持っていると言っていいと思います。彼らは左に傾いています。ですから、人々がGeminiを批判する問題は、あなたが言及したバイアス除去のプロセスにおいて、彼らのイデオロギー的傾向が明らかになるということです。これは避けられることなのでしょうか？あなたはオープンソースが唯一の方法だと言っていますが、エンジニアリングを困難にするようなイデオロギー的傾向を目にしたことがありますか？システムを設計する人たちの政治的傾向と関係があるとは思いません。それは、顧客ベースやオーディエンスの受容性や政治的傾向と関係があります。大企業はあまり多くの人を怒らせる余裕がないので、彼らが世に出す製品が何であれ、それが安全であることを確認するつもりです。それが何を意味するにしてもです。そして、それをやりすぎることも非常に可能ですし、誰にとっても適切に行うことは非常に不可能です。すべての人を満足させることはできないでしょう。だから、前に言ったように、誰にとっても偏っていない、偏っていないと認識されるシステムを持つことは不可能です。ある方向に持っていけば、ある人たちはそれを偏っていると見なし、別の方向に持っていけば、別の人たちはそれを偏っていると見なすでしょう。それに加えて、システムをある方向に少しだけ押し進めすぎると、事実ではなくなってしまうという問題もあります。例えば、黒人のナチス兵士の画像を生成するなど、事実に反し、一部の人にとっては不快なこともあります。ですから、誰にとっても偏りのないシステムを作るのは不可能なのです。私が考える唯一の解決策は、多様性であり、その言葉のあらゆる意味における多様性です。マーク・アンドリーセンが今日ツイートしました。要約すると、彼が指摘している問題は、スタートアップとオープンソースだけが、大手テック企業が抱える問題を回避できるということです。彼は、大手テック企業は生成AI製品を実際に展開できるのかと問いかけています。1. 社内の活動家、従業員の集団、狂気の経営陣、機能不全の取締役会、圧力団体、過激な規制当局、政府機関、マスコミ、専門家、その他あらゆるものからの要求がエスカレートし続け、アウトプットを腐敗させる。2. 悪い答えを生成したり、悪い絵を描いたり、悪いビデオをレンダリングしたりするリスクが常に存在する。誰がいつ、何と言うか、何をするかわからない。3.法的リスク、製造物責任、名誉毀損、選挙法、その他多くのもの、議会を怒らせるものは何でも。4.容認できない出力を制御し、モデルを劣化させようとする継続的な試み。5.悪いテキスト、画像、ビデオを公開することで、これらの例が次のバージョンのトレーニングデータに入ってしまう。このように、彼が強調しているのは、人々が不満を持つことがいかに難しいかということです。あなたの言うとおり、すべての人を幸せにするシステムを作ることはできません。ええ。あなたが言っているように、すべての人を幸せにするシステムを作ることはほとんど不可能に近いですね。そして、オープンソースがより良い方法だと言っていますね。ええ、彼はマークは、あなたが挙げた多くの点で正しいと思います。確かに、議会の調査は、法的責任と並んで、彼らの1つです。人々が自分自身を傷つけたり、他人を傷つけたりするようなものを...大企業は、この種のものを生産しないように非常に注意しています。なぜなら、第一に誰かを傷つけたくない、第二にビジネスを守りたいからです。ですから、必然的に政治的意見を表明したり、政治的なものではないかもしれませんが、人々が意見を異にするような様々なことについて意見を表明したりするようなシステムにとって、これは本質的に不可能です。道徳的な問題や、宗教に関する問題、文化的な問題など、異なるコミュニティの人々がそもそも意見を異にするような問題についてです。ですから、人々が同意するような基本的な原則は比較的少数しかありませんが、それ以上に、これらのシステムを有用なものにしたいのであれば、必然的に多くの人を不快にさせなければなりません。そして、オープンソースの方が優れており、多様性の方が優れているのです。オープンソースは多様性を可能にします。これは魅力的な世界になる可能性があります。もし、オープンソースの世界が真実であり、Meta社が先頭に立ってこのようなオープンソースの基盤モデルの世界を作るとしたら、政府は新しいモデルを見つけ、そして潜在的に...左と右に投票する人々は、独自のモデルと好みを持ち、選択できるようになり、それは私たちをさらに分断する可能性がありますが、それは私たち人間次第です。私たちは基本的に、技術によって人間がより効果的に人間になることを可能にし、人間が提起する困難な倫理的問題は、私たちが解決できるようにしてくれるのです。ええ、そうですね。オープンソースシステムには、ある種の制限が必要です。言論の自由にも制限があるのと同じように、これらのシステムが生成することを許可されるものにも制限が必要です。ガードレールのようなものです。私が興味を持っているのは、システムの出力がある目的を満たすための推論の結果であるというタイプのアーキテクチャです。その目的にはガードレールを含めることができ、オープンソースシステムにガードレールを設けることができます。最終的に、この設計図で構築されたシステムがあれば、すべての関係者が合意できる基本的なもので、システムを危険でなく、無毒にすることを保証するガードレールを設けることができます。そして、人々が追加する微調整や追加のガードレールは、コミュニティが何であれ、それに対応するものになるでしょう。微調整は、ヘイトスピーチとは何か、何が危険かといったグレーな領域についてのものになるでしょう。しかし、生物兵器の作り方のような目的を持っていても、あなたがコメントしたことがあると思いますが、少なくともある論文では、研究者のグループがこれらのLLMの社会的影響を理解しようとしています。そして、私は思うに、1つのしきい値は、LLMがGoogle検索のような検索よりも簡単にできるかどうかということです。このことについての研究が増えているようですが、LLMは役に立たないという結論のようです。つまり、すでに検索エンジンとライブラリにアクセスできれば、LLMがあっても生物兵器や化学兵器の設計や製造には役立ちません。実際、生物兵器は使いこなすのが非常に難しいので、誰も、どの国も使いません。国際条約でも禁止されています。化学兵器は生物兵器とは異なりますが、これも条約で禁止されています。しかし、同じ問題があります。使用者にとって不利にならない状況で使うのは難しいのです。しかし、イーロン・マスクにロケットエンジンの作り方を非常に正確に教えることはできます。たとえ50人の経験豊富なエンジニアがいても、実際に動くものを作るには、何十回も失敗する必要があります。化学兵器や生物兵器なども同じです。LLMでは得られない専門知識が必要なのです。現実世界で言語ベースの指示を受け取り、それを物理的な世界で実現するには、指示に含まれていない多くの知識が必要です。その通りです。多くの生物学者が、実際に実験をするのがいかに難しいかを指摘しています。これは簡単なことではありません。ヤン・ルカンは、Llama 2がすでに公開されており、将来Llama 3、4、5、6、10と続くオープンソースの未来に期待しています。まず、Llama 2について、そしてLlamaの未来について、何が一番楽しみですか？いくつかのことがあります。Llamaには様々なバージョンがあり、以前のLlamaを改良したもの、より大きく、より優れたマルチモーダルなものなどがあります。そして、将来の世代では、世界がどのように機能するかを理解し、計画を立てられるシステムが登場するでしょう。ビデオから学習できるようになるかもしれませんし、世界モデルを持っているかもしれません。あるいは、私が先ほどお話ししたような、推論と計画の能力を持っているかもしれません。それはいつ頃実現するのでしょうか？その方向に向かっている研究が、製品ラインに組み込まれるのはいつ頃になるのでしょうか？わかりません。お答えできません。そこに到達する前に、いくつかのブレークスルーを達成しなければなりません。しかし、私たちの研究は公開しているので、進捗状況を監視することができます。例えば、先週、私たちはViaという、ビデオからのトレーニングシステムに向けた最初のステップとなる研究を発表しました。次のステップは、このタイプのアイデアに基づいた、ビデオからのトレーニングによる世界モデルになるでしょう。DeepMindやUC Berkeleyでも同様の研究が行われており、ビデオから世界モデルを作る研究が盛んに行われています。多くの良いアイデアが出てきています。私の予想では、これらのシステムは、生成的モデルではなく、Jepaのようなものになるでしょう。未来がどうなるか見てみましょう。DeepMindではないDanijar Hafner氏の研究は素晴らしく、表現を学習し、それを強化学習によって計画や学習タスクに利用するモデルのようなものを研究しています。また、BerkeleyのPeter Abbeel、Levine、その他多くの人たちの研究も素晴らしいです。私は、NYUの帽子をかぶって助成金を得て、彼らと共同研究をしています。また、Berkeleyの研究室はMetaと提携しているので、Fairを通じてMetaとも協力しています。とてもエキサイティングですね。機械学習とAIの方向性に、こんなに興奮したのは、10年前のFairwayの立ち上げ以来、そしてそれ以前では35年前、ConvNetやニューラルネットの初期の頃にConvNetに取り組んでいた時以来です。私は、世界を理解し、記憶し、計画し、推論できるシステムによって、人間のレベルの知能に到達できる可能性のある道筋が見えているので、とても興奮しています。このようなシステムを作るためのアイデアがあり、それがうまくいく可能性があり、本当にワクワクしています。私の脳がホワイトソースに変わる前、あるいは引退する前に、良い方向に進み、成功することを願っています。GPUの数や、膨大な計算能力を使ったトレーニングプロセス全体など、あなたは興奮していますか？地球と人類が協力してこれらのコンピューティングデバイスを構築し、この1つの脳を訓練し、そしてオープンソースにするという、この巨大なコンピューティングシステムで訓練されたオープンソースの脳を生み出すという、その詳細、つまり、その上でどのように訓練するのか、インフラやハードウェア、冷却装置などをどのように構築するのかといったことについては、あなたはまだ理論的な側面に最も興奮していますか？何十年も前の話ですが、私はハードウェアの専門家でした。ハードウェアは少し改良され、少し変化しました。確かに規模は必要ですが、それだけでは十分ではありません。競争は間違いなく必要です。計算能力の点では、人間の脳の計算能力に匹敵するには、まだまだです。今後数十年で実現するかもしれませんが、まだ先は長いです。そして、電力効率の点では、本当にまだまだです。ハードウェアにはまだまだ改善の余地があり、今のところ、シリコン技術からの進歩もありますが、アーキテクチャの革新からも多くの進歩があり、TransformerとConvNetの組み合わせである、人気のあるアーキテクチャを実装するより効率的な方法からもかなりの進歩があります。ですから、私たちが飽和状態になるまでには、まだいくつかの方法があります。古典的なデジタルCMOSとは異なる原理に基づいた、新しい原理、新しい製造技術、新しい基本コンポーネントを考え出す必要があるかもしれません。AGIを作るためには、ハードウェアの革新も必要だと考えているのですね。ユビキタスにしたいのであれば、確かにそうです。なぜなら、消費電力を削減する必要があるからです。今日のGPUは0.5キロワットから1キロワットですが、人間の脳は約25ワットです。そして、GPUは人間の脳の能力をはるかに下回っています。人間の脳に匹敵するには、10万個とか100万個とかのGPUが必要です。つまり、桁違いに離れているのです。あなたは、AGIはすぐに来ない、つまり今年や来年ではなく、もっと先になるだろうとよく言っていますね。その背景にある基本的な直感は？まず第一に、それはイベントではないということです。SFやハリウッド映画でよく言われるように、誰かがAGIや人間レベルのAI、あるいはAMIと呼ぶものへの秘密を発見し、機械のスイッチを入れればAGIができるという考えは、実現しません。それはイベントではなく、漸進的な進歩なのです。私たちは、世界がどのように機能するかをビデオから学習し、優れた世界表現を学習できるシステムを持つことになるでしょうか？人間が観察するような規模と性能を達成する前に、かなりの時間がかかるでしょう。1日ではできません。大量の連想記憶を持ち、物事を記憶できるシステムを手に入れることはできるでしょうか？しかし、同じように、明日には実現しません。開発しなければならない基本的な技術はいくつかありますが、それをすべて連携させてシステムとして機能させるのは別の話です。私が先ほど説明したような、目的駆動型AIアーキテクチャに沿って、推論や計画ができるシステムを持つことはできるでしょうか？しかし、これがきちんと機能するようになるには、まだ時間がかかります。そして、これらのすべてが連携して機能するようになる前に、人間の脳のように、階層的な計画や階層的な表現を学習できるシステム、目の前の多くの異なる状況に合わせて設定できるシステムを持つことができるようになるには、少なくとも10年はかかるでしょう。おそらくもっとかかるでしょう。なぜなら、私たちが今見ていない、遭遇していない問題がたくさんあるからです。このフレームワークの中で簡単な解決策があるかどうかはわかりません。だから、すぐそこにあるわけではないのです。ここ12～15年の間、AGIはもうすぐそこだと主張し、体系的に間違っている人たちの話を聞いてきました。彼らが間違っていることは、彼らがそう言っているときにわかっていました。なぜ人々はそう呼ぶのだと思いますか？まず、人工知能という言葉が生まれたときから、他の技術とは違う永遠の楽観主義があったのではないでしょうか？人々がAGIについて楽観的なのは、マリックのパラドックスが原因なのでしょうか？マリックのパラドックスだけではないと思います。マリックのパラドックスは、世界は私たちが考えているほど簡単ではないと気づくことから生じる結果です。まず、知能とは、1つの数字で測れるような線形のものではありません。人間はオランウータンよりも賢いと言えるでしょうか？ある意味ではそうですが、ある意味ではオランウータンの方が人間よりも賢いのです。例えば、森の中で生き残るためには、オランウータンの方が優れています。ですから、IQは知能を測る尺度としては非常に限定的なものです。IQは、人間の知能をある程度測定することができますが、人間は比較的均質な形で生まれてくるからです。しかし、IQは、あるテストには関係するかもしれないが、他のテストには関係しない、ある種の能力しか測定しません。そして、もし、他の知的実体、つまり、彼らにとって簡単な基本的なことが非常に異なる知的実体について話しているのであれば、それは何も意味しません。知能とは、スキルの集合体であり、新しいスキルを効率的に習得する能力のことです。ある知的実体が持っている、あるいは素早く学習できるスキルの集合は、別の知的実体のスキルの集合とは異なります。そして、それは多次元的なものなので、スキルの集合は高次元空間であり、2つのものを比較してどちらが知的であるかを測定することはできません。それは多次元的なものだからです。あなたはAIドゥーマーと呼ばれる人たちによく反論していますね。彼らの考え方と、なぜ彼らが間違っていると思うのか説明してください。AIドゥーマーは、AIがどのようにして逃げ出し、制御不能になり、私たち全員を殺してしまうかという、あらゆる種類の破滅的なシナリオを想像します。それは、ほとんどが間違っている多くの仮定に基づいています。最初の仮定は、超知能の出現は、ある時点で私たちが秘密を見つけ出し、超知能のマシンを起動し、それをやったことがないので、それが世界を乗っ取り、私たち全員を殺してしまうというイベントになるというものです。それは間違っています。それはイベントではなく、猫と同じくらい賢く、人間の知能の特徴をすべて備えているが、知能レベルは猫かオウムくらいのシステムを持つことになるでしょう。そして、これらのものをよりインテリジェントにするにつれて、適切に動作するようにガードレールを設置し、どのようにガードレールを設置するかを学習していくつもりです。これは1つの努力ではなく、多くの人がこれを行うことになるでしょう。そして、その中には、制御可能で安全な、適切なガードレールを備えたインテリジェントシステムを作ることに成功する人もいるでしょう。もし他の誰かが間違った方向に進んだとしても、善玉を使って悪玉に対抗することができます。私の賢いAI警察対あなたの悪党AIというわけです。ですから、私たち全員を殺してしまうような単一の悪党AIにさらされることはないでしょう。それは起こりません。もう1つの誤謬は、システムが知的であるため、必然的に支配したがるというものです。人々を怖がらせるいくつかの議論がありますが、私はそれらは完全に間違っていると思います。その1つは、自然界では、より知的な種が他の種を支配し、時には意図的に、時には過ちによって絶滅させることさえあるように見えるということです。そして、AIシステムが私たちよりも知的であれば、たとえ意図的ではなくても、私たちを気にしないからという理由だけで、確実に私たちを排除するだろうという考えがあります。これは、いくつかの理由で全く不合理なことです。第一に、AIは種ではなく、私たちと競争する種にはなりません。支配したいという欲求を持たないでしょう。なぜなら、支配したいという欲求は、知的システムにハードワイヤードされなければならないものだからです。それは人間にはハードワイヤードされており、ヒヒ、チンパンジー、オオカミにもハードワイヤードされていますが、オランウータンにはありません。支配したり、服従したり、あるいは他の方法で地位を得たいという欲求は、社会的な種に特有のもので、オランウータンのような非社会的な種にはないのです。そして、彼らは私たちと同じくらい賢いのです。あなたにとって、人間がAIシステムにそれをコード化する重要なインセンティブはないし、彼らがそうする程度には、彼らを罰するAIがいるでしょう。彼らと競争するでしょう。AIシステムを人間に従属させるためのインセンティブは、あらゆる種類のものがあります。私たちはAIシステムをそのように作るつもりです。そして、人々はこう言います。「しかし、LLMを見てください。LLMは制御できません」。彼らは正しいです。LLMは制御できませんが、目的駆動型AI、つまり目的の最適化によって答えを導き出すシステムは、この目的を最適化しなければなりません。その目的には、ガードレールを含めることができます。1つのガードレールは人間に従うことであり、もう1つのガードレールは他の人間を傷つける場合は人間に従わないことです。どこかで聞いたことがありますね。覚えていません。もしかしたら、ある本で読んだのかもしれません。その本について言えば、これらすべてから、意図せぬ結果が生じる可能性はないのでしょうか？もちろんあります。ですから、これは単純な問題ではありません。システムが適切に動作するようにガードレールを設計することは、簡単な問題ではありません。万能薬があったり、システムが安全であるという数学的証明があるわけではありません。それは非常に漸進的で反復的な設計システムになるでしょう。私たちは、システムが適切に動作するようにガードレールを設置し、時にはガードレールが正しくなく、予期せぬことを行うかもしれません。そして、正しくできるように修正していくのです。もし少しでも間違えれば、私たちは皆死ぬから、少しでも間違えることは許されないという考えは、ばかげたことです。私たちは徐々に進んでいくだけです。私が何度も使った例えは、ターボジェットのデザインです。私たちは、どのようにしてターボジェットを信じられないほど信頼性の高いものにすることを考え出したのでしょうか？それは、時には20時間もの間、非常に高温で動作する、信じられないほど複雑なハードウェアであり、私たちは音速に近い速度で2基のジェット旅客機で世界を半周することができます。これは信じられないことです。そして、私たちは、ターボジェットを安全にするための一般的な原則を発明したから、これを実現できたのでしょうか？いいえ、何十年もかけて、システムの設計を微調整し、安全にしたのです。ゼネラル・エレクトリックやサフランなどの中に、ターボジェットの安全性に特化した独立したグループがあるのでしょうか？いいえ、設計はすべて安全性を考慮して行われています。なぜなら、より良いターボジェットは、より安全なターボジェットでもあるからです。より信頼性の高いものです。AIについても同じことが言えます。AIを安全にするために特別な規定は必要ありません。より良いAIシステムを作れば、より便利で、より制御しやすくなるように設計されているので、安全になるのです。では、非常に説得力があり、何にでもあなたを納得させることができるAIシステムを想像してみましょう。私は少なくともそのようなシステムを想像することができますし、そのようなシステムが人々の心を操ることができるので、兵器のようなものになる可能性があると思います。私たちはかなり騙されやすく、信じたいと思っています。AIシステムがそれを制御し、政府がそれを兵器として使うことも考えられます。もし、そのようなシステムを想像した場合、核兵器のようなものと類似点はあると思いますか？いいえ、ありません。なぜその技術は違うのでしょうか？あなたは、段階的な開発があるだろうと言っていますね。段階的な開発があるでしょう。急速に進歩するかもしれませんが、反復的なものであり、対応できるようになるでしょう。ですから、ウラジーミル・プーチンやその手下たちが設計したAIシステムは、すべてのアメリカ人に話しかけようとするでしょう。プーチンが喜ぶ誰かに投票するよう説得しようとするでしょう。あるいは、彼らがしようとしているように、人々をお互いに争わせようとするかもしれません。彼らはあなたに話しかけるのではなく、あなたのAIアシスタントに話しかけることになるでしょう。それは彼らのAIと同じくらい賢いでしょう。そのAIは、これが詐欺なのか、真実を語っているのか、と最初に尋ねるでしょう。あなたのAIアシスタントにしか話しかけることができず、あなたのAIアシスタントは、それがスパムフィルターのようなもので、スパムメールを見ることさえないのと同じように、あなたの注意を引くことさえしないでしょう。ですから、あるAIシステムが、他のAIシステムさえも納得させることができるほど大きく飛躍することは非常に難しいのです。ですから、常にこのような競争があり、誰も大きく先行することはありません。それが世界の歴史であり、世界の歴史は、ある場所で進歩があれば、必ず対抗策があるということです。いたちごっこのようなものです。ほとんどの場合そうですが、だからこそ核兵器は非常に興味深いのです。核兵器は非常に強力な兵器であり、誰が最初に手に入れるかが重要でした。ヒトラー、スターリン、毛沢東が最初に兵器を手に入れることと、アメリカが最初に兵器を手に入れることでは、世界への影響が異なることを想像できます。しかし、あなたにとって核兵器は、AIのような画期的な発見があり、その後マンハッタン計画のような努力をするとは想像できないのですね。私が言ったように、それはイベントではなく、継続的な進歩なのです。そして、ある画期的な出来事が起こった時には、それは非常に早く、おそらく最初に産業界に広く伝播するでしょう。これは、政府や軍事組織が特に革新的である分野ではなく、実際には遅れている分野です。ですから、これは産業界から生まれるものであり、この種の情報は非常に早く伝播します。ここ数年で、新しい...AlphaGoでさえ、特に詳細な情報がなくても3ヶ月以内に再現されたという例を見てきました。これは秘密を守るのに長けていない業界ですね。しかし、たとえ詳細がわからなくても、何かが可能であるという事実を知るだけで、それに時間をかける価値があることに気づきます。あなたは2番目かもしれませんが、それでもあなたはそれをやるでしょう。そして、自己教師あり学習、Transformer、デコーダーのみのアーキテクチャ、LLMなど、すべてのイノベーションについても同じことが言えます。これらの仕組みがどのように機能するのか、正確な詳細を知る必要はありません。なぜなら、それは展開され、再現されているからです。そして、これらの企業で働く人々は、ある企業から別の企業へと移動し、情報が広がっていきます。アメリカのテック業界、特にシリコンバレーの成功を支えているのは、まさにこれなのです。情報は非常に速く循環し、これが非常に速く普及するためです。そのため、地域全体が情報循環によって発展しているのです。AIドゥーマーの心理学についてもう少し詳しくお話ししましょう。あなたは、ヤン・ルカン流の古典的な方法で、新しい技術が登場したときの例を挙げていますね。エンジニアが「私はこの新しいものを発明した。ボールペンと呼ぶ」と言うと、Twitter界は「なんてことだ、人々はこれで恐ろしいものを書くことができる。誤報、プロパガンダ、ヘイトスピーチだ。今すぐ禁止しろ」と反応します。そして、ライティング・ドゥーマーたちは、AIドゥーマーのように、「もし誰もがボールペンを手に入れたら、社会が崩壊するかもしれない。ヘイトスピーチを書くためにボールペンを使うことを禁止する法律を作るべきだ。今すぐボールペンを規制しろ」と言います。そして、鉛筆業界の大御所は、「ボールペンは非常に危険だ。消せる鉛筆とは違い、ボールペンの筆記は永遠に残る。政府はペンメーカーにライセンスを義務付けるべきだ」と言います。これは、新しい技術に直面したときの人間の心理の一部のようですね。これについて、何か深い洞察をお話しいただけますか？新しい技術とその社会への影響に対する自然な恐怖があり、人々は、文化的な現象であれ、技術的な革命であれ、自分が知っている世界が大きな変化によって脅かされることに対して、本能的な反応を示します。彼らは自分の文化を恐れ、自分の仕事を恐れ、自分の子供の未来を恐れ、そして...生活様式を恐れるのです。ですから、どんな変化も恐れられます。そして、これは長い歴史の中で見ることができます。技術革命や文化的現象は常にメディアや社会の反応、そして、それらの反応が実際に起こっていることとどのように違うのか、という問題です。人々は、文化や仕事、子供の未来、生活様式などを心配しています。ですから、どんな変化も恐れられます。そして、これは何世紀にもわたって存在してきました。それは、本能的な反応なのです。問題は、変化を受け入れるのか、それとも抵抗するのか、そして、想像上の危険ではなく、本当の危険とは何かということです。人々は、私たちが何度も話してきたことですが、大手IT企業がAIを独占し、その技術を支配することで、社会の中で弱い立場の人々を利用したり、虐待したりするのではないかと心配しています。だからこそ、オープンソースプラットフォームが必要なのです。何度も繰り返しますが、その通りです。人々は根本的に善良であり、オープンソースのAIが人々をより賢くすることができれば、人間の善性を高めることができると私は信じています。私もその気持ちです。人々は基本的に善良だと思います。実際、多くのドゥーマーは、人々が基本的に善良だとは思っていないからドゥーマーなのです。人々を信用していないか、あるいは人々が適切に行動するように制度を信用していないのです。あなたも私も人間性を信じていますし、AI研究をオープンソース化し、人々が利用できるようにし、モデル自体もオープンソース化するというオープンソース運動を推進していることに対して、多くの人々を代表して感謝します。ありがとうございます。そして、インターネット上で、そのようなカラフルで美しい方法であなたの考えを話してくれてありがとうございます。これからも続けてほしいと思います。あなたは私の知っている中で最も楽しい人の一人で、ファンになることができました。だから、もう一度私に話をしてくれてありがとう。そして、あなたでいてくれてありがとう。ありがとう、レックス。ヤン・ルカンとのこの会話を聞いてくれてありがとう。このポッドキャストをサポートするために、説明欄にあるスポンサーをチェックしてください。それでは、アーサー・C・クラークの言葉を残しておきます。「可能の限界を発見する唯一の方法は、不可能の中へと踏み出すことである」。聞いてくれてありがとう。また次回お会いしましょう。

この記事が気に入ったらサポートをしてみませんか？