イリヤ・サツケヴァー | AGIの未来は映画で見たようなものになるだろう

2024年8月12日 21:56

ニューラルネットワークは通常のコードの書き方とは全く異なるものです。普通は、コードを書いて頭の中で考えを整理し理解しますが、ニューラルネットワークの場合は、ループの中に複雑な方程式を書き、それを実行します。そして、何が起こるのか正確に把握するのは難しいのです。これはニューラルネットワークが解釈不可能であることにつながりますが、ニューラルネットワークの理解の難しさはバグではなく特徴だと主張することもできます。
私たちは知能を構築したいのです。知能は単純に理解できるものではありません。私たちは自分たちの認知機能、つまり見る、聞く、言語を理解するといったことをどのように行っているのか説明できません。したがって、コンピューターが同じように理解困難な、不可能ではないにしても同様に難しいものを生み出すことができれば、私たちは正しい道筋にいると言えるでしょう。
これらのことが、私が比較的早い段階でニューラルネットワークに収束するのに役立ちました。ニューラルネットワークに興奮し、確信を持ち始めたのは何年頃でしたか?2000年代初頭です。2003年にジェフ・ヒントンと仕事を始めました。かなり前のことですね。もちろん、流行は2010年頃に始まりましたが。
これは、非常に大きくなるような分野で働く人を見るときの共通のテーマだと思います。長い間、砂漠をさまよっているような期間があります。確かに、多くの忍耐が必要です。砂漠にどれくらい留まるべきか分からないからです。ただ耐えなければなりません。
2003年や2000年代初頭に、今日のニューラルネットワークが行っているような驚くべきことを、自分の生きている間に見ることができると期待していましたか?
期待はしていましたが、当時はそれほど確信はありませんでした。当時のAI分野は間違った道を歩んでいました。ニューラルネットワークを拒絶する考え方が主流だったのです。その理由は、ニューラルネットワークは数学的に推論するのが難しい一方で、他のものは定理を証明できるからです。定理を証明することには非常に魅力的で危険な面があります。なぜなら、それは自分のスキルを披露する方法ではありますが、必ずしも分野の進歩に最も貢献するわけではないからです。
しかし、私はニューラルネットワークがこれほど成功しているのは、まさに数学的に推論するのが難しいからだと考えています。いずれにせよ、私の当初の希望は、単に分野の人々に、他のことではなくニューラルネットワークに取り組むべきだと納得させることでした。
しかし、コンピューターが高速になり始めると、その可能性に対する私の興奮のレベルも高まりました。
今日のあなたの抱負は何ですか?あなたの人生の中で、何を成し遂げたいと思っていますか?OpenAIのミッションから明らかだと思いますが。
そうですね。今では希望はずっと大きくなっています。今では、本当に強力で有用なAIだけでなく、実際にAGIを構築し、それを有用で有益なものにし、多くの問題を解決し、多くの素晴らしいアプリケーションを作り出すために使用されるようにすることができると思います。それが私が見たいと希望していることです。
途中で、Googleで多くの研究を行い、画期的な仕事をしていましたが、その後OpenAIをサム・アルトマンやグレッグ・ブロックマンらと立ち上げました。OpenAIを立ち上げた当初の目標は何でしたか?当初のコンセプトや当初のビジョンは何でしたか?そして、新しい研究所を立ち上げることで何を成し遂げたいと思っていましたか?
OpenAIを立ち上げた動機はいくつかありました。まず、AIで最大の進歩を遂げる方法は、科学と工学を一つの全体、一つのユニットに融合させることだと感じていました。科学と工学の区別をできるだけなくし、すべての科学に工学的な規律と慎重な実行が注入され、すべての工学に科学的なアイデアが注入されるようにすることです。
その理由は、この分野が成熟してきているため、多くの工学的スキルと努力なしに小規模な試行錯誤をするだけでは、本当に何かを機能させるのは難しいからです。これが一つの動機でした。この原則に基づいて運営される会社を持ちたいと強く思いました。
もう一つの動機は、AI技術をより冷静に見るようになったことです。以前は、AIは単に無限の善であると考えていました。今では、より複雑な見方をしています。本当に信じられないほどの、想像もつかないようなアプリケーションが多数あり、私たちの生活を劇的に改善すると思います。しかし同時に、課題もあると考えています。
AIの誤用や、人々が理解するのが難しいかもしれない特殊な性質によって引き起こされる多くの問題があると思います。私は、この認識を持って運営される会社を望みました。技術を進歩させるだけでなく、それを安全にすることにも取り組み、また政策面でも合理的で妥当な範囲で取り組むことで、これらの課題に可能な限り対処しようとする会社を望みました。全体をできるだけ有用で有益なものにするためです。
全くそのとおりです。私たちが同意している点の一つは、AIは今後数十年の間に世界がどのように展開されるかを決定づける要因になるということです。どの国がAI技術にアクセスでき、どのように使用するかが重要になります。これが世界が進む道筋だと思います。
他にも多くのことがありますね。
そうですね。そして、科学と工学を融合させるという点について、いくつかの理由で非常に深遠だと思います。一つは、最も信じられないほど革新的なことは、しばしば分野の境界線をぼかすことから生まれることが多いからです。アップルはその最高の例の一つで、最初から常にハードウェアとソフトウェアを融合させることが特別なソースだと言っていました。そしてそれは明らかに信じられないようなものを生み出しました。
他の多くの研究所は、科学者がエンジニアに何をすべきか指示するという非常に固定的なマインドセットで運営されていますが、これは逆効果です。なぜなら、技術の限界が何であるかを理解するためには、両方をよく理解する必要があるからです。
そのとおりです。その点について、科学と工学が一緒であるべきだということは明白ではないでしょうか?ある意味では明白ですが、歴史的にそうではありませんでした。経験的に、過去には、研究に惹かれる人々は、工学にはあまり惹かれないような特定の好みを持っていることがありました。そしてその逆も同様です。
しかし今では、良い科学を行うためには良い工学が必要だという現実を人々が目の当たりにしているため、これら両方の軸で強い人々がますます増えています。
話題を少し変えて、GPTモデルについて話しましょう。これは素晴らしい例です。GPTモデルは信じられないほどの工学なしでは不可能です。しかし、それでも新しい研究、新しい科学が必要です。これらは明らかにAIの分野で最近最大のブレークスルーの一つであり、AIが何を達成できるかについて多くの人々の想像力を広げました。少なくとも、AIが信じられないようなことを成し遂げられるという人々の確信を高めました。
OpenAIで、これらの言語モデルに長い間取り組んでいたと思いますが、元々の研究のインスピレーションは何でしたか?そして、これは取り組む価値があり、スケールアップする価値があり、さらに倍増する価値があるという結論に至った当初の理由は何でしたか?
言語モデルに収束するに至った思考の流れはいくつかありました。比較的早い段階で信じていたアイデアの一つは、理解を予測と結びつけることができるというものです。具体的には、モデルに与えるどのようなデータでも予測することができるという考えです。
考え方としては、次に何が来るかについて本当に良い推測ができれば - 完璧にはできません、それは不可能ですが - 本当に良い推測ができれば、意味のある程度の理解が必要だということです。
例えば、本を読むという例を考えてみましょう。ミステリー小説を読んでいて、最後の章ですべてのピースが一つにまとまり、重要な文があるとします。最初の単語を読み、次の単語を読みます。そして、ある人物の正体が明らかになると言います。あなたの心は集中し、「これはこの人物かあの人物のどちらかだ」と考えます。どちらか分かりませんが。
本を読んでよく考えた人は、「おそらくこの人物だと思う。あの人物かもしれないが、おそらくこの人物だ」と言うかもしれません。この例が示しているのは、本当に良い予測は理解と結びついているということです。
このような考え方が、私たちにさまざまなアプローチを試す道を開きました。「物事を本当によく予測できるだろうか?次の単語を予測できるだろうか?次のピクセルを予測できるだろうか?」そして、それらの特性を研究しました。
この一連の作業を通じて、GPTやトランスフォーマーが発明される前に、「センチメントニューロン」と呼ばれるものに取り組みました。これは、Amazonの商品レビューの次の文字を予測しようとするニューラルネットです。4年前くらいのことなので小さなニューラルネットでしたが、原理を証明しました。次の文字をよく予測できれば、最終的にテキストの意味的特性を発見し始めるということです。
そして、GPTでさらに進めました。トランスフォーマーがより良いアーキテクチャなので、より強力な効果があると言いました。そして後に、より大きくすればより良くなるという認識があったので、より大きくしてより良くしようとしました。
今おっしゃったことには、たくさんの素晴らしいポイントがありますね。まず、この概念の優雅さです。次の何かを予測することが本当に上手くなれば、予測が本当に上手くなれば、他のすべてのことも上手くなる義務が生じるということです。これは本当に上手くなれば、ということですが。
これには、おそらくいくらかのビジョンが必要だったと思います。なぜなら、初期の段階では物事を本当によく予測しようとして、センチメントニューロンというクールなものを得ましたが、それは明らかに大規模言語モデルで見てきたものに比べれば、ほんの小さな一歩に過ぎないからです。これは重要だと思います。
もう一つの重要な点は、スケールアップについてです。コンピューティング、データ、モデルサイズを連携してスケールアップしたときに見つけたスケーリング法則についての論文を発表されましたが、私は少し気になっています。明らかに、物事をスケールアップすることは良いという直感があり、素晴らしい挙動が見られます。
今から数年後、あるいは数十年後を考えたとき、スケールアップとは何を意味するのでしょうか?なぜそれが引き続き素晴らしい結果をもたらす可能性が高いのでしょうか?そして、もしあるとすれば、その限界は何だと思いますか?
二つの声明が同時に真実だと思います。一方では、私たちのモデルはかなり大きいように見えます。さらにスケールアップできるでしょうか?そのスケールアップのためにさらにデータを見つけることができるでしょうか?データの問題について少し時間を費やしたいと思います。なぜなら、それは全く自明ではないからです。
伝統的に、機械学習分野の起源、つまり基本的に学術的で新しい方法の発見に関心があり、非常に大きく強力なシステムの開発にはあまり関心がなかったため、マインドセットは固定されたベンチマーク、つまり特定の形や特性を持つデータセットを誰かが作成し、それを用いて異なる人々が自分たちの手法を比較できるというものでした。しかし、これは誰もが固定されたデータセットで作業することを強制します。
GPTが特に示したのは、スケーリングには同時にコンピューティングとデータを増やす必要があるということです。これを行えば、どんどん良い結果が得られます。言語のような領域では、かなりの量のデータが利用可能です。他のより専門的なサブドメインでは、データ量がはるかに少ない可能性があります。
例えば、自動化された弁護士を持ちたい場合、大規模な言語モデルは言語についてかなりの知識を持ち、多くのトピックについて非常に知的に会話できるでしょう。しかし、弁護士としては望むほど優れていないかもしれません。かなり素晴らしいものにはなりますが、十分に良いものになるでしょうか。これは未知数です。なぜなら、そこではデータ量が少ないからです。
しかし、データが豊富な場合はいつでも、ディープラーニングの魔法の公式を適用し、ますます優れた、ますます強力なモデルを生成することが可能です。
スケーリングの限界については、過去10年間のディープラーニングの歴史で注目すべき点の一つは、毎年人々が「良い結果が出たが、これで限界に達した」と言っていたことです。これが何年も何年も続きました。
私は、ある時点で絶対に限界に達する可能性はあると思いますが、同時にディープラーニングに賭けないのは賢明ではないとも思います。
おっしゃったことには、掘り下げたい点がいくつかあります。すべて非常に興味深いですね。一つは、あなたが持っているこの心的モデルです。これは非常に良いと思います。ムーアの法則は、私たちが行うすべてのことにとって信じられないほどの加速剤であり、機械学習のライフサイクルに入るさまざまな入力に対するムーアの法則があれば、これらすべてを極限まで押し進め、信じられないようなパフォーマンスを見ることになるでしょう。
これは重要だと思います。なぜなら、このデータポイントについて言及されたように、コンピューティングの効率が上がり、データの生成や発見、生成の効率が上がり、アルゴリズムの効率も明らかに上がれば、これらすべてが次の信じられないようなこと、そして次の信じられないようなこと、そして次の信じられないようなことを可能にし続けるからです。
まず、この論理に欠陥はありますか?次の数年間で、すべてがスケールアップしていく中で、何が心配ですか?
私は、次の数年間の継続的な進歩については、あまり心配していません。より高速なコンピューターを持ち、より多くのデータを見つけ、より良いモデルを訓練することができると思います。そこには特別なリスクは見ていません。
前進するにつれて、データが多くない場合にどうするかについて、より創造的になる必要があると思います。同じコンピューティングを使って、そのデータ不足を補うことができるでしょうか。これらは、私たちや分野が進歩を続けるために取り組む必要がある問題だと思います。
データに関するこの点について、もう一つ触れたいことがあります。これは明らかにスケールで重要なことで、大規模言語モデルは幸いにもインターネットを活用できるため、すべてのデータが存在し、蓄積されてきたことを利用して、まったく新しい領域でいくつかの信じられないようなことを示すことができます。
新しい領域では、大量のデータを効率的に生成する方法が必要です。人間の努力の一つ一つがデータをできるだけ多く生成できるようにするにはどうすればよいか、という全体的な問題があります。
私たちが情熱を持っていて、少し話したことの一つは、データに対するムーアの法則をどのように得るかということです。つまり、データを生成する人間の努力からどんどん効率を上げていくにはどうすればよいかということです。これには新しい斬新なパラダイムが必要かもしれませんが、例えば先ほど言及した弁護士のような場合には必要だと思います。弁護士の数は有限ですから、どうやってその弁護士たちに十分なデータを生成してもらい、素晴らしい法律AIを作り出すことができるでしょうか。
我々には二つの選択肢があります。一つは、同じデータでより多くのことができるように、あるいは少ないデータで同じことができるように、手法を改善することです。もう一つは、あなたが言うように、何らかの形で教師の効率を上げることです。両方が最大限の進歩を遂げるために必要になると思います。
ムーアの法則は示唆に富んでいますね。チップのパフォーマンスを向上させるために、人々はありとあらゆることを試し、最終的な出力はトランジスタの数が増えたチップになります。これについて考えると、特定の量のデータや教育で、より良いパフォーマンスを発揮するモデルをどのように作るか、ということですね。
そうですね、それを行う方法はあると確信しています。例えば、人間の教師に最も難しいケースだけで助けを求めれば、より速く進むことができると思います。
話題を変えて、大規模言語モデルの取り組みから派生した特に興奮させるものの一つ、特に私のようなエンジニアにとって、おそらくコーディングに多くの時間を費やす人々にとって最も興奮させるものの一つであるCodexについて話しましょう。これは、自然言語からコードへの変換や、プログラムとの非常に斬新な方法でのインタラクションにおいて、いくつかの信じられない能力を示しました。
この取り組みについて、あなたはどのような点に興奮していますか?Codexやそれに類似したシステムが今後数年間で可能にすると思われる合理的な期待は何ですか?さらに遠い将来についてはどうですか?そして最終的に、なぜあなたがたはこれほど興奮しているのですか?
コンテキストとして、Codexは基本的に大規模なGPTニューラルネットワークで、テキストの次の単語を予測するのではなく、コードの次の単語、正確には次のトークンを予測するように訓練されています。これがクールなのは、そもそも機能するということです。
ほとんどの人にとって、テキストで欲しいものの説明を与え、ニューラルネットワークがそのテキストを処理して正しく動作するコードを生成するということは、自明ではないと思います。これはさまざまな理由で興奮させられます。
まず、これは有用で新しいものです。コードは、AIによってあまり触れられていない領域でした。明らかに非常に重要で、AIが弱いと認識されている側面、つまり推論や慎重に計画を立てること、曖昧でないことに触れています。実際、かなり良い仕事ができることが分かりました。
Codexと言語モデルの間の一つの類似点と違いは、Codexモデル、つまりコードモデルは、事実上コンピューターを制御できるということです。コンピューターがアクチュエーターのようなものです。これによって、はるかに有用になります。できることが大幅に拡大します。もちろん、まだまだ改善したいと思っています。さまざまな方法で改善できると思います。これらは予備的なコードモデルに過ぎません。
プログラマーにとってかなり有用になると期待しています。特に、ランダムなAPIを知る必要がある領域では有用でしょう。これらのニューラルネットワークは、人々とは少し異なる学習をします。人はしばしば狭い知識を非常に深く持つのに対し、これらのニューラルネットワークは存在するすべてのことを知ろうとします。そして、本当にそうしようとします。
彼らの知識は百科事典的です。人ほど深くはありませんが、かなり深いです。そのため、これらのニューラルネットワークは、今日の動作方式では、その広さで人々を補完します。
例えば、あるライブラリを使いたいと言うかもしれません。それについてよく知らないかもしれません。既存のライブラリかもしれませんし、あるいはニューラルネットワークが私の同僚全員のコードを読んで、彼らが何を書いたか知っているかもしれません。そして、そのライブラリの使い方が分からないと言えば、ネットワークはその使い方についてかなり良い推測をするでしょう。
今日のパフォーマンスレベルでは、特にコードが重要な場合は、言われたことが正しいかどうか確認する必要があります。盲目的に信頼することはできません。ただし、書いたコードを簡単に元に戻せるような領域では、十分に信頼できると思います。
しかし、実際に本物のコードを持ちたい場合は、チェックする必要があります。将来的には、これらのモデルは改善し続けると予想しています。コードのニューラルネットワークはどんどん良くなっていくと思います。そして、これらのモデルに応じてプログラミング職の性質が変化すると思います。
ある意味で、これはソフトウェアエンジニアリングの世界で、私たちがより高レベルのプログラミング言語を使用してきた自然な継続だと言えます。最初は人々はアセンブリを書き、次にFORTRANを持ち、次にCを持ち、今はPythonを持っています。今では素晴らしいPythonライブラリがあり、それはその上の層です。
そして今、私たちはもう少し不正確に、もう少し野心的になることができ、ニューラルネットワークが多くの作業を私たちのために行ってくれるのです。
私は、他の多くのホワイトカラーの職業でも同様のことが起こると予想しています。AIの経済的影響について考えると、逆転が起きていると思います。単純なロボット工学のタスクが自動化の最初の影響を受けるだろうと考えられてきましたが、代わりに、直感に反して創造的なタスクが大きく影響を受けているようです。
生成的なニューラルネットワークを見ると、今では画像を生成する方法が分かります。Twitterでは、驚くべき画像が生成されているのを見ることができます。クールなテキストの生成も起こっています。しかし、画像が最も注目を集めています。
そして、コードのようなもの、多くの執筆タスクのようなもの、これらのホワイトカラーのタスクもこれらのAIの影響を受けています。技術が進歩し続けるにつれて、社会は変化すると予想します。経済学者や、これらの問題について考える人々が、これらのトレンドに注意深く注目することが重要だと思います。技術が改善し続けるにつれて、この技術に備えて良いアイデアが準備されるようにするためです。
ここでも本当に興味深いポイントがいくつかありますね。一つは、Codexや類似のモデルの背後にある大きなアイデアの一つは、人間の言語から機械の言語への変換ができるようになるということです。そして、突然機械がアクチュエーターになるとおっしゃいましたね。
多くの人がAIについて考えるとき、スタートレックのコンピューターのようなものを想像します。コンピューターに単に尋ねるだけで、それが何かをしてくれるというものです。これは重要な実現のステップです。なぜなら、突然、人間が話す方法から機械が理解できることへの変換ができれば、この重要な翻訳のステップを橋渡しすることができるからです。これは非常に興味深いと思います。
あなたが言及したこの逆転についても非常に興味深いです。私の信念では、これは一部の事柄が他のものよりもはるかに簡単になった理由です。それはすべてデータの利用可能性の産物です。アルゴリズムに取り込んで非常にうまく機能させることができる大量のデジタルデータが存在する領域があります。
一方で、ロボットのタスクやテーブルをセッティングするなど、機械を作るのに非常に苦労してきた事柄では、根本的にデータ量に制限があります。まず、これまでに収集されたデータの量によって制限されますが、実世界で起こりうることにも限りがあるため、そのデータを収集するのにも制限があります。
これについてどのようにお考えですか?それとも、現在のニューラルネットワークに何か本質的に適しているものが創造的なタスクにあるとお考えですか?
両方だと思います。深層学習、そしておそらくそれ以上に起こったAIの進歩のすべての基礎にあるのは、ニューラルネットワークの一般化能力であることは間違いありません。一般化は専門用語で、過去の経験で見たことのない状況で正しく理解したり、正しい行動をとったりすることを意味します。
システムの一般化能力が高ければ、同じデータから、より広範な状況で正しいことを理解したり、正しい行動をとったりすることができます。例えを挙げましょう。大学で試験勉強をしている学生がいるとします。その学生は「これは私にとって非常に重要な試験だ。暗記しよう。教科書のすべての練習問題を解けるようにしよう」と言うかもしれません。そのような学生は非常によく準備ができ、試験で非常に高い成績を取ることができるでしょう。
別の学生を考えてみましょう。その学生は「教科書のすべての練習問題を解く方法を知る必要はない。基本を理解していれば大丈夫だ。最初の20ページを読んで、基本が理解できたと感じている」と言うかもしれません。もしその2番目の学生も試験で高得点を取ったとしたら、その2番目の学生は1番目の学生よりも難しいことをしたことになります。2番目の学生はより高度な一般化能力を示したのです。質問は同じでも、2番目の学生にとっては1番目の学生よりも状況がより不慣れだったからです。
私たちのニューラルネットワークは1番目の学生によく似ています。コンピューターとしては信じられないほどの一般化能力を持っていますが、さらに改善できます。一般化がまだ完璧ではなく、明らかにまだ人間レベルではないため、非常に大量のデータで訓練することでそれを補完する必要があります。ここでデータが重要になってきます。
一般化能力が高ければ高いほど、必要なデータ量は少なくなります。言い換えれば、同じデータでもより遠くまで行けるのです。おそらく、ニューラルネットワークの一般化能力を大幅に向上させる方法を見つけ出せば、データが限られている小さな領域でも、実際には問題にならなくなるでしょう。ニューラルネットワークは「大丈夫、このわずかなデータでも十分に何をすべきか分かる」と言うでしょう。しかし今日では、大量のデータが必要です。
しかし、創造的なアプリケーションに関しては、ニューラルネットワークに特に適している面があります。それは、生成モデルが機械学習で非常に中心的な役割を果たしているからです。生成モデルの性質は、ある意味で芸術的プロセスに類似しています。完璧ではありませんし、すべてを捉えているわけではありません。私たちのモデルがまだできない特定の種類の芸術もあります。
しかし、この2つ目のつながり、つまり芸術の生成的側面と、生成モデルが新しい妥当なデータを生成する能力は、生成芸術でこれほど多くの進歩が見られるもう一つの理由だと思います。

この記事が気に入ったらサポートをしてみませんか？