イリヤ・サツケヴァー | 人類は最終的にAGIに向かって進むだろう | 知的な体がまもなく現れるだろう

2024年7月22日 22:09

ニューラルネットワークが、コンピュータビジョンの過去のアプローチをはるかに上回る成績を出しました。もちろん、あなたはそれを実現した人の一人でした。あなたの視点から、どのようにしてそれが実現したのか非常に興味があります。他の人々はコンピュータビジョンに対して異なるアプローチを取っていましたが、あなたはコンピュータビジョン用のネットワークに取り組んでいました。そして、あなたは他の人々をはるかに上回る成績を出しました。どのようにしてこれを実現することを決めたのですか。
はい、この結果に至ったのは、数年間にわたる一連の気づきだったと言えます。それについて説明しましょう。最初の本当に重要な転機は、ジェームズ・マーティンスが「Deep Learning by Hessian-free Optimization」という論文を書いたときでした。これは、教師あり学習データから深層ネットワークをエンドツーエンドで訓練できることを示した最初の例でした。
しかし、背景として、当時は誰もが深層ネットワークを訓練することはできないと知っていました。バックプロパゲーションは弱すぎるので、何らかの事前訓練が必要で、そうすればある種のNPHが得られるかもしれないと考えられていました。しかし、もしエンドツーエンドで訓練できるのであれば、それは何ができるのでしょうか。
もう一つ重要な背景があります。今日では深層学習を当たり前のものとして考えています。もちろん、大規模なニューラルネットワークが必要で、データを投入すれば驚くべき結果が得られると誰もが知っています。子供でさえ知っています。しかし、なぜそれが知られていなかったのでしょうか。そのような明白なことがなぜ知られていなかったのでしょうか。
人々は、完璧に訓練できるアルゴリズムがあることを証明できる機械学習モデルに非常に焦点を当てていました。しかし、このような条件を自分に課し、シンプルでエレガントな数学的証明を見つけることを要求すると、モデルの能力を本当に制限してしまいます。
対照的に、ニューラルネットワークの根本的な特徴は、基本的に小さな並列コンピュータ（もはやそれほど小さくはありませんが）であることです。確かに、望むだけ小さくも大きくもできます。しかし、基本的にはコンピュータ、並列コンピュータなのです。ニューラルネットワークを訓練すると、バックプロパゲーションアルゴリズムでこのコンピュータをプログラムすることになります。
私にとって本当に腑に落ちたのは、Hessian-free最適化の結果を見たときでした。待てよ、つまり実際にこれらをプログラムできるんだ、と気づいたのです。もはや、誰かがこれらを訓練できるかもしれないが、明らかに不可能だ、局所的最小値に陥るだろう、という考え方ではなくなりました。実際にニューラルネットを訓練できるのです。
2番目の気づきは、人間の視覚が速いということです。何かを認識するのに最大でも数百ミリ秒しかかかりません。しかし、私たちのニューロンは遅いのです。つまり、まともな視覚を得るのに、そんなに多くの層は必要ないということです。
これらを組み合わせると、どういうことになるでしょうか。かなり大きなニューラルネットワークがあれば、視覚で良い結果を出すようなパラメータが存在するはずだということです。あとは、訓練できるデータセットさえあれば...そしてImageNetが登場し、GPUが登場しました。そして私は、これは必ず起こると思いました。
そしてある時点で、アレックス・クリジェフスキーとの会話がありました。彼は、小さなConvNetを訓練してCIFARで60秒で納得できる結果を得るGPUコードを持っていると言いました。私は「なんてこった、じゃあImageNetでやってみよう。すべてを圧倒するはずだ」と思いました。そしてそれが実現したのです。
イリヤ、この裏話が本当に素晴らしいです。OpenAIでの私たちの日々を思い出させてくれます。多くのことが、あなたにとっては避けられないもので、明らかにそうあるべきだと思えたのですね。あなたが最初に「ニューラルネットは単なるコンピュータプログラムだ」と私に説明したときのことを覚えています。これは、カーパシーがニューラルネットでプログラミングする「ソフトウェア2.0」について話し始める数年も前のことでした。それは単に並列と直列の計算なのです。ニューラルネットで実際に成功する前にこれを見抜いていたのは本当に驚くべきことです。
ImageNetで実際に機能し始めたと気づいたのはいつでしたか？それはどんな感じでしたか？
私はそれが機能するだろうという確信はほとんどありませんでした。しかし、その時点では、アレックスがニューラルネットを訓練していて、結果は週を追うごとに良くなっていました。それだけです。しかし、私の観点からは大きなリスクがありました。GPUを十分に活用できるかどうか、十分に大きな、いや、興味深いほど大きなニューラルネットワークを訓練できるかどうかということです。
以前のニューラルネットワークはすべて小さかったので、これまでよりもはるかに大きなものを作れば、これまで誰も見たことがないほど優れた性能を発揮するはずです。もちろん、今では私たちはそれをはるかに超えています。コンピュータはより高速になり、ニューラルネットワークはより大きくなりました。しかし、当時の目標は、私たちが持っていたハードウェアで可能な限り遠くまで行くことでした。それがリスクでした。幸いなことに、アレックスはそのリスクを排除するカーネルを持っていました。
それは非常に良い指摘です。当時は、今日のようにPyTorchやTensorFlow、あるいはお気に入りのフレームワークに何かを入れてニューラルネットワークを訓練できるわけではありませんでした。当時は、これらすべてを動作させるために、かなり専門的なツールを自分で構築する必要がありました。
さて、このブレークスルーが起こったとき、次に何を考えていましたか？おそらく、公開ワークショップの前にすでに結果を知っていたと思います。つまり、世界中の他の誰もがニューラルネットがコンピュータビジョンの新しい最先端技術になることを知る前に、あなたはすでにそれを知っていたのです。その時点で、あなたの心はどこに向かっていましたか？
私が考えていたことは2つありました。一つの信念は、人間が短時間で解決できる問題をニューラルネットが解決できることを証明したということです。なぜなら、私たちは適度な層数のニューラルネットを訓練できることを証明したからです。ニューラルネットワークを広くすることはかなり簡単ですが、深くすることは難しくなると考えました。そこで、多くの思考を必要としない他の興味深い問題を見つけることができるのではないかと考えました。
実際、強化学習についても少し考えていました。しかし、もう一つの問題は、人々が素早く理解できる言語の問題でした。言語でも、多くの場合、考えるのに多くの時間を費やす必要はありません。「彼らは正確に何を言ったのか」と考える必要がある場合もありますが、多くの場合はそうではありません。
そのため、言語の問題に取り組むことを考えました。当時、言語における最も重要な問題は翻訳でした。そこで、そこで何かできないかと考えていました。
もう一つ考えていたのは、実は囲碁でした。ConvNetを使用すれば、当時存在していた非ニューラルネットワークの囲碁プレイシステムに非常に良い直感を提供できるのではないかと考えていました。
囲碁システムについてもう少し詳しく説明できますか？ニューラルネットワークがどのようにそれを変え、実際に変えたのかについて。
基本的に、ニューラルネットワークについては、深層学習以前のAIに関連するものはすべて、何らかの種類の探索手順と、ハードコーディングされたヒューリスティクスを含んでいました。非常に経験豊富なエンジニアが、どのような条件下で何かを継続するか、中止するか、リソースを拡張するかについて、本当に懸命に考えて多くの時間を費やしていました。
しかし、ニューラルネットワークは形式化された直感です。それは実際に直感なのです。専門家の直感を与えてくれます。私は、どんなゲームでも専門家のプレイヤーは状況を見るだけで、瞬時に非常に強い直感を得ることができるという記事を読みました。それはこれかあれかというものです。そして、そのどちらなのかを考えるのに時間を費やします。
ニューラルネットワークは、人間が1秒未満でできる機能を再現できるという理論を信じるなら、これを難なくこなせるはずです。当時、囲碁は大きな未解決問題でしたが、ニューラルネットワークはそれを解決できるはずだと感じました。
イリヤ、囲碁にConvNetを使うかもしれないと初めて聞いたとき、私の素朴な反応は、明らかにそれが成功したにもかかわらず、ConvNetは並進不変性で有名で、囲碁の盤面では並進不変性を望まないはずだというものでした。パターンが一つの場所にあるか別の場所にあるかは本当に重要だからです。しかし、明らかにそれはConvNetが成功し、パターンを捉えることを妨げませんでした。
そうですね、それはまた並列コンピュータの力です。ConvNetを適切に動作するようにプログラムするのは少し想像しづらいかもしれません。その部分は小さな信念の飛躍だったかもしれません。
囲碁の話を締めくくると、私の囲碁への興味は最終的にAlphaGoの論文に控えめな形で参加することになりました。クリス・マディソンというインターンがいて、囲碁にスーパーConvNetを適用したいと考えていました。同時に、GoogleがDeepMindを買収し、DeepMindのスタッフ全員がGoogleを訪れました。そこでデビッド・シルバーとアン・フーンと話をし、これが面白いプロジェクトになるのではないかと考えました。しかし、その後DeepMindが本当に多くの努力をこのプロジェクトに注ぎ込み、素晴らしい実行を行いました。
ImageNetの瞬間が、多くのAI研究者にとって深層学習の成熟と新しい時代の始まりを示す瞬間だったとすれば、AlphaGoは恐らく、世界の大部分の人々にとって、AIが以前とは全く異なる能力を持つようになったことを示す瞬間だったと思います。
しかし、興味深いことに、世界の大部分がそれに注目している一方で、実際には自然言語処理において非常に根本的なことが起こっていたという記事がニューヨークタイムズに掲載されました。あなたが言及したように、Google翻訳システム全体がニューラルネットワークで刷新されていたのです。
多くの人々が当時のニューラルネットを、音声や視覚信号のようなパターン認識のものと考えていたにもかかわらず、言語は離散的です。私は本当に興味があります。これらの連続的な信号から、多くの人々にとってニューラルネットが自然に適合するように見えるものから、ほとんどの人々が離散的な記号と非常に異なるものと見なす言語へ、どのようにして飛躍したのでしょうか？
はい、生物学的ニューロンと人工ニューロンがそれほど違わないと強く信じるなら、その飛躍は非常に自然です。なぜなら、こう考えることができるからです。人間を見てみましょう。世界最高の専門的な翻訳者、両言語に非常に堪能な人を想像してください。その人はおそらく、ほぼ瞬時に言語を翻訳できるでしょう。つまり、その人の心の中に、比較的少ない層数のニューラルネットワークが存在し、この作業を行うことができるのです。
では、私たちのコンピュータの外部にあるニューラルネットワークが、少し小さくて、多くの入力と出力の例で訓練されているとしたらどうでしょうか。私たちはすでに、問題を解決するニューラルネットを見つけることに成功すると知っています。したがって、そのような本当に優れた瞬時の翻訳者の存在、そのような人の存在は、ニューラルネットワークがそれを行えることの証明なのです。
確かに、それは大規模なニューラルネットワークです。私たちの脳はかなり大きいですが、もしかしたら私たちのデジタルニューロンをもう少し訓練できるかもしれません。もしかしたら、それらはもう少しノイズが少ないかもしれません。そうすれば、うまくいくかもしれません。
もちろん、ニューラルネットワークはまだ本当に素晴らしい人間の翻訳者のレベルには達していません。そこにはまだギャップがありますが、これが推論の連鎖でした。人間が素早くできる、生物学的ニューロンは人工ニューロンとそれほど違わない、だからニューラルネットワークができないはずがない。試してみよう、というわけです。
あなたはGoogleの共同研究者たちと一緒に、ニューラルネットワークを使用した機械翻訳の現代的な方法を発明しました。これは本当に素晴らしいことです。それがどのように機能するか、もう少し詳しく説明していただけますか？
必要なのは、単語の表現を取り込む方法を持つ大規模なニューラルネットワークだけです。単語の表現とは何を意味するのでしょうか？表現とは、AIでよく使われる言葉です。表現とは基本的に、例えば「A」という文字や「猫」という単語を、コンピュータやニューラルネットワークにどのように示すかということです。
基本的に、単語や文字を、ニューラルネットが受け入れられる形式の何らかの信号にマッピングする方法を自分で決めるだけです。この辞書を一度作成し、その信号をニューラルネットに供給します。
そして、ニューラルネットワークがこれらの信号を一度に一つずつ取り込み、翻訳の単語を一度に一つずつ出力する方法が必要です。それだけです。これは自己回帰モデリングアプローチと呼ばれ、現在かなり人気があります。しかし、それが特別だからではなく、単に便利だからです。
ニューラルネットワークがすべての作業を行います。ニューラルネットワークは、内部機構をどのように構築するか、ニューロンをどのように構築するかを自分で理解し、一度に一つずつ入ってくる単語を正しく解釈し、それらを小さな断片に分解し、変形し、正確に調整された方法で一度に一つずつ正しい単語を出力します。
おそらく、単語を取り込む他の方法を持つ他のニューラルネットワークを設計することも可能で、人々は現在これを探求しています。MLのTwitterをフォローしている人なら、「拡散モデル」のような言葉を見たことがあるかもしれません。これらは単語を並列で取り込み、いくつかの逐次的な作業を行い、それらを並列で出力する可能性があります。
実際には、それは重要ではありません。重要なのは、単にニューラルネットに何らかの方法で単語を提示し、ニューラルネットが目標言語の単語を出力する方法を持つことです。それが重要なのです。
私にとって、それが言語でもそれほどうまく機能したことは非常に大きな驚きでした。連続的なものに対しては100％確実にうまくいくと確信していましたが、突然、あなたが先駆けたsequence-to-sequenceモデルは、「まあ、これでほとんどすべてのことがうまくいくだろう」という私の結論でした。言語でうまくいくのなら、私たちが扱う信号の面で何が残っているのでしょうか。
もちろん、あなたは生まれた日からニューラルネットの研究を始めたわけではありません。あなたはどこで育ち、それがどのようにしてAI研究者になることにつながったのか、本当に興味があります。
私はロシアで生まれ、イスラエルで育ち、16歳の時にカナダに移りました。両親によると、私はかなり早い年齢からAIについて話していたそうです。ある時点で、チェスをブルートフォースで行うというこの全ビジネスについて読み、AIについて考えていたことを確かに覚えています。チェスのことはまあ問題なくできるだろうと完全に明らかでしたが、学習のことが本当のAIの核心だと思えました。AIがひどいのは、学習しないからです。人間は常に学習しています。だから、私たちは何か学習できるのだろうかと考えました。
私の家族がカナダのトロントに引っ越したとき、私はトロント大学に入学し、学習を専門とする教授を探しました。そうしてジェフ・ヒントンを見つけました。彼はニューラルネットワークの訓練に興味を持っていて、決定木のような他のアプローチよりもずっと有望な方向性に思えました。決定木は当時人気のあった言葉でしたが、明らかな計算上の制限がありました。
ジェフはもちろん、AIとくにニューラルネットワーク、深層学習の分野で長い歴史を持っています。イギリスから来て、アメリカに行き、そしてカナダに移りました。彼のカナダへの移動は、ある意味で、カナダにおける新しいAI時代の始まりを促すきっかけとなりました。それはとても興味深いですね。あなたも同じ時期にそこにいました。あなたの両親がトロントに行くことを決めた理由は何かありますか？あなたとジェフとアレックス、三人がそこで一緒になってこれを実現したのは偶然でしょうか？
私はそれが幸せな偶然だと思います。それは移民制度の仕組みと関係があると思います。カナダへの移民はかなり簡単で、カナダに移民する場合、トロントはおそらく最も魅力的な都市の一つです。
その偶然があなたをトロント大学に連れて行き、ニューラルネットワークに取り組んでいるジェフ・ヒントンを見つけたわけですが、彼の経歴を調べたとき、彼が30年から40年もこの分野で働いていたことに気づいたはずです。30年から40年経っても機能しないのなら、今になって機能するはずがないと思ったことはありませんでしたか？
あなたの言っていることはわかりますが、私の動機は違っていました。私には非常に明確な動機がありました。AIに、学習に、非常に小さくても意味のある貢献をすることでした。なぜなら、学習は全く機能していないと思っていたからです。私がいたことで少しでも良くなれば、それを成功と宣言するつもりでした。それが私の目標でした。
ジェフとの最初の面会について何か覚えていることはありますか？それはどんな感じでしたか？
私が彼に初めて会ったのは学部3年生のときでした。素晴らしいと思いました。私の学部の専攻は数学でしたが、数学についての一つの問題は、数学が非常に難しく、多くの本当に才能のある人々が数学に進むことです。機械学習について素晴らしいと思ったことの一つは、それが重要なことだけでなく、本当に賢い人々が数学や物理学に進んでいたことでした。そのため、私はそのことをとても嬉しく思いました。
実際、ケイド・メッツの本を読んで覚えているのは、おそらく私のお気に入りのエピソードです。ジェフがあなたとの出会いについて語っている部分です。イリヤ、あなたはそれを読んだことがあるかもしれませんし、ないかもしれません。しかし、基本的に本はこう語っています。ジェフがいて、この若い学生が入ってきます。イリヤ、あなたはまだ学部生でした。ジェフはあなたに論文を渡し、あなたはそれを読みに行きます。そして戻ってきて、「理解できません」と言います。ジェフは「大丈夫だよ、まだ学部生だからね。何がわからないの？説明できるよ」と言います。
基本的に、あなたは「実際には、なぜ学習のプロセス全体を自動化しないのかがわかりません。まだ手動の部分が多すぎます」と言います。「論文は理解しました。ただ、なぜそのようにやっているのかがわかりません」と。ジェフは「おお、これは面白い」と思います。彼は別の論文をあなたに渡します。
物語によれば、再びあなたは読みに行き、戻ってきます。そして「この論文も理解できません」と言います。ジェフは「この論文のどの部分がわからないの？説明するよ」と言います。あなたは「なぜすべてのアプリケーションに対して別々のニューラルネットワークを訓練するのかがわかりません。なぜ一つの巨大なネットワークをすべてに対して訓練できないのでしょうか。共同で訓練すれば役立つはずです」と言います。
私にとって、それは本当に...つまり、OpenAIでの私たちの時代を多く思い出させます。あなたはいつも、今日私たちが持っている証拠から、物事が数年後にどのように形作られるかについて、すでに数歩先を考えているように感じました。少なくとも本によれば、ジェフはあなたとの最初の2回の会議をそのように覚えています。
はい、そのようなことは確かに起こりました。AIの分野は、私が始めた頃は希望に満ちた分野ではありませんでした。荒廃と絶望の分野でした。誰も全く進歩を遂げていませんでした。進歩が可能かどうかさえ明確ではありませんでした。
そのような状況で何をしますか？この道を歩いている、これは最も重要な道だと言えますが、それがどれくらい長いのか、どれくらい難しいのかまったくわかりません。この場合、合理的な目標は何でしょうか？
私が選んだ目標は、有用な一歩を踏み出せるかどうかでした。少なくともしばらくの間は、道がはるかに急になり、はるかに速くなることが明らかになる前は、これが私の明確な動機でした。その後、野心は急速に大きくなりました。しかし、最初は勾配がなかったので、目標はただ一歩でも前進すること、AIに向けて意味のある進歩を遂げることでした。
それは本当に興味深いですね。なぜなら、それが多くの研究者を駆り立てるものだと思うからです。実際にどこまで行けるかを前もって知らずに、ただ何らかの進歩を見出す方法を見つけることに非常に興奮しているだけで、少なくとも何らかの進歩を遂げ、そして続けていくのです。
あなたの場合、もちろん非常に興味深いのは、その後、その全体が遅い進歩から突然、あなたが少しの進歩を遂げようとしていたその同じものが、大きな進歩への扉を開いたことです。
あなたはカナダで始めました。あなたの博士研究はもちろん、完全に分野を変えました。会社を立ち上げ、それがGoogleに買収されました。そしてあなたはGoogleにいました。そして大きなこと、そして実際に私たちの道が交差し始める、あるいは交差しそうになる瞬間は、あなたがGoogleでこの素晴らしい状況にいたということです。あなたは明らかに素晴らしい状況にいて、世界で起こっている最も素晴らしい仕事のいくつかを行っていました。そしてあなたは状況を変えることを決めました。それはどのようにして起こったのですか？
私はGoogleにいて、とても快適でありながら同時にとても落ち着かない気持ちを覚えていました。二つの要因がそれに寄与したと思います。一つは、私が10年先の未来を見通すことができ、物事がどのようになるかについて少し明確すぎる感覚を持っていたことです。それをあまり楽しめませんでした。
しかし、もう一つの要因もありました。それは、DeepMindがAlphaGoに取り組んでいるのを見た経験です。それは非常に刺激的で、これから起こることの兆しだと思いました。
それまで、AIにおけるすべての進歩は、個々の研究者が小さなプロジェクトに取り組むこと、あるいは教授からのアドバイスと他の共同研究者からの協力を得て小さなグループで行われていました。通常、それは小さなグループで、ほとんどの作業はアイデア重視であり、そのアイデアが有効であることを証明するためのエンジニアリングの実行に少し努力が払われていました。
しかし、私はAlphaGoが少し違うと感じました。実際、それは私にとって、エンジニアリングが重要であることを示しました。実際、分野は変化し、今日のようなエンジニアリング分野になるでしょう。なぜなら、ツールが非常に堅実になり、そして問題は、それらのネットワークを本当にどのように訓練するか、どのようにデバッグするか、分散訓練をどのように設定するかということになるからです。それは多くの作業を必要とし、スタックはかなり深いのです。
私は、Googleの文化がアカデミアの文化と非常に似ていると感じました。それは斬新で画期的なアイデアを生み出すのに本当に良いのです。実際、Googleは長年にわたってAIにおいて多くの斬新で革命的なアイデアを生み出してきました。最も注目すべきは、ここ数年のTransformerでしょう。
しかし、私はそれがAIにおける進歩の全てではないと感じました。それはもはやAIにおける進歩の一部に過ぎないと感じました。体に例えるなら、筋肉と骨格と神経系の両方が必要だと言えます。一つだけでは素晴らしいですが、全体は本当に動きません。すべてが一緒に必要なのです。
そこで、これらの要素を一緒に持つ何らかの会社があれば本当に素晴らしいだろうと、漠然と感じていました。しかし、それをどのように実現するかはわかりませんでした。それへの道筋もありませんでした。ただ空想していただけでした。
そしてある時点で、サム・オルトマンからメールが来ました。「クールな人たちと夕食を食べよう」というものでした。私は「いいですね」と言いました。そして現れてみると、グレッグ・ブロックマンがいて、イーロン・マスクがいて、他にも数人いました。私たちは新しいAIラボを始めることについてただおしゃべりをしました。
私はその時が適切だと感じました。なぜなら、私は独立して同じようなことを考えていたからです。私は本当にエンジニアリング重視にしたいと思っていました。そして、イーロンが関与することを知って、大規模なエンジニアリングプロジェクトの側面を学ぶのに、彼以上に適した人はいないと思いました。
これがOpenAIの起源だったと思います。もちろん、もっと詳細はありますが、私の視点からすると、これが本当の起源でした。私は何かについて考えていて、ある日目が覚めると、このメールが来ていたのです。私の視点からすると、空想していたことが現実になったようなものでした。ほと�ど、空想が現実になったようなものでした。
あなたが本当に言っているのは、非常に成功した、野心的な人々のグループが、ある意味であなたの夢と同じ方向を向いており、これを一緒に実現したいと思っているということですね。しかし、それによって得られるのは、基本的に新しい会社が存在するという書類と、おそらく始めるためのお金だけです。
実際には、それらのリソースと時間をどのように使うかを決める必要があります。OpenAIの始まりの頃、あなたの頭の中で何が起こっていたのか非常に興味があります。これをどのように形作るかということについてです。明らかに、それは大きな成功を収めましたが、その始まりの部分と、それがあなたにとってどのように展開されたのかについて本当に興味があります。
始まりの部分については、大量のストレスがあったと表現できます。最初は正確にどのように始めるべきかが明確ではありませんでした。いくつかのことについてだけ明確でした。それは、何らかの大規模なプロジェクトが必要だということと、私が非監督学習において本当に良く予測できれば進歩が得られるのではないかというアイデアに興奮していたことです。
しかし、それ以外は何をすべきか明確ではありませんでした。そこで、私たちは多くの異なることを試しました。そして、難しいコンピュータゲーム、Dota2を解決するのが良いかもしれないと決めました。そしてここでグレッグが彼の強さを示しました。本当に不可能に思えるこのプロジェクトを引き受け、ただ挑戦し続けたのです。そして何らかの形で、それは機能しました。
最も典型的な深層学習の方法で、彼が試した最も単純な方法が、ただうまく機能し続けたのです。最も単純な方策勾配法を、私たちがスケールアップし続けるにつれて、より多くのスケールとより多くの訓練で改善し続けることを決して止めませんでした。
そこで少し詳しく聞きたいのですが、誰もがDota2を知っているわけではありません。それについて少し説明していただけますか？また、最も単純なアプローチが最終的に機能したことがなぜそれほど驚くべきことなのか、完全に同意します。それは非常に難しい問題だからです。
背景として、当時の分野の状況は次のようでした。特に強化学習を見ると、DeepMindがいくつかの非常に興奮する進歩を遂げていました。まず、単純なコンピュータゲームをプレイするために強化学習でニューラルネットを訓練することで進歩を遂げ、そしてその反応は、「それは興奮的で面白く、かっこいいけど、他に何ができるの？」というものでした。
そしてAlphaGoが起こり、意見は「強化学習は何かできるかもしれないが、碁は...面白いですね。碁はかつてこの不可能なゲームのように思われていましたが、今では誰もが『ああ、そんな単純なゲーム、ボードはとても小さい』と言います。私たちの認識は急速に変化します。」
その後、DeepMindはStarcraftが碁の次の論理的なステップだと話し始めました。私にとってもそれは理にかなっていました。必ずしも人間がプレイするのに難しいというわけではありませんが、私たちのツールにとってはより難しく思えました。なぜなら、動く部分がはるかに多く、はるかにカオス的で、リアルタイムストラテジーゲームだからです。
私たちは、自分たちなりのひねりを加えて、Dota2をプレイできるボットを作ろうと考えました。Dota2は別のリアルタイムストラテジーゲームで、非常に人気があります。恐らく、当時は最大の年間賞金プールを持つプロのeスポーツゲームでした。今でもそうかどうかはわかりませんが。非常に活気があり、強力なプロフェッショナルシーンがあります。人々はこのゲームをプレイすることに人生を捧げています。反射力と戦略とインスティンクトのゲームで、多くのことが起こります。ゲーム全体を見ることはできません。
要するに、当時の強化学習にとって、間違いなくグランドチャレンジのように感じられました。強化学習のツールに対する私たちの意見は、こんな感じでした。グランドチャレンジはここにあり、分野のツールとその問題を解決する能力に対する意見はここにあると。そこには大きなミスマッチがありました。
そこで、私たちがこれに取り組み始めたとき、「ああ、そうだね。あらゆる種類のクレイジーな計画方法や階層的強化学習方法を開発する必要があるだろう」と思いました。しかし、まずはベースラインを立ててみよう、ベースラインがどこで壊れるか見てみよう、と。そしてそのベースラインが壊れなかったのです。ただ改善し続けただけでした。
このプロジェクトの過程で興味深いことが起こりました。私たちは異なるパフォーマンスのマイルストーンに達するたびに、進捗の公開デモンストレーションを行いました。最初は引退したプロフェッショナルに対する公開エキシビションゲームを行い、次に現役のプロフェッショナルに対して行い、最後に最強のプロフェッショナルに対してゲームを行い、彼らを打ち負かしました。
興味深いのは、各ステップで、Twitterで非常に知識豊富なAIの専門家たちが出てきて、「これは本当にクールで、強化学習の素晴らしい成功だったけど、明らかに次のステップには明示的な計画や階層的な要素が必要だろう」と言っていたことです。しかし、どういうわけかそれは必要ありませんでした。
これは私たちにとって非常に重要な結果でした。大規模なプロジェクトを実行できることを本当に証明したと感じました。
私はこのプロジェクトには参加していませんでしたが、OpenAIにいてこれらすべてが起こっているのを見ていました。他のプロジェクトに取り組んでいましたが、明示的な構造が必要なかったことに非常に驚きました。しかし、おそらく...実際にはそうではないかもしれませんが、私の頭の中では、大規模なLSTMモデルのニューラルネットワークが、バックプロパゲーションを通じて、私たち全員ではないにしても、少なくとも私が明示的に入れなければならないと思っていた構造を内部化したのだと思います。
ニューラルネットワークは、ハードコーディングする必要なしに、バックプロパゲーションを通じてその直感を吸収することができたのかもしれません。これは本当に興味深いことです。なぜなら、多くの直感が、ハードコーディングよりもデータを通じて提供される方が良いかもしれないということを示しているからです。これは深層学習全般で非常に一般的なトレンドのようですが、当時の強化学習ではそれほど強く信じられていなかったかもしれません。この結果が出るまでは。
はい、私もあなたの評価に同意します。この結果が、少なくとも少しは、シンプルな強化学習の能力に対する分野の見方を変えたと思いたいです。
公平を期すために言えば、このようなゲームで非常に強い結果を得るには、かなりの量の経験が必要です。そして、私たちは同様のアプローチを使用しました。つまり、何らかのシミュレータに対して非常に大量の経験を生成する能力があれば、このスタイルの強化学習は非常に成功する可能性があります。
実際、OpenAIの歴史の中で別の重要な結果がありました。それは、同じアプローチを使用して、ルービックキューブを解くロボットを訓練したことです。物理的なロボットハンドが実際に物理的なルービックキューブを解いたのです。これはかなり挑戦的なプロジェクトでした。訓練は完全にシミュレーション内で行われ、シミュレーションは非常に難しくなるように設計されました。ニューラルネットが非常に適応的である必要があり、実際の物理的なロボットを与えても成功するようにしました。
しかし、核心的には、Dota2プロジェクトで使用したのと全く同じアプローチでした。実際には同じコードでした。これは、一般的な技術、一般的な強力な結果を持っていて、それを複数の場所で使用できたケースでした。
あなたが強化学習で行ったことについては理解しました。現在、OpenAIでは言語の文脈で他の強化学習が行われていることを知っています。それについて本当に興味があります。しかし、それに入る前に...
言語モデリング、GPTは、おそらく最近の年で、AIが何をできるかについて一般の人々の目に最も見えるものです。OpenAIは、非常に信憑性のある方法で記事を完成させることができるこれらのGPT世代のモデルを生成しました。それがどれほど能力があるかは非常に驚くべきことでした。
再び、ある意味で私が本当に興味があるのは、あなたが...一人ではありませんが、OpenAIの共同研究者たちと一緒に、言語モデルを構築するこの道を進むべき時が来たと決めたことです。あなたにとって、これが始めるべきことだと信じさせたものは何だったのでしょうか。
私の側から見ると、本当に重要なことが起こりました。私は非監督学習に本当に興味がありました。背景として、私たちが以前に話した視覚や囲碁、Dota2、さらには翻訳に関する結果は、すべて何らかの方法でニューラルネットワークを訓練するケースでした。入力と望ましい出力を提示することで訓練しました。
典型的な入力（ランダムではなく）、文や画像などを持ち、望ましい出力を持ちます。ニューラルネットワークを実行し、予測された出力と望ましい出力を比較し、この誤差を減らすためにニューラルネットワークを変更します。そしてこれを多く行います。非常に多く行います。そうして学習が機能するのです。
これが機能することは完全に直感的です。今日では完全に直感的とは言えないかもしれませんが、確かにかなり直感的です。なぜなら、「ここに私の入力があり、ここに望ましい出力があります。間違いを犯さないでください」と言えば、最終的に間違いはなくなるはずだからです。少なくとも、なぜ教師あり学習が機能するか、なぜ強化学習が機能するかについて、合理的に強い直感を持つことができます。
対照的に、少なくとも私の頭の中では、非監督学習ははるかに神秘的です。非監督学習とは正確に何でしょうか？それは、教師がどのような望ましい行動をすべきかを教えることなく、単に観察することで世界を理解できるという考えです（「世界を理解する」がどういう意味であれ）。
そこで明らかな疑問が生じます。「なぜそれが可能なのか？どうしてそれが可能なのか？」というものです。では、何をするのでしょうか？典型的な考え方は何だったでしょうか？典型的な考え方は、入力、つまり観察（例えば画像）を取り、何らかの方法でそれを変換し、同じ画像を再現するようにニューラルネットワークに要求するというものでした。しかし、なぜそれが関心のあるタスクにとって良いことなのでしょうか？それには数学的な理由があるのでしょうか？
私はそれを非常に不満足に感じました。私の頭の中では、非監督学習には全く良い数学的基礎がないように感じました。そのことに本当に悩まされていました。多くの考えの末、私は次のような信念を持つようになりました。次のビットを本当によく予測できれば、非常に良い非監督学習レベルを持つはずだ、という考えです。
この考えは、次のビットを非常によく予測できれば、信号に存在するすべての意味のある情報をモデルが知っているということです。したがって、すべての概念の表現を持っているはずです。
言語モデリングの文脈では、この考えは非常に直感的です。次の単語を適度に正確に予測できれば、おそらくモデルは単語が空白で区切られた文字の集まりであることを知るでしょう。より良く予測できれば、語彙があることを知るかもしれませんが、構文はうまくできないでしょう。さらに予測を改善すれば、構文もよくなります。突然、構文的なでたらめを生成し始めるでしょう。しかし、予測をさらに改善すれば、必然的に意味論が機能し始めるはずです。
私は、ピクセルを予測することについても同じ議論ができると感じました。ある時点で、予測を本当に上手く行うことで非監督学習レベルが得られるかもしれないと信じ始めました。当時は、これが大きな課題のように感じられました。今では誰もが非監督学習が機能することを知っていますが、そう遠くない過去には、これは完全に手に負えない問題のように思われていました。
いずれにせよ、GPTがどのように作られたかという話に戻りましょう。その後、最初の重要なステップとなったプロジェクトは、GPTサーガの重要なヒーローの一人であるアレック・ラドフォードが率いたものでした。私たちはAmazon製品のレビューの次の文字を予測するためにLSTMを訓練しました。
そして、このLSTMにはセンチメントに対応するニューロンがあることを発見しました。言い換えれば、ポジティブなレビューを読んでいる場合、センチメントニューロンが発火し、ネガティブなレビューを読んでいる場合、センチメントニューロンは発火しません。
これは興味深く、「もちろん、最終的に次に何が来るかを本当によく予測したければ、データについての真実を発見する必要がある」という仮説を裏付けているように感じました。
その後、Transformerが登場しました。私たちはTransformerを見て、本当に興奮しました。なぜなら、私たちは長期依存性が本当に重要だと信じて本当に苦労していたからです。Transformerは長期依存性に対して非常にクリーンで優雅、そして計算効率の良い答えを持っていました。
背景として、Transformerはこのニューラルネットワークアーキテクチャで、ある意味では本当に優れています。しかし、もう少し技術的に言えば、これらのニューラルネットワークは何らかの方法で深いということを議論しました。そして、比較的最近まで、深いニューラルネットワークを訓練するのはかなり難しいことがわかっていました。
言語の系列を訓練するための以前のニューラルネットワークでは、系列が長くなればなるほど、ネットワークはより深くなり、訓練が難しくなりました。しかし、Transformerは系列の長さからTransformerの深さを切り離しました。そのため、非常に長い系列でも扱いやすい深さのTransformerを持つことができました。それは興奮することでした。
この調査はGPT-1につながり、その後、私たちはスケールを信じ続けました。それがGPT-2と3につながりました。ここで本当に強調したいのは、ダリオ・アモデイの存在です。彼はGPTをスケールアップすれば、これまでで最も素晴らしいものになると本当に信じていました。そしてそれがGPT-3につながったのです。
GPT-3が登場したとき、それはコミュニティ全体にとって非常に興奮することでした。プロンプトで始めたときにテキストを完成させるだけのものではありませんでした。次の文がこれかもしれないと言えるだけでなく、あらゆる種類のことを完成させることができました。人々はウェブページを書き、GPT-3で非常に基本的なコードさえ書くことができました。そして、それをプロンプトで指示することができました。
このプロンプティングという概念は本当に興味深いです。膨大なモデルがあり、そのモデルは...私は知りませんが、そこにある膨大なテキストで訓練されています。しかし、その瞬間に少量の追加テキストを与えると、実際にそれが望むことを始めるようにプライミングできるのです。これについてもう少し詳しく説明していただけますか？それはどこから来たのでしょうか？そしてそれはどのように機能すると思いますか？
言語モデルとは正確に何でしょうか？単にテキストを受け取り、次の単語が何であるかについて教育的な推測を出力しようとするニューラルネットワークがあります。教育的な推測を出力し、例えば「30%の確率で"the"という単語」などの単語の確率の推測を出力します。
その確率に従って単語を選び、それを確定し、再びニューラルネットに次の単語を予測させ、そしてまた、また、というプロセスを繰り返します。
実際のテキストは、ある意味でその始まりに非常に敏感であることがわかっています。テキストは非常に複雑な構造を持っています。「この下の文書は、1900年代のMIT入学試験で出題された問題のリストを説明します」（これは私が作り上げたものです）と書かれた文書を読むと、実際に1900年代の数学試験でよく出題されるような10問ほどの数学の問題が続くことを強く期待します。
モデルが十分に優れていれば、実際にそれを行うはずです。では、「十分に優れている」とはどの程度でしょうか？これは少し定性的な声明ですが、確かに十分に優れていれば、それを行うことができるはずです。
そこでGPT-3を訓練し、実際にそれができるかどうかを確認します。時にはできないこともありますが、非常に多くの場合、実際に与えられたテキストに非常に敏感に反応します。次に何が来るかを十分に正確に予測するには、与えられたテキストを本当に理解する必要があるからです。
ある意味で、これは予測の中心性です。十分に良い予測は、夢見ることができるすべてのものを与えてくれるのです。
GPTについて私が印象に残っていることの一つは、それが研究のブレークスルーであり、大きな研究のブレークスルーでありながら、非常に実用的に感じられたことです。私が何かを入力しているとき、次に何を入力するかはすでに頭の中にありますが、それでも入力する必要があります。しかし、GPT、おそらくGPT-2以降では、かなり正確に完成させることができました。
そのため、例えばルービックキューブのブレークスルーやDota2のブレークスルーとは非常に異なって感じられました。それらは基本的な研究のブレークスルーでしたが、直接的な応用を夢見るのは難しかったのです。ここでGPTでは、非常に多くの応用を夢見るのが簡単でした。
あなた自身の進化の中で、GPTが機能し始めたとき、応用について考え始めましたか？あるいは、より一般的に言えば、OpenAIの周りの人々が応用について考え始めましたか？何が起こっていたのでしょうか？
はい、私たちは潜在的な応用に非常に興奮していました。実際、それほど興奮していたので、GPT-3を中心に全APIプロダクトを構築しました。人々が新しく便利で、時には前例のない言語アプリケーションを構築できるようにするためです。
別の見方をすれば、AIはただ継続的により能力が高くなっているということです。特定の研究の進歩が本物かどうかを判断するのは時に難しい場合があります。何かのクールなデモがあったとして、それをどう解釈すればいいでしょうか？特に、そのデモが訓練データにどれほど似ているかがわからない場合、進歩の大きさを理解するのは難しい場合があります。
しかし、有用な製品があれば、その進歩は本物です。ある意味で、分野が成熟し過ぎて、もはやデモやベンチマークだけを進歩の指標とする必要がなくなったのかもしれません。有用性が最も真の進歩の指標となったのです。
そのため、私はこれがGPT-3にとって良い兆候だと思います。はい、私たちは応用に興奮していました。そして人々は今でもGPT-3を常に使用しています。
あなたが共有できる、見たことのある使用例はありますか？構築されているアプリケーションは？
多くのアプリケーションがあります。履歴書を書いて修正するのを助けるものを見たことを覚えています。メールを改善するのを助けるものもありました。このようなものを見たと思いますが、具体的な例は今すぐには思い出せません。それらはすべてこのような感じです。多くのユーザーがいることは知っていますが、残念ながら具体的な例をすぐには思い出せません。
あなたの研究軌道の進展を少し先取りしますが、おそらく最大の応用は、もはやGPTとは呼ばれず、Codexと呼ばれているものですが、それはプログラムを書くのを助けるシステムです。それについて少し説明していただけますか？そして、それはGPTがテキストの代わりにGitHubのコードで訓練されただけのものなのか、それとも何か違いがあるのでしょうか？
論文で説明したシステムは、基本的にコードで訓練されたGPTです。それほど単純です。興味深いのは、それがうまく機能することです。「何をしたの？何もしていないじゃないか。ただ大きなニューラルネットを取り、GitHubのコードで訓練しただけだ」と言えるかもしれません。しかし、結果は全く悪くありません。
実際のコーディングの問題を解決する能力は、多くの人が予想していたよりもはるかに優れています。これは再び、深層学習の力、これらのニューラルネットの力を示しています。それらは解決する問題を気にしません。「人々はコーディングができるのだから、なぜニューラルネットができないのか」と考えることができます。生物学的ニューロンが人工ニューロンと大きく異なるわけではないと信じるなら、それは全く不合理な信念ではありません。
そこで問題になるのは、訓練データは何かということです。GitHubを予測することは、厳密にはコーディングと同じではありません。そのため、完全に正しいことをしないかもしれません。しかし、十分に良いことが判明し、非常に有用であることがわかりました。特に、知らないライブラリがある状況で役立ちます。
GitHubのすべてを学習しているので、主要なライブラリすべてに非常に精通しています。それを知らなくても、「このライブラリを使ってXを行う」というコメントを書くだけで、多くの場合、正確なコード、あるいはかなり近いコードを生成します。そこから作業を始め、少し編集して、動作するものを得ることができます。
しかし、はい、それは基本的に、コードを非常によく予測するように訓練されたGPTです。
多くの面で、社会的影響の可能性という点で本当に驚くべきことだと思います。人々として世界に影響を与える方法の多くを考えると、私たちはしばしばコンピュータの前に座っています。そして、メールを入力したり、行った作業に関する文書を書いたり、コードを書いたりしています。これは本当に誰の仕事も加速させる可能性があります。
一日でできることの種類...私たちはすでにこれについての指標を見ているかどうかわかりませんが、もし今ではないとしても、次の世代では...あなたの考えについて興味があります。これらのツールのおかげで、人々からどのような生産性を期待できるでしょうか？
私は、近い将来、生産性は徐々に向上し続けるだろうと言えます。時間が経つにつれ、AIシステムの能力が向上するにつれて、生産性は絶対的に劇的に向上すると思います。私はそれを非常に確信しています。私たちは劇的な生産性の向上を目撃することになるでしょう。
最終的には、システムが実際に...世界が、AIがすべての仕事を行い、その仕事が人々に楽しむために与えられるような状態になる日が来るでしょう。これが長期的な将来の生活だと私は考えています。
つまり、中期的には素晴らしい生産性の向上があり、長期的な将来には無限の生産性、あるいは完全に自動化された生産性になるでしょう。
もちろん、人々がこの文脈でよく考えることの一つは、AIに多くの生産性を与える場合、それが正しいことを行うために生産的であるべきで、間違って何かを爆発させるために生産的であってはいけません。あるいは、何をすべきかを誤解してはいけません。
そういう意味で、私は本当にOpenAIでのこのプロジェクトに興味を持っています。そこでは強化学習がGPTと組み合わされています。それについてもう少し詳しく説明していただけますか？
一歩下がって考えてみましょう。これらのAIシステムはますます強力になっています。その力の大部分は、私たちが理解していない非常に大規模なデータセットで訓練することから来ています。私たちはそれらが何をするかについて直感的な理解を持っています。それらはあらゆる種類のことを学習し、私たちが調査できるが、おそらく完全には理解できない方法で行動します。
これらの大規模言語モデルについては、プロンプトを通じてそれらをある程度制御する能力を持っています。実際、言語モデルが優れるほど、プロンプトを通じてより制御可能になります。
しかし、私たちはそれ以上のものを望んでいます。私たちは、モデルが私たちが望むことを正確に行う、あるいは可能な限り私たちが望むことに近づくことを望んでいます。
そこで、あなたが言及したプロジェクトがありました。人間の判断者からのフィードバックを使って、これらの言語モデルを強化学習で訓練するというものです。ここでは、シミュレータに対してではなく、出力が望ましいか望ましくないかを教えてくれる人間の判断者に対して強化学習を行います。
これについて考えると、この強化学習環境は本当にエキサイティングです。強化学習が少し停滞しているのは、本当にクールな環境がなかったからだと主張することさえできるかもしれません。しかし、言語モデルと人々を使って強化学習を行うことは、そのような...それは多くのことができる可能性を開きます。
私たちが示したのは、これらの大規模なニューラルネットワーク、これらの大規模なGPTモデルが、本質的にこれらの教師からの強化学習を行うと...また、小さな技術的な詳細があります。これはML重視の聴衆の一部向けの技術的な話ですが、強化学習では通常、良いか悪いかの報酬を提供します。
しかし、人間のフィードバックからの強化学習で私たちが行う方法は、教師がモデルの2つの出力を見て、どちらがより良いかを言う必要があります。これは、一つのことが絶対的に良いか悪いかを言うよりも簡単なタスクだからです。
そして、それから報酬を作成するために、報酬モデルを作成するために少し機械学習を行います。そしてこの報酬モデルを使ってニューラルネットを訓練します。
これはかなりサンプル効率の良い方法で、これらのニューラルネットワーク、これらの言語モデルの振る舞いを制御する非常に細かい方法を得ることができます。
私たちはこれをかなり使用してきました。最近では、指示に従うモデルを訓練しています。これらは実際に人々がAPIを通じて、OpenAI APIを通じて使用できるものです。
GPT-3では、モデルは単に訓練されているので、プロンプトを指定するのにかなり賢くなければなりません。プロンプトを設計して、モデルに望むことをさせるためにいくつかの例を提供する必要があります。
一方、指示に従うモデルは、文字通り私たちが言うことを行うようにこの方法で訓練されています。
機械学習コミュニティの一部では知られているが、すべてではない言葉があります。それは「モデルを整列させる」ということです。これは、その力と明確ではない能力を持つモデルが、実際に訓練され、文字通りあなたが望むことを行うよう動機付けられるようにする試みです。
指示に従うモデルでは、単に望むことを伝えます。「Xを行う」「Yを書く」「Zを修正する」と言えば、それを行います。そのため、使用するのが本当に便利です。
これは人間のフィードバックからの強化学習技術の実践的な例ですが、将来的には、もちろんあらゆる方法で教師から学びたいと思うでしょう。機械学習を使用して、人々が監督された例を提供したり、報酬を提供したりするだけでなく、本当に概念を理解するために必要な情報を学ぶために正確に正しい質問をする会話を持ちたいと思うでしょう。
これが将来のあり方です。しかし現在、このアプローチは、GPTモデルを自然な状態よりもより整列させるためにかなり成功裏に使用されています。
私が理解する限り、特定の人の好みに合わせて個人化された方法でも整列させることができます。私はあなたに私の好みに従うように教えることができ、あなたは別のものを持つことができます。つまり...
答えは間違いなくイエスです。私が言及した特定のモデル、指示に従うモデルは、単一のモデルで、それは整列されています。つまり、私たちが与える指示に従うように訓練され、動機付けられています。これは非常に便利なインターフェースです。
もちろん、これらのニューラルネットでは何でも望むことができます。文字通り望むどんな方法でも訓練できます。任意の方法で個人化できます。「このユーザーにはこれを行い、あのユーザーにはあれを行う」と言うことができます。ユーザーは段落で指定することもできますし、過去の行動のいくつかで指定することもできます。ほぼ何でも可能です。「ほぼ何でも可能」とあなたが言うとき、それは私たちの過去の多くの会話を思い出させてくれます。あなたの想像力には常に限界がないように見えます。何が可能かもしれないか、そしてそこに到達するためのアプローチについてです。
おそらく最近の最も驚くべき結果の一つは、従来、コンピュータビジョン、言語処理、強化学習の研究は、ほぼ別々の研究分野のようでしたが、最近あなたはOpenAIの共同研究者と共に、CLIPとDALLEモデルをリリースしました。これらは、ある意味で言語とビジョンを同じネットワークに統合し、本当に単一のネットワークで両方を同時に扱い、必要に応じてそれらの間を効果的に翻訳することができます。
再び、私は興味があります。どのようにして、今ならこの組み合わせモデルが可能になり、望むように視覚と言語の両方を扱うことができると結論付けたのでしょうか？
私は、根底にある動機は、将来のニューラルネットワークがビジョンと言語の両方を持たないことは考えにくいということだと思います。これがこの方向で考え始めた動機でした。
これが可能かどうかについては、少なくとも私の見解では、ニューラルネットワークがこのタスクに成功する十分な証拠がありました。大規模で適切なデータセットがあれば。彼らが言語を生成できるのなら、なぜ画像の言語を生成できないのか、あるいはその逆もできないのでしょうか。
そのため、それはより、画像とテキストの両方でニューラルネットワークを訓練する探索のようなものでした。DALLEの場合、文脈としてDALLEは文字通り、テキストの後に画像の一種のテキスト表現が続くGPT-3です。画像を表現するためにこれらのトークンを使用します。そのため、モデルの観点からすると、それは単に一種の楽しい言語のようなものです。
GPT-2を英語のテキストやフランス語のテキストで訓練できるのと同じように、人間の言語と画像の言語を持つ別の言語があるとしたらどうでしょうか。それがDALLEです。そして、それは期待通りに機能しました。それでも、ニューラルネットワークが生成した画像を見るのは非常に楽しい経験でした。
CLIPについては、反対方向への探索でした。ニューラルネットワークが、大量の緩やかな自然言語の監督を使用して視覚を学ぶことができるかどうか。非常に多様な視覚的概念を学ぶことができるか、そしてそれを非常に堅牢な方法で行うことができるかどうか。
その堅牢性の点は、私の目には特に重要だと思います。堅牢性とは何を意味するのか説明させてください。ニューラルネットワークのビジョンにおいて特に注目すべき統一的な点の一つは、人間が決して犯さないような間違いを犯すことです。
以前、ImageNetデータセットについて話し、このデータセットで画像を認識するためにニューラルネットワークを訓練することについて話しました。このデータセットで超人的なパフォーマンスを達成するニューラルネットがありました。それを電話に入れて写真を撮り始めると、がっかりするような間違いをたくさん犯すのです。何が起こっているのでしょうか？
実際に起こっているのは、注意深く見ないと気づきにくいデータセットの特異性がたくさんあるということです。人々は、同じオブジェクトを含むが、おそらく珍しい角度から、あるいは異なる表現で撮影されたテストセットを構築しました。ImageNetニューラルネットはこれらの変種で失敗しますが、CLIPニューラルネットワークは、インターネットからのこの膨大で緩やかにラベル付けされたデータで訓練されたこのニューラルネットワークは、これらすべての変種でうまく機能しました。
視覚的概念の提示に対してはるかに堅牢でした。私はこの種の堅牢性が非常に重要だと思います。なぜなら、人間の視覚に関して言えば、私たちの脳の3分の1がビジョンに専念しています。私たちの視覚は信じられないほど優れています。
これは、ニューラルネットをもう少し堅牢にする、その能力をもう少し私たち自身のビジョンの能力に近づける一歩だと感じています。
あなたはImageNetとCLIPデータセットについて言及しました。CLIPデータセットははるかに大きいですね。それらの間のサイズの違いはどれくらいですか？何百倍も大きいのでしょうか？
はい、何百倍も大きいです。オープンエンドのカテゴリがあります。カテゴリは単に自由形式のテキストだからです。しかし、本当に重要なのはサイズだけでなく、カバレッジと多様性です。データセットには多くのものが含まれている必要があります。データセットが狭ければ、ニューラルネットワークに悪影響を与えるでしょう。
過去10年、というかほぼ9年を振り返ってみると、ImageNetのブレークスルー以来、毎年新しいブレークスルーがあり、以前には存在しなかった新しい能力が生まれています。その多くはあなた、イリヤと、あなたの共同研究者たちのおかげです。
過去9年を振り返り、そして将来を予測するとき、今日は達成できないが、今後数年で実現可能になることを特に楽しみにしているものはありますか？
はい、深層学習の物語は実際に過去9年よりもずっと古いものです。面白いことに、1960年代のローゼンブラットの発言を読むと...ローゼンブラットはパーセプトロンを発明しました。パーセプトロンは、実際のコンピュータで何か興味深いことを学習できる最初のニューラルネットワークの一つでした。いくつかの画像分類を学習することができました。
そしてローゼンブラットはニューヨークタイムズに登場し、こう言いました。「いつの日か、ニューラルネットワークは見て、聞いて、翻訳し、自分自身を意識し、あなたの友人になるでしょう」というようなことを。彼はますます大きなコンピュータを構築するための資金を調達しようとしていました。
そして、彼には資金が誤って配分されていると考えた学術的な批判者がいました。これが最初の大きなニューラルネットワークの冬につながりました。
私は、これらのアイデアは常に背景にあったと思います。ただ、環境が整っていなかっただけです。データとコンピューティングの両方が必要だったからです。データとコンピューティングが利用可能になるとすぐに、この機会を活用して進歩を実現することができました。
私は進歩が続くと完全に予想しています。私たちははるかに能力の高いニューラルネットワークを持つことになると思います。正確に何が起こるかについて具体的になりたくありません。なぜなら、そのようなことを予測するのは難しいからです。
しかし、一つ言えることは、私たちのニューラルネットワークがさらに信頼性が高くなることです。現在よりも信頼性が高くなり、本当にその出力を信頼でき、何かを知らない場合は単にそう言い、おそらく説明を求めるでしょう。それはかなり影響力があると思います。
私は、彼らがより多くのアクションを取るようになると思います。現在、私たちのニューラルネットワークはまだかなり不活性で受動的です。彼らははるかに有用になり、有用性は継続的に成長するでしょう。
そして、確かに私は、たとえそれらの新しいアイデアが現在とは異なる方法で物事を見ることの形を取るかもしれないとしても、何らかの新しいアイデアが必要になると確信しています。
私は、深層学習における主要な進歩の多くがこの形を取っていると主張するでしょう。例えば、非監督学習における最近の進歩を見てみましょう。何が行われたのでしょうか？何が異なるのでしょうか？私たちはただより大きな言語モデルを訓練しただけです。しかし、それらは過去にも存在していました。私たちはただ、言語モデルがずっと正しかったことに気づいただけなのです。
そのため、私たちの目の前にあるものが実際には予想よりもはるかに強力で、はるかに能力があるという、このような気づきがさらに増えると思います。
はい、これらのシステムの能力は継続的に向上すると予想しています。それらは世界においてますます影響力を持つようになり、はるかに大きな会話のトピックになるでしょう。
私たちは、信じられないほど、本当に信じられないようなアプリケーションを見ることになると思います。非常にポジティブな、本当に変革的なアプリケーションです。強力なAIで多くのことを想像できます。
そして最終的には、本当にAIが仕事をし、私たち人間がその仕事を楽しむ世界になると思います。私たちはその仕事を自分たちの利益と楽しみのために使用します。
これは、OpenAIがキャップ付きの営利企業である理由の一部です。投資家への義務を果たした後、非営利に戻ります。これは、すべての仕事をする有用なAIがあり、すべての人々がそれを楽しむことができるという将来のビジョンを実現するのを助けるためです。それは本当に美しいことです。
あなたがそこに持っているモデルが好きです。なぜなら、それは本質的に、本当に能力の高いAIの利益が無限である可能性があるということを反映しているからです。無限の利益を非常に小さなグループの人々に集中させるのは良くありません。なぜなら、それは世界の残りの部分にとって良くないからです。
あなたがそこに持っているモデルが好きです。これに関連して、イリヤ、多くの人々が話題にしていることの一つは、AIがより高価になっているということです。より大きなモデルを訓練すると、より能力が高くなりますが、それらの大きなモデルを訓練するためのリソースが必要になります。
あなたの考えについて本当に興味があります。これは単に、より多くのお金を使えば、モデルがより大きくなり、より能力が高くなるということでしょうか？それとも、将来は異なる可能性がありますか？
モデルの効率を向上させ、より少ないリソースでより多くのことを行う方法を見つけるための非常に大きなインセンティブがあります。このインセンティブは非常に強く、分野の誰もがそれに影響を受けています。
将来的には、現在使用しているコストのごく一部で、はるかに多くのことができるようになると完全に予想しています。私はそれが必ず起こると思います。コストは下がり、方法はあらゆる面でより効率的になるでしょう。効率性には複数の次元があり、モデルはそれらをまだ十分に活用していません。
同時に、より大きなモデルが常により優れているということも事実だと思います。これは人生の事実だと思いますし、ほぼ力の法則のような、異なるモデルが異なることを行う状況があるはずだと予想しています。
特定のタスクに使用される非常に強力なモデルが少数あり、それよりも多くの小さなモデルがあり、それでもとても有用です。そして、さらに多くの、より小さく、より専門化されたモデルがあります。
このように、サイズ、専門化の連続体があり、それはエコシステムになるでしょう。自然界で、あらゆるニッチを占める動物がいるのと同じように、コンピューティングにおいても同じことが起こると予想しています。
あらゆるレベルのコンピューティングに対して、それを使用する最適な方法があり、人々はその方法を見つけ、非常に興味深いアプリケーションを作成するでしょう。
イリヤ、あなたのビジョンが大好きです。私たちは実際に既に非常に多くのことをカバーしましたが、私の心の中にまだ一つの質問が残っています。それについて聞きたいと思います。
イリヤ、あなたは過去10年間、実際にはそれ以前からも、AIにおける多くのブレークスルーの背後にいました。私は単に興味があります。あなたの一日はどのようなものですか？あなたが創造的で生産的であるのを助ける習慣や、スケジュールの中のこと、あるいはあなたが行うことは何だと思いますか？
このような一般的なアドバイスを与えるのは難しいですが、おそらく二つの答えは、時間を守ることと、ただ一生懸命努力することです。簡単な方法はないと思います。苦しみを受け入れ、それを乗り越える必要があります。そこに良いものがあるのです。
時間を守るという点について、これは本当に共感できます。もちろん、そうすることであなたはそれをどのように埋めるかを選択できます。先週か、あるいはその前の週を見て、守られた時間の中で、あなたは何をしていますか？散歩に行きますか？論文を読みますか？人々とブレインストーミングをしますか？何が起こっていますか？
私の場合、主に必ずしも散歩ではありませんが、多くの孤独な作業です。はい、私には非常に激しい研究の会話をする人々がいて、それらは非常に重要です。私が主に行うことは、これらです。
あなたもアーティスト、あるいは志望のアーティストであることを知っています。同時に、それが創造性を高めるのに役立つと思いますか？もちろん、害にはならないでしょう。
そうですね、これらのことについてはわかりにくいですが、明らかにそれは助けにしかならないでしょう。

この記事が気に入ったらサポートをしてみませんか？