フランソワ・ショレ: Keras、ディープラーニング、そして AI の進歩 | レックス・フリッドマンポッドキャスト #38

2024年6月24日 20:35

※39,947文字と長文のため、テキストの読み上げ機能の使用を想定しております。各OS標準搭載のアクセシビリティ機能(読み上げコンテンツ)でも良いですが、個人的にはMicrosoft Edgeブラウザの「音声で読み上げる」機能をおすすめします。

以下は、フランソワ・ショレとの会話です。彼はKerasの開発者で、Kerasはディープニューラルネットワークを使った高速で使いやすい実験を可能にするように設計されたオープンソースのディープラーニングライブラリです。複数のディープラーニングライブラリのインターフェースとして機能しますが、その中で最も人気があるのはTensorFlowです。しばらく前にTensorFlowのメインコードベースに統合されました。つまり、ニューラルネットワークを作成、トレーニング、使用したい場合、おそらく最も簡単で人気のある選択肢は、TensorFlow内でKerasを使用することです。
フランソワは、非常に便利で人気のあるライブラリを作成しただけでなく、Googleの世界クラスのAI研究者およびソフトウェアエンジニアでもあります。彼は間違いなく、AI界で率直な、あるいは物議を醸す人物です。特に人工知能の未来に関するアイデアの分野においてそうです。
これは人工知能ポッドキャストです。お楽しみいただけたら、YouTubeでチャンネル登録をしてください。iTunesで5つ星をつけてください。Patreonでサポートしてください。あるいは単にTwitterで@lexfridmanとつながってください。fridmanはF-R-I-D-M-A-Nのスペルです。
では、フランソワ・ショレとの会話をお聞きください。
あなたは意見を美化せず、AIに関するアイデアについて率直に話すことで知られています。特にTwitter上でそうですね。私のお気に入りのTwitterアカウントの1つです。オンラインで表現した中で、最も物議を醸したアイデアは何ですか？そしてそれに対してどのような反応がありましたか？
どうやって選べばいいでしょうか。Twitterアカウントを維持する手間をかけるなら、自分の考えを話すべきですよね。そうしないと、Twitterアカウントを持つ意味がありません。ただ好意的なコメントを書いてガレージに置いておくようなものです。
反発を受けたものといえば、おそらくインテリジェンス・エクスプロージョンのアイデアについて書いたときでしょう。そのアイデアとその背後にある推論に疑問を投げかけました。そのために批判を受けましたね。
インテリジェンス・エクスプロージョンとは、汎用AI問題解決アルゴリズムを構築できれば、そのようなAIを構築すること自体が、AIによって解決できる問題であり、おそらく人間よりも優れた方法で解決できるというアイデアです。そうすれば、AIは自身のアルゴリズムを改良し始め、より良いバージョンの自分自身になることができます。これが再帰的に繰り返され、指数関数的に知能が向上するAIが生まれるというものです。
私はこのアイデアに疑問を投げかけました。まず、インテリジェンス・エクスプロージョンという概念は、知能についての暗黙の定義を使用していますが、それはあまり正確ではないように思えます。それは知能を、建物の高さのように、孤立して考慮できる特性として扱っています。しかし、実際にはそうではありません。知能は、脳、体（具現化された知能）、そして環境との相互作用から生まれるものです。これらの要素のどれか1つでも欠けていれば、実際には知能を定義することはできません。ですから、脳を小さくしたり大きくしたりするだけで、それが意味をなすとは思えないのです。
まず、あなたは多くの人の夢を打ち砕いているわけですね。マックス・テグマークのような物理学者たちの夢を。彼らは宇宙が情報処理システムであり、私たちの脳も一種の情報処理システムだと考えています。そうすると、理論的な限界は何なのか？私たち自身の脳が能力の限界だと考えるのは素朴すぎるように思えます。ここで悪魔の代弁者を演じますが、この情報処理システムを単にスケールアップすれば、脳と同等のものを構築できるはずです。そしてそれを構築するプロセスがただ続けば、能力は指数関数的に向上するはずです。これが、超人工知能を懸念するほとんどの人が使用する論理です。
あなたは、ほとんどの懐疑的な人々が「これは正しくない気がする」と考えるのと同じように、より具体的にしようとしています。私も同じような感覚です。全体が謎に包まれていて、具体的なことは何も言えないのですが、「これは正しくない気がする」「これは脳の働き方とは違う気がする」と言うことはできます。そしてあなたはブログ記事で、そしてここでも、それをより明確にしようとしています。
1つのアイデアは、脳は単独で存在するのではなく、環境の中に存在するということです。ですから、脳と環境を一緒に指数関数的に改善しなければ、はるかに賢いものを作ることはできないということですね。もちろん、私たちは知能の定義を持っていませんが。
その通りです。今日の非常に賢い人々、人間だけでなくAIについても言えることですが、彼らの脳と脳の強さが、実際に表現される知能や彼らの成果のボトルネックになっているとは思いません。このような相互依存関係のあるシステムの一部分を改良しても、システム全体から生まれる能力が指数関数的に爆発すると期待することはできません。なぜなら、システムの一部を改良するたびに、新しいボトルネックが発生するからです。
今日の非常に賢い人々でさえ、彼らの脳は彼らが解決できる問題の種類のボトルネックにはなっていません。実際、多くの非常に賢い人々は、アインシュタインのような大きな科学的問題を解決しているわけではありません。アインシュタインが特許局の職員だった頃のように、アインシュタインがアインシュタインになったのは、天才と大きな問題が適切なタイミングで出会ったからです。しかし、その出会いはなかったかもしれません。その場合、アインシュタインは単なる特許局の職員のままだったでしょう。実際、今日の多くの人々はおそらく天才レベルの賢さを持っていますが、それを表現する機会がないので、私たちにはわかりません。
私たちは、地球や宇宙を問題の空間として考えることができます。そこにはさまざまな難しさの問題やタスクが存在し、私たち自身や動物などの行為者もそこにいます。そして、問題と出会い、それを解決します。しかし、その出会いがなければ、いわゆる「知能」を示すことはできません。
正確です。知能とは、優れた問題解決能力と優れた問題が出会うことです。問題がなければ、知能を表現することはできません。残るのは潜在的な知能、つまり脳の性能やIQのようなものだけです。それ自体は単なる数字に過ぎません。
問題解決能力について言及しましたね。問題解決について、あなたはどのように考えていますか？より知的であるとはどういう意味だと思いますか？それは完全に特定の問題と結びついているのでしょうか？それともより普遍的なものがあるのでしょうか？
はい、私はすべての知能が専門化された知能だと信じています。人間の知能でさえもそうです。人間の知能にはある程度の一般性がありますが、すべての知能システムにはある程度の一般性があります。それらは常に1つのカテゴリーの問題に専門化しています。
人間の知能は人間の経験に特化しています。それはさまざまなレベルで現れます。例えば、生まれたときから持っている先天的な知識があります。エージェント、目標志向の行動、視覚的な先験、時間に関する先験などについての知識です。また、私たちの学習方法にも現れます。例えば、言語を習得するのは非常に速いです。特定のことを学ぶのが非常に簡単なのは、基本的にそれらを学ぶようにハードコードされているからです。
私たちは特定の種類の問題を解決することに特化しており、他の種類の問題に関してはかなり無力です。例えば、私たちは非常に長期的な問題を扱うように設計されていません。非常に長期的なものを見る能力がありません。ワーキングメモリもそれほど多くありません。
長期的な計画について、あなたは年単位、千年単位の規模を話していますか？長期的とはどのくらいの期間を指していますか？
人間の知能は人間の経験に特化しています。人間の経験は非常に短いものです。1つの人生は短く、1つの人生の中でさえ、何年も先のことを想像するのは非常に難しいです。10年先のことを想像するのは非常に困難です。
私たちは比較的狭い範囲の問題しか解決できません。より大きな問題、より大規模な問題を解決しようとするとき、実際には個人レベルでそれを行っているわけではありません。つまり、私たちの脳がそれを行っているわけではありません。私たちには文明というものがあります。これ自体が一種の問題解決システム、一種の人工知能システムです。それは1つの脳で動いているのではなく、脳のネットワークで動いています。実際には、脳のネットワーク以上のものです。本やコンピュータ、インターネット、人間の機関など、多くのインフラストラクチャで動いています。これは個々の人間よりもはるかに大きな規模で問題を扱うことができます。
例えば、コンピュータサイエンスを見てみましょう。これは問題を解決する機関です。それは超人的です。個々の人間よりもはるかに大きな規模で動作し、はるかに大きな問題を解決できます。そして科学自体、システムとしての科学、機関としての科学は、超人的な人工知能問題解決アルゴリズムです。
コンピュータサイエンスは、数千人、おそらく数十万人規模の人間の定理証明器のようなものですね。
そうですね。では、知的なエージェントについてどう考えますか？私たち人間が個人レベルにいて、私たちの皮膚には数百万、おそらく数十億の細菌がいます。それはより小さなスケールです。さらに粒子レベルまで下がることもできます。これらはある意味で知的に振る舞うシステムです。そして地球を1つの有機体として見ることもできます。私たちの銀河、さらには宇宙さえも小さな有機体として見ることができます。
スケールについてどう考えますか？知的システムをどのように定義しますか？ここGoogleには、分散した方法で計算を行っている何百万もの装置があります。スケールについてどう考えますか？知能について？
あなたは常に何かをシステムとして特徴づけることができます。インテリジェンス・エクスプロージョンについて話す人々は、1つのエージェント、基本的に1つの脳、孤立して考えられた1つの脳に焦点を当てる傾向があります。その脳が体を非常に階層的な方法で制御し、その体が環境内のオブジェクトを操作するというように。すべてがこの1つのもの、つまり脳という中心に従属しているのです。
しかし、現実の知的エージェントはこのようには機能しません。脳と体の間に強い境界線はありません。神経系だけでなく、体全体を見る必要があります。そして神経系と体は自由に動くことはできません。つまり、動物全体を1つのエージェントとして見る必要があります。
しかし、動物をある程度の時間観察すると、動物の知能の多くが実際には外部化されていることに気づき始めます。これは特に人間に当てはまります。私たちの知能の多くは外部化されています。メモを取るとき、それは外部化された知能です。コンピュータプログラムを書くとき、それは認知を外部化しています。本、コンピュータ、インターネット、他の人間、言語などに外部化されているのです。
ですから、知的エージェントを構成するものに明確な境界線はありません。すべては文脈次第です。
しかし、AlphaGoは最高の人間のプレイヤーよりも囲碁が上手ですね。スキルレベルはありますが、特定のタスクにおいてインテリジェンス・エクスプロージョンのような概念が存在すると思いますか？そして、能力が指数関数的に成長するような問題のカテゴリーがあると思いますか？
特定の狭い領域では、ある程度可能だと思います。しかし、実際に私たちは推測する必要はありません。なぜなら、現実世界の例があるからです。例えば、科学は問題解決システムであり、知識生成システムです。世界を経験し、徐々に理解し、それに基づいて行動できるシステムです。そのシステムは超人的で、明らかに再帰的に自己改善しています。なぜなら、科学は技術に反映され、技術はより良いツールを作るために使用されます。より良いコンピュータ、より良い計測器などが作られ、それがさらに科学を加速させるからです。
ですから、科学は私たちが今日持っている、再帰的に自己改善する超人的AIに最も近いものかもしれません。そして、科学の進歩を観察することで、超人的AIが科学のような振る舞いをした場合に何が起こるかを理解する基礎として使用できます。
少し立ち止まってみましょう。科学的革命や意味論的革命など、なぜインテリジェンス・エクスプロージョンが不可能だと直感的に思うのですか？科学のプロセスをわずかに加速することはできないのでしょうか？
問題解決プロセスを絶対に加速することはできます。再帰的な自己改善は確かに現実のものです。しかし、再帰的に自己改善するシステムで通常起こるのは爆発ではありません。なぜなら、どのシステムも孤立して存在しているわけではないからです。システムの一部を調整すると、突然システムの別の部分がボトルネックになります。
科学を例に取ると、これは明らかに再帰的に自己改善するシステムであり、明らかに問題解決システムです。しかし、科学の進歩は実際には爆発していません。科学を見ると、指数関数的に増加するリソースを消費しているにもかかわらず、科学的進歩の観点からは線形的な出力しか得られていないシステムの姿が見えます。
これは非常に強い主張に聞こえるかもしれません。多くの人が科学の進歩は指数関数的だと言っています。しかし、彼らがそう主張するとき、実際には彼らはリソース消費の指標を見ているのです。発表される論文の数、申請される特許の数などです。これらは単に、今日科学に従事している人の数と完全に相関しているだけです。
実際には、これはリソース消費の指標に過ぎません。見るべきは出力です。科学が生み出す知識の観点からの進歩、私たちが解決する問題の範囲と重要性の観点からの進歩です。実際にそれを測定しようとした人もいます。例えば、マイケル・ニールセンは昨年、これについて非常に素晴らしい論文を発表しました。
彼の科学の進歩を測定するアプローチは、過去100年から150年の科学的発見のタイムラインを見て、各重要な発見について専門家のパネルにその重要性を評価してもらうというものでした。科学という機関の出力が指数関数的であれば、重要性の時間的密度が指数関数的に上がることを期待するでしょう。発見の速度が速くなるか、発見がますます重要になるからです。
しかし、実際にこの方法で測定された重要性の時間的密度をプロットすると、非常にフラットなグラフが見えます。物理学、生物学、医学など、すべての分野でフラットなグラフが見られます。実際、それはよく考えると理にかなっています。
110年前の物理学の進歩を考えてみてください。それは信じられないほどの変化の時代でした。160年前の技術の進歩を考えてみてください。馬を車に置き換え始め、電気を導入し始めた時代です。それは信じられないほどの変化の時代でした。今日も非常に速い変化の時代です。しかし、今日の技術と科学が50年前、100年前よりもはるかに速く動いていると言うのは公平な特徴づけではありません。
実際に重要性の時間的密度をプロットしようとすると、非常にフラットな曲線が見られます。マイケル・ニールセンのこのアイデアについての論文をチェックしてみてください。
私の解釈では、ある分野で進歩すればするほど、さらなる進歩を得ることが指数関数的に難しくなります。情報理論の分野で最初に仕事をした人は、新しい分野に入り、まだ初期の段階では、多くの低hanging fruitsを手に入れることができます。
その通りです。次の世代の研究者は、より小さな発見をするためにはるかに懸命に掘り下げなければなりません。おそらく、より多くの小さな発見をすることになります。同じ影響力を達成するためには、はるかに多くの人数が必要になるでしょう。それが科学で実際に見られる姿です。
科学者やエンジニアの数は実際に指数関数的に増加しています。科学に利用可能な計算リソースの量も指数関数的に増加しています。つまり、科学のリソース消費は指数関数的ですが、進歩や重要性の観点からの出力は線形的です。
その理由は、科学が再帰的に自己改善するシステムであるにもかかわらず - つまり、科学の進歩が技術の進歩につながり、それが今度は科学を助けるにもかかわらず - です。例えばコンピュータを見てみましょう。これは科学の産物であり、科学を飛躍的に進歩させるのに非常に有用です。インターネットも同じです。インターネットは様々な科学的進歩によって可能になった技術であり、それ自体が科学者のネットワーク化、コミュニケーション、論文やアイデアの交換をはるかに速く行えるようにすることで、科学の進歩を加速させます。
つまり、再帰的に自己改善するシステムを見ているにもかかわらず、同じ量の問題解決を生み出すために指数関数的により多くのリソースを消費しているのです。
それは科学コミュニティを描写する魅力的な方法ですね。確かに、ディープラーニングコミュニティにも当てはまります。ディープラーニングにおける重要なアイデアの時間的密度を見ると、それは実際に減少しているかもしれません。
その点について考える必要がありますが、ディープラーニングにおける重要なアイデアを本当に見ると、論文あたりの重要性は確かに減少しているでしょう。そして論文の量は今でも指数関数的に増加し続けています。したがって、全体を見れば、おそらく線形的な進歩が見られるでしょう。
私の意見では、科学における線形的な進歩が見られるのは偶然ではありません。リソース消費が指数関数的であるにもかかわらずです。リソース消費は動的に調整されて線形的な進歩を維持していると思います。なぜなら、私たちはコミュニティとして線形的な進歩を期待しているからです。つまり、もし投資を減らし始めて進歩が遅くなると、突然低hanging fruitsが利用可能になり、誰かがそれを拾い上げるでしょう。
そうですね、それはアイデアの市場のようなものです。しかし、あなたが強調しているもう一つの根本的な部分は、科学や、アイデアの空間のような、どの道を進んでも新しいアイデアを得ることが指数関数的に難しくなるという仮説です。
はい、そしてあなたの感覚では、それは私たちの謎めいた宇宙全体に当てはまるのでしょうか？
指数関数的な約束は指数関数的な摩擦を生みます。つまり、システムの一部を調整すると、突然別の部分がボトルネックになります。例えば、加速度を測定し、さらに加速度を出力する装置を開発したとします。それをどこかに落としても、無限の速度には達しません。なぜなら、それは特定の文脈の中に存在するからです。周りの空気が摩擦を生み出し、ある最高速度で止まります。
もし広い文脈を考慮し、摩擦のボトルネックを取り除いたとしても、システムの別の部分が介入し始め、指数関数的な摩擦を生み出すでしょう。おそらく光速や何かがボトルネックになるでしょう。
そして、これは科学という機関によって実行されている問題解決アルゴリズムを見るときに特に当てはまります。より多くの進歩を遂げ、この再帰的な自己改善の要素を経験するほど、指数関数的な摩擦に遭遇します。例えば、異なるアイデアに取り組む研究者が多ければ多いほど、研究者間のコミュニケーションのオーバーヘッドが大きくなります。
量子力学を例に挙げましたが、今日量子力学で重要な発見をし、重要な進歩を遂げようとすれば、膨大な量の知識を摂取する必要があります。つまり、貢献を始めるだけでも非常に大きなオーバーヘッドがあります。研究者間で同期を取るための大きなオーバーヘッドもあります。そしてもちろん、重要な実験を行うには指数関数的に高価な装置が必要になります。なぜなら、簡単な実験はすでに行われているからです。
あなたの感覚では、人工知能システムでもこの種の摩擦を避ける方法はないのでしょうか？
はい、私は科学が超人的な自己改善AIで起こることをモデル化する非常に良い方法だと思います。
なるほど、それは興味深いですね。それは私の直感でもあります。数学的な証明ではありませんが、それが私のポイントではありません。私は何かを証明しようとしているのではなく、インテリジェンス・エクスプロージョンの物語に疑問を投げかける議論をしようとしているのです。これはかなり支配的な物語で、それに反対すると多くの反発を受けます。
なぜなら、多くの人にとって、AIはコンピュータサイエンスの一分野以上のものだからです。それはより信念体系のようなものです。世界が出来事、特異点に向かっているという信念です。その後、AIは指数関数的になり、世界は変革され、人間は時代遅れになるでしょう。この物語に反対すると、それを信じている人々のアイデンティティを攻撃しているように感じられます。それはほとんど神は存在しないと言うようなものです。
ですから、このアイデアに疑問を投げかけようとすると、多くの反発を受けます。まず、コンピュータサイエンスのほとんどの人々、実際にAIと呼べるものを構築した人々のほとんどは、あなたに同意すると思います。彼らはあなたと同じように明確に説明できないかもしれませんが。あなたが受けている反発は、科学の観点からではなく、想像力の観点からその物語に愛着を持っている人々からのものです。
その通りです。
では、なぜそれがそんなに魅力的なのでしょうか？通常、人々が超知能システムを作り出し、特異点を超えたときに想像するのは、常に破壊的なものです。心理学の帽子をかぶってみると、人類文明全体が破壊されるという想像がなぜそんなに魅力的なのでしょうか？
それは良い物語だと思います。非常に興味深いことに、これは宗教的な神話を反映しています。ほとんどの文明の神話を見ると、世界が最終的な出来事に向かっているという内容です。その中で世界は破壊され、新しい世界秩序が生まれます。それは主に精神的なものです。黙示録の後に来る楽園のようなものです。
これは根本的なレベルで非常に魅力的な物語です。私たち全員が物語を必要としています。特に、私たちが予測できる能力を超えた時間スケールで世界を見る方法を構築するために物語が必要です。
より真剣な、指数関数的爆発ではない質問ですが、人間レベルの知能のようなものを作り出す時が来ると思いますか？あるいは、「わー、これはすごく賢いな」と感嘆するような知能システムを作る時が来ると思いますか？それは指数関数的な成長や改善を必要としませんが、あなたの感覚では、そのようなタイミングや能力についてどう思いますか？また、ディープラーニングの限界についても後で話しましょう。あなたの人生の中で、本当に驚くような能力を目にすると思いますか？
2013年から2014年頃、私はディープラーニングの能力に何度も驚かされました。それは、ディープラーニングが何ができて何ができないかを正確に理解する前の時期でした。それは大きな可能性を感じる時期でした。その後、私たちはそれを絞り込み始めましたが、私は非常に驚きました。
つまり、それはすでに起こったということですね。
その期間に、あなたが驚いた日がきっとあったはずです。その驚きは、先ほど議論した物語を信じるほどのものだったのではないでしょうか？ディープラーニングの限界について非常に雄弁に書いているあなたですが、ディープラーニングが無限の可能性を持っていると思った瞬間はありましたか？
いいえ、そのように信じたことはないと思います。驚いたのは、それがそもそも機能したということです。
はい、そうですね。
しかし、非常に優れたコンピュータビジョンを行うことと、人間レベルの知能の間には大きなギャップがあります。コンピュータビジョンで得た結果が、人間レベルの知能に非常に近いという印象を受けたことはありません。私たちは人間レベルの知能に非常に近いとは思いません。
ある時点で人間レベルの知能を達成できない理由はないと信じています。また、人間レベルの知能について話す問題は、暗黙のうちに異なるレベルを持つ知能の軸を考えていることです。しかし、実際にはそれが知能の働き方ではありません。知能は非常に多次元的です。
能力の問題もありますが、人間らしさの問題もあります。これは非常に異なる2つのことです。人間らしくない非常に高度な知的エージェントを作ることもできますし、非常に人間らしいエージェントを作ることもできます。これらは全く異なることです。
そうですね。哲学的な話から実践的な話に移りましょう。Kerasと、あなたが覚えているすべての主要なディープラーニングフレームワークの歴史を教えてください。TensorFlow、Theano、昔のものも含めて。Kerasとの関係、そして一般的な歴史を、Wikipediaのようにざっと概要を教えてください。そしてあなたの役割についても。その後、AGIの議論に戻りましょう。
はい、それは広範なトピックですね。Kerasの作業を始めたのは2015年2月です。当時、Kerasという名前はまだありませんでした。実際、リリースする直前に名前を決めました。
当時、ディープラーニングに取り組んでいる人はそれほど多くありませんでした。おそらく1万人未満でした。ソフトウェアツールもあまり発達していませんでした。主なディープラーニングライブラリはCaffeで、主にC++でした。
2014年後半から2015年初頭にかけて、Caffeが最も人気のあるライブラリでした。コンピュータビジョンに使用されていました。そしてコンピュータビジョンは、ディープラーニングの中で最も人気のある問題でした。
私自身は2014年後半に、実際にはリカレントニューラルネットワークに興味を持っていました。当時はかなりニッチなトピックでした。良いツールを探していて、Torch 7とTheanोを使っていました。Kaggle競技会でもTheanоをよく使用していました。Caffeも使ってみました。
しかし、リカレントニューラルネットワーク用の良いソリューションがありませんでした。例えば、LSTMの再利用可能なオープンソース実装がありませんでした。そこで、自分で作ることにしました。
最初の目的は、主にLSTMと畳み込みニューラルネットワーク周辺のものを作ることでした。Pythonで作ることを決めました。これは当時としては明白ではない重要な決定でした。モデルをPythonコードで定義することにしました。これは主流に反する決定でした。なぜなら、CaffeやTheanоなど、当時の大きなライブラリはすべて、YAMLなどの静的設定ファイルを使用してモデルを定義する方法を採用していたからです。
コードでモデルを定義するライブラリもありました。例えばTorch 7は明らかにそうでしたが、それはPythonではありませんでした。LasagneもTheanо上に構築された非常に初期のライブラリで、おそらく2014年後半に開発されたと思いますが、それもPythonでした。
そこで作業を始めました。当時の価値提案は、LSTMの最初の再利用可能なオープンソース実装を提供するだけでなく、同じライブラリで畳み込みニューラルネットワークとリカレントニューラルネットワークを組み合わせることができるということでした。これは以前には本当に可能ではありませんでした。Caffeは畳み込みニューラルネットワークに特化していました。
そして、使いやすさを重視しました。以前はTheanоを使用していましたが、実際にはscikit-learnを使用していて、その使いやすさが大好きでした。そこで、Kerasを作るときにscikit-learnから多くのインスピレーションを得ました。
つまり、ニューラルネットワーク用のscikit-learnのようなものですね。
そうです、fit関数など、まさにそうです。複雑なトレーニングループを単一の関数呼び出しに縮小するなどです。
もちろん、ある人々はこれが多くの詳細を隠していると言うかもしれません。しかし、それがまさに目的なのです。
魔法のようですが、良い意味での魔法ですね。喜びを与える魔法です。
はい、その通りです。
実は、RNNとLSTMを実装したいという欲求から生まれたとは知りませんでした。それは非常に興味深いですね。実際、あなたは主要なアーキテクチャを一緒に扱おうとした最初の人の一人だったのですね。
また、モデルをコードで定義するという設計決定が全くの設計決定だったとは気づきませんでした。特に、Caffeが最も人気があった時に、YAMLファイルでモデルを定義するのが最も理にかかっていたと思います。モデルの定義を設定ファイルに入れるのが理にかなっているように思えます。コードでの定義にこだわるのは、興味深い大胆な決断でしたね。
他のライブラリもそうしていましたが、確かにそれはより少数派の選択肢でした。
そうですね。では、Kerasについて続けましょう。
2015年3月にKerasをリリースしました。最初からかなりの人気を得ました。当時のディープラーニングコミュニティはとても小さく、多くの人々がLSTMに興味を持ち始めていました。ちょうど良いタイミングでリリースできたのです。使いやすいLSTM実装を提供していたからです。ちょうどその時期に、多くのユーザーがNLPのためのRNNの能力に興味を持ち始めていました。
そこから成長していきました。その約6ヶ月後、私はGoogleに入社しましたが、これは実はKerasとは全く関係ありませんでした。画像分類を主に研究するチームに入りました。つまり、最初はGoogleでコンピュータビジョンの研究をしていました。
Googleに入社してすぐに、TensorFlowの初期の内部バージョンに触れる機会がありました。当時の印象では、これはTheanоの改良版だと思いました。すぐにKerasをこの新しいTensorFlowに移植しなければならないと思いました。しかし、新入社員として非常に忙しく、そのための時間がありませんでした。
2015年11月頃、TensorFlowが公開されました。これが私にとってのウェイクアップコールとなり、実際に行動を起こす必要があると感じました。12月には、KerasをTensorFlow上で動作するように移植しました。しかし、それは完全な移植ではなく、むしろリファクタリングでした。すべてのバックエンド機能を1つのモジュールに抽象化し、同じコードベースが複数のバックエンド上で動作できるようにしました。
次の1年間、Theanoがデフォルトオプションとして残りました。使いやすく、やや遅かったですが、特にRNNに関しては非常に速かったです。しかし、最終的にはTensorFlowがそれを追い越しました。
初期のTensorFlowも同様のアーキテクチャ上の決定を行っていましたね。
はい、そうです。自然な移行でした。
つまり、Kerasは依然としてサイドプロジェクトのようなものでしたね。
そうです。それは私の仕事の割り当てではありませんでした。サイドで行っていました。2016年を通して、ディープラーニングライブラリのユーザーが多くいることは素晴らしいことでしたが、それは私のメインの仕事ではありませんでした。
状況が変わったのは2016年の10月頃だったと思います。TensorFlowのリーダーであるラジャットが、ある日私たちのビルにやってきて、「Kerasを見て気に入った。あなたがGoogleにいることも知った。1四半期ほど来て、私たちと一緒に働かないか」と言いました。私は「はい、素晴らしい機会ですね。やりましょう」と答えました。
そこで、KerasのAPIをTensorFlowにより密接に統合する作業を始めました。その結果、一時的にTensorFlowのcontribにKerasのTensorFlow版が置かれ、最終的にTensorFlowのコアに移動しました。そして、私は以前の研究チームに戻ることはありませんでした。
面白いですね。あなたのような人が、AIシステムの推論や自己改善の力を夢見たり、少なくともその可能性を見ていながら、ディープラーニングの最も基本的な構成要素を非常にアクセスしやすく、美しく使いやすくするシステムを作ったというのは、面白い皮肉です。あなたは両方に責任があるのですね。
そうですね。TensorFlow 2.0について話しましょう。完成に向けてのスプリントがあると思いますが、それがどのくらい続くかわかりません。現在、何に取り組んでいますか？何に興奮していますか？2.0で何が楽しみですか？Eager実行など、多くのことがより簡単になりますね。何に興奮していて、また何が本当に難しいですか？解決しなければならない問題は何ですか？
TensorFlow 2の作業には過去1年半を費やしてきました。長い道のりでしたが、実際に非常に興奮しています。素晴らしい製品だと思います。楽しい製品です。TensorFlow 1と比べて大きな進歩を遂げました。
Keras側で本当に興奮しているのは、以前のKerasは非常に使いやすい高レベルのインターフェースでしたが、多くの柔軟性が必要な場合、Kerasフレームワークは最適な方法ではなかったかもしれません。ゼロから全てを書くことと比べると、フレームワークが邪魔になっていたかもしれません。
TensorFlow 2では、そのようなことは全くありません。高レベルインターフェースの使いやすさと、低レベルインターフェースの柔軟性の両方があります。ニーズに応じて、使いやすさと柔軟性のトレードオフを調整できるワークフローのスペクトルがあります。
ゼロからすべてを書くこともできます。Eager実行を使用してモデルをサブクラス化し、トレーニングループを書くことで、多くのヘルプを得られます。非常に柔軟で、デバッグが容易で、強力です。しかし、これらすべてが、より高レベルの機能とシームレスに統合されています。データサイエンティストや機械学習エンジニアのタイプのプロフィールに理想的な、典型的なscikit-learnライクなワークフローまで。
つまり、同じフレームワークで、より統一的でより高レベルなAPIのセットを提供し、研究者からデータサイエンティストまで、その間のすべてのプロフィールに適したワークフローのスペクトルを可能にしています。これは非常に興奮することです。
それだけではありません。あらゆる種類のツールにつながっています。モバイルに展開したり、TensorFlow Liteを使ったり、クラウドでサービングしたりできます。そしてこれらすべてが今や相互に接続されています。
これまでに書かれた最高のソフトウェアの多くは、1人、時には2人で書かれたものです。Googleでは、Kerasを TensorFlowに統合する必要があり、多くのエンジニアが作業していると思います。したがって、多くの厄介な設計上の決定を行う必要があると思います。通常、そのプロセスはどのように進むのでしょうか？少なくともあなたの視点から見て、どのような議論が行われるのでしょうか？多くの選択肢を検討し、考慮する時間はありますか？
はい、Googleで過ごす時間の多くは、設計に関する議論です。設計ドキュメントを書いたり、設計レビュー会議に参加したりしています。これは実際にコードを書くのと同じくらい重要です。
TensorFlowには非常に多様なユーザーベースがあります。1つのユーザーセグメントだけでなく、誰もが同じニーズを持っているわけではありません。小規模な本番利用、大規模な本番利用、スタートアップ、研究者などがいます。すべてのニーズに対応する必要があります。
C++やPythonの標準を見ると、激しい議論があります。Googleでもそのような議論はありますか？感情的にではありませんが、複数の方法があるはずです。特にディープラーニングの分野では、フィールドが進化している最中に設計を行っているので、最善の方法にたどり着くのは難しいのではないでしょうか？そのプロセスに何か魔法はありますか？
プロセスに魔法はありませんが、確かにプロセスはあります。設計決定を行うことは、一連の制約を満たすことですが、同時にできるだけシンプルな方法でそれを行うことも重要です。なぜなら、それが維持可能で、将来拡張可能なものだからです。
必要な機能ごとに1つの引数や新しいアイデアを思いつくだけでは、制約を単純に満たすことはできません。モジュール化され階層的なAPIを設計したいのです。できるだけ小さなAPI表面を持ち、そのモジュール化された階層的なアーキテクチャが、ドメインの専門家が問題について考える方法を反映していることが重要です。
ドメインの専門家として、新しいAPIについて読んでいるとき、すでに問題について考える方法があります。すでに特定の概念を念頭に置いており、それらがどのように関連しているかを考えています。ドキュメントを読むとき、新しいAPIの概念と自分の心の中の概念との間のマッピングをできるだけ早く構築しようとします。
したがって、ドメインの専門家が考える方法を反映するAPIと基礎となる実装が必要です。これにより、APIを学ぶための認知負荷を最小限に抑えることができます。
APIは自己参照的であったり、実装の詳細を参照したりするべきではありません。ドメイン固有の概念、人々がすでに理解している概念のみを参照するべきです。
素晴らしいですね。KerasとTensorFlowの未来はどのようになると思いますか？TensorFlow 3.0はどのようになるでしょうか？
将来のことを予測するのは難しいですね、特に私はもはやこれらの決定を下す立場にないので。
しかし、私の視点から見ると、これはTensorFlowチーム内の多くの異なる視点の中の1つに過ぎませんが、Kerasよりもさらに高レベルのAPIの開発に非常に興奮しています。ハイパーパラメータチューニングや自動機械学習（AutoML）にも興奮しています。
将来は、モデルを定義し、Kerasのようなレゴブロックを組み立てて「fit」をクリックするだけではないと思います。むしろ、自動的なモデル、つまりデータを見て、あなたの目的関数を最適化するものになると思います。
つまり、赤ちゃんを問題のある部屋に入れて、数時間後に戻ってくると、問題が完全に解決されているというようなものですね。
そうです。レゴのセットではなく、レゴを上手に扱う子供とレゴのブロックの組み合わせのようなものです。
なるほど、それは興味深い未来ですね。制約の中で多くのアプリケーションと革命が起こる可能性があると思います。先ほどの議論の制約の中でですが。
現在のディープラーニングの限界について、あなたの考えを聞かせてください。データから一般化しようとするこれらの関数近似器を具体的に見てみましょう。あなたは局所的一般化と極端な一般化について話されましたね。ニューラルネットワークは一般化が得意ではないが、人間は得意だと言及されました。そこにはギャップがあります。
また、極端な一般化には、そのギャップを埋めるために推論のようなものが必要だとも言及されました。そのようなシステムをどのように構築し始めることができるでしょうか？
はい、これは設計によるものです。ディープラーニングモデルは、入力空間から出力空間への連続的な幾何学的変形を学習する、微分可能な巨大なパラメトリックモデルです。これは勾配降下法を使ってほぼ点ごとに学習されます。
つまり、ディープニューラルネットワークは、トレーニングデータですでに見たものに非常に近い経験空間の点しか理解できません。せいぜい点間の補間ができる程度です。これは、複雑な実世界の問題、例えば自動運転やロボティクスのようなものを扱う場合、入力空間のほぼ点ごとのサンプリングが必要になることを意味し、非常にコストがかかる可能性があります。
視覚空間の一部を見ているだけでも、何百万もの例が必要です。そして、以前に見たものに非常に近いもののみを理解できるでしょう。
対照的に、人間の知能を見なくても、非常に単純なルールベースのアルゴリズムを見ることができます。シンボリックなルールがあれば、それは非常に広範な入力セットに適用できます。抽象的だからです。点ごとのマッピングによって得られたものではありません。
例えば、ディープニューラルネットワークを使ってソーティングアルゴリズムを学習しようとすると、この特定のリストのソートされた表現が何であるかを点ごとに学習することに非常に限られています。しかし、代わりに数行で書かれた非常に単純なソーティングアルゴリズム、おそらく2つのネストされたループだけで、任意のリストを処理できます。なぜなら、それは抽象的で、ルールのセットだからです。
ディープラーニングは本当に、勾配降下法で学習された点ごとの幾何学的変形です。一方、抽象的なルールははるかに優れた一般化ができます。私は、将来はこの2つを組み合わせることだと考えています。
では、どのようにしてツールを組み合わせればいいでしょうか？点ごとの優れた関数とプログラム（シンボリックAIタイプのシステム）をどのように組み合わせればいいでしょうか？どのレベルで組み合わせが起こるのでしょうか？もちろん、ここには良い答えはなく、アイデアと直感しかないことは分かっています。
今日の本当に成功しているAIシステムを見ると、それらはすでにシンボリックAIとディープラーニングを組み合わせたハイブリッドシステムだと思います。例えば、成功しているロボティクスシステムは、すでに主にモデルベース、ルールベースのものです。計画アルゴリズムのようなものです。同時に、知覚モジュールとしてディープラーニングを使用しています。時には、ルールベースのプロセスにファジーな直感を注入する方法としてディープラーニングを使用しています。
自動運転車のようなシステムを見ると、それは1つの大きなエンドツーエンドのニューラルネットワークではありません。それはまったく機能しないでしょう。なぜなら、そのようなものをトレーニングするには、運転に関する経験空間の密なサンプリングが必要で、それは完全に非現実的だからです。
代わりに、自動運転車は主にシンボリックです。手作業でプログラムされたソフトウェアです。主に明示的なモデル、この場合は主に車の周囲の環境の3Dモデルに基づいています。しかし、ディープラーニングモジュールを使用して実世界とインターフェースしています。
そうですね。そこでは、ディープラーニングが生の感覚情報をシンボリックシステムが使用可能なものに変換する方法として機能しているわけですね。
入力から出力への密なサンプリングは明らかに非常に難しいと言われました。自動運転の場合、自動運転自体は多くの人にとって許可問題ですが、自動運転について話すのではなく、ステアリングについて話しましょう。車線内に留まり、車線に沿って進むことは、確かに推論と計画モデルで解決できる問題ですが、それは1つの小さなサブセットに過ぎません。
いや、あなたはあまりにも簡単に極端なケースに飛んでいますね。車線追従が解決できるということは明白ではないと思います。
そうですね、それは明白ではありません。一般的に、ディープニューラルネットワークで学習できることに厳密な制限はないと思います。探索空間が十分に豊かで柔軟であり、入力と出力の空間の密なサンプリングがある限りは可能です。問題は、この密なサンプリングが10,000例から数兆、数京例まで、何を意味するかということです。
それが私の質問です。あなたの直感として、膨大な量のデータを取得し、それによって密なマッピングを作成することで解決できる問題の種類について、考えを聞かせてください。
自然言語対話、チューリングテストについて考えてみましょう。チューリングテストはニューラルネットワークだけで解決できると思いますか？
チューリングテストは、人々に特定の人間だと信じ込ませることが全てです。それはそれほど難しくないと思います。なぜなら、それは人間の知覚を利用することであり、実際の知能とはそれほど関係がないからです。知的な行動を模倣することと、実際の知的な行動の間には大きな違いがあります。
では、模倣よりも、20分間楽しい会話を維持するような自然言語会話を見てみましょう。それはまだ模倣ですが、対話で起こるすべての接線を扱いながら会話を進める能力がより必要です。この問題は、点と点のマッピングを行うこのタイプのニューラルネットワークで学習可能だと思いますか？
ディープラーニングでこれを行うのは非常に難しいと思います。しかし、それが不可能だとは思いません。大規模なニューラルネットワークで解決できる問題の空間を排除することはないでしょう。
それらの問題の空間についてどう感じますか？理論的には無限ですね。実際には、知覚問題全般に対してディープラーニングは素晴らしく適しています。明示的な手作業のルールや、プログラム空間の網羅的な検索で生成できるルールに自然に還元できない問題であれば、十分なトレーニングデータがある限り適しています。
知覚や直感に関しては、それで十分です。それが問題です。知覚には解釈と理解が含まれます。これは現在のシステムの手の届かないところにあるように見えます。より大きなネットワークがシーンの物理学、3次元構造、オブジェクト間の関係などを理解し始めることができると思いますか？それとも、そこでシンボリックAIが介入する必要があるのでしょうか？
ディープラーニングでこれらの問題を解決することは常に可能ですが、非常に非効率的です。明示的なルールベースの抽象モデルは、物理学のはるかに効率的で圧縮された表現になるでしょう。「この状況ではこれが起こる、状況をわずかに変えるとこれが起こる」というようなマッピングを学習するよりも効率的です。
世界について真実である論理的ステートメントとその関係を自動的に学習することは可能だと思いますか？つまり、エキスパートシステムが失敗したところです。世界に関する多くの事実を手動でコード化する必要がありました。基本的なレベルでは、定理証明がそれを試みているのではないでしょうか？
はい、ただし数学的ステートメントを形式化するのに比べて、世界に関するステートメントを形式化するのははるかに難しいです。世界に関するステートメントは主観的になりがちです。
ルールベースのモデルを学習することはできますか？
はい、確かにできます。これはプログラム合成の分野です。しかし、今日、私たちはそれを本当にどうやって行うかわかっていません。それは非常に難しい研究問題です。今日、私たちは限られた種類の探索アルゴリズムしか持っていません。個人的には、遺伝的アルゴリズムが非常に有望だと思います。
遺伝的プログラミングですね。プログラム合成の分野について議論できますか？どのくらいの人がそれに取り組み、考えているのでしょうか？プログラム合成の歴史のどこにいるのでしょうか？それに対するあなたの希望は何ですか？
ディープラーニングで言えば、90年代のようなものです。つまり、すでに既存の解決策があり、これが何についてのものかという基本的な理解を持ち始めていますが、まだ初期段階にあります。非常に少ない人々しか取り組んでおらず、実世界のアプリケーションもほとんどありません。
私が知っている唯一の実世界のアプリケーションは、Excelのフラッシュフィルです。これは、いくつかの例から、Excelスプレッドシートのセルをフォーマットするための非常に単純なプログラムを自動的に学習する方法です。例えば、日付から曜日を学習するなどです。
それは興味深いですね。Excelにいくつかのサンプルを提供したとき、それが何を理解できるのかをいつも不思議に思っていました。数日間の日付を与えただけで、パターンから何を理解できるのか。それは非常に興味深い質問です。そして、彼らがそれに取り組んでいるというのは興味深いですね。
現在のツールボックスはどの程度のものですか？私たちは完全に暗闇の中にいるのでしょうか？
プログラム合成に関しては90年代と言いましたが、それでも楽観的すぎるかもしれません。90年代には、すでにディープラーニングのエンジンを理解していました。今日のプログラム合成に関しては、まだエンジンを見つけていないと思います。
つまり、バックプロパゲーション以前の冬の時期にいるということですね。
はい、その通りです。プログラム合成一般、そしてルールベースモデル上の離散探索は、次の世紀のAI研究の礎石になると信じています。
これは、ディープラーニングを捨てるという意味ではありません。ディープラーニングは非常に有用です。大量のデータから統計を学習する、つまりパターン認識が得意なこの非常に柔軟で適応性のあるパラメトリックモデルは、非常に強力です。
ですので、私たちはまだディープラーニングに取り組み続けるでしょう。プログラム合成にも取り組み、そして両者をますます自動化された方法で組み合わせていくでしょう。
データについて少し話しましょう。あなたは次のようにツイートしました。「1万本のディープラーニング論文が、特定のタスクに関する事前知識をニューラルネットワークアーキテクチャにハードコーディングすることについて書かれている。事前知識がないよりも良い結果が出る」これらの努力を要約すると、アーキテクチャに名前をつけていますが、実際にはタスク情報をアーキテクチャに注入することで性能を「買う」ことができるということですね。
そうです、そのとおりです。
あなたは、より多くのデータ、より良いデータでトレーニングするか、前処理によってタスク情報をアーキテクチャに注入することで、常に「性能を買う」ことができると言っています。しかし、これは使用されている技術の一般化力、つまり基本的な一般化能力についての情報を提供するものではありません。
この種の「ごまかし」のためのより良い方法を考え出すことで、遠くまで行けると思いますか？つまり、データの大規模なアノテーションのより良い方法について聞いています。私の見方では、これはあまり研究されていないように思えます。
実際、かなり研究されています。ただし、論文としては発表されていません。なぜなら、論文を発表する人々は新しいベンチマークについて発表し、時には新しいベンチマークを導入します。実際の大規模な依存関係を持つ人々は、データアノテーションに多くのリソースを費やし、データアノテーションパイプラインを構築しますが、それについての論文は発表しません。
なるほど、興味深いですね。確かにリソースはありますが、イノベーションが起こっていると思いますか？
ツイートの要点を明確にしましょう。機械学習一般は、一般化の科学です。異なるデータセット、異なるタスクにわたって再利用できる知識を生成したいのです。代わりに、1つのデータセットを見て、そのタスクに関する知識をアーキテクチャにハードコーディングしているのであれば、それはもはや有用ではありません。ネットワークをトレーニングして「これらの重み値がうまく機能することがわかった」と言うのと同じくらい役に立ちません。
デイビッド・ハ（David Ha）が最近発表した重み不可知ニューラルネットワークに関する論文を知っていますか？これは非常に興味深い論文です。なぜなら、重みがなくても、アーキテクチャ自体がタスクに関する知識を符号化していることを示しているからです。
研究者によって手作業で作成されたアーキテクチャの場合、それらが行っていることは、特定のデータセットに対応する適切な解決方法のテンプレートを人工的に再エンコードしているだけであることが非常に明確な場合があります。
例えば、BABI（Basic AI）データセットを見たことがありますか？これは自然言語の質問応答に関するものです。質問と回答のペアがアルゴリズムによって生成されています。アルゴリズムは特定のテンプレートに従っています。このテンプレートを文字通りエンコードするネットワークを作成すると、このデータセットをほぼ100%の精度で解くことができます。しかし、それは一般的な質問応答の解決方法について何も教えてくれません。それが要点です。
少し立ち止まって考えてみましょう。データ側から、ネットワークのサイズから、リッチ・サットンの「苦い教訓」というブログ記事を読んだことがありますか？彼は言います。「70年のAI研究から読み取れる最大の教訓は、計算力を活用する一般的な方法が最終的に最も効果的だということです」。効果的に一般化できる方法を見つけるのではなく、計算力を活用するだけの方法で相当遠くまで行けると思いますか？
はい、リッチは非常に良い指摘をしています。タスクに関する事前知識を手動でシステムにハードコーディングすることに関する多くの論文は - ディープラーニングアーキテクチャである必要はありませんが、何らかのシステムに - 実際には何の影響も与えていません。代わりに、長期的な影響を与えているのは、これらのトリックに依存しない非常にシンプルで一般的なシステムです。なぜなら、これらのトリックは一般化しないからです。
もちろん、集中すべき1つの一般的でシンプルなことは、計算力を活用することです。なぜなら、大規模な計算力の利用可能性はムーアの法則に従って指数関数的に増加してきたからです。あなたのアルゴリズムがこれを利用することに関するものであれば、あなたのアルゴリズムは突然指数関数的に改善されるのです。
リッチは確かに正しいと思います。過去70年について正しいのです。過去70年を振り返っています。しかし、この評価が次の70年についても当てはまるかどうかは確信が持てません。ある程度は当てはまるかもしれませんが、完全には当てはまらないと思います。なぜなら、彼の評価の真実性は、その研究が行われた文脈の関数だからです。そしてその文脈は変化しています。
例えば、将来的にムーアの法則がもはや適用されなくなるかもしれません。システムの1つの側面を利用すると、他の側面がボトルネックになり始めると信じています。無制限の計算力があるとしましょう。その場合、データがボトルネックになります。そして、私たちはすでにそのような体制に入り始めていると思います。私たちのシステムは非常に大規模であり、データに非常に依存しています。今日、データの規模と品質がボトルネックになっています。
この環境では、リッチの「苦い教訓」はもはや当てはまらなくなるでしょう。
そうですね。つまり、私たちは計算力の規模への焦点から、データ効率への焦点に移行するということですね。
データ効率、そうです。これは、シンボリックAIの質問につながります。ディープラーニングのアプローチに戻りますが、教師なし学習や強化学習に期待していますか？これらは人間のアノテーションを必要とするデータ量の観点からより効率的なデータの使用方法です。
教師なし学習と強化学習は学習のフレームワークですが、特定の技術ではありません。通常、人々が強化学習と言うとき、彼らが本当に意味しているのは深層強化学習です。これは1つのアプローチですが、実際にはあまり問題がありません。
私が尋ねていたのは、ディープニューラルネットワークを用いた教師なし学習と深層強化学習についてです。
はい、これらは実際にはデータ効率的ではありません。なぜなら、まだこの巨大なパラメトリックモデルを点ごとに訓練しているからです。確かに、アノテーションの密度の観点からは効率的です。つまり、データが構成される潜在空間を学習し、その後でスパースなアノテーションをそこにマッピングするのです。
確かに、それは非常に良いアイデアです。私自身はそのトピックに取り組むことはないでしょうが、非常に良いアイデアです。ラベル付きデータ効率の観点から、いくつかの問題を解決し、段階的な改善をもたらすでしょう。
AIからの短期的または長期的な脅威について懸念はありますか？
はい、確かにある程度あります。
それらの懸念はどのような形をしていますか？
これは実際に私が簡単に書いたことがありますが、ディープラーニング技術の能力は多くの懸念すべき方法で使用される可能性があります。顔認識など、大規模な監視から始まり、一般的に言えば、誰もについて大量のデータを追跡し、そのデータを理解して識別や予測を行うことができます。これは懸念すべきことです。これは、中国のような全体主義国家によって非常に積極的に追求されています。
私が非常に懸念していることの1つは、私たちの生活がますますオンラインになり、デジタル化されていることです。情報消費と情報生産で構成されるデジタルフットプリントです。もしあなたがこのすべてのデータを吸収し、情報を消費する場所をコントロールしている場合 - ソーシャルネットワークやレコメンデーションエンジンなど - 人間の行動に対する一種の強化学習ループを構築することができます。
時間Tにおけるあなたの心の状態を観察し、異なるコンテンツにどのように反応するかを予測し、あなたの心をある方向に動かす方法を予測できます。そして、あなたを特定の方向に動かすための特定のコンテンツを提供することができます。これを規模で行うことができます。つまり、リアルタイムで継続的に行うことができ、また多くの人々、全人口に対して行うこともできます。
したがって、人工知能は現在の状態でも、インターネットと組み合わせ、私たちの生活がデジタルデバイスやデジタル情報の消費と作成に移行していることと組み合わせると、行動の大規模な操作と大規模な心理的コントロールを達成する可能性があります。これは非常に現実的な可能性です。
つまり、YouTubeのアルゴリズムやFacebook、次に見るべきコンテンツを推奨する任意のレコメンダーシステムについて話しているのですね。
人間の行動のいくつかの側面を、例えば「この人は共和党の信念を持っているか、民主党の信念を持っているか」という問題として考えることができるのは興味深いですね。これは些細な目的関数で、最適化して測定することができます。そして、全員を共和党員に、あるいは全員を民主党員に変えることができるのです。
はい、そう信じています。人間の心を一種のコンピュータプログラムとして見ると、それは非常に大きな攻撃面を持っています。多くの脆弱性、多くの方法でそれをコントロールすることができます。
例えば、政治的信念に関しては、これはあなたのアイデンティティと非常に密接に関連しています。例えば、あなたのお気に入りのソーシャルメディアプラットフォームでニュースフィードをコントロールしている場合、これは実際にあなたがニュースを得ている場所です。もちろん、特定の方法で世界を見させるニュースだけを表示することができます。
また、いくつかの政治的信念についての投稿をするインセンティブを作り出すこともできます。そして、あなたが声明を表現したとき、私がコントローラーとしてあなたに強化したい声明であれば、同意する人々だけにそれを表示することができます。彼らはそれに「いいね」をし、それがあなたの心の中でその声明を強化します。
一方、あなたに放棄してほしい声明であれば、反対者に表示することができます。彼らはあなたを攻撃し、少なくとも次回はその投稿について二度考えるでしょう。あるいは、反発を受けたため、その信念を持つことをやめるかもしれません。
このように、ソーシャルメディアプラットフォームがあなたの意見をコントロールする方法は多くあります。今日、これらのすべてのものはすでにアルゴリズムによって制御されています。これらのアルゴリズムは今のところ明示的な政治的目標を持っていません。しかし、潜在的には、全体主義政府がソーシャルメディアプラットフォームを掌握し、この知識を大規模な監視だけでなく、大規模な意見形成や行動制御にも使用することを決定すれば、非常に悪いことが起こる可能性があります。
実際に興味深く、そして懸念すべきことは、明示的な操作の意図がなくても、これらのコンテンツ推奨アルゴリズムの振る舞いにすでに非常に危険な動向が見られることです。現在、これらのアルゴリズムの目的関数はエンゲージメントを最大化することです。これは一見無害に見えますが、そうではありません。
なぜなら、あなたを最大限にエンゲージさせる、つまり感情的な反応を引き起こし、クリックさせるコンテンツは、多くの場合、公共の言論にとって健全ではないからです。例えば、フェイクニュースは、現実に制約されていないため、実際のニュースよりもクリックされる可能性が高いのです。フェイクニュースは、望むだけ突拍子もなく、驚くべき、良いストーリーにすることができます。人工的だからです。
私にとって、それは興奮する世界です。なぜなら、多くの良いことが生まれる可能性があるからです。人々を教育し、人々の世界観を他のアイデアでバランスを取ることができます。より良い文明を作り出す目的関数の空間は広く、おそらく無限です。しかし、分断と破壊、内戦、多くの悪いことを引き起こす空間も大きいです。
自然な懸念は、おそらくその空間の方が大きいということです。そして、異なる目的関数から観察される効果について明示的に考えなければ、問題に陥る可能性があります。しかし、問題は、どうやってこれらの部屋に入り、議論を行うかです。Google、Facebook、Twitter内で、エンゲージメントを高めながら、同時に良い社会を作るにはどうすればいいのかを考えることは可能でしょうか？そのような哲学的な議論をすることは可能でしょうか？
私の観点からは、これらのニュースフィードアルゴリズムをコントロールしている企業が、たとえ意図が良くても、人々の意見や行動を明示的に操作する決定をすることに非常に不快を感じます。なぜなら、それは非常に全体主義的な考え方だからです。
代わりに、私が見たいのは - おそらく実現することはないでしょうが、私が気にかけていることです - これらのアルゴリズムがユーザーに設定オプションを提示することです。ユーザーが、この情報推奨・コンテンツ推奨アルゴリズムによってどのように影響を受けたいかを決定できるようにすることです。
例えば、YouTubeやTwitterのようなものを使用しているユーザーとして、特定のトピックについて学ぶことを最大化したいかもしれません。つまり、アルゴリズムに私の好奇心を満たしてほしいのです。これ自体が非常に興味深い問題です。エンゲージメントを最大化する代わりに、私がどれだけ速く、どれだけ多く学んでいるかを最大化します。また、学んでいる情報の正確さも考慮に入れます。
ユーザーが、これらのアルゴリズムが自分の人生にどのように影響を与えるかを正確に決定できるべきです。実際、私はどの団体も私をどの方向に操作しようとするかを決定することを望みません。私は技術を望みます。AIやこれらのアルゴリズムは、ますます情報で構成される世界とのインターフェースになっていくでしょう。そして、私は誰もが自分の条件でこの世界とインターフェースできるようにしたいのです。
誰かが個人的な成長目標のためにこれらのアルゴリズムを使用したい場合、そのようにアルゴリズムを設定できるべきです。
しかし、明示的な決定を下すのは痛いことですが、根底にある明示的な決定があります。これは私たちが持っている最も美しい基本的な哲学の一つです。個人の成長です。「学べる動画を見たい」というチェックボックスがあった場合、学習を促進するアルゴリズムには明示的な決定が含まれています。私にとって学習とは何を意味するのでしょうか？
例えば、私は地球平面説のドキュメンタリーを見ました。多くのことを学び、見て良かったと思います。友人に勧められたのですが、私の同僚のように狂った人々にアレルギー反応を示すわけではありません。それは非常に目から鱗が落ちるような体験でした。他の人にとっては、そうではないかもしれません。他の人々は単にそれに反発するかもしれません。共和党員や民主党員についても同じことが言えます。
学習を促進するとは何を意味するのか、これは些細な問題ではありません。まず、うまく行えば、YouTubeやTwitterが促進しないようなことではないと思います。ただ、人々にコントロールを与えるという、本当に難しい問題なのです。
それは主にインターフェース設計の問題です。あなたがメンターやコーチ、アシスタントのような技術を作りたいという意味です。あなたのボスではありません。あなたがそれをコントロールし、あなたが何をしてほしいかを伝えます。もし操作されていると感じたら、それは実際にあなたの望むことをしていないのです。別のアルゴリズムに切り替えることができるべきです。
その微調整されたコントロールを一種学び、人間との協力を信頼するのですね。私は自動運転車もそのように見ています。できるだけ多くの情報を与え、自分でそのダンスを学ぶのです。
はい。私はAdobeの製品、Photoshopなどを使用しませんが、彼らはYouTubeをインターフェースに組み込もうとしています。基本的に、機能について混乱している人全員に動画を表示できるようにしています。つまり、情報の基本的な要素として動画をユーザーに表示するアシスタントです。
では、これらのアルゴリズムの乱用や私たちを操作するアルゴリズムと戦うために、人々は実際に何をすべきでしょうか？
これは非常に難しい問題です。なぜなら、これらの問題に対する公衆の認識がほとんどないからです。ニュースフィードアルゴリズムに何か問題があるとは考えない人がほとんどです。しかし、実際には問題があります。すでに問題があるのです。それは純粋にエンゲージメントを最大化しようとしているからです。これは非常に悪い副作用があります。
理想的には、まず、純粋にエンゲージメントを最大化しようとするのをやめることです。人気に基づいてコンテンツを広めようとするのをやめることです。代わりに、各ユーザーの目標とプロフィールを考慮に入れてください。
一例を挙げると、Twitterの推奨タグを見るとき - ニュースタブがあり、そこに推奨があります - それは常に最悪のゴミです。なぜなら、それはすべてのTwitterユーザーの最小公倍数に訴えるコンテンツだからです。彼らは純粋に人気とエンゲージメントを最適化しようとしているからです。しかし、それは私が望むものではありません。
彼らは私に何らかの設定のコントロールを与え、Twitterが従う目的関数を定義できるようにすべきです。そして正直に言えば、これはすべてインターフェース設計の問題です。一連のノブでアルゴリズムをコントロールさせるのは現実的ではありません。代わりに、目的関数を定義する権限をユーザーに与えるべきです。ユーザーに何を達成したいか、このアルゴリズムに自分の人生にどのような影響を与えてほしいかを教えてもらうべきです。
それとも、Spotifyのような記事ごとのフィードバック構造を提供し、「これを見て良かった」や「これを見なくて良かった」といった信号を与えるのがいいでしょうか？
ある程度は機能しますが、私はそれについてやや懐疑的です。なぜなら、アルゴリズムはあなたの選択を他の全ての人の選択と関連付けようとするからです。平均的なプロフィールを持っていれば問題ありませんが、そうでない場合は最適ではありません。あなたを代表するSpotifyの世界の部分を効率的に検索することができません。
これは難しい問題ですが、Spotifyが持っているようなフィードバックシステムでさえ、アルゴリズムが最適化しようとしているものをコントロールすることはできないことに注意してください。
公衆の認識を高めることは良いスタートですね。それは今私たちがやっていることです。人工知能からの長期的な実存的脅威について懸念はありますか？
先ほど言ったように、私たちの世界はますます情報で構成されるようになっています。アルゴリズムはますますこの情報の世界とのインターフェースになるでしょう。そして誰かがこれらのアルゴリズムをコントロールすることになります。これは私たちを非常に悪い状況に置きます。潜在的に大企業が自社の目標、おそらく利益や他のものを最適化しようとするリスクがあります。また、政府がこれらのアルゴリズムを人口のコントロール手段として使用しようとするリスクもあります。
そこから実存的な脅威が生じる可能性があると思いますか？実存的な脅威とは、シンギュラリティのナラティブやロボットが支配権を握るということではありません。
ターミネーターのようなロボットではありません。シンギュラリティである必要はありません。あなたが言ったように、AIアルゴリズムが大衆をコントロールすることで、私たち自身を傷つける可能性があります。核戦争が私たち自身を傷つけるのと同じようにです。
はい、そのような懸念すべき傾向があることに同意します。正直なところ、長期的な予測をしたくありません。今日、私たちには50年後、100年後の危険を本当に見る能力はないと思います。しかし、具体的で現在の危険にすでに直面していることは確かです。コンテンツ推奨システムやニュースフィードアルゴリズムの負の副作用は懸念すべきです。アルゴリズムのバイアスも同様です。
私たちはますます多くの意思決定プロセスをアルゴリズムに委ねています。これらのアルゴリズムの一部は手作業で作られ、一部はデータから学習されています。しかし、私たちはコントロールを委譲しています。時にはそれが良いことであり、時には良くないこともあります。一般的に、このプロセスにはほとんど監督がありません。
私たちはまだ、社会が情報社会に再構築され、ますます自動化された情報処理社会に変わっていく、非常に急速な変化とカオスの時期にいます。今日私たちにできる最善のことは、これらの問題に対する認識を高めようとすることだと思います。実際、良い進歩を遂げていると思います。
例えば、アルゴリズムのバイアスを見てみましょう。3年前、わずか3年前でさえ、それについて話す人はほとんどいませんでした。今では、大企業の全てがそれについて話しています。必ずしも非常に真剣な方法ではありませんが、少なくとも公の議論の一部になっています。議会でそれについて話す人々を見ることができます。そしてそれは全て、認識を高めることから始まったのです。
アライメント問題について、人間の価値観や道徳的決定を含む倫理に触れるような決定をアルゴリズムに教える際、ニューラルネットワークの損失関数に人間の道徳の何らかのファジーな要素を持つことはどれほど難しいと思いますか？
これは本当に目的関数エンジニアリングに関するものだと思います。おそらく、今後ますます関心のトピックになるでしょう。今のところ、私たちは非常にナイーブな損失関数を使用しています。なぜなら、難しい部分は実際に最小化しようとしているものではなく、他の全てのことだからです。
しかし、他の全てのことがますます自動化されるにつれて、私たちの人間の注意はますます高レベルのコンポーネント、つまり学習システム全体を駆動しているもの、目的関数に焦点を当てることになるでしょう。
損失関数エンジニアリングは、おそらく将来的に職名になるでしょう。そして、あなたがKerasで作成しているツールは、基本的に下にある全ての詳細を処理し、人間の専門家はまさにその損失関数エンジニアとして必要とされます。収集しているデータとビジネス目標の間のインターフェースです。エンジニアとしてのあなたの仕事は、ビジネス目標とビジネスやプロダクト、システムの理解を一種の損失関数や制約のセットとして表現することになります。
AGI（汎用人工知能）システムを作る可能性は、あなたを興奮させますか、怖がらせますか、それとも退屈させますか？
知能は決して一般的にはなり得ません。せいぜい、人間の知能のようにある程度の一般性を持つことができます。それも常に何らかの専門性があります。人間の知能は特定のカテゴリーの問題、人間の経験に特化しています。
人々がAGIについて話すとき、私は彼らが非常に賢いAI、人間よりも賢いAIのことを話しているのか、それとも人間のような知能のことを話しているのか、常に確信が持てません。なぜならそれらは全く異なるものだからです。
仮に、今日あなたが私の人間らしさに感銘を受けているとしましょう。実は私がロボットだったとしたらどうでしょうか。それは何を意味するのでしょうか？おそらく、自然言語処理で私があなたに感銘を与えているということです。もしあなたが私を見ることができなければ、これが電話だとしたら。
そうですね、コンパニオンですね。
つまり、それは非常に人間のようなAIを構築することについてです。そして、あなたは私に「これは興奮する見通しですか？」と尋ねています。
はい、そう思います。人間のような人工知能が何をできるかということではなく、知的な観点から見て、もし本当に人間のような知能を構築できれば、それは人間の知能を実際に理解できるということを意味し、それは魅力的です。
人間のような知能には感情が必要になります。意識も必要になります。これらは通常、知的システムに必要とされるものではありません。例えば、超人的な問題解決エージェントである科学には、意識も感情もありません。
一般的に、感情は意識のスペクトルの一部だと私は考えています。それは行動生成を導くための主観的経験の一部です。人間の知能や動物の知能は、行動生成の目的で進化してきました。社会的文脈も含めてです。だからこそ、私たちには実際に感情が必要なのです。だからこそ、意識が必要なのです。
異なる文脈で開発された人工知能システムは、それらを必要としないかもしれません。決して意識を持つことはないかもしれません。
その時点で、科学を生物として見た場合、科学に意識の痕跡があると想像することは可能だと私は主張します。科学が意識を持っているということです。
しかし、この仮説をどのようにテストしますか？科学のような抽象的なシステムの主観的経験をどのように探るのでしょうか？
主観的経験を探ることは不可能です。なぜなら、私は科学ではなく、レックスだからです。私は他の存在の主観的経験を探ることはできません。それは私の皮膚上のバクテリアが私、レックスを探ることができないのと同じです。
私はあなたに主観的経験について質問することができ、あなたは答えることができます。そうやって私はあなたが意識を持っていることを知るのです。
はい、しかしそれはあなたが同じ言語を話すからです。おそらく私たちは科学の言語を話す必要があります。
私は、意識が - 痛みや喜びの感情と同様に - 十分に知的な情報処理から不可避的に生じるものではないと考えています。それは心の特徴であり、明示的に実装していなければ存在しません。
つまり、あなたはそれが特定のアーキテクチャから生まれる特徴だと考えているのですね。シンプソンズの意味での特徴だと思いますか？
そうですね。繰り返しますが、主観的経験は行動を導くためのものです。あなたが解決しようとしている問題が、社会的文脈の中で具体化されたエージェントが目標を生成し追求することを本当に必要としないのであれば、そして科学でそれが起こっているとしても、それは人工知能の一形態であり、問題を解決し、知識を生み出し、解決策を作り出すコミュニティの形態ですが、主観的経験を明示的に実装し、特定の感情を実装し、意識を実装していなければ、それらが自然に現れることはないでしょう。
では、人間のような知能を持つシステムで、意識を持つシステムについて、それは体を持つ必要があると思いますか？
確かにそうですね。物理的な体である必要はありません。現実世界のシミュレーションとの間にそれほど大きな違いはありません。
何かを保存する必要があるということですね。
はい、人間のような知能は人間のような文脈でのみ生まれることができます。他の人間との相互作用、人間のような知能を持っていることを示すためには本質的にそうです。
では、人間のような知能を示すためにはどのようなテストや実証が十分だと思いますか？ちなみに、定理証明やプログラム合成に関して、良いベンチマークがないと書いていましたね。それは問題の1つです。
プログラム合成について考えてみましょう。人間のような知能にも関連する質問だと思います。プログラム合成や人間のような知能のための良いベンチマークは何だと想像しますか？両方について。
実際に2つの質問をしていますね。1つは人工システムの知能を定量化し、人間の知能と比較することについて、もう1つはこの知能がどの程度人間らしいかということについてです。これは2つの異なる質問です。
以前言及したチューリングテストを見てみると、実際にはチューリングテストが好きではありません。なぜなら、それは非常に怠惰だからです。知能を定義し測定する問題を完全に回避し、代わりに人間の審判または審判団に委ねているのです。これは完全な逃げ道です。
エージェントがどれだけ人間らしいかを測定したい場合、他の人間と相互作用させる必要があります。必ずしもこれらの他の人間が審判である必要はありません。単に行動を観察し、人間が実際にどうしたかと比較すればいいのです。
エージェントがどれだけ賢いか、巧みかを測定し、それを人間の知能のレベルと比較する場合、すでに2つのことについて話していることに注意してください。知能の大きさ、つまりベクトルのノルムと、その方向です。方向は人間らしさで、ノルムは知能と呼べるものです。
人間らしい方向の空間は非常に狭いというのがあなたの感覚ですね。
そうです。システムの知能の大きさを、人間の知能と比較できるような方法で測定するには、今日の知能のさまざまなベンチマークを見ると、特定のタスクでのスキルに焦点を当てすぎています。チェスをプレイするスキル、囲碁をプレイするスキル、Dudaをプレイするスキルなどです。
私はそれが正しいアプローチだとは思いません。なぜなら、1つの特定のタスクで人間を上回ることは常に可能だからです。囲碁をプレイするスキルや、ジャグリング、あるいは何であれ私たちのスキルが印象的なのは、私たちがある制約の中でそのスキルを表現しているからです。
制約を取り除いて、つまり1つの人生、この体を持つという制約を取り除いて、文脈を取り除いて、無制限のトレーニングデータを持ち、例えばジャグリングを見てみると、ハードウェアに制限がなければ、任意のレベルのスキルを達成することは非常に興味深いものではありません。それは達成された知能の量について何も語りません。
知能を測定したい場合、知能が何であるかを厳密に定義する必要があります。これ自体が非常に難しい問題です。
それは可能だと思いますか？知能を定義することは。
はい、絶対に可能です。多くの人が定義を提供しています。私自身も定義を持っています。
あなたの定義はどこから始まりますか？終わりはないかもしれませんが。
私は、知能は本質的に、経験を一般化可能なプログラムに変換する効率だと考えています。
つまり、経験空間のサンプリングを、より大きな経験空間のチャンクを処理する能力に変換する効率です。
スキルの測定は1つの代用となり得ます。多くの管理タスクは知能を測定する1つの代用となり得ますが、スキルだけを測定したい場合、2つのことをコントロールする必要があります。システムが持つ経験の量と、システムが持つ事前知識をコントロールする必要があります。
2つのエージェントを見て、同じ事前知識を与え、同じ量の経験を与えた場合、1つのエージェントがより大きな経験空間のチャンクでうまく機能するプログラム、表現、何か、モデルを学習するでしょう。そしてそれがより賢いエージェントです。
これは非常に興味深く、知能の非常にクリーンな定義ですね。ちなみに、この定義では、知能が専門化されていなければならないことがすでに非常に明白です。なぜなら、経験空間について話し、経験空間のセグメントについて話し、事前知識について話し、経験について話しているからです。これらすべてのことが、知能が現れる文脈を定義しています。経験空間の全体を見ることは決してできません。
そうですね。しかし、経験空間が十分に大きければ、それが一般的に感じられ、一般的に見えるポイントがあります。
確かに、人間の知能は一般的だと多くの人が言うでしょう。実際には、それはかなり専門化されています。確かに、人間が生まれたときに持つのと同じ生得的な事前知識から始めるシステムを構築することができます。なぜなら、私たちはすでに人間として持っている事前知識がどのようなものかをかなりよく理解しているからです。
多くの人がこの問題に取り組んできました。最も注目すべきはエリザベス・スペルケ（Elizabeth Spelke）でしょう。ハーバード大学の彼女の研究を知っていますか？彼女の仕事は、私たちが「コア知識」と呼ぶものについてのものです。これは、私たちが生まれたときに持っている事前知識、言語スキルなどを決定し、記述しようとすることに非常に関係しています。
実際、過去数年間、ベンチマークに取り組んできました。いつか発表できることを願っています。事前知識をコントロールし、経験の量をコントロールし、人間が生まれたときに持つのと同じ事前知識を想定することで、システムの知能を測定するベンチマークです。そうすることで、このスコアを実際に人間の知能と比較することができ、人間に同じテストを公平な方法で受けさせることができます。
重要なのは、そのようなベンチマークは、練習をしてもスコアが上がらないようなものでなければなりません。どれだけこのゲームをプレイしても、そのゲームでのスキルが変わらないようなゲームを想像できますか？
練習を深く尊重する人間として、実際にはできません。
そうですね。それは簡単なトリックがあります。測定できるのはタスクでのスキルだけですから、すべてのタスクは事前知識を含むことになります。トリックは、それらがどこにあるかを知り、それを記述することです。そして、これが人間が持つのと同じ事前知識のセットであることを確認します。
つまり、この事前知識を明示的に想定するタスクを作成し、正確にこの事前知識を文書化します。他の事前知識は含まれません。そして、このタスクのための経験空間から一定数のサンプルを生成します。これは1つのタスクで、エージェントにとってそのタスクが新しいものであると仮定します。
そして、これを多数のタスクに拡張することができます。各タスクはエージェントにとって新しいものでなければなりません。スイッチも人間が解釈可能なものでなければなりません。また、人間にも同じテストを受けさせることができ、機械のスコアと人間のスコアを比較することができます。
化学者などの特定のタスクでも、人間が同じテストを受けることができますね。
問題は、人間はすでに数字を認識するようにトレーニングされていることです。しかし、数字ではない完全に任意のパターンを考えてみましょう。人間はすでに視覚的な事前知識を持っており、それを処理する方法を知っています。
したがって、ゲームを公平にするためには、これらの事前知識を分離し、記述し、計算ルールとして表現する必要があります。
視覚科学の人々と多く仕事をしてきた私としては、それは非常に難しいプロセスだと思います。人間の視覚をいくつかの良い事前知識に還元する良いテストがたくさんありますが、それを完璧に行うにはまだ程遠いでしょう。しかし、ベンチマークの出発点としては興味深い可能性がありますね。
そうですね。実際、スペルケは「物体性」をコア知識の事前知識の1つとしてリストアップしています。
物体性、凝集性ですね。
はい。私たちは物体性、視覚空間、時間、目標指向の行動をする主体などについての事前知識を持っています。多くの異なる事前知識がありますが、興味深いのは、確かに私たちは多様で豊かな事前知識のセットを持っていますが、それほど多様ではないということです。
私たちは、世界についての膨大な知識を持ってこの世界に生まれてくるわけではありません。小さなセットのコア知識だけを持っています。私たち人間にとっては、そのセットはそれほど大きくないように感じますが、時間の性質など、私たちの知覚や推論のすべてを効果的に統合しているものの性質をどのように簡単にコード化できるかについて、あなたの感覚はどうですか？
おそらく、宇宙と人間の脳を構築する必要があるでしょうか？それともそれらの事前知識をリストアップできると期待していますか？エリザベス・スペルケのように。
そうは思いません。世界について私たちが生まれたときに持っている知識は、進化によって私たちのDNAにエンコードされたものであることを覚えておく必要があります。DNAは非常に帯域幅の低いメディアです。DNAに何かをエンコードするのは非常に長く、コストがかかります。
まず、この書き込みプロセスを導く何らかの進化圧力が必要です。そして、高レベルの情報をエンコードしようとすればするほど、時間がかかります。そして、エンコードしようとしている環境の情報は、この期間にわたって安定している必要があります。
DNAにエンコードできるのは、進化的利点を構成するものだけです。これは、世界についての可能なすべての知識の非常に小さなサブセットです。数百万年にわたって真実であり続けるものだけをエンコードできます。
例えば、私たちはヘビの形について何らかの視覚的な事前知識を持っているかもしれません。顔を構成するもの、顔と非顔の違いについても知識があります。しかし、ここで興味深い質問があります。私たちは男性の顔と女性の顔の視覚的な違いについて、生まれつきの感覚を持っていると思いますか？
人間については、性別が進化した時期まで遡る必要がありますが、はい、たいていの場合、人間の顔は類人猿の顔とはかなり異なります。
そうですね、おそらくチンパンジーの雌の顔と雄の顔を区別することはできないでしょう。
人類に特化した知識をDNAにエンコードすることは実際には不可能です。なぜなら、その情報が世界に現れたのはごく最近のことだからです。DNAに知識をエンコードするプロセスの遅さを考えると。
これは、DNAが低帯域幅で、エンコードに長い時間がかかるという非常に強力な議論ですね。それは自然に非常に効率的なエンコーディングを作り出しますが、したがって...
この重要な結果の1つは、私たちがこの世界に生まれたときに持っている知識、時には高レベルの知識 - ヘビのおおよその形や顔のおおよその形など - のほとんどすべてが、私たちのいとこである類人猿と共有されているということです。
実際には、この生得的な知識が私たちを特別にしているわけではありません。しかし、あなたの議論を投げ返すと、そのエンコーディングには、ある程度地球の環境全体が含まれている可能性があります。生存と繁殖に重要なもの、つまり進化圧力があるもの、そして非常に非常に長期にわたって安定した定数であるものを含むことができます。
正直なところ、それはそれほど多くの情報ではありません。帯域幅の制約と書き込みプロセスの制約の他に、メモリの制約もあります。人間の脳を扱うDNAの部分は実際にはとても小さいのです。数メガバイトのオーダーです。世界についての高レベルの知識をそれほど多くエンコードすることはできません。
素晴らしく、ベンチマークに対して希望が持てますね。あなたが言及していた、事前知識をエンコードするベンチマークです。数年でできるかどうか懐疑的ですが、楽しみにしています。
正直なところ、これは非常にシンプルなベンチマークで、大きなブレークスルーではありません。むしろ楽しいサイドプロジェクトのようなものです。
これらの楽しいサイドプロジェクトが、ImageNetのように、推論システムの作成に向けた全グループの努力を開始する可能性があります。そして、はい、それは魅力的です。強い一般化、抽象化の強さを測定しようとしています。
現在、私たちの心は魚の容器の中にいるようなものです。そして、この科学という生物について真実があるとすれば、その個々の細胞は競争を愛するということです。ベンチマークは競争を促進します。それは興奮する可能性がありますね。
AIの冬が来ると思いますか？そしてそれをどのように防ぐことができますか？
実際にはそうは思いません。AIの冬は、AIの能力をどのように売り込んでいるかと、AIの実際の能力との間に大きな不一致がある場合に起こるものです。今日、ディープラーニングは多くの価値を生み出しており、これからも多くの価値を生み出し続けるでしょう。これらのモデルは、今日書かれている非常に広範な問題に適用可能であり、それらの問題を解決できるあらゆる問題にアルゴリズムを適用し始めたばかりです。
ディープラーニングはしばらくの間、価値を生み出し続けるでしょう。しかし、懸念されるのは、ディープラーニングと人工知能全般について多くの誇大宣伝があることです。多くの人々がこれらのシステムの能力を過大評価しています。能力だけでなく、これらの技術が多かれ少なかれ脳のようであるという事実も過大評価しています。これらの技術に一種の神秘的な側面を与えています。
また、進歩のペースも過大評価しています。指数関数的に増加する論文の数があるように見えるかもしれませんが、それは単に分野に参入する人が増えているという単純な結果に過ぎません。進歩が実際に指数関数的に速いということではありません。
例えば、スタートアップや研究室の資金を調達しようとしている場合、投資家に壮大な物語を語りたくなるかもしれません。ディープラーニングが脳のようであり、自動運転やロボティクスなどの信じられないほどの問題を解決できると言うかもしれません。そして、分野の進歩が非常に速く、15年以内、あるいは10年以内にAGIを手に入れるだろうと言うかもしれません。
これらはすべて真実ではありません。投資家や意思決定者がこれらのことを信じるたびに、あなたは信頼のクレジットカード債務を積み上げているようなものです。おそらく、これによって多くの資金を調達することができるでしょうが、最終的には私たちの分野に損害を与えています。
これが懸念です。そしてこれがAIの冬が起こる理由です。先日、自動運転車について話していましたね。これは、AIの能力と進歩のペースを過大評価することの結果の良い例です。
特にこの分野で最近多く仕事をしているので、すべての企業が2021年または2022年までに完全な自動運転車を持つと約束したときに何が起こるかについて深い懸念を持っています。これらの企業が数十億ドルを投資した後に会議を開き、「実際に自動運転車を持っているか？」という質問をする際の結果について深く懸念しています。答えは間違いなく「いいえ」でしょう。次に「待って、10億、20億、30億、40億ドルを投資したのに、利益は全く出ていない」となるでしょう。
その反応は、他の産業にも影響を与える可能性のある別の方向に非常に強く向かう可能性があります。これが私たちがAIの冬と呼ぶものです。誰もこれらの約束をもはや信じなくなったとき、最初にそれらが大きな嘘だったことがわかったからです。
これは自動運転車については間違いなく起こるでしょう。なぜなら、公衆や意思決定者は2015年頃、これらのスタートアップの資金を調達しようとしていた人々によって、レベル5の自動運転が来ると確信させられたからです。おそらく2016年か2017年、もしかしたら2018年だと。今は2019年ですが、まだ待っています。
完全なAIの冬が来るとは信じていません。なぜなら、これらの技術は膨大な価値を生み出しているからです。しかし、誇大宣伝も多すぎるので、一部で反動があるでしょう。特に、AGIの夢を売ろうとしているスタートアップがあります。AGIが無限の価値を生み出すという事実も。AGIはフリーランチのようなものです。IQや何かの特定の閾値を超えるAIシステムを開発できれば、突然無限の価値が得られるというわけです。
実際に、多くの投資家がこのアイデアを信じています。彼らは待つでしょう。おそらく10年か15年待って、何も起こらないでしょう。そして次の機会には、おそらく次世代の投資家は誰も気にしないでしょう。結局のところ、人間の記憶は非常に短いのです。
私はどうかわかりませんが、AGIについて時折詩的に語ることがあります。そのため、多くのメールを受け取ります。通常、AGIシステムを作成したと言う人や、AGIの作り方を知っていると言う人からの長い宣言書のようなものです。
それは簡単だったんですね。彼らはAIシステムによって生成されたように感じることがよくあります。
まさにそうです。あなたは変圧器を使って、これに関するクランク論文を生成しているのかもしれませんね。
そうですね、質問は、クランク論文を見分けるのが得意なあなたですが、彼らが何かを見逃していないかどうかをどうやって知るのでしょうか。AGIや推論のベンチマークなど、ベンチマークがないものについて話し始めると、本当に難しくなります。
ジェフ・ホーキンスと話しましたが、彼は神経科学的アプローチを探っています。少なくとも彼の場合、本当に興味深いアイデアのエコーがあります。通常、このようなことをどう考えていますか？ディープラーニングは特定のベンチマークで機能する必要があり、そうでなければゴミだという考えに対して、自分が狭量でエリート主義的になりすぎないようにするにはどうすればいいでしょうか。
知能は抽象的に存在するものではありません。知能は適用されるものです。ベンチマークがない場合、何らかのベンチマークでの改善を示さない限り、おそらく新しいベンチマークかもしれませんが、以前に見たことのないものかもしれません。しかし、解決しようとしている問題が必要です。
一般的知能についても、明らかに一般化を強調しましたが、知的システムを主張したい場合、それはベンチマークとともに来るべきです。はい、何らかの形で能力を示すべきです。何らかの形の価値を生み出すことを示すべきです。非常に人工的な形の価値であっても構いません。
それはまた、潜在的に有効な論文と実際に有用な論文を区別する必要がない理由でもあります。なぜなら、新しい技術が実際に価値を生み出している場合、それはすぐに明らかになるからです。それは実際に違いを生み出しているからです。
結局のところ、単に効果的なものと実際に有用なものを区別することが私たちの指針となります。この分野だけでなく、科学一般を見ても同じです。おそらく、長年にわたって本当に興味深い統一理論を持っていた人々はたくさんいたでしょう。しかし、それらは完全に無用でした。興味深い理論と有用な理論を区別する必要はありません。何かが実際に他のものに影響を与えているか、実際に有用か、影響を与えているかを見るだけでいいのです。
素晴らしい表現ですね。量子力学、string理論、ホログラフィック原理にも同じことが言えますね。私たちがディープラーニングを行っているのは、それが機能するからです。以前は、ニューラルネットワークに取り組んでいる人々をクランクとみなしていました。誰も取り組んでいませんでしたからね。しかし今、それは機能しています。正しいかどうかではなく、効果的かどうかが重要なのです。
しかし、それでも個々の主体として、ヨシュア・ベンジオやヤン・ルカンのように、クランクと呼ばれても信念を貫き通すことが重要です。個々の主体として、たとえ皆に笑われても、自分が何かを持っていると信じるなら、それを追求し続けるべきです。
それは素晴らしい励ましのメッセージで締めくくりですね。まず、今日話してくれてありがとうございました。素晴らしい会話でした。
ありがとうございました。

この記事が気に入ったらサポートをしてみませんか？

フランソワ・ショレ: Keras、ディープラーニング、そして AI の進歩 | レックス・フリッドマン ポッドキャスト #38

フランソワ・ショレ: Keras、ディープラーニング、そして AI の進歩 | レックス・フリッドマンポッドキャスト #38