イリヤ・サツケヴァー | ディープラーニングの理論はAIの開発において大きな進歩を遂げた

2024年8月25日 21:27

では、ディープラーニングが好きな理由、この分野が哲学的に非常に満足できると感じる理由について、そしてなぜこれほどうまく機能するのかについて、あまり広く知られていない説明を試みたいと思います。
ディープラーニングがうまく機能する理由は、仮説クラスにあります。機械学習で何かを学習しようとする場合、関数についていくつかの自明でない事前の仮定を設定する必要があります。ディープラーニングで行う事前の仮定は、回路を持つということです。回路は学習するのに適した対象です。非常に深い回路があれば、多くの複雑な計算を行うことができます。あまり知られていない事実ですが、わずか2つの隠れ層を持つ適度なサイズのニューラルネットワークでも、NNビットの数値をソートすることができます。つまり、仮説クラスは非常に強力でありながら、多くのパラメータを必要としないのです。
ディープラーニングに関する本当に驚くべき事実は、私たちが実際にこれらの回路をデータからグラデント降下法で自動的に見つけ出せるということです。これはすべての理論に反しており、回路上のグラデント降下法はあらゆる期待を上回りました。これは経験的な事実であり、本当に驚くべきことです。
ディープラーニングについて興味深いもう1つの点は、少なくとも知覚に関しては、ディープラーニングが成功すると予測できた議論があったということです。その議論は次のようなものです。私たちの視覚や聴覚を少し内省してみると、非常に速く物事を見たり聞いたりできることに気づきます。何かを見るのに1秒もかからずに何であるかがわかります。しかし、私たちのニューロンはとても遅く、1秒間に多くても100回しか発火しません。通常はもっと少ないです。
これは、視覚や音声、そして専門家の知覚などのプロセスが、多くのステップを必要としない非常に並列的なプロセスであることを示唆しています。つまり、非常に大規模なディープニューラルネットワークのようなものです。そこで問題は、私たちが手に入れられる最大のコンピュータで、できる限り大きなニューラルネットワークを訓練し、どれだけうまくいくかを確認することです。そして、多くのタスクに十分なほどうまくいくことがわかりました。
ディープラーニングについて興味深いもう1つの点は、これらのモデルがとても理解しにくいことです。例えば視覚を考えてみましょう。私自身の経験を言えば、視覚を解決できるコンピュータプログラムとはどのようなものかを考えたとき、それは理解不可能な問題でした。どのようなコード、どのようなコンピュータコードがそれを可能にするのでしょうか。
もし知覚の問題が本当に理解しがたいものだと仮定し、ニューラルネットワークも本当に理解しがたいものだと気づくなら、それは実際にかなり良いことです。理解不可能な問題に対して理解不可能な解決策を見つけたということだからです。私たちは自然選択による進化とのアナロジーを作ることができます。学習のプロセスと同様に、自然選択による生物学的進化についても、私たちはかなり良い理解を持っています。結果がどうなるかについてある程度の予測ができます。生物学的生物がどのように機能するかを理解するのは非常に難しいですが、同様のことがここでも見られると思います。
最後に強調したい重要なことがあります。それはコンピュート能力です。コンピュート能力はディープラーニングの原動力となってきました。よく考えてみれば、それは完全に理にかなっています。90年代初頭に人々がニューラルネットに興奮していたときのことを思い出してみましょう。彼らは「バックプロパゲーションを発見したぞ、すべてを解決できるぞ」と言っていました。しかし、当時のコンピュータはとても小さく、14個のニューロンしか持たないニューラルネットしか訓練できませんでした。機械学習アルゴリズムがどれほど優れていても、それを設定した人々がどれほど賢くても、問題を解決することはできません。成功は不可能だったのです。
しかし今、コンピュータの動作が速くなりました。GPUがあります。新しいNVIDIA GPUは100テラフロップスの性能を持っています。信じられますか？1つのGPUで100テラフロップスです。これはかなり良い性能です。今では大きなネットワークを訓練でき、より多くのことができるようになりました。
未来に対して多くの興奮を感じる理由は、ムーアの法則は終わったかもしれませんが、私たちのラップトップはあまり速くなっていないものの、ニューラルネットワークのハードウェアは非常に活発で、そこでの進歩は非常に急速で刺激的だからです。今後数年の間に、本当に想像もつかないほど高速なコンピュータが登場し、それによって想像もつかないほどの、非常に刺激的な進歩が見られるだろうと期待しています。
要するに、多くのことが可能です。ニューラルネットワークが機能する理由は、それらが回路であり、最良の回路を見つけることはかなり良いことだからです。さらに、人間を見て、人間が1秒未満で解決できるタスクを観察し、そこから大規模なニューラルネットワークが解決できるタスクの種類について推論することができます。コンピュート能力が全体を動かしており、より多くのコンピュート能力がより良い、より驚くべきアプリケーションをもたらすでしょう。
ニューラルネットの仮説クラスについて、私が同意する1つの点は、それが単なる回路にすぎないということです。最終的な仮説クラスはプログラムです。最良のプログラムを見つけることができれば、本当に完成です。まだ最良のプログラムを見つけることはできませんが、うまくいけば、これらのモデルを少し操作して、何らかの形でコンピュータプログラムに非常に近いものを生成できるようになるかもしれません。
以上です。ありがとうございました。
最後に発表するのは常に難しいですね。同僚たちがほとんど私の言いたいことをすべて言ってしまったので。でも、休憩前に皆さんを楽しませるよう最善を尽くしてみます。
まず、ニューラルネットのブレイクスルーについて再度強調したいと思います。実際に興味深いのは、ここで技術的なブレイクスルーについて話しているわけではないということです。突然、以前にはなかった驚くべき新しいアルゴリズムが登場したわけではありません。確かに、訓練をより良くするためのアルゴリズム的なトリックがいくつかありましたが、過去25年以上の間に根本的な変化はありませんでした。
では、なぜ私たちはここにいるのでしょうか？なぜディープラーニング、あるいは今ではAIと呼び直されているもののブレイクスルーについて話しているのでしょうか？スチュアートのような人々の失望を招いているのですが。
一緒になったのは、これらのアルゴリズム的なトリック、大量のラベル付き訓練データの利用可能性（例えばImageNetのようなもの）、そしてアーシャが言及したより優れたハードウェアです。これらが実際に大規模にこれらのモデルを訓練することを可能にしました。
忘れてはいけないのは、大学院生たちの懸命な努力です。アレックス・クリジェフスキーのような人々が、コンピュータビジョンで本当に印象的な結果を示し、その後分野が変わったのです。全コミュニティにこれらのモデルに注目すべきだと納得させたのは、非常に印象的です。
では、なぜブレイクスルーについて話しているのでしょうか？本当の理由は、これらのシステムが、以前は機械学習が影響を与えるとは考えられていなかった領域でアプリケーションを可能にしたからだと思います。医療であれ、交通であれ、考えられる中で最も退屈なアプリケーションであれ、機械学習、AI、ディープラーニングがほぼどこにでも見られるようになりました。
そして興味深いのは、マイクが言っていたように、時にはモデルを構築して物事を偽装することができ、それでも問題ありません。ページのランキングを完璧に行わなくても構いません。多くのことをこの方法で済ませることができます。
しかし、私は自動運転車の分野で働いています。これは重要な安全性に関わるアプリケーションです。偽装することはできません。システムが堅牢で、間違った決定をしないことを確実にしなければなりません。これは実際にニューラルネットにとって非常に挑戦的です。
例えば、1つの問題は、不確実性をうまくモデル化できないことです。99%の確率で車がそこにあると伝えてきますが、間違っている場合でも同じように伝えてきます。ほとんどの場合は正しいのですが、間違っている場合、例えば自動運転の場合には本当に問題になります。高速道路で時速120キロメートル（マイルに換算するとどのくらいになるかわかりませんが）で走行中に、突然ブレーキをかけ始めるようなシステムを構築することはできません。
これは、私たちが考えるべき問題だと思います。また、これはニューラルネットのより良い理論的理解にもつながります。誤差の信頼区間を持つことができるでしょうか？そしてこれに基づいて、堅牢なシステムを構築できるでしょうか？
もう1つ興味深いことは、同僚たちが指摘していないことですが、ディープラーニングのアプリケーションが急増している今、法律がテクノロジーの進歩に追いつくかどうかということです。自動運転車はその一例です。私たちはこれらを展開する準備ができているでしょうか？準備ができるでしょうか？そして、それが私たち一人一人の利益になるようにするために何を変える必要があるでしょうか？
これは通常、学術環境では考えないことですが、私たちの技術が産業に大きな影響を与えるまでになった今、本当に考える必要があると思います。
他に重要だと思うことは、スチュアートが言及したことですが、ニューラルネットワークや伝統的なニューラルネットワークでは、モデリングや事前知識、世界をより解釈可能な方法でエンコードする方法について忘れがちだということです。再び、知覚はその典型的な例の1つです。そこには事前知識を組み込み、良いモデルを組み込むための多くの余地があります。同時に、これらの表現を学習することもできます。なぜなら、例えばピクセルの良い抽象化がないからです。
グラフィカルモデルとニューラルネットワーク、そしてこれらがどのように結びつくかを考えることは、コミュニティにとって非常に興味深い方向性だと思います。
また指摘したいのは、ディープラーニングを使う人が増えるにつれ、教育について考える必要があるということです。人々は自分たちが使っているテクノロジーの基礎を理解しているでしょうか？典型的な例は公平性です。人々がクラウドにあるモデルを使って、自分たちのデータでシステムを訓練する際、そのシステムにバイアスが存在する可能性があることを理解しているでしょうか？そして、私たちの日常生活に影響を与えるアプリケーションにこれらを展開する際、おそらく公平ではない、特定の人口セグメントに不適切な影響を与える可能性のある決定を下す可能性があることを理解しているでしょうか？
これは、教育者として本当に考えるべきことだと思います。人々がこれらのモデルができること、できないこと、そして潜在的な注意点を理解していることを確認する方法を考える必要があります。
最後に、ポジティブな考えで終わりたいと思います。多くのネガティブなことを言ったかもしれませんが、私にとってディープラーニングの未来はどこにあるのかということについて少し話したいと思います。アプリケーションについて、自動運転車は本当に刺激的な分野の1つにすぎません。交通は、より賢い都市を実現するための第一歩にすぎません。私たちの都市は成長し、どんどん大きくなっています。それに伴って多くの問題が発生しており、機械学習は私たちがより良い生活を送るのに本当に役立つと思います。
これについて考えてみると、例えば自動運転車は命を救うことができます。世界中で年間120万人が交通事故で亡くなっています。これは非常に高い数字です。私たちは渋滞や汚染を減らすことができます。ある研究によると、必要な車の数は現在の10分の1になると言われています。しかし、単にテクノロジーを構築するだけでなく、そのテクノロジーの使い方についても考える必要があります。もし私たち一人一人が個別に自動運転車を使うなら、地球の役には立ちません。それは正しい方向ではありません。公共交通機関やカーシェアリング、ライドシェアリングについて考える必要があります。
そして、これは交通だけの問題ではありません。私たちが持っているすべてのものについて同じことが言えます。私たちの地球には限りある資源があります。新しいテクノロジーがどのように私たちを助け、世界をすべての人が平等な場所にすることができるかについて考える必要があります。
[拍手]
では、パネリストの皆さんからこれまでに得た内容を要約することから議論を始めたいと思います。ディープラーニングに深く関わっている人々が、これらの技術の限界を認識していることを嬉しく思います。彼らはそれをツールとして特徴づけています。人間レベルのAIではなく、他のツールとの文脈で使用されるべきツールです。
しかし、理論家としての立場から、もし認識しているのであれば、機械学習の能力の境界についてより明確な定義を求めたいと思います。私が概説した境界、つまり分布から介入的な質問へ、そしてカウンターファクチュアルへの移行が、あなた方が懸念している境界なのでしょうか？それとも、それ以上の何かがあるのでしょうか？
私の単純な考えでは、機械学習をサンプルから分布へと導くツールとして見ています。そして、実際の知能に至るまでにはさらに2つのステップがあります。1つは実験、もう1つはカウンターファクチュアルです。世界をこのように分割することは正しいのでしょうか？それとも、あなた方が懸念していることとは全く関係ないのでしょうか？これが私の質問です。
私が思うに、大きな問題は不確実性下での意思決定です。AからBへのマッピングを見つけることは、その小さな一部分にすぎません。はい、カウンターファクチュアルや何が起こり得るかについて心配する必要があります。実際に機能していないこと、機能する可能性があることについての展開を考える必要があります。経済的な問題も考慮しなければなりません。
例えば、私が今関わっているような、生産者と消費者を結びつける新しい市場を創造することについて考えてみましょう。音楽の例を挙げると、音楽を聴くのが大好きな人々と、音楽を作るのが好きな人々がたくさんいますが、誰もそこからお金を稼いでいません。しかし、すべてのデータがあれば、彼らを結びつけ、各ミュージシャンに誰が彼らを好きかを知らせることができます。これは膨大な計算とデータ分析、予測が出会い、並行して多くの決定が行われるものです。
そして、決定を下す際には、必ず因果関係の側面を考慮する必要があります。何かを動かしても効果がない場合、実際にアクションを起こすことはできません。環境をコントロールすることはできません。なぜ皆が学習の部分をここに、決定の部分をここに、カウンターファクチュアルをここに、複数の代替案をテストすることをここに分離するのでしょうか？それはすべて統合されたシステム思考の一部です。
また、AIに取り組む上での魅力の1つであり、課題でもあることを指摘したいと思います。それは、私たち文明は認知、つまり人間の認知とは何かについてほとんど理解していないということです。これは実際にAIの重要な姉妹分野です。そのため、ある意味で私たちはお互いに刺激を与え、学び合っていますが、両方とも本当に始まったばかりです。
境界について話すとき、人間の認知とは何かについての明確な定義さえ知りません。人間の知能とは何かについても。しかし、ディープラーニングやニューラルネットワークのような人工物については、それらは私たちが作り出したものなので、分析して境界を導き出すのはずっと簡単です。私たちはそこにいるでしょうか？
おそらく1つ注目すべき点は、ニューラルネットワークはバックプロパゲーションを使用しているということです。これは微積分の連鎖律を使って戻り、すべてのパラメータをあらゆる場所で変更します。これはモジュラーではありません。エンドツーエンドの考え方です。システムのある部分でエラーが出て、それをすべてに戻して小さな変更を加えます。これはコンピュータサイエンスのモジュール性や物事を分離して保つという考え方とは相反するものです。
これは私たちが直面しなければならない事実です。最高のパフォーマンスを発揮するこれらのシステムは、あまりモジュール化されておらず、理解しにくく、診断しにくいシステムを作り出すということです。これは一方が正しくて他方が間違っているということではありません。ただ、パフォーマンスと説明可能性にはトレードオフがあるという問題に直面しなければならないということです。
また、人間が世界をどのように考えるかを考えてみると、私たちは本当に一部を他の部分から分離していません。ここにあるものがあそこにあるものに影響を与えることがあり、私たちはそれを受け入れています。そのため、物事をシンプルにモジュールで保つことは、データから学習し、そこにあるすべての可能性を考慮に入れる本当の学習システムの一部として、徐々に手放さなければならないかもしれません。
2つのコメントがあります。1つ目はモジュール性について、2つ目は限界と分野の進歩をどのように考えるかについてです。
モジュール性に関するコメントは気に入りました。そこにはニュアンスがあると思います。私たちが学習する最終的なシステムは通常あまりモジュール化されていない傾向がありますが、今では素晴らしいブロックを持っており、それらを組み合わせて望むようなニューラルネットワークを作ることができます。入力側でどんなデータ形式でも、出力側でもほぼどんなデータ形式でも使用でき、すべてを設定すればシステムが機能するのは本当に便利です。
興味深いのは、これらのさまざまなアプリケーションがすべて同じ一連のアルゴリズム的構成要素、同じ一連のアイデアによって駆動されているということです。これは、誰かが進歩を遂げるたびに、その進歩がアルゴリズムのレベルで起こり、1つのアプリケーションだけでなく、一般的にすべてのアプリケーションで可能性の境界を押し広げる可能性があるということを意味します。
確かに、現在はある種の境界が存在しますが、それらは少し曖昧で、まだ押し広げられています。現在のアイデアのセットだけで、ニュアンスを除外して、どこまで行けるかを判断するのは難しいと思います。
AlphaGoを見るのは教訓的だと思います。AlphaGoが地球上のすべての人間を圧倒しているという事実に皆が非常に感銘を受けていますが、それはしばしばディープラーニングシステムとして描写されています。しかし、実際にはそうではありません。それは非常に古典的なシステムです。アーサー・サミュエルによって容易に理解されるでしょう。本質的には、1957年のアーサー・サミュエルのシステムの改良版です。
いくつかのコンポーネントがあり、ディープラーニングの部分はそのうちの1つ、おそらく2つのコンポーネントにすぎません。おそらく最も重要なコンポーネントは、AlphaGoが囲碁のルールを知っているという事実です。つまり、任意の位置で合法的な手が何かを知っており、それぞれの合法的な手が実行されたときに次の状態がどうなるかを知っています。
これが領域の因果理論です。ユジェンの指摘に戻ると、領域の因果理論が手書きでC++か何かで書かれているということです。学習されていません。学習部分はおそらく機能しないでしょう。
推移的閉包を含んでいます。なぜなら、囲碁の石の生死は他のすべての囲碁の石との接続性に依存しているからです。そのため、推移的閉包があり、これは固定深さの回路では難しいことです。
潜在的にはルールを学習することもできますが、再び実験によってです。しかし実際には、素晴らしい表現力のあるプログラミング言語を使ってそれらのルールを書く方が遥かに簡単だとわかりました。ご存じのように、囲碁のルールはほぼ盤面全体で翻訳不変であり、また時間不変です。
そして、未来の可能性を探索する前方探索があります。これもまた、少なくともアリストテレスにまで遡る非常に古典的なアイデアです。おそらくそれ以前からあるかもしれません。
これは、今後私たちがシステムを構築する方法の象徴的なものだと思います。エンドツーエンドだけではありません。文字通りエンドツーエンドのディープラーニングの囲碁のアイデアを真剣に受け止めるなら、何百万もの囲碁の盤面を取り、何らかの専門家プログラムや人間の囲碁マスターによって行われた手を取り、盤面から手へのマッピングを行うポリシーを訓練しなければなりません。
しかし、それはそのように機能しません。私たちの知る限り、まだうまく機能しません。人々はバックギャモンでそのアプローチを試みましたが、うまくいきませんでした。チェスではまったく機能しません。
そのため、決定問題をその基本的な要素に分解することが重要です。領域の遷移モデル、時間の中で前方を見る能力、遷移モデルをどのように表現し、何をするかについてのモジュール化された知識、これらの要素が重要だと思います。
これは学習と無関係ではありません。しかし、私がここで導入しようとしていたのは、AlphaGoは人間からアドバイスを受け入れることができるかということです。「そうすべきではなかった、この手を打っていればもっと良かったのに」というようなアドバイスを理解できるでしょうか？それともそのようなアドバイスを理解するには全く新しいアーキテクチャが必要でしょうか？これが私の質問です。
それはアーキテクチャの問題ではなく、解決すべき問題です。スチュアートが話しているように、AlphaGoをプログラムとして書いた場合、多くのモンテカルロロールアウトを行い、ポリシーを構築し、そのようなシステムを構築します。現在、これを行う基礎となる技術は強化学習です。少し愚かに試行錯誤を行いますが、それを扱いやすくするためのスマートなエンジニアリングがあります。
強化学習には見習い学習と呼ばれるものがあります。これは強化学習の別の部分で、人間からアドバイスを受け取ったり、人間が行っているのを観察して学習したりします。これはすべて大きなツールボックスの一部です。何かができるかできないかのアーキテクチャを構築しているわけではありません。エンジニアとして座って、「ヘリコプターを飛ばしたい」や「囲碁をしたい」と言い、そのためのシステムを構築するのです。
私たちはそれらすべてを行う単一のデバイスを構築しているわけではありません。おそらく500年後にはそうなるかもしれませんが、今のところ私たちの分野のエンジニアリングの側面を発展させる必要があります。システムの目標は何か、どのような保証があるか、そしてどのようにシステムを構築するかを考えるのです。私たちはまだそこから遠く離れています。現実的になり、システム思考の方法を考える必要があります。
私にとって、機械学習は数学とシステム思考が組み合わさったものです。それが未来だと思います。
スチュアートとマイクの言っていることに同意します。ディープラーニングがすべての問題を解決し、何でも学習できると考えるべきではありません。確かに非常に高い能力を持っていますが、それでもその解決策に到達できる必要があります。
例えば、画像を入力して操舵角を出力するデモを作ることはできます。それはデモとしては上手くいきますが、常に機能し、ミスを犯したときにはその理由を説明できなければならないという最終的なタスクを解決することはできません。
そのため、モデリングと相互作用する必要があります。同時に、ニューラルネットワークのコンポーネントを学習する際には、システム全体を意識している必要があります。これが全体の難しい部分です。
他にコメントがなければ、聴衆からの質問を受け付けたいと思います。
質問がないようですね。教育について言及がありましたが、最も重要な進歩を遂げるために、私たちは何を教えるべきか、あるいは自分たちで何を学ぶべきでしょうか？
ニューラルネットワークのクラスで何を教えるかについてコメントがあります。私はスタンフォードで770人の学生を対象に、最大規模のニューラルネットワークのクラスを教え終わったところです。
私たちはニューラルネットワーク、微積分、連鎖律、テイラー展開、バックプロパゲーションを教えます。そして、ニューラルネットワークについて真実でないことは何かを教えます。情報は世界で起こり得ないことです。ですので、ニューラルネットワークについて、もう1層加えても真実ではないことは何でしょうか？
このような発言について1つ言えることは、この発言は回路に関する質問に関連しているということです。ニューラルネットワークは特定の限られたサイズの回路です。その質問は、特定のサイズの回路が何をできないかという質問に関連しています。
理論側にいる私たちは、これらの質問に答えるのが非常に難しいことを知っています。これはまさに、何ができて何ができないかの正確な境界を描くのが非常に難しい理由です。多くの実験が行われており、しばしば何かができると思っていても、後で誰かがそれができることを発見することがあります。
はい、私は現在AIの教科書を書き直しています。ディープラーニングをどのように組み込むかを考えているのですが、本当に問題があります。現在、ビジョンの章がありますが、イアン・グッドフェローがディープラーニングの章を書いています。ビジョンの章は単に「第19章を参照」と言うだけになるのではないかと思います。
そして、音声認識のセクションもあります。これも「第19章を参照」となるでしょう。これは私を心配させます。なぜなら、そうすると本当に音声を理解していないからです。音声へのアプローチが「大量の音声データを取得してディープラーニングシステムを訓練する」というものであり、ビジョンへのアプローチが「大量のビジョンデータを取得してディープラーニングシステムを訓練する」というものであれば、学生に対して本当に短絡的だと思います。
音声の問題がどのように言語と関連しているか、音声がどのように生成されるか、音の構造などを理解せずにいるのです。ビジョンについても同じことが言えます。
そのため、これらの分野の核心的な内容をどのように維持するかを本当に苦心して考えています。現実には、現在最高の音声認識システムはエンドツーエンドのディープラーニングで、内部構造をほとんど持たないという事実があります。
以前教えていた隠れマルコフモデルや音響モデル、ガウス混合モデルなどのすべてのものは、実際には廃れてしまいました。これが問題です。
ビジョンの章を書く良い執筆者がいることを願っています。なぜなら、それはまさに私たちが研究室でやっていることだからです。ビジョンで何ができないかについて話します。3Dビジョンの理解全体、オブジェクト認識でさえ、画像認識のために多くの人がビジョンを解決したと考えていますが、それは全く真実ではありません。
私たちは皆、ビジョンのオープンな問題が何かを知っています。オブジェクト自体を理解していません。その部分、関係性、アフォーダンス、どのように操作できるか、テクスチャ、あらゆる種類の変異に対する変換などです。
これは、特にディープラーニングの誇大宣伝の時代には、非常に重要な議論と分析だと思います。
ありがとうございます。ボランティアしていただけますか？
カリキュラム全般について、ディープラーニングだけでなく、コンピュータサイエンスのカリキュラムについて簡単にコメントする機会を取りたいと思います。より多くの統計的な、私が推論的思考と呼ぶものを導入する必要があると思います。
計算的思考に対するカウンターバランスは推論的思考です。産業界でよく行われるABテストを行う場合、次に何が起こるか、データの背後に何があるかを考えようとします。これは推論的思考の一形態です。
エラーバーや信頼区間は、起こり得たが実際には起こらなかったことですが、それに対して自分を守る必要があります。コンピュータサイエンスの学生の多くがこれらの概念を見ることがありません。
彼女が話していることを実行する1つの方法は、クラウドです。1回だけでなく、並行して100回実行することで、エラーバーを得ることができます。これは、コンピュータサイエンスで考える方法と推論的思考のニーズの自然なマッチングです。
コンピュータサイエンスのカリキュラムを根本から見直し、これらの概念を導入し始める必要があると本当に思います。コンピュータサイエンスのカリキュラム全体を通して、少し確率を見るかもしれませんが、本当の推論をほとんど見ることはありません。これは本当に変える必要があると思います。
これは、ニューラルネットなどを教える際に私が教えることです。それはより大きな統計的意思決定と推論の一部だと言います。
はい、もう1つコメントがあります。ニューラルネットワークのクラスは、機械学習とは何か、そして機械学習の文脈でニューラルネットワークとは何かから始めるべきだと思います。より大きな視点を持つことを確認し、残念ながら多くの場所で起こっているように、単にディープラーニングだけではないことを確認することが非常に重要です。
私の質問の選択が悪かったことをお詫びします。手書きの読みやすさに影響を受けてしまいました。ここに読めるものがあります。
人々はどのようにして、そしてなぜディープラーニングシステムが下す決定を信頼すべきでしょうか？彼らはどのように期待できるでしょうか？いずれにせよ、ディープラーニングシステムによる推奨をなぜ信頼すべきでしょうか？
これにより、私が好きな別のテーマを持ち出すことができます。それはデータベースです。この学習スタイルをデータベースの考え方から切り離すことはできません。例えば、データベースの人々はデータのプロビナンス（出所）について話します。そのデータポイントがどこから来たのかを追跡できる必要があります。そのデータに基づいて訓練されたボックスが行う推論を信頼する前に、そのデータの出所を知る必要があります。
医療の意思決定では、常にこのようなことが起こります。データはある時代に収集され、それに基づいて学習または統計システムが構築されます。そして10年後、機械が変わっているかもしれないのに、その推論システムがまだ使用されています。つまり、データが実際には古くなっているのです。
このようなプロビナンスを考慮に入れたシステムを構築しない限り、「この推論を信頼できるのは、それがディープラーニングシステムだからではなく、このデータとこのデータから来たからです。そしてそれがあなたの推論を関連性のあるものにしています」と言えるようなシステムを構築しない限り、本当に信頼できる全体的なシステムを構築していることにはなりません。
私たちは、人間もしばしば決定を下すのが非常に下手で、さらにその理由を説明するのはもっと下手だということを考えるべきだと思います。私たちは機械に対してもかなり厳しいです。同じ基準を適用すべきです。
ここに質問があります。メンタルモデリングの問題について議論できますか？次の部分が読めませんでした。「壊れた電話をどのように修理するか」という質問に対して、実際に電話を壊さずに答えることができますか？誰かコメントしたい人はいますか？
私は、環境のメンタル表現を持つ能力について言及しました。これはホモ・サピエンスの計算能力における最大のブレイクスルーの1つです。はい、環境の因果的表現があれば、物理的に行う前に頭の中でそれを操作できるはずです。これがメンタル表現を持つ大きな利点です。
これは、ニューラルネットワークには見られない要素の1つです。明らかに、これは取り組むべき課題です。
はい、もう1つの質問があります。ニューラルネットワークの専門化についてです。今日私たちが見つけているのは、機械学習システムが専門化されているということです。汎用機械学習AIを追求することは本当に価値があると思いますか？
それについて少し言えることがあります。特殊目的対より汎用的なアプローチについてですが、これは本当に私たちが解決しようとしている問題に依存します。私たちが解決しようとしている多くの問題は確かにかなり専門的なものであり、そのような問題に対しては可能な限り専門化されたアプローチを使用すべきです。
しかし、より野心的な目標とより野心的なシステムに目を向けるにつれて、例えば自動化された数学者を考えてみましょう。このようなシステムは、かなり狭い何かを行うシステムよりもかなり汎用的である必要があると思います。
今日ではあまり目に見えませんが、私たちのコンピュータが必然的にかなり速くなるにつれて、少なくともそのようなシステムを設計することが可能になると思います。正しい経験を与えれば、望むことを行うことができると信じられるようなシステムです。
汎用性の問題について他に誰かコメントはありますか？
私は、常に自分自身に悪魔の代弁者の役割を果たすというアプローチを取るべきだと思います。「OK、私は他のものよりも汎用的だと思われるものを構築した。それはどこで破綻するか？」と自問自答するのです。
例えば、DeepMindのDQNシステムを考えてみましょう。これはある程度汎用的で、ゲームが提供する視覚入力のみから幅広いビデオゲームをプレイすることを学習します。これは汎用AIに向けた最初の例の1つとして挙げられています。ドライビングゲーム、ピンポンゲーム、迷路などをプレイします。
もし赤ちゃんが生まれてから2時間で超人的なレベルでそれらのゲームをプレイすることを学んだら、かなり恐ろしいことでしょう。しかし、実際にそのテクニックが一般化するかどうかを考えてみると、システムが扱える時間ステップの数は、報酬の時間スケール、行動の利益を実現する時間スケールなどの観点から、数十程度です。
これを人間の物理的行動に翻訳し、私たちが操作するスケールを考えると、何ヶ月も前に会議に行くことを決定し、会議自体が何億もの物理的行動からなり、数十億または数兆の物理的行動のスケールで決定を下すことがあります。このアプローチはそこまでスケールアップできません。機能しないのです。破綻してしまいます。
そこで、「その障壁を乗り越えるために何ができるだろうか」と考える必要があります。しかし、そのような障壁は無限にあるわけではありません。私たちは最終的にそれらを乗り越えていくでしょう。

この記事が気に入ったらサポートをしてみませんか？