見出し画像

イリヤ・サツケヴァー | OpenAIはAGIの安全な境界線を構築しなければならない | AIは人間に有害であってはならない

それでは、OpenAIから始めましょう。私たちの目標は、安全なAGIを構築し、それが有益であり、その利益が広く分配されることを確実にすることです。AGIについて考えるとき、私たちはそれが持つべきいくつかの要素を特定しました。例えば、シミュレーションの中で難しい目標を達成できること、シミュレーションで学んだスキルを外部に持ち出せること、優れた世界モデルを学習できること、そして安全性や展開に関する問題に取り組むことが不可欠です。
技術的な部分のプレゼンテーションでは、私が非常に興奮している3つの最近の結果についてお話しします。OpenAI Fiveは、この(DOTA)ゲームで最高の人間と同じくらい強くプレイできるDOTAボットです。Dactylは、非常に高いレベルの器用さを達成したロボットです。そして、教師なし言語理解に関する私たちの結果です。
OpenAI Fiveについてお話しします。DOTAゲームのビデオがここにあります。これは非常に複雑なゲームで、短期的な戦術と長期的な戦略を組み合わせています。eスポーツゲームの中で最大のプロフェッショナルシーンを持ち、年間賞金プールは4000万ドル以上です。ゲームは人気があります。
プロジェクターでよく見えませんが、これは今年のTI(The International)の写真です。ここで私たちのボットがトッププロチームと対戦しました。プロジェクターではよく見えませんが、これは巨大なホールで、巨大なステージがあり、2万人の観客がいます。
このゲームが難しい理由についてもう少し詳しく説明したいと思います。戦術面では多くのことが同時に起こっているため、戦略も必要です。なぜなら、ゲームが長いからです。1試合は1時間続きます。部分的な観察しかできず、マップ全体は見えません。一部しか見えません。非常に多くのヒーローがいて、複雑な相互作用があります。1ゲームあたり2万回のアクションがあり、アクション空間も非常に大きいです。本質的に連続的なアクション空間と言えるでしょう。ユニットを選択し、どこに行くかを指示できるからです。
もう一つ重要なのは、プロのプレイヤーたちがこのゲームに人生を捧げていることです。彼らは何万時間もの意図的な練習を積んで、できる限りゲームが上手くなろうとしています。簡単にプレイできるゲームではありません。このゲームについてもう一つ非常に興味深く重要なのは、以前AIに使用された他のゲームとは異なり、DOTAは現実世界により近いということです。もちろん、現実世界そのものではありませんが、より近いものです。
私たちはどのようにしてこれを実現したのでしょうか。大規模な強化学習を使用しました。それだけです。LSTMポリシーを使用しました。大規模なLSTMポリシーと呼んでいますが、大規模かどうかは主観的な問題かもしれません。現在の強化学習ポリシーとしては間違いなく大規模です。4000個のニューロンを持つLSTMを使用しています。つまり、約1億以上のパラメータがあります。フロップス数で言えば、ミツバチの脳くらいです。
自己対戦を使用し、報酬の形成も少し行いました。報酬の形成は重要でした。この作業中に行った主要な科学的発見は、強化学習が実際に機能するということです。私たちはすでに、深層学習、つまり教師あり学習が実際に機能することを知っていました。教師あり学習では、大規模な入力-出力例の訓練セットがあれば、どんな問題でもほぼ解決できます。視覚であれ、テキストであれ、どんな領域でも、入力側と出力側で教師あり学習は解決できます。モデルがうまく機能しない場合は、単に大きくして、少しデータを増やせば機能するようになります。これが教師あり学習の奇跡です。
私たちは、強化学習でも同じことが当てはまることを示しました。強化学習で難しい問題があっても、非常に難しい問題であっても、適切にスケールアップすれば超人的なパフォーマンスを達成できることを示しました。長期的な問題は大きな問題でしたが、そこまで大きな問題ではないことがわかりました。
ここで指摘したいのは、世界中のほとんどすべての強化学習の専門家が、強化学習に対してかなり悲観的な見方をしていたということです。彼らは、強化学習が長期的な問題に対処できないと確信していました。これは階層的強化学習に関する多くの研究を正当化しました。純粋な強化学習は単純な環境、例えば単純なゲームや小さな単純な人型シミュレーションロボットなど、おもちゃの問題にしか適用されていないと信じられていました。
これらはおもちゃの問題だと言えます。強化学習はおもちゃの問題しか解決できないのかもしれないと言えるかもしれません。強化学習に関する追加の懐疑論もありました。ヘンダーソンらによる論文がありますが、私はそれが好きでした。強化学習のいくつかの問題を示しています。例えば、ここに2つの曲線があります。これは5回の実行のランダム平均ですが、同じアルゴリズムで同じハイパーパラメータ、ただ異なるランダムシードを使用しています。
これを見ると、明らかにこの手法は望みがないと結論付けることができます。忘れてしまえばいいでしょう。しかし、私たちの結果は、そうではないことを示しています。スケールアップすれば、突然非常に難しい問題を解決できるようになります。これは、強化学習におけるさらなるイノベーションが重要ではないということではありません。例えば、私たちが使用した経験よりもはるかに少ない経験で、これらの難しい目標を達成できることが望ましいでしょう。
しかし、私たちの研究からの科学的結論は次のとおりです。十分に価値のある問題があり、それが強化学習問題である場合、それは解決できます。
強化学習について少し話したいと思います。機械学習の他の部分と同様に、強化学習も非常にシンプルです。ここに強化学習の中核的なアイデアがあります。このスライドだけです。何かを行い、アクションに少しノイズを加えます。期待以上の結果が得られた場合、将来同じアクションをより頻繁に行うようにします。それだけです。これが強化学習の中核的なアイデアです。このようなシンプルなアイデアが機能するのは驚くべきことです。私はまだ驚いています。
DOTAのようなゲームでは、1ゲームあたり2万回のアクションがあります。つまり、2万回のアクションにノイズを加え、通常よりも少しだけ良い結果が得られたかどうかを確認することになります。それでも機能しますが、もう少し良くできないでしょうか。アクター・クリティック法の主要なアイデアは、状態がどれだけ良いかを教えてくれる関数、つまり価値関数を学習することです。
アクター・クリティック法のアイデアは、アクションに少しノイズを加え、ゲームを最後まで実行する代わりに、価値関数を参照して状況が改善したかどうかを確認することです。これによってノイズを減らすことができ、非常に重要であることが判明しました。そして、それは機能します。価値関数でブートストラップすることで、ゲームを最後まで実行する代わりに、少しノイズを加えて価値関数を見て状況が改善したかどうかを確認できます。
これは少し技術的な話で、残りの話を理解する上であまり重要ではありませんが、興味深いと思いましたので共有しました。
次に、ポリシーについてですが、これは単なるLSTMです。最初は1000個のニューロンを持っていましたが、その後4000個に増やしました。現在は4000個のニューロンを持っています。NIVIと対戦したLSTMは1000個のニューロンしか持っていなかったのはかなりクールです。75%の確信度で1000個のニューロンだったと言えます。2000個のニューロンだった可能性は小さいですが。現在は4000個のニューロンを持っています。
アーキテクチャを示す図をお見せしたいと思います。基本的に、すべての複雑さがあり、それがすべてLSTMに送られます。これがLSTMで、そこから抽出されます。このようにする理由は、単純に入力の観測が2万次元であり、LSTMが消費できるように賢く使用する必要があるからです。
この図を作成することは重要ですが、基本的には観測を消費し、正しい形式でアクションを生成できるように、何か賢明なことをしたいだけです。
自己対戦についても少し話したいと思います。これは興味深いです。ほとんどのゲームは現在のバージョンのボットとの対戦で、20%のゲームは以前のバージョンのボットとの対戦です。
いくつかのクールな事実を共有したいと思います。最大の実験では、10万以上のCPUコアと1000以上のGPUコアを使用しています。強化学習の時間スパンは9997でした。それ以来、倍増したと思います。つまり、10分の時間スパンについて話しています。かなり良い時間スパンです。
強化学習で作業することがどのようなものかについて、いくつかのクールな事実を共有したいと思います。強化学習の問題点は、バグがあるかどうかを判断できないことです。不可能です。パフォーマンスを見ても、パフォーマンスが向上し続けることがあります。最先端のシステムを達成したり、予想以上に良好なパフォーマンスを示すシステムを持っていても、コードにバグがある可能性があります。同じコードの行を何度も何度も読み返す必要があります。バグを修正するにつれてパフォーマンスが向上します。
スケールアップして大規模な実験を行うようになると、この問題が完全に消えたことを発見しました。実験を何度も実行すると、曲線がほぼ完全に一致します。悪い挙動はすべて消えました。
これらすべてから得られる高レベルの結論は、物事を正しく行い、すべてのバグを修正し、強化学習をスケールアップすれば、非常に難しい問題を解決できるということです。教師あり学習ですでにそうなっているのと同じように。これはかなり良い状態です。
私たちが行った興味深いことの1つは、チームスピリットパラメータの導入です。ゲームでは5人対5人のプレイヤーがいます。学習を加速させるために、チームの各プレイヤーが利己的になり、自分の報酬のみを最大化するようにしました。その後、ゲームが進むにつれて、チームスピリットパラメータを増やし、全員が他の全員の報酬を受け取るようにしました。短期的な報酬が自分に特化している場合、学習が速くなることがわかります。これを行うことで、実際に学習が大幅に加速されました。
私たちの進捗の速さについても少しお話ししたいと思います。これはグラフで、x軸は5月から8月までの4ヶ月間を示しています。y軸は推定MMRで、MMRはELOレーティングのようなものですが、正確には同じではありません。5月には、OpenAIで働いている最高のプレイヤーチームを打ち負かしました。6月には、キャスターチームを打ち負かしました。その後、徐々に制限を減らしていきました。
ここではまだミラーマッチでした。ここでより多くのヒーローを導入しました。ここでドラフティングを行っています。ああ、そうそう、面白い事実があります。ゲームには多くの複雑なルールがあります。作業を容易にするために、すべてのバグを修正する前に進捗を容易にするため、ゲームに制限を加えました。徐々にすべての制限を取り除いていきました。
最後の公開マッチまで維持していた大きな制限の1つは、単一のクーリエ対複数のクーリエでした。ゲームにはクーリエと呼ばれるものがあり、ヒーローにアイテムを運んでくれます。大規模な公開マッチの前は、5つの無敵のクーリエがヒーローにアイテムを送っていました。その結果、より攻撃的な戦略を使用することができ、ゲームを見ていた人々は本物のものではないと感じていました。
8月下旬のTI(The International)での公開マッチでは、単一のクーリエに切り替えました。面白い事実は、最大の公開マッチの前にたった5日間しか単一クーリエでのトレーニングを行っていなかったことです。それにもかかわらず、非常に賢明なことを行いました。おそらく、より大きなモデルでさらに数週間トレーニングすれば、さらに良くなるでしょう。
残された課題は、最高のチームを決定的に何度も打ち負かすことです。しかし、ここでの本当の結論は、強化学習で難しい問題を解決したい場合、教師あり学習と同じように、実際に機能するということです。全く同じストーリーです。教師あり学習がそのようなことをすべてできるとは信じがたかったのですが、視覚だけでなく、すべてのことができます。強化学習でも同じことが当てはまるようです。ただし、大量の経験が必要です。これは問題であり、修正する必要がありますが、現在はそのような状況です。
これで、トークの最初のサブパートが終わりました。次に、OpenAIの別の結果に切り替えたいと思います。私が本当に誇りに思っているのは、ロボティクスの結果です。シミュレーションで大量の経験を積んでエージェントをトレーニングすることの問題点の1つは、そのシミュレーション外で有用なことは決してできないのではないかということです。ここでは、その問題に少し取り組みました。
このプロジェクトの目標は、このロボットハンドにブロックの向きを変えさせることでした。私たちがそれを実現した方法は、シミュレーションで賢明な方法でトレーニングし、実世界に転移できるようにしたことです。私たちのシミュレーションが不完全であることを強調することが重要です。摩擦をうまくモデル化していません。多くのことをモデル化していません。物理的な世界について測定する方法がわからない多くのことがあります。
この部分のトークの要点は、うまく機能するように見える非常にシンプルなアイデアについてお話しすることです。私たちのアプローチのもう1つの良い点は、複数のオブジェクトに適用できたことです。このブロックだけでなく、この八角形のプリズムも回転させることができました。
それを機能させた中核的なアイデアは、ドメインランダム化と呼ばれています。これは新しいアイデアではありません。人々は長い間このアイデアに取り組んでいました。私たちが示したのは、このアイデアが非常にうまく機能するということです。
ドメインランダム化のアイデアは次のようなものです。シミュレーションで測定できないものがある場合、それをランダム化し、ランダム化の任意の値に対して問題を解決できるようにポリシーに要求します。これはどういう意味でしょうか。
例えば、摩擦をうまく測定する方法がないため、摩擦がどうあるべきかわからないとします。私たちが行うのは、ランダム化の値に関係なく、ポリシーが問題を解決する必要があると言うことです。シミュレートされた世界に置き、ポリシーは摩擦が何であるかを知りません。世界と相互作用して素早く理解し、対処する必要があります。これがドメインランダム化です。それほど単純です。
知覚についても同様のことを行いました。これらは、カメラが見た合成画像の例です。ロボットハンドが異なる色や背景、照明を持っていることがわかります。これらすべてに対処できれば、おそらく実世界にも対処できるでしょう。それだけです。これがドメインランダム化のアイデアです。新しいアイデアではありません。興味深いのは、それが機能したこと、特に物理学で機能したことです。
数十個の変数をランダム化しました。それがどのように見えたかを示す素晴らしいグラフィックスをお見せしたいと思います。ああ、そうそう、私たちは本当にクールなことを行いました。知覚モジュールのトレーニング方法について話したいと思います。
座標を入力として受け取るコントローラーを設計しました。つまり、画像を見ることはできません。シミュレートされたポリシーをビジョンなしでトレーニングすることには利点があります。画像をレンダリングする必要がないため、より多くの経験を得て、はるかに良いトレーニングを行うことができます。
では、ビジョンをどのように含めるのでしょうか。画像を取り込み、予測を生成する別のニューラルネットワークをトレーニングしました。そして、正しい状態、つまり正確な状態でトレーニングされたポリシーが、時々知覚モジュールによる予測を使用することを要求しました。真の状態を使用する代わりに、時々その予測を使用しました。そして、このような入力に非常に簡単に適応できるようになりました。
要するに、制御と知覚のトレーニングを分離することができました。これにより、多くのコンピューティングリソースを節約できました。そして、完了したら、実際の画像を与え、指先の位置の実際の状態推定を与え、それをLSTMに適合させ、アクションを取得します。そして、すべてが機能します。
ここでもすべてのバグを修正することは課題でした。レイテンシーのような問題が非常に重要でした。コンピューターの速度、LSTMポリシーを実行するコンピューターを少し高速なものに変更したときに速度が向上することに驚きました。つまり、ニューラルネットワークの実行が速くなり、レイテンシーが減少しました。
しかし、アイデアはシンプルです。ドメインランダム化です。シミュレーションが実世界と異なる場合、わからないものをランダム化し、ポリシーがこれらすべての値に対処するようにします。このアイデアは驚くほど遠くまで行けます。新しいアイデアではありませんが、良いアイデアだということがわかりました。
DOTAボットと、ブロックを操作したコントローラーの両方をトレーニングした方法は、高速な強化学習インフラストラクチャを使用して行われました。実際、DOTAボットとロボットトレーニング、そしてDactylで操作ポリシーをトレーニングしたコードの間には多くの共有コードがあります。もちろん、いくつかの違いもありますが、スケーラブルな強化学習コードを書くのが非常に難しいため、それを再利用する価値があることがわかりました。そのため、これは素晴らしいことでした。
ああ、そうそう、ブロックの位置を見る3つの異なるカメラを示す別のクールな画像があります。これらの3つのカメラがブロックを見て、その位置を推定しています。
ビジョンアーキテクチャのさらなる画像があります。基本的に3つのカメラからの入力をニューラルネットワークに通し、位置を出力します。制御ポリシーは基本的にLSTMです。これらのアーキテクチャがすべてこれほどシンプルであることは驚くべきことです。ビジョンを使用したい場合は、単に畳み込みニューラルネットワークを使用すれば、常に機能します。
これで、器用な操作に関する結果の部分が終わりました。次に、教師なし学習による言語理解の結果について話したいと思います。この結果について最も基本的なことをお話ししたいと思います。
やることは、非常に優れた言語モデルをトレーニングし、言語タスクや言語理解タスクを見つけることです。そうすると、多くの場合、最先端の技術に比べて大幅な改善が得られます。それだけです。事前トレーニングと微調整の元のアイデアが実際に機能しているのです。トリックは、十分に優れた言語モデルを持つことでした。これはかなり素晴らしいことです。
改善の感覚を掴んでいただくために、いくつかの結果をお見せしたいと思います。多くのタスクで、左の列が以前の結果、右の列が後の結果を示しています。右側の数字はほとんど常に大きく、時には大幅に大きくなっています。すべてを見ることはできないかもしれませんが、これらの3つの行は、私たちのモデルによる改善が最大だったタスクを示しています。これらは複数の文章の推論と理解を必要とするタスクです。
この例を見てみましょう。どのようなことが必要とされているかのアイデアを掴んでいただけると思います。例は次のようになっています:
「カレンは大学1年生のときにアイグナーのルームメイトでした。ルームメイトは近くの街でコンサートに行くよう彼女に頼みました。カレンは喜んで同意しました。ショーは絶対的に興奮するものでした。そして、カレンはルームメイトと仲良くなりました。カレンはルームメイトを嫌っていました。どちらがより可能性が高いですか?」
このような種類のタスクで、非常に優れた言語モデルをトレーニングし、このタスクに微調整すると、最先端の技術に比べて大幅な改善が得られます。さらに大きく優れた言語モデルをトレーニングすれば、ギャップがさらに拡大する可能性が十分にあります。
詳細について少しお話しします。モデルはTransformerでした。詳細には立ち入りませんが、過去数年間のニューラルネットワークアーキテクチャにおける最も重要なイノベーションの1つだと思います。データセットは本の大規模なコーパスです。コンテキストのサイズは512で、つまり言語モデルは前の500語を見ることができます。これはかなり良いコンテキストです。1ヶ月間、8台のP100 GPUでトレーニングされました。
Transformerの使用方法について少しお話ししたいと思います。このTransformerは入力を受け取ります。これはTransformerの図です。いくつかの詳細がありますが、無視してもかまいません。詳細のようなものです。この部分がTransformerの詳細ですが、興味がある場合は「Attention Is All You Need」という論文を読むことをお勧めします。
次に、異なる問題をどのように表現し、Transformerに供給するかを説明します。いくつかの賢明なことを行います。例えば、複数の選択肢がある質問がある場合、コンテキストと可能な答えをTransformerに供給します。連結したものを供給し、3つの表現を得ます。そして、それらを線形モデルに通します。それだけです。
本当にシンプルなものです。ただし、非常に優れた言語モデルがあれば、言語理解タスクを解決できます。そして、言語モデルが優れているほど、言語理解も向上します。これは素晴らしいことです。教師なし学習が生命の兆しを見せ始めているようです。これは励みになる結果です。
次に、プレゼンテーションの最後の部分に移りたいと思います。現在の傾向を見て、現在のAIブームがAGIにまで到達できるかどうか、その可能性を理解しようとします。この部分のトークの目的は、5年から10年後の位置を下限することが難しいということを主張することです。AGIに到達する可能性をもはや無視することはできません。
ここで、過去に起こった大きな技術革命について話したいと思います。アーサー・C・クラークの「未来の姿」という本がありますが、これは非常に良い本です。多くのこれらの技術革命を分析し、たくさんのクールな事実が含まれています。その中で結論付けているのは、飛行機、宇宙飛行、核力など、すべての大きな技術革命において、非常に声高で非常に著名な批判者がいたということです。彼らは絶対に不可能だと感じていました。
例えば、飛行機では、様々な人々がそれは不可能だと言いました。そして、それが実現されたとき、同じ人々が「そうですね、1人なら可能かもしれませんが、経済的に実現可能になることは決してないでしょう」と言いました。
宇宙飛行では、アーサー・C・クラークが「神経の失敗」と呼ぶ興味深い間違いが起こりました。アメリカは宇宙に物体を送り出すことの可能性を分析し、200トンのロケットを建造する必要があるため不可能だと結論付けました。そこでロシアは200トンのロケットを建造しました。実際、イギリスの王立天文官は、スプートニクが宇宙に打ち上げられる1年前に、宇宙旅行は「まったくの馬鹿げた話」だと言いました。これはかなり興味深いですね。
次に、AIの歴史について話したいと思います。AIの歴史を調べてみると、私たちのAIの歴史に対する古い理解が正確ではなかったことがわかりました。AIの歴史に対する古い理解とは、この分野が異なる技術に対する興奮と悲観主義の連続を経験したというものです。つまり、シンボリックシステムとパーセプトロン、次にエキスパートシステムとバックプロパゲーション、そしてサポートベクターマシンに興奮し、今は再びニューラルネットワークに興奮しています。そして将来、また別のものに興奮するだろうと。
しかし、現実は少し異なります。次のような点で異なります。ローゼンブラットがパーセプトロンを発表したとき、彼は非常に興奮していました。そして、彼は次のような発言をしました。これは1959年のことですが、これらの発言は非常に興味深いものです。
具体的に彼は言いました。「これは、歩き、話し、見て、書き、自己複製し、自己の存在を意識する能力を持つ電子コンピュータの胚芽です。後にパーセプトロンは人々を認識し、その名前を呼び出し、瞬時に一つの言語の音声を別の言語の音声と文字に翻訳することができるようになるでしょう」と予測しました。
これは1959年のことです。そのため、ローゼンブラットは一般メディアで非常に人気を博し、すべての資金を獲得しました。そこでミンスキーとパパートは非常に動揺しました。パパートは、彼らがこの方向性に有望性がないと感じ、この分野の進歩を止めたかったと認めています。彼らは、彼らの本『パーセプトロン』に敵意があったことを認めています。彼らは、ローゼンブラットが主張していることが誤解を招くものであり、資金を奪っていると感じました。
ミンスキーは直接、AIの他の分野が資金を得られないことを懸念していたと認めています。彼らは、その本の中でニューラルネットワークの進歩は不可能だと主張したかったのです。
そして80年代に、コンピュータが安くなりました。コンピュータが安くなったことで、人工知能、つまりニューラルネットワークへの関心が高まりました。そしてこの文脈で、バックプロパゲーションアルゴリズムが発明されました。
ミンスキーとパパートのバックプロパゲーションアルゴリズムに関する面白い引用があります。「コネクショニスト・コミュニティの多くの人々が、バックプロパゲーションが単に勾配を計算する特定の方法に過ぎないということを理解していないという印象を受けています。彼らは、バックプロパゲーションが丘登り法の基本的な限界を回避する新しい学習スキームだと仮定しているようです」
もう一つ非常に興味深いことが起こりました。つまり、これらのことから何がわかるでしょうか。
つまり、代替的な解釈は、ニューラルネットワークの研究と、私たちが今見ているニューラルネットワークの波は5年間の波ではなく、パーセプトロンから始まる60年間の波だということです。コンピュータが良くなるにつれて、結果はより印象的になりました。
90年代初頭には、すでにTD-Gammonがありました。これは自己対戦強化学習システムで、バックギャモンで最高の人間を打ち負かすことができました。ちなみに、TD-Gammonに関する興味深い事実の1つは、TD-Gammonを生成するのに必要だった全計算量が、Voltaの5秒分に相当するということです。
さて、AIの歴史に対するこの代替的な解釈、つまりニューラルネットワークがこの分野の歴史の中で唯一の持続的なスレッドであり、コンピュータが向上するにつれて成長し、より良くなってきたという解釈を得たところで、過去5年間の一連の結果を調査し、何が可能で何が不可能かについての私たちの信念がどのように変化したかを見てみたいと思います。
元のAlexNetの結果では、その結果の前は、ニューラルネットワークが何かをできるとは本当に信じられていませんでした。明らかに、ビジョンはできないし、ニューラルネットワークが難しい問題を解決できるなんて全くクレイジーだと思われていました。
ちなみに、ここにアントニオ・トルバから得た画像があります。これはニューラルネットワーク以前のビジョンシステムのパフォーマンスを示しています。この小さな赤い長方形が見えますか?これが車だと思っています。なぜなら、ここにズームインされているからです。そして、HOG(Histogram of Oriented Gradients)ビジョン変換器、HOG特徴変換器を適用したときの様子がこちらです。つまり、機能しなかったし、機能するはずもなかったのです。
そして、大規模な畳み込みニューラルネットワークと教師あり学習を使用すると、ビジョンでかなり良い結果が得られることがわかりました。
次にDQN(Deep Q-Network)です。OK、ビジョンはできるかもしれません。しかし、ニューラルネットワークを使って目標を達成する学習をするエージェントを作ることができることがわかりました。これは、研究者全員に、ニューラルネットワークを使って目標を達成するエージェントを構築することが意味のある、合理的な研究方向であるという考えを与えました。
ビジョンの次に来たのは、ニューラルマシン翻訳でした。知覚はできるかもしれないけど、翻訳のようなことはできないでしょう。つまり、それには何万行もの複雑なコードと様々な状態機械アルゴリズム、グラフアルゴリズムが必要です。しかし、大きなニューラルネットを正しく使用すれば、単純にできることがわかりました。
次にAlphaGoが登場しました。AlphaGo以前は、強化学習は実際には何の役にも立たず、小さなおもちゃの問題しか解決できないと信じられていました。しかし、AlphaGoによって、モンテカルロ木探索の形で強化学習が非常に難しいタスク、本当に難しいタスクを解決できることがわかりました。
その後、OpenAI Fiveが登場しました。まあ、コンピュータ囲碁のような小さなアクション空間を持つ離散的なゲームなら解決できるでしょう。しかし、DOTAやStarcraftのような連続的で乱雑で、現実世界により似ているゲームは絶対に解決できないでしょう。しかし、強化学習をスケールアップすれば、問題なく解決できることがわかりました。
OK、シミュレーション内で何かができるかもしれません。しかし、シミュレーション内でそれほど多くの経験が必要なので、これらのアルゴリズムをシミュレーション外で使用することは絶対にできないでしょう。しかし、シミュレーションを少し変更すれば、実際にシミュレーション内のスキルを外部に転移できることが、私たちの器用なロボットの研究で示されました。
そして、次のように言えるかもしれません。OK、目標を達成したい内容を明確に記述するコスト関数がある場合はゴールを達成できるかもしれません。教師あり学習では訓練誤差を最小化したいし、強化学習では報酬を最大化したいわけです。しかし、教師なし学習は絶対にできないでしょう。それは多すぎます。しかし、信号の次のビットを予測するために非常に大きなニューラルネットワークを単純にトレーニングするだけで、教師なし学習もできることがわかりました。今のところ、言語に対してはこれを示しましたが、他のドメインでも示す必要があります。
最後に、これらすべてを支えている根本的なトレンドについて話したいと思います。それは計算力のトレンドです。元のAlexNetの結果からAlphaGo Zeroまでの計算力の量が30万倍になったことは驚くべきことです。これは5年間のギャップについて話しているのです。これは大きな増加です。3.5ヶ月で倍増するペースです。
このスケールの可視化をお見せしたいと思います。これは様々な結果を示しており、基本的にスケールをズームアウトしています。すべての異なる結果が見えます。80年代の初期の結果もいくつか含めたので、Dropout NetとAlexNetが表示されるまでにしばらく時間がかかりました。
ランが見えますが、それは続いています。次に、Sick-to-Sickコンピュータが小さくなり、Vコンピュータが小さくなっていますが、それは続いています。これにより、過去5年間に起こった計算力の増加の感覚がつかめます。最後に、AlphaGo Zeroさえも見え始める点に到達します。
その多くは、データセンターコンピューティングによって支えられています。つまり、単一のチップに搭載できる計算力の量には限界がありますが、多くのチップを組み合わせることができます。これは今後さらに重要になるでしょう。
おそらく起こるであろう1つのことは、ロシアが宇宙に行くために建造した非常に大きなロケットと同じように、本当に大量の計算力を得るためには、非常に大規模なクラスターが重要になるということです。しかし、おそらくそれは起こるでしょう。
結論として、このトークの部分の要点は、非常に不確実ではあるものの、近い将来の進歩に下限を設定することは不可能だということを示すことでした。おそらく、現在の進歩の波が実際にAGIにつながるかもしれません。
これは何を意味するのでしょうか。それは、リスクについて、例えば、誤って指定された目標を追求する機械、展開されたシステムを人間が悪用する可能性、一般的な非常に急速な変化、制御不能な経済などの問題に積極的に取り組む価値があるということです。これらは考えるべき良い質問です。
以上です。ありがとうございました。

質疑応答の時間があります。部屋の両側にマイクがあります。YouTubeやリモートサイトの人々も聞けるように、質問がある場合はマイクに来てください。
質問者: あなたは教師あり問題について言及しましたが、MAの問題についてはどうですか?
イリヤ: その正確な表現は、人間が数秒で解決できるあらゆる問題を教師あり学習で解決できるということです。
質問者: 安全な強化学習と、データセットの大きな不均衡に対処する安全な強化学習の方向性について、あなたの考えをお聞きしたいと思います。どの方向性が興味深く、追求する価値があると思いますか?
イリヤ: 安全な強化学習とデータの不均衡について質問されましたね。まず、簡単な方の質問から答えましょう。データの不均衡については、多くの標準的なツールや標準的なアプローチがあります。例えば、重要な例を認識しようとする小さなモデルをトレーニングし、それを大きなモデルに供給するなどの方法があります。これはすでに行われています。
安全な強化学習に関しては、例えば、人間のフィードバックから報酬関数と選好を学習することなどが、私たちが取り組んでいる分野の一つです。他の良い分野には、基本的に安全な探索があります。これは、探索中に環境への変更を制限しようとするものです。これは別の例です。
質問者: とても素晴らしい講演でした。ありがとうございます。深層学習に対する批判について言及されましたが、サンプル複雑性が一つの大きな問題だと思います。現在の批判者は、それが恐ろしくサンプル非効率的だと言うかもしれません。これに対処する方法として、どのようなものがあると考えていますか?そもそもこれは問題なのでしょうか?
イリヤ: サンプル複雑性は確かに取り組むべき重要な問題です。疑問の余地はありません。現在、最も有望なアイデアの一つは転移学習と、システムを他のタスクでトレーニングすることのように見えます。例えば、私が発表した言語の結果では、非常に大規模なテキストコーパスで次の単語を予測するために大きなニューラルネットをトレーニングしました。これにより、他の言語タスクに対するこのモデルのサンプル複雑性が大幅に減少しました。これは、それをどのように行うかの一例です。
質問者: 批評家が主張する可能性のある議論の一つは、これまでに最高の結果を示した問題は、信号対雑音比が高い問題だということです。信号対雑音比が悪い他の分野についてどう考えますか?
イリヤ: 例を挙げていただけますか?
質問者: 医療などです。
イリヤ: このような環境に移行するためには、いくつかのことが起こる必要があります。私たちは教師なし学習が本当に上手くなる必要があります。そして、自分で報酬関数を発明または発見することが本当に上手くなる必要があります。それを最適化できるようになれば、エージェントは両方のスキルを獲得し、教師なしの理解のための新しいデータを得ることができるでしょう。
質問者: 講演ありがとうございます。あなたが言及したことの一つは、ビジョンの分野では、深層畳み込みニューラルネットワークが基本的にすべての問題を解決できる唯一のアーキテクチャとして収束したように見えるということでした。しかし、シーケンスモデルではそのようなことは見られていません。場所によってLSTMを使用したり、Transformerを使用したり、シーケンス畳み込みモデルもあります。シーケンスモデルでも同様の収束が起こると思いますか?それとも、アプリケーションによって最も効果的なものが異なる、様々なモデルの動物園のような状態が続くと思いますか?
イリヤ: それを予測するのは難しいですね。いくつかの代替的なアーキテクチャがシーケンスに対して存在する可能性は十分にあると思います。公平に言えば、画像に対しても、画像Transformerのような新しい候補アーキテクチャがあり、これが従来の畳み込みよりも支配的なアーキテクチャになる可能性があります。ある意味では、2つか3つの代替案があるかもしれませんが、それでもそれほど多くはありません。
質問者: Deep Q学習の場合、数年前にルーレット問題を解決できなかったという結果を覚えています。ルーレットが均衡でなければならないという理解がないため、サンプルだけではある部分が一定期間幸運だと常に考えてしまいます。一般的に、これはもはや問題ではないと思いますか?十分なサンプルがあれば宇宙の法則を学習できるのでしょうか?それとも、報酬が本当に高分散になるように設計されているような場合、結果を平均化するだけでは学習が難しいケースでは、それらのルールを依然としてコーディングする必要があるのでしょうか?
イリヤ: より広い質問についてお話しできます。ルーレット問題について聞いたことがなかったので、よく理解できませんでした。
質問者: 簡単に説明します。これはダブルQラーニングネットワークの例で、彼らが論文で証明したのは、通常のQラーニングでは、ルーレット盤の性質を知らない場合、すべてのポイントが同じでランダムでなければならないのに、ルーレット盤の回転を独立変数として扱うと、どれだけ長く実行しても、すべての数字がマイナスであるという答えは出てこないということです。これをうまく説明できていませんが、より広い質問は、したがって疎な報酬に対して...質問をよく理解できませんでした。
イリヤ: そうですね、その問題は、すべてのポイントが同じ基本的な確率を持つことを指定するだけで非常に簡単に解決できます。しかし、それをコーディングせずに、独立して見るだけでは、無限のサンプルがあっても、すべての数字がマイナスであることを本当に学習することはできません。
長期的には、ハードコーディングしない場所にいたいと思います。なぜなら、私たちが解決したい問題の集合が非常に広大であり、人間がどのように有用なものをハードコーディングできるのか見当がつかないからです。畳み込みやリカレントネットのような非常に一般的な何かを設定できれば、それは非常に有用です。非常に一般的な仮定をハードコーディングしたいと思います。
モデルが利用可能なすべての情報を使用できるようにしたいと思います。何が起こっているのかわからない状況に対処する方法は、おそらく他の情報源から恩恵を受けることです。これは人々が新しい問題に直面したときにすることです。私たちはゼロから始めるのではなく、人生のすべての経験を持っています。そして、物事が混乱しているように見えるとき、Googleで検索したり誰かと話したりしようとします。これが、全く新しい領域に対処する高レベルの方法になるでしょう。
しかし、物事をハードコーディングしないことが望ましいと思います。なぜなら、それは生活を楽にし、本当に難しい問題に対してハードコーディングするほど賢くなれるとは思えないからです。だから、広く言えば、このアプローチにはあまり期待していません。
質問者: 完全に同意します。ゲームでは面白い例があります。これらの要素は独立していますが、アルゴリズムがそれを学習するのは難しいです。実生活では実際にはわかりませんよね。
イリヤ: はい、その例を詳しく見てみないと、確定的な意見を形成することはできません。
質問者: こんにちは。講演ありがとうございました。あなたの意見では、次に難しいゲームは何でしょうか?強化学習が学習できないものはありますか?
イリヤ: 強化学習が学習できないものは確かにあります。DOTAを学習した方法の欠点の一つは、千年分の経験が必要だったことです。十分な経験を集めることができれば非常に難しい問題を学習できますが、どのようにしてより少ない経験でそれを行うかが、次に来る課題のより良い説明だと思います。
難しいゲームを解くという観点では、経験の量を制限しない場合、本当に解く価値のあるゲームはないと思います。
質問者: こんにちは。RNNは自然言語処理で使用されていますが、要約の抽象化などではあまり成功していません。これについてのあなたの一般的な見解と、RLが使用できる自然言語処理の良いタスクは何だと思いますか?
イリヤ: RLには報酬関数と環境が必要ですが、自然言語処理にはその両方がありません。対話システムなどのタスクはRLから恩恵を受けることができると思います。例えば、Google Duplexを見たことがありますか?そのようなものです。システムと話す1万人の人々がいて、システムが間違いを犯したり要求されたことを実行しなかった場合、ボタンを押してネガティブな報酬を与えるというようなものです。これが一例です。
自然言語処理でRLを使用することについては肯定的ですが、現在のアプリケーションとは少し異なる形になるでしょう。特に、自然言語処理は主にデータセット駆動型なので、RLではそこから離れる必要があります。環境が必要です。エージェント同士で会話させるか、エージェントと人間が会話するかのどちらかですが、後者は単に物流的に難しく、それを行える研究機関はそれほど多くありません。
質問者: ありがとうございます。
イリヤ: どういたしまして。

この記事が気に入ったらサポートをしてみませんか?