見出し画像

イリヤ・サツケヴァー | 止められない潮流 | AIの発展は不可逆的で必要不可欠

ええ、もちろん我々が始めた当初は、どう進めるべきか100%明確ではありませんでした。そして当時のこの分野は、現在とは大きく異なっていました。現在では、私たちは既に素晴らしい成果物、つまり信じられないようなことをする素晴らしいニューラルネットワークを持っており、誰もがとてもワクワクしています。しかし2015年から2016年初頭、私たちが始めた頃は、全てが非常に突飛に思えました。研究者の数も現在と比べてはるかに少なく、おそらく100分の1から1000分の1程度でした。当時は100人ほどで、その大半がGoogleのDeepMindで働いていて、それが全てでした。その後、スキルを身につける人々が現れましたが、まだ非常に稀少で珍しい状況でした。
OpenAIを立ち上げた当初、私たちには2つの大きな考えがあり、それらは今日まで私たちと共にあります。今からそれらについて説明します。
最初の大きな考えは、特に私が早い段階からとてもワクワクしていたものですが、圧縮を通じた教師なし学習というアイディアでした。少し背景を説明すると、今日では教師なし学習が簡単なものだと当たり前のように考えられています。単にすべてのデータで事前学習を行えば、期待通りの結果が得られます。しかし2016年当時、教師なし学習は機械学習における未解決の問題で、誰も正確な洞察や何をすべきかについての手がかりを持っていませんでした。そうです、ヤン・ルカンが講演で「教師なし学習という大きな課題がある」と言って回っていた時代です。私は本当に、データの非常に優れた圧縮が教師なし学習につながると信じていました。
圧縮という言葉は、最近まで実際に行われていることを説明するのによく使われる言葉ではありませんでした。しかし突然、多くの人々にGPTモデルが実際にトレーニングデータを圧縮していることが明らかになりました。ニューヨーク・タイムズのチャンの記事でもこのことに言及されていたのを覚えているかもしれません。しかし、これらの自己回帰生成モデルのトレーニングがデータを圧縮するという数学的な意味が実際にあるのです。直感的に考えれば、なぜそれが機能するかがわかります。データを本当によく圧縮すれば、その中に存在する全ての隠れた秘密を抽出しなければなりません。したがって、それが鍵となるのです。
これが私たちが本当に興奮した最初のアイディアで、OpenAIでいくつかの作品につながりました。センチメントニューロンについて簡単に触れておきますが、この研究は機械学習分野の外ではあまり知られていないかもしれませんが、特に私たちの考え方に非常に影響を与えました。この研究の結果は、ニューラルネットワークをトレーニングすると - 当時はトランスフォーマーの前で、トランスフォーマーではなく小さな再帰型ニューラルネットワークLSTMでしたが - Amazonのレビューで次のトークン、次の文字を予測するようにトレーニングすると、LSTMの中にセンチメントに対応するニューロンが存在することがわかったのです。
これは本当にクールでした。なぜなら、教師なし学習にある程度の進展を示し、次の文字の予測、次の何かの予測、つまり圧縮が十分に良ければ、データの中の秘密を発見するという考えを裏付けたからです。これは現在のGPTモデルで見られることです。トレーニングを行うと、人々は「単なる統計的相関関係だ」と言いますが、この時点でその観察がいかに明確であるかがわかるはずです。
また、私にとっては直感的に、教師なし学習のためのデータをどこから得るかという全く新しい世界が開かれました。次の文字を予測させるだけのデータがたくさんあれば、正解を知っているので、ニューラルネットワークモデルをトレーニングできるからです。その観察とマスキング、そして他のアプローチが、教師なし学習のためのデータを世界中からどこで得られるかについて、私の心を開いてくれました。
そうですね、少し違う表現をしてみましょう。教師なし学習の難しい部分は、データをどこから得るかということよりも、なぜそもそもそれを行うべきなのか、なぜわざわざ取り組むべきなのかということでした。次のトークンを予測するようにこれらのニューラルネットワークをトレーニングすることが、全く価値のある目標であることに気づくのが難しかったのです。そう、それが表現を学習し、理解できるようになるということが。
しかし、それは明らかではありませんでした。人々はそれを行っていなかったのです。しかし、センチメントニューロンの研究、そしてアレック・カトフォードという人物が多くの進歩に責任を持っていたことを強調したいのですが、この研究はGPT-1の前身であり、私たちの考え方に大きな影響を与えました。その後トランスフォーマーが登場し、私たちはすぐに「これだ!」と思い、GPT-1をトレーニングしました。
その過程で、あなたはずっとスケーリングがこれらのモデルのパフォーマンスを向上させると信じていましたね。より大きなネットワーク、より深いネットワーク、より多くのトレーニングデータがスケールするということを。OpenAIが書いたスケーリング法則に関する非常に重要な論文があり、損失とモデルのサイズ、データセットのサイズの関係について述べていました。トランスフォーマーが登場したことで、非常に大規模なモデルを非常に合理的な時間でトレーニングする機会が得られました。
モデルとデータのサイズに関するスケーリング法則についての直感と、GPT-1から3までの旅で、どちらが先に来たのでしょうか?GPT-1から3の証拠を最初に見たのか、それともスケーリング法則についての直感が先だったのでしょうか?
直感が先でした。私は「より大きいほど良い」という非常に強い信念を持っていて、OpenAIでの目標の1つは、スケールを正しく使用する方法を見つけることでした。OpenAIの初期から、スケールに関する多くの信念がありました。問題は、それを正確に何に使用するかということでした。
現在はGPTについて話していますが、もう1つの非常に重要な研究の流れがあります。まだ触れていない2つ目の大きなアイディアですが、今がそれについて話す良い機会だと思います。それは強化学習です。これも明らかに重要に思えますが、それをどのように使用するのでしょうか。
OpenAI内で行われた最初の本当に大きなプロジェクトは、リアルタイムストラテジーゲームを解決する試みでした。コンテキストとして、リアルタイムストラテジーゲームは競争的なスポーツのようなものです。賢くなければならず、素早い反応時間が必要で、チームワークがあり、別のチームと競争します。かなり複雑です。そのゲームには全体的な競争リーグがあります。ゲームはDOTAと呼ばれています。
私たちは強化学習エージェントをトレーニングして、自己対戦させ、世界最高のプレイヤーと競争できるレベルに到達することを目標としました。これも大きな取り組みでした。非常に異なる研究の流れでした。強化学習でした。
あなたがそのDOTAの仕事を発表した日を覚えています。これは、OpenAIから出てきた大量の研究の中で、一見遠回りに見えるものの一つでした。しかし、あなたが説明しているように、それらは遠回りに見えても、現在私たちが話しているChatGPTのような重要な仕事につながったのです。
そうですね、本当に収束がありました。GPTが基礎を作り、DOTAでの強化学習が人間からのフィードバックによる強化学習に変わり、その組み合わせがChatGPTを生み出しました。
ChatGPTがそれ自体で単に1つの巨大な言語モデルであるという誤解があります。その周りにはかなり複雑なシステムがあります。簡単に説明していただけますか?聴衆のために、ファインチューニング、強化学習、そしてそれを軌道に乗せ、知識を与え、その他の周辺システムについて説明していただけますか?
はい、説明できます。考え方としては、インターネット上のさまざまなテキストで次の単語を正確に予測するように大規模なニューラルネットワークをトレーニングすると、世界モデルを学習しているということです。表面上は、テキスト内の統計的相関関係を学習しているだけのように見えるかもしれません。しかし、テキスト内の統計的相関関係を本当によく学習し、それらを本当によく圧縮するために、ニューラルネットワークが学習しているのは、テキストを生成したプロセスの何らかの表現なのです。
このテキストは実際には世界の投影です。外には世界があり、それがこのテキストに投影されています。そしてニューラルネットワークが学習しているのは、世界の、人々の、人間の状況の、その希望や夢、動機、相互作用、そして私たちが置かれている状況のより多くの側面です。ニューラルネットワークは、それらの圧縮された抽象的で使用可能な表現を学習しています。これが次の単語を正確に予測することから学習されていることです。さらに、次の単語の予測がより正確になればなるほど、このプロセスでより高い忠実度、より高い解像度が得られます。
これが事前学習段階で行われることですが、これだけでは、私たちがニューラルネットワークに示してほしい望ましい行動を指定することはできません。言語モデルが本当に試みているのは、次のような質問に答えることです:「インターネット上のランダムなテキストの一部が、あるプレフィックス、あるプロンプトで始まっている場合、それはどのように完成するか?」インターネット上のテキストにランダムに遭遇した場合、どのように続くかということです。
しかし、これは「真実を語り、役立ち、特定のルールに従い、それらを違反しない助手が欲しい」という要望とは異なります。これには追加のトレーニングが必要です。ここで、人間の教師からのファインチューニングと強化学習、そして他の形のAI支援が必要となります。人間の教師からの強化学習だけでなく、人間とAIの協力からの強化学習もあります。私たちの教師はAIと協力して、AIの振る舞いを教えています。
ここでは新しい知識を教えているのではありません。私たちが望むものを伝えているのです。この第2段階のプロセスも非常に重要です。第2段階をより良く行えば行うほど、このニューラルネットワークはより有用で、より信頼できるものになります。
第1段階の「世界の投影であるテキストから、世界についてできるだけ多くのことを学ぶ」に加えて、第2段階も極めて重要なのです。
ファインチューニングをして、特定のタスクを実行するように指示することはできますが、特定の行動を実行しないように指示することもできますか?例えば、安全でない行動や、その他の行動を避けるようなガードレールを与えることはできますか?つまり、その境界ボックスから外れないようにすることができますか?
はい、この第2段階のトレーニングは、まさにニューラルネットワークに私たちが望むことを何でも伝える場所です。これには境界ボックスも含まれます。このトレーニングをより良く行えば行うほど、この境界ボックスを伝える忠実度が高くなります。そして、継続的な研究と革新によってこの忠実度を向上させることで、意図された指示をより確実に、より正確に従うようになります。
ChatGPTは数ヶ月前に登場しました。人類史上最速で成長したアプリケーションです。なぜそうなったのかについては、さまざまな解釈がありますが、いくつかの明らかなことがあります。これは、誰もが使用できる、これまでで最も簡単なアプリケーションです。期待を超えるタスクを実行し、物事を行います。誰でも使用でき、使用方法に関する指示セットはなく、間違った使い方もありません。ただ使用するだけです。指示やプロンプトがあいまいな場合、会話によってあいまいさが解消され、アプリケーション(AI)によってユーザーの意図が理解されます。もちろん、その影響は明らかに顕著です。
昨日、つまりGPT-4が発表された翌日ですが、わずか数ヶ月後にGPT-4のパフォーマンスが多くの分野で驚異的なものになっています。SAT、GRE、司法試験のスコアなど、非常に有能な人間レベルでテストを実行できる数が驚くべきものです。ChatGPTとGPT-4の主な違いは何で、これらの分野での改善につながったのでしょうか?
GPT-4は、ChatGPTの上に立った非常に大きな改善で、多くの次元にわたっています。GPT-4のトレーニングは、6ヶ月以上前、おそらく8ヶ月前に行われました(正確な時期は覚えていません)。ChatGPTとGPT-4の最初の大きな違い、そしておそらく最も重要な違いは、GPT-4の基盤がテキストの次の単語をより高い精度で予測することです。これは本当に重要です。なぜなら、ニューラルネットワークがテキストの次の単語をより正確に予測できるほど、それをより理解しているからです。
この主張は現在、多くの人に受け入れられているかもしれませんが、なぜそうなのかはまだ直感的ではないかもしれません。少し脱線して、次の単語のより正確な予測がなぜより深い理解、本当の理解につながるのかを説明する類推を提供したいと思います。
例を考えてみましょう。複雑なプロット、ストーリーライン、さまざまな登場人物、多くの出来事、謎、手掛かりがある探偵小説を読むとします。そして、本の最後のページで、探偵がすべての手掛かりを集め、すべての人を集めて「犯罪を犯した人物の正体を明らかにします」と言います。そして、その人物の名前は...その単語を予測してください。その単語を正確に予測してください。すごいですね?
そう、さまざまな単語がありますが、それらの単語をより正確に予測すればするほど、テキストの理解が深まり続けます。GPT-4はより正確に次の単語を予測します。人々は、ディープラーニングは推論につながらないと言います。しかし、その次の単語を予測するために、そこにいたすべての人物とその強みや弱み、意図、そしてコンテキストから、誰が殺人者だったかを推測するには、ある程度の推論が必要です。かなりの推論が必要です。
では、どのようにして推論を学習できたのでしょうか?そして、もし推論を学習したのであれば、ChatGPTとGPT-4の間で行われたすべてのテストの中で、GPT-3またはChatGPTが既に非常に優れていたテストもあれば、GPT-3またはChatGPTがそれほど優れていなかったテストでGPT-4がはるかに優れているものもあり、そしてまだどちらも優れていないテストもあります。これらのいくつかは推論に関係しているようです。例えば、微積分では問題を合理的な手順に分解して解くことができないようですが、一方で他の分野では推論スキルを示しているように見えます。これは、次の単語を予測することで推論を学習している領域なのでしょうか?そして、GPT-4の現在の限界は何で、さらに推論能力を高めるにはどうすればよいのでしょうか?
推論は非常によく定義された概念ではありませんが、定義しようとすることはできます。おそらく、少し先を考え、推論によってより良い答えを得られるということかもしれません。私たちのニューラルネットは、例えば大声で考えるようにニューラルネットワークに求めることで対処できるかもしれない何らかの制限があると言えます。これは推論に非常に効果的であることが証明されています。しかし、基本的なニューラルネットワークがどこまで行けるかはまだ分かりません。私たちはまだその潜在能力を完全に引き出していないと思います。
確かに、ニューラルネットワークの推論能力が他の能力ほどには高くないという意味はありますが、私たちはニューラルネットワークの推論能力が高くなることを望んでいます。通常のビジネスがニューラルネットワークの推論能力を向上させ続けるという可能性はかなりあると思います。この可能性を確信を持って排除することはできないでしょう。
そうですね、本当にクールなことの1つは、Chatに質問をして、答える前に「まず知っていることを教えてください」と言うことです。通常、誰かが質問に答える場合、答える前に基本的な知識や基本的な仮定を提供してくれると、その答えの信憑性が本当に高まります。また、ある程度の推論を示しているとも言えます。つまり、ChatGPTにはこの固有の能力がある程度埋め込まれているように見えます。
ええ、そうですね。現在起こっていることを考える1つの方法は、これらのニューラルネットワークがこれらの能力の多くを持っているが、まだそれほど信頼できないということです。実際、信頼性が現在これらのニューラルネットワークが真に有用になるための最大の障害の1つだと言えるかもしれません。時々、これらのニューラルネットワークが少し幻覚を見たり、予期せぬミスを犯したりすることがあります。これは人間には予期しないようなミスです。このような信頼性の欠如が、それらを実質的に less useful にしているのです。
しかし、おそらく現在の考えに基づいて少し more research を行い、さらにいくつかの野心的な研究計画を加えることで、より高い信頼性を達成できるかもしれません。そうすれば、本当に有用になるでしょう。これにより、very precise な非常に正確なガードレールを持つことができ、不確かな場合は clarification を求めたり、知らないことを知らないと言ったりすることが extremely reliably にできるようになるでしょう。これらが現在のボトルネックの一部だと言えます。つまり、特定の能力を示すかどうかではなく、どれほど信頼性高くそれを行うかという点です。
事実性と事実の正確さ、幻覚について話すと、私はビデオの1つでWikipediaページへのリンクを示すデモを見ました。検索機能がありますが、それはGPT-4に含まれていますか?事実に基づいた場所から情報を取得して、応答を補強することはできますか?
現在リリースされているGPT-4には、組み込みの検索機能はありません。それは単に非常に優れた次の単語の予測器です。ちなみに、画像も処理できますが、それについてはまだ話していませんでした。これはデータと様々な強化学習の変種で微調整され、特定の方法で振る舞うようになっています。
おそらく、アクセス権を持っている人々の中には、GPT-4にクエリを実行し、その結果をコンテキスト内に含めるよう要求できる人がいるかもしれません。なぜなら、GPT-4のコンテキスト持続時間がかなり長くなったからです。
つまり、GPT-4は組み込みの検索をサポートしていませんが、検索、マルチモダリティを使用するとより良くなるということは完全に正しいです。
GPT-4はテキストと画像から学習し、テキストと画像の入力に応答する能力を持っています。まず、マルチモダル学習の基礎について教えてください。もちろん、トランスフォーマーによってテキストと画像をトークン化してマルチモダル学習が可能になりました。しかし、基礎的なレベルで、マルチモダリティがテキストだけの場合を超えて世界の理解をどのように向上させるのか教えてください。また、マルチモダル学習を行うと、テキストプロンプトだけの場合でもテキストの理解が実際に向上する可能性があるという理解をしています。マルチモダリティの基礎について、なぜそれがそんなに重要なのか、主要なブレイクスルーは何だったのか、そしてその結果としての特徴的な違いについて教えてください。
マルチモダリティには2つの側面があり、興味深い理由が2つあります。1つ目の理由はやや控えめなもので、マルチモダリティが有用だということです。特に視覚が有用です。なぜなら、世界は非常に視覚的で、人間は非常に視覚的な動物だからです。人間の大脳皮質の3分の1が視覚に dedicated されていると信じています。したがって、視覚を持たないことで、私たちのニューラルネットワークの有用性は依然として considerable ですが、可能な限り大きくはありません。これは非常に simple な有用性の議論です。単純に視覚を持つことが有用なのです。そしてGPT-4はかなり well に see することができます。
視覚に関する2つ目の理由は、テキストに加えて画像から学ぶことで、世界についてより多くを学ぶということです。これも powerful な議論ですが、一見ほど明確ではありません。例を挙げる前に、一般的なコメントをさせてください。
人間として、私たちは一生のうちに約10億語しか聞きません。たった10億語です。それは驚くべきことです。
ええ、それはそれほど多くありません。
そうですね、多くありません。自分の頭の中の言葉も含めても20億語にしかなりません。しかし、私が言いたいことがわかりますよね。
10億秒が30年であることを考えると、1秒に数語以上は見られないことがわかります。そして私たちは半分の時間寝ているので、一生涯で見る単語は数十億語程度です。だからこそ、できるだけ多くの情報源から学ぶことが本当に重要になるのです。私たちは視覚からずっと多くを学びます。
同じ議論が私たちのニューラルネットワークにも当てはまります。ただし、ニューラルネットワークは非常に多くの単語から学習できるという点が異なります。数十億語のテキストから世界について学ぶのが難しいことも、兆の単語からは簡単になるかもしれません。
例を挙げましょう。色について考えてみてください。確かに色を理解するには見る必要があります。しかし、一生に一度も光子を見たことのないテキストのみのニューラルネットワークに、どの色が互いにより似ているかを尋ねると、赤がオレンジに青よりも似ていることを知っています。青が黄色よりも紫に似ていることを知っています。
これはどのように起こるのでしょうか?一つの答えは、世界に関する情報、視覚的な情報でさえ、ゆっくりとテキストを通じて漏れ出てくるということです。ゆっくりとですが、確実に。しかし、大量のテキストがあれば、多くのことを学ぶことができます。
もちろん、視覚を追加し、視覚から世界について学ぶことで、テキストだけでは捉えられない追加のことを学びます。しかし、テキストだけから学ぶことが不可能なものがあるというわけではありません。これはより exchange rate のようなものだと思います。特に、人間のように10億語や1億語から学びたい場合、他の情報源がはるかに重要になります。確かに、人間のように限られた量の情報から学ぶ場合は、他の情報源がより重要になります。しかし、ニューラルネットワークは膨大な量のテキストデータから学習できるため、状況が少し異なります。テキストのみからでも驚くほど多くのことを学習できるのです。
とはいえ、視覚情報を追加することで、学習の質と範囲が確実に向上します。GPT-4のようなマルチモダルモデルは、テキストと画像の両方から学習することで、より豊かで文脈に即した理解を得ることができます。例えば、「赤いリンゴ」という概念について、テキストからその色や形状について学べますが、実際の画像を見ることで、その視覚的な特徴をより深く理解できます。
マルチモダル学習の主要なブレイクスルーの1つは、異なるモダリティ(テキストと画像など)の情報を同じ表現空間に効果的にマッピングする方法を見つけたことです。これにより、モデルは異なる種類の入力を同じように「理解」し、処理できるようになりました。
特徴的な違いとしては、マルチモダルモデルが以下のような能力を持つようになったことが挙げられます:

視覚的な説明や描写がより正確になりました。
抽象的な概念と具体的な視覚表現をより良く関連付けられるようになりました。
テキストと画像の間でより自然な変換や関連付けができるようになりました。
視覚情報に基づいてより適切な文脈を提供できるようになりました。

これらの能力は、純粋にテキストベースのモデルでは難しかったタスクを可能にします。例えば、画像内の物体を正確に識別し、その物体について詳細な説明を提供したり、画像に基づいて適切な質問に答えたりすることができます。
マルチモダル学習の重要性は、人間の認知により近い、より包括的な AI システムを作成できることにあります。人間は視覚、聴覚、触覚など、複数の感覚を通じて世界を理解します。マルチモダルAIはこの多面的な理解をより良く模倣し、より自然で文脈に即したインタラクションを可能にします。
さらに、マルチモダル学習は、純粋にテキストベースのタスクにおいても間接的に有益です。視覚情報から学んだ概念や関係性が、テキスト理解にも転移する可能性があるからです。例えば、「高層ビル」という概念について、テキストと画像の両方から学習したモデルは、テキストのみで学習したモデルよりも、その概念をより豊かに理解し、より適切に使用できる可能性があります。
このように、マルチモダル学習は AI システムの能力を大きく拡張し、より柔軟で汎用的な AI の開発に向けた重要なステップとなっています。

この記事が気に入ったらサポートをしてみませんか?