イリヤ・サツケヴァー | AGIは人類にとって戦略的な発展 | 安全性が重要

2024年8月10日 22:33

クリス、ご紹介ありがとうございます。聞こえていると思います。さて、ご招待いただきありがとうございます。いくつかのことをお話しさせていただきます。短い物語をお話ししますが、8分以内、実際にはもっと短くなります。AIの素晴らしいところは、その影響力に比べてシンプルなことです。量子力学や他の複雑な物理学、複雑な化学や数学とは違い、AIは本当にシンプルです。生物学的ニューロンに触発された人工ニューロンがあり、これらのニューラルネットワークがどのように学習すべきかを示す3つの方程式からなる数学的公式があります。これは逆伝播と呼ばれ、数学を知っている高校生に約30分で説明できるようなものです。でも魔法は、その結果が非常に影響力があったということです。
そして結果として起こったのは、AIで今まで行われたすべての素晴らしいことを支える1つのレシピがあるということです。そのレシピは、大きなニューラルネットワーク、つまり大きなデジタル脳を大きなコンピュータークラスターで実行し、先ほど説明した学習公式を実行し、そこに大量のデータを投入するというものです。そして次に見るのは、この公式をどのように変更し、ニューラルネットワークをどのように変更し、データをどのように変更するか、そしてそこから生まれる驚くべき魔法です。
6年以上前に共同創設者とともにOpenAIを始めたとき、私はニューラルネットワークが私たちを驚かせ続け、これまでに成し遂げてきた信じられないような進歩を続けるだろうという信念に動機づけられていました。ニューラルネットワークが進歩を続けていることは、おそらくここにいる誰もが信じていないでしょう。そのため、その影響は非常に大きくなり、社会のあらゆる側面、人間の活動のあらゆる部分に触れることになるでしょう。
この信念を持って、私たちはOpenAIを設立しました。AIの元々のSFの約束を実現するだけでなく、それを人類に利益をもたらすものにすることも目的としています。しかし今、いくつかの技術的な詳細に踏み込み、私たちが構築したいくつかのニューラルネットワークについてお話ししたいと思います。時間が非常に限られているので、かなり速く進めていきます。
GPT-3は、次の単語をうまく予測することを訓練目標とする本当に大きなニューラルネットワークです。次の単語を予測することの何が特別なのかと思うかもしれません。次の単語を予測することについては、数学的に行うことができます。ニューラルネットワークが次の単語を予測するのがどれだけ上手いかを測定することができます。しかし、それを十分にうまくやれば、次の単語をうまく予測すれば、何かを理解している必要があります。次の単語を予測するのが上手くなればなるほど、理解も深まります。推理小説を想像してみてください。探偵が本の最後で犯人の正体を明らかにしようとしているとき、注意深く読んでいれば、適切な次の単語を2つの推測、注意深く読んでいれば1つの推測に絞り込むことができるかもしれません。そこで、次の単語を予測することと理解することの間にリンクができます。
GPT-3については、多くの人が知っていると思います。当時は、このような方法でニューラルネットワークと通信できることは驚くべきことであり、前例のないことでした。質問したり、何かをしてもらったり、少数のショット学習をしたりすることができました。これは大きな驚きでした。今では1年半ほど経ち、もはや驚くべきことではありません。厳しい観客ですね。少し笑ってください。
ひとつ言及したいのは、GPT-3の使用事例についてです。これらのモデルのクールな点の1つは、もはや科学プロジェクトではなく、有用だということです。GPT-3はOpenAI APIを通じて公開され、数百の企業で実際に使用されています。私のお気に入りの使用事例を1つ挙げると、Trevor Projectと呼ばれるものです。彼らはGPT-3を使って、問題を抱えた10代の若者のふりをして、実際の問題を抱えた10代の若者と話すセラピストを訓練しています。これが私の一番のお気に入りのGPT-3の応用例だと思います。正直に言って、かなりクールだと思います。
GitHub Copilotについて簡単に触れておきます。これはMicrosoftとの共同プロジェクトで、コードの次の単語を予測する非常に優れたニューラルネットワークを訓練しました。驚くべきことに、ニューラルネットワークはこのタスクをかなりうまくこなすことができます。また、GitHub Copilotは非常に人気があります。プログラマーはこれを愛用しています。GitHub Copilotのユーザーがコミットするコードの30%はCopilotが書いたものです。これはかなり良い統計です。もちろん、これらのニューラルネットワークと同様に、これは終着点ではなく、むしろ前菜のようなものです。物事はもっと良くなっていくでしょう。
画像生成においても進展があったことをお聞きかもしれません。DALLEで何ができるかご存知でしょう。テキストを与えると画像を生成します。なぜそうするのか。テキストのみのモデルで多くの進歩を遂げましたが、世界はテキストだけではありません。ここにいる誰も、将来の強力なAIがテキストだけになると信じていないと思います。好きな画像をいくつかお見せしますが、インターネット上にはもっとたくさんあります。テキストには、その特定の画像を生成したキャプションが付いています。
これが気に入っています。本当に良い画像です。これは多くの人の注目を集めたと思います。パーシーもスライドでこれを使っていましたね。魚の形をしたコーギーが気に入っています。構成力がかなり優れています。魚とコーギーを理解し、それらが組み合わさったらどのように見えるかを理解する必要があります。紫色の部屋の毛皮のモンスター、モンスターにはとても適切だと思います。これはマウスの家族の美しい写真で、ズームインしてぼやけた背景があり、非常に芸術的です。ただ美しい絵画です。これはかなりメタ的だと思います。
残り1分しかありませんが、安全性と展開について話したいと思います。先ほど言及したように、OpenAIの目標は汎用AIを構築するだけでなく、古いSFのAIの約束を実現し、それを有益なものにすることです。つまり、私たちはますます強力なAIシステムを構築し、それらを安全にし、どのように展開するかを考え出すということです。残り30秒で、これらのシステムを展開するために使用している高レベルのプロセスについて説明します。
DALLEでかなりの作業をこのプロセスに費やしました。簡単に言うと、3つのステップから成り立っています。高レベルでは、事前に多くの計画を立てます。間違う可能性のある多くの方法、システムが持つ可能性のあるバイアスの種類、本当に好ましくない誤用の可能性について考えようとします。エキサイティングでクールなアプリケーションと否定的なアプリケーションのバランスをどのようにとるか、どのような制限を設けるかについて決定を下します。
トレーニングデータを修正し、システムの能力を修正するために、事後にさらなるトレーニングを行います。例えば、DALLEでは、認識可能な顔を生成できないように修正しました。この機能を削除するには追加作業が必要でした。
もちろん、モデルを展開する際には、APIの背後にあるサーバーに置き、徐々にその適用範囲を拡大していきます。人々がこれらのモデルをどのように使用し、誤用するかを学びながら、使用制限を慎重に微調整します。
これで私の話は終わりです。ご清聴ありがとうございました。
（拍手）
ありがとうございます。このセッションの最後の講演者は、ディスカッションの前のロブ・ライク・スタンフォード大学教授です。
さて、私は皆さんとランチの間に立っています。そして、あなたがたは一連の技術的な専門知識を持つ人々から話を聞きました。私は哲学者として訓練を受けました。ここで倫理・社会センターを指揮し、工学部全体で倫理を橋渡しする手伝いをしています。HAIの副ディレクターの一人として。
私たちはAIの時代に非常にシンプルなことを言って生きています。イリヤに全面的に同意して、AIは個人生活、職業生活、政治生活のあらゆる側面を変革しているということです。そして、これらの巨大な基盤モデルは、AIがもたらす変革の中で最新かつ潜在的に最も強力なものです。
そこで、今日の私の発言を、私に語りかけ、私たちの会話に関連していると思われる一節を共有することで枠付けたいと思います。その一節は次のようなものです：
「人類の発明の天才が過去100年間に私たちに与えてくれたものは、人間の組織力の発展が技術的進歩に追いつくことができていれば、人間の生活を心配のない幸せなものにすることができたはずです。現状では、機械時代のかろうじて手に入れた成果は、私たちの世代の手の中で、3歳の子供の手の中のかみそりと同じくらい危険です。」
これを書いたのは誰か分かりますか？1932年のアルバート・アインシュタインです。90年前です。
私たちの驚異的な技術的進歩と並んで、人類の組織力を前進させるために私たちは何ができるでしょうか、何をしなければならないでしょうか？これが今日の私たちへの問いかけです。これこそ、哲学者や社会科学者、人文学者が、私たちの驚異的な時代の技術的・科学的進歩に貢献できるところだと私は考えています。
哲学者からの一種の回答として、次のような理想を会話に挿入するかもしれません。正義について考えよう、公平なAIと機械学習モデルについて考えよう、公平性、透明性、説明責任、権力について考えよう。私たちの倫理的・政治的生活からよく知られている用語や概念、理想です。それらは重要な貢献です。
私の経験では、技術者と協力して仕事をする中で、彼らはそれらをほとんど興味深いとも独創的とも思っていないと言わざるを得ません。まるで技術者が正義や公平性、公平性、透明性、説明責任に興味がないかのようです。彼らは興味を持っており、これらの特定の分野で進歩を遂げるために、社会科学、人文科学、技術者の交差点で膨大かつ生産的な仕事が行われています。先ほどのプレゼンテーションでもいくつか聞きました。
そこで、私は異なるアプローチを取りたいと思います。現時点では公平な機械学習について話すつもりはありません。これらの問題について考える異なる方法を皆さんに提示したいと思います。それは、私が3つの異なるレベル、3つの異なる介入ポイントと呼ぶものを特定することです。これは、私たちの機械時代、このAI時代、今まさに夜明けを迎えている基盤モデルの時代の倫理的・政治的側面について考えるためのものです。
最初のレベルは、個人倫理と呼べるものです。人間として行動する際の関連する道徳的羅針盤を持っていますか？これは大学キャンパスの人々にとってはおなじみのことであり、より広い世界で話すおなじみのことです。私たちは皆、行動の仕方を方向づける何らかの道徳的羅針盤を持つべきです。
私は、倫理について考えるには最も興味深くない方法だと思います。なぜなら、第一に、人間は完璧ではありません。彼らは日常的に自分の道徳的羅針盤に従うことに失敗します。エリザベス・ホームズがスタンフォードを中退する前に倫理的推論のコースを受けていれば、そのような方向に行かなかったと思う人はいるでしょうか。あるいは、生活のあらゆる分野の他の人々、ランス・アームストロングやリチャード・ニクソンが、道徳的羅針盤を整えるのに十分な倫理コースを受けていれば、すべてが上手くいっていたでしょうか。いいえ、道徳的羅針盤は結構ですし、個人倫理も結構ですが、人間の脆弱性と道徳的失敗を前提に生活を組織する必要があります。なぜなら、それが人間の条件だからです。
そこで、倫理の2番目のレベル、2番目の介入ポイントは、私が専門職倫理と呼ぶものです。ある職業の人々が、共通の規範や責任の倫理の周りでどのように自分たちを組織し、自分たちの仕事を管理し、いわば法律や政策ではなく柔らかい方法で、専門分野がどのように進歩するかを規制するのでしょうか。残りの1〜2分で主にその分野に焦点を当てたいと思いますが、倫理の3番目の介入分野も特定しておきます。それは社会的または政治的倫理です。正式な政策、法律、規制についてどのように考えるべきでしょうか。
ここでHAIや、コンピューターサイエンス部門や公共政策の同僚たちと行ってきた作業の前提は、科学技術の進歩において、正式な法律や政策が賢明な方法でフロンティアに存在する能力は常に追い越されるということです。そのため、破壊と民主主義のこのレースにおいて、技術者や科学者は、規制当局が知識を持って行動できるよりも常に速く前進しています。
この一般的な観察から、部屋の多くの人々が共有するかもしれない反省を引き出します。それは、現在OpenAIが行っていることを考え、規制の防護柵を設置しようとしているワシントンDCの政策立案者に対する一種の疑念です。代わりに、私たちはAI科学者としての仕事を組織する専門職倫理や専門的規範について考える必要があります。なぜなら、規制当局がフロンティアについていく能力に頼るべきではないからです。
そこで、専門職倫理や専門的規範について考えると、生物医学研究分野を導く専門的規範と科学を比較して想像してみてください。生物医学研究では、ヒポクラテスの誓いのような古いものがあります。私たちには専門的な法的要件があります。大学や製薬会社で行われる人間を対象とした研究を導く機関審査委員会があります。食品医薬品局（FDA）という連邦機関があり、市場に出るものすべてに許可を与える必要があります。過去60〜70年の間に成長してきた生物医学倫理という学術分野全体があります。病院や企業には、組織的慣行の日常的な一部として倫理委員会があります。
対照的に、AIは発達段階の未熟な科学的探究の領域です。コンピューターサイエンスは正式には1950年代と60年代以降にしか存在していません。そして、過去15年間に起こったAIの最近の発展を考えると、このニューラルネット時代ははるかに若いのです。
挑発的な言い方をすれば、AI科学者には専門的規範や倫理の密な制度的足跡が欠けているということを考えるよう招待したいと思います。さらに挑発的に言えば、彼らは世界での力を認識したばかりの後期の10代の若者のようですが、社会的責任を与えるのに十分な前頭葉がまだ発達していません。専門的規範や倫理を急速に加速させて、AI科学者としての私たちの集団的な仕事を管理する必要があります。
例えば、ジェニファー・ダウドナを考えてみてください。21世紀を形作るもう一つの双子革命である遺伝子編集とCRISPRについて考えてみましょう。彼女は悪夢から目覚めます。ウォルター・アイザックソンが私たちに語るところによると、「もしヒトラーがこの技術を持っていたらどうなっただろうか」というものでした。そして彼女は、生物医学研究の専門団体内の専門家仲間を組織し、人間や人間の胚へのCRISPRの使用に対して自主的な一時停止を課しました。その一時停止を越えた人は誰も発表を許可されず、専門会議にも招待されません。その分野には強い専門的規範があります。
私の知る限り、AI科学者には生物医学研究に匹敵するような制度的接点がほとんどありません。私はそれをより若い分野だという考えに結びつけています。
イリヤや他の人々が技術的フロンティアを押し進めているのを聞きながら、私たちの技術的進歩に匹敵するペースで加速する組織的、制度的、専門的倫理を組織しているのは誰でしょうか、というのが私の質問です。
基盤モデルについて、4つの単純な質問で締めくくりたいと思います。
第一に、巨大なリスクがあることは分かっています。誤報や偽情報がステロイド剤を打ったようなものになること、雇用の置き換えについて聞きました。サム・アルトマンは先週、これらの発表の後でツイートしました。長い間、AIは低技能労働者の仕事を奪うと思われていましたが、実際には高技能労働者の仕事を最初に奪うかもしれないと。コーダー、イラストレーター、ライターが置き換えられるのであって、トラック運転手ではない、少なくともその順序でということです。そして、巨大な力の集中があります。これは、パーシーが言及した「基盤モデルの機会とリスク」という論文です。
そこで質問1：主導的なAI科学者たちは、専門的規範の開発を加速するために何をしていますか？責任ある開発とは何を意味するのでしょうか？OpenAIに質問を投げかけたいと思います。イリヤが話せると思います。過去に話したことがあるので、GPT-2からGPT-3への移行について、AIサイエンスで起こりうることに対して一種の政策的な上書きがあった制限付きリリースから、現在のGPT-3以降の異なる方向性への変化について話せると思います。
2つ目の質問です。民主主義理論について書いている者として、AIの民主化という考えに疑念を持っているということに驚かれるかもしれません。最も強力な技術へのアクセスを誰でも持てるように民主化し、それを敵対的な目的で使用する可能性のある人の手に渡すことは望んでいません。プルトニウムやウランへのアクセスが民主化されていないのは幸運なことで、それへのアクセスを制限するのは簡単です。しかし、世界中に公開されているAIモデルの場合、敵対的な使用を招いてしまいます。その点でAIの民主化から離れ、独立した研究者へのアクセスを開放するにはどうすればよいでしょうか？
3番目で最後の質問です。政治経済について考える必要があります。大学はこれらのモデルをフロンティアで作成するためのコンピューティング能力とデータセットを集めることができません。それは営利目的または上限付き営利企業が可能です。頭脳流出の問題、科学的探究や非商業的インセンティブではなく、科学のフロンティアを推進する商業的インセンティブについて考える必要があります。
以上です。質問や挑発的な問いかけであり、答えではありません。ご清聴ありがとうございました。
（拍手）
ありがとうございます、ロブ。そしてこのパネルで話をしてくださった皆さん、左端の大きなビデオモニターで代表されているコーデリア・シュミットさんを含めて、ありがとうございます。私たちのパネルの一部としてそこにいてくださってありがとうございます。
さて、これから30分間、議論と質問の時間を設けます。マイクに来る必要があるという次の部分は言う必要がないようですね。質問をしたい方のために3つのマイクがあります。ロブが講演の最後で投げかけた非常に大きな質問を含め、多くの質問があるようです。
始めるために、彼が投げかけた質問のいくつかよりもずっと小さな質問を1つさせていただきます。基盤モデルには明らかに安全な使用法があります。イリヤは、自殺防止ホットラインの人々を訓練するためのTrevor Projectの素晴らしい例を挙げました。これは訓練にのみ使用されるので非常に安全です。コーディングにCodexを使用するのもかなり安全そうですが、そこでも問題が起こる可能性は想像できます。しかし、安全ではない使用法も多くあるように思われます。基盤モデルの安全な使用と安全でない使用の境界をどのように定義できるかについて、皆さんの考えはありますか？パーシー、始めてもらえますか。
実際に、Codexには潜在的な問題があると言えると思います。生成しているコードを必ずしも理解していない人々がすでにいて、AIがコードを生成し、それが機能しているように見える場合、潜在的に悪質なセキュリティの脆弱性が忍び込む可能性があります。これは一般的に、デュアルユース技術に関する良い質問だと思います。大規模な基盤モデルを使用して薬物探索を行おうとしている場合は完全に問題ありませんが、明らかにスパムや詐欺、偽情報に従事している場合は禁止されるべきです。
これは、技術レベルではなく、使用条件や、これらのモデルがリリースされる際の追跡システム、人々が何に使用できるか、誤用された場合の報告メカニズムなど、より大きなシステムを整備することが重要だと思います。現在はこのインフラが不足しています。なぜなら、重点はこれらのモデルのトレーニングにあるからですが、モデルはより大きなエコシステムの中に存在する必要があります。
他に考えはありますか？はい、ファ。
パネルの早い段階で、システムに単に問い合わせることによる個人識別情報（PII）について誰かが話していたと思います。それを安全でない使用と考えるなら、安全性の境界は非常に異なります。
AIの安全性というタイトルの下で行われている小さな学術分野があることを付け加えたいと思います。これは特にAGIに到達するという願望に関する質問に適用されます。これらの質問への回答を探すための1つの場所です。しかし、政治哲学者としてこれについて考えると、単に道徳的な問題としてだけでなく、安全または安全でない使用として定義するものに関する大きな質問は、必然的に技術専門家や企業の専門範囲を超えているように思われます。企業にAI安全性チームを持つことは良いことですが、結局のところ、安全性に関する質問は社会的な問題であり、複数の利害関係者からの意見を必要とします。
さて、フロアからの質問に移りましょう。一番後ろのマイクの人から始めましょう。質問の前に簡単に自己紹介をしていただけると助かります。
はい、イーサン・ハミルトンです。スタンフォードで電気工学の博士号を取得し、地元のスタートアップでソフトウェアエンジニアとして働いています。2つの質問があります。1つは短いもので、おそらくイリヤに答えてもらえると思います。これらの基盤モデルを作成するのにかかるコストはどれくらいですか？トレーニング、研究者の給与、何でも結構です。障壁がどれくらい高いかを知るためです。これが1つ目の質問です。
2つ目はロブへの質問です。問題があることには同意しますが、FDAを完璧なモデルとして挑戦したいと思います。プロパブリカは、大手製薬会社のそれぞれが悪意のある薬物マーケティングで罰金を科されていると報告しています。これは合法化された薬物カルテルです。私たちは別のカルテルを作りたいのでしょうか？
ありがとうございます。これらのモデルの正確なコストについてはコメントできませんが、確かに安くはありません。単にコンピューティング能力だけでなく、非常に強力なチームが長期間一緒に働く必要があります。私の予想では、例えば大学がこれらのモデルの作成に参加したい場合、スタンフォードが行ったように、基本的に団結して多くのリソースを組織する必要があります。特に、大学がエンジニアリング面でいくつかの筋力を築く必要がある場所だと思います。お金を得ることはできますし、コンピューティング能力も得ることができますが、大学が研究を行う自然な方法は、そのようなシステムを本当に推進するために必要な組織的な取り組みとは異なります。したがって、これは大学が参加するために克服する必要がある別の組織的なハードルだと思います。
しかし、数千万ドルから数億ドルの範囲です。範囲には違いがあります。理解していますが、残念ながら現時点ではコメントできません。
そうですね、それについていくつかの論文があると思いますが、ロブに話を移しましょう。
FDAや独立した連邦機関、デジタル技術庁のようなものを作るべきだと言っているわけではありません。アナロジーとして、生物医学研究が何十年もかけて構築してきたものがここにあり、AIサイエンスに欠けているものがここにあるということを意味しています。一つの分野から別の分野へ専門的規範や制度設計をそのまま移植すべきだとは思いません。むしろ、制度設計の密度について考える方法として意図しています。もちろん、AIに目的に合った答えを考え出す必要があります。
イリヤへの質問がありますが、パネルの誰にでも答えていただけると思います。マルチモーダル・マルチタスクの基盤モデルの進歩を考えると、AGIをどのように定義しますか?そこに到達するためのマイルストーンは何ですか?具現化が鍵となるのでしょうか?それとも、人々が話していない他の要件はありますか?AGIの定義の仕方について。
確かに、AGIはやや曖昧な用語です。それを使う人々によって非常に正確には使われていません。北極星のような願望的な目標としてより理解されるべきです。AGIの時代に到達したことを知る方法の1つは、多くのコンピューターシステムが経済活動の大部分を行っているときです。これは客観的な基準です。なぜなら、誰かが研究室であなたのところに来て「見てください、これを手に入れました」と言っても、本当に何か現実的なものを見せられているのかどうかを本当に知ることはできないからです。しかし、AIが経済的に価値のあるほとんどすべての仕事を行っているため、経済が非常に速く成長している世界に住んでいるなら、それがAGIに到達したことを知る方法です。
現在のモデルは本当にエキサイティングで、多くの進歩を遂げています。その影響を本当に測定する方法は、実際に問題を解決するために現実世界でどれだけ使用されているかです。現時点では、これらのモデルはようやく研究室から出てきたところだと言えます。つい最近まで、AIは研究室でのベンチマークで多くのエキサイティングな進歩を遂げ、本当にクールな科学プロジェクトでした。現実世界に影響を与え始めたばかりです。まだたくさんの作業が必要です。モデルはもっと良くなり、もっと信頼性が高くなり、自分自身を説明し、問題を解決するために本当に私たちと協力する必要があります。これらすべてのことが起こる必要があります。その方向への非常に小さな一歩を見ています。これらのシステムができることについて、物事はもっとエキサイティングになるでしょう。
ファからの質問を受け付けましょう。その後、パットさんの番です。
技術的に興味深い質問から始めましょう。おそらくイリヤに主に向けられていますが、技術者の方々からも意見を聞きたいと思います。DALLEのコーギー魚の画像を見ると、平均的な人間にとって、コーギー魚を描くのは非常に難しいです。一方で、平均的な人間にとって、重力で倒れるおもちゃのキューブタワーを描くように頼まれたら、それはとても簡単です。そのような単純なタワー、おもちゃのタワーが倒れるという概念です。人間が生成するのが簡単なものと、機械にとって難しいものの間には不一致があります。これらのトランスフォーマーモデルの作成において、人間とDALLEの間のこの不一致を生み出すものについてコメントしていただけますか?
はい、コメントできます。その質問には実際に2つの異なるサブクエスチョンがあると思います。DALLEの場合、特定の設計と工学的選択がなされました。これらは本質的なものではなく、システムにより良い特性を持たせるために便宜的に行われました。そのため、あなたが言及したようなタスクのいくつかは得意ではありません。しかし、これらの制限は解除することができます。
これらのニューラルネットワークと人間の間のより深い、より根本的な違いを指摘したいと思います。これらのニューラルネットワークは、より幅広く、深さが少ないのです。言語モデルを考えると、言語モデルは人間が読むよりもはるかに多くの本を読んでいる可能性がありますが、人間は消費した情報をより深く理解しています。これが人間とAIの間のより根本的な不一致だと思います。
この不一致にもかかわらず、それらのシステムを改善するためにまだ多くの科学的ブレークスルーが可能であることは確かです。明確な改善の道筋がまだあり、時間とともにそれらの不一致も減少する可能性があります。
ファの最後の質問に対して、進歩をどのように考えるべきかについて簡単にコメントできるかもしれません。AIは伝統的に、孤立して測定される自律システムとして見られてきましたが、特に現実世界に展開される場合、何らかの制御下にあるか、人間の価値観と一致していることを望んでいます。したがって、人間は絵の一部でなければなりません。そして経済的影響について考えると、それが人間レベルの知能を構築するという古くからの夢とどのように正確に一致するかは明確ではありません。ある意味では、それは関係ないかもしれません。なぜなら、私たちが本当に欲しいのは、より良い社会を構築するのに役立つツールだからです。人間ができる特定のことができなくても、十分に定義された一連のことを上手く、堅牢に、偏りなく行うことができれば、それは非常に大きな影響を与える可能性があります。これが、人間の物差しと比較するのではなく、これらの技術の価値を評価する方法を考えるべき枠組みかもしれません。
パットからの質問を聞いてみましょう。
ありがとうございます。これは主にクリスティンとパーシーに向けたものですが、おそらく私が何を言おうとしているか想像できると思います。スタンフォードで聞くすべての講演の後に私が言うことだからです。
最高の科学と最高の工学は、以前の仕事の失敗と成功の上に構築されます。AIには成功と失敗の長い歴史がありますが、1970年代から産業界にAIシステムが展開されてきました。1980年代後半には、ディープニューラルネットワークが登場する遥か前に、機械学習を使って構築されたシステムが展開されていました。自然言語処理では、古典的な自然言語技術を使用してさまざまなアプリケーションに使用されたシステムがたくさんありました。あなたがたもそのいくつかで訓練を受けたと思いますし、コースでもまだカバーしていると思います。
基盤モデルについて話を聞くと、確かに多くの進歩があり、結果は印象的ですが、その進歩と古典的なアイデアの一部を組み合わせて、両方の長所を生かす方法があるはずだと思います。特に、人間中心のAIに関する会議では、それらの古いアプローチの一部は、人間が言語を処理する方法について私たちが知っていることとはるかに密接に結びついています。それをどのように行うことができるか、またはそれが悪いアイデアだと思うかについて何か言えますか?
はい、パーシー、それを引き受けてください。
確かに引き受けることができます。知識表現や推論のような、決して消えることのない古くからのものがいくつかあると思います。しかし、今日の私たちが知っている能力を考えると、70年代のものの多くはおそらく関連性がありません。
これらの技術の考え方の1つは、非常に優れたシステム1だということです。本能的に要求に応じて物事を生成することができます。しかし、非常に長期的で洗練された推論については、特に最新の多段階推論のようなものでは良くなっていますが、まだそこまでは達していません。確かに、私たちが持っているような明瞭さはまだありません。その部分はまだ欠けています。残っている問題は、既存の方法で到達できるかどうかです。これは開かれた問題だと思います。私はそれについてオープンマインドでいたいと思います。なぜなら、過去数年間、これらの技術がどのように機能するかについて驚かされてきたからです。誰もが驚いたと思います。しかし、一般化の方法の原則のいくつかを保持することは非常に価値があると思います。例えば、...
たくさんの質問があるので、ここで切り上げなければならないと思います。後でパーシーと話をして続きを聞くことができるでしょう。
パット・ラングです。ありがとうございます。
コーデリアを会話に引き込んでみましょう。より人間中心になるというテーマに触れて、マルチモーダルモデルについて生産的な研究がなされてきましたが、ほとんどの視覚的研究は単に画像を使用しただけです。これは確かに、私たちの周りの動く世界を見ているのと同等のビデオだけでなく、人間の学習とは異なります。人間の発達研究では、小さな子供たちが学ぶための相互作用の絶対的重要性が示されています。ビデオを見るだけでさえ、あまり効果的ではありません。
これは、マルチモーダル基盤モデルに対して、我々は何か全く異なることをすべきだということを意味するのでしょうか? 最も挑発的に言えば、DALLEのようなものは本当に人間レベルの人工知能に向かう正しい方向ではないので、行き詰まりだと主張することもできるでしょうか?
はい、コーデリア、何かコメントはありますか?
はい、基本的に次のステップは本当にビデオを使用することだと思います。なぜなら、例えば落下するキューブについては、それらから学ぶために動きの情報が必要だからです。音声や言葉と対応するすべての情報があります。そのため、情報の目的がはるかに豊かになります。また、明らかにビデオは画像の拡張として見ることもできます。テキストから画像を生成できるからといって、次のステップが文からビデオを生成できるということではありません。ビデオはより多くのことを可能にすると思います。
そして、ビデオにはマルチモーダル情報があります。これらの基盤モデルやトランスフォーマーモデルの1つの特徴は、このマルチモーダル情報を非常によく捉えることができることです。これらのモデルでは、異なるモダリティ間の対応関係を自動的に学習できるため、マルチモーダル表現を設計するのがはるかに簡単です。
そして明らかに、より一般的な知能に向かうためには、世界とのインタラクションも必要です。しかし、それは私たちがまだ見始めたばかりのことだと思います。これらのモデルが実際に環境とのインタラクションをどのように統合できるか。そして、それが次のステップになると思います。
コメントはありますか?
はい、簡単なコメントをさせてください。これらのモデルの進歩を考える1つの方法は、徐々に進歩していくということです。テキストのみのモデルで多くの進歩を遂げ、それらが学べることに驚かされました。もう1つのモダリティを追加しましたが、おそらく完璧ではなく、おそらくこれがモダリティを追加する最終的な方法ではありません。いくつかの探索が必要になるでしょうが、最終的には合理的に安全な賭けとして、非常に有用なモダリティのパッケージングを見つけ出すことができると思います。そうすれば、システムはより多くを知り、人間の世界をよりよく理解し、私たちとよりよく相互作用できるようになるでしょう。これは解決される技術的な問題だと思います。
素晴らしいです。後ろの方、はい?
エイレンです。スタンフォードの学生で、レオン教授の最初のAIクラスを受講しました。本当に感謝しています。レオン教授、そしてあなたは、一般的なモデルを特定のドメインに適応させるプロセスについて言及されました。私の質問は実際にイリヤに向けたものです。GPT-3を使ってアプリケーションを構築しました。ちなみに、OpenAIは非常に良い安全性レビュープロセスを持っています。そのプロセスを経て承認を得て、グローバルローンチを行いました。
私が観察したのは、一般的なモデルを特定のドメインにカスタマイズするオプションが非常に限られているということです。オプションはありますが、非常に限られています。私の質問は、OpenAIはGPT-3やDALLEのカスタマイズと設定可能性をより多く許可する計画はありますか?
はい、将来的にはこれらのモデルをカスタマイズする能力が増加すると期待できます。ファインチューニングを通じてカスタマイズすることができます。しかし、もう1つのコメントをしたいと思います。それは、将来的なこれらのモデルのカスタマイズ可能性の形についてです。
現在私が信じている1つの見方は、ニューラルネットワークを取り、何らかのベンチマークがあり、そのベンチマークでニューラルネットワークを微調整すると、テストセットで本当に良いパフォーマンスが得られますが、それはシステムが実際にそれほど良いということを意味するわけではありません。これは、おそらく2010年代半ばのImageNetデータセットで最も顕著だったと思います。人々がImageNetで人間レベルのパフォーマンスを報告し始めましたが、システムが明らかに人間レベルではなかったときです。
これは何を意味するのでしょうか? 隠れたオーバーフィッティングが微調整時に発生していると思います。そのため、いくつかのことが起こる必要があります。微調整技術自体が改善され、強力な基本モデルの一般化の多くを保持できるようになる必要があります。そして、ゼロショット評価が最高で最も信頼できるパフォーマンスを提供することがわかるでしょう。テストセットでゼロショットまたは少数ショットで得られるパフォーマンスは、実際に得られるパフォーマンスです。したがって、システムを評価する際のはるかに正直なパフォーマンス指標となります。
申し訳ありません。
おそらくこの質問は、ラガン教授に最適だと思います。私はただ curious でした。この「基盤モデル」という用語の学術的に正確な定義は何でしょうか? モデルが大きくなり、何十億ものパラメータを使用し、期待されたタスクを超えて一般化できるようになっているというのはすべて素晴らしい特性ですが、これが基盤モデルであり、これは違うと正確に言える方法があるのか疑問に思っています。これは産業の変曲点についての漠然としたコメントなのか、それとも実際にこれが基盤モデルだと言えるものなのでしょうか?
はい、それは良い質問です。私たちはこれについて多くの時間を費やして考えました。実際に、私たちのウェブサイトに詳細を説明したブログ記事があります。簡単に言えば、それはスペクトルです。例えば、ELMOは基盤モデルでしょうか? おそらく。BERTはおそらく基盤モデルです。GPT-3は間違いなく基盤モデルです。
私が講演で述べた定義は、幅広いデータで訓練され、幅広いダウンストリームタスクに適用できるモデルです。これらは確かにファジーな用語ですが、データの幅広さが重要だと思います。また、幅広いデータについて話すとき、それは自己監視や大規模なトレーニングなどの他の特徴も意味します。なぜなら、それらがなければ本当に幅広いデータで訓練することはできないからです。
多くの... 幅広さが主要な定義要因だと考えることができます。そして、現在の技術の状況を考えると、トランスフォーマーを使用するか、バックプロパゲーションを使用するかなどの多くのことが、それに続いて出てきます。10年後には、トランスフォーマーを使用せず、別のものを使用し、少し異なる方法で訓練するかもしれません。おそらく強化学習を使用するかもしれません。しかし、それは基盤モデルの本質を変えるものではありません。
幅広いデータで訓練された大規模なモデルは基盤モデルです。
幅広いデータセットで訓練され、また一般化して適用できるモデルですね。
はい。
わかりました。ファ、もう1つ質問を受け付けましょう。
この質問は完全にロブに触発されています。ロブの講演だけでなく、過去3年間彼が私と一緒に働いてきたことにも触発されています。しかし、これは技術者に向けた質問です。
ロブは、専門的規範と倫理の必要性について話しました。ロブはまた、スタンフォードの私たちすべてに、アルゴリズムの設計に倫理を組み込むことを考えるよう触発してきました。
コーデリア、イリヤ、パーシーに尋ねたいのですが、大小を問わず基盤モデルを構築する際に、あなたやあなたの組織は倫理を基盤モデルに組み込むために具体的に何をしていますか?
はい、OpenAIのプロセスについてコメントできます。これらのモデルをリリースする際に、可能な限り多くの有益な使用を捉えながら、有害な使用や望ましくないバイアスを可能な限り抑制する方法についてです。プレゼンテーションの最後のスライドで言及しましたが、もう少し詳しく説明したいと思います。
私たちはこれについて多く考えています。これらの問題に対する良い実践的な答えを見つけることは、一般的なAIを構築し、それを人類に利益をもたらすものにするというOpenAIのミッションの中核的な部分だと考えています。新しい能力レベルごとに、これらのシステムを実際にどのように展開するかを理解したいと思っています。
逸話を1つ紹介します。GPT-3を訓練したとき、私たちはすでにこれらの問題の多くに備えていました。また、他の誰もそのようなモデルを持っていなかったという贅沢さもありました。そのため、GPT-3を使用するためのすべてのアプリケーションリクエストを手動でレビューするのに、ほぼ1年もの長い時間をかけました。そして、どのような使用事例が問題ないか、どのような使用事例がより問題があるかについて、非常に大量の制度的な専門知識を構築しました。いくつかの曖昧な判断もありました。
今日私たちが収束したプロセス、そして今後も改良を続けるプロセスは次のようなものです。まもなく登場する能力を見て、思考だけで予測できるさまざまな使用方法を予想し、カテゴリ化しようとします。リストを作成し、これは興味深く、サポートしたいと思うもの、これは本当にサポートしたくないと思うものを言います。そして、それらの予測に基づいて次のステップについて決定を下します。
例えば、フィルタリングを使用してトレーニングセットを変更したり、完成したモデルの上に追加のトレーニングを行ったりする場合があります。例えば、最近発表した作業では、人間からのフィードバックによる強化学習を使用して、GPTモデルにユーザーの意図と指示にはるかに密接に従うように教えました。これらの作業を行ってきました。
そして3番目のステップでは、モデルは私たちのサーバー上にあり、サポートしたいクエリの種類や特定のアプリケーション、使用方法について非常に正確な制御を行っています。使用ポリシーもあります。
この時点で他の人の意見も聞いてみましょう。コーデリア、専門的規範についてまず考えを聞かせてください。その後、パーシーにも聞きます。
実際に、これらのモデルを訓練するために使用するデータに関する質問に結びつきます。入力するデータが何かわからなければ、出力に対する保証はありません。これは、私たちがもっとよく理解する必要がある中心的なポイントだと思います。どのようなデータが入力されるのか。
言語については、データがどのコーパスから来ているかを知っています。これにより、例えば本で訓練した場合、そこに誤情報が含まれていないという保証が得られます。しかし、ランダムなコンテンツを使用する場合は、本当にデータを作成する必要があります。これが、どのデータが入力されるかを知ることが本当に重要な理由の1つです。これが最初のことです。
2つ目は、これらのモデルをより解釈可能にすることです。なぜこの答えが与えられたのか、それがどこから来たのかについてのアイデアを持ち、それを追跡し、おそらくデータを削除することができます。
イリヤの1つに対するフォローアップとして、OpenAIがこれらの措置を講じて安全性を確保していることは素晴らしいと思います。しかし、それだけでは十分ではないと思います。これらのモデルの表面積が非常に広いという意味で、個々のチーム、OpenAIやスタンフォード、誰であれ、どのような決定を下すべきかを本当に決定する能力や権限さえ持っていないと思います。
例えば、有毒な情報をフィルタリングする方法について、いくつかの難しいトレードオフがあります。フィルタリングすると特定のグループを疎外する可能性があります。ここには常に緊張関係があり、それはより公開的で可視的な議論を必要とすると思います。
また、多くの大規模な基盤モデル開発者と話をしましたが、リリースについて、何が安全で何が安全でないかについて、人々は非常に異なる意見や規範を持っています。コミュニティとしてもっと協調して行動し、どのような問題があるのか、どのようなトレードオフがあるのかについて同じページに立つ必要があると思います。価値観や使用事例が少し異なるので意見が分かれるのは構いませんが、ある程度のコンセンサスの形成が必要だと思います。ここで私たちは不足していて、必要としているものです。
ロブ、何かありますか？
はい、誰にでも結構ですが、イリヤの発言に対する回答として、パーシーに同意します。これらの一般的な適応を持つ基盤モデルについて話しているなら、OpenAIのチームの規模に関わらず、プロセスがどれほど長く慎重であっても、介入や制限したい使用事例を想像しようとしても、何百万もしくは潜在的に何十億人もの人々がアクセスできるとすれば、想像もできないような使用事例が出てくるでしょう。
これは、再びパーシーに同意しますが、どのチームも可能なすべての使用事例を想像できないことを意味します。そこで疑問に思うのは、内部で使用した枠組みについて公開で話し、フィードバックを求めるのはどうでしょうか。この1年間のプロセス、どれだけ長かったにせよ、OpenAIはどのような枠組みを使って価値のある使用事例と価値のない使用事例を区別したのでしょうか？
質問の最初の部分についてコメントしたいと思います。これらのモデルをリリースする重要な方法の1つは、段階的にリリースすることです。「新しいモデルができました。10億人のユーザーの皆さん、使い始めてください」と言う代わりに、「まず100人のユーザーから始めて、彼らが何をするか見てみましょう」と言います。そこから学び、次の100人、次の500人とリリースし、その経験に基づいてポリシーと様々なコントロールを微調整していきます。
言い換えれば、非常に大きな不連続なリリースを行い、危機に直面する可能性があるのではなく、非常に小さなリリースを行い、何が起こっても生産的に学び、それを取り入れることができます。この段階性が非常に重要です。
将来的にますます重要になるもう1つのことは、AI能力自体がこれらの決定を下すのを助けるということです。現在、AIはそれほど優れていないので、使用事例を決定し、なぜその使用事例が良いのか悪いのかを説明するのに頼ることはできません。しかし、将来的にはそれが変わると予想されます。それは、そのようなシステムを展開し、その大きな表面積に対処するためのツールボックスの非常に重要なツールになるでしょう。
使用した具体的な枠組みについてのあなたの質問に答えると、これらは私たちが行っていたときには非常に新しいものでした。そのため、かなり制限的で保守的なアプローチを取りました。慎重を期すことにしました。これが私が使用した枠組みの一般的な説明です。制限的に始めて徐々に拡大する方が、過度に許容的に始めて後で縮小するよりも良いと判断しました。これが枠組みの1文要約かもしれません。
ここで話を切り上げなければならないと思います。これは素晴らしい議論でした。ファの質問への回答だけでもさらに1時間議論を続けられそうです。他にも質問したかった方がいらっしゃったことは承知しています。申し訳ありませんが、すでにランチの時間を食い込んでいるので、それは良くないことだと思います。昼食時に講演者を捕まえるか、他の昼食者と話をするか、あるいはHAIに質問を送っていただければと思います。
もう一度、パネリストの皆さんに、この刺激的な議論に感謝を申し上げます。

この記事が気に入ったらサポートをしてみませんか？