生成AIの現在位置と将来：元OpenAI、元TeslaのAI研究者アンドレイ・カルパシー氏が語る

2024年5月13日 08:35

　2024年3月20日、セコイアキャピタルがAIのリーダーたちを集め、今回で2回目の開催となる「AI Ascent 2024」というイベントをサンフランシスコで開催しました。このイベントには、AI業界の先頭を走る創業者や研究者100人が集まり、講演やファイアサイトチャット、様々な議論が行われ、主な出演者としては、OpenAIのサム・アルトマン氏、Figmaのディラン・フィールド氏、Mistralのアルフレッド・メンシュ氏、Anthropicのダニエラ・アモデイ氏、AI Fundのアンドリュー・ン氏、ServiceNowのCJ・デサイ氏、そして、元OpenAI、元Teslaの研究者のアンドレイ・カルパシー氏が名を連ねました。

　この記事では、OpenAIの創業メンバーであり、イーロン・マスク配下でオートパイロットの開発部隊を率いた経験を持つアンドレイ・カルパシー氏のインタビュー形式での講演内容を翻訳してお伝えします。

　35分を超える講演では、主に以下テーマについて、彼の見解や将来見通しなどが紹介されています。
　最前線で活動する研究者の声をフランクに聞くことのできる良いセッションだったと思います。

AGI（人工汎用知能）の可能性
LLMの研究開発トレンドやLLM OSの考え方
イーロン・マスクのリーダーシップ
コンピューター・アーキテクチャの重要性と課題
オープンソース・モデル、オープン・ウェイト・モデル、プロプライエタリ・モデルによるエコシステム
AIエコシステムの競争と未来

アンドレイ・カルパシー氏の経歴

　アンドレイ・カルパシー氏は、1986年10月23日にチェコスロバキア（現スロバキア）で生まれたスロバキア系カナダ人のコンピュータ科学者です。彼は15歳の時に家族と共にトロントに移り、トロント大学でコンピュータサイエンスと物理学の学士号を取得した後、ブリティッシュコロンビア大学で修士号を取得し、スタンフォード大学で自然言語処理とコンピュータビジョンを交差する分野でフェイフェイ・リー教授（Fei-Fei Li）の指導のもとで博士号を取得しました。
　スタンフォード大学で「CS 231n: 視覚認識のための畳み込みニューラルネットワーク」というディープラーニングコースの著作と主任講師を務め、非常に人気を博しました。
　また、OpenAIの創設メンバーとしても知られ、2015年から2017年まで同社で研究者として従事。2017年にはイーロンマスクに引き抜かれ、テスラでオートパイロットチームを率いる人工知能担当ディレクターに就任。イーロン・マスク氏の直属で自動運転技術の開発を推進しました。
　その後、2022年にテスラを退社し、2023年に一時的にOpenAIに復帰しましたが、2024年に再び退社し、現在は独立し、自身のプロジェクトで活動しています。以下は、彼のYoutubeチャンネルです。

セッション内容

［イントロダクション］
　本日の最後のスピーカーとして、アンドレイ・カルパシーを紹介できることをとても嬉しく思います。アンドレイの紹介は不要かもしれませんね。多くの方が彼のYouTubeビデオをじっくりとご覧になっていると思いますが、彼はディープラーニングの研究で特に有名です。スタンフォード大学でディープラーニングの授業を初めてデザインした人物であり、OpenAIの創設チームのメンバーでもありました。さらに、テスラでコンピュータービジョンチームを率いていた経験もあり、OpenAIを去った後は再び謎に包まれた存在となっています。アンドレイが今日ここにいてくれることは本当に幸運です。彼はまさに夢のようなスピーカーであり、彼とステファニーにこの一日の締めくくりをしていただけることを楽しみにしています。ありがとうございます。

［Stephanie Zhan：Sequoia Capital］
　アンドレが最初にここに到着したときの反応は、彼自身の写真を見て「オー、マイ・ゴッド」と言ったことでした。

［Andrej Karpathy］
　とても威圧的な感じがしますね。

［SZ］
　何年に撮られたのかはわかりませんが、彼は感動していますね。
アンドレイ、今日は本当にありがとうございます。おかえりなさい。

［AK］
　ありがとうございます。

［SZ］
　多くの人が知らない楽しい事実があります。ここにいる皆さんの中で、OpenAIの最初のオフィスがどこにあったかご存知の方はどれくらいいるでしょうか？

［会場］
　ここだと思いますね。

［SZ］
　そうここ、サンフランシスコ・オフィスの反対側で、実はあなた方の多くがちょうど集まっていたところだ。これは私たちにとって楽しいことで、私が初めてセコイアに入社し、アンドレイが最初にOpenAIを共同設立した頃のルーツに戻れるんだ。
　アンドレイ、ウィリー・ウォンカ（Willy Wonka）が一流のチョコレート工場で働く夢を実現したように、ここで働いていて良かったと感じた瞬間はありますか？

［AK］
　そうですね、OpenAIの最初のオフィスはここにあって、実はグレッグ（Greg Brockman – OpenAI President）のアパートの後に設立されたんです。面白いことに、チョコレート工場がすぐ下にあったため、いつも良い香りがしていました。その頃のチームは10人か20人以上いたと思いますが、ここでいくつか楽しいエピソードがありました。その中の一つが、ついこの間のGTCでジェンセン（Jensen Huang / NVIDIA CEO）が話していたことです。彼は、どのようにしてOpenAIに最初のDGXを持ち込んだかを説明していました。その出来事はまさにここで起こり、その時には全員がサインをしました。そのサインは今でもその部屋にあります。

［SZ］
　アンドレイについて紹介する必要はないかもしれませんが、彼のこれまでの歩みについて少し裏話をお話ししたいと思います。ソニアが紹介した通り、彼はジェフリー・ヒントン（Prof. Geoffrey Hinton）に師事し、その後フェイ（Dr. Fei-Fei Li）の下で学びました。彼が最初に有名になったのは、スタンフォード大学でのディープラーニングのコースからです。
　2015年にはOpenAIを共同設立し、2017年にはイーロン（Elon Musk）に引き抜かれました。私はこのことをはっきり覚えています。文脈がわからない方のために説明しますと、当時のイーロンのもとでは、自動操縦のリーダー6人がそれぞれ6カ月ずつ続いていました。アンドレイがこの仕事を引き受けたとき、「おめでとう、幸運を」と思ったことを覚えています。それから間もなく彼はOpenAIに戻り、昨年からはそこにいます。
　今、彼は私たちとは違い、自由と責任という究極の栄光に浸っています。今日はどんな話を聞かせてくれるのか、とても楽しみです。私がアンドレイを最も高く評価している点は、未来派思想家としての驚くべき魅力、あくなき楽観主義、そして実践的な建築へのアプローチです。これらの資質により、今日はこれらのトピックに関して彼の貴重な洞察のいくつかを私たちと共有してくれると信じています。彼の視点は常に啓発的であり、彼の経験や考えから新たな洞察を得ることができるでしょう。

　手始めに、AGI（人工汎用知能）は7年前でも、私たちが生きている間に実現するのは不可能に思えました。しかし、それが今、目の前に迫っています。今後数年間で、どのような未来像を描いているのでしょうか？

［AK］
　数年前までは、AGIについてはどうなるかはっきりとしなかったと感じていました。それはとてもアカデミックで、さまざまなアプローチが考慮されているようなものでした。しかし今は、状況がとても明確になり、たくさんのスペースが存在し、みんながそのスペースを埋めようとしています。そして、多くの最適化が行われています。大まかに言うと、みんな私がLLM OSと呼んでいるものを作成しようとしています。私はこれをオペレーティングシステムとして考えています。
　基本的には、この新しいCPUや何かに接続するための多くの周辺機器を手に入れる必要があります。周辺機器とは、テキスト、画像、音声、さまざまなモダリティを指します。そして、LLMトランスフォーマー自体がCPUとなります。このトランスフォーマーは、私たちがすでに構築したソフトウェア1.0のインフラに接続されています。だから、誰もがこのようなシステムを構築し、それを経済の隅々までカスタマイズ可能なものとして利用できるようにしようとしています。つまり、比較的自己完結型のエージェントに高レベルのタスクを与え、さまざまな方法で特化させることが可能です。これは非常に面白く、興奮する展開です。1つのエージェントだけでなく、複数のエージェントが活動するのは、どのようなものになるのか。

［SZ］
　それで、もし本当にそのような未来が訪れるなら、私たちはどんな生き方をすればいいのでしょうか？

［AK］
　私にもわからないです。でも、私たちはそれを築き上げて、影響を与えて、良いものになるよう確認し、そして、はい、うまくいくように努力しなければならないと思います。

［SZ］
　今、あなたが自由で独立したエージェントとして活動しているこのタイミングで、私は部屋の中の象であるOpenAIがエコシステムを支配している点を取り上げたいと思います。今日ここにいる聴衆の多くは、OpenAIによって一夜にしてすべてを奪われないようにと願いながら、自分たちの小さなニッチ市場を切り開こうとしている創業者たちです。OpenAIの野心がさらに大きくなっても、OpenAIが支配し続ける分野と、他のプレーヤーが新しい独立した会社を立ち上げるチャンスがある分野はどこだと思いますか？

［AK］
　そうですね、基本的にOpenAIはこのLLM OSを構築しようとしているわけです。そして、今日聞いた通り、さまざまな企業や業種を位置づけることができるプラットフォームを開発しているところです。例えば、Windowsを見てもわかるように、これも一つのオペレーティングシステムですよね。WindowsにはEdgeブラウザが付属しています。同様に、OpenAIや他の企業もいくつかのデフォルトアプリを提供するかもしれません。つまり、デフォルトのアプリはいくつか存在しますが、経済の隅々まで細かく調整されたさまざまな種類のアプリからなる活気あるエコシステムが存在する可能性があるのです。初期のiPhoneアプリの例を挙げると、それらはジョークのようなものでしたが、発展するには時間がかかりました。今、まさに同じようなことが起こっていると思います。何が得意で何が苦手か、どうすればうまくいくのか、どのようにプログラムすれば良いのか、どのようにデバッグすれば良いのか、どうすれば実際にタスクをこなせるようになるのか、また、どのような監督が必要か、という点が大事です。かなり自律的ではありますが、完全な自律ではないため、監督や評価がどのようなものであるべきか、さまざまな心理学的な側面も理解しなければならないと思います。このインフラをどう使うか、その理解には時間がかかるでしょう。だから、今後数年間はそういう状態が続くと思います。

［SZ］
　現在、OpenAIやAnthropic、Mistral、Llama、Geminiといった様々な企業が、大規模言語モデル（LLM）の分野で競争を繰り広げていますね。オープンソース・モデルのエコシステム全体が小さなモデルのロングテールになっています。このエコシステムの将来をどのように予測していますか？

［AK］
　そうですね。オープンソースの例えは申し訳ないが、確かに、オープンソースのエコシステムをオペレーティングシステムに例えるのは面白い視点ですね。Linuxのように、さまざまなディストリビューションが存在するのと同様に、言語モデルの世界でも多種多様なモデルが存在しています。ただ、LlamaやMistralのようなモデルは、実際には完全なオープンソースとは言えず、これらはむしろオペレーティングシステムのバイナリを放って渡すようなもので、動かすことはできるがその実は使いものにならない。
　そして、LLM360やOLMoのようなシステムでは、オペレーティングシステムのコンパイルやデータモデルの学習、データの収集に必要なインフラを完全に公開していますね。バイナリだけが提供される場合よりも、確かに便利です。また、モデルをファインチューニングすることができるのは大きな利点ですが、完全なファインチューニングが難しいというのも理解できます。ファインチューニングを重ねるほどに、他の要素との整合性が取りにくくなってしまうのは難しい問題ですね。
　例えば、新しい能力を追加したい場合、実際に必要なのは他の能力を低下させることなく、以前のデータセット分布と新しいデータセット分布を組み合わせて訓練することです。ただ重みを与えられただけでは不十分で、実際にはトレーニングループや適切なデータセットが必要になります。これにはモデルをどのように扱うかという制約が伴います。オープン・ウェイト・モデル、オープンソース・モデル、プロプライエタリ・モデルといった異なるモデルが存在し、それぞれがエコシステムの一部となっています。このような状況は、既存のエコシステムと非常に似た形で存在するかもしれませんね。

［SZ］
　そして願わくば、あなたがこれからもその構築を手伝ってくれることを期待しています。

　ここで触れたいもう一つの重要なポイントは、「スケール」という要素です。一見すると、データのスケールや計算のスケールがすべてのように感じられるかもしれませんね。確かに、大規模な研究所や大手ハイテク企業は、そのスケールから多大な利点を持っていると言えます。でも、それだけが全てでしょうか？そうではないとしたら、他にどんな要素が影響していると思いますか？

［AK］
　確かにスケールは非常に重要な要素ですね。データセットの大きさやそれをどのように活用するか、計算効率を高めるための様々な技術が重要です。これにはデータの管理、アルゴリズムの改善、そしてもちろんモデルのトレーニングやスケーリングが含まれます。そのため、スケールが重要な決定要因になるというのは納得がいきます。
　ただ、スケールだけではなく他にも考慮すべき点があります。スケールがある程度の「制限速度」を設けているとも考えられますが、大規模なモデルのトレーニングには避けて通れない要素です。しかし、モデルをファインチューニングする際などは、スケールを小さくして対応することも重要ですね。それには、精度を維持しつつ効率的に処理する技術も必要になります。

［SZ］
　また、重要であると思われる成分についてもう少し詳しく説明してもらえますか？　スケールよりも優先順位が低いかもしれませんが。

［AK］
　そうですね、最初に考えるべきことは、お金や規模があっても、これらのモデルを単に訓練することはできないという点です。これらのモデルを作るのは、実はとても難しいんです。その一因として、インフラがまだ新しく、発展途上にあるからです。加えて、これらのモデルを大規模にトレーニングすることは、非常に複雑な分散最適化問題になりますし、必要な人材も現在かなり不足しています。何万台ものGPUで動かされるわけですが、それぞれのGPUがランダムにトラブルを起こすことがあるため、非常に難しい課題だと思います。
　また、GPUも、つい最近まで1万台というワークロードを想定していなかったので、多くのインフラがそのプレッシャーで苦労しているのではないでしょうか。それを克服する必要があります。でも、今、誰かに大金や大規模なリソースやGPUを提供しても、その人が単にこれらのモデルを作ることは難しいと思います。
　実際には、インフラ面でもアルゴリズム面でも、そしてデータ面でも、専門知識が大量に必要ですし、それらを慎重に扱う必要があります。これが主な要素だと考えられます。

［SZ］
　エコシステムの動きが速いことは、本当に驚くべきことですね。今、LLMの研究では、ハルシネーションやコンテキストウィンドウ、マルチモーダル機能の改善、そして推論をより良く、より速く、そしてより安くする方法が追求されています。今日のLLMにとっての重要な研究課題は何でしょうか？　解決可能な問題でありながら、追い求める価値のあるものは何だと思いますか？

［AK］
　アルゴリズムの面で考えてみると、拡散モデルと自己回帰モデルの違いについて注目していますね。どちらも問題を提示する方法として分布を使っているわけですが、異なるモダリティによって、どちらかのモデルが適していることが明らかになりました。ここから、両方のモデルを統一したり、両方の長所を活かしたハイブリッドアーキテクチャを実現する方法について考える余地があると思います。現在、モデルの空間には二つの異なる優れた定点がありますが、その間に何もないのはおかしいと感じています。この点を掘り下げると、非常に興味深い問題が浮かび上がってくるはずです。

　もう一つ指摘したい点があります。それは、これらすべてを支えるエネルギー効率にまだ大きな隔たりが存在しているということです。例えば、私の脳の消費電力はだいたい20ワットですが、ジェンセンさんが最近のGTCで話した巨大なスーパー・コンピューターの消費電力はメガワット単位に達しています。脳が動作するのにそれほど多くのエネルギーは必要ないわけですから、これらのモデルを動かす効率については、おそらく1000倍から100万倍の隔たりがあると言えるでしょう。その原因の一つとして、私たちが設計したコンピューターがこのような作業負荷に適していない可能性があります。NvidiaのGPUが示すように、極めて高い並列性が求められる場面での対策は良いステップです。逐次的な計算は実はあまり重要ではなく、むしろ多くの異なるデータ要素にわたって同じアルゴリズムを効率的に実行したいだけと考えることができます。

　まず一つ目は、コンピューター・アーキテクチャを新しいデータワークフローに適応させることが重要です。そして二つ目は、現在改善が見られるいくつかの事柄をさらに推し進めることです。その中でも特に重要なのは精度の問題でしょう。最初は64ビットのダブル精度を使っていたのが、時間が経つにつれて精度が低下しています。読む論文によっては、精度が4、5、6ビットや、さらには1.5、8ビットまで下がっていることもあります。したがって、精度はこの問題を理解するための一つの大きな手がかりになります。
　そして二つ目の重要な点は、スパーシティ（スパース性）です。これもまた大きな差異を示しています。人間の脳は常に全てが活性化しているわけではありません。一方で、コンピューターのフォン・ノイマン・アーキテクチャは、データを頻繁にメモリと計算を行うコアの間で移動させています。これは現在のシステムが効率的ではないことを示しており、脳の働き方とは大きく異なります。だからこそ、コンピューター・アーキテクチャの分野では非常にエキサイティングな時代が訪れていると言えます。私自身はコンピューター・アーキテクトではありませんが、現在のアーキテクチャが持つ誤差は100万分の1、1000分の1、さらには100万分の1といったオーダーであることは確かです。

［SZ］
　話は少し変わりますが、私たちの世代の偉大な人々、OpenAIのサム（Sam Altman：CEO）やグレッグ、そして他のチームのメンバー、イーロン・マスクと一緒に仕事をしてきた経験がありますね。彼らの中には、アメリカチームと日本チームのボート競技に関する面白いジョークを知っている人もいるでしょう。これは、イーロンがAIAA（アメリカ航空宇宙学会）のベースキャンプで話したジョークで、彼のチーム作りや文化に対する考え方が反映されています。
　そのジョークでは、日本チームには漕ぎ手が4人と舵取り手が1人いるのに対し、アメリカチームは舵取り手が4人と漕ぎ手が1人です。アメリカチームが負けたとき、彼らはどうするかというと、そう、漕ぎ手をクビにします。イーロンは、適切な人材の雇用やチーム作りの重要性をこの話で示しています。
　これらの素晴らしいリーダーたちとの仕事を通じて、私は多くを学びました。それでは、あなたはこの話から何を感じ取りましたか？

［SK］
　イーロンがこの会社をどれだけユニークなスタイルで経営しているか、実は多くの人が理解していないと思います。それを説明するのも難しいですし、何から話していいのか迷いますが、非常に独特でユニークなスタイルなんです。彼が経営しているのは、言葉にするのが難しいほどの大きなスタートアップ企業です。よく考えてみないと、その全貌を把握するのは時間がかかりそうです。しかし、彼は小さくて強い、高度な技術を持ったチームを好むんですね。それが彼のスタイルの一つです。私は自然と、チームは成長していくものだと思っています。
　イーロンは常に成長を牽引する力のようでしたね。人を雇う際には、私も本当に努力を重ねなければなりませんでした。人を採用するには、ほとんど懇願するような状況でした。さらに、大企業では低業績者を排除するのが非常に難しいこともあります。イーロンは低業績者を排除することに非常に積極的だと思います。そのため、私も実際にはチームからそういった人たちを外すために努力しなければならなかったのです。それが効果的な方法の一つです。ですから、小さなチームでも力強く、高度な技術を持たせることが重要ですし、技術者でない中間管理職を置かないことが肝要です。
　2つ目は、彼がオフィスに入った時にすべてが動いていることを感じられる雰囲気、つまりオフィスが活気に満ちて、人々が歩き回り、エキサイティングなことに取り組み、何かを描いたり、コーディングしている場所であることを望んでいます。彼は停滞を好まないため、大規模なミーティングも好みません。彼は、会議で役に立たない場合には会議を去ることを促しています。つまり、大規模な会議で貢献していない場合や何も学んでいない場合は、その場を去るように、ということです。これは完全に推奨されていることで、普通では見られないことだと思います。だから、「バイブス」というのは、彼が文化的に植え付けた2つ目の大きなレバーのようなものだと思います。
　多くの大企業は従業員を甘やかすことを好むと考えられがちですが、私はそうではないと思います。そのような文化は、最高の技術的な仕事をするために存在するもので、激しさも伴います。また、特にユニークで興味深く、そして少し奇妙な点は、ある人がチームとどれだけ繋がっているかです。通常、企業のCEOは組織の上層部に位置し、副社長としか話さず、副社長がディレクターやマネージャーと話すという形ですが、彼の場合は異なります。彼はオフィスに足を運び、エンジニアと直接対話をします。私たちが参加した会議では、部屋には50人のエンジニアがいましたが、彼は彼らと直接話をしていました。彼は副社長や取締役との会話だけに限定しないのです。そのため、彼は半分の時間をエンジニアとの対話に費やしたいと考えています。チームが小規模であればあるほど、エンジニアとコードが真実の源となります。それ故、真実はマネージャーではなく、エンジニアにあります。彼がどれだけチームと繋がっているか、また、遠隔の何かとは繋がっていないかもユニークな点です。さらに、彼は自分の影響力を組織内で行使しようとする意欲も非常に大きいです。例えば、エンジニアが「GPUが足りない」と言えば、彼はそれを真剣に受け止め、問題解決に動きます。「それで、どうなっているの？」と迫り、納得のいく答えが得られなければ、GPUクラスターの責任者と話をすることになります。そして「GPUクラスターを今すぐにでも2倍にしよう。明日ミーティングを設定し、クラスターが2倍になるまで毎日進捗を報告してほしい」と指示します。そして、調達の段取りもついたし、スケジュールも決まった。そして眉をひそめて彼は、「よし、ジェンセンと話そう」となってボトルネックを取り除く。このように彼がどれだけ深く関与してボトルネックを取り除くか、その様子は見ていて非常に興味深いですし、このようなことは、あまり評価されていないような気もする。だから、こういった非常にユニークで興味深い側面がたくさんあると思う。一般的な会社では見逃されがちな面です。私が考えるブランドにとって、これらは非常に重要な特徴です。

［SZ］
　この戦術は、ここにいる多くの方々にとって有効でしょう。さて、少し視点を変えてみましょう。あなたは、最も世代交代が進んだ企業の幾つかを築く手助けをしてきました。また、今日この場にいる多くの方々がAI分野に参入する際の重要なサポート役となっています。あなたが最も重視しているのは、AIへのアクセスを民主化し、教育やツール、そしてエコシステム全体の平等性を向上させることです。これにより、より多くの方が成功を収めることができるのです。あなたの人生の次の章を考える際に、何が最も意味深いと感じますか？

［AK］
　私はいくつかの会社で働いた経験がありますが、結局のところ、特定の会社そのものよりもエコシステムの健全さを重視しています。エコシステム全体が繁栄して、多くの魅力的で刺激的な新興企業や、経済の隅々にまで影響を及ぼすような珊瑚礁のようであることを望んでいます。そして、全体が魅力的なもので満ちた活気ある環境であることを願っています。

［SZ］
　そして純粋に、アンドレイはサンゴ礁の夢を見る。

［AK］
　私はスタートアップが大好きですし、企業も大好きです。そのため、活気のあるエコシステムでありたいと思っています。ただ特に、巨大企業5社が人工知能の力の拡大を支配してしまうことには少し躊躇があります。特にAGIは力を拡大しやすいものですから、それがどのように影響するのか少し心配です。そのため、もっと慎重に考える必要があると思います。ですが、私は生態系が好きで、健全で活気あふれる環境であってほしいと願っています。

［SZ］
　素晴らしい。ええと、観客の皆さんから質問をお願いしたいんだけど。
はい、ブライアン。

［会場］
　やぁ、ブライアン・ハランだ。
創業者にイーロン・マスクの経営手法を取り入れることを勧めるか、それとも、それは彼独特のもので、真似すべきでないのか？

［AK］
　それは良いご質問ですね。創業者のDNAによって異なると考えられますし、同じようなDNAを持ち、同じような雰囲気を持つ必要があるでしょう。また、チームを雇う際には、この会社の特色を事前に明確に伝えることが非常に重要だと思います。そうすることで、みんなが納得して参加してくれます。しかし、後でそれを変更すると、人々が満足するかどうかはわかりません。ですから、最初から一貫性を持って進めていれば、そうした会社でも成功する可能性があります。長所もあれば短所もありますが、人それぞれで、一貫した会社作りと経営のモデルであると考えられます。

［SZ］
　はい、アレックス。

［会場］
　モデルのコンポーザビリティ（合成可能性）について、あなたが期待しているものがあれば教えて頂きたい。モデルのマージとか、フランケンのマージとか、モデル開発をよりコンポーザブルにすることについて、どう考えていますか？

［AK］
　良い質問ですね。この分野の論文を見ることはありますが、特に引っかかる点はありません。おそらく、「コンポーザビリティ」という言葉の意味は明確ではありませんが、パラメータ効率的なトレーニングに関する研究はたくさんあります。私の理解では、それらをコンポーザビリティの範疇に入れるかは不明ですが、従来のコードは非常にコンポーザブルであるのに対し、ニューラルネットワークはもっと完全に接続されており、標準でコンポーザブルではありません。しかし、全体の一部として組み込まれ、ファインチューニングされることが一般的です。例えば、ChatGPTのようなシステムを構築する際には、事前にコンポーネントをトレーニングし、それを組み込んでファインチューニングするのが一般的です。つまり、大脳皮質の小片を事前に訓練し、初期化とファインチューニングを通じて後で合成することが可能です。ある程度はそうだと思いますが、私の少し散漫な考えかもしれませんが、それ以外にまとまったものがあるかはどうかわかりません。

［SZ］
　はい、ニック。

［会場］
　物理学者やフォン・ノイマンのような、自己矛盾がなく、新しいアイデアを生み出すことができる物理のメンタルモデルを構築する道はあると思う？核融合を実際にどうやるのか？もしそれが可能だとしたら、どうやって光よりも速くするのか？それとも、AIモデルの開発とは根本的に異なるベクトルなのだろうか？

［AK］
　ある面では根本的に異なる点があると思います。おっしゃっているのは、おそらく能力の問題に関することですね。この宇宙で何が可能かは、まだ十分には見えていません。大まかに言いますと、AlphaGoの第一段階は終わったと考えられます。模倣学習の部分を終えました。次のステップとしてAlphaGoのステップ２がありますが、これは強化学習に関するもので、まだ手がけられていないのです。これが非常に重要なポイントだと感じています。だから、この領域にはまだ大きな可能性が残されていると考えています。その詳細は少々複雑で、潜在的な問題も含まれています。しかし、これはAlphaGoのステップ２をまだ実施していないだけで、要約すると、今までのところは模倣に留まっていると言えます。たとえば、ChatGPTのようなモデルのデータ収集がどれほど大変かという点に、多くの人が気付いていないと思います。例えば、数学的な問題を出題する場合、人間が来てその問題に対する理想的な解答を提示します。問題点は、人間の思考とモデルの思考が異なるということです。人間にとって何が簡単で何が難しいかというのは、モデルにとってのそれとは異なります。そのため、人間はある種の思考プロセスを辿り、解答を導き出しますが、モデルにとっては些細な部分もあれば、理解不能な飛躍がある部分もあります。その結果、ある部分はモデルにとっては些細でありながら、ある部分は大きな飛躍となり、それが後のすべてを不完全にします。だから、根本的に必要なのは、私のモデルがこれらの問題を解決する方法を実践することです。何が効果的で、何がそうでないかを見極める必要があります。たとえば、４桁の足し算が苦手な場合、電卓を使うことも考えますが、自身の能力と知識を基に学ぶべきです。
　なので、最初に取り上げた問題が、実際にはかなり深刻なものだと思います。しかし、エージェントのようなものには適切な初期設定が有効だと考えています。さらに、人間のフィードバックを用いた強化学習についてですが、これは強化学習の非常に弱い形態であり、本来の強化学習とは呼べないレベルです。例えば、アルファ碁のRHF（Reinforcement Learning from Human Feedbackか？）に相当するものは何でしょうか？また、報酬モデルとは何でしょうか？私が理解している限り、それは雰囲気チェックと呼ばれるものです。アルファ碁のRHFを訓練する場合、2人の人にそれぞれ異なる盤を渡して、どちらが好みかを選んでもらい、そのフィードバックを使ってモデルをトレーニングします。そして、その後で強化学習を行います。このアプローチにはいくつかの問題があります。まず、ボードの振動が問題になります。次に、報酬モデルがニューラルネットである場合、最適化するモデルに報酬モデルをオーバーフィットさせるのは非常に容易なため、それを悪用する方法が見つかってしまいます。これが問題の本質です。AlphaGoはこのような問題をうまく回避しており、明確な目的関数を持って強化学習を実行できるからです。ですから、現在のRLFはあまり有効ではなく、まだ不十分です。モデルを訓練するもっと良い方法を模索する必要があり、おそらくそこに解があると思います。

［会場］
　つまり、AIモデルの大学院のようなものだ。部屋の中で本と一緒に座って、10年間静かに自問自答するようなものですね。

［AK］
　はい、そうだと思います。また、何か新しいことを学ぶ際、教科書を読むときには、教科書内に練習問題が含まれていますよね。これは、読者に教科書の内容を実践するように促すものです。つまり、教材を学ぶ際には、単に読むだけではなく、ノートを取ったり、言葉を言い換えたり、考えを再構築するなど、様々な方法で知識を身につける必要があります。しかし、LLMではこのようなプロセスが全く見られません。そのため、まだ技術が始まったばかりだと感じています。

［会場］
　最適でありながらも現実的であることは、本当に素晴らしいことですね。ですから、私は次の二点についてお伺いしたいのです。一つは、コスト削減と収益創出のどちらを優先するか、もう一つは、より優れた推論能力を持ち、質の高いモデルを見つけることの優先順位をどのように調整するかです。これらをどのように調整するのでしょうか？

［AK］
　質問の意味を理解できていると良いのですが。多くの人が行っているのは、最も高性能なモデルから始めることです。たとえば、GPT-4を使用したり、スーパープロンプトを使ったり、RAGなどを利用します。つまり、自分のものを動かそうとしているのです。ですから、まずは正確さを追求し、その後で妥協を見ます。ある種のクエリに対して、バージョン3.5に戻すことができるかどうかを確認し、その後でコストを下げることができるかを検討します。つまり、最初にパフォーマンスを追求し、その後でコストを削減するのです。このようなアプローチは、私が話をした何人かの人たちによると、成功しているとのことです。そして、これは単一のプロンプト製品に限らないかもしれません。たとえば、10個のプロンプトを作成したり、20個の中から最良のものを選んで議論するといったことが可能です。どのような革新的な方法が思いつくかわかりませんが、そのような流れで進めるのです。本当にうまく機能するものがあれば、そのモデルで蒸留することができます。つまり、起こりうる問題の種類を大量に集め、それに基づいて超高価なモデルでラベルを取得し、その後で小さくて安価なモデルを見つけることができるのです。ですから、私なら、まず何が何でも、できるだけうまく機能するようにし、その後でコスト削減を図ることを提案します。

［SZ］
　はい、サム。

［会場］
　こんにちは、1つ質問です。この1年、オープンソースのエコシステムから印象的な結果がたくさん出ました。オープンソースのエコシステムが、クローズドソースの開発とどのように歩調を合わせていくのか、あるいは歩調を合わせられないのか、モデルが規模を拡大し続ける中で、あなたのご意見をお聞かせ願いたい。

［AK］
　うん、とてもいい質問だと思う。とてもいい質問だ。でも、僕にはよくわからないんだ。
　基本的に、これらのモデルは資本集約的で、例えば、Metaなどは、これらのモデルを大規模にトレーニングする余裕があります。しかし、それは彼らのメインビジネスではなく、彼らの利益を生む仕組みとも関係がありません。そのため、彼らには、これらのモデルのいくつかのリリースを通じてエコシステム全体に力を与え、最高のアイデアを共有できるようにすることのインセンティブがあります。この考えは理にかなっていると私は思います。ただし、現時点では彼らはオープン・ウェイト・モデルしか採用していないので、彼らがその道をさらに前進する方が誰にとってもよいと考えます。また、彼らはデータなどに関して最終的にはいくつかの障壁に直面しているかもしれませんが、それを克服する方法は不明です。おそらく、自分たちが使いやすいと思うデータソースを見つけ、それに縛り付けることが解決策の一つでしょう。そしてこのようなデータソースが潜在的にチャンピオンになる可能性があります。Metaは、論文やログブックなどでうまく機能していますが、より上手くエコシステムを育てる方法があると思います。そして、それは近いうちに実現すると思います。いずれ明らかになるでしょう。

［会場］
　何がAIのエコシステムをよりクールで活気のあるものにすると思いますか？オープンにすることなのか、それとも他に、あなたが取り組みたいと思うような大きなことはありますか？

［AK］
　確かに、利用できるリソースが豊富であることは大きな利点ですね。最近ツイートしたことについてお話ししますが、第1に物を作ること、第2にスロープ（坂道）を作ることです。多くの人が何かを作り出していますが、スロープを作ることで、人々がこれらのことを実際に理解できるようになります。私たちは皆、この分野では初心者だと思います。みんながこの仕組みを理解しようと努力しています。効果的な使い方を理解するためには、協力しあう必要があります。ですから、もっとオープンになって、自分が何を学んだか、どうやってこれをトレーニングしたか、何が効果的で何が効果的でないかを共有してほしいと思います。そして、私たちが互いに学び合えるようにすることが重要です。これが最優先事項です。
その次に、オープンなエコシステムにはかなりの勢いがあると思いますので、それを見るのは良いことだと思います。そして、私がすでに話したように、改善の機会があるかもしれません。

［SZ］
　ええと、観客からの最後の質問です。
マイケル。

［会場］
　モデルから次の大きなパフォーマンスの飛躍を得るためには、トランスフォーマーのアーキテクチャを、例えばThought Tokens（思考トークン）やActivation Beacon（活性化ビーコン）で変更すれば十分だと思いますか？

［AK］
　はい、確かにいい質問ですね。まず、トランスフォーマーについては、本当に素晴らしい技術だと言えますね。予想外の成果をもたらしたことは、本当に驚くべきことです。トランスフォーマーが登場するまでは、ニューラルネットワークの多様化が進むと考えられていましたが、実際にはその逆が起こりました。同じモデルが広く用いられるようになり、これによって私たちの期待は大きく変わりました。この分野の歴史を振り返ると、また私がこの分野で長年経験を積んできたことを考えると、これで終わりとは言えませんね。今後、誰かが今の方法を大きく変えるような新しいアプローチを見つけ出す可能性は非常に高いと思います。
　自己回帰や拡散のようなモデリングや法則の設定については、何らかの成果があると思います。しかし、トランスフォーマーに関しては、精度とスパース性というレバーについてもお話ししましたが、それを推進する過程でハードウェアの共同設計が進み、どのように進化するかという点と一緒に、ネットワークアーキテクチャを多くの制約や仕組みにうまく適応させることができるようになります。実際に、トランスフォーマーはGPUのために設計されたと言えるでしょうし、これが大きな進歩でした。
　トランスフォーマーについての論文では、彼らが求めていたのは基本的に極めて並列化可能なアーキテクチャです。それはリカレントニューラルネットワークにおける逐次的な依存関係がGPUにとって最悪であるためです。トランスフォーマーは、注目されたばかりであり、これが主要な洞察でした。GoogleのニューラルGPUや他の論文で示されたいくつかの洞察があり、彼らはこれについて深く考えていました。これは、利用可能なハードウェアにアルゴリズムを合わせる方法です。
　ですので、同じ精神だと思いますが、要点をまとめると、トランスフォーマーには変更が加えられる可能性が高いと思います。したがって、オリジナルのトランスフォーマーと現在使用しているトランスフォーマーは全く異なるものです。

［SZ］
　最後に、会場にいるすべての創業者やビルダーへのメッセージとして、AIの未来を形作る手助けに残りの人生を捧げる彼らにどんなアドバイスを贈りたいですか？

［AK］
　私は、あまり一般的なアドバイスはしません。私の考えでは、創業者の方々は自分のスタートアップに非常に関心を持っていることが多いですね。そこで気になるのは、どのようにしてスタートアップのエコシステムを活性化できるのか、また、スタートアップが持続的に成功するためにはどうすればよいのか、特に大手ハイテク企業との競争においてどのように優位に立てるのか、という点です。さらに、エコシステム全体をより健全なものにするためにはどうすればいいのか、そして私たちには何ができるのか、という問いにも答えを見つける必要があります。

［SZ］
　投資家になるべきですね。
素晴らしい。アンドレイ、今日は一日本当にありがとう。

以上です。

御礼

　最後までお読み頂きまして誠に有難うございます。
役に立ちましたら、スキ、フォロー頂けると大変喜び、モチベーションにもつながりますので、是非よろしくお願いいたします。

だうじょん

免責事項

　本執筆内容は、執筆者個人の備忘録を情報提供のみを目的として公開するものであり、いかなる金融商品や個別株への投資勧誘や投資手法を推奨するものではありません。また、本執筆によって提供される情報は、個々の読者の方々にとって適切であるとは限らず、またその真実性、完全性、正確性、いかなる特定の目的への適時性について保証されるものではありません。　投資を行う際は、株式への投資は大きなリスクを伴うものであることをご認識の上、読者の皆様ご自身の判断と責任で投資なされるようお願い申し上げます。

この記事が気に入ったらサポートをしてみませんか？

生成AIの現在位置と将来：元OpenAI、元TeslaのAI研究者 アンドレイ・カルパシー氏が語る

アンドレイ・カルパシー氏の経歴

セッション内容

御礼

免責事項

生成AIの現在位置と将来：元OpenAI、元TeslaのAI研究者アンドレイ・カルパシー氏が語る