見出し画像

AIにおける先週 #180 - Ideogram v2、Imagen 3、2030年のAI、Agent Q、SB 1047

AIの歌手: お帰りなさい。これはエピソード180、先週のAIです。ニュースは決して同じではありません。ビジョンを描き、否定できません。クレイジーになっています。
アンドレイ: こんにちは。先週のAIポッドキャストへようこそ。ここではAIの最新動向についてのチャットを聞くことができます。いつものように、先週の最も興味深いAIニュースのいくつかをまとめて議論します。
いつものように、lastweekin.aiでは取り上げなかった記事も見ることができます。これは我々のテキストによるまとめで、週単位で配信されています。私はホストの1人、アンドレイ・カレンコフです。私はスタンフォードで博士号を取得し、現在は生成AIのスタートアップで働いています。
ジェレミー: やあみんな、もう一人のホスト、ジェレミー・ハリスです。私はグラッドストーン・ナショナル・セキュリティ・カンパニーの共同創業者です。そして、はい、我々は録音しています。月曜日です。通常は金曜日に録音していますが、今回の金曜日は体が吐き気を催し始めました。それで、皆さんにとってそれほど良いコンテンツにはならないだろうと思いました。
アンドレイ: そういったコンテンツは避けようとしています。主にAIについてのものにしようとしています。なので、少し追加のニュースを得ました。そして、もしこのエピソードが少し遅れて配信されても、今回はジェレミーのせいです。ジェレミーと言えば、先週、前回のエピソードで、あなたはポッドキャストの最高の部分ではないと言っていましたが、リスナーのコメントやレビューを見てみると、素晴らしいフィードバックがありました。ポーランドのアダムTWからこんなレビューがありました。「素晴らしいジェレミー・ハリス、残りは平凡」。ジェレミー、あなたは素晴らしいです。このレビューを感謝します。エピソード177でライセンスについて誤って述べたことや、アドビがCanvaを買収しようとしていると言ったつもりが、実際にはFigmaだったという slip ups を指摘してくれています。ありがとうございます。
ジェレミー: いや、申し訳ありません。でも面白いですね。これは陰陽ポッドキャストみたいですね。あることについて強い感情を持つコメンターがたくさんいます。文字通り、「よ、くだらない安全性の話はやめろよ」というような別のコメントもあります。
アンドレイ: それはもっと研究分析につながりますね。レビューで終わりのない行ったり来たりをしているようです。両方を少しずつ試みます。そして、はい、訂正ありがとうございます。時々間違ったことを言うことはあります。ただ、このレビュアーは、Mid journeyが何ヶ月もウェブインターフェースを持っていたと指摘していますが、それもそのエピソードで言いました。つまり、私たちは皆間違いを犯します。レビュアーも同様です。そうですね、それは起こります。
そして、YouTubeからの別のコメントでは、議論した論文のタイトルをもう一度言って、後で調べられるようにしてほしいという要望がありました。ちなみに、エピソードの説明にタイトルが記載されています。また、lastweek in AI.comにアクセスすると、すべてのニュース記事、研究論文、記事などへのリンクを入手できます。ですので、何か興味深いものを見つけたけれど名前を忘れてしまった、もっと詳しく調べたいという場合は、lastweek in AI.comにアクセスしてすべてのリンクと情報を入手できます。
さて、いつものように、ポジティブもネガティブも含めてレビューありがとうございます。私たちについて話題になっている限り、気分が良いのですが、次に進みましょう。
ジェレミー: そういうものですね。「ジェレミー・ハリスはクソ野郎だ。顔を蹴り飛ばしてやりたい」みたいなのを読むのが好きですが、まあ、私のことを話題にしてくれているということですからね。
アンドレイ: そうですね。重要なのはそこです。ニュースに移りましょう。ツールとアプリから始めます。最初の話題は、Ideogramがバージョン2モデルといくつかの追加オプションで機能を拡張しているということです。
Ideogramはテキストから画像を生成する分野のプレイヤーの1つで、しばらく前から存在しています。Mid journeyやStabilityと同様の分野にいます。彼らの大きなセールスポイントは当初、テキストと画像を上手く扱えることでした。例えば、「ハッピーバースデー」と書かれたカードを作りたい場合、ほとんどの画像生成器ができなかった時期にそれができました。今ではすべての画像生成器がそれをできるようになったので、それほど差別化要因ではありませんが、彼らは今、品質が向上した更新されたモデルを持っています。予想通り、複雑なテキストブロックの処理がさらに向上しています。また、一般的、リアルな、デザイン的、アニメ的、3D的など、異なる種類の出力に最適化されたさまざまなタイプのモデルを選択できます。
この分野が成熟してきているのを見るのは面白いですね。テキストから画像への変換が本格的に始まったのは2年前の2022年初頭、OpenAIが最初のDALL-E 1をリリースした頃からです。2022年の間に、VQGANとCLIPによって急速に改善されました。2022年末までには本当に見栄えの良い画像を生成できるようになりました。昨年には、基本的に写真のようなリアルな画像を作れるようになりました。見分けがつかないほどです。手や文字の問題も解決され、これらのシンプルな課題はすべて解決されました。今年は、成熟した製品になりつつあるようです。
ジェレミー: そうですね、本当にそのようです。DALL-E 1の最初のプロンプト「アボカドのアームチェア」のような時代は遠い昔のことになりました。
アンドレイ: OpenAIのブログ投稿で最初に見たアボカドのアームチェアは、確かに心を奪われましたね。全く同意します。
ジェレミー: そうですね。当時は皆慣れてしまいましたが、そこにあったんです。そして、Ideogramが今回もたらしている大きな差別化要因の1つは「プロンプトマジック」と呼ばれる機能です。基本的に、ツールにプロンプトを入力すると、より良い結果を得るためにプロンプトを書き直してくれます。これは本当に興味深いですね。プロンプトを書き直すメタプロンプトとは何でしょうか。プロンプトエンジニアリングの観点から非常に興味深いです。なぜなら、プロンプトエンジニアリングについて何か深いことを理解していることを示唆しているからです。他のテキストから画像へのモデルもバックエンドで同じことをしていることは明らかです。このツールでどの程度の可視性と制御が得られるかという問題はありますが、これはかなりクールです。
今回のロールアウトの一部としてカラーパレットもあります。グラフィックデザイナーやスタートアップの創業者として、ウェブサイトや多数の画像アセットをすぐに作成しようとするとき、カラーパレットが必要になることがよくあります。これは歴史的に他の画像生成サービスでは frustrating だったものです。ブランドやカラーパレットに合わせる必要があるからです。ここでは、手動で制御できるようになっています。これは exciting で、スタイルレベルにも適用されます。
他にもたくさんの小さな機能がロールアウトされています。検索機能も追加されているので、Ideogramの画像の公開データセットを実際に検索できます。事前に生成された画像を検索できます。現在10億以上あるそうです。そのための素晴らしい検索機能もロールアウトしています。
あなたが言ったように、モデル以外のすべてがそろってきた感じです。製品化し、レイテンシーを低く抑え、出力を必要な方法で調整するためのすべてのツールを提供しようとしています。そういうわけで、Ideogramが本格的に始動しました。
アンドレイ: 次は、画像生成に関する別の話題です。Googleが無料で使える強力なAI画像生成器をリリースしたというニュースです。これは Imagen 3 についての話で、以前から断続的に取り上げてきました。しばらく前に発表があり、画像を生成できるようになりました。論文も出ました。前回のエピソードで取り上げましたね。今では実際にAI Test Kitchenサービスを通じて使用できるようになりました。
私は忘れていましたが、Googleには AI Test Kitchen というサービスがあり、そこでさまざまなモデルや研究成果を試すことができるようです。さて、これで無料で Imagen 3 を試すことができます。どのテキストから画像へのモデルと同様に、Imagen 3 も本当に優れています。Googleはこの分野の先駆者の1つで、Imagenで画像生成における大きな改善を示しました。エンドツーエンドの大きな変換器を使用して、かなり significant な改善を示しました。
それを試してみたい場合は可能です。
ジェレミー: はい、これは標準的なロールアウトですね。無料であることと、使用制限がどうなるかわからない点が例外かもしれません。おそらく使用制限はあるでしょう。30秒のレイテンシーは、無料製品としてはかなり decent です。価格競争の一環ですね。画像生成をどれだけ安くできるかという競争が続いています。今や答えは0です。このペースでいけば来週には、これらのサービスを使うのに料金をもらえるようになるかもしれません。
使用されたデータについては不確実性があります。大規模なデータセットで共同訓練されたと言っているだけで、詳細は明かされていません。おそらく著作権のある写真も含まれているのではないでしょうか。もちろん、安全性の観点からの制限もあります。Grok 2のようなカマラ・ハリスとドナルド・トランプが手をつないでいるような画像は生成できません。ただし、ワークアラウンドやジェイルブレイクは機能するようです。
このモデルについては、無料である点を除けば、標準的なことがすべて当てはまります。
アンドレイ: そうですね、制限に関してThe Vergeが取り上げていて面白いです。これも他のツールと同様に、著作権キャラクターは生成できないと言っていても、必ず回避方法があります。例えばソニック(ハリネズミのビデオゲームキャラクター)の場合、「青いハリネズミが草原を走っている画像」と言えばソニックが出てきます。「マッシュルームを集めているイタリア人の配管工」と言えば、おそらくマリオが出てくるでしょう。Grokのように好き勝手にできるわけではありませんが、こういったモデルでもある程度可能です。
ジェレミー: そうですね。特にオープンソース化されていないモデルの場合、出力を送信する前に別のモデルでレビューして、著作権で保護された素材や容易に識別可能なキャラクターが含まれていないか確認することもできるはずです。そういった省略は興味深いですね。おそらくコストがかかるからでしょう。より多くのコンピューティングリソースが必要になります。
アンドレイ: 利用規約では、これらの画像で何ができるかについて非常に制限が厳しいのでしょうね。
画像生成に関する話題をもう1つ。今回はFlux 0.1に戻ります。Perplexityがプロユーザー向けにFluxを追加したというニュースです。Perplexityのプロユーザーは、Playgroundで画像生成を行うインターフェースが利用可能になりました。以前はDiffusionを使用できましたが、今回Flux version 1も使えるようになりました。これは興味深いです。私の知る限り、Fluxを使用できたのは初めてGrok 2経由でした。Xでの画像生成の展開はFluxを通じて行われました。しかし、他のプロバイダーや他のサービスにもその機能を急速に拡大しているようです。今ではGrokを介さずにPerplexityを通じてFluxを使用できます。
そして、Perplexityは本当に急速に機能をリリースしています。後で取り上げる別の記事でも彼らが登場します。本当に印象的なロールアウトが多いです。彼らはある意味メタプラットフォームとしての利点を持っています。大文字のMetaではありませんが、多くのことができるプラットフォームです。画像に関しては、ユーザーが選択できる様々なモデルがあります。Flux 1はそのうちの1つになりましたが、Stable Diffusion XL、DALL-E 3、Playground v3なども利用可能です。ユーザーに多くの選択肢を提供し、Fluxだけに限定していないのは確かです。
アンドレイ: 実際にPerplexity内のどこでこれを使用できるのか確認してみました。少なくとも部分的には、Perplexityの検索から生成機能で使用できるようです。検索からページを作成する機能がありますが、その上部にヘッダー画像のようなバナーがあります。それをAIで生成できます。スタイルを選択し、説明を入力すると、これらの画像生成器の1つが作成してくれます。少なくともそれがPerplexityで画像生成を使用できる1つの場所です。Perplexityは主に検索エンジンなので、画像生成を使用する間接的な方法と言えますね。
画像から動画に移りましょう。ニュースはLumaがDream Machine 1.5をリリースしたことです。これはLuma Labsのもので、数ヶ月前に大きな話題になりました。Dream Machineが登場し、人々は試し始めました。無料で使える中では最前線のツールの1つでした。今年初めにOpenAIから発表されたSORAの品質に近づきつつありましたが、まだ完全には達していませんでした。さて、バージョン1.5が登場しました。もちろん品質は向上しています。このモデルは判読可能なテキストも生成でき、かなり高速になりました。5秒の動画を約2分で生成できます。より現実的になり、動きの品質や登場人物の一貫性なども向上しています。
今年の大きなトレンドの1つですね。今年の初めにテキストから動画への変換が可能になり始めました。数ヶ月前には実際のテキストから動画へのツールが登場し始め、RunwayとLumaがありました。そして今、新しいリリースで急速に改善している段階にあります。
ジェレミー: これは本当に興味深いですね。生成時間が短縮されていくのを見るのはいつも面白いです。5秒の動画を約2分で生成できるということは、動画を視聴する時間の約5%のスピードですね。動画1秒あたり1秒で生成できるようになれば、非常に興味深いことが起こるでしょう。基本的にストリーミングになりますね。YouTubeで起こったことと似ています。昔を思い出すと、視聴と同じ速さでストリーミングできるようになった時に製品が根本的に変わりました。今はそういう方向に向かっています。これは単なるハードウェアの問題です。ムーアの法則とデザインの改善のおかげで、無料で達成されるでしょう。
新しいユーザー体験がたくさん生まれるでしょう。リアリズムのレベルは、革命的というよりは漸進的な改善に見えます。しかし、結果を見ると非常に印象的です。フレーム間の一貫性が全体的に高くなっています。キャラクターレベルの一貫性が非常に高いと言及されています。これは歴史的に見ると、画像生成での手のような細部の問題に似ています。AIで生成されたものだとわかる quick tells のようなものです。ここでは、フレーム間でトラが一貫して見えるかどうかが問題になります。記事には雪景色の中を歩くトラの例があります。
同じアイデアですね。これらの小さな tell-tale signs、つまり小さなグリッチを明らかにする一貫性やいわゆる映画での continuity errors のようなものがあります。このトラの例では、わずかなちらつきが見られます。前足を見ると非常に微妙ですが、高品質の動画生成に向かって進むにつれて、そういった問題は減少していくでしょう。
アンドレイ: そうですね。トラの例では、AIに特徴的な「トリップアウト」のようなことが起こっています。動いているときに左足が右足になるような感じです。それはまだ起こりますが、解決されていくでしょう。YouTubeの視聴者の皆さんには、今週は少し頑張って動画バージョンに画像や動画を含めるようにします。音声のリスナーの皆さん、いくつかの追加要素を見逃しているかもしれませんのでご了承ください。
動画生成がより高速になることについて、次の話題もそれに関連しています。RunwayのGen-3 Alpha Turboが登場し、入力よりも速くAI動画を作成できるようになりました。これは以前にプレビューされ、現在Runwayのユーザーに正式にリリースされています。このバージョンは通常のGen-3 Alphaと比べて7倍高速で、コストは半分です。Gen-3 Alphaは1秒あたり10クレジットですが、こちらは5クレジットです。1000クレジットを約10ドルで購入でき、年間サブスクリプションの一部としても入手できます。つまり、1000クレジットで200秒、数分の動画が数ドルで生成できるということです。オーディオ制作などの場合はまだ安くはありませんが、より安価になり、はるかに高速になっています。
そのパターンのもう1つの例です。Gen-3 Alphaが登場した時点で既にかなり印象的で、Lumaと同様の品質でした。このトレンドは続いていますね。
ジェレミー: そうですね。これからは解像度とパフォーマンス対生成速度のトレードオフが見られるようになるでしょう。1秒あたり1秒の生成に初めて到達するのは大きな出来事になるでしょう。現在は、彼らのバックエンドのハードウェア設定で30秒で10秒の動画を生成しています。これは常にハードウェアに依存していることを覚えておいてください。Runwayには一定量のGPUリソースがこのために割り当てられています。理論的には並列化をさらに進めればリソースを増やせるかもしれません。
しかし現在、この価格帯で投入できるハードウェアでは、30秒で10秒の生成、つまり3対1の比率になっています。かなり印象的ですね。初期の動画は、あなたが言ったように品質は100%ではありませんが、これらすべてのものは同時に改善される傾向があります。
このレースがリアルタイムで展開されるのを見るのは本当に興味深いです。実際、画像生成と同じペースに感じます。それ自体が興味深いですね。私的な研究所で本当に印象的な私的モデルを生成できるようになってから、オープンソース化されて基本的に無料で何でもできるようになるまで、約1年かかりました。動画でも同じことが起こる世界は本当に興味深いですね。
アンドレイ: このセクションの最後の話題は、Perplexityの最新アップデートがコードインタープリターを改善したというものです。これはPerplexityのやや特殊な側面かもしれませんが、それでも興味深く、多くのこれらのツールが行っていることに関連しています。
このアップデートでは、クエリに応答するためにリアルタイムでコードを実行できるコードインタープリターが、ライブラリをインストールしてグラフを表示できるようになりました。例えば、「過去10年間のニューヨークのネズミの個体数の傾向は?」と尋ねると、PythonでCSVを解析してグラフを生成できます。これはClaudeも行えることで、OpenAIも可能だと思います。
興味深いパターンとして、これらのツールの多くが同様の機能セットに収束しているようです。すべてがコードインタープリターを持ち、ライブプレビューがあり、アーティファクトや公開できるものがあるようです。そして、あなたが言ったように、非常に急速に進化しています。
ジェレミー: そうですね。ここで興味深いのは、Perplexityの市場での位置づけです。AnthropicやOpenAI、Chat GPTと競合しているわけではありませんが、通常そのように考えられていません。検索エンジン側でGoogleと競合しようとしているのが明示的です。
興味深いのは、生成AIのフレーミングで検索問題にアプローチしているため、グラフや表の生成、データ分析などの機能をより自然な方法で組み込めることです。Googleにアクセスするときには通常、この種の高い意図性を持った特定の検索を行うわけではありません。Perplexityのように対話を行う必要があるため、その相互作用に高度な投資をする必要はありません。
これはPerplexityにとって付加価値としてより自然であり、Googleにとってはそうではありません。これは構造的な優位性、マインドシェアの優位性だと考えられます。Googleがこれを行おうとすれば、別の製品になるでしょう。現段階では計算コストが高すぎるため、課金する必要があるでしょう。
Perplexityの現在の位置づけは非常に興味深いです。Googleの市場を追いかけていますが、同時に、ユーザーの心理的な時間やコミットメントの投資を伴う多くの機能を effortlessly に織り込んでいます。おそらくPerplexityのユーザーはより engaged で、インタラクションを求めているのでしょう。
長期的にはこれが検索の intentionality やリンクのクリック率などにどのような影響を与えるのか興味深いです。少なくとも標準的なGoogle検索とは心理的に異なる状態だと言えます。
アンドレイ: そうですね。これがGoogleだけでなく、Chat GPTやClaudeとも競合する可能性があるのかも気になります。基本的にこれは、どんな質問に対してもPerplexityがChat GPTやClaudeよりも優れた回答ができる可能性があると言っています。これは、それらを使用する目的の大部分を占めています。また、「XとYについてのエッセイを書いて」と指示すれば、Google検索を行ってくれるでしょう。
Perplexityに人々が向かうのか、PerplexityがChat GPTをバックエンドとして使用するのか、興味深い展開になりそうです。
アプリケーションとビジネスに移りましょう。「先週のAI」ビンゴをしている方は、カードの「ハードウェア」にチェックを入れてください。最初の話題は、AMDがサーバーメーカーのZTシステムズを49億ドルで買収するというものです。チップメーカーがAI能力を強化しています。
これはAMDがNVIDIAと競争するための継続的な取り組みの一環です。このサーバーメーカーによって、多くの企業が強化しようとしているAIの「倉庫」、つまりトレーニングと推論を行うための多数のサーバーの分野でより競争力を持てるようになるようです。
買収が完了すると、AMDのデータセンターソリューションビジネスグループの一部となります。人々は喜んでいるようで、AMDの株価は3%上昇しました。
ジェレミー: はい、これは本当に大きな買収です。文脈として、AMDの時価総額全体は今日時点で約2500億ドルです。そして50億ドルを使うということは、AMDが金庫にしまっている実際のお金ではなく、市場が株式に割り当てた価格に過ぎません。
彼らが50億ドルを使うということは、今年の買収予算の大部分を占めることになります。他の多くの支出の大部分を占めます。これは本当に大きな動きです。AMDがサーバー設置の方向に大きな戦略的動きをしていることを示唆しています。
歴史的にAMDはNVIDIAとより直接的な意味で競合してきました。彼らが専門としているのは、NVIDIAよりも優れたGPUを設計することです。興味深いことに、AMDは実際にNVIDIAよりも優れたGPUを設計しても、NVIDIAに販売で負けることがあります。NVIDIAがTSMCの製造能力をすべて買い占めてしまうからです。そのため、AMDは素晴らしい設計を誰にも作ってもらえないのです。これはNVIDIAが過去に使用してきた戦略の1つです。NVIDIAも素晴らしいGPUを設計していることは間違いありませんが。
さて、AMDが今回のZTシステムズの買収で試みているのは、サーバー市場に進出することです。サーバーにはGPU以外にもたくさんのものが含まれています。単にGPUを並べただけではありません。ストレージ、長期的で安定したストレージ(SSDなど)、ネットワークインターフェース、電源、冷却システムなどが必要です。そこには多くのことが関わっています。
これはその方向への動きであり、AIトレーニング市場などをより広い意味で狙ったプレイです。このような大規模な買収、特にこの分野での買収に関しては、独占禁止法の観点から多くの議論がありました。バイデン政権は非常に注意深く見ています。他の国の政権も同様ですが、特にアメリカでは顕著です。
AMDがここで行っていることの1つは、ZTシステムズを買収しますが、製造部門を切り離すことです。基本的に、ZTの製造を行う部分を手放すと言っています。これは部分的に物事を合理化するためですが、より高利益のAIインフラとソフトウェア部分のビジネスに集中し、リソースを解放することもできます。
また、市場の過度な占有が行われているという主張を難しくする可能性もあります。AMDはNVIDIAと比べてまだかなり小さいので、おそらく問題にはならないでしょうが、このような大規模な買収では誰もが念頭に置いていることでしょう。
ここでは多くの興味深いことが起こっています。市場の占有というような規制当局の指摘を避けようとする多くの試みがあります。株式と現金を組み合わせた取引を設定しています。これも規制当局に対して、この買収が単なる資産の統合ではなく、パートナーシップでもあることを示すシグナルになります。両社がリスクを負うということです。株式が関与しているので。
それが大きな計画です。違いが出るかどうか興味深いところです。あなたが言ったように、市場は反応しています。株価が3%上昇しているようです。それが今日どれほどの価値があるかは別として、人々はこれが何かにつながると考えているようです。
ちなみに、これはやや異例です。通常、買収後には少なくともしばしば株価が下がります。ほとんどの買収が失敗に終わるからです。この買収はAMDにとって構造的に興味深いものに見えます。
アンドレイ: では、ライトニングラウンドに移りましょう。まず、Ars Technicaのコンテンツが現在OpenAIのサービスで利用可能になったというニュースです。これはArs Technicaが発表したもので、OpenAIとCondé Nastとのパートナーシップによるものです。Condé Nastはコンテンツを発行するブランドの1つです。
OpenAIがこのような取引を他の出版社と結んでいることについては、すでに何度も話しました。アトランティック、AP通信、アクセル・シュプリンガーなどです。これはArs Technicaによる非常に詳細な記事で、これが何を意味するのかを説明しています。
例えば、「Ars Technicaの最新の記事は何ですか?」や「OpenAIについてArs Technicaは何と言っていますか?」と聞くと、Ars Technicaのコンテンツを見ることができるようになります。多くのコンテンツを作成できるようになります。
また、トレーニング目的でArs Technicaのコンテンツをクロールすることもできます。これは大きな議論の的になっている問題です。実際、ちょうど1ヶ月前にCondé NastはデータスクレイピングについてPerplexity AIに対して差止命令を送りました。
これは興味深いタイミングです。同じ会社が別の会社に「我々のデータを見るな」と言っていたのに、今ではOpenAIとのパートナーシップを発表しています。
ジェレミー: この特定の動きには構造的に非常に興味があります。議会の人々と話すときによく遭遇する非常に理解できる懸念の1つは、AI規制を導入すると、基本的に勝者と敗者を指名してしまう可能性があるということです。規制の捕捉が起こる可能性があります。
OpenAIが出版社と個別に数百万ドル規模の大規模な契約を結ぶ必要があるという規範を設定している状況をどう考えますか?モデルのトレーニングにデータを使用したり、ユーザーのクエリに対してデータを提供したりするためにです。
これが crazy moat でないとしたら何でしょうか。小さなプレイヤーがアトランティックやAPからのリンクを自分のウェブサイトやアプリに掲載したいと思っても、もう忘れてください。これは基本的に、このような製品で競争したい人を完全に締め出すものです。
これは純粋な現金で作られた堀です。OpenAIには確かに余裕があります。これは非常に興味深い規制の捕捉の観点からです。これは本質的に純粋な現金で作られた堀であり、OpenAIは確実に余裕があります。
Condé Nastが最新の順守企業になりました。多くの出版社や新聞社がこの側に立っています。これらの企業の編集方針について少し疑問に思わせます。まさにこの種の問題の倫理について、オープンな疑問があります。1つの研究所が他の研究所よりもコンテンツへのアクセスライセンスを支払う必要があるかどうかなどです。これはメディアで議論されています。
OpenAIのような企業にとって、この問題に関する公の物語を形作ることが重要である限り、このような取引が多くを語ることを期待できるでしょう。基本的にメディア界の大部分を capture したからです。インセンティブがどこに向かうのか、本当に興味深いと思います。うまくいけば、これらすべてがどこに向かうのか、そしてそれが良いことなのかどうかについて、活発な公の議論が行われるでしょう。
アンドレイ: そうですね。これについても触れましたが、OpenAIが本当に印象的な曲芸のようなことをしているのは興味深いです。1年前は「フェアユースです。トレーニングにあなたのデータを使用したのはフェアユースだからです。AIモデルのトレーニングにデータを使用することは誰もが可能であるべきです」と言っていました。そして今は「はい、フェアユースですが、あなたのデータを使用するためにお金も払います。フェアユースでない場合はどうしましょう」というようなことを言っています。
ジェレミー: 顕著に欠けているのは、同じ考え方が動画に適用されるという言及です。なぜだろうと思います。YouTubeが巨大な動画データの洞窟であり、OpenAIがスクレイピングしたがっているという事実と全く関係ないのでしょうか。おそらく実際にスクレイピングしているという示唆もあります。
少なくとも私が聞いた限りでは、OpenAIがYouTubeを使用するために Googleに大金を提供しているという話は聞いていません。これは興味深いです。アクセル・シュプリンガーやアトランティックのものを使用するには倫理的にライセンスが必要だという、非常に興味深い微妙な議論をしていますが、動画についてはどうでしょうか?
GoogleがiPhoneのデフォルト検索エンジンになるために毎年Appleに200億ドル支払っているのと同じように、OpenAIがGoogleの製品と直接競合する製品を構築するために、Googleに巨額の現金を支払うことになるのでしょうか?AppleとGoogleの関係とは少し異なりますが。これは本当に興味深くなると思います。
あなたの言う通り、ここには矛盾の余地があると思います。OpenAIは確かにそれを受け入れているようなので、どうなるか見てみましょう。
アンドレイ: 次に、GitHub Copilotのライバル、AnysphereがシリーズAで6000万ドルを調達し、4億ドルの評価額を獲得しました。これはAI搭載のコーディングアシスタントCursorを開発しているスタートアップです。タイトルの通り、A16Z、Five Capital、Stripeの共同創業者兼CEOなどの有名VCから、ポストマネー評価額4億ドルという大規模なシリーズAを調達しました。以前に1100万ドルのシードラウンドも調達しており、他の有名な投資家も参加していました。
この投資を受けているのは理にかなっていると思います。GitHub Copilotは今でも非常に収益性の高いAI製品の数少ない例の1つです。この記事によると、世界中の推定300万人の開発者がMicrosoftに年間100ドルを支払ってCopilotを使用しています。競合し、人々が競合に資金を提供したいと思う理由が簡単に想像できます。
ジェレミー: そうですね、その通りです。OpenAI関連の製品群が収益化の面で最も成功しているように見えます。OpenAIが年間30億ドル程度の収益を上げているという投稿を見たことがありますが、生成AI分野の他のすべての収益を合わせてもそれほど多くありません。
この分野でお金を稼ぐのは難しいです。競争するなら、Perplexityのように、うまく機能しているものを取り上げて独自のツイストを加える必要があります。少なくとも今のところ、この分野で全く新しい製品カテゴリーはあまり見られません。もちろん、これからは出てくるでしょう。今のところ、最も収益性の高いものは、長い間見られたものに少し変化を加えたものです。
ちなみに、最初に調達した1100万ドルのシードラウンドはOpenAIのスタートアップファンドが主導しました。ナット・フリードマン(Dropboxの共同創業者の一人)なども参加しています。通常、シードラウンドでは明示的なリードは必要ありませんが、よくわかりません。いずれにせよ、OpenAIのスタートアップファンドが関わっており、今後も登場し続けると予想されます。なぜなら、これらの新興企業について独自の視点を持っているからです。
ストライプのパトリック・コリンズ(共同創業者の一人)がこのラウンドを主導または関与していると言及しましたが、同様です。OpenAIの立場にいれば、これらの企業のトークン消費量を見ることができます。基本的に、使用量に基づいてどの企業が注目を集めているかを早い段階で把握できます。ストライプと同じように、これは決済会社で、どれだけの金を稼いでいるかを見ることができ、非常に効果的な投資部門を持つことができます。
OpenAIも同じです。AGIの世界では、価値がますますフロップやトークンで表されるようになっているため、OpenAIのスタートアップファンドの立場はストライプのものと構造的に似てきています。これは本当に興味深い提案です。おそらく、彼らの早期投資の鋭さにそれが反映されているのではないでしょうか。OpenAIのスタートアップファンドのさらなる成功例がまもなく見られるでしょう。
アンドレイ: この話題についてもう一つ考えがあります。6000万ドルはかなり大規模なシリーズAですね。テクノロジーの世界でもまだ大きいです。以前は毎週、あるいは1週おきに1億ドル、2億ドルのラウンドを取り上げていましたね。
AIの冬に入っているのか、資金が枯渇しているのか、人々が実際の利益と収益を求め始めているのかについて、多くの議論がありましたが、あまり深く掘り下げてきませんでした。収益性のあるセクターにいて、長期的な賭けではない場合、VCがこの会社のように興奮する余地はまだあるようです。
次は、Stability AIが新しい最高技術責任者を任命しました。新しいCTOはHanno Bassです。この人物は、視覚効果とデジタルプロダクション会社のDigital Domainなどで、30年間CTOとしての経験があります。これは、我々が取り上げてきたように、Stability AIにとって波乱の1年の後を受けてのことです。有名な話として、Stability AIのCEOが去ったことがありました。
ドアを示されたというか、リーダーシップの多く、技術リーダーシップの多く、そしてCEOも去りました。会社が少し混沌としていて、明確なビジネスプランがなかったためのようです。これは、Stability AIがまだ船の向きを変えようとしている、単にオープンソースモデルを公開するだけでなく、お金を稼ぐビジネスになろうとしている観点から注目に値します。
非常に経験豊富で、非常にビジネス志向の人物が舵を取っているようです。これは彼らが歩んでいる全体的な道のりの一部だと思います。
ジェレミー: そうですね。Stabilityの取締役会の思惑を読み取ろうとするつもりはありませんが、私の推測では、この時点で、巨額の資本を調達し、その多くを使い果たした会社を抱えているとしたら、取締役やアンベスターとしては、どうやってこの資本の塊を救うかを考えているのではないでしょうか。多くの埋没コストがあります。
反応として、業界のベテラン、安定した考えを持つ人が必要だと考えることがあります。これが良い動きになるかどうかは複雑で、知るのは難しいです。過度に保守的なプレイヤーになったり、必要な新鮮な視点をもたらさない人になってしまう可能性もあります。良い動きになる可能性もあります。
この場合、彼は以前にMicrosoft Azure Media and Entertainmentのジーツォーを務めていました。Microsoft Azureのクラウドテクノロジーにたくさんかかわってきました。つまり、多くのインフラ work をしてきたということです。Stabilityが本当に必要としているものを考えると、効率的に大規模に実行する能力、コストを大幅に削減する能力が必要です。利益を上げる必要があるからです。
Stabilityは戦略的なプレイと利益を示さない限り、新たな資金調達はできないでしょう。あなたが先ほど指摘したように、彼らは「ビーフはどこにある?」という質問がすぐに出てくる企業の1つです。調達した金額の大きさ、急速な台頭、そしてその後の急激な落ち込みを考えると。うまくいけば彼が船の向きを変えられ、将来的にStability AIからより多くの疑似オープンソースのリリースが見られることを願っています。
アンドレイ: そうですね。彼はまたWeta Digitalのジーイーオーでもありました。最初の反応では、これはあまりAI指向の人物ではないように思えましたが、VFXや特殊効果の分野で働いていると、かなりの重複があります。驚きました。
最後の話題は、私の好きなトピックの1つであるロボタクシーです。ニュースは、CruiseのロボタクシーがUberアプリに2025年に登場するというものです。CruiseはUberとの複数年にわたるパートナーシップを発表しました。無人運転サービスを再開した際には、独自のカスタムアプリではなくUberを通じてサービスを提供できるとしています。
振り返ると、CruiseはWaymoと同様に実際にSFで顧客にサービスを提供していました。ロボタクシーを呼ぶことができました。その後、大きな事故があり、規制当局とのコミュニケーションに問題があり、Cruiseはそれ以来トラブルに巻き込まれています。これはCruiseにとっておそらくかなり良いニュースで、Waymoと競争するためのそのようなプラットフォームを持つことができます。
確かに、TeslaとWaymoとCruiseの間で、来年はロボタクシーにとって大きな年になるでしょう。
ジェレミー: そうですね。これは2020年後半の出来事を思い出させます。当時、Uberは自社の自動運転車部門であるUber ATGを売却しました。アンドレイ、覚えていますか?自動運転車がUberのようなサービスとリンクされるというアイデア全体が、しばしば戦略的な計算の一部と考えられていました。アイデアはUberが自動運転車のパイオニアになり、スタック全体を所有するというものでした。物理的な車両を所有し、それを調整するマーケットプレイスインフラも所有するというものでした。
今、Waymoが彼らのサービスで最初の自動運転車になるという事実は、4年経っていますが、きっとまだ痛みを感じているでしょう。これは非常に戦略的なプレイでした。Uberやの長期的な見通しについて話していたのを覚えています。本当に難しいのは自動運転車の能力をオンラインにすることだと思われていました。そしてそれができれば非常に収益性が高くなります。乗車コストの多くは運転手の時間です。
いずれにせよ、これらのロールアウトがより多くの都市で見られるにつれて、この周りの経済が急速にシフトすることを期待してください。Uberがここで持っているもので何とかできることを願っています。
アンドレイ: プロジェクトとオープンソースに移りましょう。まずはAI21がJambaモデルファミリーを導入しました。これは2つの新しいモデル、Jamba 1.5 miniとJamba 1.5 largeです。Jambaは興味深いクラスのモデルです。TransformerとMambaのハイブリッドだからです。
確立されたモデルであるTransformerを使用しています。これはChat GPT、Claude等で使われており、非常に優れていて性能が高いのですが、スケーリングに問題があります。入力と出力が大きくなるにつれて、コストがかかり、計算量も増えます。
Mambaは、我々が約1年前から取り上げているTransformerの代替案の1つです。より再帰的なアーキテクチャで、無限にスケールできると考えることができます。入力が長くなっても、特に何も変わりません。
しばらくの間、2つを組み合わせると最良の結果が得られることがわかってきました。ここで彼らは2つのモデルをリリースしました。Jamba 1.5 largeは混合エキスパートモデルで、合計398億のパラメータがあります。AI21 labsの主張によると、これらのモデルはLlama 2の80億と70億のような同様のサイズのモデルよりも性能が優れているそうです。これはかなり大きな話です。
これまでのところ、Mambaは非常に有望でしたが、大規模で本当に機能することが証明されていないという課題がありました。Mambaタイプのモデルが小規模で機能するデモンストレーションはありましたが、このJamba 1.5は、私の知る限り最大のハイブリッドモデルで、非常に性能が高いことが示されています。
かなり重要なステップですね。特に10,000トークン以上のプロンプト長で、より良いパフォーマンスが得られるそうです。これは予想通りです。
ジェレミー: そうですね。これは私が見た中で最もスケールの大きいMambaアーキテクチャ、あるいはMambaを含むアーキテクチャです。彼らがこの選択をしたのは本当にクールだと思います。これは歴史的に大きな疑問の1つでした。Mambaはどのようにスケールするのか、単独で、あるいはTransformerとのハイブリッドアーキテクチャでどのようにスケールするのか。本当に機能するのか?
これについて多くの異なる説明をしてきましたが、Mambaが潜在的に興味深い理由と、Transformerとうまく組み合わせられる理由について、直感を得るのに役立つかもしれない見方を1つ紹介したいと思います。
Transformerがあれば、基本的に入力内のすべての異なる単語がどのように互いに関連しているかを見ることができます。例えば、128,000トークンのコンテクストをモデルに与えると、そのコンテクスト内のすべての単語間の接続を理論的に見ることができます。これは非常に複雑な関係や豊富な情報を考慮することができます。ただし、捕捉できるデータの最大量、つまり最大コンテクストウィンドウサイズがあります。
一方、Mambaでは、テキストをより多く読むにつれて、モデルが小さなメモ帳を持っているようなものです。そのメモ帳には有限の長さがあり、例えば1000語程度です。そして、これまでに読んだすべての内容の要約をそのメモ帳に書き続けます。より長い文書を読み進めるにつれて、メモ帳の単語をここ、単語をそこと更新し続けることができます。
どれだけ長い文書でも、以前に読んだ内容を反映するようにそのメモ帾の要約を調整し続けることができます。これには、任意の長さの文書を読むことができ、その1ページの要約を継続的に調整して、次の単語予測や出力を決定するのに使用できるという利点があります。
これら2つのものは対照的です。Mambaの方は最大記憶容量があります。基本的に、その要約メモ帳は読んだ内容の複雑さをすべて考慮することはできません。多くの詳細を忘れ、高レベルの要約のみを保持しますが、任意の長さの入力で機能します。
一方、Transformerは実際にそれらのトークン間のすべての詳細な相互作用を考慮しますが、そのコンテクストを超えることはできません。
そこで、これら2つを組み合わせることが非常に効果的になります。これは本当に興味深い論文です。彼らが示しているクールな点の1つは、しばしば非常に長いコンテクストウィンドウを持つと主張する他のモデルとは異なり、この場合Jamba 1.5の最長コンテクストウィンドウである256,000トークンでは、実際にそのコンテクストウィンドウ内の情報を確実に使用できることです。
他のモデルでは、事実を忘れたり、巨大なコンテクストウィンドウ内に埋め込まれた小さな事実をどれだけ頻繁に忘れるかという「干し草の中の針」テストがよく使われます。彼らは基本的に、長いコンテクストウィンドウを持つ他のモデルとは異なり、彼らのモデルはコンテクストウィンドウ全体に埋め込まれた事実を実際に思い出せることを示しています。そのために、彼らはRULERベンチマークを使用しています。これは基本的に干し草の中の針の評価をステロイドで強化したものです。
彼らが行っている別のこと、最後に言及したいのは、小さいモデルのために特別な量子化方法を開発したことです。量子化とは、これらのモデルを取り、通常は膨大な量の重みを持っています。これらのパラメータは、与えられたデータをどのように混ぜ合わせるかを教えてくれます。
これらのパラメータの各々に、ある精度、つまりある小数点以下の桁数まで値を与える必要があります。モデルを小さくする簡単な方法の1つは、それらの表現のデータの解像度、精度を下げることです。
この場合、彼らは8ビットの精度形式を使用しています。彼らが行っているのは、MOEのエキスパートのみを圧縮することです。つまり、クエリがルーティングされるサブモデルのみで、その圧縮を行い、表現の精度を下げています。
これは興味深いです。彼らはこれを「experts into 8」と呼んでいます。標準的な int8 や integer 8 ではなく、これは8ビットの精度形式で量子化する一般的な方法です。典型的なMOEでモデルの重みの80〜85%を占めるエキスパートにのみ適用しているのが興味深いです。
うまく機能しています。Jamba 1.5 largeでさえ、単一の8 GPUノードに収まります。基本的に8つのGPUで一緒に収まります。これはかなり強力なことです。非常に民主化され、よりアクセス可能になります。これは大きなモデルだからです。
アンドレイ: そうですね、興味深いです。このRULER論文を見ていますが、2024年8月6日に発表されたばかりのものです。タイトルは「RULER: 長いコンテキストの言語モデルの実際のコンテキストサイズは何か?」というものです。つまり、主張されているコンテキストサイズと、例えばGPT-4で128,000トークンを処理できると言われていても、それは実際にはモデルが建築的に扱える上限であって、効果的に使用できる量とは異なるということです。このベンチマークは、これまで見てきたものよりもそれをより良く評価できます。
彼らは、Gemini 1.5 Proが200万のコンテキストを主張しているのに対し、彼らによれば実際には128Kしかないと言っています。論文からは判断が難しいですが、もう少し大きいかもしれません。
いずれにせよ、確かに興味深い進展です。これはJamba Open Model License Agreementの下でリリースされており、他の同様の契約と非常によく似ています。許容される使用ポリシーに従う必要があり、商標は使用できず、これを参照する必要があります。このデータを使ってモデルをトレーニングする場合は、その前にJambaを付ける必要があるなど、AIモデルのライセンスの特徴的な機能がいくつかあります。LLamaに非常に似ていますね。研究目的と商業目的の両方に使用できるようです。つまり、今日のモデルにとって事実上オープンソースと考えられているものです。
次は、MicrosoftのPhi-3.5です。MicrosoftはこれらのPhiモデルを次々とリリースしており、今回は3.5までになりました。3.8億、4.15億、41.9億パラメータのバージョンが利用可能です。Microsoftからこのようなサイズのモデルが出るのは珍しいですね。
以前のPhiのリリースと同様に、これは非常に小さなモデルで、自分のGPU、自分のコンピューターでローカルに実行することを意図しています。このクラスのモデルとしては非常に性能が良いです。Valverと比較すると、3億、4億パラメータのモデルでは、このサイズで最高のパフォーマンスが得られると彼らは言っています。
また、混合エキスパートモデルとしても実行できます。画像を理解できるビジョンモデルもあります。興味深いトレンドとして、ますます多くのビジョン言語モデルが人々に利用可能になっています。
ジェレミー: そうですね、この場合、少なくとも2つの非常に異なる点があります。MicrosoftのPhiシリーズモデルの大きな差別化要因の1つはデータ品質です。基本的に、これらのモデル、特に小さなモデルを過学習させています。過学習というのは、理論的には、同じ量の計算リソースを使ってこれらのモデルをトレーニングすれば、モデルサイズを大きくすることでより良いパフォーマンスを得られるということです。
モデルサイズは実際には制約であり、意図的に小さく抑えています。これは、非常に良いパフォーマンスを発揮する小さなモデルを確実に作るためです。原理的には、スケーリング則に従いたいなら、世界最高の小さなモデルを概念的には非常に簡単に作れます。単に小さな通常のアーキテクチャにはるかに多くの計算とデータを投入すればいいのです。
ここでMicrosoftは、その一部を行いつつ、慎重なデータ選択も多く行っています。これは彼らのPhiモデル論文の大きなテーマでした。
もう1つ本当に興味深いのは、Phi-3.5 miniの3.8億パラメータという非常に小さなモデルで、128,000トークンのコンテキストウィンドウがあることです。これは他の3.8億や4億パラメータのモデルよりもはるかに大きいです。これはエッジデバイスへの展開に非常に役立ちます。3.8億パラメータを保存するスペースしか必要ありません。そしてエッジデバイスが128Kトークンのコンテキストウィンドウで機能できるのは非常に印象的で興味深いです。
Phiシリーズからは多くのクールなものが出てきています。彼らは特別な混合エキスパートモデルであるPhi-3.5 MOEも発表しています。これは42億パラメータの大きなモデルで、20以上の言語をサポートしています。
彼らは微調整の方法や挙動の調整方法について少し詳細を説明していますが、DPOを使用しています。人間のフィードバックからの強化学習に詳しい人にはわかると思います。
安全性の微調整に関する論文全体があり、内部で実装している break-fix cycle があります。要するに、非常に興味深いモデルシリーズです。Phiシリーズは、特にモデルの小型化の側面で最も注目しているもののひとつです。これは本当にクールだと思います。
アンドレイ: 名前が実際にコンテキストウィンドウのほとんどを占めていますね。
ジェレミー: これは興味深いと思いました。通常はこのようなことを見ることはありませんが、基本的に大きなモデルから始めて、それを剪定すると示しています。つまり、不必要な重みや不必要なニューロンを取り除きます。
この場合、150億パラメータの初期モデルから80億パラメータのモデルになります。そして、その80億パラメータのモデルの出力を使って、別の40億パラメータのモデルをトレーニングし、基本的に80億パラメータのモデルができることを複製します。
このプロセスを繰り返して、どんどん小さなモデルを作ります。彼らが発見したのは、少なくとも40億パラメータのモデルでは、そのモデルを最初からトレーニングするよりも良いパフォーマンスを発揮するモデルが得られるということです。これは興味深いですね。
彼らは40億パラメータのモデルを持っていて、それはMistral 7b、8bとほぼ同等に競争しています。つまり、ほとんどすべてのものと競争しています。深刻な欠陥のあるベンチマークであるMMLUで16%の改善を示しています。これは興味深い改善です。
これは、より小さなモデルと、より少ないリソースでそこに到達するプロセスへの大きな一歩です。モデル縮小に興味がある人々にとって、今週は追跡するものがたくさんあります。
アンドレイ: そうですね。これはすべて、少なくとも数ヶ月前の論文「Compact Language Models: Pruning and Knowledge Distillation」に基づいています。剪定は重みを取り除く部分で、木を剪定するようなものです。知識蒸留は、大きなモデルを持ち、それにデータを出力させ、基本的に小さなモデルを大きなモデルに一致するようにトレーニングするもう1つの部分です。単にビットを取り除くのではありません。
彼らはその技術を使って、最初のNemetronファミリーのLLMを150億から80億、40億に縮小しました。この話は、基本的に同じ技術をLLaMA 2 31B 8Bに再適用したものです。
このセクションの最後の話題は、オープンソースのDracarysモデルが生成AIで火をつけたコーディングを点火したということです。VentureBeatの記事タイトルには著作権の問題はありませんね。
DracarysはAbacus AIによるもので、以前にも他のドラゴンをテーマにしたLLMをリリースしています。今回のDracarysはコーディングに最適化されています。他のオープンソースLLMのコーディング能力を向上させるために使用しました。Qwen-2 72bとLLaMA 2 70bの両方でこれを実証し、コーディングに最適化されたこれらのモデルをリリースしました。
これらの話のすべてに共通のパターンが見られます。オープンソースや実際に前の2つの話では、NVIDIAとこの話の両方がLLaMAを取り上げ、異なる方法で改良しています。前の話では蒸留によって小さくし、この話では独自のレシピでコーディングのような特定のアプリケーション向けに改良しています。
論文は公開していないようですが、要するに既存のモデルを取り上げて特定のアプリケーション向けに改良できるということです。コーディングに非常に優れたモデルが欲しい場合、使用できるオープンソースのものが今あります。
ジェレミー: 次は、ジェレミーの週末です。これは実際にEpic AIという会社が発表した論文です。Epic AIはAIの能力とトレンド予測に関する素晴らしい研究を行っている研究会社です。彼らは巨大な論文を発表しました。私は土曜日のほとんどを読むのに費やし、日曜日のほとんどを再読するのに費やしました。
基本的に、タイトルは「AI scaling can continue through 2030?」(AIのスケーリングは2030年まで続けられるか?)です。現在、AIモデルをスケールアップするトレンドが見られています。モデルはどんどん大きくなっています。特に、先端的なAIモデルのトレーニングに投入される計算量が毎年4倍ずつ増加しています。これは、過去数十年間で見られた他の技術的なAIのピーク成長率よりも速いです。携帯電話の普及率は毎年2倍、太陽光発電の設置容量は年1.5倍、ヒトゲノム解読は年3.3倍と有名な急速な加速でしたが、それらはすべて年4倍未満であり、計算予算の増加率よりも大幅に低いです。
つまり、事態は非常に急速に狂ったように進んでいます。そして明らかな疑問は、これはどのくらい長く維持できるのか、非常に強力なAIシステムに到達する前にリソースが枯渇してしまうのかということです。
ヘッドラインをお伝えしましょう。Epic AIの評価によると、現在のスケーリングの軌跡、つまり年4倍の増加を2030年頃まで継続できる見込みです。その時点で、GPT-4の10,000倍のスケールを持つシステムが実現します。これは、ほとんどの人が聞いたことも接したこともないGPT-2と、誰もが聞いたことがあり自律エージェントを動かし、このポッドキャストの多くのエピソードで何らかの形で取り上げられているGPT-4との間のギャップと同じです。
これにより、多くの人々が推測をしています。私が研究所の内部から聞いている限り、また彼らの実験や、AIサイエンティストなどの成功した実験に基づいて考えると、合理的だと思います。そのようなリープで完全なAI研究の自動化が可能になる可能性があります。もちろん、スケーリングがうまくいかず、すべての計算を投入しても必要な価値が得られない可能性もあります。しかし、それはかなりありそうだと思います。
大きな疑問は、これほど急激に、これほど速くスケールアップしようとすると何が壊れるかということです。彼らは4つの潜在的に壊れる可能性のあるものを特定しています。
1つ目は電力です。これらの巨大なトレーニング実行に電力を供給するには膨大な量の電力が必要です。彼らの予想では、2030年レベルのトレーニング実行に1〜5ギガワットの電力が必要になるとしています。
参考までに、現在最大のクラスターは通常100メガワット強のスケールです。つまり、今日の主流の期待値と比較して、2030年には20〜30倍のスケールになると見込まれています。
ただし、電力は計算ではありません。2030年にこれらのモデルをトレーニングするために20〜30倍の電力を使用するわけではありませんが、実際の計算量は10,000倍になります。
なぜそのような差があるのでしょうか?素朴に考えると、1つの追加計算、1つの追加の電力増分が一緒にスケールするはずだと思うかもしれません。しかし、ここでの期待は、これらのモデル、特にハードウェアがはるかにエネルギー効率が高くなるということです。
他にもいくつかの理由で、それらが奇妙にスケールすることが期待されますが、すべてレポートに詳しく説明されています。
つまり、エネルギーまたは電力がありますが、チップもあります。2030年までにGPU生産が枯渇するでしょうか?これは本当に興味深いです。ポッドキャストで話している多くのことについて言及しています。チップ生産、GPU生産の主なボトルネックは何でしょうか?実際には論理、つまりチップ上で数字を計算する部分ではありません。実際にはパッケージングです。
必要なすべてのチップを取り、GPUを作るためにそれらを一緒に接着する能力、同じデバイス上に配置する能力です。これはCoWoSと呼ばれる新しいパッケージング技術で、これが本当にレート制限要因になっています。また、高帯域幅メモリも制限要因です。
結論として、チップと電力が最初に制約として現れ始めます。どちらが先に現れるかははっきりしていません。実際、このレポートを読む前は、電力の方がチップよりもはるかに早く、かなり早い段階で制約になると思っていました。しかし、そこにはもっと不確実性があることがわかりました。おおよそ同じくらいのタイミングで現れるようです。
そしてデータがあります。トレーニングデータは枯渇するでしょうか?ここには多くの未解決の疑問があります。不確実性がたくさんあります。例えば、ビデオデータなどの大量のマルチモーダルデータが使用可能です。合成データは大きな未知の要素であり、データの可用性を大幅に増やす可能性があります。結論として、データの壁は2030年よりもやや遅く到達すると推測されます。
最後の部分は、レイテンシーと呼ばれるものです。レイテンシーは本当に興味深いです。スケールする能力に対する一種の還元不可能な制約です。
モデルに入力データを与えてから、モデルの端までデータが伝播し、出力を生成するまでにかかる時間について考えてみてください。これには一定の時間がかかります。モデルを大きくすればするほど、その情報が伝播して処理されるのに時間がかかります。
トレーニング実行を考えている場合、トレーニング実行には、どのように考えても、モデルをトレーニングするための前方および後方パスを多数含む必要があります。データを供給して何度も実行する必要があります。
これらのトレーニング実行が1年程度しか続かないと仮定すると(実際にそうです。1年以内に新しい世代の計算が登場し、使用しているインフラ全体が時代遅れになるため)、モデルをかなり早く生産ラインから出す必要があります。つまり1年しかありません。
データがモデルを通過するのに最小限の時間がかかり、それがモデルのサイズに基づいて実際に投入できる計算量に厳しい境界を設定します。
このペーパーには多くの詳細が含まれています。AIスケーリングやハードウェアのオタク、特に私のような国家安全保障の観点に興味がある人は、この論文を見てください。これは本当に素晴らしい文書です。そうでない人も、ハイライトを評価していただければと思います。
アンドレイ: そうですね。これがどれほど有用かを過小評価するのは難しいです。なぜなら、スケーリングは私たちが取り上げてきたように、AIの主要な、おそらく最も重要なトレンドの1つだからです。10年間、特に2020年にGPT-3が登場してからは、スケーリングが重要だということが非常に明らかになりました。
GPT-3からGPT-4に10倍のパラメータで移行すると、アライメントやRLHFなど他の重要な要素もありますが、より多くのデータを得て、より大きなモデルを得ることが進歩の主な要因、少なくとも要件の1つであるように見えます。
これは本当の疑問です。必要な電力、必要な計算、必要なデータ転送などの物理的な制約だけで、どれだけスケールアップできるのでしょうか。これは基本的にその計算を行い、GPT-4の2桁上を達成するために必要な要件が途方もないことを示しています。予想されることです。GPT-4は既に、数年前には想像もできなかったトレーニングをはるかに超えていました。GPT-3は2020年に登場した時点で既に想像を絶するほど大きかったです。
これは、数千億ドル、あるいは兆単位のドルの投資を想定すれば可能だと言っています。これはまた、各要因についての不確実性の幅を示すことで、データの問題にもかなり微妙な方法で取り組んでいます。
電力や計算などの物理的な側面については、どこまでトレーニングできるかの限界についての不確実性の幅が比較的小さいのに対し、データについては不確実性の幅がかなり大きくなっています。合成データが非常に有用になるかもしれません。マルチモーダルデータが非常に有用になるかもしれません。しかし、それを言うのは難しいです。
この2030年の予測は、大まかに言って不確実性の下限にあります。つまり、データと合成データについて楽観的にならず、チップ生産についても必ずしも楽観的にならないなど、やや保守的な予測です。
非常に有用な結論ですね。ただし、これまで経験的に見てきたスケーリング則が、さらに2桁上にスケールアップしても続くのかという疑問には触れていません。現在の多くの人々の仗説は、暗黙のうちに、スケールアップし続けるにつれてパフォーマンスが向上するという同じトレンドが見られるだろうというものです。いくつかのものがプラトーに達するように、プラトーに達することはないだろうと考えられています。しかし、それはまだ分かりません。
ジェレミー: そうですね。それは何を意味するのでしょうか?スケーリング則は、大まかに言って、モデルに供給する計算量とデータ量を増やすと、次の単語の予測精度がどのように向上するかを教えてくれます。そこから分かるのは、そこにべき乗則があり、これらのものを増やすと、次の単語の予測精度が確実に予測可能な方法で向上するということです。
少なくとも経験的にはそうです。その次の単語の予測精度が実際に能力の面で何をもたらすかについては別の疑問があり、ここに本当に多くの議論が集中しています。アンドレイが言ったように、ほとんどの人々はこれらのスケーリング則が維持されるだろうと考えています。
実際、多くの物理法則が初めて物理法則と呼ばれた時と同じくらいよく確立されています。例えば、理想気体の法則のような経験則を考えてみてください。今では10桁の規模にわたって適用されるのを見てきました。これはかなりよく確立されたトレンドです。
無期限に保持されるという意味ではありませんが、多くの人々、Microsoftを含む企業がこれを信じています。私たちはこのことについて話してきました。これらの構築のスケール、エネルギーとチップの使用の両面で、規模が馬鹿げているように見えますが、Microsoftのような企業による現在の投資も同様に馬鹿げています。
Microsoftが人類の文明史上最大のインフラ構築に携わっているかもしれないと言われています。これらのデータセンターに年間500億ドルを投資しています。これはAGIのようなものにつながるという仮説に基づいています。そこから来ているのです。
4年間で2000億ドルです。これはアポロ月面着陸計画の規模です。これは本当に大きな賭けです。明らかに、MicrosoftとOpenAIが共同設計し、構築予定のStargateクラスターは、1000億ドルの計算クラスターで、2028年に稼働開始予定です。これはこのレポートでかなり顕著に取り上げられており、これらの企業が内部的にこれが実現可能な提案だと信じているという例として挙げられています。
これは本当に興味深く、これらの途方もないトレーニング実行に燃料を供給するためにより多くの電力を獲得しようとする企業のあらゆる興味深い策略が見られます。Amazonはペンシルベニアでほぼ1ギガワットの原子力発電契約を結んでいます。MicrosoftとOpenAIのキャンパスは、明らかに5ギガワットのクラスターを計画しています。
既に計画されているものの規模に近づいており、これはまだ2030年ではなく2028年の話です。つまり、物事は少なくとも投資の面では狂っています。見返りがあるかどうかは分かりませんが、もしあるとすれば、Microsoftが4年ごとに6つのAirbnbに相当するものをデータセンターの構築に投資している理由があるはずです。彼らはそこに何かがあると考えているのです。
アンドレイ: そうですね。電力供給に投資し始めなければならないでしょうね。これは単に国家インフラの問題としても非常に興味深いです。そして政策に入ると、考えるべき狂ったことがたくさんありますが、少なくともこれは物理的に可能かという疑問の1つに答えています。そして今のところ、答えは可能であるように見えます。
次の論文は「Agent Q: Advanced Reasoning and Learning for Autonomous AI Agent」です。ここでは、単なるLLMから主体的なLLMへの移行について話しています。以前にも取り上げましたが、LLMは受動的なモデルで、入力を与えると出力を吐き出すだけです。一方、エージェントは要求を受け取り、独立して作業を行い、一連のステップを実行して、あなたが意識したり監督したりすることなく、要求を達成しようとします。
これは、スタンフォードとの共同研究によるマルチ・オン・AGI企業からの新しい研究作業で、LLMを平均化する可能な1つのエージェントアーキテクチャを提案しています。特に、ガイド付きモンテカルロ木探索を組み合わせたフレームワークを持っています。探索とは、1ステップ先を考え、2ステップ先を考え、異なる可能性のある分岐について考えることです。基本的に先を見越して計画を立てることです。そして、自己批評とエージェントの相互作用に関する反復的な微調整を組み合わせています。
つまり、本質的に進行しながら学習することができます。何かを行い、試し、自分に報酬を与えます。成功したか、しなかったか。そして、直接参照最適化を行います。基本的に、私たちがすでにアライメントで行っていることで、「正しいことをした」または「正しくないことをした」と言って、物事を適切に行う能力を自分で改善します。
彼らはこれらすべてを、LLAMAやChat GPTのようなLLMで使用できるフレームワークに組み合わせ、エージェントのデモケースの1つ、特にここでは模擬的なeコマースプラットフォームに適用しています。エージェントに何かを予約したり、検索や商品の取得に関連する何かを購入したりしてもらいたいのです。
数値的には、実世界の予約シナリオで、彼らの方法論はLLaMA 2 70Bのゼロショットの成功率を18.6%から81.7%に引き上げます。つまり、ベースモデルを取り、このフレームワークに組み込むと、はるかに優れたパフォーマンスを発揮できます。これは1日のデータ収集後のことで、オンライン検索でさらに改善することもできます。
LLMを組み込んでエージェントを得るためのアーキテクチャやフレームワークのアイデアに関する多くの作業の1つです。これは、計画と継続的な学習の点でエージェントの重要な側面をいくつか組み合わせた、非常に印象的なアイデアのように見えます。
ジェレミー: そうですね。ここでの大きな概念的な飛躍の1つは、トレーニングを言語モデルに適用するものから考えることです。言語モデルをトレーニングし、次の単語を予測します。そして、世界モデルを持つこのモデルができあがります。多くのことを理解します。
そして、問題をサブステップに分解し、それらのサブステップを実行させます。そのステップの実行が、その事前の世界知識によって合理的に上手くいくことがあります。しかし、次の単語の予測トレーニングが特に優れたエージェントを作るべき理由は明らかにありません。それは単なる偶然、コインシデンスです。
そこで彼らが行っているのは、「いや、エージェントを設計し、そしてこれらのエージェント的なタスクでどのようにパフォーマンスを発揮するかに基づいてモデルの重みを実際に更新しよう」ということです。これにより、エージェントのような振る舞いのためのファインチューニングの方向に進みます。
これは、GPT-5とそれが何が異なるかについて考えるとき、エージェントファーストのアーキテクチャが今後重要になるということの一端です。これはそのような味わいの一部であり、本当に大きな能力の飛躍です。18.6%から80%以上への向上を言及しましたが、このフレームワーク、この戦略のおかげです。
そのようなものがたくさんあると思います。フロンティアでの進歩を凍結したとしても、特にエージェント的なタスクにおいて、すでに存在するオープンソースの内容だけで、大きな能力の飛躍が見られると思います。人々が大規模モデルを安価にファインチューニングして驚くべきことを行う方法を見つけるでしょう。
この論文で本当に興味深いと感じたことの1つは、リチャード・サットンの有名なエッセイ「The Bitter Lesson」から引用していることです。これは基本的に、機械学習の歴史の長い(というか短い)弧を見ると、本当にうまく機能する技術は、高度にスケールされた計算を活用するのが非常に上手な技術だという考えです。
カスタマイズされたものではなく、人間が机を囲んで一生懸命考えて素晴らしいアイデアを思いつく技術ではありません。最もよく機能する技術は、特定のタスクを解決するために巨大な量の計算を注ぎ込むのが本当に上手な汎用的な技術だという主張です。
そしてそうすることで賭けているのは、計算がどんどん安くなるということです。結局のところ、フロントエンドでどれだけ賢くなっても、巨大な量の計算を活用するのが上手なアルゴリズムに負けてしまうでしょう。それが深層学習モデルの本質だと言われています。
この場合、それが全てのポイントです。計算が安くなればなるほど、このエージェントをより多くトレーニングし、エージェントのような振る舞いをより洗練できるようなセットアップをしているのです。
これは哲学的にアルファ碁のようなアプローチとかなり似ています。モンテカルロ木探索のようなアプローチを採用しています。基本的に、エージェントにウェブサイトを提示し、ウェブサイトのHTMLコードを与えます。それを読み、次に取りうる一連のアクションを提案します。
そして、それらのどれを追求するかを反省し、決定するプロセスがあります。それを追求しようとし、どこに行き着くかを見ます。そして、振り返って「私の意思決定プロセスはどうだったか?それは良い意思決定プロセスだったか?」と評価できます。
ツリーを下っていく各ノードでこれを繰り返し、最終的にはアルファ碁タイプのモデルで見られるような木になります。これは偶然ではありません。これをもっと見ることになるでしょう。フロンティアの研究所の友人たちと話すたびに、次の展開として何を見ているかというと、本当にこの種の推論、モンテカルロ木探索が大きな側面になっています。
そのようなものがこんなにうまく、こんなに早く機能しているのを見るのは印象的です。
アンドレイ: そうですね。これは本当に今年のトレンドの1つです。実践では、テキストから動画への変換、音楽生成などを見ていますが、舞台裏では、公開された論文や学者間の会話などで、LLMをエージェントにすること、つまり「エージェント化」が大きなトレンドの1つです。
私は、それが大部分、現在のモデル、GPT-4、LLaMA 2、CLAUDEなどでLLMが十分に強力であり、欠けているのはエージェントアーキテクチャだという感覚があるからだと思います。再帰的で、継続的で、記憶を持ち、探索とオンライン学習または経験からの学習ができるようにするアーキテクチャが必要です。これはLLMの弱点の1つです。
個人的に、私もそう考えています。この種のことが恐らく必要なすべてだと思います。人々は、これを使用可能で信頼できるものにするための正しいトリックのセットを見つけることに非常に取り組んでいます。
ライトニングラウンドから、最初の論文は「Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models」です。要するに、二次モデルはトランスフォーマーで、亜二次モデルはSSM(状態空間モデル)、つまりMambaや類似のモデルです。
彼らは、トランスフォーマーを取り、それを状態空間モデル(Mambaのようなもの)に変換する方法を示しています。例えば、PHI-1.5を取り、それをより小さなFireMambaに変換し、ハイブリッドバージョンも作成できます。
基本的に、Mambaタイプのモデルを無料で手に入れることができます。Mambaを含む再帰的アーキテクチャの課題の1つは、トランスフォーマーのような二次的な「すべての時間ステップですべてを見る」アプローチと比べて、再帰性による並列化の問題があるため、トレーニングが難しいことです。
ここで彼らが行っているように、多くのお金をかけて何かをトレーニングし、それをSSMに蒸留できれば、大きな利点があります。予想通り、結果はそれがうまく機能し、非常に有望なアプローチであることを示しています。
ジェレミー: この論文は本当に興味深いと思いました。概念的な仕組みは、例えばトランスフォーマーモデルから始めて、それをMambaモデルに変換したいとします。トランスフォーマーは多くのトランスフォーマーブロックと呼ばれるものから構成されています。トランスフォーマーをこれらの繰り返しトランスフォーマーブロックに分割します。
これらのブロックには、自己注意行列と呼ばれる特定の行列変換があります。これがすべての自己注意作業を行い、本質的に入力シーケンスの他のすべてのトークンに注意を払って、次のトークンがどうあるべきかを決定します。
あなたが行うのは、基本的にこう言うことです。「OK、Mambaでは、自己注意行列に相当するのはSSM行列です。」そこで、この1つの自己注意行列とこの1つのSSM行列を見てみましょう。つまり、私が持っているトランスフォーマーの自己注意行列と、トレーニングしたいモデルのSSM行列です。
基本的に、そのトランスフォーマーを取り、自己注意行列をまだトレーニングされていないSSM行列に置き換えます。そして、モデルの残りの部分は同一です。このSSMの部分だけを持ち、元の自己注意行列が生成した出力と一致する出力を生成するようにモデルをトレーニングしようとします。
モデルのごく一部だけを再トレーニングする非常に制御されたプロセスです。これが重要なのは、自己注意行列がトランスフォーマーの計算要件が二次的な部分だからです。
SSMに置き換えることで、それが操作の中核となります。自己注意行列と同じ出力を生成するようにSSMを取得できれば、それはかなり安価です。
次に、ブロックレベルでトレーニングを続けます。今度はブロック全体が同じ出力を生成するように、より多くの微調整を行います。そして、モデルレベルで同じことを行います。
基本的に、徐々にズームアウトしていきます。Jengaのようなゲームを思い出させます。木片を引き抜いて構造がまだ安定しているかを確認するようなものです。ここでも同じアイデアです。最初に核心的な修正を行い、その重要なSSM行列を自己注意行列に置き換えます。残りは同じように振る舞うように微調整するだけです。ズームアウトしてブロックを同じように振る舞うように微調整し、そして全体のモデルを微調整します。
これは概念的にはシンプルに聞こえますが、あるいは少なくとも... 私の物理学の日々を思い出させます。最もシンプルに見えるアイデアが「ああ、これは本当に良いアイデアだ」と思わせ、最終的に最もうまくいく傾向がありました。
彼らは多くの印象的な結果を得ています。この場合、モデルを30億トークンだけで蒸留できることがわかりました。これは、以前の最高性能のMambaモデルをトレーニングするのに使用されたデータの1%未満です。また、元のPHI-1.5モデル(彼らが始めたトランスフォーマー)をトレーニングするのに使用されたデータのわずか2%です。
アンドレイ、あなたが指摘したように、Mambaモデルのトレーニングをスケールアップするのははるかに難しいです。それには多くのハードウェア上の理由があります。しかし、最終的にこれによって可能になるのは、「OK、スケーラブルにトレーニングできるものをトレーニングしよう、つまりトランスフォーマーをトレーニングし、それを活用して非常に性能の良いMambaモデルを得よう」ということです。
これについての驚くべき点は、私がよく話すハードウェアの宝くじと呼ばれるものを信じる傾向があることです。これは、トランスフォーマーが技術的にMambaや他のアーキテクチャよりも優れているわけではないかもしれないが、そちらに向けてのハードウェア最適化、ソフトウェア最適化が非常に多いため、ある意味でもう終わっているという考えです。
人々はトランスフォーマーにますます投資し続け、それらはますます効率的になります。原則として他のモデルの方が可能性が高いということではありませんが、ここにいるのです。
これはその回避策です。別のプラットフォーム、別のアーキテクチャに効果的に移行できれば、トレーニングデータの1%か2%という低コストで、今や事業を始められます。この論文が本当に興味深いと思う理由です。戦略的な論文だと言えるでしょう。
アンドレイ: その通りです。パフォーマンスの詳細について少し触れると、彼らは彼らのPHI-Mamba 1.5Bを、基本的に他のすべての状態空間モデルの変種と、また他のいくつかの小さなモデルと比較する表を持っています。
Mamba 1 1.4B、Mamba 2 1.3B、XLSTM 1.4、PHI等々と比較しています。そして、あなたが言ったように、わずか30億トークンという比較的少量のデータを使用したこのPHI-Mamba 1.5Bは、他のすべてのモデルと比較して、ほとんどすべてのベンチマークでベストパフォーマンスを示しています。はるかに少ないデータを使用しているにもかかわらずです。
そして、元のPHI-1.5 1.3モデルにほぼ匹敵する性能を得ています。まだトランスフォーマーと完全に同じレベルではありませんが、他のこれらの小さな状態空間モデルタイプのアーキテクチャよりもはるかに近づいています。
私にとっては、これは直感的で、非常に大きなトランスフォーマーをトレーニングし、それをこれらの推論時に効率的で、推論時によりよくスケールするものに変換するというのは、かなり簡単に想像できるように思えます。しかし、少なくとも私はこれを実行した論文を見たことがありませんでした。結果は非常に exciting です。影響力のある可能性があります。どうなるか見てみましょう。
ジェレミー: 次は「Loss of Plasticity in Deep Continual Learning」です。この論文の共著者にリチャード・サットンがいることを強調しておきます。これは本物です。強化学習の創始者の一人であるリッチ・サットンです。
さて、可塑性の喪失とは何でしょうか?1つの問題空間、1つのタイプの問題でモデルのトレーニングを始め、次に別のタイプの問題、さらに別のタイプの問題でトレーニングを続けると、最終的にモデルは新しい問題空間を学習することがだんだん下手になっていくことがわかります。
ある意味では、これは破滅的忘却と呼ばれる別の現象のように感じるかもしれませんが、異なります。破滅的忘却では、モデルをどんどん多くのことでトレーニングすると、最終的に以前トレーニングしたことを忘れ始めます。古い知識が押し出されてしまうのです。
これは代わりに、新しい問題空間、新しい分布で問題を解決することを学習する速度の問題です。彼らはこの現象を調査し、この問題を緩和する方法をいくつか提案しています。
彼らは有名なImageNetデータセットから始めます。これは1000の異なるカテゴリーの画像で、すべてラベル付けされています。猫、犬、飛行機、スクールバスなどです。通常、モデルに与える問題は「画像を与えるので、これら1000のカテゴリーのどれに属するか教えて」というものです。
しかし、彼らはフレームを変更し、代わりにすべてのカテゴリーのペアを見ます。1000のカテゴリーがあれば、100万のペアを持つことができます。例えば、犬と猫のペア、猫とサンドイッチのペアなどです。
そして、各ケースでモデルをトレーニングして、2つだけを区別します。犬の画像と猫の画像を区別したり、猫の画像とサンドイッチの画像を区別したりします。
彼らが行うのは、これらのペアの1つでモデルをトレーニングすることです。例えば、猫と犬を本当によく区別できるようにします。次に、トイレとレンチを本当によく区別できるようにします。
時間とともに、次の問題でモデルが良いパフォーマンスを発揮するのにどれだけのデータが必要かを測定します。彼らが発見したのは、可塑性の喪失です。モデルはこれらのタスクをどんどん多く与えられるにつれて、さらに苦戦し始めます。
彼らは、これを緩和する戦略を提案しています。実際にかなり興味深いです。論文を読むと、なぜこれが起こっているのかについてあまり深く解釈しようとしていません。それは彼らにとってまだ未解決の問題のようですが、それでも効果的な緩和策を見つけています。
彼らが行うのは、モデル内のニューロンの小さな数、基本的に正しい出力の生成にあまり関与していないニューロンを再初期化することです。「このニューロンはあまり使われていないようだから、ゼロにしてゼロから再トレーニングしよう」というようなものです。
モデル内の重みのごく一部でこれを行い、それがより良い可塑性につながることを発見しました。一種のリフレッシュです。メタファーとしては、脳内のニューロンの一部を時々ゼロからやり直すことができたら、あなたを新鮮に保つことができるというようなものです。この論文ではそれがかなりうまく機能しているようです。
これは非常に興味深いです。高度に経験的であり、リッチ・サットンがこの問題空間にアプローチする方法を反映しています。彼は強化学習に非常に焦点を当てているからです。彼らは画像だけを見ているわけではありません。強化学習の設定もありますが、少し複雑です。
要するに、この問題は繰り返し現れ続けているようです。だからこそサットンはこれを解決することに重点を置いているのです。彼は興味深い存在です。元祖AIスケーリングの第一人者とも言えるでしょう。有名なブログ投稿でスケールの重要性を指摘した人物です。
そして彼はここで、それに伴う主要な課題の1つを特定しています。現在のモデルがまだ持っている、概念的にシンプルでありながら実際の問題を特定する、ほとんど陰陽思考のような論文だと感じました。
アンドレイ: そうですね、非常に興味深い論文です。部分的には、私たちは破滅的忘却について知っています。これは誰もが知っている、新しいタスクや新しい情報でモデルをトレーニングしようとすると、以前学習した情報を失う可能性が高いということです。
しかし、これが示しているのは実際にそれとは異なります。同様の難しさのタスク、あるいは実際には同じ難しさのタスクの連続でトレーニングすると、3つ前のタスクをまだ実行できるかどうかを言っているのではありません。この新しいタスクを、以前のNタスクと同じくらい上手に学習できるかどうかを言っているのです。
そして、より多くのことを学ぶにつれて、スキルをまったく持っていなかった開始時よりも新しいことを学ぶのが下手になるという観察は、はい、非常に新しいものです。
公平を期すために、これはおもちゃのようなタスクで、2つの画像間の分類の連続です。理論側に寄っていると言えるかもしれません。この段階では。
ジェレミー: しかし、スケールでのサンプル効率の高い学習という概念とどのように相互作用するかは興味深いです。モデルをスケールアップすればするほど、逆説的にそして一見この論文の結果に反して、次の限界的なタスクをはるかに速く学習することがわかります。
言語モデルでこれをよく見かけます。英語で巨大な量のトークンでモデルをトレーニングし、そのトークン数のわずか1%、0.5%で、モデルは新しい言語を驚くほど速く学習します。
ここで本当に興味深いことが起こっていると思います。論文では取り上げられていませんが、著者の見解を聞いてみたいと思います。1つの問題空間と別の問題空間を定義することの違い、それらがどの程度重複しているかが重要な役割を果たしていると直感的に感じます。これは私の直感ですが、この分野についてより深く掘り下げてみたいと本当に思います。
アンドレイ: そうですね、私の直感も、分布が重複していなければ役に立たないということです。しかし、おそらく将来の研究で明らかになるでしょう。
政策と安全性に移りましょう。最初の論文は再びSB1047、カリフォルニア州のAI規制法案についてです。これは最近のホットトピックでした。ニュースは、最終投票の前にAIの災害に関して法案が弱められたということです。
政府がAI企業に責任を問う権限を縮小するような方法で修正されました。この場合、災害が発生する前に、安全対策の怠慢でAI企業を訴える権限を司法長官に与えないことになりました。これは、あなたが取り上げたように、この法案に反対する人々が懸念していたことだと思います。
彼らは、研究所がこれらの事態に備える方法を規制するというアイデアに懐疑的でした。また、法案はフロンティアモデル部門と呼ばれる新しい政府機関を設立しなくなり、代わりにフロンティアモデル委員会を設置します。他にもいくつかの変更があります。
AI研究所は、安全性テストの結果の証明書を偽証罪の下で提出する必要はなくなりましたが、公開声明は必要です。基本的に、AnthropicやOpenAIのような企業に要求することが少なくなる多くの修正があります。
カリフォルニア州の企業からの非常に非常に大きな反発を考えると、おそらく驚くべきことではありません。そして、私はMattが特に喜ぶと思うのは、この法案がオープンソースのファインチューンされたモデルを保護していることです。誰かが1000万ドル未満を費やしてモデルをファインチューニングした場合、この法案の下では開発者とはみなされません。
大きなモデルを取り上げて、自分の仕様にファインチューニングしても、例えばMETAがLLAMA 2をトレーニングするのと同じ制限は受けません。かなり大きな変更のように思えます。批評家が法案の問題点として指摘したいくつかのことに対処しているようです。おそらく多くの人々はまだ反対していると思いますが、確かに注目すべき違いがあります。
ジェレミー: そうですね、絶対にそうです。この法案の文脈ではあまり話題にならないことの1つは、実際に規制に従わなければならないプレイヤーのセットがどれほど特殊であるかということです。1億ドル以上のコストのモデルをトレーニングしている場合にのみ適用されます。
OpenAIを中心に多くのノイズがありました。「これは規制の負担になる」「イノベーションに悪影響を与える」などと言っていますが、実際の要件を見ると、OpenAIが以前に自主的に行うことを約束したものとかなり似ています。完全に同じではありませんが、微妙な違いはあります。しかし、彼らが自主的に行うと約束したことと非常によく似ています。
そして今、「イノベーションを阻害する」という反発を聞いていますが、1億ドルという文脈では、そのようなモデルを構築するリソースがあれば、おそらくある程度の規制に従うリソースもあるでしょう。
いずれにせよ、これは本当に興味深い saga でした。Anthropicは当初の法案に反対を表明しました。その反対の多くは、すべてではありませんが、かなりの部分がこの法案で対処されています。Anthropicも声明を出しています。これは表向きはDario Amodeiからのものですが、おそらくJack Clarkが書いたように読めます。彼らのポリシーを率いている人物です。
非常に興味深いです。彼らは基本的にこう言っています。「我々の評価では、新しいSB1047は大幅に改善されており、利点がコストを上回る可能性が高いと考えています。」彼らはそれについて確信が持てないと続けていますが、これはかなり tepid な承認と読めます。彼らが望んでいたことのいくつかを得て、すべてではありませんでしたから、それは理にかなっています。
彼らは、この法案が法制化された場合の政府の overreach のリスクを強調しています。彼らが行おうとしている大きなことの1つは、「破滅的なリスクに laser focus を維持し、法案を利用して無関係な目標を達成しようとする誘惑に抵抗すること」だと述べています。
それは理にかなっています。変更された大きなことの1つは、安全計画について政府に意図的に虚偽の情報を提出した開発者に対する刑事罰のリスクです。平均的なアメリカ人はそれを見て「はい、他の産業でも同じことが起こっています。例えばボーイングが安全計画について意図的に虚偽の情報を提出したら、刑事罰が適用されるべきでしょう」と考えるでしょう。しかし、それは法案から削除されました。
それは、決定の境界線がどこに引かれているかを示す一例です。いずれにせよ、彼らは「これは実行可能なコンプライアンスの負担のように見える」と言っています。驚くべきことではありません。明らかにそれに関連するコストを考えると。
この手紙の中で強調したい点が1つあります。それは彼らの中核的な考え方を示しているからです。規制のジレンマに取り組む中で、「分野の急速な変化に非常に適応可能な規制の枠組みを持つことが最善の解決策だ」という見方に至ったと彼らは述べています。
これを達成する方法はいくつかあると彼らは言います。おそらく2〜3年後には、ベストプラクティスがより確立されれば、規範的な枠組みがより意味を持つかもしれないと述べています。自動車産業や航空宇宙産業がそうであったように。
しかし、彼らは手紙の前半で述べたように、「AIシステムがサイバーやバイオなどの分野で強力な能力を開発し、それが悪用される可能性があるのは、早ければ1〜3年後だと考えています」とも述べています。理論的には、これらの問題は国家安全保障に関連しており、連邦レベルで最もよく処理されるかもしれません。
これは興味深いですね。理論的には、この法案は実際に連邦レベルの法案であるべきだと言っています。しかし、彼らは「実際には、必要な時間枠内に議会の行動が起こらないことを懸念しています」と述べています。
最後に、OpenAIの声明と対比してみましょう。基本的に、「これは州レベルでは適切ではなく、連邦レベルで行われるべきだ」と言っています。これは理論的には理にかなっていますが、OpenAIは知っています。彼らには議会にロビイストがいます。我々はしばしばOpenAIのロビイストが去った直後に議員事務所に入ります。彼らは誰よりもよく、議会でこの件に関する行動が近い将来起こりそうにないことを知っています。
したがって、率直に言って、「これは連邦レベルで行われるべきだ」という主張を特に誠実なものとして受け取るのは難しくなります。単に阻止し、遅延作戦を打つ試みとして見ることができます。
長々と説明しましたが、これについては非常に異なる見解があるということです。OpenAIの内部告発者も、この公開書簡を出しました。基本的に、元上司のサム・アルトマンが繰り返しAI規制を求めてきたのに、実際の規制が提案されると反対するという一種の偽善を指摘しています。
いずれにせよ、多くのドラマが進行中ですが、政策についてOpenAIとAnthropicの間でより明示的なコントラストが形成され始めているのを見るのは興味深いです。
アンドレイ: そうですね、ドラマは相変わらず存在しています。少し技術的になりましたが、ドラマは政策に関連してかなり実質的です。あなたが言ったように、8月22日にOpenAIの内部告発者からニューサム知事と上院議長代行、下院議長に向けた手紙が出されました。主にOpenAIとその法案との不一致について語っています。
より明確にするために、この法案は実際にカリフォルニア州の歳出委員会を通過する前に、これらの修正がありました。これは法律になるための大きなステップです。次に、最終投票のためにカリフォルニア州議会の本会議に提出されます。通過すれば、これらの修正のためにカリフォルニア州上院に戻って投票にかけられます。そしてそれが通過すれば、カリフォルニア州の民主党知事であるニューサム知事のもとに送られ、拒否権を発動するか法律として署名するかを決定します。
まだ展開がある可能性があります。これはバイデン大統領の行政命令以来、米国のAI政策における主要な動きの1つでした。かなり重要な話題です。
最初に触れませんでしたが、別のネガティブなレビューがあり、ドゥームについてもっと少なく、SB1047を応援するのをやめろと言われました。これは応援するには最も退屈な話題だと思います。
記録のために言っておきますが、私は産業界で働いているので、明らかにこの法案を応援することはできません。産業界の誰が規制されたいと思うでしょうか?明らかにAnthropicを除いてですが。
次は、より論文的なものです。タイトルは「Personhood Credentials: Artificial Intelligence and the Value of Privacy-Preserving Tools to Distinguish Who is Real Online」です。
基本的に、非常に高度なAIが登場すると、オンラインでAIと人間を区別するのが非常に難しくなるだろうという指摘をしています。チャットボットがかなり効果的になり、リアルタイムの音声や動画ができるようになればさらにそうなるでしょう。
これは、いわゆる「personhood credentials」の価値を分析しています。これはデジタル資格証明で、オンラインサービスに対して自分が本物の人間であることを証明しますが、サービスに対して自分が誰であるかを開示することはありません。
これらの資格証明は、政府のような信頼できる機関によって発行されるというアイデアです。地方政府や世界的な機関かもしれません。
これは非常に長い分析で、必ずしも実装につながるものではありませんが、これが有用であるという主張をしています。
ジェレミー: この論文は約60ページあり、少し同じことを繰り返しているような感じがしました。以前に説明したことを再度説明しているようでした。
しかし、それでもなお、アイデアは非常に理にかなっていると思います。論文には、特定のプラットフォームへのアクセスを決定する上で政府に過度のレバレッジを与えたくないという考えについての多くの思考があります。これらの資格証明の単一の中央発行者を持つことに関連するリスクをどのように減らすかについてです。
これは実際に非常に良いことだと思います。私は技術系の人間で、自由市場派なので、このアイデアが好きです。多くの発行者からこれらの資格証明を得る方法を見つけようとする考えが好きです。
大きな課題は、これは何年も前から遡る問題ですが、Twitterを見てみると、ボットの明らかな解決策は、アカウントを作成する前に全員にパスポートを見せさせるような狂気的なことです。しかし、それには多くの理由で問題があります。
Twitterでの匿名性を失いたくありません。それによってサウジアラビアの人々が公に政府を批判することができるのです。多くの重要なことを可能にします。
できる限りそれを維持しようとしたいと思いますし、政府を信頼して、これらの資格証明を民主的で自由な方法で発行すると考えるのは難しいでしょう。一部の人々はそうではないと示唆するかもしれません。私もその懐疑論に同意します。
本質的に、これはすべて複数の発行者からこれらの資格証明を持つ技術を使用して、複数のサービスからこれらの資格証明を持つことができるようにする方法についてです。社会保障番号のようなものを与えているわけではありません。サインアップ時に各プラットフォーム用に distinct な資格証明があります。そうすることで、1つの personhood credential が1人の人間に対応することを確認でき、ボットアカウントの問題などを防ぐことができます。
非常に興味深い論文だと思いました。暗号技術の側面については、私が見たいと思っていたほど詳しく触れていませんが、理解できます。これはシステムの側面についての初期の思考を探る思考実験的な論文だからです。
本当に興味深いです。彼らが指摘しているように、agentic なAIユーザーがインターネット上にすぐに現れる(実際にはすでに存在している)ことを考えると特に重要です。そして、ますますインターネットを支配するようになるでしょう。誰が人間で誰がAIなのかを区別する方法が必要になります。
これは、AIができないこと、少なくともしばらくの間はできないかもしれないことに依存しています。それは現実世界で人間を模倣することです。まだそこまでは到達していません。人間に物理的に身元を確認してもらうことに依存できます。
一度それが行われれば、暗号プロトコルを使用して残りの作業を行い、その一度確認された身元を他の様々なプラットフォーム上の検証済みアカウントに関連付けることができます。
アンドレイ: 次も技術的な作業で、相互運用性に関するものです。タイトルは「Showing SAE Latents are not Atomic using Meta-SAEs」です。
SAEはスパースオートエンコーダーのことです。これは大規模言語モデルがどのように機能するかを理解する方法の1つです。大規模言語モデルにデータを与え、データを入力から出力に伝播させ、いくつかの中間出力を得ます。
その中間出力を取り、基本的にそれを圧縮する別のモデルをトレーニングします。中間出力を圧縮すると、人々が特徴の辞書と呼ぶものが得られます。
その crazy な大きな中間出力のセットの中に、あるパターンがドイツ語に関連し、別のパターンが質問に関連し、別のものがコーディングに関連するというような活性化パターンがあることがわかります。
これを行うと、モデルの振る舞いを説明するのに非常に役立ちます。なぜなら、特定の中間出力に振る舞いを帰属させることができ、モデルのパフォーマンスに影響を与えることさえできるからです。
この論文が探求しているのは、このトレーニングを行うとき、得られる特徴、つまり辞書が実際に所謂原子的であるか、つまりこれ以上分割できない基本的なレベルであるかという疑問です。彼らはそうではないと主張しています。
スパースオートエンコーダーを取り、その上に別のスパースオートエンコーダーをトレーニングすることができ、それをメタスパースオートエンコーダーと呼びます。そのスパースオートエンコーダーは、特徴をさらに分割します。大まかに言えばそういうことです。
これが論文の主な結論です。スパースエンコーダー一般の性質について、かなりの議論があります。また、スパースオートエンコーダーをトレーニングすると何が得られるかについての人々の仮説にも、より多く取り組んでいると思います。
ジェレミー: この論文は本当に興味深いと思いました。ご指摘のように、特にAnthropicは非常に大規模なモデルの解釈可能性を行うためにSAE(スパースオートエンコーダー)を使用することに力を入れています。
彼らの懸念は、欺瞞的なアライメントを含む様々なことについてです。評価されていることを知っているモデルが、安全で適切な出力を生成するふりをするが、実際にはそうではないという概念です。
希望は、このような解釈可能性技術を使用して、そのような事態が起こっているかどうかを理解できるということです。ここでのSAEのセットアップは非常に重要です。
これがどのように機能するかの別の類推を挙げると、入力を消費するとき、脳内のニューロンが活性化されます。異なるニューロンが点滅し、活性化されます。その活性化パターンをスパースオートエンコーダーに供給しようとします。
その活性化パターンを少数の数字を使って表現しようとします。活性化パターンを小さな数字のリストに圧縮し、そのパターンを再構築しようとします。
基本的に、再構築誤差を最小化しようとします。それらの活性化をエンコードしてデコードし、エンコードしてデコードします。時間とともに、その圧縮を非常に上手に行えるようになります。
希望は、複雑さを圧縮しているその小さな数字のリストが解釈可能になることです。基本的に、それらの数字の1つを見たとき、その数字が人間が解釈可能な概念、例えば箱や赤色などと関連付けられることです。
そのため、特定の活性化パターンは、この数字のリストを通じて、「ああ、モデルは赤色について考えている」というようなエンコーディングと関連付けられる可能性があります。
彼らが実際に発見したのは、ニューロンの活性化をエンコードするためのその数字のリストが長すぎると、そのリストが保持するものに多くの冗長性が生じるということです。
例えば、「赤い箱」と「青い箱」がリストに入り、これら2つの概念は実際には非常に似ています。箱の概念によって関連付けられています。単に箱の概念と、別個に色の概念を持つ代わりに、リストが十分に長ければ、怠惰になってそれらを分離しないで済むのです。
彼らは本質的にこのプロセスを繰り返し、最初のものの上に別のSAEを使用して、同じプロセスを再度実行しますが、より小さな数字のリストに圧縮することを強制します。
そうすることで、その数字のリストで捕捉されている抽象化をより原子的にすることができ、ある意味でこれらの概念の原子性の解像度を制御できるようになります。
これは概念的に非常に興味深い論文だと思いました。繰り返しますが、非常にシンプルなアイデアですが、アライメントと安全性に意味のある影響を与える可能性のあるものになります。
アンドレイ: 締めくくる前に、合成メディアとアートに関するいくつかの話題があります。まず、作家たちがAIチャットボット作成者のAnthropicを著作権侵害で訴えています。
これは、アンドレア・バーツ、チャールズ・グレイバー、カーク・ウォレス・ジョンソンによる集団訴訟です。OpenAIに対してすでに提起されている訴訟と似ています。これはAnthropicに対する最初の訴訟だと思います。
再び、AnthropicがこれらのAuthorsのデータでトレーニングを行ったため、これは著作権侵害であり、補償されるべきだと主張しています。進行中の訴訟のスタックに追加されました。
ジェレミー: そうですね、Anthropicにとっては初めてのことですね。彼らの戦争資金はOpenAIよりも少ないので、おそらく同じようなライセンスを購入して解決することはできないでしょうが、どうなるか見てみましょう。
アンドレイ: 最後の話題も訴訟に関するものです。Stability AIとMidjourneyに対するアーティストの訴訟がより強力になりました。
ウィリアム・オレック判事は、これらの企業に対する直接的な著作権侵害の申し立てを認めましたが、他の主張は却下し、より詳細な情報を求めました。
より最近の判決では、判事はStabilityに対する誘発された著作権侵害の追加請求を承認し、Stable Diffusionに基づくモデルのプラットフォームを使用したDeviantArtとRunway AIに対する著作権請求も認めました。
また、Midjourneyに対する著作権および商標侵害の請求も認められました。この会社には、アーティストの知識や承認なしにその名前を使用して作品を生成できる4,700人のアーティストのスタイルリストがありました。
進展があります。判事はデジタルミレニアム著作権法に関する著作権管理情報の改変に関する主張は却下しましたが、明らかにケースの輪郭についてより明確になってきています。
ジェレミー: AIにとって誘発された著作権侵害という概念が特に問題になっているのは興味深いですね。明らかに、私は法律の専門家ではありませんが、誘発された侵害の定義は、例えば製品を著作権を侵害する方法で使用するための指示を提供する会社がある場合などだそうです。
そして、プロンプトされたときに著作権で保護された素材を生成できるモデルにそれがどのように適用されるかを想像できます。アンドレイ、あなたは今日早くSonic the HedgehogやMarioについて言及していましたね。「イタリアの配管工が...」というプロンプトを与えると、Marioの画像を生成します。
これは誘発された著作権侵害の興味深いケースになる可能性があります。おそらく、これについてもっと見ることになるでしょう。
アンドレイ: そして、これでこのエピソードは終わりです。ありがとうございました。いつものように、lastweekend.aiでテキストニュースレターを購読できます。また、各ポッドキャストに関するメールも受け取れます。記事や論文へのリンクも含まれています。これはリンクを入手するもう1つの方法です。
いつものように、ぜひ購読して、ポッドキャストをシェアしてください。また、修正や提案、そして5つ星のレビューをお願いします。1つ星のレビューは...本当に1つ星に値すると思うなら1つ星をつけてもいいですが、それは少し厳しすぎるような気がします。
ジェレミー: そうですね、1つ星は少し厳しいかもしれませんが、公平に言えば仕方ないでしょう。また、今週末に家族に赤ちゃんが生まれる可能性がある場合、2週間後の育児休暇から戻ってきたときにお会いしましょう。
アンドレイ: はい、睡眠不足の状態でポッドキャストをホストさせることはしません。
ジェレミー: それは素晴らしいですね。
AIシンガー: お帰りなさい。これはエピソード180、先週のAIです。ニュースは決して同じではありません。すべての描画ビジョンが見えます。否定できません。クレイジーに上昇しています。ヘック、AI 2030年ビジョンのように。我々は未来の中にいます。エピソード180の更新です。秋を通してはっきりと見えています。Dream Machine 1.5が心をジョギングしています。Jambaは分を混ぜ合わせ、フロップのように技術をひねっています。2030年のAI、未来はグリッチによってあります。声を上げ続け、耳を傾け続けてください。インテルは鈍くありません。これは先週のAIです。私たちはあなたを鼓動の上に保ちます。政策論文が落ちてきます。規制を浴びることはありません。政府は運命を法制化できるのかと格闘しています。永遠に州に、フレームワークが編み始めます。このテクノロジーレースでは、すべての動きがエースである必要があります。ツールが台頭する中、ビデオ制作はクリーンです。それはストリームのような夢の場面のように生きています。ショーへようこそ、これは先週のAIです。私たちはあなたを曇った空を超えて高く連れて行きます。エピソード180、データを飛ばしましょう。脳波がつながり、更新は続きます。オープンソースの急増、AIは熱のように来ています。バージョンは速く動き、秒はモブリーダーのように動きます。人格の debate、資格はより深くなっています。

この記事が気に入ったらサポートをしてみませんか?