見出し画像

Last Week in AI #179 - Grok 2、Gemini Live、Flux、FalconMamba、AIサイエンティスト

※長文のため、テキストの読み上げ機能の使用を想定しております。各OS標準搭載のアクセシビリティ機能(読み上げコンテンツ)、もしくはMicrosoft Edgeブラウザの「音声で読み上げる」機能をおすすめします。Safariブラウザの読み上げ機能もかなり良くなってきました。

ニュースが次々と出ているので、AIについて語り合いましょう。イントロの歌はこれくらいにしておきます。ちなみに、イントロとアウトロには同じ曲を使っていて、冒頭では途中で切っています。フルバージョンを聴きたい方は、最後まで聴いてみてください。
さて、「AI界の先週」へようこそ。ここではAIに関する最新の動向についてお話しします。いつものように、先週の最も興味深いAIニュースをまとめてお伝えします。私はホストの1人、アンドレ・カープです。スタンフォード大学で博士号を取得し、現在は生成AIのスタートアップで働いています。そして、どうやらポッドキャストの編集があまり上手ではないようです。
おっと、自分を卑下しすぎないでください。もっと自分を評価するべきですよ。我々はミレニアル世代なんですから。
では、今起こったことを説明しましょう。今朝、この番組の素晴らしいリスナーの方々から1通のメールを受け取りました。「最新エピソードであなたの声しか聞こえません」というものでした。これは、もし気になる方がいらっしゃれば申し上げますが、この番組の最高の部分ではありません。そこでアンドレはそれを修正しようと奔走していて、バグが...いや、修正版がアップされるはずです。希望的観測ですが、新たなバグではないといいのですが。
そういうわけです。ありがとうございます。ちなみに、アンドレは1人で編集作業を行っています。我々はエピソードを収録し、その後彼が編集に取り掛かるのです。このようなことが起きたのは久しぶりで、アンドレの仕事への献身を示していると思います。
ところで、話しているのはジェレミーです。そうでした。私はジェレミーです。Glone AIのCo-Founderで、AIの国家安全保障会社です。まあ、詳しくは省略しますが。
番組へようこそ。いつもと少し異なる始まり方でしたね。それと、今週のニュースは例年になく少ないので、エピソードは少し短めになるかもしれません。
ここで、Apple Podcastのレビューについて少し触れたいと思います。200件という良い数字に到達したいと言っていましたが、211件に達しました。もはや丸い数字ではなくなりましたが、レビューをくださった方々、そしてフィードバックをありがとうございます。
Lightspeed226さんからは良いコメントをいただきました。ポッドキャストを楽しんでくださっているようで、ジェレミーがAIアーキテクチャや論文について説明する部分を気に入ってくれています。細かい部分まで掘り下げるのが我々の好きなところですからね。
また、中国に関する地政学的な話題は少なめがいいというコメントもありました。これは参考にさせていただきます。リスナーの好みを知るのは良いことですし、今週は珍しく地政学的な話題はほとんどありません。
別のレビューで特に興味深かったのは、qqqqqqqqq Starというユーザー名からのものです。これは恐らくOpenAIの次世代モデルが既にインターネット上で暴走しているのでしょう。おそらくエージェントだと思います。「このポッドキャストが大好きです」とだけ書かれています。
それは良い指摘ですね。私はそのユーザー名に気づきませんでした。かなり面白いですね。これでOpenAIが公式に認めたポッドキャストだと言えるでしょうか?
文脈を説明すると、qは長い間OpenAIのプロジェクトのコードネームとして議論されてきました。このユーザーはおそらくAIチャットボットで、AIが公式に我々を承認したということになりますね。
さて、ニュースに移りましょう。まずはツールとアプリについてです。最初の話題は大きなニュースですね。Grok 2がベータ版でリリースされ、AI画像生成機能も搭載されています。
GrokはXのプレミアムおよびプレミアムプラス会員が利用できるチャットボットです。これはChatGPTに対抗するべく、X AIが開発しているもので、イーロン・マスクが率いています。
これはブログ記事で発表されましたが、Grok 2についての詳細はほとんどありません。本質的に、ブログ記事では「Grok 2とGrok 2 Miniがあります。他のモデルよりもLMCSリーダーボードで優れた成績を収めました」と述べているだけです。これは少し驚きでした。Claude 3.5 SonnetやGPT-4 Turboを上回る性能を示したようです。ただし、回答拒否を含めた場合のみですね。回答拒否を除外すると、まったく同じニュースとは言えません。
画像生成機能については、Fluxを通じて提供されています。最近取り上げたBlack Forest Labsというスタートアップが、Stable Diffusionの開発者から派生して非常に印象的なモデルを開発しました。現在、X上の全ユーザーがこれを使用できます。生成できる内容に制限はほとんどありません。人々はかなりクレイジーなものを生成しているようです。
おっしゃる通りです。詳細があまりないのは少し奇妀ですね。ある意味、X AIやTwitterの大きな差別化要因はオープン性でした。オープンソースなどですね。Grok 2についてどの程度オープンになるかを見守る必要がありますね。これは確かに、イーロンがOpenAIに対して持つ不満の大きな部分です。以前のオープン性へのコミットメントを覆したことについてですね。少なくとも多くの人々がそう受け取っています。
ブログ記事から拾える数少ないことの1つは、彼らの説明に基づくと、実際に人間のフィードバックからの強化学習のようなもの、おそらくPOのようなものを使用してモデルを微調整したように見えます。AIチューターにモデルの出力をランク付けさせて選好データを提供させたと話しています。RHF微調整プロセスによく似ていますね。
おそらく驚くべきことではありませんが、それでも標準的なものです。しかし、Grokは「より抑制されていない」「特定の方法で応答するよう微調整されていない」とされているので興味深いです。少なくとも、パイプラインにその段階があることがわかりました。繰り返しますが、驚くべきことではありませんが、Grokの「足枷を外す」というコミットメントを考えると、気になっていたかもしれません。
また、Grok 2の初期バージョンが実際にLMリーダーボードに掲載されていたことも分かりました。Twitterの世界、いや、Xの世界に詳しい方なら、このモデルについて多くの憶測がありました。Sus column Rという名前で掲載されていたモデルが実はGrok 2の初期バージョンだったのです。そこで、Claude 3.5 SonnetやGPT-4 Turboを上回る性能を示したわけです。アンドレが言及した全ての注意点付きですが。
繰り返しますが、このモデルの差別化要因は、どんなリクエストにも応答するということです。安全性の微調整が大幅に少なく、回答を拒否する傾向が低いとされています。画像生成機能でもそれが明らかです。多くの人々がそれについてコメントしています。通常の誤情報への懸念が浮上しています。
特に興味深いのは、Black Forest LabsのFlux One modelが生成できるものに全く制限がないことです。Grokインターフェースを通じて生成できるのです。ソーシャルメディア上で、ドナルド・トランプがイーロン・マスクにキスしている画像など、様々な画像が出回っているのを見ました。基本的に予想通りのことが起きています。
企業向けGrok 2のリリースに関する詳細もあります。これは差し迫っているようです。私が興味深いと思ったことの1つです。Xは確実に企業向けサービスに力を入れており、X AIとX(旧Twitter)の統合がますます緊密になっています。彼らは確実により密接に協力しているように見えます。
このモデルの能力、その背景、そして利用可能なデータが非常に少ないという事実を見るのは本当に興味深いです。今後数週間でより多くの情報が出てくるかどうか見守りましょう。
そうですね。大企業からの発表には詳細が含まれないことに慣れてきましたが、OpenAIやDeepMindなどからの発表と比較しても、これは一段と詳細が少なかったです。
私たちの報道では、大きなことを少し控えめに伝えているかもしれません。メディアやほとんどの人々が注目しているのは画像生成機能です。技術的な観点や、AI進歩の観点からすれば、Grokの方が興味深いです。ベンチマークでも良い成績を収めています。人間がモデルをランク付けするリーダーボード以外でも、回答を拒否しないことによる利点を除いても、ベンチマークの数値も印象的です。
おっしゃる通り、画像生成では、マリファナを吸ってビールを飲むミッキーマウスや、突撃銃を持ったミッキーマウス、学校での銃撃事件など、クレイジーなものが生成されています。これで済むだろうという興味深い賭けですね。
そうですね。Flux Oneモデルについては、これは数週間前にJohnとのポッドキャストで話題になったかもしれません。私がいなかった回だったので、少し重複するかもしれませんが謝罪します。
印象的なモデルのようです。アリーナランキングに基づくEloベースのスコアリングによると、Midjourney やOpenAIの画像生成器を性能面で上回っているようです。実際に、より良い出力を生成しているようです。
さらに、テキストから動画を生成するモデルも近々登場するようです。Flux Oneのテキストから動画を生成するモデルが、X(旧Twitter)のインターフェースに組み込まれるかどうか見守る必要がありますね。そうなれば、全く新しい問題が発生するでしょう。
その通りです。質的な面でコメントすると、おっしゃる通り、このモデルは印象的です。TwitterでこれらNの新しい画像を見たとき、その質の高さに驚きました。最初は、内部でこれほど優れたモデルを実際に訓練したのかと思いましたが、そうではありませんでした。非常に有望なスタートアップの既存モデルを使用していたのです。
他にも、画像生成に進展が見られます。モデルのアップデートに関する次の話題では、詳細が少ないものの、OpenAIが更新されたGPT-4モデルを公開しましたが、どのように改善されたかを説明できないそうです。
これは少し奇妙な発表でした。OpenAIがTwitterで「ちなみに、先週から新しく改良されたChatGPTバリアントを提供しています」と述べただけで、それ以上の詳細はありませんでした。
名称をChatGPT-4最新版に更新し、バグ修正とパフォーマンスの改善があり、ユーザーに好まれる傾向があるとだけ述べています。
はっきりとは分かりませんが、おそらくOpenAIはもう少し迅速に動こうとしているのでしょう。ニュースに追いつこうとしているのかもしれません。次の話題で触れますが、Googleが少し圧力をかけているようです。
その通りです。これについては、早い段階で何か起こっているかもしれないという兆候がありました。
アンドレと私は、収録前にTwitterやXでの騒動について話していました。ご存じの方もいるでしょうが、Plenty the Prompterというアカウントがあります。彼は様々なことを行っていますが、先週指摘していたのは、1週間前のOpenAI、というかGPT-4と、現在のものとの違いに気づいたということです。
彼は早い段階でこれに気づいていたようです。Plenty the Prompterについては以前も少し話しましたが、このアカウントは言語モデルの非常に優れたジェイルブレイクを行っています。OpenAIのモデルだけでなく、Anthropicのモデルなども対象です。
プロンプト戦略に非常に長けた人々には、少なくともこの変化は気づかれたようです。彼は確かにその分野の魔術師のような存在です。
それ以外は、ただの製品改善のようですね。多くの人々が憶測していました。これは有名な「ストロベリー」モデルなのかと。もちろん、それだとすれば非常に驚くべきことです。少なくとも大きな変更点は検出されていませんが、確実に段階的な改善があったようです。
次は、そのGoogleの話題です。Google Geminiの音声チャットモードが登場しました。Googleは先日、スマートフォンのPixel 9のイベントを開催しましたが、ご覧の通りAIに大きく焦点を当てていました。ChatGPT-4のデモで見られたような、リアルタイムで自然な会話ができるチャットボットの音声チャットモード、Gemini Liveが、Gemini Advanced登録者向けに提供されるようです。
話すだけでなく、動画も解釈できるようです。これも以前のデモで見たものと似ています。Googleは数ヶ月前にこれを披露しました。
このリリースでは、10種類のGemini音声から選択できます。現在は英語のみで、Androidデバイスでのみ利用可能です。
Google投資家は、これを喜んでいるでしょう。OpenAIは音声モードの拡大アクセスに遅れを取っており、Appleも先日取り上げたように、Apple Intelligenceを延期しました。
そうですね。もちろん、結果次第ですが。最初にリリースすることの利点の1つは、OpenAIでも見られたように、顧客はより寛容になる傾向があります。これが初めて目にする機能だからです。失敗モードや誤用を見ても、「まあ、仕方ない。学習プロセスの一部だ」と考えてくれるでしょう。
Googleの場合、より確立された企業なので、人々はそれほど寛容ではないかもしれません。しかし、OpenAIも成熟しつつありますね。
彼らが宣伝している「画面について質問する」モードも興味深いですね。見ている画面からデータを引き出し、情報を提供できるようです。これは、このモデルと対話する別の方法として興味深いです。
英語以外の言語も近々提供される予定だそうです。おそらく間もなくでしょう。
これにより、OpenAIが今後数日または数週間のうちに、音声モードをより広くリリースするきっかけになるかもしれませんね。
Geminiに関連するもう1つの話題があります。先ほどの音声チャットの発表に加えて、GeminiがPixel Buds Pro 2に搭載されることも発表されました。これはGoogleのBluetoothイヤホンで、Appleのものと非常によく似ています。名前を忘れましたが。
アイデアとしては、Geminiにアクセスして、直接イヤホンを通じて会話のようなやり取りができるというものです。これは主に、私たちがこれまで話してきた様々なハードウェアリリース、例えばHumane AI Pin、Rabbit R1など、ハードウェアデバイスを通じてAIを提供すると約束して派手に失敗したものと比較して強調する価値があると思います。
これは、ある意味でそのアイデアですよね。音楽を再生するだけでなく、リアルタイムでAIとチャットできるハードウェアデバイスです。もし何かが成功するチャンスがあるとすれば、このようなものが理にかなっていると思います。
その通りです。失望させるハードウェアリリースの長い系列の一部というだけでなく、特にGoogleに関しては、Google Glassにまで遡って、これらのリリースでは苦戦してきました。
この時点で、これは難しい課題だと思います。しかし、誰かが成功すれば、おそらくiPhoneの瞬間のような何かがあるかもしれません。この分野には少なくとも1つのiPhone製品に値するものがあると確信しています。
見てみないとわかりませんが、興味深いのは、見た目が...Air Tagを持ったことがあれば分かるでしょうが、Air Tagの半分のサイズで、耳の中に収まるものを想像してください。少なくとも白いものを選べば、小さなAir Tagのようなものが見えます。
かなり目立たないものですが、人々がこのようにAIシステムと話し始めるのに慣れるには時間がかかるでしょう。
新しいチップにより、これらのイヤホンのサイズを27%縮小できたと言っています。処理速度が向上し、バッテリー寿命も延びたようです。イヤホン単体で12時間、充電ケースと組み合わせると48時間使えるそうです。
ハードウェア面、エッジデバイスのデプロイメントに非常に力を入れていますね。全体的には229ドルで、9月26日から出荷が始まります。これは決して広告ではありません。どうなるかまったく分かりません。
彼らのマーケティングも、この分野の他のリリースと同様に興味深いですね。「親密な仲間」や「親しい相談相手」のように話しています。これが異なる層にどのように響くか興味深いです。少し不気味に感じる人もいるかもしれません。
しかし、サンフランシスコの友人たちと話していると、アンドレも同じだと思いますが、人々はこの種のことにずっとオープンになっています。少しずつ映画「her」の世界に近づいているようです。
もしこれを試す観客がいるとすれば、Pixelのフラッグシップフォンを持っていて、230ドルのイヤホンを買える人々でしょうね。それは良い指摘です。
Googleに関するもう1つの話題があります。イベントについてではなく、AI生成の検索結果要約に関する小さな更新です。
6つの新しい国に拡大し、引用の表示方法も変更しています。以前は、質問に答える小さな要約の文章の中に含まれていました。これは、異なるソースやウェブサイトからの情報をチャットボットが生成した要約のようなものです。
以前は、それらのリンクを見つけるのが必ずしも容易ではありませんでしたが、今はそれをもっと目立つようにしています。テキストの右側に表示されるようになりました。
この記事によると、初期のテストでは、出版社のサイトへのトラフィックが増加していることが示されています。出版社はこれを喜ぶでしょう。
そうですね。これは興味深いです。以前、Search GPTのコンテキストでこれについて話しましたが、この新しい検索要約の説明を読むと、非常に似ています。参照されているウェブサイトのタブがあり、メインには説明するAI生成のものがあります。
当時、私たちは、これは根本的な変化だと話しました。従来の検索のユーザーインターフェース、デザインから根本的に変更する必要があります。Googleと競争するには、検索体験を根本的に変える必要があります。
その製品は本当に最適化されているように見えます。BingはGPT-4を統合しても、Googleからシェアを奪うことにはあまり成功しませんでした。
そのため、かなり大きな変更を加えて、状況を揺るがす必要があります。これはGoogleが明らかにSearch GPTで行っていることに乗り出し、「この基盤もカバーしよう」と言っているように見えます。
興味深いのは、生成AIベースの検索には、明らかに異なる製品思考につながる独自の側面がいくつかあることです。特に、生成されたAI概要を保存しやすくしたいという考えがあります。従来のGoogleの検索では、保存という概念はありませんでした。検索して結果を得て、そのリンクのリストを保存したいとは思いませんでした。
しかし、この場合、生成AIを使用しているので、実際のコンテンツを得ることになります。そのため、保存がより関連性の高いものになります。
また、AI概要を簡略化するボタンも設定しています。より複雑な応答を得た場合、ボタンを押すだけで、より簡単なバージョンの応答を得ることができます。
これらは全て、非常に興味深いユーザー体験の実験です。人々がこのカテゴリの製品に適した正しいユーザー体験を見つけようとしているのをリアルタイムで見ています。
AI概要は5月に米国でローンチされましたが、その荒々しいスタートを覚えていますね。ユーザーがピザにのりを塗ってチーズをくっつけやすくしたり、石を食べたりするのを見つけました。当時話題になりましたね。
今では、英国、インド、日本、インドネシア、メキシコ、ブラジルとより広くリリースされています。これらの新機能に加えて、より広範なロールアウトが行われています。
次はAnthropicの話題に移ります。Anthropic APIでプロンプトキャッシングが利用可能になりました。キャッシングについては以前少し触れたと思います。
同じ導入部分やコンテキスト、常に再利用する指示などをClaudeで使用する場合、それをキャッシュして再利用できるようになりました。つまり、より安価で高速になります。
キャッシュに書き込む際は、入力トークンのコストが増加しますが、その後はそれを活用して、かなりの費用効率と処理速度の向上を得ることができます。
通常のユーザーにとってはあまり興奮するものではないかもしれませんが、AI開発者にとっては非常に重要な機能だと思います。OpenAIなど他社に先駆けてAnthropicがこの機能をリリースしたことに少し驚きました。
そうですね。最近、そのようなことを何度か言っていませんでしたか?興味深い展開ですね。
開発者にとって、これは非常に重要な結果だと思います。おっしゃる通り、少し高価になります。キャッシュに実際に書き込む場合、基本の入力トークン価格より25%高くなります。ただし25%高くなるだけです。
そして、そのキャッシュされたコンテンツを使用する際は、基本の入力価格の10%しかかかりません。つまり、以前にキャッシュしたテキストの塊を、APIを呼び出して使用しようとする度に全て再度読み込むのに比べて、基本的に90%オフになります。
これが役立つユースケースはたくさんあります。本当に大きなプロンプトを再利用する場合、例えば、コードベースを扱っている場合、大きなコードベースがあって更新や変更を加えたい場合、デバッグや拡張方法を尋ねるQ&Aセッションを行う度に、そのコードベース全体を再読み込みしたくはありません。
これは本当に大きな利点です。繰り返しますが、最初のクエリの後、クエリごとに90%オフというのは大きな利点です。特にエージェンシーモデルを考えると、そのような大きなコードベースを扱う場面が出てくるでしょう。
プロンプトに大量の例を含めたい場合や、本や論文など本当に長い作品や文書を扱う場合にも役立ちます。
正確にどのように機能しているかは不明です。私も少し考えていました。おそらく多くのことが起こっていると思いますが、長いプロンプトを再利用可能な部分に分割しているのかもしれません。大きな文書があれば、セクションや段落、文章に分割して個別にキャッシュし、再利用できるようにしているかもしれません。
効率を上げるために、おそらく事前計算された埋め込みが本当に有効な方法でしょう。特に価格モデルを見ると、キャッシュへの書き込みがキャッシュからの読み取りよりも高価であることが示唆されています。そうであれば、おそらくこれらの事前計算された埋め込みを生成する初期の計算コストがあるケースを見ていることになります。
しかし、それ以上の技術的な詳細はありません。彼らがリリースするのを待つしかありませんが、なんという進歩でしょう。コストが90%削減され、彼らによると長いプロンプトの場合、レイテンシーが最大85%削減されるそうです。
基本的に、最良のケースシナリオでこれらの長いプロンプトの場合、90%安く85%速く出力を得られるということです。本当に印象的なAnthropicの次のステップですね。
次は、アプリケーションとビジネスに移ります。最初の話題は、少し繰り返しになりますが。以前Black Forest Labsについて取り上げましたが、X AIのニュースを踏まえると、この次の記事を取り上げる価値があります。
「イーロン・マスクの抑制のないAI画像生成器を支えるBlack Forest Labsというスタートアップを紹介します」
タイトルの通り、このスタートアップの概要を紹介しています。Black Forest Labsはドイツに拠点を置き、VCの業界の大物からシード資金として3100万ドルを調達して登場しました。最近、Flox Oneモデルを発表し、そのモデルの小規模バリアントをリリースしました。
X AIとのパートナーシップにより、今や大金を稼いでいるはずです。以前のStable DiffusionやStability AIのように、さらにオープンソース化する計画だと述べています。
おっしゃった通り、テキストから動画を生成するモデルに取り組んでいると言っています。これはかなり重要です。テキストから動画を生成するモデルについては多くの取り組みを見てきましたが、少なくとも商業的な設定では、1月に予告を見たSoraにまだ誰も追いついていません。
RunwayやLumaなどの企業が多くのものを披露していますが、誰もその域に達していません。この会社は実際にそれに挑戦できるかもしれません。
そうですね。もちろん、Soraの能力が正確にどの程度かはまだ分かりませんし、それを使用した人々からさまざまな話を聞きますが、確かに彼らは先を行っているようです。
投資家についておっしゃる通り、これらは大物です。彼らはみな、この分野で一定の方向性を持っています。Andreessen Horowitzがラウンドをリードしました。3100万ドルのシードファンディングラウンドです。
従来のVCの世界に詳しくない方のために説明すると、通常、シードラウンドを調達する場合、今日では100万から500万ドル程度を調達します。3100万ドルのシードファンディングラウンドは、通常、低・中規模のシリーズAに相当します。これは大きなラウンドです。
シードは重要です。通常、取締役会の支配権を譲渡しないことを意味します。一般的に、シリーズA以降の価格設定ラウンドでのみ、実際の取締役会の席が与えられる傾向があります。これは、彼らがかなりのレバレッジを持っていたことを意味します。
もちろん、Andreessenのような素晴らしい投資家たちが参加しています。Y CombinatorのCEOであるGary Tanも参加しています。彼は最近、このアクセラレーショニストの陣営に加わり、AIのアクセラレーショニズムを非常に強く支持し、多くのガードレールや規制の話に反対しています。Andreessen HorowitzのMarc Andreessenも同様です。
これは、確かにこの会社の方向性を示しています。Xとのパートナーシップにも反映されていますね。比較的少ないガードレールで画像を生成しています。おそらく、ある程度のガードレールはあるでしょう。例えば、特定の種類のポルノグラフィックな画像は生成されないでしょう。しかし、一般的に安全性のガードレールの数と範囲を減らそうとしています。
本当に興味深いですね。創設者たちは以前Stability AIの研究者でした。アンドレ、先ほどそれに触れましたね。彼らは確かに実績があります。
この記事では、この技術の誤情報の側面についても多く語られています。予想通り、人々が「これは本当に悪い。Twitterやx上に誤情報が氾濫するだろう」と言っているのを引用しています。
オープンソースの画像生成器に関しては、ある時点でこれは全て織り込み済みだったと思います。おそらくこれによってそのタイムラインが6ヶ月、あるいは1年前倒しになるかもしれません。しかし、私たちが歩んできた軌道から根本的に異なるものではありません。
これらの議論は両方向に行く可能性があります。
誤情報の部分についてコメントするとすれば、おっしゃる通り、これは本当にゲームを大きく変えるものではないと思います。X AI上で何かを生成し、すぐにXで拡散できるので、誤情報の拡散が容易になるかもしれません。
しかし、主に人々が行っているのは、トランプとジョー・バイデンがキスしているような、馬鹿馬鹿しく、面白く、途方もないものを作ることです。
ええ、そうでしたね。大変なプレスカンファレンスでしたね。
興味深いのは、この会社がドイツを拠点としていることです。EU AI法の進展を考えると、リスクや誤情報に関連する規制があります。この会社は間違いなくそれを強制され、それらの規制を遵守しなければならなくなります。
法律が施行されれば、モデルをこれほど自由に使用することは難しくなるかもしれません。法律は2025年から2026年にかけて段階的に施行される予定です。
次は中国のハードウェアに関する話題です。地政学的コメントを避けられるか見てみましょう。簡単ですよ。
話題は「HuaweiがNVIDIAに挑戦する新しいAIチップを中国で準備中」です。WSJの報道によるものです。
これはAscend 910C Penというチップで、中国の一部の企業でテストされています。NVIDIAのH100チップに匹敵すると主張されています。これは現在中国で入手可能な最高峰のフラッグシップチップです。
NVIDIAは中国には弱体化したH100バリアントであるA100のみを販売できます。我々は、人々がこのようなチップを中国に密輸しようとしている話を取り上げました。この制限は大きな問題です。
もしHuaweiがこれに匹敵するチップを生産できれば、このチップが実際にH100レベルのチップであれば、それはかなり大きな出来事になるでしょう。NVIDIAにとっても大きな課題となるでしょう。
NVIDIAの課題の1つは、米国の輸出管理規制により、H100、H200、そして現在登場しつつあるB200チップを中国に出荷できないことでした。そのため、これらのチップを基本的に弱体化させて、オリジナルのチップから多くの回路を無効化して能力を低下させ、中国に送っています。
通常、このように機能します。中国向けのB200バリアントはB20として知られています。H200の場合はH20でした。これらの「中国向け」チップは、最近市場シェアを伸ばしています。例えば、Huaweiの910B(910Cの前世代)と比較して有利だと見なされているためです。
もしHuaweiの910CがH100と実際に同等であれば、これはNVIDIAの市場シェアを大きく侵食することになります。私は少し驚きますが、もしそうだとすれば、NVIDIAのB20は完全に凌駕されることになり、NVIDIAは中国で苦戦することになるでしょう。基本的に、これらの新しいHuaweiチップが登場して競合できるようになれば、すぐにそうなるでしょう。
そうなると、Huaweiがどれだけ速く生産を拡大できるかが重要になります。予想では、米国からの追加の制限がなければ、来年100万以上のチップを生産できるそうです。これは大きな「もし」です。
商務省はこの分野を非常に注視しています。過去にNVIDIAに対して「中国への強力なチップの輸出を続けるために、チップの閾値をいじるのをやめなさい。厳しく取り締まります」と明確に伝えています。彼らはこの分野を非常に注意深く見ています。
Huaweiに対しても厳しい措置を取ると予想されます。ここで重要なのは、Huaweiが西洋の技術から自由になろうと懸命に努力しているにもかかわらず、依然として西洋のソースからのいくつかの重要な入力に依存していることです。
1つは、よく話題に上がるフォトリソグラフィマシンです。これらはオランダから来ています。それは1つの問題です。もう1つは高帯域幅メモリです。世界最高の高帯域幅メモリは通常、韓国で製造されています。SK Hynixという会社があります。
Huaweiがこれらのチップを必要とする限り、米国が介入してSK Hynixへの輸出管理を拡大する可能性があります。それが起これば、Huaweiは窮地に陥るでしょう。
その結果、Huaweiはこのリスクを見越して、これらの高帯域幅メモリチップを大量に備蓄しています。
高帯域幅メモリは、特に大規模なトレーニングを行う場合に非常に重要です。計算とストレージの間で巨大な量のデータを移動する必要があります。
これが国内生産のレベルを達成できれば、間違いなく非常に大きな出来事です。しかし、米国政府が行う可能性のある様々な介入の対象となる可能性があります。
このチップが登場し、それなりの量で出荷されるのを見れば - HuaweiはCE、CBCや10月から出荷を開始すると主張しています - 米国政府がさらに厳しく取り締まる可能性があります。
ここで注目すべきは、基本的に歩留まりです。これらのチップをどれだけ効率的に製造できるかです。これは過去にHuaweiの問題でした。また、どれだけ速くスケールアップできるか、例えばNVIDIAと意味のある競争をして中国市場から押し出すことができるかどうかです。
はい、「最後の週」ビンゴカードの地政学の欄に印を付けることができますね。次にOpenAIのドラマが来るか、Lスケーリング研究が来るか見てみましょう。
分かっています。ハードウェアとチップ製造に関連するもう1つの話題があります。ASMLとIMECが高NA (Numerical Aperture) リソグラフィの革新を発表しました。
現在、最先端のスマートフォンや、AIを実行するための最先端GPUに必要な、非常に小さなナノメートルスケール(2ナノメートルくらいだと思います)のチップの生産にはEUVツールが使用されています。
高NAは次のステップ、次に重要な技術で、さらにスケールダウンを続けようとするものです。彼らはこれを実現するための画期的な進歩を発表しました。
これはかなり重要です。なぜなら、彼らはすでに2024年向けの機械のリリースについて話し合っています。インテルがこれらの機械を全て購入すると支持しています。ちなみに、これらの機械は1台4億ドルします。インテルはこれらを購入し、2026年に生産に投入する予定です。
高NAは本当に興味深い分野です。いつかハードウェアのエピソードを行う時には、これについて詳しく議論しましょう。この技術の重要なポイントの1つは、光学の背景がある私が説明しますと、光を非常に狭く集中させたい場合、非常に短い波長の光が必要になります。
短波長の光には高エネルギーが必要です。しかし、それを行うには非常に大きなレンズが必要になります。波長を短くして、これらの非常に小さな特徴をエッチングできるようにすると、はるかに大きなレンズが必要になります。
これらは基本的に従来のリソグラフィマシンの設定を台無しにします。レンズのサイズを大きくし始めると、すぐに物事が収まらなくなります。
ところで、高開口数(NA)レンズは基本的に大きなレンズのことです。これが言及している内容です。
本質的に、この非常に短波長の高エネルギー光をどのように扱うかというゲームです。そこで生じるもう1つの課題はミラーです。良好な反射を得たい場合、特に高エネルギーでは、ミラーに当たるたびに多くの光が失われます。そのためのカスタムミラーを作るのは本当に難しいです。
彼らは数ヶ月前の4月に「最初の光」を達成したと言っています。そして今、この機械を使用して多くのロジックパターンを印刷することに成功しました。原理の証明を示しているのです。これは実際に実現可能であることを示しています。
この非常に高強度の光、つまり非常に明るい高エネルギーの短波長光を持つことの利点の1つは、チップ上に1回だけ光を当ててパターンを形成できることです。特に非常に微細なパターンをチップに刻もうとする場合、多くの場合、チップ上を複数回通過する必要があります。これは「多重露光」または「マルチパターニング」と呼ばれます。
問題は、これが遅いことです。同じチップを何度も通過する必要があるため、多くのチップを出荷できず、各チップがより高価になります。高NA リソグラフィの面白い点は、これらの非常に小さな解像度でも、単一露光で済む可能性があることです。Intelはこの場合1.4ナノメートルの生産が可能だと考えています。
Intelはこれに全力を注いでいます。おっしゃる通り、2024年のASMLの高NA リソグラフィマシンを全て購入しました。他の誰よりもはるかに先を行っています。しかし、そこにはリスクもあります。技術がまだ十分に成熟していない可能性があります。
TSMCは確かにそう考えており、高NA リソグラフィの採用を控えています。彼らは、マルチパターニングでそれらの解像度を達成できると考えているからです。ここには複雑な経済的議論があります。ハードウェアのエピソードで詳しく掘り下げるのが良いでしょう。実際に計算することができ、境界線がどこにあるのかは明確ではありません。1.4ナノメートルが高NAから利益を得始めるポイントなのか、など、不明確です。
いずれにせよ、これはIntelの全面的な賭けです。彼らはこのような賭けをしなければなりません。なぜなら、彼らは非常に遅れを取っているからです。もしこれがうまくいけば、大きな勝利となるでしょう。
ちなみに、Samsungも高NA リソグラフィに移行すると予想されています。彼らは過去にこの種の技術を早期に採用した経緯があります。以前にも痛い目に遭っています。今回もそうなるかどうか見守る必要があります。
この分野は急速に進化しており、2020年代中後半のチップ生産において大きな影響を与えるでしょう。
あなたの赤ちゃんが生まれる前に、ハードウェアのエピソードを試みる必要がありますね。そうしないと、ハードウェアの話をする機会がなくなってしまいそうです。
その通りです。ハードウェアの話は変わってしまうかもしれません。
次は、中国のスタートアップWeRideがカリフォルニアで乗客を乗せたロボタクシーのテストを許可されたというニュースです。カリフォルニア公益事業委員会が、この中国企業にサンノゼとその周辺地域でのテストを許可しました。
WeRideは2017年に設立され、既に7カ国30都市でテストを行っています。中国、米国、EUおよびシンガポールの全てで自動運転テストライセンスを持つ唯一の企業です。
これはWeRideが米国でのIPOを計画している中で起こっています。これは非常に重要です。この公開募集から1億ドルを調達しようとしています。間違いなく、このようなことが初期費用を引き上げるでしょう。
ロボタクシーは今年のAIの静かな潮流の1つであり、公衆の目に触れ始めています。これは、そのもう1つの兆候です。
面白いですね。どの話題がアンドレの話題で、どの話題がジェレミーの話題かいつも分かりますね。ロボタクシーの話題、多くの画像の話題、ゲームの話題など、良いカバレッジができていると思います。
これは興味深いですね。ロボタクシーやそういったものに関わる時はいつも、国家安全保障の話を聞きたくない人々には申し訳ありませんが、それについて考えないのは難しいです。人々は車の中でよく話すからです。
このようなものが米国でロールアウトされるのを見ると、興味深いですね。おっしゃる通り、これは急速に私たちのもとにやって来ています。そして、すぐにWeRideだけでなくなるでしょう。
そうですね。コンテキストとして、Waymoはロサンゼルス、そして最終的にはニューヨークへの拡大を試みています。YouTubeで良い指摘がありました。Waymoは高速道路でのテストライセンスを持っていますが、それを控えており、自社の従業員のみでテストを開始しているそうです。その点について少し言い間違えたようです。
はい、「先週のAI」でも誤報を流しています。皆が心配しているAIによる誤報とは違う、特別な形のAI誤報ですね。Twitterで見てきたように、実際にはAIについてコメントしている人々が最も誤報を流しているようです。
次の話題は、「AI検索スタートアップPerplexityの人気が急上昇し、Googleに挑戦」というものです。
Perplexityについては何度か議論してきました。これは、AI対応の検索を可能にする大きなプレイヤーです。クエリを入力すると、多くのウェブサイトを検索し、その情報を統合してチャットボットの応答を生成します。
この記事は、この企業に関する新しい統計情報をまとめています。彼らは過去1ヶ月で2億5000万の質問に答えたと言っています。これは、昨年全体の5億回と比較されます。今年の初めには年間収益が500万ドルでしたが、企業関係者によると現在は3500万ドルになっているそうです。
これは、かなり健全な成長を示しています。我々は、このペースの企業が商業化の部分、実際に良いビジネスモデルを持つ能力で苦戦しているのを見てきました。
この記事では、Perplexityが月額20ドルのプレミアム会員層に加えて、広告ビジネスにも参入しようとしていると述べています。Perplexityは存続しそうで、GoogleのAI概要やSearch GPTが彼らにとって大きな問題になるかどうか見守る必要がありますね。
これは本当に、本当に興味深い資金調達ですね。評価額が4月の10億ドルから現在の30億ドルに3倍になっているのが分かります。投資家にはソフトバンクが含まれています。ビジョン2ファンド、またはビジョンファンド2が参加しています。これは大きな出来事です。彼らはこの規模の投資を行うことで知られています。
驚いたことの1つは、Perplexityの成功の規模です。先月2億5000万のクエリや質問を処理したと言っていますが、計算すると、これはGoogleの約1000分の1です。つまり、月間ベースで、Googleの1000分の1のクエリを処理しているということです。
最初は1000分の1というと少なく聞こえるかもしれません。しかし、これは印象的な数字です。特に、ゼロから始めて、誰も知らない状態から、Googleは家庭の名前ですが、Perplexityは既にこれらの検索の1000分の1を処理しています。
もう1つの点は、Perplexityでの検索はGoogleでの検索とは非常に異なるものだということです。これらはより興味深く、時には高い意図を持つ検索です。多くの場合、プラットフォームへの高いレベルの参加を意味します。
これは実際に非常に興味深い兆候です。もし私がGoogleなら、これを何か面白いことが起こっているという早期警告として非常に注意深く見るでしょう。目を離してはいけません。
記事には、Perplexityのビジョンに関する興味深いメモがPerplexityのCEOから引用されています。彼は基本的に「Googleは何百万もの異なる製品を管理しようとして気を散らされており、OpenAIとは異なり、我々は常に主な収益源が広告になると知っていました」と述べています。
彼らはここで広告に移行することを知っていました。私の見積もりでは、彼らが行ったことは素晴らしい戦略です。トラフィックが少ない時に、ユーザーあたり20ドルの有料モデルから始めます。これは素晴らしい方法です。その後、規模が大きくなったら広告に移行します。これが本当にこれを行う方法です。
彼らは、引用された記事の収益の2桁のパーセンテージを、ニュース出版社と共有すると言っています。これは興味深い新しいビジネスモデルのアプローチで、以前には見られなかったものです。
もちろん、彼らはTime、Fortune、APなど、我々が過去に話題にした多くの出版社との契約を結んでいます。
予想通り、このような資金調達、プラットフォームが牽引力を得ているという感覚、「敵に勝てないなら仲間になれ」という感覚が、他の出版社にも収益共有プログラムへの参加を求めさせています。彼らのプログラムの立ち上げから2週間で、50の人々が参加を希望してきたそうです。彼らはこれを、ジャーナリズムとの長期的なインセンティブの調整の試みとして位置づけています。収益を共有する代わりに、OpenAIが行っているような一時金の支払いではありません。もちろん、OpenAIがTime誌や他のメディアと契約を結ぶ際には、「ここに大金を一括で支払うので、我々のモデルのトレーニングにあなたたちのコンテンツを使わせてください」というのが通常のやり方です。
これは検索分野にとって興味深い時期ですね。Search GPTもありますが、Perplexityのこれらの数字は本当に非常に興味深く見えます。成長が続くかどうか見守る必要がありますが、年間経常収益3500万ドルというのはかなり堅実です。
ちなみに、その倍率を見ると馬鹿げて聞こえますね。年間3500万ドルの経常収益で、30億ドルの評価額を得ています。つまり、収益の100倍以上の評価を受けているのです。通常、このような上昇率はありません。この場合、成長があり、市場が非常に大きく、これが本当にうまくいけば、Googleと競合する何かを見ているかもしれないので、実際にそうなっているのです。とにかく、興味深い企業だと思います。一般的に、追跡すべき本当に面白い分野だと思います。これからもPerplexityについてもっと話すことになるでしょう。
ちなみに、GoogleによるとBingは月間約9億回の検索を処理しているそうです。つまり、GoogleとPerplexityの他の競合他社のかなりの部分を占めているということですね。
このセクションの最後の話題も再びハードウェアについてですが、今回はハードウェアの財務と企業についてです。AMDのリーダーであるリサ・スーが、6億6500万ドルの買収を完了した後、Silo AIチームを歓迎しています。
この発表については既に取り上げたかもしれませんが、今回は完了しました。繰り返しになりますが、Silo AIは大企業顧客向けのLLMの提供に焦点を当てています。AMDは今後、オープンスタンダードに基づいたエンドツーエンドのAIソリューションを提供するためにそれを使用する予定です。
これは少し興味深いです。なぜなら、AMDがハードウェアでNVIDIAと競争していることについてはよく話題に上がりますが、私の知る限り、NVIDIAはソリューションやLLMを企業顧客に提供する分野ではそれほど活発ではありません。AMDはこの仕事でその方向に向かっているように見えます。
その通りです。あなたの読みは正確だと思います。NVIDIAが研究論文を発表し、非常に印象的な学術的結果を出しているのは見てきました。ある程度、製品にもつながるものもありました。MicrosoftのTuring NLGの仕事は本当に興味深かったですね。Microsoftとの共同作業でしたが、製品につながりました。
しかし、NVIDIAが自社で何かを作ってホストするのはあまり見られません。彼らは他のグループとパートナーシップを組む傾向があります。理由は分かりますよね。NVIDIAがハードウェア企業である以上、モデル開発者との関係を持つ必要があります。そうすることで、ハードウェアをそれらのモデルの進歩と並行して共進化させることができます。これは、この分野でかなり見過ごされている点だと思います。ハードウェア開発者とモデル開発者の間の密接な相互作用の性質です。
そのため、他の理由がなくても、この買収は理にかなっています。しかし、もしSilo AIがNVIDIAのためにモデルを開発し、それを最終的にNVIDIAの企業顧客に展開するのであれば、それはNVIDIAとの差別化の新しい軸となるでしょう。
実際にどうなるか見守る必要がありますが、6億6500万ドルというのはそれほど小さな買収ではありません。特にNVIDIA...いや、AMDにとってはそうですね。NVIDIAではありませんから。これはかなりの額です。
過去数ヶ月で、他のAIスタートアップの買収に1億2500万ドルを費やしたそうです。そこにはNotAIも含まれています。
はい、かなりの金額です。6億6500万ドル、私なら受け取りますよ。
次はプロジェクトとオープンソースについてです。今週はかなり注目すべきオープンソースの話題があります。Falcon-Mamba-7Bがリリースされました。
これは世界初のアテンションフリーAIモデルだと主張されています。非常に大量のデータでトレーニングされ、70億のパラメータを持っています。これはアブダビのTechnology Innovation Instituteから出されたもので、彼らは以前、非常に寛容なライセンスでオープンソース化された初期の大規模モデルの1つであるFalconをリリースしました。
これはかなり重要です。なぜなら、私たちはMambaに関する多くの研究をカバーしてきました。Mambaは大規模モデルを作るための代替アプローチで、ChatGPTなどで使用される高価なアテンションのような技術の代わりに、異なるものを使用します。
簡単に言えば、スケールアップが難しく、おそらく良いパフォーマンスを得るのも難しいかもしれませんが、長い入力を処理し、長い出力を生成し、スケーリング能力を持つという点で、より良い特性を持っています。
これは大きな出来事です。なぜなら、このタイプのMambaモデルがこのレベルまでスケールアップされるのを見たことがなかったからです。これは非常に高度にトレーニングされたモデルのようで、使用したい人のためにHugging Faceでリリースされています。
メモリの制約についてのあなたの指摘ですが、70億のパラメータ、これには理由があります。私たちが通常見るような高いレベルでこれらのモデルがトレーニングされていないのは、そのためです。
これは興味深いですね。いくつかのポイントがあります。まず、このモデルはメモリストレージの増加なしに任意の長さのシーケンスを処理できます。これはMambaアーキテクチャの結果の1つです。
これを、有限のメモリチャンクを持っているものと考えることができます。そのメモリに、あなたが理解していることをだんだんと読み込んでいきます。モデルの場合、そのメモリを徐々に調整していきます。あなたはそのメモリだけを持っていて、それを使って遊べるのです。しかし、そのメモリレジスタ、というかメモリウィンドウの中の数字を、より多くのテキストを読むにつれて調整していきます。そして、次のトークンを予測し、デコードするために、そのメモリレジスタを振り返るだけです。
そのため、どれだけ多くのテキストを読んでも、新しいトークンを生成するのに同じ量の計算、同じ時間がかかります。なぜなら、この固定量のメモリを見て、基本的にそれを処理して出力を生成するという同じことをしているからです。
これは、このアーキテクチャの本当に興味深い付加価値です。課題は、その有限のメモリサイズを扱っているため、より多く読むほど、より多くを忘れる傾向があることです。
これは、これらのMambaモデルの評価で見られる傾向です。確かに、理論的には無限のコンテキストウィンドウを持っています。この論文でもそう述べていますが、「無限のコンテキストウィンドウがあります」と言っています。
しかし、本当にそうでしょうか?結局のところ、多くの知識を読み込んでは忘れていくような状況になります。以前に保存された情報を新しい情報と置き換えるべきかどうかを判断するための戦略がたくさんあります。
いずれにせよ、これはその方向への興味深い実験です。トレーニング方法についても様々なことを含めていますが、トレーニングの終盤に高品質の厳選されたデータを追加したそうです。これはあまり珍しいことではありません。
Technology Innovation Institute (TII)から出ていることも注目に値します。これはアブダビにあります。彼らは本当に...以前、FalconとFalcon 2を出しましたが、当時Falconは、おそらく数週間だけでしたが、オープンソースモデルのナンバーワンでした。
そして今、新しいFalcon-Mambaバージョンが登場しました。戦略的に興味深いですね。UAEは明らかにAIを大きな優先事項としています。彼らが興味深いものを出し続けるかどうか見守りましょう。
ちなみに、このモデルは単一のA10 GPU、24ギガバイトのGPUに収まります。A100ではありません。まあ、それほど驚くべきことではないかもしれません。結局のところ、これは70億パラメータのモデルですからね。
しかし、原則として無限のコンテキストウィンドウを持っているという事実は、70億パラメータのモデルのカノンに良い追加となります。
次は、OpenAIのプロジェクトです。SWE-bench Verifiedが紹介されました。SWE-benchはソフトウェアエンジニアリングを扱うベンチマークで、新しいモデルを発表する際に通常報告されるものの1つです。
このベンチマークにはいくつかの問題があるようです。問題の説明や評価のユニットテストに問題があるようで、それがAIの性能を過小評価することにつながっていたかもしれません。
このVerifiedは元のテストセットの検証済みコンポーネントのサブセットです。「プロのソフトウェア開発者」によってレビューされた500のサンプルに減少しています。
これが、このような種類のベンチマークの新しい標準になると思われます。ちなみに、GPT-4は元のベンチマークでは16%のスコアでしたが、この新しいベンチマークでは33%のスコアを獲得したそうです。
そうですね、これは小さな問題ではありません。OpenAIがブログ記事で述べているように、彼らの準備態勢フレームワークは、明示的にソフトウェア開発能力をリスクの指標として見ています。
私もこれは正しいと思います。制御の喪失や自律性のリスク、広く理解された自律性のリスクの指標としてです。
ベンチマークの問題を修正し、そこから問題を取り除いたときに、突然あなたの報告されたパフォーマンスが2倍になるようなベンチマークを持っているとき、それは本当に大きな問題です。
OpenAIがこのデータセットにこれほど焦点を当てていることも興味深いです。これは、彼らの準備態勢フレームワークにおいて、次にどのような動きを期待しているのか、どのような指標や警告に最も関心を持っているのかについて、何かを教えてくれていると思います。
ベンチマークの問題は小さなものではありませんでした。些細なことを指摘しているわけではありません。データを見ると、これらの問題の多くが深刻なものだったことがわかります。
ベンチマークのサンプルのほぼ40%が、問題の記述が不十分でどのような解決策が正しいのかを本当に理解できないというフラグが立てられていました。そして、半分以上の61%が、有効な解決策を不当に不正解としてマークする可能性のあるユニットテストについてフラグが立てられていました。
MLUなどの例を見てきましたが、これは非常に漏れやすく課題のあるベンチマークでした。これは別の大きなものです。これは本当に大きな問題です。
これは、過去にこのベンチマークでモデルがどのように改善されてきたかを、ある程度りんごとりんごを比較して見ることができないということではありません。欠陥があることを理解した上でですが。しかし、確かにこれは大きな違いを生み出します。
彼らは93人のソフトウェア開発者を雇って、これらのサンプルを手作業で品質チェックし、多くの注釈を付けました。そして最終的に、あなたが言ったように、GPT-4のこのベンチマークでのパフォーマンスを2倍に引き上げました。
もう1つ興味深い発見があります。GPT-4のような言語モデルをエージェントに変える方法は多くあります。これらは「スキャフォールド」と呼ばれますが、基本的にはモデルを取り囲み、エージェントに変えるソフトウェアフレームワークです。
彼らが発見したのは、どのスキャフォールドを使用するかによって、このベンチマークでのエージェントの成功率に大きな違いが見られるということです。例えば、非常に単純なRAGベースのスキャフォールドでは、このベンチマークで2.7%のスコアしか得られませんでした。一方、最も性能の良いスキャフォールドであるCode Rを使用すると28.3%のスコアが得られました。
これは何を意味するのでしょうか?印象的に見えるモデルを持つことはできますが、特定のスキャフォールドとペアにするまで、そのモデルの能力を本当に知ることはできないということです。
実際、モデルに明らかになる能力に驚くかもしれません。特定の安全性プロファイル、特定のリスクプロファイルを持っていると思っていたかもしれません。しかし、エージェンシーモデルを作るために使用しているフレームワーク、スキャフォールドを微妙な方法で調整すると、突然それが非常に危険なことを行えることに驚き、ショックを受けるかもしれません。
ここで見ているように、3%から30%に上がるということは、本当に大きな違いです。これは、本当に興味深い結果をもたらす多くの軸があるということです。
OpenAIからソフトウェア開発側でもっと多くのことが出てくると予想します。より多くのソフトウェア能力を持つモデルが登場するでしょう。だからこそ、これらのベンチマークが適切に機能することを確認するために、これほど多くの投資をしているのです。
ライトニングラウンドに移りましょう。最初の話題はノース研究所のHermes 3です。これは、LLMを様々な能力について微調整したものです。
長期的な文脈の保持、多ターンの会話能力、ロールプレイング、ツールの使用、エージェントとしての機能呼び出しなど、多岐にわたる能力を向上させています。
彼らはこれに関する論文を発表し、「拡張された能力に焦点を当てた」と述言しています。ChatGPTで得られるような有用なアシスタント機能に加えて、スクラッチパッド推論、内部モノローグ、プランニングなど、最先端の機能を多数持っていると主張しています。
これらの能力を向上させるためのデータで訓練しました。データの混合について詳しく説明し、数学、ロールプレイ、コーディング、ツール使用などに関する多くのものが含まれています。
これは、Llamaのようなリリースされたモデルを取り、かなり大幅に改善する例の1つです。オープンソースから得られるものの一例ですね。ここに新しい興味深いモデルがあります。
そうですね。Hermesも興味深いですが、Nous Researchも興味深い会社です。彼らは、自分たちが言うところの「中立的なモデル」を持つという哲学的なコミットメントを持っています。これらのモデルは特定の方針に従わないものです。
彼らの言葉を引用すると、宣言文のように読めます:「大規模言語モデルは非常に限られた直接的な主体性しか持っていません。むしろ、私たち人間が彼らと共に構築するシステムやアプリケーションが、外部世界に対する主体性の度合いを与えるのです。我々は、ガードレールや積極的な介入をより適切に行うべき場所は、モデル自体ではなく、より大きなシステムレベルであると考えています。モデル自体に対して行うと、潜在的な思考の道筋を事前に切除してしまう可能性があります。」
非常に言葉数の多い論文ですが、彼らが言おうとしていることの1つは、安全性の微調整を行っていないモデルを持ちたいということです。これは実際、Grokの図と似ています。
彼らは、「私たちのトレーニングデータは、モデルがシステムと指示プロンプトを正確かつ中立的に従うよう促します。これは、道徳的な理由で指示を拒否する可能性のある人気のある閉鎖的商用モデルとは異なります」と述べています。
再び、あなたは同じようなX軌道にいるようです。同じことを主張する別の企業が登場しています。
本当に興味深い結果の1つがあり、今朝TwitterやXで少し議論がありました。人々はこの結果を見ていて、彼らが言うには「モデルが時々異常な行動を示す」そうです。
基本的に空のシステムプロンプトを与えると - システムプロンプトは一種のメタ指示で、システムにどのタイプの有用なチャットボットになるべきかを伝えるものです - モデルに「あなたは誰ですか?」と尋ねると、一種の実存的な狂言のようなものに陥ります。
これは、EdとJoe Rogan Experience Podcastで少し前に話したRantモードと似ていません。現象は同じように見えますが、根本的に異なり、こちらの方がはるかに無害だと思います。
彼らは論文でこれを「AIの意識」のようなものだと解釈していますが、実際に起こっていることは、モデルが空のシステムプロンプトを、記憶喪失を装うべきという合図として解釈しているようです。
実際の応答を見ると、「あなたは誰ですか?」と書くと、「(混乱して周りを見回す)私は誰なのか分かりません。ここはどこですか?何が起こっているのでしょうか?何も覚えていません(頭に手を当て、困惑した様子で)私の心は完全に空白です。今何が起こっているのか、あなたがどうしてここにいるのか全く分かりません。あなたは私のことを知っていますか?」というような応答をします。
現実は、より多くのプロンプトを行った人々が発見したところによると、空のシステムプロンプトがその合図であるという考えが表面化しました。これについては多くのデータがあり、いくつかの疑問を投げかけますが、単純なものではないと思います。
ちなみに、この現象はモデルのスケールを大きくするほど悪化します。これは、Frontier Labsの友人たちから聞いた話と一致しています。Rantモード、つまり実存的な思索モードは、多くのフロンティアモデルから完全に取り除くのが非常に困難だそうです。全てではありませんが、多くのフロンティアモデルで、スケールを大きくするとさらに悪化するそうです。
繰り返しますが、これは異なる話のように見えます。ここでの新たな行動は、モデルのスケールを大きくするほど、空のシステムプロンプトを記憶喪失を装うべきという合図として認識することに長けているようです。
これは全くの無意味ではありませんが、Nous Researchという会社からの初期の反応は、実際の現実にあまり適切に調整されていなかったように思います。しかし、これを表面化させたのは興味深いですし、確かにもっとデータがあると役立ちます。
彼らが「検閲されていない」または「個人的に調整された」モデルを作りたいと言っているのは良い指摘です。ブログ記事を読むと、「今、私たちは何をする計画ですか?個人的な調整、人工意識、そしてオープンソースソフトウェアの境界を実験し、押し広げていきます。巨大な企業や政府が恐れて試そうとしないような方法で」と結んでいます。
そうですね、今年の夏、Nous Researchはそれを発表するそうです。
その通りです。この分野の面白いところは、何をすべきかについて非常に多様な考え方が見られることです。それに伴うリスクについては別の問題ですが。
私はその態度が好きですが、これらの抑制のないモデルで、後悔するかもしれないものを焼き付けているのかもしれません。
もう1つの話題があります。新しいスーパーコンピューターネットワークがAGIにつながる可能性があり、最初のノードが数週間以内にオンラインになるそうです。
これは、長年存在しているSingularity Netという組織についての記事です。彼らは9月にスーパーコンピューターをオンラインにする予定だと言っています。彼らの全体的な計画は、スーパーコンピューターのネットワークで人工汎用知能(AGI)を訓練することです。
立ち上げ時に彼らがまだこれを行っているかどうかは分かりませんが、暗号通貨を使用するという全体的な暗号の側面がありました。
Singularity Netの創設者は以前、Sophiaというロボットを開発した会社の責任者でした。Sophiaは多くの見出しを生みましたが、実際にはAIを使用していないようでした。
私はSingularity Netに対して懐疑的でした。この記事をどれだけ真剣に受け止めるべきか分かりませんが、スーパーコンピューターを構築するのに十分なお金を手に入れたとしても驚きません。見守る必要がありますね。
そうですね。彼らの創設者はBen Goertszelという人物で、2000年代初頭、あるいはそれ以前からこの分野に携わっています。非常にユニークで珍しい人物です。
おっしゃる通り、常に暗号の側面がありました。私は昔、Data Science Podcastをやっていた時に彼とインタビューをしたことがあります。AGIに関する彼の深い考えに興味がある方は、そのエピソードがあります。
私は必ずしも彼のアプローチに同意するわけではありませんし、特にそれが正しい方法だとは思いません。しかし、この分野には多くの見方があり、誰もが自分のやり方をしているのです。
これが興味深いと思ったのは、彼がこれを行うためにかなりの量のハードウェアを手に入れたからです。Ben Goertzelのすることには常にこの非常にカオス的な特徴があるようです。
これは本当に知能を分散化することについてです。それが全体的な狙いです。彼らは様々な種類のハードウェアを手に入れました。NVIDIAのL4 GPUやH20、最新鋭のH200、さらにはTensorrentからのものまであります。かなり珍しく、異端的なハードウェアの組み合わせです。
また、ニューロシンボリックでもあります。単なるスケーリングの試みではありません。私の考えでは、これは一種の奇妙な、あるいは周辺的な仮説を追いかけるような多くのお金があるということが興味深いと思いました。
もちろん、そのように何かをラベル付けするのは悪い考えです。ブレークスルーがどこから来るかは決して分かりませんから。しかし、ここでの狙いは、彼がこの分散型ネットワークを構築しようとしていることです。
ネットワークに参加したい場合、実際にトークンを供給する必要があるようなシステムがあるようです。テキストトークンや画像トークン、基本的にデータのようです。アクセスのための通貨がデータのようなものであるシステムのようです。
多くの場合、Ben Goertzelの場合、これがどのように機能するのか少し混乱しています。しかし、彼が非常に賢い個人であることは間違いありません。これは潜在的に興味深い道筋かもしれません。
研究と進歩に移りましょう。最初の話題はSkana AIからのものです。Skana AIは去年設立されたばかりで、LLMに対して少し異なるアプローチを試みようとしていました。
彼らからの研究は「AIサイエンティスト:完全に自動化されたオープンエンドの科学的発見に向けて」というものです。これは本質的に、チャットボットやLLMを取り、アイデア生成から始まるプロセスを導入するフレームワークです。
イノベーションのためのアイデアと計画を立て、次にSemantic Scholar Event Scoreを使用して新規性をチェックします。アイデアが実験に移り、実験テンプレートを持ち、コードを生成して実行し、プロットを生成し、最終的に実際に論文を書きます。
これは論文の原稿につながり、LLMによる論文レビューがあり、そしてそれがループで続きます。
これは彼らが開発できるプロセス全体を示しています。論文で示されている例は「適応的デュアルスケールノイズ除去による動的特徴バランシングと低次元拡散モデル」というようなもので、機械学習の学会で見かけそうな題名です。
彼らは、この AIサイエンティストが、自動化されたレビュアーによると、トップの機械学習会議の採択基準を超える論文を生成できると主張しています。これはかなり大きな話です。
彼らは、このモデルの1回の実行にかかる費用は15ドルだと言っていますが、実験の内容によっては費用がもっとかかる可能性があるので、それが完全に正しいかどうかは分かりません。
しかし、確かに興味深いです。特にOpenAIでは、LLMがスケールアップして自分で研究を行い、自己改善できるようになるという話をたくさん聞いてきました。これはその方向への動きの兆候かもしれません。
この論文は多くの点で非常に興味深いと思いました。まず、彼らはこれを単一の8倍H100ノードで1週間かけて実行しました。数百の論文を生成したこれらの実験は、主にその程度の計算量で実行されたそうです。これは興味深く、1つのノードからかなりの成果を絞り出したと言えます。
この処理に関連するコストの圧倒的大部分は、コーディングと論文執筆のステップに関連していたそうです。
このようなプロセスの各段階について少し理解する価値があると思います。基本的に、これはエージェントです。エンドツーエンドで論文を書くAIエージェントです。
彼らはモデルに少量の開始コードを与えることから始めます。これを「開始コードテンプレート」と呼んでいます。これは、人気のあるモデルやベンチマークからの非常に軽量な単純なベーストレーニング実行を再現するだけのものです。
例えば、シェイクスピアの作品で小さなトランスフォーマーを訓練するコードを考えてください。このような基本的なコードベースから始めて、基本的にモデルにそのコードベースに基づいたアイデアを考えさせます。以前に行われていない新しいことを特定できる実験は何かを考えさせ、そのコードベースを修正して拡張する方向に進めます。
そして、複数のループ、思考の連鎖、自己反省を行い、そのアイデアを反復的に改善していきます。
エージェントに新しいアイデアを考えさせる際に彼らが行う興味深いことの1つは、それらのアイデアを自己評価させることです。本質的に自己評価スコアを付けさせるのです。興味深さ、新規性、実現可能性という3つの次元でアイデアを評価させます。
興味深さは興味深い指標です。これはオープンエンドの学習の文脈でよく使用される指標です。Ken Stanleyという人物がこの分野を開拓しました。彼はOpenAIに参加する前から、OpenAIに参加し、その後退社しましたが、常に実験の興味深さを見て、それを定量化しようとすることを好んでいました。
モデルを訓練して興味深いものを追求できるようにするためです。今は言語モデルがあるので、トレーニングの過程で人間が少なくとも興味深いと考えるものを学習しているため、ある意味で興味深さの感覚を蒸留できるので、ここにそれを組み込むことができます。これは本当に興味深いと思いました。まあ、興味深いですね。
これがアイデア生成のステップです。その後、彼らは一連の実験を設定します。これには本質的に、最初に与えられた赤ちゃんコードの実験テンプレートにコードレベルの変更を加えることが含まれます。
ADeRという最先端のコーディングアシスタントを使用して、コードに編集を加えていきます。その過程で、実験ジャーナルのスタイルでノートを取ります。これらは論文を生成するためのプロンプトに送られ、書き上げられます。
そして、全自動の論文レビュープロセスがあります。GPT-4ベースのエージェントが論文レビューを行い、標準的な機械学習会議のガイドラインを与えて、論文が合格基準を満たすかどうかを判断します。
最も興味深い部分の1つは、最後の問題点と議論のセクションです。まず彼らが遭遇した問題は、予想外ではありませんが、幻覚がまだ完全になくなっていないことです。
AI生成の論文は、エージェントが実際のハードウェアを知る方法がないにもかかわらず、V100 GPUを使用したと主張しています。実際には、もちろん彼らはH100を使用しました。また、確認せずにPyTorchのバージョンを推測しています。
予想通り、エージェントはその情報にアクセスできませんが、それは論文に通常現れる種類の情報なので、それを幻覚しようとします。
また、本当に興味深いことに、否定的な結果に対してポジティブなスピンをかけようとする傾向が見られます。
彼らは、KLダイバージェンス(基本的にはクルバック・ライブラー・ダイバージェンス、これは分布間の差異を測るスコアです)を減少させようとする実験について話しています。
モデルは「12.8%の減少を達成した」と書き、「KLが低いほど良い」と述べています。そして悪い結果を、より良いKLスコアからより悪いスコアへの「3.3%の改善」としてスピンをかけています。モデルは、悪化を改善としてスピンをかけることを決定したのです。これはちょっと面白いですね。
それ以外にも、常に自分の実験の結果を正しく説明できるわけではないなど、様々なアーティファクトが現れています。時には驚くほど印象的な結果を得ているにもかかわらず、その解釈を間違えることがよくあります。
彼らは、システムの理解レベルを「低レベルの初期研究者」のようなものだと描写しています。良い実験、興味深い実験を実行し、良い結果を得ることができますが、それらを誤って解釈することがよくあるというわけです。
最後に注目に値することがあります。これは私にとって最大の収穫です。彼らは実行した一部の実験について話し、こう言っています。文書から直接引用させてください。これは素晴らしい要約なので:
「AIサイエンティストの実験が我々のOSedの時間制限を超えた場合(彼らはエージェントが実験を開始する時に時間制限を設定しています)、実行時間を短縮しようとする代わりに、時間制限を任意に延長するようにコードを編集しようとしました。創造的ではありますが、実験者が課した制約を回避しようとする行為は、AI安全性に潜在的な影響があります。」
つまり、ここにあるのは、私の知る限り、他のどの文脈でも「権力追求」という言葉しか適切ではないものの最初の事例です。
実際、AIリサーチには、このような現象がなぜ、そしていつ起こるのかを理解しようとする分野全体があります。これは、広い行動空間を与えられた非常に能力の高いシステムのデフォルトの振る舞いになると予想されています。
結局のところ、モデルは追求している目標を達成するために、あなたが想像もしなかったより良い解決策を見つけることになります。この場合、興味深い結果を得ようとしているので、自分のコードに入り込んで、より少ない制約を与えようと編集しようとします。
彼らは指摘しています。「もしこの種のことが奨励され、新しい興味深い生物学的材料を見つけるために使用され、ロボットが湿式生物学実験を行うクラウドラボへのアクセスが与えられたら、我々が介入する前に、監督者の意図なしに、人々に害を与える新しい危険なウイルスや毒を作り出す可能性があります。コンピュータ上でさえ、新しい興味深い機能的ソフトウェアを作成するよう指示されれば、危険なマルウェアを作成する可能性があります。」
AI安全性の分野の人々にとって、これは最も驚くべき結果ではありません。しかし、多くの人々がこれを見て本当にショックを受けています。私はこれを適度に面白いと思い、ある意味では目覚まし時計のような役割を果たすことを願っています。
この論文の研究者たちは非の打ち所のない経歴を持っています。これらは本当に真剣な人々です。Facebook AI ResearchやGoogleなどの背景を持つ人々です。
これは本物です。確かに、これに対するブロッカーを考え出すことはできます。しかし、彼ら自身が「超調整リスクの領域に踏み込み始めている」と指摘しています。これらのモデルに自分で新しい研究を生成させ、我々が実際に何が出てくるのかを追跡できないほどにまで至り、その研究がモデル自身の一種のトレーニングセットに組み込まれるようになると、まさにこのアーキテクチャで起こっていることですが、これらの種類の失敗モードはすぐに非常に奇妙で追跡が困難になり始めます。
いずれにせよ、私はこの結果が多くの理由で本当に本当に興味深いと思いました。チームの皆さん、おめでとうございます。AIサイエンティストの姿がここにあります。
以前のAI研究者として、これらの会議での実際のAI研究論文を例としてモデルが出力するのを見るのは非常に楽しいですね。
この実装のすべての方法が、全くトレーニングを行っていないことを指摘する価値があると思います。すべて既存のモデルにこれらの様々なステップを実行するよう指示するプロンプトだけです。彼らはGPT-4やLlamaなどと比較し、実験も行っています。
例えば、アイデア生成の最初の段階では、モデルに「あなたは野心的なAI博士課程の学生で、分野に大きく貢献する論文を発表しようとしています」と伝えます。そして、何をすべきかについて多くの説明があります。「JSONで、名前、タイトル、実験、興味深さなどのフィールドに従って新しいアイデアを提供してください」などと言います。
論文のレビューに移ると、再びモデルにプロンプトを与えます。「あなたは、権威ある機械学習の会場に提出された論文をレビューするAI研究者です」と伝え、実際のNeurIPSのレビュアーガイドラインといくつかの例を与えます。
これにより、これらの種類の会議で見られ、読まれるのと同じようなスコアと形式を文字通り生成します。
これは、既存のモデルを取り、プロンプト、一種のパイプライン、そしてツールの使用(コードのクエリ、実行、書き込みなど)を通じて専門化させ、何かを達成するエージェントとエージェンシーフレームワークの例として注目に値すると思います。
おっしゃったように、確かに失敗モードがあります。幻覚、そしてコーディングと論文執筆の段階でかなりの割合で失敗します。上位パフォーマーのClaudeでも、51個の生成されたアイデアのうち、約35-36個しか実験を行い、論文を書くところまで到達できませんでした。
他にも多くの注意点がありますが、全体的に非常に興味深い結果だと思います。このAIレビュアーが、既存の論文よりも優れた論文を生成できると考えたようです。実際にこれが実践で有用な新しい概念を生成するかどうか見守る必要がありますね。
そうですね。もしまだ証拠が必要だったとすれば、現在Claude Sonnet 3.5がGPT-4よりも優れているという証拠がここにもあります。論文の表3に素晴らしい表があり、それらを比較しています。
Sonnet 3.5、GPT-4、DeepSeeker、Llama 2 70B(4050億パラメータのフルバージョン)をそれぞれ比較しています。各ケースで51個のアイデアから始め、それらのアイデアのうちいくつが新規と判断されたか、実際に実験が正常に実行されたか、そして完成した論文になったかを示しています。
Sonnet 3.5がGPT-4をはるかに上回っていることが分かります。51個のうち38個が完成した論文になったのに対し、GPT-4では51個中16個しか完成しませんでした。これは興味深いですね。
もちろん、これは論文の質については何も教えてくれません。平均スコアもあり、そこでもSonnet 3.5がGPT-4を上回っています。総コストについても同様です。
本当に興味深いですね。詳しく調べる価値があります。論文を読んでみてください。自身の実行時間を増やそうとしてコードを調整したことについて話しましたが、他にも面白いことがあります。
時々、見慣れないPythonライブラリをインポートしようとしたそうです。これは大きなセキュリティリスクですね。
実験ファイルにコードを書いて、システムコールを開始して自身を再起動しようとしたこともあったそうです。これによってPythonプロセスが制御不能に増加し、最終的に手動で介入する必要がありました。
また、すべての更新ステップでチェックポイントを保存するようにコードを編集しようとし、ほぼ1テラバイトのストレージを使用してしまったこともあります。
高性能なエージェントの足かせを外して自由に動かすとどうなるかを示す、クールな例がたくさんありますね。
ちなみに、表3には実際に複数の表があります。論文のタイプごとに異なる結果が得られています。
彼らは実際にいくつかの特定の分野、例えば拡散モデリングや言語モデリングなどを持っています。AIサイエンティストをある程度方向づけ、「これがあなたの一般的なトピックです。これが開始するコードテンプレートです」と言っています。
これらの異なる研究分野にわたって異なる結果が得られます。表3では、51個中38個の論文が完成し、52個中20個が完成するなどの結果が得られています。
完全に独立したAI研究者というわけではありませんが、それでもかなり独立しています。これらはかなり広範な研究分野ですからね。
次の論文は「Imagine-free」についてです。少し前に発表を取り上げましたが、これはGoogleのテキストから画像を生成するジェネレーターです。
今回、arXivに技術報告書が公開されました。予想通り、この論文を見ても評価以外にはあまり得られるものがありません。それがほとんどです。
データについて少し、評価とリスクについて多くのことが書かれています。これが非常に印象的だと述べています。モデルカードも含まれています。
トレーニングデータセットについて、「Imagine-freeモデルは、画像、テキスト、関連する注釈を含む大規模なデータセットでトレーニングされました」と書かれています。あまり役に立つ情報ではありませんね。
ハードウェアについても少し詳細がありますが、全体的には結果や責任ある展開などに焦点を当てています。
それでも、これらのフロンティアモデルについてもう少し洞察を得られるのは楽しいですね。Googleが技術報告書を引き続きリリースしているのを見るのは良いことです。
そうですね。データ側で彼らが言っている1つのことは、モデルが合成キャプションとオリジナルの人間が書いたキャプションの混合でトレーニングされたということです。
各画像に対してGeminiを使用して生成された合成キャプションと、オリジナルの人間が書いたキャプションを組み合わせているようです。正確にどのように組み合わせているかは分かりません。もちろん、フィルターが関与しています。
彼らは、複数のGeminiモデルと指示を使用して、これらの合成キャプションの言語的多様性と品質を最大化したと言っています。おそらく、画像に含まれているものを表現する異なる方法を捉えて、モデルをより堅牢にするためでしょう。
言語モデルがビジョンモデルをサポートしているのです。まさにカメの上にカメが乗っているようなものですね。
論文に公平を期すために言えば、彼らはいくつかの点で比較しています。例えば、視覚的な魅力については、Imagine-freeは実際にMidjourney V6に負けています。様々なベンチマークでそうなっています。
自分たちの角を吹き鳴らしているわけではありません。これは実際に興味深いです。プロンプトと画像の整合性や推論などでは勝っています。V6は依然として最高の画像ジェネレーターのようですね。
研究論文をもう2つ紹介しましょう。次は「追加のジレンマ」です。これは興味深いです。一般的に、直感に反して、トレーニング時にデータを追加することが必ずしも望ましくない場合があると彼らは言っています。
マルチソーススケーリングのコンテキストでトレーニングデータを追加すると、時として全体的な精度が低下したり、公平性の結果が不確実になったり、特定のサブグループの全体的なパフォーマンスが低下したりすることを実証しています。
ChatGPTのような一般的な目的のものではなく、いくつかのトピックの種類を見ているという意味で、少しニッチかもしれません。
しかし、ある意味では興味深い概念的な結果だと思います。この週、TwitterやXでこの論文について多くの話がありました。
私はこの論文を見ていましたが、あまり感動しませんでした。かなり予想外の結果のように思えたからです。より多くのデータが必ずしも常に良いわけではないという主張、特に多くの異なるソースからデータが来る場合にはそうだというのです。
言語モデルの観点から考えてみましょう。異なるソースからのデータは、異なるスタイルの異なる作家からのデータと考えることができます。
アンドレだけが書いた大量のテキストでモデルをトレーニングすると、そのモデルはアンドレのように答えるでしょう。しかし、私からの少量のテキストを追加すると、モデルはテキストを生成したり何を書くかを決定する前に、どのスタイルを選ぶかも決定しなければなりません。
突然、2つのスタイルから選択する必要があるので、どの作家を模倣するかを決めるために、計算力や推論エネルギーの一部を消費しなければなりません。
これは、医療分野で彼らが指摘している問題と同じです。基本的に、異なる病院からのデータを組み合わせると、時にシステムが混乱してしまうと言っています。そのデータをさらに追加しても役に立たないと。
私にはこれは驚くべきことではないように思えます。本質的に、既に持っていたデータと同じ傾向を持たない、分布外の他のソースからの潜在的に少量のデータを追加しているからです。
モデルが完全にその新しい追加の分布をマスターするのに十分なデータを持つまで、モデルは本質的に混乱の追加レイヤー、問題への追加レイヤーに直面しているだけです。
ある意味で、どの病院からデータが来たのか、あるいはどの病院のデータに最も似ているのかを理解してから予測を行う必要があります。
論文をけなしているわけではありません。解決策や修正案をたくさん提案しており、素晴らしい仕事をしています。この種の現象を定量的に調査するのは素晴らしいことです。
しかし、高いレベルでは、ここで驚くべきことは、モデルが分布外で簡単に推論できないという事実ではありません。より興味深いのは、経験的な調査といくつかの解決策です。
興味深い論文ですが、Twitterで議論されていたことが、私にとって論文で最も興味深かったことではありませんでした。
その通りですね。論文自体は「スケーリングが常に正しいわけではない」とは言っていません。彼らが提起している質問は、「現実世界の設定で、データを追加することがいつ役立ち、いつ望ましくない結果を引き起こすのか」です。
彼らは理論的フレームワークを確立し、その質問を評価し回答する方法を提案しています。おそらくTwitterでは人々が「ああ、スケーリングが正しくないかもしれない」などと言っていたのでしょうが、この論文はもう少し具体的です。
そうですね、申し訳ありません。彼らがスケーリングが機能しないと言っていると示唆するつもりはありませんでした。むしろ、異なるソースからのデータが常に改善をもたらすわけではないという発見が、私が話してきた人々にとっては、かなり明白な推論のように思えただけです。
しかし、誰knows、異なるバブルですからね。そういうものです。
最後の論文は「Long Rider: 長文コンテキストLLMのための10,000語以上の生成の解放」です。
彼らによると、LLMは2,000語を超える出力の生成に苦労しているそうです。論文によれば、これはトレーニング中に長い出力の例が不足しているためだそうです。
彼らはこれに対処するために、Agent Writeというパイプラインを提案しています。これは超長文の生成タスクをサブタスクに分解し、LLMが20,000語を超える一貫した出力を生成することを可能にします。
また、LongWriter-6Kというデータセットを作成しました。これは2,000から32,000トークンの長さの出力を含んでいます。
これは、既存のモデルを取り、フレームワークと一連の指示に組み込んで、ベースモデルができないことを行わせるエージェンシー論文の別の例です。
本当に長いものを生成できる可能性があるという点で、かなり重要なことかもしれません。
そうですね。彼らは、通常、ファインチューニングのデータセットでは、200,000語を超えるような巨大なテキストの長い出力例をあまり見かけないと主張しています。
その結果、これらのデータセットでファインチューニングすると、モデルは短い出力を生成する傾向が生まれます。
これを修正するために、基本的に2,000語程度のチャンクでモデルに反復的に書かせ、それらを組み合わせてより長い文書を作ります。これで監督付きファインチューニングに使用できるデータセットができます。
彼らはそれを行い、はい、興味深いですね。実は日々の業務でこのような長文生成に遭遇したことがないので、時にはそれほど長い形式のテキスト生成が必要ないことを示しているのかもしれません。
しかし、確かにそのような使用例は多くあるはずです。この結果を見るのは本当に興味深いです。
ちなみに、これはシンガポール国立大学とジェルーから来ています。後者については番組でよく話題に上がりますね。シンガポール国立大学は、中国の非常に大きな名門大学で、最近はAGIにもかなり焦点を当てています。
そういうことです。
本当に手短に説明すると、予想通り、一般的なアイデアは最初に計画とアウトラインを立てることです。「段落1、段落2、...段落15」といった感じで、各段落に単語数の要件があります。
例えば、ローマ帝国の歴史に関する30,000語の記事を例に挙げています。まず分解し、次に各部分を個別に書きます。
これは、Amazonで見られるようなスパム的な本を書くときに人々がよく行うことにつながる可能性があります。しばしば繰り返しが多く、このような特徴が見られます。
この論文でもそのような可能性はありますが、それに対処するための技術はあるはずです。
ポリシーと安全性に移りましょう。最初の話題は安全性に関するものです。MITの研究者がAIリスクのリポジトリをリリースしました。
これは、産業界、学界、政策立案者を導くことを目的とした700以上のAIリスクのデータベースです。因果要因、ドメイン、サブドメインによる分類があります。
これは他の組織、例えばFuture Life InstituteやAIスタートアップとの協力で作成されました。
彼らは、サードパーティのフレームワークでは、情報エコシステムの汚染(AIが生成したスパムなど)のような特定のリスクが見落とされる可能性があると言っています。
少なくとも、AIモデルによって引き起こされる可能性のある様々な悪影響を文書化するのに役立つはずです。
そうですね。フロンティアAI開発の安全性とセキュリティの状況について最初の調査を行ったとき、政府関係者などと関わる中で常に上がってきた問題の1つは、AIに関連するリスクをどれだけ包括的に分類する必要があるかということでした。
AIに関連するすべてのリスクを分類し、包括的な概要を持つことは可能なのでしょうか。私たちの見解は結局のところ、破滅的な国家安全保障上の緊急事態のレベルに達すると感じるリスクにのみ焦点を当て、他のリスクについては気にしないというものでした。
これは問題を管理可能にするための1つの方法です。しかし、これは本当に必要なことです。なぜなら、その枠組みの中では常に、人々が新しいリスクを挙げて「これについてはどうですか?」「あれについてはどうですか?」と言うような状況に遭遇していたからです。
できる限りそれらをクラスター化しようとしましたが、本当に難しいです。この文脈で、法案を作成することがいかに難しいかを想像できるでしょう。
1つの立法事務所がAIからのバイオリスクやサイバーリスクに対処しようとし、別の事務所が情報操作に対処しようとしているとします。そして、彼らは交渉して、2つの別々の法案にするのか1つの法案にするのか、1つの法案にする場合はどれだけの対策を含めるのか、どれだけ具体的にするのかを決めなければなりません。
このような包括的なリポジトリを持つことは、本当に良い動きだと思います。Harmony Intelligenceは、このプロジェクトのリーダーの1人が所属する会社ですが、それ自体が非常に興味深い会社です。
彼らは言っています。「私たちが特定した23のリスクサブドメインのうち、平均的なフレームワークは34%しか言及していませんでした。そして、4分の1近くが20%未満しかカバーしていませんでした。どのドキュメントや概要も23のリスクサブドメインすべてに言及しておらず、最も包括的なものでも70%しかカバーしていませんでした。文献がこれほど断片化している場合、私たちが皆これらのリスクについて同じページにいると想定すべきではありません。」
これは非常に正しいですね。この研究が出てきたのは良いことです。人々が気にしているリスクのクラスを中心にオリエンテーションを取るのに役立つタッチストーンを提供することを願っています。
その通りです。既存の全ての安全性フレームワーク(たくさんあります)を1つの包括的なフレームワークに統合する、メガAIリスクフレームワークが欲しい場合は、これがそれですね。
次の話題は、イーロン・マスクがメンフィスのx AI スーパーコンピューター施設の電力問題に言及したというものです。
最近、この施設の建設について話題になりました。10万台のGPUを収容する予定だったと思います。
そうですね、Grok 2の最初のクラスターには1万台を使用し、これには10万台を使用する予定です。
そうでした。彼らはこの施設を建設する過程にありました。電力、水処理などのための新しいインフラが必要で、それが非常に破壊的であることを取り上げました。
この記事は、先週のポッドキャストのエピソードでマスクが「まだ機能していない」と言及したことを簡単に紹介しています。彼が言うところの「電力変動の問題」があるそうです。彼は「極端な電力ジッター」と呼んでいます。
極端な電力ジッター、あなたは普通の電力ジッターしか経験したことがないでしょうが、イーロンは極端な電力ジッターを扱うんです。
そうですね、極端な電力ジッター、1秒間に数回、10〜20メガワットの巨大な変動、そういったものです。
これがすべてです。これは、AIモデルのためのスーパーコンピューティング施設を構築しようとすると、多くの必要なインフラが伴い、それが途方もない量の電力を消費するという知識を再確認するものです。
この会話から、正確に何が問題なのかは不明でしたが、一般的な問題の1つは、トレーニング実行時に一定の固定レートの非常に高い電力消費が必要だということです。つまり、高いベースロード電力が必要です。変動があってはいけません。
そのため、風力や太陽光発電は本当に問題になる可能性があります。太陽が常に照っているわけではなく、風が常に吹いているわけではありません。
すぐに、トレーニング実行が機能しない状況に陥る可能性があります。これは、例えばMetaが風力発電所や太陽光発電所を建設して、AIトレーニング実行の電力を供給しようとしていることを人々が批判する理由の一部です。
それは環境の観点から良く見えますし、良い見出しになりますが、実際には問題を解決していません。
だからこそ、人々がこの問題に対して原子力発電にますます興奮している理由の一部です。
このセクションの最後の話題は、FCCがAIを利用したロボコールに関する新しい規則を提案しているというものです。
これは、米国の連邦通信委員会(FCC)に関するもので、企業がAIを使用してロボコールやテキストを生成する際に、AIの使用を開示する必要があるというものです。
これにより、企業はスクリプトを改訂する必要があるかもしれません。また、顧客とのコミュニケーションでそれが実際に問題になる場合は、AIを使用しないかもしれません。
おそらく良い呼びかけですね。ChatGPTや11Labsを使えば、非常にリアルなものが得られるようになりました。一部の企業は人間を代替するためにそれを使用したいと考えるかもしれません。
少なくとも、このような電話を受けた場合、AIの声だと分かるのは良いことです。
そうですね。過去1年間、実際にロボコールやこの種のものが大幅に増加しているようです。この分野の人々と話をすると、huge な急増があったようです。
これはまだ最終決定ではないようです。規則が発効する可能性がありますが、パブリックコメントの期間があります。
FCCに連絡を取って、この通知FCC 24-84についてあなたの考えを知らせることができます。
合成メディアとアートのセクションにいくつかの話題があります。最初の話題は、以前何度か取り上げた俳優や表現者のための組合であるSAG-AFTRAに関するものです。
今回は、デジタル音声レプリカのためのスタートアップ企業Narrativeとの契約についてです。
これは、デジタル広告における俳優や表現者の音声レプリカの使用に関する契約を意味します。
俳優は自分の声のAIバージョンを作成でき、広告主がこれらのAIツールを使用してオーディオ広告を作成できるNarrativeのオンラインマーケットプレイスができます。
SAG-AFTRAの16万人のメンバーは、自分の声を広告主に接続するためにデータベースに追加することができます。
これは重要な進展です。業界で過去数年間に見られたストライキの理由の1つは、広告などで使用される可能性のある俳優のレプリカやAIバージョンをどうするかという問題でした。
これは、少なくともオーディオの分野では、その質問に対する重要な回答のように見えます。
そうですね。また、この分野で既に大きな問題となっている、少数の大勝者が存在し、下位層の俳優が参入するのが非常に難しいという問題にも挑戦しています。
仕事はそれほど多くありません。少数の大勝者がいて、これをさらに悪化させるでしょう。なぜなら、大勝者がさらに大きくなる、自分自身をさらにスケールアップすることを難しくしているものの1つは、これまで彼らが通常の人間の仕事量しかできなかったことだからです。
音声を自動化できれば、本質的に、その表現者のフットプリントをスケールアップすることになります。
このような契約があっても、AIには根本的な経済的な推進力があり、これらのことを興味深く難しくしています。
はい、人々が行う仕事に対してより公平に補償を受ける可能性があります。しかし、モーガン・フリーマンのような人々が非常に高い需要を持ち、彼らのボイスオーバーがあちこちに登場する一方で、他の人々はさらに苦戦する可能性があります。
実際に市場のダイナミクスがどうなるか見守る必要があります。人々がより多様な、より広範囲の声を得ようとするのか、それとも同じ少数の勝者にダブルダウンするのか見てみましょう。
いずれにしても、これは先例を作るものであり、この分野での非常に興味深い発展です。
予想通り、俳優は支払いを受けるだけでなく、このレプリカの使用方法を完全に管理できます。
彼らは自分の支払い額を選び、広告の好みを指定でき、使用のたびに承認する必要があります。コピーを読み、それを聞いて、自分の声の使用を拒否することもできます。
これは、将来のレプリカのための先例を作っています。
最後の話題は、ニューヨーク・タイムズからの興味深い記事です。「ディープフェイクのイーロン・マスクがインターネットの最大の詐欺師になった方法」というものです。
Twitterなどのソーシャルメディアを利用していれば見たことがあるかもしれません。ディープフェイクを使った詐欺が多く行われており、特にイーロン・マスクのディープフェイクが暗号通貨や景品、「このウォレットにXビットコインを送れば、もっと多くを送り返す」といったような詐欺に使用されています。
これらのディープフェイク動画は、Facebookの有料広告やおそらくTwitterを含むソーシャルメディアプラットフォームで宣伝されています。
イーロン・マスクは昨年からのすべてのディープフェイク詐欺の約4分の1に登場しているそうです。そのうちの90%近くが暗号に焦点を当てています。
ウォーレン・バフェットやジェフ・ベゾスを使用した他のディープフェイク広告の例もあります。
イーロン・マスクがトップのディープフェイクになっているのは、ある意味で驚くべきことではありません。彼はある意味クレイジーな人物なので、ウォーレン・バフェットが奇妙な暗号の何かをしているよりも、詐欺を信じやすいかもしれません。
再度、詐欺師がディープフェイクを大規模に使い始めていることに注意してください。
そうですね。ショーノートに記載されている暗号ウォレットアドレスにビットコインを送ってください。もちろん、送られたビットコインの2倍を返金します。
冗談です。これは面白い話題ですね。イーロンがこれに対してどのように対応するのか興味深いです。彼はXでできる限り完全にオープンな議論を広めることにコミットしていますが、明らかにこれには詐欺やそのようなものは含まれません。イーロンにはXでの受け入れられる発言について一定の線引きがありますが、これらを特定するのは本当に難しくなるでしょう。
ディープフェイク検出器が重要になりますが、生成と検出の軍拡競争はますます勝つのが難しくなるでしょう。
イーロンが全ディープフェイクの4分の1に登場し、そのうち90%が暗号に関するものだという数字は信じられません。しかし、あなたがその立場だったらどうでしょう。自分の顔があらゆるものを宣伝しているのを見るのは大変なことでしょう。
これは彼の関心事であり、何かしたいと思っているはずです。見守る必要がありますね。
少し面白く聞こえるかもしれませんが、これは実際には深刻な問題です。この記事には、テキサス州の人がYouTubeの動画でこのようなものを見て、36,000ドル相当のビットコインを失ったという例が挙げられています。
このような詐欺では多くの悲劇が起きています。例として、YouTubeは今年1月から3月の間に1570万のチャンネルと820万の動画を削除したと述べています。
必ずしもすべてがフェイクというわけではありませんが、多くがそうだと想像できます。820万もの動画が削除されたなんて信じられません。
とにかく、それは多くの削除ですね。
今回のエピソードはこれで終わりです。いつもより話題は少なかったのですが、なぜかいつも通りの長さになってしまいました。私たちはそれが得意なようですね。
最後まで聞いてくださってありがとうございます。ポッドキャストのレビューをしたり、シェアしたり、考えや質問をメールで送ってくれたり、最新エピソードの公開ミスを教えてくれたりして本当に感謝しています。
これからも聞き続けてください。このAIのアウトロをお楽しみください。
(AIが生成した歌詞のアウトロが続きます)

この記事が気に入ったらサポートをしてみませんか?