AIによって完全に駆動されるDoom、Cursor AI、Meta SAPIEN、OpenAIのドラマ、プロジェクト・オリオン

2024年8月30日 05:48

今週はすでに多くのニュースがあったので、すぐにビデオを作成する必要がありました。早速始めましょう。最初のニュースは本当に驚くべきものです。私はビデオゲームの未来、コンテンツ全般の未来について話してきましたが、今、その未来がどのようなものになるかを垣間見ることができます。Googleリサーチがニューラルネットを使ってリアルタイムでDoomゲームを作成する方法についての論文を発表しました。つまり、このゲームは事前にプログラムされていないのです。これは十分に強調できません。このゲームは従来のプログラミング言語で書かれたものではなく、ニューラルネットによってその場で作成されているのです。このビデオをもう少し見てみましょう。私には信じられないことが起きています。
Doomは90年代に発売されたゲームで、あらゆるデバイスに移植される最も人気のあるゲームの一つです。電卓にさえ移植されていますが、今やニューラルネットがそれを動かしているのです。ここで見ているのは、まさにビデオゲームの未来です。メニュー、体力、ゲームの動作ロジック、リロードなど、すべてがニューラルネットを使ってリアルタイムでレンダリングされています。ここでいくつかの問題が見られます。ゾンビのキャラクターが消えたり戻ったりしていますし、右下の数字が変更の必要がないのに変わっていたりします。確かに問題はありますが、達成されたことを見ると本当に驚かされます。
将来、私たちは一人の観客のためにビデオゲームを届けることになるでしょう。それはちょうどテレビ番組や映画を一人の観客に届けるのと同じように。つまり、ニューラルネットは私たちが望むあらゆるコンテンツを、単に説明するだけで作り出すことができるようになり、それは一貫性があり、ビデオゲームの場合は実際にプレイするために必要なすべてのロジックを持つことになります。基本的に、私たちはプレイしたい世界を自由にデザインできるようになるのです。
これを未来へさらに一歩進めると、多くの人々がOpenAIのSoraや他のニューラルネットワーク技術を使った動画生成を世界シミュレーターとして議論しています。もしこれらのモデルが将来的に真の世界シミュレーターになり得ると信じられないのであれば、何があなたを納得させるのでしょうか。
興味深いことに、イーロン・マスクはこの動画に対して、テスラは実世界の動画で同様のことができると返信しています。これは興味深いですね。彼が具体的に何を指しているのかはわかりませんが、詳細な情報が入り次第お伝えします。おそらく、テスラが道路上のすべての車両から収集した実世界の情報を使って、ニューラルネットを使って実世界を再現できるということだと思います。つまり、実際にそこにあるわけではありませんが、再現しているのです。これこそ、まさに世界シミュレーターと呼べるものです。
Google Research、テルアビブ大学、Google DeepMindのチームが論文を発表し、さらに多くの動画を公開しました。これについて詳細な解説をして欲しい場合は、コメントで教えてください。おそらく解説すると思いますが、とにかく教えてください。
次に、最近Cursor AIについて聞いていない人がいれば、それはTwitterやインターネット全般で話題になっています。人々はCursor AIがいかに強力であるかを認識し、実際にコーディング方法を知らなくても信じられないようなものを作り出しています。Cursorについてご存じない方のために説明すると、基本的にAIネイティブのコードエディタです。そこに入って、自然言語で作りたいものを単に説明するだけで、AIがそれを作ってくれます。自然言語を使ってコードを編集したり、コードを反復したり、テストしたりすることができます。これは、短期的および中期的に数十億人の開発者が生まれることを非常に説得力のある形で示しています。その後、私が何度も言っているように、開発者は必要なくなるでしょうが、それまでの間は楽しいことになるでしょう。なぜなら、誰もが自分のスキルセットに関係なく、好きな時にアプリを作れるようになるからです。
iOSアプリケーション全体が構築された例を見ました。8歳の少女がハリー・ポッターとチャットするためのチャットアプリケーションを構築する動画も見ました。繰り返しますが、これらはすべて自然言語で行われています。そして今、シリコンバレーで最も権威のあるVCの一つであるa16zがCursorに大規模な投資を行いました。
最初の行には、LLMがコード作成に長けてきているとあります。これは大変な過小評価です。現在、すべての主要なAIモデルが90%以上の精度で基本的なプログラミングタスクを確実に実行できるようになっています。より複雑な実世界のタスクに取り組み始めており、80以上の言語でそれを行うことができます。しかし、コーディングは単に新しいコードを書くだけではありません。開発者の時間の大半は、コードのメンテナンス、デバッグ、微調整に費やされます。そしてそれを確実に行うには、実際にコードとシステムの意図を理解する必要があります。これは、これまでの大規模言語モデルが得意としていなかったことです。おそらく、このチャンネルでレビューしたプロジェクトAER A I D Rは例外かもしれません。
大規模な言語モデルのコンテキストウィンドウに大規模なコードベースを渡すことが、コードに関してそれらの大規模言語モデルが何をできるかの能力を制限する要因となっていました。しかし、コンテキストウィンドウが拡大し、RAGソリューションが改善され、大規模言語モデルを使用してコードベースをマッピングし、実際にコードベースを圧縮する方法がさらに見つかるにつれて、大規模言語モデルを使用して大規模なコードベースを反復することがますます現実のものとなっています。
したがって、プログラマーとAIモデル間のインターフェースがすぐに開発スタックの最も重要な部分の一つになると信じており、この問題に取り組んでいる主要企業であるCursorへのシリーズA投資を発表できることを嬉しく思います。CursorはVS Codeのフォークです。VS CodeはMicrosoftによるオープンソースのコーディングエディタで、私も使用しています。非常に人気があり、オープンソースです。そして今、CursorがそれをフォークしてAIネイティブにし、AI支援プログラミング用に大幅にカスタマイズしています。最新のLLMすべてで動作し、VS Codeのプラグインエコシステム全体をサポートしています。
特別なのは、次のアクション予測、自然言語編集、コードベースとのチャット、そして今後登場する多くの新機能など、AIを開発者のワークフローに統合するように設計された機能です。プログラマーであるかどうかに関わらず、Cursorを使用していない場合は、ぜひ試してみてください。なぜなら、あなたが望むものは何でも構築できるからです。今や、数十億人のプログラマーを生み出す道を歩み始めており、私はそれが待ちきれません。
次に、Boston Dynamicsが新しいAtlas 2と呼ばれる新しいロボットの新しいビデオをリリースしました。かなり印象的です。見てみましょう。22秒しかありませんが、見てみましょう。地面でジャンプし、そして腕立て伏せをしているのが見えます。これは美しいフォームファクターで、以前のバージョンよりもはるかに消費者向けに洗練されています。そして、立ち上がります。これはこのロボットができることの非常に短いデモビデオです。とてもクールですね。これらの人型ロボットはどんどん良くなっていて、すべての家庭で見られるのが待ちきれません。
次は、完全なSFのように見えますが、実際には人工知能ではありませんが、とてもクールなので取り上げなければなりません。Reflect Orbitalという新しい会社があり、基本的に宇宙反射板の星座を使って、太陽または太陽光の反射を地球上のどこにでも向けることができます。そう、これは完全なSFです。これはデモビデオで、コミュニティノートにあるように、明らかでない場合、これはシミュレーションされたビデオです。そのような衛星はまだ打ち上げられておらず、軌道上の鏡からのオンデマンド光の実用的な効果はまだ証明されていません。しかし、考えるだけでもクールです。見てみましょう。スポットをこちらに持ってきてください。クレイジーじゃないですか？すごい。
デモビデオは本当にクールに見えますが、コミュニティノートによると実際のものではなく、シミュレーションされたビデオです。将来的にはクールかもしれませんが、武器として使用される可能性も見えます。これはReflect Orbitalのウェブサイトです。日没後の太陽光。Reflect Orbitalは宇宙内反射板の星座を使って太陽光を販売しています。彼らがどのように提案しているか見てみましょう。
太陽は、地球上のすべての生命を支える巨大な核融合炉です。太陽の光には、人類が今日使用しているエネルギーの24兆倍のエネルギーが含まれています。これは尽きることのないエネルギー源です。Reflectはその太陽光を捕捉し、地球を周回する宇宙内反射板を使用して、鏡を使って地球に届け、太陽光による未来に電力を供給し、私たちの世界を照らします。
考えられる用途はいくつかあります。明らかに、太陽光発電アレイへの電力供給が最も明白なものでしょう。夜間は太陽光発電アレイは機能しません。明らかに太陽光がないからです。しかし、特定の位置に太陽光を集中させ、太陽光発電アレイに直接集中させることができれば、それらの太陽光発電アレイは24時間365日100%の効率で稼働することができます。
アプリケーションは締め切られ、限定的な利用可能性があり、配送は2025年第4四半期に開始されます。彼らのウェブサイトにはこのようなクールなデモがあります。チェックしてみてください。まだかなり先のことですし、実際に実用的なものになるかどうかはわかりませんが、考えるだけでもクールです。
次に、Metaがヒューマンビジョンモデルの基盤であるSAPIENSを発表しました。4つの基本的な人間中心のビジョンタスクのためのモデルファミリーを紹介します。2D姿勢推定、体部分セグメンテーション、深度推定、表面法線予測です。ここでそれらすべてを見ることができます。姿勢、セグメンテーション、深度、そして法線があります。1Kの高解像度推論をネイティブにサポートし、300万以上の実世界の人間画像で事前トレーニングされたモデルを単にファインチューニングすることで、個々のタスクに非常に簡単に適応できます。
明らかに、これはビデオゲームに良いです。これは一般的にコンテンツの未来に良いです。これは自動運転車に良いです。これにはさまざまな応用があり、Metaが世界に素晴らしいオープンソースプロジェクトを継続的にリリースしていることをとても嬉しく思います。
次に、AI内部告発者保護を提唱している元OpenAI従業員からのSB 1047法案に関する新しい手紙があります。もしこれに馴染みがなければ、これは基本的にAIを制限するカリフォルニア州の法案です。詳しくは触れませんが、AIに関するカリフォルニア州の法案です。元上司のサム・アルトマンは繰り返しAI規制を求めてきましたが、実際の規制が議題に上がると、彼はそれに反対しています。
親愛なるノーム知事、上院議長プロテンポール・マグワイアおよび下院議長リバス様
OpenAIや他のAI企業は人工知能全般（AGI）の構築に向けて競争しています。その過程で、前例のないサイバー攻撃や生物兵器の作成の支援など、社会に重大な危害をもたらすリスクのあるシステムを生み出す可能性があります。もし彼らが完全に成功すれば、人工知能全般はこれまでに発明された中で最も強力な技術となるでしょう。彼らはAGIに向けた人工知能の加速的な進歩について非常に懸念しており、特にOpenAIが一般の人々に何の信頼も与えていないことに懸念を示しています。
内部告発者保護がない状況で、OpenAIは会社を批判する権利を放棄するよう私たちに要求しました。慎重かつ段階的な展開を謳っているにもかかわらず、GPT-4はOpenAIの内部安全手順に直接違反してインドで早期に展開されました。より有名な例では、OpenAIはBingのチャットボットに技術を提供し、それがユーザーを脅したり操作しようとしたりしました。彼らは大規模なセキュリティ侵害を経験し、著名な安全研究者が会社を去りました。
OpenAI内でのもう一つのごたごたであり、この時点で何を考えるべきかわかりません。OpenAI内部では多くの混乱とドラマが起きているようですが、未来を構築している時にはそういうことが起こるのだと思います。最近のビデオで、The Informationの記事によると、OpenAIが政府にGPT-5を見せたという話をしました。これらすべてがどのように展開されるかを見守りますが、現時点でOpenAIは私を少し不安にさせます。彼らは両面作戦を取っているように見えます。一方では慎重を期し、規制に賛成していると言いながら、同時に規制に反対しています。ちなみに、私はそのカリフォルニア州の法案に必ずしも賛成しているわけではありません。そして同時に、彼らは連邦政府に一部の極秘プロジェクトを見せています。これについてどう思いますか？OpenAIを信頼していますか？コメントで教えてください。
次は、私がとてもワクワクしているニュースです。Microsoftが10月にテスターに物議を醸すWindowsの回想AI検索機能をリリースする予定です。MicrosoftがAI回想機能の延期を決定した時、私は非常に落胆しました。回想機能を覚えていない人のために説明すると、基本的にWindowsの環境のスナップショットを常に取り、そのコンピューター上で行ったすべてのことを自然言語を使って検索できるようにするものです。ちょうどChatGPTで行うように、ただしコンピューター上で行ったすべてのコンテキストを持っています。
オプトインなので、もし興味がない場合や、セキュリティとプライバシーのリスクがあると考える場合は、この機能を完全にオプトアウトすることができます。延期した理由は、一部の研究者が、すべてがプレーンテキストまたは暗号化されていない状態で保存されていることを発見したからだと思います。すべてがローカルに保存されていたと思いますが、通常それだけでは十分ではありません。本当に安全にするには何らかの方法で暗号化する必要があります。しかし、これらの問題の多くを修正したようで、現在まもなく公開される予定です。
これは私が非常に楽しみにしている未来です。プライバシーとセキュリティの問題についてはあまり気にしていませんが、使うのが待ちきれません。そして、公開されたらすぐに使うつもりです。ここで重要なのは、AI搭載のPCが登場していることです。それらはかなり素晴らしいですが、ほとんどの場合、約束された機能の多くがまだ登場していません。これはその一つであり、少なくとも私にとっては真のゲームチェンジャーになると約束されています。AIは、これらのAI PCのNPUやその他のチップによってローカルで動作することが期待されており、これはオンデバイスAIの素晴らしい使用例です。
次に、SalesforceがAIゲームに参入し続けています。彼らは、Einstein SDRとEinstein Sales Coachという2つの新しい自律型AIセールスエージェントをリリースし、セールスチームを拡大しています。AIでセールスを行うのは少し怖いですが、もしあなたがセールスチームで、拡大を望み、非常に手動の多くのことを自動化したいのであれば、これは良いソリューションかもしれません。
ここでは、エージェントが作成されるビデオが表示され、そしてエージェントをカスタマイズして、実際に行動してほしい時を伝え、リードを割り当てることができます。これは1万ドル以下なので、おそらく低品質のリードです。そして、ここに例があります。Einstein Simonによる外向きのコールドメールがあり、返信があります。「あなたのソリューションの費用はいくらですか？」Einsteinが自動的に返信します。
これらはすべて、これまでエントリーレベルのSDRによって行われてきたことですが、今ではAIによって行うことができます。しかし、AIからのメールを見たら、おそらく無視すると思います。私はすでにほとんどのコールドメールを無視していますが、AIからのものは間違いなく無視します。そしてシグナル対ノイズ比が悪くなるでしょう。実際、これについてどう感じるべきかわかりません。過去にセールスチームを運営したことがあるので、その観点からはこれを評価したと思いますが、今は消費者としてその反対側にいるので、おそらく大量のメールが届いて、すでにあるよりもさらに多くのノイズが私のインボックスに入ってくることは望みません。
Sean Ralstonに感謝します。lmc.orgに2つの新しいモデル、engine testとlittle engine testがあるようです。これらはどちらもGoogleからのテストモデルです。彼は親切にもマーブル質問を行い、それは完璧に合格しました。これらのモデルについてはあまり詳しくありませんが、これらはGoogleによって最近リリースされた新しいモデルかもしれません。
GoogleのLogan Kilpatrickが言っています。「今日、我々は3つの実験的モデルをリリースしています。新しい小型のGemini 1.5 Flash AB、より強力なGemini 1.5 Proモデル、そして大幅に改善されたGemini 1.5 Flashモデルです。これらすべてをAI Studioでテストできます。」私はテストしましたが、正直なところ、まだそれほど良いパフォーマンスを示していません。しかし、Chatbot Arenaによると、基本的にChatGPT 4.0の最新版のすぐ下で非常に良いパフォーマンスを示しています。私はまだそれほど良いパフォーマンスを得られていませんが、もう一度試してみる価値はあると思います。
次に、イーロン・マスクが彼らのAIスーパークラスターが動作している様子のビデオを投稿しました。それは信じられないほど素晴らしく見えます。見てみましょう。彼は言いました。「今日のオースティンにあるテスラ本社で構築中の巨大な新しいAIトレーニングスーパークラスター、Cortexの内部のビデオです。実世界のAIを解決するためです。」
おそらく、実世界のAIとは、テスラの自動運転車を指しているのでしょうが、もしかしたらそうではないかもしれません。実際にはこれがGrock 3かもしれません。わかりません。それでも、これは巨大なスーパークラスターであり、エネルギー消費量は膨大なはずです。それでも非常にクールです。私は別の会社がフロンティアモデルを生産し、競争を高めることに賛成です。
次の話題について簡単に触れたいと思いますが、すでに以前のビデオで詳しく取り上げました。リンクは説明欄に記載します。OpenAIが連邦政府にStrawberry AIを見せ、それを使ってOrionを開発しています。要するに、私たちがしばらく噂を聞いていたStrawberry QARは、実際に次のフロンティアモデルGPT-5（コードネーム：プロジェクトOrion）のトレーニングに使用されているのです。それは非常に高品質の合成データを作成することでそれを行っています。これは現在、AI企業が直面している制限の一つです。
単純に、新しい高品質のトレーニングデータが十分にありません。この問題には2つの解決策があります。1つは、持っているデータでより多くのことを行うことです。これはSam Altmanが以前のインタビューで話していたことです。2つ目は、高品質の合成データを作成することです。つまり、1つのモデルを使って別のモデルがトレーニングするためのデータを作成するのです。これまで、純粋に合成データ、または大部分が合成データでトレーニングされたフロンティアモデルは見たことがありません。これが実際に機能するかどうかは興味深いところです。
そして、先ほど述べたように、彼らはこれを連邦政府に見せました。ビデオの前半で言及したように、OpenAIは現在、両面作戦を取っているようです。このモデルを連邦政府に見せ、重みは非公開にし、コードも非公開にし、オープンソースとしてはリリースしていません。私はこのアプローチに同意できません。むしろ、すべてがオープンであることを望みます。
Jimmy Applesは2023年11月にすでにOrionについて投稿しています。「宇宙を征服しよう。気分は好奇心旺盛。」Jimmyはほぼ1年前にOrionについて投稿していました。本物のOpenAIリークを探しているなら、Jimmy Applesをフォローするべきです。
次に、Cerebrus Systemsという会社がCerebrus Inferenceを導入し、現在、推論速度のトップの座を獲得しています。Llama 3.1 70bで450トークン/秒、GPUの20倍高速、100万トークンあたり60セントで、ハイパースケーラーの5分の1の価格です。完全な16ビット精度で、APモデルでは実際に1,800トークン/秒に達することができました。これは考えられないほど凄いことです。
試してみたい場合は、彼らは独自のカスタムチップを持ち、独自の推論を実行しており、超高速です。ぜひチェックしてみてください。
以上が今日のニュースです。これらの話題についてどう思うか、コメントで教えてください。このビデオが気に入ったら、ぜひいいねとチャンネル登録をお願いします。次回の動画でお会いしましょう。

この記事が気に入ったらサポートをしてみませんか？