先週はAIの世界で多くの出来事がありました。まず、テキストからビデオへの技術が爆発的に進化しており、特にLuma AIのDream Machineが注目されています。このツールはテキストや画像から高品質なビデオを生成でき、その物理的な一貫性もほぼ完璧です。一方、Runwayも新しいモデルGen-3 Alphaを発表しました。これは非常に高い精度でリアルなビデオを生成し、物理的な一貫性も保たれています。さらに、NVIDIAは3400億パラメータの新モデル「Nemotron-4 340B」を発表しました。このモデルは小規模なモデルの訓練用に合成データを生成する目的で開発されており、オープンソースで提供されています。スタンフォード大学の研究者たちは、ロボットが人間の動きを模倣する「Shadowing」システムを発表しました。これは、単一のRGBカメラを使って人間の動きをリアルタイムでクローンするもので、ボクシングやピアノ演奏などを高精度で再現できます。DeepMindとハーバード大学は、AIニューラルネットワークを使った仮想のネズミを開発しました。これは、生物力学的に正確なモデルを持ち、実際の神経活動と仮想神経活動を比較することが可能です。AppleはiOS 18、iPadOS 18、macOSにChatGPTを統合するためにOpenAIと提携しましたが、実際にはAppleの独自開発のAIが主に機能を担っています。最後に、OpenAIは退役した米陸軍将軍ポール・ナカサネを取締役会に迎え、サイバーセキュリティの専門家としての役割を期待しています。しかし、一部の人々はこれを規制の取り込みと見なしています。
公開日:2024年6月19日
※動画を再生してから読むのがオススメです。
先週、AIの世界でたくさんのことが起こりました。
すべてを網羅して、最新の情報をお伝えします。
今回は、ロボット、テキストからビデオへの変換、NVIDIAからの新しいモデル、仮想ネズミなど、さまざまな話題を取り上げます。
まず、テキストからビデオへの変換が急速に進んでいます。
Soraがテキストからビデオモデルの最高峰だと思っていたときに、新たな展開がありました。
私たちは今、まったく素晴らしい2つのテキストからビデオへのモデルを持っています。
まずはLuma AIをご紹介します。
これがDream Machineです。
テキストからビデオまたは画像からビデオを作成することができます。
こちらの例をご覧ください。
これらのビデオの細部を見てください。
それらは本当に美しいです。
少しの変形が見られますが、ほとんどの部分で物理学はビデオ全体を通してかなり一貫しています。
実際にレンダリングされたときの見本をこちらに示します。
最大で120秒まで取得できます。
さあ、始めましょう。
こちらにさらにいくつかの例があります。
この例では、ここでお見せしたいと思います。
風船が人のように見えるものから変形し、それから彼がそれらを持っているのが見え、そして背景の他の人たちの後ろに行くのがわかります。
間違いはまだいくつかありますが、Soraも多くの間違いをしていると思います。
こちらは素敵なピクサーのキャラクターです。
こちらはハリー・ポッターから出てきたようなものですね、多分。
ここにはリアルなものがあります。
ドリームマシンは、人々や動物、物体が物理世界とやり取りする方法を理解しています、つまり世界モデルです。
これらの例の中の人々は信じられないほどリアルに見えます。
これは特に印象的で、たくさんのディテールがあり、たくさんの物理が起こっています。
現在のいくつかの制限事項があります。
このポルシェが実際に前後に変形しているのがわかります。
かなり興味深いです。
見た感じ、新しいポルシェから古いバージョン、古い年のポルシェに変わっているようです。
動きはまだ少し壊れています。
コーギーの足が全く動いていないのがわかります。
テキストは苦労していますが、ほとんどのテキストからビデオ、テキストから画像の製品は、テキストとジャヌスという何かに苦労しています。私はそれについて聞いたことがありません。
でも、基本的にはここから極地クマが尻から出てきています。
でも、全体的には、本当に、本当に印象的です。
Twitterには、それを試している人々のたくさんの例があります。
今すぐ無料で試すことができます。
しかし、やるべきではありません。
テキストからビデオへの革命を本当に始めた会社で、長い間耳にしていなかったRunwayが、彼らの製品の第3バージョンを発表し、それは素晴らしいです。
Alvarez-Cintasさんがこれらをまとめてくれたおかげで、感謝しています。
Runwayは、Gen-3 Alphaという新しいAIビデオ生成モデルを発表しました。
これらの10の例を見てください。
禿げた男性は新しいかつらを持ってうれしいです。
その人は本物のように見えます。
かつらが下りてきます。
髪の物理学はほぼ完璧です。
少しのアーティファクトが出ているのが見えます。
かつらが下りるのを見てください。
ここで左側に小さなアーティファクトが飛んでいくのが見えます。
非常にわずかながらも、全体的に非常に印象的です。
ここには、セレンゲティを歩くドラゴンツカンがいます。
非常に印象的で、非常に一貫しています。
背景のすべての植物が良く見えます。
ここには、旧ヨーロッパの街で超高速で移動する列車の内部機関車の一人称視点があります。
私がわずかに気づいていることは、ここに吊るされている電力ケーブルが、ある程度出入りしているということです。
しかし、それ以外の建築物の物理学は非常に良く、本当に一貫しています。
これは、日本の都市で超高速で移動する電車の窓に映る女性の微妙な反射です。
これは、それのSoraバージョンとの直接比較です。
実際、両方を並べて再生するので、それを見ることができます。
どちらがより良いと思いますか?
次に、美術館の絵画を広い対称的なショットで撮影します。
カメラは絵画に近づいてズームインします。
こちらは、夜の古い路地の白い壁に手持ちカメラで素早く移動する懐中電灯の光が映る、"runway"と綴られた黒い落書きのシーンです。
こちらは、リオデジャネイロの路地を駆け抜ける宇宙飛行士のシーンで、私のチャンネルにとてもよく合うものです。
彼の腹部にある荷物の種類さえ見てください。
それらは動き回り、完全にリアルに見えます。
窓の中のすべてが動き、物理的に正しく見えます。
夜の滑走路都市を歩く巨大で奇妙な生物が1つの街灯で明るく照らされたエリアを見る窓の景色がここにあります。
ここにもう1つ、若い女性が車を運転して考え込んでいるクローズアップショットがあり、雨の車窓を通してぼんやりと緑の森が見え、すべての木々が一貫しています。
これは本当にすごく印象的です。
運転している人には確かに少し違和感がありますが、全体的にはとても良く見えると思います。
ついに、トンネルを通って活気ある水中空間にズームする一人称視点のショットがあります。
ここではたくさんのことが起こっており、非常に一貫性が必要です。とても素晴らしいです。
これらを試してみるのが待ちきれません。テキストからビデオへ、特にSoraは今、複数の異なる企業から重要な競争を受けています。
私があまり見たことがないものの一つは、オープンソースのテキストからビデオへのモデルです。
実際、私は、もしあれば、それらを知っているかどうかさえわかりません。それがあったとしても、おそらく数秒しか続かないでしょう。
私は本当に、これらのクローズドソース企業から見ているすべてと競争できるオープンソースのテキストからビデオへのモデルが登場することを願っています。
残りのストーリーでは、私が複数のビデオを作成した信じられないほどのロボットを製作しているFigure Roboticsの創設者であるBrett Adcockが、先週発表されたすべての最新のAIニュースをまとめたリストを作成しました。
まずはっきりと、Appleが大きな発表を行ったので、今すぐ見てみましょう。
すでにそれについては触れています。
そのビデオへのリンクを以下の説明に貼り付けます。
最もクールな機能の1つは、もちろんiPadの電卓アプリです。
しかし、さらに重要なのは、今では数式を描いて等号を描くだけで、自動的にその問題を解決してくれることです。
AppleとOpenAIは、ChatGPTをiOS 18、iPad OS 18、およびMac OSに直接統合するためのパートナーシップを発表しました。
実際に発表された内容について、深刻な誤解があるようです。
私はそれをすぐに明確にしたいと思います。
実際、私はこれについてXに特に投稿しました。
私はall in podcastとその中のすべてのベスティーズの大ファンです。
週末に最新エピソードを聞いていて、この一群の超成功した起業家や信じられないほど優れた人々が、AppleのAIの発表に関する事実を誤解しているのに驚かされました。
実際にここでそれについて話しています。
今週のエピソードで、Appleの知能に関する事実を間違えています。多くの人々やall inポッドキャストも、OpenAIがすべてを支配していると思っていました。そして、巨大なセキュリティ上の懸念があると誤解され、イーロン・マスクもツイートしていましたが、彼は何が起こっているのかを誤解していました。
ここに分解があります。
Appleは独自のAIを開発しました。
彼らはローカルで実行される30億のパラメーターモデルを持っています。
それがAppleのシリコンの美しいところです。
ローカル推論を実行する際に非常に強力です。
基本的には、携帯電話で行いたいことを支える30億パラメータのモデルがあります。
Siriを支えており、AIを使って実際にタスクを達成できます。より大きなタスクや複雑なタスクには、その後にAIを使用することができます。
必要に応じて、リクエストや推論をオフロードするためのプライベートクラウドサービスがあります。
このクラウドサービスは、30億以上のパラメータを持つ大規模なモデルを完全に所有し、運営し、Appleが作成しています。
OpenAIはそれとは何の関係もありません。
OpenAIが実際に関与するのは、1996年の選挙で誰が勝ったか、靴の結び方など、世界知識に関する質問がある場合です。あなたがそれを尋ねると、Appleはあなたに促し、ChatGPTに問い合わせると言います。
それを行いますか?
ChatGPTにプロンプトを送信する前に、実際に確認します。
それは単なるAPI呼び出し以上のものです。
みんなが言っているのは、それがOSに深く統合されているということです。
それはただ単に真実ではありません。
実際、私はその発表後の数日間で株価が急騰した理由が、市場の多くが彼らが発表したことの多くが素晴らしいと気づいたからだと信じていますが、同時に彼らはOpenAIに依存していると報告されているほどではないということも理解しています。
ここにSiriに入力する例の質問があります。
新鮮なサーモン、レモン、トマトがあります。それぞれの味覚に合った料理を含めた5コースの食事を計画するのを手伝ってください。
これは世界知識の質問と考えられるものです。
例えば、母親に遅れることを伝えるテキストを送る必要があるとか、このメールを要約して別の人に送信する必要があるとか、そういった場合、Appleのローカル推論が行うことです。
しかし、一度世界知識の質問があると、ChatGPTに送信するかどうかを尋ねます。
ChatGPTを使用して送信するようにしますか?送信して、そうして、これがChatGPTの回答です。
私はAppleのAIに非常に期待しています。
彼らが発表した内容には非常に感銘を受けました。
彼らは明らかに、自分たちの発表や実際の機能がどのような成果をもたらすのかについてかなり保守的でした。
しかし、私が信じているのは、世界知識に関する質問の必要性は実際にはかなり限られているということで、おそらく1日に数回程度ですが、私にとって非常に個人的でタスクを実行し、私の代わりにタスクを遂行できるAIが必要になるでしょう。
それによって人間は非常に生産的で超生産的になるでしょう。
そして、私の考えでは実際にはそれははるかに価値があります。
彼らが電話で実行しているローカルモデルは、彼らが金曜日に次に送信するChatGPT APIコールよりもはるかに価値があり、ビデオリリースで自分たちのモデルを公開します。巨大な340億パラメータモデルで、Nemetron 4 340Bと呼ばれるモデルファミリーは、NVIDIA NeMoとNVIDIA Tensor RT-大規模言語モデルに最適化されており、最先端の指示と報酬モデル、生成的AIトレーニング用のデータセットが含まれています。
このモデルが作られた目的は、より小さなモデルを教えることであり、オープンソースです。
明らかに、NIMS製品で推論を実行できると思いますが、ダウンロードしたい場合は完全に可能であり、再びその目的は、より小さなモデルをトレーニングするための合成データを生成することです。
これは、より小さなモデルのトレーニングにおける重要な進歩であり、実際には、公共のウェブ上にあるデータを超えるアクセス権を持たなかった多くの企業が実際に競争できるようになります。
例えば、OpenAIはRedditを含む多くの企業にプロプライエタリデータを提供していますが、もし合成データを生成できるようになれば、それは本当に強力なものになるかもしれません。
まだ試していません。
それについて、本当に興奮しています。動画を作る予定です。
次に、スタンフォード大学の研究者が紹介したNemetronについて具体的に何を見たいか教えてください。人間とロボットの影の能力を持つ人間型ロボットが、人間のデータを使用するために生まれました。
私たちは、単一のRGBカメラを使用したリアルタイムの影のシステムを構築し、人間の動きを複製するための全身ポリシーを作成しました。
以下は、ピアノ演奏、卓球、投げる、タイピングなどの例です。そして、完全にオープンソースです。
スタンフォード大学、ありがとうございます。
これは素晴らしい例です。そして、これらすべては実際には人間が行った何かのクローンであり、彼らはロボットの具体的な詳細を実際に詳細に説明しています。
彼らはインスパイアロボットの手を使用しています。
彼らはユニタリーロボティクスのH1ロボットボディを使用しています。
彼らはダイナミクセルモーターとレーザーウェブカメラを使用し、完全にオープンソースのハードウェアデザインを採用しています。
RGBカメラは、誰かが何かをするビデオを撮影し、それが体と手のポスト推定を行い、その後ロボットがどのように見えるかに変換し、実際にロボットに非常にクールな振る舞いをさせます。
次に、DeepMindとハーバード大学がAIニューラルネットワークによって動作する仮想ネズミを作成しました。
このビデオを見て、深層強化学習を行い、生体力学的に正確なネズミモデルを操作する方法を学び、実際の神経活動と仮想の神経活動を比較することができます。
これは基本的にシミュレートされたネズミです。
もし私たちがラットを行うことができたら、規模を拡大した場合、次に何が起こると思いますか?
この素晴らしいことは、それが実際にラットの神経行動を予測し、AIを使用していることです。
これは再び完全にシミュレートされた世界に向けたもう一歩です。
次に、OpenAIは、ポール・M・ナカサネが世界クラスのサイバーセキュリティの専門知識をOpenAIの取締役会にもたらすことを発表しました。
これは、引退した米国陸軍の将軍がOpenAIの取締役会に加わることを意味します。
彼らは、サイバーセキュリティの専門家として位置付けており、それが彼が参加する理由だとしていますが、私も含めて多くの人々がOpenAIに対する信頼を失ったと思います。私は、これを規制当局による支配と見ています。
私が考えているのは、彼らが安全保障機関に深く関与していることです。
NSA、陸軍、軍隊全般に関わっているが、これは私の考えでは単なる規制当局による支配であり、最近OpenAIがワシントンにロビー活動を専門に行う40人のチームを持っているということも読んだ。
私の考えでは、これは同じようなものであり、また、サム・アルトマンがOpenAIを非営利団体によって運営されない完全な営利企業に転換することを検討しているとも読んだ。
しかし、誰もそれに驚いていません。
もしOpenAIがこの道を進み続けるなら、彼らは皆の信頼を失うだけでなく、同時に数十億ドルの収益を上げている唯一のAI企業でもあります。
もしかしたら、最終的には私が間違っているかもしれません。彼らのモデルが最高であれば、おそらく世界の90%は他のことには興味を持たないでしょう。
彼らは次の安定したAIリリースであるStable Diffusion 3を行います。
私はそれを試してみました。
自分のマシンにセットアップする方法のチュートリアルを作成しようと考えていましたが、既に多くの情報があり、それほど優れていないということもあります。
実際には、それは全く驚くべきものではないと感じています。
もしあなたがそれを見たいと思うなら、コメントで知らせてください。もちろん、十分な人数が要求すれば、次は日本から作ります。
自律車両には新しいアプローチがあり、実際には人型ロボットが運転しています。
車両自体は標準的なものですが、中にいる人型ロボットは実際に周りを見回し、何をすべきかを解釈して車両を運転しており、それについて公開された完全な研究論文があります。
それをチェックすることをお勧めします。そして、私はこのDeep Seek Coder v2についての動画を作るつもりで、Deep Seek Coderは最高のコーディングモデルの1つであり、今では全く新しいオープンソースのv2バージョンがあり、ターボとコーディング、数学においてGPTを凌駕しています。
ここで横断的に見ると、ストライプの青い線の統計を見ると、GPT-4 Turbo、Gemini 1.5 Pro、Claude 3 Opus、Llama-3-70B、およびコードストロールを上回っていることがわかります。
これは最高の最高です。
これらはすべて、最高のコーディングモデルであり、ディープシーコーダーv2は、ヒューマン評価mbppプラス数学gsm 8kでそれらを上回っています。
実際のコーディングフレームワークの側面では、Live CodebenchとSui Benchの後、しかしLive CodebenchとSui Benchの後。
他のものよりも少し劣るかもしれませんが、私の意見では、今のところ最高です。
実際には、その後についての別のビデオを作る予定です。近日中にフォローアップビデオを公開します。
そのためにお楽しみにしていてくださいが、その性能を見てください。
それは非常に印象的です。
コーディングや数学で優れており、338のプログラミング言語をサポートし、128kのコンテキスト長を持ち、完全にオープンソースで2つのサイズがあり、2300億のパラメータを持っています。これは膨大ですが、APIアクセスと16億のパラメータバージョンも提供されています。
ぜひチェックしてみてください。
このモデルに関する私のビデオをお楽しみにしてください。
テストするのが待ちきれません。
このビデオを楽しんでいただけたら、いいねやチャンネル登録を考えていただけると嬉しいです。次のビデオでお会いしましょう。