AIニュースはますます異常になっている!大量生産ロボット、OpenAIの噂の裏側、そして非現実的なAIビデオ...
AIニュースはますます異常になっています。まず第一に、ユニティー・ロボティクスがG1を発表しました。これは新バージョンのロボットで、非常に機敏で強力、そして運動能力が高いです。ほぼ量産化の準備ができているといってもいいでしょう。マリオスタイルのパワーアップも可能で、頭でジャンプして当たることができます。フル量産に入れば、これらがいかに安価になるか驚かれるかもしれません。完全に自動化されたロボットの未来は、私たちが最初に予想していたよりも近いかもしれません。
他のニュースでは、ブルームバーグがOpenAIとサム・アルトマンの噂の裏側を取り上げています。ユーザーは新リリースを待っている状況です。これを追っていない方のために説明すると、これは全体的な出来事でした。ご存じかもしれませんが、X(旧Twitter)上には「I rule the world」や「Jimmy apples」のような半匿名のアカウントがいくつかあります。「I rule the world」はストロベリーマンで、「Jimmy apples」はただのジミー・アップルズですが、この記事を書いた記者が言うには、「今週のニュースレターでは、AIの噂の裏側について書きました。その過程で編集者にストロベリーマンとジミー・アップルズについて説明するのが本当に楽しかったです」とのことです。Xツイッターの深い深みに潜むAI住民たち、そして様々なshitpostポールが、今やブルームバーグのような出版物でテクノロジーを取り上げる主流の記者たちと重なり合っています。想像するとおり、とても面白い状況です。私たちはこの一部を取り上げ、彼らのラップアップを見ていきます。
最後に、AIビデオの世界で新しいショーケースがいくつかあります。Soraによる新しいショーケースがありますが、もちろんこれはまだリリースされていません。また、Runway mlが新しいAlpha turboモデルからいくつかの驚くべきAI映像をリリースし、OpenAIに匹敵する勢いを見せています。それも見ていきましょう。
これらのAIニュースの小話で週を始めるのが楽しいと感じたら、ぜひ親指を立ててください。このチャンネルで親指を立てることは、マリオでマリオのパワーアップに頭をぶつけるのと同じように、あなたにとって効果があります。それでは、始めましょう。
まず第一に、ユニティーです。以前の動画で取り上げましたが、ユニティー・ロボティクスはとても興味深く、間違いなく先を行っています。他のロボティクス企業ほど注目を集めていないと思います。例えばテスラのオプティマスや、OpenAIが出資しているFigure.aiのようなスタートアップがあります。Figure.aiは何らかの形でGPT-4か、その派生版をロボットに組み込んでいます。しかし、このロボットは本当に興味深いです。こちらはこのロボットの別のショットです。
モデル名はG1で、興味深いのは価格が116,000ドルからということです。これは大量購入の場合だと思います。量産向けの価格でしょう。1台だけを「棚から」買えるかどうかは分かりませんが、この価格帯は非常に意味があります。なぜなら...ああ、神様、私たちはまだこれをやるべきなのでしょうか?いつも心配になります。分かっています、これはロボットで感情はないのですが、もし何か変わったら...本当にこの映像を外に出したいのでしょうか?AIモデルはこの映像で訓練されることになります。ただの注意喚起です。
ここでは、マシン全体のホロー・ジョイント配線を紹介しています。これによりいくつかの興味深いことができます。ご覧ください。この小さなベンチに座って、自分自身を小さな形に折りたたんでいます。これにより、このように運ぶことができます。35キロは77ポンドです(帝国単位を使う友人のために)。これはとてもいい重量だと思いませんか?重すぎず、軽すぎず。これを持ち上げている男性はかなり印象的です。この男性は見た目以上に強いですね。ただ、77ポンドのものを背中で持ち上げるべきではないと言わざるを得ません。たいていはこのように持ち上げて済むかもしれませんが、いつか後悔することになるでしょう。誰が分かるでしょうか。
ロボットは家庭防衛メカニズムとしても二重の役割を果たします。信頼できる...ワオ、ワオ、それはかなりクールでした。信頼できるカタナSLスタッフを取り出し、様々な侵入者から家庭を守ることができます。冗談です。彼らはただこの物の様々な器用さを見せているだけです。正直言って、私はかなり感銘を受けています。これは等速です。スピードアップされているように見えますが、違います。これは等速です。待ってください、彼はそのボトルを割っていません。これはちょっと狂っています。これはコーラのボトルです。彼はただ空手チョップで横から叩いて、ボトルを割らずにキャップを飛ばしています。もう一度見てみましょう。ワオ、これは本当に狂っています。
パンケーキやフレンチトーストを裏返したり...何であれ...興味深いことに指で自分を叩いています。彼らは人間のような手の代わりに3本の指を選びました。ここで説明されているように、人型ロボットは複雑な構造と非常に強力なパワーを持っています。これを見ていると、様々な戦時や軍事応用を想像せざるを得ません。スタッフは明らかに自己防衛や攻撃に使用できます。物を叩き壊すなど...一般的に、家でクルミを開ける時にハンマーで叩き潰したりはしません。ナットクラッカーなどを使いますよね。これはコーラの缶の開け方ではありません。通常、トーストを皿に投げ入れたりもしません。トングで拾うか、滑らせて入れたりしますよね。しかし、溶接できる精度と正確さは、正直言って狂っていると言わざるを得ません。
ここでは、いくつかの障害物を乗り越えています。知覚の深い強化学習を行っています。階段を上り下りしたり、様々な障害物を乗り越えたりできます。ジャンプする時、上下に動く様子がとても機敏に見えます。手足や手が動いて、安定を保ち、バランスを取っているようです。ここで他のロボットにぶつかっていますが...はい、かなり印象的です。足をほと�んど下から蹴り上げられても、素早く回復できるのが分かります。
上部を見ると、彼らが開発した様々なバージョンとプロトタイプが表示されています。今日見ているのはG1で、B2とH1も見てきました。以前にそれらを取り上げましたが、どちらもその時点ではとても印象的でした。それほど昔のことではありませんが。これらの小型ロボット、例えばGo1やB1は、価格が10,000ドル未満だったと思います。
ここで動作している犬のようなものがそれです。歩く脚と車輪付きの両方のバージョンがあります。その動画では明らかに車輪で歩いていますが、それはクールですね。はい、これは興味深いです。車輪で進むこともできますが、必要に応じて脚を持ち上げて様々な障害物を乗り越えることもできます。それは印象的に見えます。階段を上ったり...正直言って、これはかなりクールで見ていて楽しいです。ほとんど階段を飛び降りるように、ソファの上を歩いて...ここでは前脚、前輪だけでバランスを取っています。
ここでは多くのことが起こる可能性があります。きっと誰かが「これがAIビデオだったらどうだ?これが全て偽物だったら?」と言うでしょう。もちろん、それは全て可能です。しかし、私たちはこの映像を見てきました。これは同じユニティーです。UC San Diegoの学生たちが取り組んでいるようです。これは2024年3月2日に私が作った動画の一つです。La Jollaやその周辺の場所でUC San Diegoキャンパスを歩いているのが見えます。多くの人々が近くにいます。これは現実です。現地で撮影されています。たくさんの人々が写真を撮ったり、録画したりしています。私たちはかなり長い間、これの開発を見てきました。
このモデルは当時90,000ドルで発表されました。価格設定においても信じられないほどの飛躍です。90,000ドルでさえ、このようなものとしては信じられないほど高価というわけではありません。ピックアップトラックの中にはその価格帯のものもあります。建設関係のビジネスを持っていれば、そのような価格帯の機器があるでしょう。つまり、この世界から外れているわけではありません。しかし、16,000ドルというのは全く別のレベルです。もちろん、実際に何ができるのか、製造施設や家庭での使用でどのような価値を提供できるのか、正確に見る必要があります。しかし、16,000ドルは多くの場所で使用するには非常に手頃な価格に思えます。
私は、このようなロボットが全ての家事をしてくれる場合、月々いくら払うかについてアンケートを投稿しました。家事だけです。つまり、食器洗い機に食器を入れたり出したり、洗濯をしたり、服をたたんだり、全てを掃除したり、掃除機をかけたり、ゴミを出したりするだけです。私はそれを月々の支払いとして表現しました。多くの人がそれに問題を感じました。「なぜ単に買わないのか」と。しかし、ポイントは、多くのビジネスが1,000台、10,000台必要な場合、一度に全部を購入するための資本がない可能性があるということです。
多くのビジネスは、これらをリースしたり、ローンを組んで月々の支払いをし、これらをできるだけ早く生産に投入するというアプローチを取るでしょう。彼らにとって、ロボットから得られる月々の価値が月々の支払いよりも大きければ、それで儲かるわけです。理にかなっています。116,000ドルのロボットを、例えば60ヶ月のローン期間で考えてみましょう。これは5年です。車のローン計算機のようなものですね。月々335ドルを支払うことになります。
このロボットに月々335ドル以上の価値を提供させることができますか?週7日働くと仮定して、1日24時間ではないかもしれません。充電のためのダウンタイムがあるでしょう。他のところで見た別のロボットは、24時間サイクルごとに4時間の充電時間が必要でした。つまり、20時間の作業、4時間の充電です。もちろん、より複雑で集中的な作業であれば、より頻繁に充電する必要があるでしょう。
半知能的で、ビジネスに有益な特定のタスクを学習させることができると仮定すると、月々335ドル以上の価値を得ることができますか?答えがイエスなら、これらの需要は基本的に無限です。月々のコストよりも多くのお金を稼ぐか節約できるなら、誰もが一台欲しがるでしょう。例えば、家政婦やメイドに月500ドル払っていて、このロボットが全てを335ドルでやってくれるなら、私はこれを買います。これは単なる例ですが、ポイントは明らかに、価格が安ければ安いほど、需要は高くなるということです。116,000ドルでも、それが有用であれば、需要は急上昇する可能性があります。
他のニュースでは、ブルームバーグがこのような見出しを掲載しています:「OpenAIのアルトマン、ユーザーが新リリースを待つ中、噂を煽る」。彼らが見出しを書く方法はいつも興味深いです。全てを短い見出しに詰め込まなければならないからです。私が今まで見た中で最も変な見出しは「Foot heads arms body」でした。これは実際の見出しです。マイケル・フットという人が、ある種の核兵器委員会の委員長になったことを伝えるものでした。つまり、「Foot heads arms body」というわけです。
さて、「OpenAIのアルトマン、ユーザーが新リリースを待つ中、噂を煽る」。全ては実りある噂から始まりました。OpenAIのサム・アルトマンは先週、粘土鉢に植えられたイチゴの写真を投稿し、「夏の庭が大好きだ」というキャプションを付けました。これについては既に取り上げましたが、「ストロベリー」というモデルに関する噂がありました。これは以前にリークされた「QAR」についてのニュースと同じアイデアだと思われます。
私たちはそれについて深く掘り下げましたので、ここでは詳しく取り上げませんが、基本的にQAR(Quiet Star)については、スタンフォード大学のいくつかの研究論文が公開されています。そのアイデアは、これらの大規模言語モデルに自己改善を促し、反復的に自身の推論スキルを向上させることです。OpenAIのストロベリー、別名QARは、そういったアイデアを念頭に置いて開発されているモデルだと考えられていました。数学能力に優れ、推論能力に優れたモデルです。
そのため、アルトマンがイチゴの写真を投稿したとき、CEOが自分の緑の親指を自慢している以上のものがあると考えられたのです。もちろん、これが噂の発端となりました。誰もが、OpenAIが待望の技術的ブレークスルーをまもなくリリースすると宣言し始めました。確かに、誰かが「イチゴが咲くまで、または実がなるまでの時間はこれくらいだ」というような投稿を見たのを覚えています。だから、そのモデルはその時期にリリースされるだろうと。誰にも分かりません。
アルトマンは、X上の二つの匿名アカウントに返信することで、さらに噂に油を注ぎました。一つは「ストロベリー・ガイ」と呼ばれるもので、これは「I rule the world」のMoのことです。人々は彼を「I rule the world」と呼んでいます。そして、もう一つは「Jimmy apples」です。これらのアカウントは、スタートアップの計画に関する未確認の予測と分析を投稿しています。
ここで重要なのは、Jimmy applesとI rule the worldが同じではないということです。Jimmy applesはかなり長い間これを行ってきました。過去には、彼の予測のいくつかが非常に早い段階で正確だったように見えることがありました。彼が何かを投稿してから1〜2ヶ月後に、それが大きな話題になり、実際に起こるのを見ることがよくあります。少なくとも私が見る限り、彼は何らかの内部情報を持っているように思えます。おそらくベイエリアの文化の深部にいて、多くの人々を知っているか、あるいは単に内部に近い立場にいるのかもしれません。あるいは、単に内部情報をリークしているのかもしれません。私には分かりませんが、彼はX上のAI圏で一定の信頼性を築いていると思います。
I rule the worldは新しく、人気が爆発的に高まりました。ここで彼女は次のように述べています:「ストロベリー・ガイのアカウントはすぐに数千人のフォロワーを獲得し、Perplexityの創業者兼CEOであるアーバン・シナス、Y Combinatorのバッグ・コメンタリーCEOのギャリー・タン(彼の話題はいくつか取り上げました)、そしてラッパーのMCハンマーの注目を集めました」。彼らが交流しているのに気づきました。OpenAIの従業員の何人かもイチゴに言及する投稿をし、さらに噂を煽りました。
ちなみに、彼はここで挙げられている以上に多くの人々と交流しています。AI分野の内外の有名人や、AI分野の外部にいるが人気が爆発した人々など、Xで多くの大物と交流しています。
彼らは、未発表のApple製品についての噂と比較しています。新しいApple製品がリリースされる前には、多くの噂や憶測があります。彼らは言います:「しかし、AppleのCEOティム・クックは、ソーシャルメディア上の匿名の噂を広める人々に返信する時間を費やしていません」。
私はよく分かりませんが、サム・アルトマンがXでシットポストをして、全体的にトロールのようになることは、私にとっては非常に楽しいです。彼のそういった面が大好きです。私たちは皆、個人的な欠点や完璧ではない性格特性を持っていますが、それらは本当に強力なXゲームを持つことで補われ、改善され、償われると感じます。これをあまり真剣に受け取らないでください。
ここで彼女は、これが何を意味するのか、なぜこれが起こっているのかについて推測し始めています。彼女は言います:「アルトマンが関与する理由はたくさんあります。最近数ヶ月間、このスタートアップは一連の高位幹部の退職に直面しています」。多くの人々がAnthropicに移ったり、自分の会社を立ち上げたりしているのを見てきました。もちろん、Anthropicが追いついたり、他のモデルが追いついたりしています。OpenAIはリーダーボードのトップに留まるために何かを継続的にリリースしています。それは正直言って印象的ですが、確かに彼らと他の人々との間にあった大きなギャップは縮まっています。
もちろん、様々な論争や遅延もありました。Soraはその一つです。Soraには確かに多くの遅延がありました。高度な音声モードも繰り返し延期されています。
ソーシャルメディアへの投稿に加えて、アルトマンと彼の副官たちは、GPT-5のイベントリリースを繰り返し宣伝し、それが大きな飛躍になると言っています。これについて話すのは面白いです。なぜなら、このAIブームの多くは、チャットGPTから始まったと考えられるからです。そしてGPT-4です。これら二つのことが、この競争の大部分を引き起こしました。
例えば、これはNVIDIAの株価です。チャットGPTは2023年11月20日か27日頃にリリースされました。その時、NVIDIAは48ドルでした。その時に数株を買っていたなら、自分を褒めてあげてください。その後、主にAIのため、AIチップの需要のため、2倍か3倍に跳ね上がりました。
しかし、考えてみてください。もしOpenAIがGPT-5をリリースしたとして、次世代モデルをリリースしたのに、それが良くなかったら?それは市場に本当に冷却効果、冷却効果をもたらすと思います。今日でも、皆が彼らを先駆者のように見ています。彼らに何もなければ、人々は進歩がどれほど急速に続くのかを疑い始めるでしょう。
もちろん、OpenAIもストロベリー・ガイもジミー・アップルズも何もコメントしていません。OpenAIはいくつかの新しいモデルをリリースし、チャットボットアリーナのトップに上がりましたが、大きなものは何もありませんでした。
もちろん、多くの人々がソーシャルメディアの噂にうんざりしていました。アレックス・ボロフは「もうこれにうんざりだ」と言いました。彼はXでスペースを開催し、この熱狂を冷ますことを試みました。ストロベリー・ガイは聞いていて、絵文字で反応しましたが、自分の正体を明かすことはありませんでした。ボロフが噂に水を差そうとしても、彼は言います:「アルトマンが既に開発した、より強力で破壊的な技術について、公衆を準備しようとしている可能性があるという考えには真実があるかもしれません」。彼は言います:「正直、分かりません。サムも人間で、ただ少し楽しみたいだけかもしれません」。
私が以前から言っているように、このAIのトピック全体に関して、私たちが知っていることもあれば、単なる噂や憶測にすぎないこともあります。これを追いかける人々の一部は、100%確認されていない情報が投稿されるのを本当に嫌がります。彼らは噂を聞きたくないし、憶測を聞きたくありません。ただ私たちが知っていることだけを聞きたいのです。それは完全に理解できます。私自身と、私が知っている多くの人々にとって、これらの発展を見守るのは楽しいことです。
このようなドラマが目の前でリアルタイムに展開されるのを見るのは、比較的新しい現象です。人類の歴史の大部分でこのようなものは見られませんでした。イーロン・マスクとサム・アルトマンがOpenAIをめぐって訴訟を起こした時、私たちは裁判書類を見ることができるだけでなく、彼ら自身がTwitterやXで起こったことについての自分たちのバージョンを投稿するのを見ることができます。
それだけでなく、あなたも私も、誰に注目するか、誰をXでフォローするかを選ぶことで、ある程度参加し、何が起こるかに投票することができます。物事を構築し、生産している人々は、起こっている会話を見ており、少なくとも部分的にはそれに基づいて決定を下しているのです。
噂や憶測を楽しまない人がいるなら、それを100%尊重します。誰もそれをフォローしたり、関与したりする必要はありません。私個人が多くのこれに対して唯一問題に感じるのは、噂を事実として述べる時です。私はいつも、これは噂だ、これは憶測だ、これは未確認だと言うことに非常に注意を払ってきました。話題になっていることを見ることは全く問題ないと思います。それが噂であっても、明確にそうラベル付けしている限りは。これは噂だと言う、対して、これこれの理由でこれが真実だと確認していると言うのとは違います。
これらのことを区別している限り、私は噂やナンセンスについて話すことに全く満足です。
この記事では取り上げられていない別の理論があります。以前の動画でも話しましたが、一瞬考えてみてください。これが真実だとは言っていませんが、もしこれが真実だとしたら、これは理にかなっているでしょうか?
もしOpenAIが他の誰よりも数年先を行く技術を持っているとしたら、GPT-4で実際にそうだったことを私たちは知っています。人々がそれに追いつくのに何年もかかりました。そして、リリースするとすぐに他の人々が追いつくことができると仮定してください。なぜなら、それを使って合成データを生成したり、ある程度コピーしたりできるからです。モデルをコピー&ペーストすることはできませんが、リリースされるとすぐに人々はそれをリバースエンジニアリングし始めます。
つまり、OpenAIがGPT-5をリリースした瞬間、誰かがそれに近いモデルを手に入れるまでのカウントダウンが始まるのです。一方、リリースしなければ、他の人々がそれを達成するのにより長い時間がかかるでしょう。
その間、ここで取り上げたように、OpenAIは様々な業界と話をし、様々なつながりを設定しています。例えば、サム・アルトマンがハリウッドの多くの人々とSoraを様々なハリウッドスタジオに組み込むための交渉をしていることを私たちは知っています。アシュトン・カッチャーをはじめ、多くのプロデューサーや俳優、その業界の人々がSoraに早期アクセスを持っており、素晴らしいと言っています。
彼らはロボティクスも追求しています。Figure AIです。彼らはOpenAIの技術をFigure AIと統合しています。Figure AIは、Figure Robotを製造しているロボティクス企業で、今やBMWとそれらのロボットを使って自動車生産を支援する契約を結んでいます。
また、OpenAIが他の多くの企業とパートナーシップを組んでいることも知っています。カスタマーサービス企業や医療企業も含まれます。第三世界の農家を支援する会社があります。そこでは資本が非常に限られていて、彼らのための一種のソーシャルネットワークのようなものを提供し、知識を共有したり、物を売買したりするのを助けています。それは大きな利益をもたらしているようです。私が思うに、それをバックアップしているのは非営利組織で、OpenAIがそこにサービスを提供しています。
つまり、彼らは静止しているわけではありません。この活動の大きな流れが見えます。良い例えは、アヒルが水面では静かに座っているように見えるけれど、水面下では足を急速に動かしているというものです。私はOpenAIが今まさにそうしていると思います。目に見える活動はあまりないように見えますが、舞台裏で行われている全ての契約や交渉を見ると、それらは膨大です。
取締役会に加わる全ての人々のことを考えてください。最近、彼らがアラモ研究所と協力し始めたことをカバーしました。マンハッタン計画を開発した同じ場所です。今や彼らは新しいモデルのレッドチームを組むために彼らと協力しています。彼らは急速に枝分かれしています。
その間、誰かがリーダーボードで彼らを上回るたびに、彼らは別のモデルをリリースし、かろうじてそれを上回ります。「私たちは1位を維持します」あるいは少なくとも「トップに非常に近い位置を保ちます」と言うかのようです。彼らはリーダーボードでの優位性を保つために最小限のことをしながら、将来AIを使用する一部となるであろう大きな産業に統合されようと、この土地争奪戦のようなことをしています。
サム・アルトマンはこのことをほのめかしました。彼は「AIでどのスタートアップが本当にうまくいくか」と言いました。彼は言います:「最高のAIモデルがアップグレードされたとき、例えばGPT-4からGPT-5に、100万倍良くなったとき、もしあなたのスタートアップがそれによって破壊されるなら、それは良いスタートアップではありません。AIの能力が向上することで改善されるなら、それがあなたがいたい場所です」。
つまり、Soraを使って映画を製作していて、Sora 2.0が登場したら、より良い映画を製作できるようになる、それは本当に良いことです。顧客の注文を支援するカスタマーサービスAIがあって、新しいバージョンのAIが登場してそれがより良くなるなら、それは良いことです。そういう種類の会社を持ちたいのです。
そして、もう一つの理論として起こっている可能性があるのは、彼らがAIと相互作用する全ての主要な産業と主要な組織に、いわば触手を伸ばそうとしているということです。いったんその土地争奪戦、その足がかりを得たら、そのときに彼らが持っているものを出すのです。なぜなら、そのときには、他の全ての人々が追いつこうとする時計が始まりますが、その間にOpenAIは既に全てのつながりと統合を持っているからです。
Googleが昔「AIにはムーブはない」と言ったのを覚えていますか?今起こっていることは、サム・アルトマンが再びそのムーブを掘っているのかもしれません。これは単なる理論です。本当かどうかは分かりません。私が見ている限り、背景では多くのことが起こっています。
来年にかけて、誰が正しくて誰が間違っているかがはっきりするでしょう。しかし、今のところ、次世代モデルのように見えるもの、あるいは推論が得意なストロベリーのようなものは、具体的な証拠は見ていません。
次に、Runway MLとその第3世代モデル、特に動画をより速く生成できるGen 3 Turboモデルについてのニュースがあります。これを見てください。これはRunway MLで生成された1080pの動画です。それらの小さなちらつきは、おそらく単に圧縮によるもので、動画の一部ではありません。それは私の失敗でした。しかし、これを見てください。少し奇妙に見えますが、正直言って極めてリアルです。照明、そのマクロ撮影、どれほど接近しているか、全ての細部が信じられないほど驚くべきものです。
一本一本の眉毛、一本一本の髪の毛が...まあ、ここを見てください。彼女の指が眉毛を通り過ぎるとき、それらの髪の毛が全てどのように反応するかを見てください。完璧ではありません。まだAIの動画だと分かります。しかし、注意を払っていなければ、本当にそこにズームインしていなければ、気づかないでしょう。ただ正しく、良く見えるでしょう。
別のものも見てみましょう。画像から動画への変換も非常にうまくできます。これはMidjourneyで生成された画像だと思いますが、Runway MLでアニメーション化するとこのように見えます。ご覧のように、非常に滑らかで素晴らしい3Dビューです。いくつかの小さな「ミス」が見られますが、それらのミスに気づくには本当に注意を払う必要があります。全体的に素晴らしいです。
これはある種のスーパーヒーローやコミックブック風のもので、奇妙な効果があります。おそらくアニメでしょうか。かなり良く見えます。これは別のもので、誰かの顔にズームインするようなショットです。ここでは、彼女がカメラのように指を上げているのが分かります。ズームインすると、目の中の反射に注目してください。
これは別のものです。この人は話しています。映画のような品質でこれができると思います。これはほんの5秒の短いクリップですが、リップシンクのようなもの、つまり録音された音声に合わせて唇を同期させるものがあれば、これは実際の映画制作、実際のフルムービー、物語を語るのに最適だと思います。
Runway ML自身が、彼らのモデルがほとんど物理シミュレーターのように考えられると投稿しています。ここを見てください。これは熱いフライパンです。水を注いでいます。水が流れるのが見えます。蒸気をシミュレートしているのが分かります。
これは今、大きな話題になっています。多くの人々がこの「物理シミュレーター」というアイデアに反対しています。しかし、基本的なアイデアは、これらのモデルが学習するにつれて、物事を作り出す際に特定のショートカットを学ぶということです。そして、ある種の「理解」を持ち始めます。少なくとも、それを再現できるという意味で。
例えば、飛んでいる鳥について、モデルは物理法則に合致するような方法で作成するかもしれません。これは物理学を理解しているということではないかもしれませんが、少なくともそれがどのように見えるかを予測でき、現実世界の物理法則に合致するものになります。
ジム・ファン博士は、これが何を意味するかについて素晴らしい解説を投稿しています。なぜこれらのモデルが明示的ではなく、暗黙的に学習するのか。私たちが実際に特別に教えていないことを学習するのです。彼らは単に大量のデータを訓練することで、ある種の理解を得るのです。
Soraもいくつかのショーケースを投稿しました。詳しくはリンクを下に貼っておきますので、チェックしてみてください。彼らは実際のアーティストや監督がSoraを使って制作したものを「新しいショーケース」と呼んでいます。
その多くは、音楽があってこそ意味をなすものです。一つは実際のミュージックビデオです。しかし、Soraのようなものを取り、アーティストに与え、この視覚的なアート、このビジュアルアートを制作しようとしたときに何が起こるかを見るのは興味深いです。
こちらは別の例です。誰かがこの奇妙な未来的な3Dのようなピアノを弾いています。それは氷の結晶か何かでできているようです。何かの未来的で抽象的な設定の中でです。これにより、映画製作者は以前にはできなかったものを制作できるようになるでしょう。少なくとも、大量の特殊効果、背景で制作する人々の全部門、何百万何千万ドルを使わずにはできなかったでしょう。彼らは家のコンピューターで、ほんの数分で、これらのものを撮影できるようになるでしょう。
もちろん、彼らは座って10回異なる生成を行うか、100回異なる生成を行って、ちょうど探しているショットを選ぶ必要があるかもしれません。しかし、これらのモデルが成長し、適応し、改善するにつれて、それさえも簡単になっていくでしょう。
とりあえず、ここで終わりにしましょう。私が再生しない本当に奇妙なものもいくつかありますが、リンクを貼っておきますので、チェックしたい方はどうぞ。実際にはYouTubeのOpenAIチャンネルにあります。これらのショーケースがあり、本当に奇妙なものもいくつかあります。そういうのが好きな方はチェックしてみてください。
私の名前はウェス・ロスです。ご視聴ありがとうございました。
この記事が気に入ったらサポートをしてみませんか?