この動画では、OpenAIによるテキストからビデオを生成するAI技術「Sora」が紹介されています。この技術は従来のAIによる映像生成技術を遥かに超える品質、時系列の一貫性、そして想像力を持っており、実際の映像と見分けがつかないほどの精度でビデオを生成します。AIは指示に忠実であり、例えば「ブログをするコーギー」や「サーフボードに乗るカワウソ」など、具体的なリクエストに基づいて想像力豊かなビデオを作成できます。さらに、オブジェクトの恒常性と一貫性にも優れており、3D空間内を動いても物体は正しい位置に留まります。この技術は高解像度のビデオ生成が可能で、計算資源が十分にある場合には、未知の世界を含む仮想のビデオを創り出すことができます。
公開日:2024年2月16日
※動画を再生してから読むのがオススメです。
親愛なる研究者の皆さん、今日見ることになるものは、800本以上の動画でお見せできた中でも最も狂ったものかもしれません。
これは、昨日AIが作成できたような種類のビデオです。
そして今日、これができるようになりました。
まさか、OpenAIが自分たちのテキストからビデオに変換するAI、Soraをリリースしたのですが、これはこれまで見たものの中で最も進化しており、言葉に表すのが難しいほどです。
親愛なる研究者の皆さん、ドクター・カーロイ・ゾルナイ=フェヘールとのTwo Minute Papersです。
最初にこれらの結果を見たとき、これはエイプリルフールの冗談だと思いました。
いいえ、これは実際のカメラからのビデオではありません。
これは、新しいAIによってピクセル単位で合成されたビデオです。
これを試してみましょう。
これらのAIビデオは、3つの基準で評価します。
1つ目は、品質です。
これは驚くべきことです。
これらの作品の品質は非常に高いです。
映像の中で積極的にエラーを探していない限り、多くの場合、それがAIによって作成されたものだと気づかないかもしれません。
さらに、彼らのDALL·E 3システムは、画像を作成するエキスパートであり、私はこれらのビデオを途中で止めて、静止画はDALL·E 3が作成できるものと同等かそれ以上のものが多いです。
これは王様の得意分野で王様を打ち負かすことです。
信じられない。
2つ目は、時間的な一貫性です。
これは、AIがビデオ内の各画像がどのように続くべきかを正確に理解していることを意味します。
これが時間的な一貫性がない場合の見た目です。
数年前の論文。
そして今、これがあります。
再び、他に類を見ない時間的な一貫性。
わぁ。
そして3つ目は、待ってください、これはまだ素晴らしいテクニックとは限らないかもしれません。
さて、あなたが尋ねているのが聞こえますが、カーロイ、なぜそうなのですか?
まあ、それは私たちの指示に正しく従わなければならないからです。
私たちが求めたものに忠実でなければなりません。
実際、非常に良質で一貫したビデオを提供する技術がありますが、私たちが書いた指示にあまり気を配っていません。
このテクニックについてはどうですか?
おやおや、まさにその通りですね。
言葉を失います。
でも、さらに良くなります。
それに、想像力のヒントさえあります。
例えば、コーギーを頼んで、それがブロガーでもいいし、サーフボードに乗ったカワウソやイタリアの子犬など、何でも名前を挙げて頼むと、それをやってくれます。
機械の中の想像力。
生きている今が何と素晴らしい時なのでしょう!
えーと、待ってください。今後、4つ目のことを見ていかなければならないことに気づきました。それは、物体の恒久性と一貫性です。
以前の技術では、何かが隠れて再び見えるようになったとき、AIはそれを覚えていないかもしれず、見た目が全く異なるかもしれません。
でも、ここでは、見てみましょう。
これは一貫した世界モデルを持っていて、3D空間で移動しても、すべてが本来の位置に留まっています。
そして、これはさらに多くのことができます。
既存のビデオを完全に新しいものに変換することさえ、たった一つのテキストプロンプトを書くだけでできます。
そして今、諸君の論文を持っている者たち、しっかりしてください。それは仮想世界さえ合成できるのです。それが既存のものであるか、マインクラフトのようなものであるか、あるいはゼロから作られた完全に新しいゲームであるかは、あなた次第です。
もう1つの論文があれば、自分でゲームを開発する必要すらなくなるかもしれません。コントローラーを接続し、テキストプロンプトを書くだけで、OpenAI Soraがそのゲームをすぐに提供してくれるかもしれません。
では、この魔法のような仕組みはどのように機能するのでしょうか?
まあ、その鍵となるアイデアの1つは、合成が潜在空間で行われるということです。
それは何ですか?
それはこのようなものです。
これは私の論文の1つで、この2Dの潜在空間を歩き回ることができ、この空間の各点が仮想世界の素材を表しています。
そして、ここが鍵です。
潜在空間は、近くの点を探索するときに似たような素材モデルを得られることが保証されている場合にうまく機能します。
論文へのリンクは動画の説明にあります。
そして、このコンセプトは新しいフォントを作成するためにも機能し、今は新しいビデオを作成するためにも使われています。
そして、それらはフルHD解像度で提供されます。
それでは、これまでのところこのコンセプトはどうでしょうか?
まあ、見てみましょう。
ちょっと待って、それは今まで見てきたものとはまったく違います。
何が起こったのですか?
まあ、一言で言うと。
計算が起こったのです。
計算能力が足りないと、こうなります。
4倍の計算能力があれば、こうなります。
そして、16倍の計算能力があれば、こうなります。
ああ、そうですね、概念は、十分な計算量がある場合にのみ実現します。
仮想脳、と言えば、これらのビデオをすべて高品質で想像するためには、十分に発展させる必要があります。
そして、まあ、これはおそらく私が今まで見た研究作業の中で最も品質が向上したジャンプかもしれません。このビデオシリーズはすでに800エピソード以上続いています。
そして今、その時が来ました。
何のための時間か、と尋ねるでしょうか?
もちろん、論文の第一法則を発動する時です。
論文の第一法則とは、研究はプロセスであるということです。
私たちがどこにいるかではなく、さらに2つの論文を進めたときにどこにいるかを見てください。
そして、これがさらに1つの論文を進めたときの結果です。
今、運動をしてください。
次に2つの論文が出ると、私たちが何ができるようになると思うかについてコメントを残してください。
フェロー・スカラーの皆さんがどう思っているか知りたいですが、特に今は、再び歴史が作られる瞬間を共有しているからです。
彼の優れたビデオでは、私が強くお勧めするように、MKBHDは、これが人間によって作成されたビデオに訓練されているため、それが人間から見たものを超えることはできない可能性が高いと述べています。
私は、いくつかの場合には、適切なゼロショットのパフォーマンスを持つAI論文を見ることができることを指摘したいと思います。
それは何ですか?
これは、人間のようにすべてのこの知識に頼って、それが以前に見たことのない新しいものを作ろうとすることができることを意味します。
例えば、T-Rex用の新しい種類の乗り物を要求することができます。
そして、それはT-Rexがこれらの小さな手を持っていると推論するかもしれませんので、それは彼らの小さな手に適したホイールを持っている必要があります。
それが出てくるとすぐに、それをテストすることができるようになります。
そして、私たちはすぐに、このよりコントロール可能で、無料で試すことができるこのより良くない別のAIビデオシステムに関するビデオで戻ってきます。
また、この新しい技術の能力についてより詳細なビデオも近日中に公開します。
お見逃しなく、購読してベルアイコンをクリックしてください。
あなたの深層学習プロジェクトと大規模言語モデルアプリのための実験追跡、モデル評価、および製品監視。
これがWeights&Biasesが行うことであり、それが最高のものです!
皆がそれを使っています!
今すぐwandb.me/papersで試してみてください。または、下記の説明文中のリンクをクリックしてください!