見出し画像

現実か仮想か?OpenAIの「Sora」が切り開く、新時代の幕開け

OpenAIは、AIビデオモデル「Sora」を発表し、再び歴史を作りました。この「世界モデル」とも呼べる技術報告は昨日公開されましたが、具体的なトレーニングの詳細は公開されていません。

昨日の昼間から、「現実がもはや存在しない」という話題がネット全域で話題になりました。

「私たちはこんなに早く次の時代に入ったのか?Soraは本当に凄い」。

GoogleのGemini Pro 1.5が数時間で話題をさらった後、夜が明けると、世界中のスポットライトがOpenAIのSoraに集まりました。

Soraの登場により、他のビデオモデルはこの新技術に敬意を表しました。

数時間後、OpenAI Soraの技術報告が公開されました!

報告書では、「マイルストーン」というキーワードが報告書の重要なポイントとなっています。

技術報告の主な内容は、異なるタイプの視覚データを統一された形式に変換して、生成モデルの大規模トレーニングを可能にする方法と、Soraの能力と限界に関する定性的評価です。

しかし残念ながら、モデルと実装の詳細は含まれていませんでした。さすがOpenAI様です。

Elon MuskもSoraの生成効果に衝撃を受け、「gg人類」とコメントしました。


仮想世界シミュレータを作る


これまで、OpenAIの研究者は、ビデオデータ上での大規模トレーニング生成モデルの適用という難題に取り組んできました。

研究者は、持続時間、解像度、アスペクト比が異なるビデオと画像をトレーニングし、このプロセスはテキスト条件付きの拡散モデルに基づいています。

彼らはTransformerアーキテクチャを採用し、これによりビデオと画像の時空間セグメントの潜在コードを処理できるようになりました。

これにより誕生した最も強力なモデルSoraは、1分間の高品質ビデオを生成する能力を持っています。

OpenAIの研究者は、ビデオ生成モデルのスケールを拡大することが、物理世界の一般的なシミュレータを構築するための非常に有望な方向であることを発見しました。

つまり、この方向で発展すれば、LLMが本当に世界モデルになるかもしれません!

Soraのユニークな点は何でしょうか?

これまでの多くの研究では、循環ネットワーク、生成逆ネットワーク、自己回帰Transformer、拡散モデルなど、様々な技術を使用してビデオデータの生成モデルを構築してきました。

これらは通常、特定のタイプの視覚データ、短いビデオ、または固定サイズのビデオにのみ焦点を当てています。

しかし、Soraはこれらとは異なり、持続時間、アスペクト比、解像度が異なるビデオや画像を生成できる一般的な視覚データモデルであり、1分間の高解像度ビデオさえも生成できます。

ネットユーザーは、「Soraにはいくつかの不完全な点があります(検出可能です)、例えば物理効果からそれが合成されたものであることがわかります。しかし、それは多くの産業を革命的に変えるでしょう。動的でパーソナライズされた広告ビデオを生成してターゲットを絞ることができれば、これは兆ドル規模の産業になるでしょう」と述べています。

SORAの効果を確認するため、業界の大物Gabor Cselleは、Pika、RunwayML、Stable Videoと比較しました。

まず、OpenAIの例と同じプロンプトを使用しました。

結果は、他の主要なツールが生成したビデオはすべて約5秒間であり、SORAは17秒間のビデオシーンでアクションと画面の一貫性を保持することができました。

その後、他のモデルがSORAと同様の効果を出すように、コマンドプロンプトを調整し、カメラの動きを制御することによって努力しました。

比較すると、SORAは長いビデオシーンを処理する上で顕著に優れていました。

これらの驚くべき効果を見て、業界の人々がAIビデオ制作分野でSORAが革命的な意味を持っていると感嘆するのも不思議ではありません。

ビデオの多様な表現

従来、画像とビデオの生成技術は、ビデオを一定の標準サイズに調整する傾向があります。たとえば、4秒間、解像度256x256のビデオです。

しかし、OpenAIの研究者は、ビデオをその元のサイズで直接トレーニングすることにより、多くの利点があることを発見しました。

柔軟なビデオ制作

Soraは、ワイドスクリーンの1920x1080から縦長の1080x1920まで、様々なサイズのビデオを制作することができます。

これは、Soraが様々なデバイス用に画面比率に適したコンテンツを制作できることを意味します!

また、低解像度でビデオのプロトタイプを迅速に制作し、その後同じモデルを使用してフル解像度のビデオを制作することもできます。

より優れた画面表現

実験により、ビデオをその元の比率で直接トレーニングすると、ビデオの画面表現と構成が顕著に向上することがわかりました。

そこで研究者らは、Sora を、生成モデルのトレーニングで一般的に行われる、すべてのトレーニング ビデオを正方形に切り取るモデルのバージョンと比較しました。

それに比べて、Soraが生成したビデオ(右側)は、画面構成において明らかな改善が見られました。

画像とビデオの多様なプロンプト

Soraがテキストをビデオに変換するデモケースが展示されていますが、Soraの能力はそれだけにとどまりません。

それは、画像やビデオなど、他の形式の入力も受け入れることができます。

これにより、Soraは一連の画像とビデオの編集タスクを完了することができます。たとえば、シームレスなループビデオの制作、静止画像への動きの追加、ビデオの長さを時間軸で拡張するなどです。

DALL·E画像に命を吹き込む

Soraは、画像とテキストプロンプトを受け入れ、これらの入力に基づいてビデオを生成することができます。

以下は、DALL·E 2とDALL·E 3の画像に基づいてSoraが生成したビデオの例です。

ビデオタイムラインの柔軟な拡張

Soraはビデオを生成するだけでなく、ビデオを時間軸に沿って前方または後方に拡張することもできます。

デモのビデオはすべて、同じビデオクリップから始まり、時間軸の過去に向かって拡張されます。開始点はそれぞれ異なりますが、最終的には同じ結末に集まります。

この方法を通じて、ビデオを2つの方向に拡張し、シームレスなループビデオを作成することができます。

画像の生成能力

同様に、Soraには画像を生成する能力もあります。

そのために、研究者は空間グリッドにガウスノイズパッチを配置し、時間範囲を1フレームにしました。

このモデルは、異なるサイズの画像を生成することができ、解像度は最大2048x2048ピクセルに達することができます。

ビデオスタイルと環境の変更

拡散モデルを使用すると、テキストプロンプトを通じて画像とビデオを編集することができます。

ここで、研究者はSDEditと呼ばれる技術をSoraに適用し、事前にサンプルを必要とせずにビデオのスタイルと環境を変更することができました。

ビデオ間のシームレスな接続

さらに、Soraを使用して、2つの異なるビデオ間でスムーズな遷移効果を作成することができます。たとえば、これら2つのビデオのテーマとシーンが完全に異なる場合でもです。

下のデモでは、中央のビデオが左側のビデオから右側のビデオへのスムーズな遷移を実現しています。

城と雪中の小屋が非常に自然に1つの画面に融合しています。

新たなモデル能力の出現

大規模トレーニングが進むにつれて、ビデオモデルが多くの興奮すべき新しい能力を示し始めることがわかります。

Soraはこれらの能力を利用して、3D空間やオブジェクトなどに特定のルールを設定することなく、人間、動物、自然環境の特定の特徴をシミュレートすることができます。

これらの能力の出現は、モデルのスケール拡大に完全によるものです。

3D空間のリアリズム

Soraは、動的な視点の変化を持つビデオを作成することができ、人物とシーン要素が3次元空間で移動する様子が非常に自然に見えます。

たとえば、カップルが雪の中の東京を散歩するビデオは、実際のカメラワークとほとんど変わらない生成を行っています。

また、Soraはより広い視野を持ち、山々の風景と人が登山するビデオを生成し、ドローンで撮影された大作のような感じを持っています。

ビデオの一貫性とオブジェクトの持続的な存在

長いビデオを生成する際に、シーンとオブジェクトが時間を通じて連続していることを維持するのは常に挑戦でした。

Soraはこの問題をかなりうまく処理でき、オブジェクトが画面から隠れたり画面から離れたりしても、その存在感を維持することができます。

たとえば、下の例では、窓の前の斑点犬が、途中で多くの通行人が通過しても、その姿が一貫しています。

たとえば、ビデオ全体でキャラクターの外観が一貫しているように、1つのビデオで複数回同じキャラクターを表示することができます。

サイバースタイルのロボットが前から後ろに回転するときにフレームスキップがないようにします。

世界との相互作用

さらに、Soraは世界の状態に影響を与える単純な行動をシミュレートすることができます。

たとえば、画家が描いた桜の木は、水彩紙に持続的な筆跡を残します。

または、人がハンバーガーを食べるときに残る咬み跡がはっきりと見え、Soraの生成は物理世界のルールに従います。

デジタル世界のシミュレーション

Soraは実世界だけでなく、デジタル世界もシミュレートすることができます。たとえば、「Minecraft」の場合、Soraはプレイヤーキャラクターを制御しながら、ゲーム世界と動的な変化を高度にリアルにレンダリングすることができます。

そして、単に「Minecraft」と言及するだけで、Soraはこれらの能力を示すことができます。

これらの新しい能力は、ビデオモデルのスケールを継続的に拡大することが非常に有望な方向であることを示しており、モデルを物理世界とデジタル世界、およびその中の生物とオブジェクトの高度なシミュレーターへと発展させることができます。

制限

もちろん、シミュレーターとして、Soraにはまだ多くの制限があります。

たとえば、ガラスの破壊など、いくつかの基本的な物理的相互作用をシミュレートすることはできますが、まだ十分に正確ではありません。

食べ物を食べるプロセスをシミュレートすることも、常に物体の状態の変化を正確に反映するわけではありません。

OpenAIのウェブサイトのホームページでは、長いビデオで発生する論理的な非連続性や、物体が無理由に現れるなど、モデルの一般的な問題が詳細にリストされています。

最後に、OpenAIは、Soraが現在示している能力は、ビデオモードのスケールを拡大することが興奮する方向であることを証明していると述べています。

この方向で進めば、いつか世界モデルが現れるかもしれません。

未来のゲームは口だけで作られる

OpenAIが多数の公式デモを提供しており、Soraはテキストの説明だけでよりリアルなゲームの生成を可能にするかもしれないことが示唆されています。

これは興奮すると同時に恐ろしいことです。

FutureHouseSFの共同創設者は、「Soraが私の世界をシミュレートできるかもしれない。次世代のゲーム機は「Sora box」かもしれず、ゲームは2〜3行のテキストでリリースされるかもしれない」と推測しています。

OpenAIの技術者Evan Morikawaは、「OpenAIがリリースしたSoraのビデオの中で、以下のビデオは私にとって目から鱗でした。このシーンをクラシックレンダラーでレンダリングするのは非常に難しいです。Soraが物理をシミュレートする方法は私たちと異なります。それは確かにまだ間違いを犯しますが、私が以前に予想していたよりもリアルにできるとは思っていませんでした」と述べています。

ネットユーザーは、「人々は『誰もが映画制作者になる』という言葉を真剣に受け止めていませんでした」と述べています。

「私は15分以内に20年代の予告編を制作しました。それにはOpenAI Soraのクリップ、David AttenboroughのEleven Labsでのナレーション、そしてYouTubeからサンプリングしたいくつかの自然音楽がiMovieで使用されました」。

また、「5年後、あなたは完全に没入型の世界を生成し、リアルタイムで体験することができるようになります。『ホログラフィックデッキ』が現実になるのはもうすぐです」と言われています。

さらに、「私はSoraのAIビデオ生成の優れた効果に完全に驚愕しました。

「それは既存のビデオモデルを愚かなおもちゃのように見せます。誰もが映画制作者になります」と述べています。

「新世代の映画制作者はOpenAIのSoraとともに登場します。10年後、これは興味深い競争になるでしょう」と述べています。

「OpenAIのSoraはすぐにはハリウッドを置き換えることはありません。それはハリウッドだけでなく、個人の映画制作者やコンテンツクリエイターに大きな推進力を与えます。

想像してみてください、わずか3人のチームで、1週間以内に120分のA級ストーリームービーの初稿の作成と視聴者テストを完了することができます。これが私たちの目標です」。


この記事が気に入ったらサポートをしてみませんか?