見出し画像

OpenAI Sora の 概要

以下の記事が面白かったので、簡単にまとめました。

Sora


1. Sora

Sora」は、テキスト指示から現実的で想像力に富んだシーンを作成できる、動画生成モデルです。

OpenAIでは、人々が現実世界の相互作用を必要とする問題を解決するのに役立つ学習モデルを目標に、動いている物理的な世界を理解してシミュレートするようにAIを教えています。

2. 能力

「Sora」は、視覚品質とユーザーのプロンプトの遵守を維持しながら、最大1分間の動画を生成できます。

複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を含む複雑なシーンを生成することができます。ユーザーがプロンプトで求めたものだけでなく、それらのものが物理的な世界にどのように存在するかも理解しています。

言語を深く理解しており、プロンプトを正確に解釈し、活気に満ちた感情を表現する説得力のあるキャラクターを生成することができます。キャラクターとビジュアルスタイルを正確に保持する単一の生成された動画内に複数のショットを作成することもできます。

現在のモデルには弱点があります。複雑なシーンの物理学を正確にシミュレートするのに苦労する可能性があり、原因と結果の特定のインスタンスを理解できない可能性があります。例えば、人はクッキーを一口食べるかもしれませんが、その後、クッキーには一口の跡がないかもしれません。左右を混同するなど、プロンプトの空間的詳細を混同し、特定のカメラの軌跡をたどるなど、時間の経過とともに起こるイベントの正確な説明に苦労する可能性があります。

3. 安全性

OpenAI製品で「Sora」を利用できるようにする前に、いくつかの重要な安全措置を講じる予定です。モデルを敵対的にテストする「Red Teamers」と協力しています。

また、「Sora」によって動画がいつ生成されたかを知ることができる検出分類器など、誤解を招くコンテンツを検出するのに役立つツールも構築しています。将来的にはC2PAメタデータを含める予定です。

新しい技術の開発に加えて、「Sora」にも適用可能な「DALL·E 3」で構築した既存の安全方法を活用しています。たとえばテキスト分類器は、極端な暴力、性的コンテンツ、憎悪的な画像、有名人の肖像、または他人のIPを要求するものなど、OpenAIの使用ポリシーに違反するテキスト入力プロンプトをチェックして拒否します。また、ユーザーに表示される前に、使用ポリシーに準拠していることを確認するために、生成されたすべての動画のフレームを確認するために使用される堅牢な画像分類器を開発しました。

OpenAIでは、世界中の政策立案者、教育者、アーティストを巻き込み、彼らの懸念を理解し、この新技術の肯定的なユースケースを特定します。広範な研究とテストにもかかわらず、人々が私たちの技術を使用するすべての有益な方法や、人々がそれを乱用するすべての方法を予測することはできません。そのため、現実世界の使用から学ぶことは、時間の経過とともにますます安全なAIシステムを作成し、リリースするための重要な要素であると考えています。

4. 研究技術

「Sora」はdiffusionモデルで、静的なノイズのように見えるものから始めて動画を生成し、多くのステップでノイズを除去することによって徐々に変換します。

動画全体を一度に生成したり、生成された動画を拡張して長くしたりすることができます。一度に多くのフレームのモデルの先見性を与えることで、一時的に視界から消えても被写体が同じままであることを確認するという困難な問題を解決しました。

GPTモデルと同様に、Transformerアーキテクチャを使用して、優れたスケーリングパフォーマンスのロックを解除します。

パッチと呼ばれる小さなデータ単位のコレクションとして動画や画像を表現し、それぞれがGPTのトークンに似ています。 データの表現方法を統一することで、さまざまな期間、解像度、アスペクト比にまたがって、以前よりも広い範囲の視覚データで diffusion transformers を学習することができます。

「Sora」は、「DALL·E」および「GPTモデル」の過去の研究に基づいています。ビジュアル学習データの高度に記述的なキャプションを生成する「DALL·E 3」のリキャプション技術を使用します。その結果、モデルは生成された動画のユーザーのテキスト指示により忠実に従うことができます。

テキスト指示からのみ動画を生成できることに加えて、モデルは既存の静止画を撮影し、そこから動画を生成し、画像の内容を正確で細部にまでアニメーション化することができます。モデルは、既存の動画を撮って拡張したり、不足しているフレームを埋めたりすることもできます。詳細については、テクニカルペーパー を参照してください。

5. おわりに

「Sora」は、現実世界を理解し、シミュレートできるモデルの基盤として機能し、AGIを達成するための重要なマイルストーンになると考えています。



この記事が気に入ったらサポートをしてみませんか?