【AIニュースを読む】OpenAI、動画生成モデル「Sora」を発表
OpenAIは、2024年2月15日(米国時間)にテキストから動画を生成できる「Sora」を発表しました。Soraはテキストの指示で高品質で複雑なカメラの動きなど、想像力豊かなシーンの動画を作成できるAIモデルです。
OpenAIでは、Soraの機能が現実世界を理解してシミュレーションできるモデルの基盤となり、AGIを達成するための重要なマイルストーンになると考えているようです。
実際に生成された動画
上記のプロンプトを日本語訳すると次のとおりです。
スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。彼女はサングラスと赤い口紅をつけています。彼女は自信を持って何気なく歩いています。通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出しています。多くの歩行者が歩き回っています。
上記のプロンプトを日本語訳すると次のとおりです。
美しい雪の東京の街は賑わっています。カメラはにぎやかな街路を移動し、美しい雪の天気を楽しんだり、近くの屋台で買い物をしたりする数人の人々を追っています。華やかな桜の花びらが雪の結晶とともに風に乗って飛んでいきます。
上記のプロンプトを日本語訳すると次のとおりです。
数頭の巨大なケナガマンモスが雪に覆われた草原を踏みしめながら近づいてきます。その長いケナガマンモスの毛皮が風に軽くなびきながら歩きます。遠くには雪に覆われた木々やドラマチックな雪を頂いた山々が見えます。うっすらとした雲と太陽が高く昇る午後半ばの光があります。」距離が暖かい光を生み出し、低いカメラの視点から美しい写真と被写界深度で大きな毛皮に覆われた哺乳類を見事に捉えています。
上記のプロンプトを日本語訳すると次のとおりです。
アニメーションシーンでは、溶けた赤いキャンドルの横にひざまずいている背の低いふわふわしたモンスターのクローズアップが表示されます。アート スタイルは3Dでリアルで、照明とテクスチャに重点を置いています。怪物が大きな目と開いた口で炎を見つめていることから、この絵の雰囲気は驚きと好奇心のひとつです。そのポーズと表情は、まるで初めて自分の周りの世界を探検しているかのような、無邪気さと遊び心の感覚を伝えます。温かみのある色とドラマチックな照明を使用することで、画像の居心地の良い雰囲気がさらに高まりました。
Soraの能力
Soraは視覚的な品質とユーザーのプロンプトに従いながら、最長1分の動画を生成できます。また複数のキャラクター、特定の種類のモーション、被写体と背景の正確な詳細を含む複雑なシーンの生成も可能です。
現在、Soraはレッドチームの担当者によるリスク評価や、クリエイティブな専門家に役立つようにモデルを進化させる方法についてのフィードバックを得るために、一部の人達にアクセスできる状態です。OpenAIでは、様々な人達と協力してフィードバックを得て、研究の進捗状況を早期に共有しています。
しかし現行モデルには弱点があり、複雑なシーンを正確にシミュレートするのに苦労するため、特定のインスタンスを理解できない場合があります。例えば、人がクッキーをかじったとしても、クッキーに噛み跡が残らないといったことです。またモデルは、プロンプトの空間的な詳細を混乱させる可能性(例えば、左右を混同するなど)や、特定のカメラの軌跡をたどるなどの時間経過とともに発生するイベントを正確に記述することに苦労する可能性があります。
Soraの安全性
OpenAIの製品で Sora を利用できるようにする前に、いくつかの重要な安全措置を講じる予定です。またSoraによって動画がいつ生成されたかを知ることができる検出分類子など、誤解を招くコンテンツの検出に役立つツールも構築しています。将来的にOpenAI製品として導入する場合、C2PAメタデータを含める予定です。
Soraを製品として導入するに当たって新しい技術開発に加え、DALL・E 3を使用する製品用に構築した既存の安全方法を活用しています。例えば、OpenAI製品に入ると、当社のテキスト分類子は、極端な暴力、性的コンテンツ、嫌がらせ的な画像、有名人の肖像、または他人のIPを要求するものなど、当社の使用ポリシーに違反するテキスト入力プロンプトをチェックして拒否します。また生成されたすべての動画フレームをレビューして、ユーザーに表示する前に動画が使用ポリシーに準拠していることを確認するために、堅牢な画像分類子も開発しました。
Soraの研究
Soraは拡散モデルであり、静的なノイズのように見える動画から生成し、多くのステップでノイズを除去して徐々に動画へと変換します。またビデオ全体を一度に生成することや、生成された動画を拡張して長くすることができます。モデルに一度に多くのフレームの先見性を与えることで、被写体が一時的に見えなくなった場合でも同じ状態を保つという困難な問題を解決しました。
GPTモデルと同様に、Soraはトランスフォーマーアーキテクチャを使用し、優れたスケーリングパフォーマンスを実現します。またビデオと画像はパッチと呼ばれる小さなデータ単位の集合として表され、それぞれがGPTのトークンに似ています。データの表現方法を統一することで、異なる継続時間、解像度、アスペクト比にわたる広範囲の視覚データに対して拡散トランスフォーマーをトレーニングできるようになります。
Sora は、DALL·EやGPTモデルの過去の研究に基づいており、ビジュアルトレーニングデータに対して説明的なキャプションを生成するDALL·E 3の再キャプション技術を使用しています。その結果、モデルは生成されたビデオ内のユーザーのテキスト指示に、より忠実に従うことができます。
このモデルは、テキスト指示のみからビデオを生成できることに加えて、既存の静止画像を取得してそこからビデオを生成し、画像の内容を細部まで正確にアニメーション化することが可能です。モデルは、既存のビデオを取得して拡張したり、欠落したフレームを埋めたりすることもできます。
Soraの紹介動画
OpenAI公式のYouTubeチャンネルにおいて、Soraによって生成された動画が公開されています。一切の修正をしていないようです。
読んでいる方へのお願い
この内容が役に立ったという方は、「♡(スキ)」や「フォロー」をお願いします。「X」「facebook」「LINE」でシェアいただけるとさらに嬉しいです。
またGenerativeAI活用研究所では、サポートをお受けしています。活動を継続させていくために、どうかお願い申し上げます。
GenerativeAI活用研究所では、サポートをお願いしております。サポートのお金は、活動の原資(運営費や電気代などの固定費、書籍購入費など)に充てさせていただきます。活動を継続させていくために、どうかお願い申し上げます。