見出し画像

驚異のAI、Sora登場!OpenAIが挑む最先端動画生成AIに見る3つの所見


はじめに


OpenAIの動画生成AI Soraが発表されました。内容も衝撃ですが、現時点ではデモ動画の公表だけ、というGoogle Geminiのパロディーみたいな内容になっています。
それにしてもデモ動画だけでも圧巻です。
衝撃の内容ですが、いずれにせよ一般公開はまだ先で詳しい解析はできなさそうです。論文もまだのようです。
初見の感想をご紹介します。

Soraを見て思った3つのこと


Soraが発表されたのは昨日です。まだ一般にはリリースされておらず、プロ向けにβリリースされ、私たちが見られるのはOpenAIが公開したデモ動画だけです。

OpenAIは動画も本気

クオリティーも高く、時間も長いです。1桁ハードルをあげてきた印象です。
OpenAI のSam AltmanはChatGPTが出たてのときに実行コストが1回10セント以下だと言っていました。昨年秋には値下げしたので、はるかにそれよりは下がっていると思います。それにしても画像1枚生成するのにそれ以上のコストがかかると思います。1秒間60枚として1分だと3600枚です。数千倍のコストがかかっていると思います。
本気でコンピューティングコストをかけていると思います。
Pika 1.0などでも動画生成AIは4秒無料でそれ以後は有料というトレンドでした。OpenAIは今回、そのハードルを60秒まで、とあげました。十分な数のGPUを確保していると思います。確保しているのはMicrosoftであり、それを提供しているのだと予想します。
名前がSoraで日本を題材にした動画が何本もあるということは日本人か日本オタクのエンジニアがOpenAIにいるのだと思います。
厳密に見れば看板の文字や反射の映り込みも変ですが、あらさがししようと思って見ない限り気になりません。

TVメディアが本気

生成AIウォッチャーとしてYouTubeで検索して最新のトレンドをウォッチしています。
今回は地上波放送局の動画でSoraを知りました。題材が動画だけにTVメディアの追随が早いのに感心しました。

OpenAIのGoogle対抗策はうまくいっている


Gemini Ultra 1.0が公開されたので、それに合わせてGeminiキラーをしかけてくると言われてきましたが、隠し玉は動画生成AIでした。
OpenAIのSoraのサイトに行くと、”All videos on this page were generated directly by Sora without modification."と書かれています。編集を加えていませんということを宣言しています。これはGemini Ultraのデモ動画に対する挑戦ともとれます。Gemini Ultraのデモ動画は誤解を与える編集があると批判されています。
GoogleのGeminiは鳴り物入りのマルチモーダルAIですが、動画生成AIは未公開です。GPT-4とGemini の画像の品質クォリティ比較にはさまざまな意見があります。すくなくともGPT-4とGemini ProだとGPT-4のほうが若干優れている印象です。
Soraのクオリティによって、画像についても金さえかければいつでもクオリティをあげられると宣言しているようなものだと思いました。

動画AIは本質ではないが流石

マルチモーダルAIは2024年のトレンド


このニュースはしばらく話題になると思います。
今年はマルチモーダルAIの年になると思っています。昨年末に動画生成AI Pika 1.0も出ました。なんといっても画像や動画はわかりやすいし目を引きます。GPTキラーといわれるGeminiもマルチモーダルAIです。

本質は大規模言語モデル


生成AIが脚光をあびています。多くの人はAIに生成がついたからすごい変化を生んだという印象を持つかもしれません。生成AI自体は新しいものではありません。Google翻訳だって2017年からは生成AIを使っています。そもそもコンテンツを生成するAIが生成AIだとすれば、Google翻訳こそずっと何億人もが使っていた生成AIだという人もいます。
生成AIがすごいのはその大規模言語モデルの創発性にあります。教えてもいないことができるからすごいのであり、人間を代替する可能性があります。
言語モデルだからこそ、プロンプトを書くプロンプトをつくったりできます。問題を解くという問題が解けるわけです。ややこしいですが、こういうのをメタ思考と言います。人間はメタ思考できるのですが、大規模言語モデルもできます。
動画生成AIは動画しか作れないので動画を作る人間を代替することはできますが、他の作業は代替できません。
人間の脳が凄いのは回路を組み替えなくてもさまざまな問題が解けることです。その意味では私はマルチモーダルAIは古いAIだと思っています。
とはいえ、SoraはOpenAIのAI力を見せつけています。


最後に

Googleはどうする


GPT-4 All Toolsキラーとして2023年12月にGemini (Ultra, Pro, Nano)を発表したときから、OpenAIが反撃してくるのはわかっていたと思います。
GPT-4.5リリースかGPT-5のプレリリースで対抗すると予想していましたが、実際には動画AIでした。
Geminiの画像のクオリティを見る限り、すぐこれを上回る動画生成AIを出すことは相当困難だと思います。
次の戦いはGoogleの開発者向けイベント Google I/O (2024年5月10日)と予想します。OpenAIはそれに合わせてGPT-4.5を開発して、Google I/OのGemini新機能を見ながら次のリリースを考えると思います。

2024年の展開

動画生成AIはホットな話題になります。とはいえ、金食い虫なので、60秒までハードルがあがっただけでも相当数のスタートアップは脱落すると思います。GoogleやMicrosoftに対抗できるプレイヤーは限られてきます。
2024年はエコシステム戦争の年かなと予想します。


参考文献


テキスト指示で動画生成 OpenAIが新技術「Sora」を公開 まるで実写のような動画を作成|TBS NEWS DIG https://www.youtube.com/watch?v=8cm4zXLqSzE

【アメリカ・オープンAI】文章から動画を作成する新たなAI「Sora」開発を発表 https://www.youtube.com/watch?v=c3XyQB50XDw

生成AI 「Sora」発表 文章から動画を作成【WBS】(2024年2月16日)https://www.youtube.com/watch?v=s2YlQKJVbWQ

Sora https://openai.com/sora

この記事が気に入ったらサポートをしてみませんか?