アニメーション系動画生成AIに求められる課題

木村修也【ChatGPT ✖ 最新AI情報】

2024年4月3日 11:30

今回は、画像生成AIと動画生成AIのことで少し。

3ヶ月ほど前に、以下記事を書きましたが、アニメーション系動画生成AIに関しては、ざっくり言ってしまえば変わっていません。

ただ、アニメーション系動画生成AI界隈の動きとしては、ChatGPTの開発で知られるOpenAIによる「Sora」の発表がありました。

画像生成AI界隈では、Midjourneyが、同一人物作成・一貫性対応新機能「キャラクター・リファレンス（Character Reference）」を実装したことは、なかなか革命的だったと思います。

今のところ、画像生成AIにおいて、↑のMidjourneyの機能は他画像生成AIでは同一レベルのものはないと言えます。（キャラのSEED値を設定しての生成は別物です）

ただ、どれだけ画像生成AI側で、一貫性のあるキャラ・人物画像を生成できても、アニメーション系動画生成AI側で、一貫性が保持できない

というのが現状です。

これは観てもらったほうが話が早いというか、わかりやすいでしょう。

↑の画像は、Midjourneyで、”現実世界の中を走る非現実世界の人間”というテーマで生成した画像です。（一貫性自体は意識せず生成）

こちらの画像を、アニメーション系動画生成AI「RunwayのGen-2」で動画化してみたのが、↓の動画です。
※リンク先は動画確認用の私のYouTubeチャンネルで限定公開しています

RunwayのGen-2で、画像から動画生成する場合、4秒間の動画が生成可能です。以降、+4秒ずつ追加生成→18秒までの尺が可能です。

ただ、ご覧頂くと直ぐにわかるかと思いますが、動画の最初と最後はもう別人です。時間の経過によって、被写体である男の子の一貫性が段々崩れていく様子が見て取れます。

RunwayのGen-2やPIKA、PixVerseといったアニメーション系動画生成AIの主要どころのサービスは軒並み↑のように一貫性を保てず、崩れてしまいます。（個人的には、普段よく使うPixVerseがまだ制御できるかなという所感）

このように、たとえ画像生成AIである程度キャラ設定して、一貫性を保った画像を複数枚生成したとしても、アニメーション系動画生成AIとの連携が上手く出来ないのです。

現状のアニメーション系動画生成AIは、カット割りなしで一貫性のある動画生成には課題があります。

▼アニメーション系動画生成AIにおける現状の課題

同一人物の一貫性保持が苦手: PIKA、RUNWAYのGEN-2、PixVerseなど、主流なアニメーション系の動画生成AIは、4秒程度の長さであれば同一人物の顔や容姿の一貫性を保つことが可能。しかし、それ以上の長さになると、顔が崩れたり、別人になったりしてしまうことがある。

なぜ、このような問題が起こるのかを考えるに、アニメーション系動画生成AIは画像生成AIと比べて処理量が膨大、また、画像生成AIと比べて学習データが少ないため、精度の向上が難しいのではないかと考えられます。

このような課題があるがゆえに、海外のクリエイター中心にXにポストされているアニメーション系動画生成AIでの生成動画はほぼ100％、以下のようなカット割り構成になっています。

構成例）
女性A→景色・風景A→女性B→景色・風景B→女性Cないし他の人物キャラ

↑のカット割りで、各3秒程度の短いクリップ（それらを動画編集ソフトやツールで結合）をつなぎ合わせて1本の動画にするというのが、現状の基本的なアニメーション系動画生成AIでの方法になります。

↑の構成例の場合、各クリップ3秒程度（全体の尺的には15秒程度）で、その中ではじめに登場する女性Aは、一度出てきたらもうその動画内では出てくることは基本的にはありません。

ほぼ確実にというくらい、違う別カットに切り替わる構成の動画が大多数です。

女性Aの別カットを当て込むことが出来れば、1つの動画内で複数回、同一人物/キャラを登場させることは可能ですが、3秒程度のクリップでもその3秒内で一貫性が保持できないケースがほとんどだと言っても過言ではありません。

そのため基本的には、アニメーション系動画生成AIで生成した動画＝3～4秒程度の短いクリップの、”上手くいった部分だけ”を、結合時に当て込んでいる形です。

あるいは、3秒の尺をスロー再生編集等で再生時間を遅くして、カットを分けて登場させる、といった工夫でしょうか。

生成AIで制作費0円CMテスト

キャスティング費用：0円
ロケ費用：0円
コンテ・台本制作費用：0円
撮影・編集費：0円
美術・衣装費：0円
ほか諸々0円

アイデアさえあれば製作費0円で15秒スポットCMが完成してしまう時代を改めて再認識@PixVerse_#PixVerse #Suno #VOICEVOX #AICM pic.twitter.com/0MhfNDYMyp
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) February 4, 2024

↑の動画は【3～5秒間で登場する女の子】と、【8～11秒間で登場する女の子】は、同一人物です。

ですが、同一人物としてアニメーション系動画生成AIでの生成が上手くいったとしても、そのクリップはイイとこせいぜい最長4秒程度となってしまうため、長く登場させられないのです。

このCM動画は、1人の女の子（＝同一人物）だけで、最初から最後までいきたかったというのが本来の製作意図でした。ですがそれができないため、このようなカット割りでのシーンとなった形です。（複数のカットで構成されるのが、シーンです）

次に、↓をご覧下さい。

被写体女性が同一女性/一貫性テスト(感情面も)
電車通過シーンのみ実際に撮った映像をMIX

Consistency test for target women (emotions too)
Only train passing was mixed with actual footage.

女性:#PlaygroundAI
背景:#Midjourney
UPS:#Myedit
動画生成:@PixVerse_
音楽:#SunoAI pic.twitter.com/MFD8mJXw7c
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) February 27, 2024

また手前味噌ですみませんが、↑のケースは、動画の素材となる画像、つまり画像生成AIでの生成画像が、その人物の一貫性を保持したうえで生成した画像を、アニメーション系動画生成AIで動画化→3秒～4秒程度の動画生成（クリップ）が上手くいった例です。

しかしながら、例えば1人の人物がある程度の長セリフを喋るワンシーンを作ることが出来ないのです。

「映画やドラマのような動画を作りたい」と考えた際、ChatGPTやGEMINI等でシナリオ/台本を考えてもらったとしても、既存のアニメーション系動画生成AIでは望むものは作れないかと思います。

例えば登場人物がAとBがそれぞれカット割りで会話するという形でも、各カットのクリップが、ギリギリ一貫性を保持できたとして4秒程度ではあっても、全てが4秒尺に収まる短いセリフというわけにはいかないでしょうし、会話となると、リップシンクも必要でしょう。

リップシンクとは、いわゆる”口パク”です。

また、よりこだわるなら”目パチ”もあったほうが良いとなります。
目パチとは、わかりやすく言えば”瞬き”のことです。

よくある海外女優の日本向けメッセージV

Message video for Japan by a common foreign actress

HeyGenやD-ID等のアバター系動画生成AIならもっとリップシンクもカット割りもスムーズなところ、あえてアニメーション系動画生成AI(PixVerse)で実験

違和感あるもアイデアは形にしたいタイプです pic.twitter.com/NLu19ij9yH
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) March 22, 2024

↑の動画は、1人の女性がインタビューを受けているというシーンです。

ところどころ口パク・目パチは見られるも、短いカットをつなげているため、1つのシーンとして捉えた際、不自然さが見られます。

このような動画生成の場合は、ポスト内でも触れているHeyGenが適しています。

[NEW] — Avatar in Motion 1.0🏃‍♂️✨

Move your hands, make gestures, use unique tones of voice, and HeyGen will flawlessly track, translate, and lip-sync your video with any input text.

Can't believe it?

👇Comment a script for what we should make Nik say & we’ll post the video! pic.twitter.com/d1X75Z5m2S
— HeyGen (@HeyGen_Official) March 27, 2024

HeyGenは、動画生成AIで、私的に”アバター系動画生成AI”と分類していますが、↑をご覧のようにプロモーション系ビデオの生成に向いていると言えます。

ここまでご覧いただいた通り、現状の既存のアニメーション系動画生成AIサービス・ツールには課題があります。

ただ、冒頭で触れたOpenAIの「Sora」であれば、前述した課題はクリア出来るものと思われます。

↑はSoraで生成された動画のスクリーンショット（クリックで公式ページで動画が確認できます）ですが、1人の女性が街中を歩いているというシーンです。

それも1分という、既存のアニメーション系動画生成AIでの生成尺を遥かに凌ぐ長さで、一貫性も保たれているのがわかりますし、「現状のアニメーション系動画生成AIにみられる課題を解決する技術がある」ということもわかります。

Soraの技術があるならば、アニメーション系動画生成AIの未来は明るいのかなと思っています。

Soraの技術が専売特許でもない限り、他の今あるアニメーション系動画生成AIでは難しいのかも知れませんが、技術としては確立されている以上、いずれ既存のサービスでも取り入れられるのでは、と。

↓の動画は↑のSora生成の動画を若干模して、都会の夜の街のシーンです。

動画は18秒尺ですが、生成した私からすると、シビアな感想としては出だし2秒程度だけが納得というか、「崩れていないな」と感じられる仕上がりです。
↓の生成画像と比較すると如実にそれが感じられます。歩いている人が途中で突然消えてしまったり、デジタルサイネージ広告の女性の顔の一貫性が保てず、時間経過で徐々にですが破綻していっているのです。（画像時点から首が若干おかしくはありますが）

ここまで読まれてお気付きになった方はいると思いますが、基本的に画像から動画生成AIで動画化（img_to_video）の際、生成される動画は元画像に比べて、ざっくり言うとやや粗くなってしまいます。

これを執筆している段階では、Soraの一般公開等の情報は出ていませんが、アニメーション系動画生成AIに関しては、生成された動画をつなぎあわせて完成、ではなく、一手間も二手間も加えた”動画の再構築”を、外部サービスやツールを用いて行うという形も、Soraが普通に利用できるころにはより台頭していると考えています。

このへんのアニメーション系動画生成AIに興味ある方は、サクッと以下ポストにて（一部動画は↑と重複しますが）チェックできます。

現状のアニメーション系動画生成AIは、カット割りなしのワンカット（長回し）での一貫性保持が難しく、時間経過と共に全体は破綻していく

制御やモーション設定等の調整はまた別、一貫性保持に限界があり、始めと終わりで絵面が違うのは課題点

Soraが出る頃にはアプデされていればイイなぁ... pic.twitter.com/plfs17YzWl
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) April 6, 2024

この記事が気に入ったらサポートをしてみませんか？