リアル実写系AI動画についての個人的見解

2024年8月13日 19:21

動画生成AIのKlingやRunwayのGen-3が登場してからというもの、いや特にGen-3が登場してから、よりリアルなAI画像、つまり「これ本当にAIなの？」といったAI動画生成を試みるユーザーの動きが主に海外中心に見られます。（2024年8月13日現在）

そういった動きは、画像生成AIのパイオニアともいえる「Stable Diffusion」の共同開発者たちによって設立されたベンチャー企業「Black Forest Labs」が、現地時間8月1日に発表した画像生成AI「FLUX」が海外で高評価という背景もあると思います。

「FLUX」によって、より写実的・現実的な人物画像が生成可能となれば、その画像を動画化してみたいというのは、ごく自然な流れでしょうし。

さて、まずは以下のAI動画を観てほしいです。

100%AIのYouTuber

AIリテラシーがない/薄い層には「スゴイ」と持て囃されそうだけど、背景がボケてるのが非リアルで惜しい気がする

この技術の知識があれば画像生成時に被写体と背景を分けて生成するのは容易なはずなのに何でだろpic.twitter.com/krddJOZ12v
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) August 10, 2024

私が動画引用投稿したものですが、元動画の投稿によると、FLUXとKlingによって制作したAI動画であることがわかります。

↑の投稿のリプで、個人的な見解をつらつらと書きましたが、正直、見る人によって意見はそれぞれなのかな、とは思います。

その上で、私の個人的な見解と感想としては、被写体である女性がくっきり、背景がぼけてる構図に違和感があるなと感じました。

以下、↑の私のリプと少し重複しますが、より詳細に言いますと、

実際に背景がぼけていて、被写体がくっきりとしているAI生成動画は、視覚的な不自然さを生むことがあります。

特に、現実世界では、自然な背景ぼけ（ボケ効果）は特定の条件下でしか発生しないため、AIがこの効果を意図的に適用している場合、違和感を感じるのは自然なこと、だとは個人的には思います。

主体を際立たせるために、背景を意図的にぼかすという撮り方は使われる撮影手法ではありますが、それが例えばAI動画で頭からケツまで背景がぼけていると、違和感となります。

個人的に、↓のAI動画も同様です。

FLUX Realism LoRA on @FAL animated by @hedra_labs

Image results below: pic.twitter.com/aHrlHE7ZS2
— Heather Cooper (@HBCoop_) August 10, 2024

さきほどのAI動画と同様に、被写体である女性はくっきりと、そして背景がぼけています。

なのでこちらも個人的には違和感を感じます。

ですが、こうした動画が「いいね」やリツイートされている理由を考えてみるに、視覚的なインパクトや技術の新しさ、リアルさに対する期待感、そしてSNS上での話題性などが考えられるのかなと思いました。

多くのユーザーは、AIが生成した映像を評価する際に、その技術的な進歩やリアルさに注目するため、細かな違和感を見逃したり、意図的に無視することがあるかもしれません。

また、SNSでの拡散は必ずしも品質や現実性だけに基づくものではなく、視覚的なインパクトや話題性が大きく影響することがあります。

ちなみに、私の感じる”違和感”ですが、AI動画が2D・アニメなら別にいいんです。何も違和感はないと思います。

ですが、↑の2つのAI動画のように、所謂リアル系のを生成するなら、やっぱりゴールはひたすらリアルなんじゃないのかな、と思うからこそ、背景ぼけは気になるわけです。

リアル系の動画をAIで生成する場合、「とにかくリアルさ」が最も重要な目標であるべきだと考えるのが自然なようには思えます。

2Dアニメでは、スタイライズされた表現が許容されるため、背景がぼけていたり、特定の視覚効果が強調されていても、それが作品の魅力として受け入れられることが多いです。

しかし、リアル系の動画では、現実のカメラで撮影された映像にどれだけ近づけるかが評価基準となります。

背景のぼけ方や被写体のクッキリ感が不自然であると、視聴者は無意識のうちにその映像が「何か違う」と感じてしまうかもしれません。私のように。

特に、被写体と背景の間に不自然な境界線が生じたり、焦点の合い方が不均一だったりすると、リアルさが損なわれます。

こうした違和感が、特にリアル系の映像においては大きなマイナスポイントになることがあります。（とにかくリアルさがゴールだった場合）

リアルさを追求するためには、背景のぼかし（ボケ効果）を適切にコントロールすることが重要です。

これは、実際のカメラでいう被写界深度（DOF）をシミュレートするか、映像内の各要素に対して適切な距離感や焦点を設定することで実現されます。

AIが生成する映像においても、これらの要素を自然に取り入れることが求められます。

↑のようなリアル系のAI動画の出来を否定しているわけではありません。

背景ぼかしてるというかぼけている点が勿体ないなぁ、と。（上からの物言いに聞こえてしまったらすみません）

ただ、個人的な見解としては、リアル系の映像において背景が不自然にぼけている場合、その映像のリアリズムが損なわれることは明らかなんじゃないのかなと。

この辺はAI生成技術がまだ解決すべき課題の一つであり、今後の技術進化に期待が寄せられる部分でもあるとも思います。

この点についてSNSや他の場所で議論を促進することは、AI技術の開発者や利用者にとっても有益なんでしょうね。

AI動画ファンが注目するSoraのような高度なAIツールが一般に使えるようになり、画像生成AIで生成された「被写体くっきり背景ぼけ」というスタイルをユーザーの指示でコントロールできるようになると、よりリアルで自然な映像が作成できるようになればいいなぁ。

具体的には、ユーザーが生成過程でぼかし効果の強さや適用範囲を調整できるようになることで、リアリズムを損なわない映像が生成されることになります。

これにより、被写界深度を細かく設定したり、背景のぼかし具合をシーンに応じて調整することができるので、より自然で没入感のある映像が生まれるはずです。

さらに、AI技術が進化することで、被写体と背景の間の距離や光の条件をリアルタイムで判断し、最適なぼかし効果を自動的に適用できるようになることも期待されます。これにより、ユーザーは簡単に高品質でリアルな映像を作成できるようになるでしょう。

将来的には、Soraのようなツールが一般に普及し、画像や動画の生成過程でこうした微細なコントロールが可能になれば、リアル系映像のクオリティが一層向上することが期待できます。

現状だと、画像生成時に件の”被写体くっきり・背景ぼけてる”状態の画像が生成された際、被写体と背景を同じ濃度にするためには、AI画像背景削除で被写体だけを抽出→別途ぼけていない背景画像と合成、といった形が可能かと思いますが、そういう形ではなく、それこそワンクリックで「全体の濃度を統一」みたいに制御可能になれば良いなぁ…と思ってます。

以上、つらつらと長文・乱文失礼しました。

AI動画における個人的見解、リアリズムを追求する視点と技術的課題を明確にしつつ、未来の技術進化に対する期待感を述べました。

正直、画像生成段階でAIは背景をぼかしがちではあるので、これは本当に難しい問題ではあるんです。

それでいて、画像生成段階で出来が良いと思えるものは、一度そのまま動画化して試してみたいという気持ちが生まれるのは自然なことなのだろうとも。

例えば、↓の1人目の女の子は背景ぼけですが、リアルという観点ではトータルクオリティは高いと判断したので動画化したものです。

動画生成AIのKLING生成のAI動画

所作に納得も口の動きが日本語ナイズじゃないのはKLINGが中国産だから日本語を喋る口の動きの学習データが無いと解釈、リップシンクが難しい#AI美女リアル #KLING #aimovie pic.twitter.com/Ku4mf7HfAr
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) August 14, 2024

↑の場合はまだ被写体が全体の割合の8～9割を占めるクローズアップ具合なので背景ぼけはそこまで気にならないレベルではあると個人的には思っていますが、やはり「あれ？何かこの動画おかしいな」と思ってしまいます。（作った本人だからか気にしすぎなのか…）

”被写体くっきり背景ぼけ”の構図は、被写体の大きさによって違和感を生むと思うんです。

前半の2つのAI動画同様に、↓の動画も。

一般に公開されていない限定的なアクセス権の画像生成AI「Mystic」で生成された画像→Runway Gen-3でAI動画化されたものですが

どれだけ画像・被写体が鮮明で高解像度でも背景がぼけているままAI動画化すると現実目線では違和感があるのがよくわかる例pic.twitter.com/duczDXpvqt
— 木村修也【ChatGPT ✖ 最新AI情報】 (@syuyakimura) August 19, 2024

また前半部分で述べたこととやや重複しますが、現実世界では、特に動画や映像において、人間の視覚は背景と被写体の関係を自然に認識します。

被写体がくっきりと映っていて、背景が極端にぼけている場合、それは撮影手法の一部として意図的に行われることが多いです。

しかし、AIが生成した動画でそのようなぼかしが施されると、視覚的に違和感が生じることがあります。

この違和感の原因は、現実世界の物理的な現象に基づいていないため、映像が不自然に感じられるからです。

特にAI生成動画では、背景のぼかしがリアルな光学効果を再現するのではなく、単純に背景を処理しているだけの場合、視覚的に「リアルではない」という印象を与えることがあります。

一方で、静止画（AI画像）だけの観点では、背景のぼかしがクリエイティブな要素として認識されることが多く、視覚的な違和感が薄れるのは、観る側が意図的な表現として受け入れやすいように思えます。

静止画では、アーティストが視覚効果を活用して特定の焦点を強調することが許容され、クリエイティブな選択として捉えられることが多いです。

これにより、リアルではなくとも、作品として評価されやすいのかもしれません。

私の「被写体が鮮明で高解像度でも、背景がぼけたままAI動画化すると現実目線では違和感がある」というのは、的を射た観察だと自負しており、これはAI生成コンテンツのリアリズムを追求する上での重要なポイントであり、視聴者にとって自然に見える映像を作り出すために、AI技術者やクリエイターが取り組むべき課題の一つでもあるとも思っています。

この記事が気に入ったらサポートをしてみませんか？