【AI活用】動画キャプチャ画像をAIアップスケーラで高画質化【ローカル】

2024年6月21日 04:58

はじめに

ネットで利用できる拡散モデルの高性能アップスケーラは有料かつ高価である事が多い（例：Magnifiy AI・5900円/月）のですが、やはりその理由は、それに見合った価値があるからではないでしょうか。

たとえば、（一般的に高画質でない）動画のキャプチャ画像をトリミングしたものをアップスケールすれば、任意のショットを高精細な静止画の素材として利用する事もできます。一気に素材の利用範囲が広がります。わざわざ高画質なものを探す必要はなく、汚い画像であってもおよその構図さえ得られればアップスケールでどうにでもなるのですから。

今までのアップスケーラ（AI系であっても画像編集ソフトに付属のものやネットで無料で利用できるもの）は、のっぺりしたり、輪郭や色調が強調されるだけであったり、真の意味で「高画質」になったとは言えないものでした。しかし、拡散モデルを利用したAIアップスケール手法が登場してから、元画像に情報として存在しないものを自由に生成する事が出来るので、飛躍的に高画質になりました。もちろん「存在しない」ものを勝手に生成してしまうので、高画質かどうかという事よりも、いかに元画像のアイデンティティを保てるかどうかが拡散モデルアップスケーラの「性能」になっています。

※ アイデンティティを保つ必要がなければ、img2img を利用するだけで済みます（例：hi-res fix）。どんな低品質な人物写真も Denoising strength を調整する事で、必ず Stable Diffusion で生成する高精細な量産型美人になります。つまり重要な事は、高画質である事ではなく、元画像の特徴をちゃんと継承したまま解像度を上げているかどうかです。

この記事では、下記記事で紹介の Stable Diffusion を利用したアップスケーラを利用して、動画のキャプチャ画像を高品質静止画素材として利用できる品質になるかどうかを確かめていきます。

動画キャプチャ・アップスケール例①

利用している Stable Diffusion モデルは RealisticVision です。人物は良く学習されているので、特に試行錯誤しなくても人物や服装は精度良くアップスケールできます。

動画アップスケール例②

Stable Diffusion は単調な領域が苦手とされています。どのノイズスケジューラでも学習・推論が上手くできないそうです。この例でもまゆ毛やまつげはより高精細に生成できていますが、肌の部分のテカリの情報は大きく失ってしまっています。※ ESRGAN を利用しただけでは失われません

動画アップスケール例③

人の場合は、輪郭が少しずれるだけでアイデンティティを失いますが、動物の場合はより自由に「生成」しても気になりません。自然画像は Stable Diffusion アップスケーラの最も得意とするところかもしれません。

動画アップスケール例④

直線の多い構造物やビルなどの写真は、基本的に「形状がずれる＝劣化」となるので、拡散モデル・アップスケーラの苦手なものの一つです。この手の画像をアップスケールする時は、全体を一度に生成するのではなく、Ultimate SD Upscaler 等のタイル状にしてから拡大する手法が適しています。

動画アップスケール例⑤

構造物がある程度存在するので、よく見ると変な箇所がありますが、基本的に良くアップスケールできていると思います。

動画アップスケール例⑥

まとめ

複雑な直線構造物を含まない人物や自然の画像は、かなり綺麗にアップスケールする事ができます。ちゃんとチューニングすれば、有料サービス以上のクオリティを出せます。ただし１枚作成するのに2分程度必要（RTX 3060）なため、簡単にホイホイ出来るようなものではありません。その点では有料サービスはかなり魅力的かもしれませんね。

※ もちろん、以前の記事にも書きましたが、オンラインサービスだと情報流出の懸念や著作物が利用できないなどの問題があるので、ローカルですべて完結できる事は大きな強みです

この記事が気に入ったらサポートをしてみませんか？