「SORAのぶっちゃけ使用感」要約とCling/Dream Machine/Gen3の登場〈生成ガチャはまだまだ続く〉
最近、動画制作業の方々と話していると、今年頭のSORA登場インパクトから「そのうち仕事がなくなるのでは」🫨と感じている方が少なくないです
「まだそこまで万能じゃないよ」という下記の記事を知らない方もいらっしゃるので、改めて説明用&備忘録としてざっくり翻訳・要約しました
元記事はこちら「fx guide」
👇25年の歴史を持つ特殊効果専門メディアです
「SORAを実際に使ってみて」
SORAのぶっちゃけ使用感
インタビュー記事の要約
Shy KidsとSORAについて
Shy Kidsは、AI技術の導入に積極的なカナダ(トロント)のクリエイティブ系映像制作チーム
Open AIが直々に開発版のテスト試用を依頼したアーティストたちの一組
風船頭の主人公が登場するオリジナル短編映像「Air Head」を制作した
SORAの特徴と現状
UIはテキストでプロンプトを入力する形式
テキストから動画を生成するAI、DALL·Eの動画版と言える
まだ開発段階であり、思い通りの映像を生成するためのコントロールが難しい
複数のカット間で要素の一貫性(コンシステンシー)を保つのが特に難しい
カメラワークをプロンプトに入れても効かない。おそらく撮影に関する知識、例えばカメラワークについての情報(「トラッキング」「パン」「ティルト」「ドリー」等)が学習元の動画にメタ情報として存在しないせいか?
(※注 動画は主にYoutubeから学習されている事が確認されています)解像度は最大720P
1クリップの生成尺は最大で20秒程度
生成時間は10分から20分程度
著作権に配慮し、特定の作品・人物に酷似した映像生成につながるプロンプトが制限される(DALL·E同様か、さらに厳しめ)
例えば「未来的な宇宙船の中を、ライトセーバーを持った男性が歩く様子を35mmフィルムで撮影したような映像」というプロンプトでも生成が拒否される
テクニカルな用語でも例えば「ヒッチコック・ズーム」といったプロンプトは弾かれた
「Air Head」制作の具体的な裏話
(重要情報)
短編用の脚本は用意していたが、結局は膨大な量の映像素材を先に生成し、そこからナレーションに合わせてドキュメンタリーのように編集する手法を取った
明確に記録していないが、1分30秒の映像の生成のために、おそらく300倍ぐらいの尺を生成した
メインキャラの「黄色い風船頭」はカットごとに後工程で色を修正したり風船そのものの形状修正などを施した
(現在の動画生成AI同様に)特有のスローモーションで生成されることが多く、50%~70%のタイムリマップで調整している
「35mmフィルム」等のキーワードで、映像の雰囲気をある程度コントロールできたが、カラコレ/グレーディング/ノイズ追加などは後から施している
720pでは生成に時間がかかりすぎたため、480pで出力してTopazでアップスケーリングした
今後について
Shy Kidsは、SORAを使った新作を制作中
実際の映像との合成やVFXツールとしての活用など、新たな表現方法を模索
SORAは、映像制作に革新をもたらす可能性を秘めている
現状の結論:
まだまだ生成ガチャは続く。
今は「コラージュ」的制作手法を楽しめ!
ということで、
少なくともクライアントワークの動画制作業が数年内に全てAIに奪われるなんて事態は、少なくともあと5年は訪れないでしょう
人文系クラスタで流行るAI情報は「ヤバい」「エグい」「ゲームエンド」といったプロ驚き屋ムーブの煽り文言が強調されがちなので、
AIの可能性と活用方法を真剣に研究するにはより積極的に客観的な一次情報を探す必要性を感じます
SORAに迫る新動画生成AIが続々登場
🆕6月7日、中華系の新動画生成AI
「kling」が一般リリース
中国のKwai(快手)からSoraに迫るコンシステンシーを有する動画生成モデルが、前触れもなく突然一般向けにリリースされました
ユーザーたちが続々と上げている作例はなかなかのクオリティです
ですが、
見る限りでは、こちらもSoraと同じく、クライアントワークに使えるような細かいコントロールは効かない模様です
一生懸命アライメントしようとしているOPEN AIに比べて
ユーザーがやりたい放題で充分楽しそうではありますが😀
🆕6月12日、Luma AIから
Dream Machineがリリース
こちらは中華アプリを落とさずとも無料で触れます
とういう事でさっそく触ってみました
Consistencyの維持力に素晴らしいものがあります!
…ですが、やはり思った通りの動画を作ろうにも
その方法はなく、従来どおりガチャするしかないです
そしてガチャを回すにはクソ高すぎます…
プロンプトで動画を制御する事自体の限界点
↑ こちらのキャラクター生成実験を通じても感じた事なのですが、
そもそも、テキスト(プロンプト)だけで
複雑な情報の塊である動画の生成指示をどこまで精緻に与えきれるのか、
動画操作の方法論としての限界が見えます
ここにUIで果敢に挑んでいるのがGEN2の「MotionBrush」なのですが
こちらも指示方法としてなかなか難しいところがあると感じます
3Dソフトウェアでアニメーションシーンを作る方はわかると思いますが、あの一連の複雑に詰めていく撮影行程を自動化する方法が果たしてあるのだろうか??という根本問題につきあたります
動画生成に演出意図を反映させる方法論の確率には、UnityやUnreal EngineにおけるAIによるUX改善のフィードバックを待つ事になるのかもしれません