初心者は"動画生成AI"に手を出すな。

2024年7月9日 16:56

生成AIに詳しくない人は「動画生成AI」に課金するのは”まだ”やめた方がいいです。
ろくに動画も作れず、お金も情熱も無駄になる可能性があります。

・史上最強の動画生成AI？

2024年7月2日に「Gen-3 Alpha」という動画の生成AIがrunwayという会社から発表されました。
これは作りたい動画を「言葉」で入力すると、それに基づいて動画を数分で作成してくれるAIです。

その動画のクオリティが凄まじく、Xでは生成AIの猛者たち？がこぞって絶賛していました。

https://x.com/ryo_kun0811/status/1807829970577920352

たったいま一般公開された『Gen-3』
実際に作ってみたけどヤバすぎるわ。

完全に動画生成AIのトップ行ってる。
普通に頭一つ飛び抜けてる😇

プロンプト↓：
１人称視点のドローンが宇宙から
日本を目掛けて高速で落下する pic.twitter.com/saZdwsUtM0
— りょうちけ🦋AI×SNSの教科書📕 (@ryo_kun0811) July 1, 2024

https://x.com/br_d/status/1807986683226599806

gen3
スゴいっす。日本人も普通に出せる。
破綻も少ない。

映像とかに1カットぱっと出されたら、判断つかないレベル。 pic.twitter.com/WLgK2lUDI9
— BD (@br_d) July 2, 2024

こういったポストを見ると、生成AIを学び始めて間もない人はこう思うのではないでしょうか。

「動画生成AI？使ったことないけど、めちゃくちゃ映像キレイだな。」

「なんか簡単そうだし面白そう！」

「これなら自分にもできるかも」

お気持ち、よ〜くわかります。

僕もそう考えて、即行で課金しました。

でもちょっと待ってください。

まず実際に僕が作った動画をご覧ください。

①テーマ「森で熊に追いかけられる男性を、男性の正面から撮影したもの」

②テーマ「結婚式会場に向かう多数のゲストを、低いアングルから撮影したもの」

ちなみにこれはどっちも数回、いや数十回入力をやり直した結果できた作品です。

もうお気づきになられたでしょうか？

そうなんです。

初心者がいきなりやっても、全っ然うまくいかないんです。

①の方は、森で熊に襲われてそうな緊迫した男性が描かれていて、それはいいんですが、肝心の「熊」が全然出てきません。

②は「ゲスト」ではなく「ウェディングドレスを着た新婦」っぽい方がメインで映り込んできやがります。

ちなみにこの動画、１本作るのに150-250円かかります。（作り放題プランもありますが、値段は約15000円/月！）

素人が動画生成AIを使ってサクサク動画を作る、なんてのは無理ゲーだと気付かされました。

難易度が高すぎます。

でもなんでこんなことになってしまうんでしょうか。

・言葉を映像にするって、めちゃ難しい

さっきも言いましたが、このGen-3モデルは「言葉」を入力して「動画」を生成するタイプのAIです。

なので、頭の中で思い描くイメージを実際の映像にするために、様々な「言葉」を入力します。

そして出来上がった映像を見て、改善点をchatGPTなどに相談しながら、改めて言葉を入力します。

この作業を何十回と繰り返した後に、
最初と最後にできた映像を比べてみました。

その結果、、、

この変わらなさは、あの荒ぶってた頃の安西先生も冷や汗を隠せないレベルです。(知らない方すみません)

そこでようやく気づきました。

「言葉を映像にする」ってめちゃくちゃ難しい！！

考えてみると当たり前ですが、
「言葉」と「映像」って情報量がケタ違いなんですよね。

例えばさっきの「熊に追いかけられる男性」を映像にしようとした場合に、クマが映らなかったり、いたとしても全く追いかけてこなかったりするわけです。

これは「追いかける」という言葉１つをとっても、映像としての解釈の幅がものすごく広いことを表しています。

僕の解釈:
(人間を襲うために)距離を縮めようとガチで向かって来て差し迫ってくるイメージ

その他の解釈例
・熊がはるか後方から男性を追跡する、という意味合い。
→熊の姿は男性からは見えない。
・男性に興味があり、ゆっくり近づいてくる、という意味合い。
→熊は走って来ず、男性にゆっくり向かってくる。

これは僕が思いつくほんの一例で、実際のAIは「追いかける」という言葉が持つ無数の解釈の可能性を検討します。

それゆえに、このままではこちらが描くイメージとAIの出力が一致することはほぼないです。

これに対してより具体的な指示を試みる必要があります。
"熊が「攻撃的な態度で」人を追いかける。"

などに変更するんです。

これで解釈の幅はさっきより狭まりますが、1つにはなりません。
「攻撃的な態度」も解釈がたくさんあります。

解釈を狭めるために言葉を増やしても、
増やした言葉にも解釈の幅が出てきてしまうんです。

こうして果てしなく思える試行錯誤をする羽目になります。

そう考えているうちに、ふと思いました。

てか人間って凄くない！？？

「熊が人を追いかける映像」をイメージしてくださいと言われたら、
大抵の人は「熊が人間を襲うために後ろから迫ってくる緊迫した様子」を思い浮かべるとおもうんです。

「熊が追いかける」って言っても、
熊ははるか後方だろうと考えて「男性だけが走ってるシーン」を思い浮かべたり、
熊がフレンドリーに一緒に並走してくるシーンを思い浮かべる人ってまずいないですよね？(くまのプーさん観た直後ならありえるかも)

このようにAIと比べると、
人間って話し手と聞き手の「言葉」のイメージのズレがめちゃくちゃ小さいと思うんです。

もちろん、聞き手が勘違いして途中で辻褄が合わなくなって、確認したら全然違う解釈をしてたことってありますよね。　

でもそれって笑い話になりません？
「なんだ、そういうことね！てっきり○○だと思ってたわ笑」
みたいな。

笑い話になるのは、普段は起こらない"おかしな"ことだからです。

毎回これが起きてたら、笑い話になんかならず、伝わらないことにイライラするだけです。

それくらい人間って言葉を文脈で捉えて具体的にイメージする能力を共有してるんです。

この点において、人間は現在の生成AIの能力のはるか上を行ってると思います。

このギャップを埋めるために、生成AIに丁寧かつ具体的に「言葉」を入力する必要があるんですが、
自分は容易にイメージできてしまうからこそ、これがなかなか難しい。
"一般人に理解されない天才の苦悩"と同じ類の感情を、ここで誰もが経験するはずです。

これはchatGPTを駆使しても素人が簡単に扱える代物ではないです。

そういう意味で、初心者が軽い気持ちで動画生成AIに手を出すのは、リスクが高いです。

もちろん初心者でもこれからガチでやるなら、やった方が良いでしょう。

その場合は、unlimited planは必須と思います。

月に20-30回くらいの出力制限がついたプランは値段は安いですが、色々試してる内にあっという間に上限が来て結局無駄になります。

月に一万以上課金する気のない方は、まずは他のタイプの生成AIを色々いじってみてからここに戻ってくるのでも良いのではないでしょうか。

今回のお話は以上です。

様々なご意見があると思うので、
別の意見や補足などがあればガンガンコメントいただけると嬉しいです。必ず全部読みます。

最後まで読んでくださりありがとうございました。

この記事が気に入ったらサポートをしてみませんか？