Luma Dream Machine登場 -Sora並みのクオリティ+[説明,実例] 動画生成AIの今
ここ2週間ほど、動画作成AI、Luma社の「Dream Machine」が評判になっています。
Runway Gen-2は「AI感ありあり」
動画作成といえば、圧倒的なクオリティを持つOpenAIのSoraが大騒ぎになったものの、リリースは未定。その後、話題になった中国KuaishouのKlingは、中国限定です。
そうしたわけで、よく使われる動画作成ツールは、画像生成AIで有名なStable Diffusionを共同開発したRunway社が開発したRunway Gen-2でした。
しかしながら、正直なところ「AIで作りました」感がありありでした。
突如登場したDream Machine
そんな中で、突如登場したのがDream Machineです。
Luma社のサイトの動画サンプルを見るとわかるように、かなりクオリティの高い動画が作成できます。
ビデオカメラの位置や構図など、細かく指定すれば、映画のような凝った動画も作成できます(※音声ありなのでご注意下さい)。
AI中山の再現
昨年、僕は自分のアバターである「AI中山」を開発して、オンライン会議に出したという記事を書きました。当時は数万行のコードを書かないと実現できないことで、それが話題になり、日経BP社の媒体で連載も持たせて頂きました。
それ以降、「AI中山を見せてください」という依頼が多々ありますが、現在はシステム自体を削除しています。落ち着いたら新「AI中山」を作成してみたいと思っています。
なお、AI中山を再度作ってみたいと最近僕が思ったのは、実はMicrosoftのCopilot+PCの発表を見たからです。
これについては別に記事を書きたいと思います。
ただ、完全再現はできないながらも、イメージだけならDream Machineでも簡単に作れます。さっそく、やってみましょう。
【実例】「AI中山」のイメージを作ってみた
「AI中山」の写真原本をDream Machineで、動画にしてみましょう。
プロンプトは、単にAIアバターなので、シンプルそのものです。
「Video of the man in this photo having an online video conference」
(この写真の男性が、オンラインビデオ会議をしている動画)
すると...
この画像の矢印をクリックするとYouTubeの画面が立ち上がりますので、動画を再生してみてください。
サイトが混んでいるのか、制作には3分ほどかかりましたが、それでも、このクオリティです。
作成した動画には、写真には存在していない手、ノートPC、テーブルなどが、指示もしていないのに入っています。まさにオンライン会議風です。
ぱっと見ただけでは、偽物には見えないレベルに仕上がっています。しかもインターネット経由の場合は多少の画像の粗さもありますし、そもそも、zoom会議などの分割された画面では、参加者の顔をじっくり見ることはまれです。それもあって何となく、本人に見えてしまいます。
既述のように、昨年の「AI中山」開発にかなりの時間を割きました。それが写真+簡単なプロンプトでできるとは...生成AIの進化は、本当に速すぎます。
Dream Machineの料金プラン
ちなみにLuma AI「Dream Machine」の料金プランは、
無料プラン:
月に30回の生成が可能
スタンダードプラン:
月額 29.99ドル。月に120回の生成が可能
です。まずは無料プランで30動画を作ってみるのをお勧めします。
AIアバター動画作成ならHeyGenで十分
最近、AIゆりこ(小池百合子東京都知事)、AIホリエモン、など、AIアバターが流行っていますね。
激しく動く動画や映像ではなく、単に写真から作って入力した文字を地声で話すAIアバターだけでいいなら、Dream Machineを使うよりも、有名なHeyGenを使うといいでしょう。
多くのAIアバターはHeyGenで作成されています。
自分が正面で適当に何かを話す自撮り動画をiPhoneで数分間撮影してからHeyGenにアップロード。30分もあれば、簡単にAIアバターは作成できますよ!
AIゆりこが出現して驚いてる方が多く、こうしたAIアバター作成ツールをご存じない方が多いので、生成AI動画と共に、ご紹介しておきます。
動画生成のプロンプトの難しさ
ところで、生成AI動画のプロンプトはどう書けばいいのでしょう? 先ほどの僕のアバターが話しているような動画は、比較的単純な1~2行のプロンプトで作れました。
でも、これが映画のような動画だったら、どう書きますか?
映画だと、10秒~数分のシーンカットの動画を数百程度、動画編集ツールでつなぎ合わせないと作れません。
こう書くと、Dream Machineでも作れるのでは?と思われそうですが、そんな簡単ではありません。
なぜなら映画などの動画は以下のようなことを指定しないといけません。
主題 (Main Object)
映像の中心となる対象物やキャラクター
例: 美しい女優、 戦場の兵士、アニメキャラ など
アクション (Action)
主題が行う動作やイベント
例: ゆっくり歩く、空を飛ぶ、踊る など
場所 (Setting)
シーンが展開される場所や環境
例: 19世紀のヨーロッパの古城、未来の電脳都市 など
時間 (Time)
シーンが起こる時間や時期
例: 数秒間の回転、朝方、朝方の靄 など
雰囲気 (Atmosphere)
シーン全体の感情的なトーンやムード
例: ロマンチックな感じ、ノスタルジックな感じ など
カメラ技法 (Camera Technique)
撮影方法やカメラの動き(対象物をどうカメラで撮るか)
例: クローズアップ、 カメラを回る、カメラを引く
特殊効果 (Special Effects)
シーンに追加される視覚的な効果や後処理
例: 太陽が沈む背景の中、波しぶきの中、ネオンの光 など...
こうしたことを事細かくプロンプトに1シーンごとに書いていかないといけません。しかも1回で理想通りの動画はほとんどできません。
現に、Dream Machineで、僕は30回程度プロンプトから動画を作成しましたが、プロンプト通りにできたのは3本でした。
残り27本は、手がなかったり、歩いてる途中に足が消えていたり、で、どこかしら破綻した動画です。
ちなみに細かくプロンプトを書こうとすると、
デジタルな背景に浮かぶサイボーグの顔が、ゆっくりとまばたきしながら微笑むシーンを作成してください。顔のパーツがランダムに変形したり、目や口がコミカルに動いたりする動きを取り入れてください。背景の回路図やデジタルエフェクトがキラキラと光るアニメーションも追加し、全体的にサイバーパンクな雰囲気を強調してください。カメラワークとして、最初は少し離れた位置から始まり、ゆっくりと顔に近づいていく動きを取り入れてください。カメラが近づくにつれて、顔のディテールがより鮮明に見えるようにしてください。
といった複雑なプロンプトで指定しないと、クリエイティブな動画は作成できません。難しいですよね?(笑)
現時点では画像や写真を動かすのが現実的
現時点での生成動画作成ツールを使うコツは、
・手持ちの写真や動画を準備
・ない場合は、Chat-GPT4oで画像を生成する
・その画像を、動画生成ツールに渡す
・どのように動かすかのプロンプトをChat-GPT4oに考えてもらう
という手順で行うことです。
例えば、「アップロードした画像を面白く動かす動画生成プロンプトを提案して」と、Chat-GPTにお願いして、提示してきたプロンプトを編集します。そうでもしないと、現時点での技術では、このような複雑なプロンプトは作成できません。
そして数年後、映画の脚本を読み込んで、2時間の映画を作成できるようになるかもしれませんね。楽しみです。
では、画像をアップロードして遊んでみてください。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?