見出し画像

動画生成AIのプロンプトと、脚本のト書き

先に前置きしておくと、生成AIと脚本論を絡めて語ろうとしたら、思った以上に長くなりました……
先に謝っておきます、すみません。

それではどうぞ!

昨今AIが話題なのは言わずもがなですが、いよいよ動画分野の生成AIが本格的に実用レベルに迫ってきたなと思います。

open AIの「sora」(https://openai.com/index/sora/)とか、Luma AIの「Dream Machine」(https://lumalabs.ai/dream-machine)とか。

先日、「Dream Machine」が公開され、無料でも利用できるようになったので、これを使って映画予告編ふうの映像を作ってみました。

作り方を簡単に説明すると、
(1)Dream Machineに、「月面の遠景」「宇宙基地の中を歩く宇宙服姿の人」「月面を走る探査車」「月面に倒れている宇宙服の人物」…等、予告編として使えそうな内容を入力し、生成された画像の中から使えそうなものを選択
(2)音楽生成AI「suno」で映画予告編風の楽曲を複数生成し、その中から一番雰囲気が今回のイメージに近いものを選択
(3)音楽に合わせるかたちで映像を編集
という感じ。すごく簡単。

細かく見ていくと、人の動きとか、気になる点は色々あります。
それに、この映像を作るまでにかなりの回数(実際に使ったカット数の3〜4倍)の生成を行い、使えるカットだけを選出しているので、実際は使えなかった(不自然だったり、意図と違う映像になってしまった)カットもたくさんありました。
あと、何が生成されてもあまり違和感がなさそうな「月面」「宇宙基地の中」を舞台として、またそもそも「予告編を作ること」を目指しているので、カットが短く、文脈に沿った映像を作ることがそこまでうまくできなくても、予告編としては成立するだろう、という見立てもありました。

それにしても、これだけの映像を、実際に撮影することもVFXを使うこともなく、プロンプト(どんな映像にするかを説明する言葉)だけで作れてしまうというのはすごいことだなと思いました。

そう遠くない未来、「脚本を読み込むと映画全編が出来上がる」みたいな時代が到来し得る、そんな感覚を覚えました。
chatGPTみたいな言語を扱うAIもさらに進歩したら、人間の手を介さなくても映画やドラマが出来上がっていくのかも……なんて思います。ヒット作を的確に分析して高性能なトレンド予想に沿って量産される作品群……人間の出番なんてなくても構わない時代が来ちゃうのかもしれません。

ただ個人的には、AI技術がどんなに進歩しても、「人間が作ること」「人間が演じること」が生み出すディテールの豊かさが損なわれるわけではないし、というか、作る側はそこを作ることこそが楽しいし、観る側もきっとそこを観る楽しさというのがあると思うので、
例えAIが(アンバランスさとかを含めて)より人間に近づく日が来たとしても、人間による創作がなくなることはないだろう、と思っています。


で。

今回、AIで動画を生成するためにプロンプトをたくさん作ったのですが、

「生成AIのプロンプトと、脚本のト書きって似てる」

と思ったのです。
どちらも「映像に何が映っているかを示す言葉」です。

動画生成においては「カメラワーク」の概念があるので、一概に同じとは言えませんが、なるべく端的な言葉で映像を説明する言葉として、かなり共通点があるように感じました。

そのことをちょっと書いてみたいと思います。


ト書きとは

「ト書き」とは、台本の中で、セリフや柱以外の動作や行動を書く部分です。
小説でいうと「地の文」にあたる部分。

詳しい説明は各種テキストにお任せするとします。
「ト書きには感情を書かない」とか「ト書きは時間を飛ばさずに書く」みたいな、「ト書きを学ぶ上でよく言われること」も割愛します。

テレビドラマではト書きはなるべく短く

ちなみに、テレビドラマを書く上では「ト書きはなるべく短く」とご一緒した監督から教えていただきました。
具体的には3文以内
基本的にはセリフの応酬のリズムで進んでいくのがテレビドラマなので、状況を描写するト書きだけが続くということは、それだけで映像のテンポがあまり良くないというバロメーターになる、ということです。
まあこれはドラマの題材とかシーンの内容、各ドラマ枠の特性なども大きく関係すると思うので、必ずしも一概に言えることではないと思いますが、

   遊歩道を歩いてくる正樹。
   反対側から麻友が歩いてくる。
   正樹、立ち止まり、麻友を見つめる。
   麻友も正樹を見つめる。

ト書きだけで書く場合

と、

   遊歩道を歩いてくる正樹。
   反対側から麻友が歩いてくる。
正樹「(立ち止まり、麻友を見つめて)……」
麻友「(見つめ返して)……」

かっこト書き(セリフの中にト書きを書き込む)で書く場合

を比べた時、文面として2つ目の方が読みやすいというか、リズムが掴みやすいかな、という気はします。
どんな映像にしたいか、という意図に沿って選択できるようになれるといいな、と思います。

ト書きは「読む速度」と「脳内再生される映像の再生速度」が一致するように書く

これ、あんまり脚本のテキストとかで言われないんですけど、結構大事なことだと思っていて……
ト書きを読んだ時、脳内で映像が再生されると思うんですけど(されない方がいらっしゃいましたら教えてください……!)

いいト書きは「書いてあるト書きを読む速度」と「読んで脳内再生される映像の再生速度」が一致すると思うんです。

例えば、

   裕也、コンビニで買い物している。
   裕也、レジで会計する。
   裕也、店から出ていく。

っていうト書きを脳内で再生しようとすると、
・コンビニの店内を歩いて商品を探している〜商品を手に取ってカゴに入れ、レジに向かう
・レジで店員にカゴを渡し、財布を取り出してお金を取り出して店員に渡し、お釣りと商品を受け取る
・店から出ていく
という、実際に映像化すると2〜3分くらいの映像になってしまう。
これだと「読む速度」と「脳内映像の速度」が大きくズレてしまうので、読んだ側がどう表現するのがいいのか、解釈を定めづらい気がします(つまり、たくさんのスタッフやキャストが読んだ時に解釈を揃えづらくなる)。
なので、

   裕也、棚の商品を手に取り、レジに向かう。
   店員に商品を渡し、財布から小銭を出して渡す。

くらいの、映像として想像できる具体性を持ったト書きにした方が、読んだ人たちが解釈を揃えやすい、読みやすいト書きになるのでは、と思います。

ちなみに、

   裕也、コンビニで買い物している。
   裕也、レジで会計する。
   裕也、店から出ていく。

この例だともしくは、
・1カット目が店内で商品を手に取っている
・2カット目がレジでお金を払っている
・3カット目が店から出ていく

みたいな、時間が連続していない3カットとして映像がイメージされると思います。
ただ、本来は時間が連続しない場合はそれをト書きで表現すべきなので、

   裕也、コンビニで買い物している。
    × × × 
   裕也、レジで会計する。
    × × × 
   裕也、店から出ていく。

と書くべき、ではあります。
プロの台本だといわゆる書き方ルールより「文面の読みやすさ」を優先する場合はあるし、書き方は脚本家の皆さんそれぞれ違うので、ケースバイケースな面もありますが、
基本的には「映像としてイメージしやすいト書き」「多くのスタッフ・キャストが読んで解釈がズレづらいト書き」を目指した方がいいな、と思います。


ト書きで「どう撮るか」まで伝えたい!

映像脚本のト書きにおいては「カメラワーク、照明等、技術的な部分については書かない」ということがスクール等ではよく言われます。
でも、ある程度は「どのような映像にするか」ということをト書きに含めることができるのでは、と思っています。

例えば、

   うつむいている正樹の背中。
   正樹、拳をギュッと握る。

というト書きなら、
・1カット目は正樹の背中のバックショット
・2カット目は正樹の拳のクローズアップ
という映像が想像されるのではないかな、と。

さらにいうと、2カット目に握り拳のクローズアップを撮ってほしいと意図した場合、「拳」を主語にして、そして体言止めで、

ギュッと握られる正樹の拳。

とした方がより、「拳の映像」が強調されるかな、と思います。

こんなふうにして、ト書きによって「どんな映像を撮るか」まで伝えることができるのでは、と思っています。最終的なジャッジは監督や撮影監督など、現場で実際に映像を撮っていく人たちに委ねるわけですが、少なくとも脚本家の意図を脚本に込めることはできると思います。


一文=1カット

自分が脚本を書く時は、大まかに「一文=1カット」というイメージでいます。

例えば、ゴミ屋敷の中に人が倒れているシーンがあったとします。

ゴミで溢れた部屋の真ん中に男が倒れている。

だと、まず想像されるのは文頭の「ゴミで溢れた部屋」なので、「部屋をある程度広い画角で捉えた映像」がイメージされるかな、と思います。


男が部屋に倒れている。
周囲にはゴミが溢れている。

これだと、
・1カット目に倒れている男をメインの被写体とした映像
・2カット目で、男の周囲まで収まるやや広い画角の映像
になるかなと。


こぼれたカップ麺、食べ残しのコンビニ弁当、ビールの空き缶……床を埋め尽くすゴミに囲まれて、男が倒れている。

これだと、
床を写すカメラがカップ麺〜コンビニ弁当〜空き缶……と移動しながら写していき、そのままカメラが移動していくと倒れている男の身体が映し出される、という映像がイメージされるかな、と。


こぼれたカップ麺。
食べ残しのコンビニ弁当。
ビールの空き缶。
床を埋め尽くすゴミに囲まれて、男が倒れている。

これだと、
・1カット目にカップ麺
・2カット目にコンビニ弁当
・3カット目に空き缶
・4カット目に、ゴミに囲まれた男
という感じになるかな、と。

ちなみに、こういう、小道具をある程度指定するような細かな書き方は「その小道具に何らかの意味がある」場合以外はあえて書かなくてもいいのかな、と思います。
例えばゴミに混じって自殺のための道具が置かれてるとか、家族との思い出の写真が紛れてるみたいな「物語上見せるべきもの」は書かなければならないと思いますが、単に生活のゴミが置かれてる、みたいなことであれば、それぞれの具体をあえて書かずとも、監督や美術の方など現場のスタッフの皆さんが、その人物・その空間・その状況設定に適したものを選択してくれるからです。


先ほどの、見つめ合う男女の例で言うと、

   遊歩道を歩いてくる正樹。
   反対側から麻友が歩いてくる。
   正樹、立ち止まり、麻友を見つめる。
   麻友も正樹を見つめる。

この場合だと、
・1カット目、歩いてくる正樹
・2カット目、カメラは反対を向き、歩いてくる麻友
・3カット目、立ち止まり、見つめる正樹
・4カット目、見つめる麻友

という、いわゆる「カットバック」になるイメージな気がします。。

その上で、

   遊歩道を歩いてくる正樹。
   反対側から麻友が歩いてくる。
正樹「(立ち止まり、麻友を見つめて)……」
麻友「(見つめ返して)……」

この例を見ると、
・3カット目が正樹を主な被写体としたカットであること
・4カット目が麻友を主な被写体としたカットであること

という意図がより明確に伝わる(カットの切れ目がより明確に見え、脳内再生される映像がカットバックされて見える)ような気がします。

あるいは、

   遊歩道を歩いてくる正樹。
   反対側から麻友が歩いてくる。
   立ち止まり、見つめ合う2人。

とすれば、
3カット目は「2人」をある程度同じ比重で撮影する映像(例えば向かい合う2人を真横から撮るようなカット)というイメージを伝えられるのではないかと。


別の例です。

雪深い山道を、一人の女が、赤ん坊を背負って歩いている。

これだと文頭の「雪深い山道」がまず想像されるので、山道全体をとらえる広い画角の映像で、その中を歩く女(女はある程度全身に近いサイズになるかと思います。


一人の女が、赤ん坊を背負い、雪深い山道を歩いている。

まず「一人の女」が想像されるので、「女」を中心とした映像になる。
とはいえ1カットの中で「赤ん坊を背負っている」まで表現しようとすると横からのショットとか背中側からのショットになる可能性があるので、「女」を先にきっちり見せたいのであれば、

一人の女が、雪深い山道を歩いている。
その背中には赤ん坊が背負われている。

であれば、
・1カット目に歩く女
・2カット目に背中の赤ん坊

というイメージを伝えることができるかな、と。


一人の赤ん坊が、女に背負われ、雪深い山道を進んでいく。

これであれば、まず「赤ん坊」が想像されるので、赤ん坊を中心とするカット(女より赤ん坊を主な被写体とする、女の背中側から撮る映像)のイメージになるかな、と。


こんな感じで、あくまでどう撮るかは現場の方達に委ねる部分ではありますが、ある程度の意図を伝えることはできるのでは、と思います。
少なくとも脚本家として書くにあたり「どんな映像にしたいか」という意図はちゃんと持ちながら書きたいな、と思っています。


ト書きと生成AI

というわけで、生成AIの話に戻りますが、
生成AIのプロンプトって案外難しいんですよね。カメラワーク、背景の状況設定、主語と述語など、端的に、でも必要な情報は入れ込んで書かなければならないので。
でも基本的にト書きと同じように考えていけば、比較的スムーズに正解に辿り着けるのではないか、と思います。

というわけで「Dream Machine」で、先ほどの、雪の山道の例を生成してみたいと思います。


雪深い山道を、一人の女が、赤ん坊を背負って歩いている。

どこ乗ってんの……!
(いや、こうして生成AIの過渡期をジョーク的に消費しているうちに、あっという間に技術が人間を追い越していくんだろうと思うと恐ろしい)

一人の女が、雪深い山道を歩く。その背には赤ん坊が背負われている。

「女」を文頭に置いても、女を主な被写体にする映像になるわけではないみたいです。

一人の赤ん坊が、女の背に背負われて、雪深い山道を進む

1つ前の例といい、むしろ文末に置かれた名詞が主たる被写体になる感じでしょうか……
あるいは、おそらく日本語で入力されたものを英語翻訳した上で動画生成していると思うので、その翻訳の問題、英文の語順の問題などがあるかもしれません。
そして、動きとか手とか顔とか、細かく見ていくとやはり色々気になりますね……
この動画は逆再生ぽく見えるところも気になるけど、女の人が赤ちゃんにキスするような仕草とか、ちょっとリアルでドキッとしました。

今度はカメラワークも含んだプロンプトで生成やってみようと思います。

雪深い山道の遠景。赤ん坊を背負った女が歩いていく

広大な雪景色の中を、小さな人影が歩いていくようなイメージでしたが、全然違う感じになりました。赤ん坊どこいった。

雪深い山道を、赤ん坊を背負って歩く一人の女。カメラは背後からフォローしていく

カメラワークは指定の通りだけど、女の人の腕が怖い!

雪深い山道を、赤ん坊を背負って歩く一人の女。カメラは正面から彼女を写し、彼女が歩くのに合わせて後退していく。

もはや何を背負っているのか……?そしてカメラも結局女性の背後から撮っている映像になってしまっている。
現状の生成AIだと、イメージに近いものが生成されるまで、それなりの回数の試行錯誤が必要なんだと思います。それも技術の進歩であっという間に解消されていきそうな感じではありますが。


やはり、人体の描写などまだまだ色々気になるところはありますが……それでも、これだけのリアルな映像が簡単に生み出されてしまう、これはすごい時代が来ちゃったなと思います。

脚本のト書きと、生成AIのプロンプトを絡めつつ語ってみようとトライしたのですが、そう簡単にはうまくいかないということだけはよくわかりました!

この記事が気に入ったらサポートをしてみませんか?