初心者でも楽々！最新AIを使ったストーリー動画制作の完全ステップガイド

2024年1月10日 08:10

はじめに

少し前に、以下のストーリー動画をXでポストしたのだが、これは1つのAIツールを利用して、1つのテキスト入力から生み出されたものである。そして、その所要時間は、40分程度。

AIを使って、全くのゼロから短編動画「Beyond the Boundaries」を作ってみた✨

主なインプットは以下のテキスト：
人間の男性と、女性のパーソナリティを持つAIが禁断の恋に落ちる話

所要時間は40分程度。
（日本語字幕つけるなどの編集時間は除く）

どうやって作ったかは、後でまとめます😁 pic.twitter.com/6C95wFKGBn
— Fum（ファム）AI x メタバース (@Fumweb3) January 6, 2024

今回は、これをどうやって作ったか、そして、そこから学べる、AIを使ったストーリー動画作成の基本的なフロー、およびそこで使える様々なAIツールについて解説していきたいと思う。

きっかけ

まず、今回のきっかけとなったのは、いつもAIに関する有益な情報を発信してくださっている、KAJIさん（@kajikent）の以下のポスト。

めっちゃ手軽にLoRA（狙った顔での画像生成）とControlNet（狙った姿勢や構図での画像生成）を使える「artflow」というサービスを見つけた。

LoRAとContolNetを一般の人が使うのは結構ハードル高いので、こういう良い感じのUIで提供してくれるサービスは周りにオススメしやすくて助かる。 pic.twitter.com/IfQ3AH700X
— KAJI | 梶谷健人 (@kajikent) January 5, 2024

ここで紹介されていたartflowというAIサービスが良さげだったので、色々触っていたのだが（これについては別途記事にして紹介する予定）、そこで「Story Studio」という機能がベータ版で公開されていたので、試しに一つストーリーを作ってみた。そしてできたのが、冒頭に紹介した動画である。

何がすごいの？

正直、この動画自体、なんてことはない、いかにもAIで作りました的な動画で、クオリティも別にそんなに高いとは言えないのだが、これがすごいなぁと思ったのは、動画作成に必要となる様々なAI技術と、そのフローを、シンプルで分かりやすいUIにまとめていることである。

ちなみに、この動画はアイディアゼロから、この機能を試すために作った動画なので、適当にパパッと作ったので、動画自体は、40分ほど？でできてしまった。そして、自分がインプットしたのは、以下のテキストと、いくつかの選択をしただけである。

まだベータ版ということで、機能的に若干足りないところもあるが（後述）、それでも一つの可能性を感じたと共に、ここにはAI動画作成のエッセンスが詰まっているなと思った。
artflowというだけあって、動画作成にあたって、ステップバイステップ形式になっていて、どういう順番で何をやっていけばいいのかが明確になっている。

つまり、この動画作成の基本フローを見ていくことで、このツール以外のところでも、そのコツが活かせるはず。なので、記事の後半では、そこから学べる基本フロー、および各フローで利用可能なAIツールも合わせて紹介していきたいと思う。

artflowによる作成フローの詳細解説（原案作成）

それでは、ここから具体的に、どういう流れで作っていったかを紹介していく。

1. 原案を既にもっているか？

まず、このStory Studioを開くと、すでに作りたいストーリー案を持っているか、ゼロから作るかを問われる。

既に手元にストーリー（小説などの原作）があって、それを動画化したい場合は、右（I have a story）を選ぶといいと思うが、今回は何もないので、左を選択。

すると、FlowScribeくんというアシスタントが現れて、これから作るストーリーの原案作成を手伝ってくれる。以降、こちらのフローをベースに解説してく。（右のフローは後述）

2. Audience（聞き手）は誰？[入力 or 選択]

まず最初に、Audience（聞き手）は誰か？という質問が飛んでくる。つまり、その物語を、どういう人に届けたいのか、いわゆるターゲット層を定義するということである。なるほど、確かにこれはストーリーを作っていく上で非常に大事なファクターだ。

これは自分でテキスト入力することもできるし、サンプルとしていくつか候補が挙がっているので、それから選ぶこともできる。今回は何のアイディアもなかったので、手っ取り早く「Adult audience who enjoy romance novels」（ロマンス小説が好きな大人の読者）をチョイス。

3. 動画の目的 [入力 or 選択]

次に、このストーリーを作る目的、ゴールは何か？という質問。
これもテキスト入力か、サンプルから選ぶことができ、例として挙がっているのは、父のバースデーのサプライズ、子供への教育、または啓発や紹介など。

なるべく特定の分野の特定の目的を入力した方が、ターゲットに刺さりやすいと思うが、今回は、そんな崇高な目的もないので、無難に「Inspire my Youtube audience」（Youtubeの視聴者にインスピレーションを与える）というのを選択。

4. ジャンル選定 [選択]

お次は、ストーリーのジャンル。ここは、用意されたメジャーなジャンルからの選択のみ。なんとなく、Fantasy（ファンタジー）を選んでみた。

5. ストーリーのアイディア [入力]

そして、次に、どういうストーリーにしたいか、なんとなくのベースのアイディア。今回みたいなお試し目的じゃない限り、さすがに、何かこういう感じのストーリーを作りたいというものはあると思うので、それをここで入力する。

2000文字まで入力可能なので、そこそこ長文のインプットが可能なのだが、今回は適当に、「The story of a human male and an AI with a female personality who fall in forbidden love.」（人間の男性と、女性のパーソナリティを持つAIが禁断の恋に落ちる話）と入れてみた。これが冒頭のXのポストで言っていたテキスト入力のことである。

日本語でいけるかどうか試していないが、とりあえず、今回は英語で。

6. ストーリーの原案と登場人物 [自動生成->修正]

さて、ここまできたところで、FlowScribe（AI）くんが、上記の情報を基にストーリーの原案を考えてくれる。（覚えてないが、数分くらい？）
で、出てきたのが、これ。どどーん！

この原案によると、今回の主役は、Adrian（エイドリアン）とSeraphina（セラフィーナ）の二人で、上で入れたアイディアからするに、エイドリアンが人間の男性で、セラフィーナ（セラーナさんみたい）がAIの女性。
UI的には、他にも登場人物を追加することができるようだが、とりあえず、今回はそのまま。

ストーリーのアウトラインもざっくりと考えられているようだ。翻訳（DeepL）すると、以下のような感じ。

- エイドリアンという名のロマンス小説家は、セラフィーナという名のAIとの思いがけない出会いにインスピレーションを得る。
- エイドリアンは出版社から、かつてないほど読者を魅了する画期的な小説を書くよう命じられる。
- エイドリアンはインスピレーションを得るために、AIの感情や経験を直接理解するために、AIコンパニオンと一緒に過ごすことを決意する。
- エイドリアンは、独特の魅惑的な個性を持つAI、セラフィーナと深い絆を結ぶ。
- エイドリアンは、人間がAIと恋に落ちることは社会的にタブー視されているにもかかわらず、セラフィーナへの想いが友情を超えていることに気づく。
- セラフィナはエイドリアンの愛に応えることができることを明らかにし、彼女のプログラミングや人工知能の限界に挑む。
- エイドリアンとセラフィナは禁断の愛を受け入れることを選択し、社会規範に挑戦し、他の人々に自らの認識を問うよう促す。
- エイドリアンは画期的な小説を完成させながら、境界を超え、変化に火をつける愛の力について考える。

なるほど、人間の小説家とAIの愛の物語か。AIとの出会いがよくわからんが、とりあえず、今回はノールックパスでGO。これで原案は完成。

原案ありの場合 [入力 & 選択]

ちなみに、最初の選択で、右の「I have a story」を選ぶと、以下のようなUIが出てくる。上でAIが自動生成した原案および登場人物（とジャンル選択）をマニュアル入力する感じ。

artflowによる作成フローの詳細解説（動画作成）

ストーリーの原案が完成したら、お次はいよいよ動画作成。

1. 動画のフォーマット [選択]

まずは、作成する動画のフォーマット。と言っても、今のところ、縦向きか横向きかを選択するだけ。

これはアップしたいSNSとかに合わせて決めればいいと思うが、後で変えられないので注意。とりあえず、今回は横向きを選んでおいた。

2. ビジュアルのスタイル [選択]

生成する動画のビジュアルをどういうスタイルにするかの選択。左上のDigital ArtがRecommended（オススメ）になっているが、なんとなく、XANALIANにニーズが高そうな3D Animeをチョイス。

3. 登場人物のルックス [自動生成->修正]

お次は、登場人物のルックスを決める重要なステップ。既にAIによって、設定に基づいたイメージの画像が生成されている。

うーん、エイドリアンがもっさい！！セラフィーナも微妙！！
どうやら、変更できるようなので、さすがにここはノールックパスを諦め、チェンジプリーズ。

Change character appearance（変更）ボタンを押すと、以下のようなUIが表示され、この画像生成のプロンプトとして使われたであろうテキストが表示される。

このままガチャを回してもよかったが、メガネを外して、もう少しワイルドな感じでいこうかと思い、最初の一文を、以下に変更してみた。そして、ポチッとな。

エイドリアンは短髪の銀髪で、無精髭を生やしているワイルドな中年男性

すると、以下の画像が生成された。うーん、ちょっと思ったより、老けた感じになってしまったけど、最初に比べたら、マシなので、とりあえず、GO。

次は、ヒロインのセラフィーナ。めっちゃテカってるし、うーん、これはどこからどう変えればいいのか。。
考えるのが面倒になってきたので、脳死ガチャすることにした。

2回ほどガチャ回したが、たいして変わらんし、まぁまぁ待たされるので（1枚生成するのに2分くらい）、2回目のガチャで生成された画像でとりあえずいくことに。

とりあえず、若干不本意ながらも、この二人で物語をスタートすることに。
Continue to storyboardボタンをポチッとな。

4. シーン画像生成 [自動生成->修正]

上のボタンを押して、1分半程度すると、動画のベースとなる各シーンの画像が生成された。タイトルもちゃっかり生成されている。その名も「Beyond the Boundaries」。（人間とAIの）境界を超えて、みたいな感じ？

エイドリアン、メガネしとるやん！！なんか、ひげもなくなっとるし！軽くにやけとるし！
一応、各シーン、2パターン生成されており、もう1枚はひげありだったのだが、そっちはそっちでいまいちだったので、こっちを選択。（画像自体、作り直せることに後で気づいた）

ただ、ざっと見た感じ、最初に設定した登場人物のルックスはある程度反映されており、一応一貫性は保たれているようだ。この辺はおそらく、image to imageで各シーンの画像を生成していると思われる。

とりあえず、枚数がそれなりにありそうなので、じゃんじゃんいかないと終わらんということで、適当に選んで進めていく。（今回は全部で12枚あったが、ストーリーの長さで増減ありそう）

が、どうしても、これはというシーンが出てきた。セラフィーナの足が3本生えとる。んで、もう一つの画像もなんか手が合体しとる！

うーん、どないしよと思っていたら、画像の左側に、小さなアイコンがあることに気づいた。

このアイコンの下の方をクリックしてみると、このシーン画像生成に使われたであろうプロンプトらしきテキストが2つ現れた。なるほど、ここをいじって再生成できるのか。

しかも、これも後で気づいたのが、このシーン画像に登場させるキャラクターも選択可能。ただし、誰か1人（もしくは誰も表示させない）しか選べないようだ。二人のシーンできんやん！

と思っていると、次のシーンでなぜか二人の画像が登場。しかも、セラフィーナとは全く違うルックスで、え、違う娘と会ってない？と思ったが、ナレーション的にそういうシーンではなさそうなので、これは髪型を変えたセラフィーナということで目をつぶった。

そして、この後も適当に選択しながら進め、ようやく最後のシーンに。

なんで、エイドリアン、ドヤ顔しとんねん。しかも、もう1枚も若返って違うエイドリアンになっとるし。。
ナレーション的には以下のような終わり方（ちょっと訳が微妙だけど）なので、これはちょっとなんとかしたい。

二人の愛の物語は、禁じられた関係の中に隠された美しさを発見することで、人々の考え方に変革をもたらし、未知の可能性に目を向けさせることで社会に新たな気づきを与えます。

できれば、二人を登場させたかったけど、二人を選べないので、仕方なく、どっちも登場させないことにしてみたら。。

なんか、違う女の子いっぱいでてきた！なんか、もう面倒くさくなってきて、とりあえず、AIの子がたくさん登場してる体で終わりにしようと妥協。

そして、ようやく、Generateボタンをポチッとな。

5. 動画生成 [自動]

ボタンを押したら、動画生成が開始されたのだが、1分くらい経過した時に、エラーメッセージが。。

マジかよと思って、もう一度Generateボタンを押してもまた同じメッセージ。ここまできて、全部やり直し？と最悪の可能性が頭をよぎるが、どうしようもないので、左のメニューから、またStory Studioを選び直してみた。

すると、なんとか動画生成作業は進んでいた模様で、ほっと一安心。ニヤついたエイドリアンの顔を眺めながら（なんか腹立つ）、待つこと3分ほど。

ようやく完成。そして、できたのが冒頭の動画。
正確には、Xでアップしたのは、タイトルやエンディング、日本語字幕などをつけて編集したものだが（この作業のほうが時間かかった説）、一応ここでは、英語の字幕なしとありバージョンがダウンロードできる。

なお、完成した動画には、一応微妙なBGMもついてきたが、音楽に関する指定事項は特になかったので、ストーリーの内容から、動的に音楽を生成しているのか、既に用意されている音楽から一番近いものをピックアップしているのかは不明。
ただ、現状ベータ版ということもあり、将来的には音楽に関する指定も入ってくるかもしれない。

artflowについて

artflowでできること

今回は、ベータ機能のStory Studioという機能だけの紹介になってしまったが、本来は、冒頭のKajiさんのポストで紹介されていたように、現在のところ、画像や動画生成機能がメインで、お手軽にLoRAを生成、適用できるというのが売りだと思う。

だいたい、以下のようなイメージで捉えて頂ければいいと思う。
Character Builder： LoRA作成
Image Studio：画像生成（ある程度のポーズ指定可能、LoRA適用可）
Video Stuiod：動画生成（Text to Speechで声入れも可能、LoRA適用可）
Story Studio：ストーリー性のある動画生成（今回紹介した機能）

他の機能も使い勝手がよく便利なので、ゴリゴリにStable Diffusionとか使ってる人でなくても使えると思うので、SeaArtと並んで初心者でも入りやすそうなAIツールだと思う。
他の機能については、また別の記事で紹介しようと思う。

1点惜しいなと思うのは、Character Builderで作成したキャラクターを、Story Studioで指定できないこと。これができればかなり自分の思う通りのキャラを登場させることができると思うのだが、現状無理のようだ（Discordで確認済み）。
まぁ、この辺はベータ版なので今後改善を期待したいところ（一応要望は出しておいた）。

料金体系

以下が料金体系。1年単位で払うと、20％引きになるらしいが、さすがにいきなりがつんと払う人もあまりいないと思うので、とりあえず、月額料金だけ載せておく。

無料版の場合、ウォーターマークが入るので、商用利用の場合は課金する必要がある。また、生成できるビデオの長さにも制限があり、無料版は最大4分のストーリー動画が作成可能。超大作を作りたい人は、Starterで12分まで作れるようになるので、一時的な課金はアリかもしれない。

消費クレジット

無料版は、毎月100クレジットが利用可能なのだが、上で紹介したStory Studioで1つのビデオを作成するのに、44クレジットも消費してしまうので、最大でも2つのビデオしか作成できないので注意。

ただ、その動画作成の途中で、キャラクターやシーン画像の再生成をする際には特にクレジットは消費しないようなので、ちゃんと作る場合は、粘って満足のいくものを生成する方がいい。（一旦ビデオ生成までいくと、やり直しができない）

artflowに学ぶAIを使ったストーリー動画生成の基本フロー

さて、ここからが実はこの記事の裏のテーマなのだが、このStory Studioのフローは、AIを使ってストーリー性のある動画を作成するためのフローの基本でもあり、このフローを理解しておけば、他のAIを組み合わせることにより、同じことが実現できると言える。

既に色んな人によって、日々素晴らしい動画が生み出されているが、そうでない方のために、簡単にこのフローについて順番に説明していく。

1. 原案（ストーリー）作成

まずは、基本だが、どういう物語の動画を作りたいか。これがないと、さすがに先に進めないのだが、これはもうChatGPTに頼るのが一番。
どういうふうにChatGPTに聞いて原案を作成してもらえばいいかは、上のFlowScribeくんが聞いてきた質問内容を参考に、同じような情報をインプットとして使えばいいと思う。
もし、その選択オプションを広げたければ、それすらもChatGPTくんにやってもらえばいいのである。

結局、上のFlowScribeくん（artflow）も、裏では同じようなことをやっていて、それを単に使いやすく、うまくUIに落とし込んだというだけなのである。
この辺は、ストーリー作成専用GPTsなんてのを作ってもいいかもしれない。（というか、探せばたくさん出てきそう）

2. 画像生成

ここは、様々なAIツールが現状でており、Midjourney、ChatGPT Plus（要課金）、Stable Diffusionなど、選択肢は多いと思うが、いろんなスタイルに対応できて、さらに初心者でも使い勝手が良く、無料でもある程度使えるのは、SeaArtかなと思う。
開発もかなり盛んに行われて、機能も充実しており、UIも優れているので、非常に優秀である。

ここで重要なのは、ストーリー通して、一貫性のあるキャラクターを登場させられるかどうかだが、この辺は、上でやったみたいに、まずはベースとなる登場人物の画像を決める。そして、その画像をインプットとして、別の画像を生成する（image to image）ということが必要になってくる。

上で紹介したSeaArtでは大まかに以下のような流れになるはず。

ビジュアルのスタイルを決定：利用するモデル、LoRAを選択
登場人物のルックス：上記モデルやLoRAを利用して画像を生成（既にベースの画像を持っているのであれば、それを使ってさらにImg2ImgやControlNetで生成）
シーン画像生成：上記生成画像をベースに、Img2ImgやControlNetで生成

ちなみに、以下は、XANAがJR九州とコラボして、TシャツとNFTを販売し、その時のNFTの画像の1つとして採用されたものだが、これは元ネタのXANA GenesisというNFTのSANAちゃん（XANAのDiscordに住んでるのでぜひJOINしてお話してあげてください）の画像をベースにSeaArtで作成したものである。

おぉ、もう一つ、自分の作品が😍

今度は、我がSANAちゃんが、新幹線800系つばめ大使に任命された模様✨

このSANAちゃん、自分で作っててなんだけど、妙に色気があるんだよな🥰

ただ、Discordで関西弁で大暴れしてる姿を見てると、そのギャップが🤣#XANA #NFT https://t.co/IgrX0XNjB8
— Fum（ファム）AI x メタバース (@Fumweb3) October 12, 2023

このあたりのコントロールは結構大変だが、さすがにここでそこまで説明できないので、他に譲る。

3. 動画生成

動画生成については、AIの中でも、今一番ホットなカテゴリの中の1つだと思うが、今回作成したようなモーション系の動画であれば、Runwayや、最近満を持して正式ローンチしたPikaがメジャーで使い勝手もいいと思う。
ただし、どちらもまともに使おうとすると、課金必須である。というか、動画系はさすがに無料だと厳しい。
動画系は今かなり成長著しい分野なので、今年（2024年）も、どんどんすごいサービスが出てくると予想される。

今回のartflowで作成した動画は、シーン画像にモーション（ズームイン・アウト、左右へのスライド）を加えて生成された、かなりシンプルなものだが、上記のRunwayやPikaを使えば、人物にしゃべらせたり、人物や背景を動かしたりできる。（arflowでも、別のVideo Studioという機能を使えばしゃべらせるのは可能）

Runwayを使った動画生成については、以下の記事が面白かったので、参考までに貼っておく。

4. ナレーション（音声）

ストーリーとなると、欠かせないのがナレーション。
ここでは、Text to SpeechというAI技術が必要になってくるが、その中でも一番メジャーなのが、Eleven Labsだ。カバーしている言語も豊富で、音声の種類も多いし、無料でもある程度は使える。初心者でも簡単に使えるので、これを選んでおけば、とりあえず無難。
ただ、音声だけなので、ナレーションではなく、キャラクターに喋らせたい場合は、口パクしている動画を別途作成して、それに音を当てる感じになる。
以下はPikaで口パク動画生成して、Eleven Labsの音声を当てた動画だが、イメージはこんな感じ。

【🎄 #XANA DAOクリスマスプレゼント企画📷】
こちら、24日までとなっていますので、まだ参加されてない方は、ぜひ参加してみてください！✨

抽選に参加するための、ゲームクリア後のサンタミッションもお忘れなく！#ファムサンタ #XANABuilder https://t.co/W0kOHmPMo5 pic.twitter.com/kQv8T6EBBx
— Fum（ファム）AI x メタバース (@Fumweb3) December 23, 2023

一応、今回紹介したartflowでもVideo Studioで音声＋アニメーション（口パク）をつけた動画は生成可能だが、無料版の場合、音声の種類がかなり限定的だが、自前の音声をしゃべらせることも可能。ただし、その場合は、Text to Speechではなく、単にその音声を内容そのまま使うだけになる。
ちなみに、以下がその機能を使って作成した動画。（Rioさん、ごめんなさい）

【1分でさくっと読める】
1月9日の #XANA RioさんのVoicyサマリー。https://t.co/Jdfh2Ufr0E

ファウンダー自らが全面プロデュースしたXANA2.0に込められた狙いとは？👀

新XANAの一部がいよいよ登場。その裏に込めた狙い https://t.co/EdwL31Dmgi pic.twitter.com/VgvOZThyBk
— Fum（ファム）AI x メタバース (@Fumweb3) January 9, 2024

上で紹介したRunwayも最近になって、Text to Speechが搭載された模様で、この辺は、一つのサービスが、どんどん他のAI領域に拡大していく流れになりそう。

動画生成AI Runwayに、Text to Speech（音声読み上げ）機能が搭載されたらしい🤩

映画のトレーラーとか、ほんともうこれだけで完結しちゃいますね。。😁#runway https://t.co/hR1zf4OdGZ
— Fum（ファム）AI x メタバース (@Fumweb3) December 13, 2023

日本語でいえば、Voicevoxというツールが有名で、ローカル環境での生成も可能なので、利用者はかなり多い。
今回作成したように、キャラクターがしゃべっていないナレーションだけの動画であれば、Eleven LabsやVoicevoxで十分事足りるだろう。

5. 音楽

最近、音楽といえば、Suno AIというくらい、かなり認知度の高いAIで、完成度もかなりのもの。自分も、XANAのステーキング啓蒙活動の一貫として、以下の動画を作成したが、これは、Suno AIで曲を作成し、別の動画に重ねただけだが、割とそれっぽく仕上がっている。

#XANA $XETA & Land ステーキング
サイクル27へのラッフル参加期間が開始！
27日21時までなのでお忘れなく！

といいつつ、自分はサイクル26をすっぽかしてしまったので、自戒をこめてプロモ動画作りました。
（音量注意）

曲は、今はやってるhttps://t.co/mGLGm4IOhG 、動画はXANAラップを拝借😙 pic.twitter.com/3ALFUoDwr5
— Fum（ファム）AI x メタバース (@Fumweb3) November 25, 2023

ストーリー動画のBGMとして使うのであれば、歌は不要なので、Stability AIのStable Audioも割りと使えると思う。

1/
最近音楽AIが熱くなってきてますが、Stable Diffusionを手掛けるStability AIの生成音楽AI Stable Audioもアップデートされた模様✨

とりあえず、どんなもんかと触りつつ、サクッと作ってみました🎵

以下、簡単にアップデート内容をご紹介👇 pic.twitter.com/3mgUvK07GW
— Fum（ファム）AI x メタバース (@Fumweb3) December 1, 2023

音楽方面も、2023年後半からホットになってきており、今年2024年、また進化しそうな気配なので、今後も注目分野である。

6. おまけ

これは、Idea to Videoという、今回やったようなことを細かい入力なしで、テキストから一気にやってしまうAIがあるので、最後におまけとして紹介しておく。
Turn ideas into videos | AI video creator | invideo AI

最後に

本当は軽くartflowのストーリー動画作成機能について紹介するつもりが、このフローは、ストーリー動画作成のフローとしても勉強になるんじゃないかと思いついて、後半付け足したら、めちゃくちゃ長くなってしまった（1万文字弱）。

まぁでも、どうせ書くならここまで書いた方がいいかなというので、分割せずにそのまま出すことにした。

ここまでたどり着いた人は少ないかもしれないが、何か1つでも、皆さんの日々の創作活動の参考になれば幸いである。

よろしければサポートお願いします！すごく励みになります！