見出し画像

Pikaを使い込んでみたの記事のこぼれ話をするぞの記事

0.はじめに

トヨタコネクティッド株式会社 先行企画部 新技術開発G所属のHalufy(ハルフィと呼びます…)です。

ここのところ、動画生成ツールPikaを使って、アニメ制作に励んでいるわけなんですけれども、どうにも同じキャラクターやイメージしたシーンの生成が難しいなって思うこともありまして…。
それに、扱いが難しい設定項目なんかもありまして…。
そこで、今回はちょこっと、そのあたりの試行錯誤の実験について書けたらなって思います!


1.目次



2.参考にしたChatGPTの考え方

いきなりこの章ではPikaは置いておいて、ChatGPTについて書きます…笑
というのも、ChatGPTでは、同じキャラクターを生成すること、例えばちょっと表情を変えるとか、違うカメラアングルからのポーズにするとか、そういうことがやりやすいんですよね。
なので、ChatGPTのそれらを参考にしてPikaでも同じことできないかな、なんてことをいろいろと実験をしたのです。
そういうことで、まずは、ChatGPT。
本題のPikaについては3章になるので、読み飛ばしてもらっても大丈夫な章です。笑
ChatGPTを使って同じキャラクター生成し続けてみたいよ、いろんなポーズ、表情を生成したいよ、って思ったことある方は是非に ^ ^


まずですね、ChatGPTの中にはGPTsと呼ばれる、ChatGPTの追加できる機能があるんですが、その中の一つにDALL-Eというものがあります。
これを使うと、文章で「こんな絵を描いてください!」なんて入力するとそれに沿ってイラストを描いてくれるんです。
2章はこちらを使用した話になっています。

DALL-E


ちなみに、こちらの記事に書いていたものもDALL-Eを利用したものになります。


2-1.同じキャラクターをいろんなシーンやポーズで登場させる

ここではまず、以下の入力をしてみます。
「25歳の男性。髪の毛の長さはミディアムで黒色、目は大きめ、鼻は高く、耳は小さく、口も小さめ、服装は茶色のトレンチコート、コートの中に黒色のタートルネックのニット、ズボンは黒色のジーンズ、靴はグレーのスニーカー。以上のキャラクターを、日本アニメ風のイラストにしてください。」

そうするとこんなイラストを生成してくれました。

今回のメインキャラクター


次に、「このイラストのseed値を教えてください。」と入力します。
すると、さっきの画像のseed値は、例えば、「123456789です」と教えてくれます。

そのseed値を使って、今度は、さっきのキャラクターが公園でベンチに座っているシーンをイラストにしてもらおうと思います。
「Seed値を123456789に維持したまま、キャラクターがベンチに座っているシーンを日本アニメ風のイラストにしてください。」なんていう感じで入力すると、こんな画像を生成してくれます。

ベンチに座るキャラクター


さらに、カメラのアングルを変えてみます。
「Seed値を123456789に維持したまま、キャラクターがベンチに座っているシーンを、横からのアングルで描いてください。」

アングル変えたバージョン①


もっと横にしてもらいます。

さらにアングル変えたバージョン②


こんなふうに、同じキャラクターで別のイラストを生成してもらうことができるんです!


他にも、「Seed値を123456789に維持したまま、キャラクターが電車に乗っているシーンを日本アニメ風のイラストにしてください。」と入力してみます。

電車に座るキャラクター


変なところに座席がありますが、でも、同じキャラクターが電車の中に移動しました。


さらに、「Seed値を123456789に維持したまま、キャラクターが水族館で歩いているシーンを日本アニメ風のイラストにしてください。」と入力します。

水族館にいるキャラクター


同じキャラクターが立ち上がって動きがつきました。


少し毛色を変えて(紛らわしい言い方…)、今度は、シーンというよりも、ポージングをいろいろと決めてもらいました。

「Seed値を123456789に維持したまま、キャラクターの色々なポーズを描いてください。」と入力すると、こんなふうにいろんなパターンのポージングを生成してくれます。

ポージング①


もういっちょう!

ポージング②


こうすることで、アニメ制作をする際なんかには、とっても助かるであろうポーズのサンプル集なんてものも生成できてしまうんです!


こんなふうにして、登場キャラクターをいろんなシーンやポーズでイラストにしてくれるんですよね〜。



2-2.キャラクターにいろんな表情をしてもらう

今度は、もう少し可愛らしいキャラクターをまずは生成してもらいましょう。気分転換に、です。笑
「25歳の男性。髪の毛の長さはミディアムで黒色、目は大きめ、鼻は高く、耳は小さく、口も小さめ、服装は茶色のトレンチコート、コートの中に黒色のタートルネックのニット、ズボンは黒色のジーンズ、靴はグレーのスニーカー。以上のキャラクターを、日本アニメ風のイラストにしてください。三面図で出力してください。」

生成してくれたのが、こちらのイラストです。

キャラクターの三面図


今度はこのキャラクターの表情を、少し悲しくしてもらいます。
DALL-Eでは生成してくれた画像をクリックすると、こんなふうな編集画面が開きます。

画像編集画面


ここで、右上のお絵かきボタンを押すと、青の色塗りができるようになります。

編集ボタン


ここでは、修正したい箇所をマークするものになるので、該当箇所をマウスのドラッグを使って色塗りします。ここで色を塗った箇所にだけ、変更を加えることができます。

編集箇所を青塗りする画面


そして、この変更箇所にどんな変更を加えたいのかを、プロンプト入力します。
今回は、「悲しい表情にしてください。」と入力しました。

編集プロンプト入力


すると、口元が悲しくなった画像に修正してくれました。少し唇をギュッとなってて、悲しさを表現してくれています。

口元悲しいキャラクター


さらに今度は、こんなふうに右2/3を青色に塗って、「いろんな表情を描いてください。」と入力してみます。

青塗りと編集プロンプト


すると青に塗った部分に、表情だけをいくつも描いてくれました。

いろんな表情①


もいっちょう!

いろんな表情②


こうして、これまたアニメ制作においてはすごく助けになる表情のサンプル集を生成することもできるんです!



3.ChatGPTのDALL-Eを参考にして、Pikaの出力を実験してみた

さて、本題です。笑

3-1.seed値を用いた生成

まずは、seed値についてです。2-1で使っていたやつです。
こちらのパラメーターがPikaにもあるのです。
なので、これを試してみました。

ひとまず、4歳の女の子が着物を着て家族と遊んでいるシーンを生成してもらいます。


Pikaでは動画を生成してもらうと、こんなふうに過去に生成した動画と並びます。(ちなみにこれはTop画面です。イメージは同じなので。。)

Pikaの生成動画の並んでいる画面(Top画面)


ここで、今生成した動画の枠を見ると、「i」のボタンがあるのがわかります。

iボタン


このボタンを押すと、インフォメーションが記載されているこんな画面が開くのですが、そこにひっそりとseed値が記載されています。

Pikaのseed値画面


このseed値をコピーしておきます。

続いて、生成した動画のEditボタンをクリックします。

Edit画面


すると編集画面がこんなふうに開きますので、右下のパラメーター設定ボタンをクリックします。

パラメーターボタン


これを開くとseed値を記入できる項目があるので、ここに先ほどコピーしたseed値をペーストします。

seed値入力画面


この状態で、先ほどと全く同じプロンプトで生成ボタンを押して、動画を生成してもらいます。

そうして出力された動画がこんな感じのものたちになりました。


なんていうか、とりあえずキャラクターは違いますね。笑
時間帯も、周りの建物も、違います。
じゃあ、同じことはなんだろうって考えてみると、構図やカメラの動き方、2つのオブジェクトがありますよねってことその背丈のバランス、など、が見つかりますかね。
なので、Pikaでは、seed値に紐づいて管理されているのは、キャラクターではなくもう少し俯瞰で見た時の状態そのものになるのかもしれないですね。
ここが、動画生成と画像生成との違いになるのやもしれません。



3-2.Seed値+Consistency with the text値

PikaにはConsistency with the text値というパラメーターがあります。これは、どれだけプロンプトに書かれている言葉に忠実になるか、という値になります。
この値が高いほど、決め打ちされたパターンしか出てこないよ、っていうイメージですね。
(細かくいうと、確率論の問題で、確らしさが高いものしか出力しないよ、ってものになるようです。)

先ほどの3-1のseed値に加えて、こちらも、設定してみましょう。
まずは、生成された動画下にあるEditボタンから、編集画面を開き、パラメーターボタンをクリックします。

パラメーターボタン


ここで、seed値は先ほどの値、Consistency with the text値は1番高い25とします。

seed値+Consistency with the text値


これでプロンプトは全く同じにして、生成ボタンをクリックします。
すると、こんな動画たちが生成されてきました。


すごいですね、ほぼ同じ動画ばかりが生成されました。
ただ、これは何に使えばいいんだろう…って感じです、、、この記事の冒頭に言ってたやつです。私の想像力不足ですけれども…。
使えこなせるように精進します…泣


補足
このConsistency with the text値は最初の生成時から使用できます。
先ほどの、4歳の女の子が着物を着て家族と遊んでいるシーンを生成してもらう際に、パラメーター画面からConsistency with the text値も設定してみます。
せっかくなので、25と設定します。
するとこれらの動画が生成されてきました。


まあ確かに、字面そのままに動画にするとこんな雰囲気になるのかなぁって思いますねぇ。

ただやっぱり、このConsistency with the text値はうまく使えれば、ハマる時はとてもハマる、便利な設定なのかなとは感じましたね。…まあ、どの口が言ってんだって感じですけれど。。笑



3-3.生成された動画の編集

ChatGPTでは、生成してもらった画像に、青いマークとプロンプトで修正を加えることができました。2-2のやつです。
こちらをPikaでも試してみます。

まず、こちらの動画をもとにして試していこうかなと思います。今回は、表情を変えてみようかなと思います。


生成された動画が並んでいる画面から、この動画の枠にあるEditボタンをクリックします。

Editボタン


すると編集画面が開きます。こちらからModify regionボタンをクリックします。

Modify region画面


今回は表情を変えたいので、顔の部分を白い枠で囲み、「笑った表情にしてください」とスクリプトを入力します。シンプルですね!

編集画面


これで、生成ボタンを押してみます。
そうして生成された動画はこちらになります。


うん。まあ。笑ってはいますけどね…。
なんていうか。。

なんて感じで…笑
これをうまく使いこなしてイメージする動画に近づけていけるようになると、一気に動画の制作時間も短縮できるんじゃないかと思いますね!
でも、思うように修正してもらうのは、今はまだなかなかに難しそうで、コツと動画との相性とがあるのかなって感じです。



4.おわりに

今回は、ChatGPTの画像編集を参考に、Pikaでは何ができるのだろうと試してみたことを、取り止めもないですが記事にしてみましたが、やはり勝手が違うんだなって…。
と、いうか、こぼれ話とかタイトルに書きましたが、分量過去最多になっちゃいました…。
まあ、なんか、そういうものなのかもな、とは思いつつ。。

とりあえず、やっぱりそのツールにはそのツールの使い方というか、特徴があって、それをうまく使いこなせるかどうか、が大事になってくるのだろうなぁ、なんて思いました。
大枠は汎用的な知識で使えて、細かくなってくると、そのツールへの理解が必要になってくる、ってな気がしますね!ご参考までに!です笑

ではでは。






テクノロジーの力で新たな領域を切り拓く、次世代の事業の柱を共に創造しませんか?
私たちはモビリティに留まらず、革新的なサービスを生み出すことを目指しています。
ニーズや、テクノロジーの進化を常に追い求める、多様なバックボーンをもつグローバルな個性豊かな仲間が集まり、様々な視点からのアプローチで新たな事業やサービスを創出しています。






この記事が気に入ったらサポートをしてみませんか?