見出し画像

画像生成AI、使いやすいのは?【2024.4】その1



朗読劇のスライド制作が画像生成AIとの最初の出会い

2023年の秋、同僚が主催する劇団から、不朽の名作「星の王子さま」を題材にした朗読劇の演出スライドを制作する依頼を受けました。
同劇団から朗読劇用のスライド制作のオファーを受けるのは2度目なので、二つ返事でOKしました。

ただ、1年前に関わった際には、お題の画像・映像の素材を探すのにかなり骨を折った思い出があったので、オファーを受けた時点で、画像生成AIの使用を視野に入れていました。

素材選びがスムーズに進む展開に拍子抜けするものの、、、

原作の「星の王子さま」は、フランス人作家、アントワーヌ・ド・サン=テグジュペリが1943年に出版した小説で、著作権の関係から原作に使用されている挿絵をそのままスライドで利用できるとのこと。

オファーを受けたスライドは全15箇所。そのうち、原作挿絵が使用できる箇所が約半数でした。

「なんだ。今回は余裕じゃないか」とニンマリ。

早速いただいた台本とスライド制作用の資料を基に、スプレッドシートにまとめリンク集を作成しました。追加オファーにも対応すべく、挿絵の画像は全てまとめてリンクを作成し準備万端。

かなり余裕と見た今回、このリンク集ができた時点で、のんびりと作業をすることにしました。

画像素材サイトで探せないものはAI に任せる

隙間時間でのんびりと作業を進める中、序盤で手こずった素材が「砂漠に不時着した飛行機」というお題でした。
すぐに自分の頭でもイメージができたので、余裕だろうと思ったものの、「星の王子さま」の時代背景が1940年代ということもあり、最近の航空機の仕様は当然使用NG。

フリーの画像素材サイトをいくつか巡ったものの、カラーの素材でかつ、砂漠に横たわっている1940年代の飛行機を探すことは不可能に近いものでした。
結論として、2つの画像を合成するか、画像生成AIを使ってみるしかないな(使いたくてしょうがないだけ)と思い動き始めたのでした。

Adobe Fireflyの作成した画像に驚きと感動を得る

実はAIを使用すること自体には抵抗は全くなく、ChatGPTBing AI(現Copilot)、Google bird(現Gemini)はこれまでも頻繁に利用していました。

ただ、制作していた当時、上記はまだ画像生成には特化しておらず、さらにPC容量も少なく英語に弱い私が、
Stable Diffusion
Midjourney
を使いこなすビジョンは全く見えなかったため、どの画像生成AIサービスを利用するか調べていました。

そんな矢先、Adobeが日本語対応の画像生成AIサービスを開始とのネットニュースがあり、すぐに飛びついたのでした。

幸いAdobe Creative Cloudを契約しているため、無料でしかもクラウド利用が可能だったAdobe Fireflyは舞い降りた天使。
使用方法もわからぬまま、検索窓になんとなく、「砂漠に不時着したプロペラ飛行機」と入力すると瞬く間に4枚の画像を生成。

砂漠に不時着したプロペラ飛行機1
砂漠に不時着したプロペラ飛行機2
砂漠に不時着したプロペラ飛行機3

なんだこれ。
すげーな。。
こりゃ楽しい。。。

と、あっという間に画像生成AIの虜になっていくのでした。

打ち合わせにて自信満々の発言

このクオリティの画像があれば、観客もクライアントも満足させられるスライドを制作できるはずと確信した私。
早速、脚本兼プロデューサーの元を訪ね、打ち合わせを依頼。Fireflyで作成した画像を持って、イメージのすり合わせをすることに。

舞台は朝か夜か夕方なのか、雲の有無や飛行機の形状は?など、具体的なイメージを聞き出し、プロンプトを作成しながら実際に出てくる画像を見てもらい、ほぼ一発OKをもらうことができました。

この打ち合わせで発した「かしこまりました。それではAIに作らせますので。。。」はスタッフ内で語り継がれていく名(迷)言となっていくのでした。

画像の細かい調整が難しいという短所

楽しくAdobe Fireflyを試していく中で、困った点がいくつかありました。

  1. 惜しい画像の細部のみ修正したいがうまく生成されない。
    上記の画像で言えば、例えば「プロペラの枚数を3枚ではなく2枚にする」であったり、「機体の色を変えたい」など、ちょっとしたズレの修正にかなり手こずりました。

    生成画像を基に、さらに生成などの機能もあるにはあるのですが、全くうまくいかなくて、もう少しのところで足踏みすることになったのでした。

  2. 生成中に画面が固まる。生成自体に時間がかかる。
    これに関しては、PC性能やネット環境による部分が大きいのですが、何度も細かい指示を出していく中で、Adobe Fireflyでは目標のものを生成できないままフリーズしてしまうことが何度かあったので、若干ストレスに感じました。

    近い将来、AI半導体の性能が向上すれば解消されるのかもしれません。
    ただ個人的には、ガチャを回す感覚でプロンプト→画像生成を楽しめる点は非常に良いし楽しいです。

  3. Fireflyは日本語からの画像生成は実は苦手?
    飛行機の画像を生成していた頃は、まだリリースから間も無く、日本語で細かい指示をしないと、理想の画像に辿り着けないこともかなりネックでした。

ただそんな中、幾度のプロンプト変更の末、ようやく辿り着いたプロンプトが、「夕方の砂だけしかない大砂漠に不時着し動けない1940年代のプロペラ飛行機」で、生成された画像がこれ。

夕方の砂だけしかない大砂漠に不時着し動けない1940年代のプロペラ飛行機

砂だけしかない大砂漠ってなに?って感じですが、日本語を変換する工程を考えると仕方がないのかなと妙に納得。

これ以上は調整も難しく、自分のイメージにもかなり近く、プロデューサーから合格をいただくことができたため、この画像を本番でも使用することに決めました。

GoogleAI Geminiとの出会い

Adobe Fireflyが生成してくれる画像は、どれだけ困難なお題でも応じてくれる上、こちらが欲している95%くらいの完成度と満足度を与えてくれます。

残りの5%を埋めるために、生成画像に補正を加え完成させていました。
ただし、もう少し痒いところに手が届くものがないかと日々、試行錯誤しているのも事実でした。

そんな中、2024年の初頭にGoogleAIのGeminiがテキストから画像を生成を可能にしたという記事を発見。

早速試してみると、Adobe Fireflyより生成速度が速く、クオリティも良く感じたので、しばらくはGeminiで画像生成を試し検証を重ねていくことにしました。

思いもよらぬ弊害とGeminiの利便性

Adobe Fireflyで完成し、決定していたはずの「砂漠に横たわる飛行機」の画像が、思いがけない壁とぶち当たり白紙に戻ることになります。

本番が近づくにつれ、チケットの好調な売れ行きと比例して、稽古も本格的に力が入ってきたある日。
脚本兼プロデューサーから、追加のお題をひとつ命じられます。

要約すると
「ストーリーの冒頭部分が、原作を知らない観客にはとてもわかりにくく、航空機が砂漠に横たわるまでに至る経緯を説明するオープニングムービーを作りたい」
とのこと。

しばし考え、難色を示しながら、「できなくはないですが、少し時間をください」と答えるに止め、その場はお茶を濁しました。

前述の通り、細かい修正がとても難しいAI画像生成。

使用すると決定した画像は、それ単体では素晴らしく、申し分のない画像なのですが、同じ機体で別のショットを生成することがすごく難しいのです。
航空機の機体の色、プロペラの数、車輪の有無、機体の大きさに至るまで、全てが毎回異なる形で生成されていました。

イメージを重ねた結果、
飛行中にエンジントラブルが原因で、砂漠に墜落したまま動けなくなった航空機」というプロンプトを二つに切り分ける必要がありました。

使用し始めたGeminiにプロンプトを入力していくことにしました。
理由は、Adobe Fireflyにはない未知なる可能性に期待してです。
ちなみに、Geminiでの画像生成用のプロンプトは英語のみ対応しています。

まずはGeminiに日本語を翻訳してもらい

日本語プロンプト1

より細かい表現を反映させたいので、詳細な翻訳を全文コピー

Gemini返信1

生成された答えを貼り付けると、

英文プロンプト1

なんとなくうまくいきそうな気配だけは感じられました。

Gemini生成2

ここまでで可能性しか感じません。

続きは現在執筆中・・・

この記事が気に入ったらサポートをしてみませんか?