生成AI、下から見るか？横から見るか？

ベルヌイ/緑のタヌキ

2024年8月9日 22:55

私はEdgeのアシスタント機能のCopilotで画像生成ができるようになってから、たくさんMMORPGのプレイヤーキャラクターをねんどろいど風フォトとして再現しました。

その中で、プロンプト(命令文)の組み方で作風がガラリと変わることが分かってきました。

次の2枚の画像は、どちらも同じキャラクターを再現した(つもりの)画像です。見比べてみてください。

剣士キャラクターの男の子

こちらの画像は画像生成を試みて間もない頃に生成したものです。
次に、数か月後にプロンプトを工夫して同じキャラクターを生成した画像をご覧ください。

同じキャラクターを見ながらプロンプトを組んだはずなのに、全体の雰囲気が全然違いますよね。どういうこと！？

結論を言ってしまうと、前者はポートレート、後者は風景写真という主目的の異なるプロンプトの組み方をしています。

つまり、1枚目は
「ねんどろいどの男の子の画像を生成してください。」
という文言から始まっているのに対して、2枚目は
「三日月の浮かぶ夜桜の写真を生成してください。ねんどろいどの男の子がいます。」
という文脈で始まっています。

プロンプトは日本語で組んでいますが、それに対するCopilotの返答が
" I'll try create to that. " (作ってみますね。)
なのから察するに、英語のプロンプトでも同じことが言えそうです。
絵や写真の構図で、何に焦点を当てるのかという課題に似ています。
他にも例を見てみましょう。

人物にフォーカスした例

例えばこちらの画像は、「ねんどろいどの女の子の写真」が主目的になっています。それに「ビルの屋上の背景」を加えたものです。

ポートレートとしてはこれが正しい構図なのかもしれませんが、真面目すぎる写真という気がします。少し動きがほしいですよね。

風景にフォーカスした例

次は、風景を主目的にした画像の例をご覧ください。

こちらは、「虹が掛かった雨上がりのヒマワリ畑の写真」に、「ねんどろいどの女の子」を加えた写真です。

文脈によるアプローチの違いで、画像生成AIはこんなにも異なる雰囲気の画像を出してくれるのです。興味深いことだと思いませんか？

この記事ではねんどろいどキャラクターを例として出しましたが、画像生成AIを使う上では(少なくともCopilotでは)、プロンプトの組み方で大きく作風を変えることができそうです。

これからの未来は画像に限らずですが、生成AIと上手に付き合い、使いこなすことが重要なスキルになると感じます。

よろしければサポートお願いします！何か記事へのリクエストなどがあれば一緒にいただけると嬉しいです。