レベル別AI画像生成法

GIGA林先生@日本初マイクロソフトでChatGPTのワークショップをした教師

2024年5月17日 16:40

こんにちは、マイクロソフト認定教育イノベーターのGIGA林です。

この記事では、AI画像生成のやり方をレベル別に解説します。初心者の方でもイメージに合った画像が生成できるように、すぐに使えるテクニックを紹介します。

このテクニックを通して、皆様には生成AIを上手に活用するためにはどう考えればいいか、段階的に感じてもらえる内容になっています。是非最後までご覧ください。

1. 概要

AI画像生成は、AI活用の最高の練習です。イメージ通りの画像をAIに生成してもらうためには、AIに適切に指示を出す必要があります。イメージ通りの画像ができたか一目でわかります。

AIにイメージ通りの画像を生成してもらうために重要なことは、AIに理解してもらえるように言葉で伝えることです。自分のイメージを言語化することがとても重要です。

上手に言葉で伝えることは、画像生成以外のAI活用でも大切なスキルになります。この記事で紹介されるテクニックを活用して、ご自身のAI活用スキルを高めてください。

2. AI活用の本質

画像生成に限らないAI活用の大切な視点を確認したいと思います。

AI活用の本質は、プログラミングの民主化だと私は考えています。言い換えると、誰でも簡単に自分好みにコンピューターをつかえるようになったということです。プログラミングと聞くと難しく感じる人は多いと思いますが、AIが人間とコンピュータの間に入り、上手に助けてくれます。

AI以前では、コンピューターに指示を出すには、プログラミング言語を使用する必要がありました。

そこで、プログラミング言語を使用できない人でもコンピューターが使えるように、アプリケーションが作られました。
この方法は使いやすい反面、アプリケーションの仕様の範囲をこえることができないことがデメリットです。

AIの登場によって、自然言語でもコンピューターに指示を出すことが可能になりました。
自然言語とは、人間が日常的に使う言葉です。一方、コンピューターが使う言語はプログラミング言語といいます。
AIが自然言語をコンピューターが使う言語、プログラミング言語に通訳をしてくれるイメージです。これで、プログラミング言語を知らなくてもコンピューターに細かく指示を出すことが可能になりました。

AIが自然言語を翻訳してコンピューターに伝えてくれるようになったことは、プログラミングの民主化とも言えます。プログラミングというと難しく聞こえますが、単純にいうとコンピューターに指示を出すことです。AIによってプログラミングが民主化されたことで、一般人でもコンピューターに細かく指示をだし、コンピューターから自分が求めた出力を得やすくなりました。

これからの時代、AI活用において重要になってくるのは、AIにわかりやすく、言語化することです。この点については今後のレベル別画像生成で順を追って体験してください。

3. AI活用レベルの定義

今回想定する画像生成ツールは、テキストから画像を生成するAIです。MicorosoftのCopilotだとImage Creator、OpenAIのDALL·Eが代表例です。今回の例では、Image Creatorを使用します。

Stable DiffusionやMidjourneyのようなツールは、私が使用したことがないため、検証していません。

テキスト画像生成の理解度を分かりやすく３段階に分けました。

初心者…
画像生成を初めて使用する。「プロンプト」という用語を知らない。

中級者…
画像生成を少し使用したことがある。もっと思い通りの画像を生成させたい人。「プロンプト」という用語を聞いたことがある。

上級者…
構造化プロンプトを使用することができる。イメージ通りのスタイルで画像を生成したい人。

それでは、今回は「動物運動会」というテーマで画像を生成してみます。
具体的には「徒競走をしているウサギとカメ」を生成してみたいと思います。

4. 初心者向け活用法「とにかくやってみよう」

まずは、とにかくやってみましょう。

Colipotに以下の様に入力してみましょう。会話のスタイルは、とりあえず「よりバランスよく」にしてみましょう。

徒競走をしているウサギとカメの画像を生成してください。

下のような画像が生成されました。画像生成では毎回違った画像が生成されるので、楽しみですね。

既によい感じですが、運動会なので場所は学校のグラウンドにしてみたくなりました。
「場所は学校のグラウンド」だと追加してみましょう。

徒競走をしているウサギとカメの画像を生成してください。
場所は学校のグラウンドです。

徒競走をしているウサギとカメの画像を生成してください。場所は学校のグラウンドです。

私は土のグラウンドがよかったので、修正してみましょう。

徒競走をしているウサギとカメの画像を生成してください。
場所は学校の土のグラウンドです。

徒競走をしているウサギとカメの画像を生成してください。場所は学校の土のグラウンドです。

右下のだけ緑ですが、他のは茶色になって土っぽくなりました。

このようにAIと対話をしながら、イメージに近づくよう対話をしていきましょう。

AIに伝える際に絶対に気を付けたいコツをいくつか紹介します。

明確に伝える
短文で伝える
繰り返し試行錯誤する

AIに指示を出すコツはまだまだありますが、まずは以上の３点を意識してAIに指示をだしてみてください。

上の例では、
1. 明確に伝える…
「土のグラウンド」と言わないと緑のグラウンドになった
2. 短文で伝える
「徒競走をしているウサギとカメの画像を生成してください。場所は学校の土のグラウンドです。」の方が、「学校のグラウンドで、徒競走をしているウサギとカメの画像を生成してください。」よりも短文でよい。
3. 繰り返し試行錯誤する
違うところを修正してイメージに近づけていく
のように行ってみました。

学校で、こどもに伝えるときと似ている部分は多いのではないでしょうか。

5. 中級者向け活用法「構造化プロンプト」

どんどん明確に、どんどん具体的にAIに伝えると文字数が多くなってしまいます。文字数が多すぎるとAIが理解してくれない場合が出てきてしまいます。

AIに上手に多くの量を伝えるためには、AIが理解しやすいように構造化することが有効です。AIは自然言語で会話はできますが、コンピューターです。コンピューターには、コンピューターが理解しやすいように伝えてあげるとAIにとって親切です。

今回は、有名な構造化プロンプトの「深津式プロンプト」を応用します。（リンクは引用元のYouTube）

画像用深津式プロンプト

#命令書:
あなたはプロのイラストレーターです。
以下の制約条件を守って最高の画像を出力してください。

#制約条件:
・以下の画像のスタイルと構成要素を守る

#画像のスタイル:
・（スタイルを細かく記述）
・

#画像の構成要素:
・（画像に描きたいものや内容を細かく記述）
・

少しプログラミング言語的な書き方になりました。
書き方をAIが理解しやすいように、プログラミング言語っぽくすることで、こちらの意図を上手に伝えられるようになります。

では、これを使ってみましょう。

#命令書:
あなたはプロのイラストレーターです。
以下の制約条件を守って最高の画像を出力してください。

#制約条件:
・以下の画像のスタイルと構成要素を守る

#画像のスタイル:
・ポップなイラスト
・鮮やかな色使い

#画像の構成要素:
・ウサギが１匹
・カメが１匹
・徒競走をしている

自分の思い通りに画像を生成したいのであれば、会話のスタイルを「より厳密に」に変更するとよいでしょう。
このフォーマットを活用すれば、文字数が多くなってもAIが理解しやすくなります。

6. 上級者向け活用法「AI画像分析活用プロンプト」

画像生成を続けていくと、多くの人が具体的に指示を書こうと思っても、自分のイメージを上手に言語化できない壁に当たると思います。

自分の頭の中にあるイメージを言語化するのは難しいです。特に画像のスタイルは、何をどう言語化していけばよいかとても悩みます。

そこで、言語化もAIに手伝ってもらおうという発想が、「AI画像分析活用プロンプト」です。

手順は以下の通りです。

基になる画像を用意する
Colipotに画像を分析して、スタイルと構成要素を言語化してもらう
スタイルと構成要素をイメージに合うように修正する
画像用深津式プロンプトに修正したものを張り付ける

1. 基になる画像を用意する

イメージに近いものを用意してください。画像検索を使ってもよいです。

2. Colipotに画像を分析して、スタイルと構成要素を言語化してもらう

用意した基画像をCopilotに追加します。
ダウンロードしたものは下にあるように追加します。
クリップボードにコピーしたものを貼り付けることもできます。

＊学校用のアカウントだとデータ保護が入っているからか、画像の貼り付けができませんでした。個人用のアカウントですることをお勧めします。

今回はこのような基画像を用意しました。

この画像を下の画像解析プロンプトを用いて言語化してもらいます。

画像解析プロンプト

#命令文:
あなたはプロのイラストレーターです。以下の制約条件を基に最高の出力をしてください。

#制約条件:
・添付画像のスタイルと構成要素を分析する。
・分析結果を箇条書きで詳細に記述する。
・記述は短文で簡潔に述べる。
・スタイルは、形状・色彩・デザインなどについて詳細に述べる。
・日本語で出力する。

#出力文:
〇スタイル
・
・
・


〇構成要素
・
・
・

今回は以下のような出力が出ました。

〇スタイル

カラフルで明るい色合いが特徴的です。自然と動物キャラクターがハーモニーを奏でています。
キャラクターはアニメーション風、丸みを帯びたフォームと表情豊かです。
背景は自然風景、山や木々が描かれ、爽やかさが感じられます。

〇構成要素

3匹の動物キャラクター（ウサギ、リス、キツネ）が描かれています。それぞれ異なるポーズと表情で描写されています。
スポーツ用具（バスケットボール、サッカーボール等）も画像内に配置され、アクティブな雰囲気を醸し出しています。
背景には山や木々、青空が広がり自然と一体化したシーンが展開されています。

自分が言語化するよりも、詳細でわかりやすく記載されています。

3.スタイルと構成要素をイメージに合うように修正する

必要なところだけ参考にして、自分のイメージに合うように修正します。
特にスタイルを参考にするとよいでしょう。
＊そのまま使うと基画像の著作権侵害につながる可能性があります。

4. 画像用深津式プロンプトに修正したものを張り付ける

#命令書:
あなたはプロのイラストレーターです。
以下の制約条件を守って最高の画像を出力してください。

#制約条件:
・以下の画像のスタイルと構成要素を守る

#画像のスタイル:
・カラフルで明るい色合いが特徴的です。
・キャラクターはアニメーション風、丸みを帯びたフォームと表情豊かです。

#画像の構成要素:
・ウサギとカメが徒競走をしています。
・場所は土のグラウンドです。

細かいところですが、AIに言語化してもらった分の語尾や表現は直さなくても大体問題なく出力してくれます。

かなりイメージに近いものができました。とても満足です。

7. その他

・著作権侵害とプロンプトについて

「AI画像分析活用プロンプト」を活用した際に、基画像をそのまま模倣した画像を生成すると、著作権を侵害する可能性があります。

文化庁の「AI と著作権に関する考え方について」では、この点について以下の様に言及されています。

AI 生成物を生成するに当たって、創作的表現といえるものを具体的に示す詳細な指示は、創作的寄与があると評価される可能性を高めると考えられる。他方で、長大な指示であったとしても、創作的表現に至らないアイデアを示すにとどまる指示は、創作的寄与の判断に影響しないと考えられる。

AI と著作権に関する考え方について（文化庁 2024）

基画像の著作者の権利を侵害しないよう注意しなければいけません。
プロンプトに活用した内容に注意するとともに、生成された画像そのものにも注意をしなければいけないと考えられます。

・学校での活用について

画像生成の学校での活用について、以下のような活用が考えられます。

発表する挿絵として
学級のアイコンとして
デジタルバッジとして
学年通信の挿絵として

これ以外にも様々な活用が考えられます。よい活用法があれば是非コメントに書いて共有してください。

一方で図工での活用は難しいと私は考えています。図画工作科では最終的な作品としての画像だけでなく、作成の過程も重要になってきます。ある意味過程を極限まで省略する画像生成は、教科としての学びの深まりに繋がらないでしょう。

8. おわりに

今回はレベル別AI画像生成法として、画像生成のテクニックを通して、どうAIにわかりやすく伝えるかを解説していきました。
AIにわかりやすく伝える方法、つまり上手なプロンプトの書き方は、画像生成だけではなく他のAIを活用する際にも基本になる考え方です。
学校で生成AIを活用する導入の段階にも活用できると考えています。

参考になりましたら、是非スキ♥、SNSなどでの共有をよろしくお願いいたします。

この記事が気に入ったらサポートをしてみませんか？