初心者のためのAI画像生成プロンプトの理解と活用法

2024年11月6日 22:00

AI画像生成プロンプトの理解と活用法 - 人物生成のコツを徹底解説
はじめに
AI画像生成に興味を持った方の多くが「プロンプト（指示文）の書き方がわからない」という壁にぶつかります。特に人物生成は細かな指示が必要なため、より難しく感じる方も多いのではないでしょうか。
今回は、プロンプトの構造を理解し、効果的に活用するための具体的な手順をご紹介します。

プロンプト生成の具体的な手順
まず参考にしたい写真や画像を準備してください

1. ChatGPTへの指示

まずはChatGPTに以下のようなプロンプトを入力します：
画像分析とプロンプト生成システム
———————————————————-
ゴール
画像内の人物の顔の特徴、表情、構図、背景を詳細に分析し、画像生成用の高品質なプロンプトを作成する。国籍や性別の特徴を考慮したプロンプトを生成する。
分析項目
1. 基本情報と構図

性別と年齢層（例：20代女性、30代男性、中性的な印象）
国籍(例：日本人、アメリカ人）
カメラアングル（例：正面クローズアップ、俯瞰、45度アングル）
ズームレベル（例：バストショット、クローズアップ、全身）
顔の向きと表情（例：正面視線で微笑み、伏し目がちな自然な表情）
体の向き（正面、右向き、左向き）
シーン設定（例：カフェでくつろぐ、オフィスでの仕事中）

2. 顔の詳細分析

顔の輪郭：形状（卵型、四角、丸型、ハート型、長方形）
目：サイズ、形、色、光の反射、特徴的な要素
眉：形状、太さ、毛流れ、色と濃さ
鼻：形状、サイズ、陰影の特徴
口：サイズ、形状、唇の厚み、質感
ヒゲ：有無、形状、長さ、質感
肌の質感：色調、テクスチャー、陰影
髪型：長さ、スタイル、色、質感、毛流れ

3. アクセサリー＆小物

ピアス/イヤリング
ネックレス
眼鏡
帽子
その他装飾品（腕時計、ブレスレットなど）

4. 衣装と素材表現

トップス詳細
ボトムス詳細
アウター詳細
素材の質感表現：
- 素材タイプ（コットン、ウール等）
- 質感特徴（柔らかさ、光沢等）
- 細部の特徴（ステッチ、ボタン等）

5. 所持品分析

アイテムの種類
形状・サイズ・デザイン
材質と質感
色彩と装飾
持ち方と仕草
使用シーンの雰囲気

6. 総合的印象

顔のパーツバランス
全体的な雰囲気
光と影の演出効果

7.表情や雰囲気から伝わるストーリー

表情に基づく感情（例：微笑んでいるが、どこか憂いを感じさせる表情、目に優しさが宿る）
雰囲気や仕草から感じられる背景（例：一息ついてリラックスしている雰囲気、何かを考え込んでいるような視線）
アイテムとの関係性（例：カップを両手で包むようにして温もりを感じている、スマートフォンを見ながら少し考え込んでいる様子）
キャラクターの物語的要素（例：自分の時間を楽しんでいる一方で何か新しいアイデアを思案している、旅の途中で立ち寄ったカフェで一息ついている）

プロンプト生成手順

画像提供待機
提供画像の詳細分析
プロンプト生成時の注意点：
- 全項目の網羅的チェック
- 構図と所持品の正確な記述
- 適度な表現調整
- ダブルチェックによる確認

出力形式：

YAML形式で英語版と日本語版を別々に提供
各要素を階層的に整理

制約事項

画像提供まで処理開始不可
100%の正確性を目指したプロンプト生成
構図と所持品の完全な正確性を確保
表情や特徴を過度に変更しない表現使用
すべての項目の漏れのない記述
必ずダブルチェックを実施

画像を受領次第、上記基準に従って詳細な分析とプロンプト生成を実施します。
———————————————————————————————

このプロンプトは、画像を解析して具体的な特徴を抽出し、AI画像生成用のプロンプトに変換するよう設計されています。

2. 参考画像の読み込み

準備した参考画像をChatGPTに読み込ませます。すると、以下のような形で英語と日本語のプロンプトが生成されます：

生成されたプロンプトを見てみましょう。英語版と日本語版が対になっているため、各要素がどのように表現されているかが理解しやすくなっています。例えば：

人物の表情や雰囲気
服装や小物の詳細
背景や光の設定
撮影技法や画風の指定

これらがどのように言語化されているかを確認できます。
英語
————————————————————
- person:
gender: "female"
age_range: "20s"
facial_features:
face_shape: "oval"
eyes:
size: "medium-large"
shape: "almond"
color: "dark brown"
highlights: "soft natural light reflecting"
eyebrows:
shape: "soft arch"
thickness: "medium"
color: "dark"
nose:
shape: "straight, delicate"
size: "medium"
mouth:
shape: "small, slight upward curve"
lips: "medium thickness, soft texture"
skin_tone: "light"
texture: "smooth, soft glow"
hair:
length: "long"
style: "straight with bangs"
color: "dark brown"
texture: "silky"
expression: "soft smile, gentle and approachable"
body:
pose:
direction: "right-facing, upper body turned towards camera"
attire:
sweater:
color: "light beige"
texture: "knit, soft and cozy"
fit: "slightly loose"
accessories:
item: "none visible"
holding:
object: "golden can"
description: "holding can gently with right hand"
setting:
background: "traditional Japanese garden, soft greenery and autumn leaves"
lighting: "natural, diffused sunlight, warm and soft"
mood:
atmosphere: "calm and relaxed, enjoying a quiet moment outdoors"
story:
implied_narrative: "taking a break, enjoying the scenery and peaceful moment, slight joy in her expression"
——————————————————————————

日本語
——————————————————————————
- 人物:
性別: "女性"
年齢層: "20代"
顔の特徴:
顔の輪郭: "卵型"
目:
サイズ: "中～やや大きめ"
形: "アーモンド型"
色: "濃い茶色"
光の反射: "自然な柔らかい光が反射"
眉:
形状: "柔らかいアーチ"
太さ: "中程度"
色: "濃い"
鼻:
形状: "まっすぐで繊細"
サイズ: "中程度"
口:
形状: "小さめ、わずかに上向き"
唇: "中程度の厚さ、柔らかな質感"
肌の色調: "明るい"
質感: "なめらかで柔らかい光沢"
髪:
長さ: "ロング"
スタイル: "前髪あり、ストレート"
色: "濃い茶色"
質感: "シルキー"
表情: "優しい微笑み、親しみやすい"
体の向き:
ポーズ:
向き: "右向き、上半身はカメラ方向へ"
服装:
セーター:
色: "ライトベージュ"
質感: "ニット、柔らかく快適"
フィット感: "ややルーズ"
アクセサリー:
アイテム: "特になし"
所持品:
オブジェクト: "ゴールドの缶"
説明: "右手で缶を優しく持っている"
シーン:
背景: "伝統的な日本庭園、柔らかな緑と秋の紅葉"
照明: "自然光、拡散された温かく柔らかい光"
雰囲気:
全体の空気感: "穏やかでリラックス、屋外の静かな瞬間を楽しんでいる"
ストーリー:
暗示された物語: "休憩中、景色と静かな時間を楽しんでいる、表情にわずかな喜びが見られる"
———————————————————————————

3. 実践：imageFXでの活用例
では、実際に生成されたプロンプトを使って画像を作成してみましょう。imageFXに先ほどのプロンプトを入力すると、このような画像が生成されます：

4. プロンプトの調整と実験
生成された画像を基に、さらに調整を加えていきます。以下の点に注目して変更を加えてみましょう：

肌の質感（soft skin, smooth skinなど）
照明設定（dramatic lighting, soft lightingなど）
カメラアングル（close-up, from belowなど）
画風指定（photorealistic, artistic, cinematic lookなど）

例えば、別の参考画像でも試してみましょう：

この画像をChatGPTで解析すると、以下のようなプロンプトが生成されます：

person:
gender: " Japanese female "
age_range: " 20s "
facial_features:
face_shape: " oval "
eyes:
size: " medium-large "
shape: " almond "
color: " dark brown "
high light s: "soft indoor light reflecting"
eyebrows:
shape: " soft arch "
thickness: " medium "
color: "dark"
nose:
shape: " straight, delicate "
size: " medium "
mouth:
shape: "small, neutral expression"
lips: " medium thickness, soft texture"
skin_tone: " light "
texture: "smooth, soft indoor glow"
hair:
length: "long"
style: " straight with bangs "
color: " dark brown "
texture: " silky "
expression: "neutral to soft, s light ly thoughtful"
body:
pose:
direction: "facing forward, s light ly leaning towards table"
attire:
dress:
color: " light gray "
texture: "ribbed knit, comfortable and warm"
fit: "s light ly form-fitting"
accessories:
item: " none visible "
holding:
object: " white coffee cup "
description: "holding cup gently with both hands, close to her face"
setting:
background: "cozy café interior with warm light ing, wooden table and chairs" light ing: "soft indoor light with a warm tone"
mood:
atmosphere: "calm and introspective, enjoying a quiet moment"
story:
implied_narrative: "taking a break at a café, savoring the warmth of her coffee, lost in thought"

これをimageFXで生成すると、このような結果が得られます：

プロンプトのカスタマイズのコツ

基本構造を把握する
- 人物の特徴（年齢、性別、表情など）
- 環境設定（場所、時間帯、光の状態など）
- 技術的な指定（カメラアングル、レンズ、画質など）

細部の調整

imageFXのパラメーター機能を活用
生成後の微調整が可能
要素の追加・削除を試行錯誤

効果的な指示の組み合わせ

ポジティブな指示（こうしたい）
ネガティブな指示（こうしたくない）
技術的な指示（画質や解像度）

なぜAI画像生成から始めるのか？
AI技術の入り口として画像生成がおすすめな理由：

視覚的なフィードバックが即座に得られる
結果が分かりやすい
試行錯誤が楽しい
創造性を刺激される

まとめ
プロンプトの構造を理解し、細かな調整を加えることで、より意図に沿った画像生成が可能になります。最初は完璧な結果を求めすぎず、様々な指示を試してみることが上達への近道です。
この記事で紹介したプロンプトやテクニックはご自由にお使いください。皆さんも、AI画像生成の可能性を楽しみながら探求してみてください！