見出し画像

そうだ!AI画像生成をちゃんと勉強しよう💡1章:スーパー基礎編

※勉強するのは、Stable Diffusion、SeaArt系になります。

まだまだAIについて専門家ではない私が、等身大で記事を書いていきたいと思います(*⩌⩊⩌*)

AIをいじり始めてからも画像を作ってみたことはありますが、主にChatGPTくんで作ったり、
他のサービスを使ってみたときも、よくわからないまま何となく作っていたりしたので(例文をそのままつかったり、おすすめの文をそのまま使ってみたり適当なプロンプトとか)


noteを始めたのを機にちゃんとお勉強してまとめよう💡と思い立ちました。
都合良く、この前勉強に良さそうなガイドブックを見つけたところなんです♪

この記事の最後にリンクを貼っておくので
みなさんも触手が動いたらそのガイドを読んでみてください!
内容盛りだくさんで勉強になると思います✨


という訳で、今回からAI画像生成の基礎をまとめていきたいと思います!




AI画像生成の基礎情報


AIで画像はどうやってつくるの?

近年画像を生成できるAIサービスはどんどん増えていますが、どのサービスでも画像の生成方法は主に「Text to Image」と「Image to Image」の2種類が基本的みたいです。
それぞれどのようなものかですが、

・「Text to Image」

プロンプトと呼ばれる指示文から画像を生成する。

・「Image to Image」

既存の画像とテキストの説明を組み合わせて新しい画像を生成する。

です。


「Text to Image」について

上でも書きましたが、指示文から画像を生成するのが「Text to Image」になります。指示文のことはプロンプトと呼ばれたりします。

※このあとの記事では基本的に「指示文」ではなく「プロンプト」の方を使っていきたいと思います。


実際にはプロンプトだけじゃない

では、よく見かけるクオリティの高いAI画像は、プロンプトを駆使すれば出てくるのか?
というと、そういう訳にはいかないみたいです。
文章生成系のAIとは違って画像生成では、

モデルを選択→プロンプトを入力→パラメータを設定→生成

という手順が基本だそうです。


モデル? パラメーター?

( ᐛ )パァ

という感じですが、きっと勉強すれば理解できると信じますw
それでは、

  1. モデル

  2. プロンプト

  3. パラメーター

の順に見てみたいと思います。



1.モデル

モデルとは?

モデルは簡単に言うと、
AIが画像を作るための「計算方法」や「ルール」のことです。
画像生成AIの中核となる部分で、どんな画像を、どのように決めるか重要な役割を果たしています。

モデルについてはボリュームが凄そうなので、
また別の記事でまとめてみたいと思います。


2.プロンプト

画像生成におけるプロンプト

私は、「描いてほしいものの説明の文を入力すればいいんでしょ」くらいに思ってましたが(ChatGPTに慣れているので)

画像生成におけるプロンプトは画像の内容を定義するためのもので、
AI をより効果的に誘導するために、肯定的または否定的なフィードバックを提供してモデルの動作を制限する方法。だそうです。

これも掘ると大変そうなので、基礎情報の今回の記事ではさわり程度にしておきます。


3.パラメーター

パラメータとは?

これはガイドに詳しく載っていなかったので、Claudeさんに聞きました😅
以下がその内容です。


「パラメータ」について説明しますね。パラメータは、生成される画像の特徴や品質を調整するための設定値です。
主なパラメータには以下のようなものがあります:

  1. プロンプト (Prompt):

    • 生成したい画像の内容を文章で指定します。

    • 例:「夕日の海辺で佇む猫」

  2. ネガティブプロンプト (Negative Prompt):

    • 画像に含めたくない要素を指定します。

    • 例:「人間、建物、車」

  3. ステップ数 (Steps):

    • 画像生成の精度を決定します。数が多いほど詳細になりますが、時間がかかります。

    • 通常20〜50の範囲で設定します。

  4. CFG Scale (Classifier Free Guidance Scale):

    • プロンプトへの忠実度を調整します。高いほどプロンプトに忠実になりますが、不自然になる可能性もあります。

    • 通常7〜15の範囲で設定します。

  5. シード値 (Seed):

    • 乱数生成の起点となる値で、同じシード値を使うと同じ画像が生成されます。

  6. サンプラー (Sampler):

    • 画像生成のアルゴリズムを選択します。

    • 例:Euler a、DDIM、K_LMS など

  7. 画像サイズ:

    • 生成する画像の縦横ピクセル数を指定します。

  8. バッチサイズ (Batch Size):

    • 一度に生成する画像の数を指定します。

これらのパラメータを調整することで、生成される画像の特徴や品質をコントロールできます。使い方に慣れてくると、より思い通りの画像を生成できるようになります。


はい、以上です。
が、また何が何だか分からない単語がたくさん出てきました😇

これも追々掘りたいと思います。

「Text to Image」についてはこんな感じです。
いや~、勉強しがいがありそうですね…w




「Image to Image」について

次に「Image to Image」です。

「Image to Image」は、既存の画像とテキストの説明を組み合わせて新しい画像を生成できる技術でしたね。

この技術は、特定のニーズに応じて画像とテキストのプロンプトを組み合わせて新しいビジュアルコンテンツを作成できるのが良い点です。

簡単に言うと、基になる画像とプロンプトの両方を考慮して描画する感じです。

「Image to Image」の良いところ

「Text to Image」では初めにAIが生成する画像が思った通りにならないことがあります。
これは、AIが画像を作るときに少しランダムな要素が入るためです。

その生成された画像をもっと自分の希望に近づけることができるのが「Image to Image」機能の良いところです。


基になる画像とプロンプトだけじゃない

でも例によって、画像とプロンプトだけ用意すればいいというものではないみたいです。
「Image to Image」の流れは、

参照画像のアップロード → モデルプロンプトの設定 → パラメータの設定 → 生成

になります。

またちょっと「Text to Image」とは違いそうな雰囲気してますw

今日のところは見逃してやるか…
これもまた後日掘り下げます  _( :⁍ 」 )_ズコー




今日のお勉強はこのあたりで…

これからコツコツやっていきたいと思います。

参考にしたガイドはこちら👇よかったら参考まで🥳




今日のサムネ生成過程(ChatGPT,DALL-E 3)


私「「そうだ!AI画像生成を勉強しよう💡1章:スーパー基礎編」というタイトルのnote記事を書きました。 このタイトルに合うような画像を作ってください。 要望は、日本の少女漫画のようなタッチで、水彩画のようなカラーリングで16:9で描いてください。」

ChatGPTくん「こちらが「そうだ!AI画像生成を勉強しよう💡1章:スーパー基礎編」のタイトルに合うイラストです。日本の少女漫画のようなタッチで、水彩画のようなカラーリングで描かれています。ご確認ください。」

私「ありがとうございます(*´ω`*)」

以上。


(2024.8.2追記)

おまけの成果ギャラリーvol.1

私が生まれて初めて作ったAI画像

私はLeonardoAIが初めて使った画像生成AIでした!
「擬人化猫」
この単語だけでこの4枚の絵が出てきて衝撃を受けました。
と同時にAI画像生成の虜に…♡

記念すべき1枚
いまヘッダーで使ってるやつ


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?