見出し画像

【1万文字】0から始める SD3 Medium 入門:インストールからプロンプト作成、活用事例まで徹底解説❗️

はじめに:Stable Diffusion 3 とは?

どうも皆さん!冷蔵庫の中身をAI が管理してくれると助かるな~と思ってるちょっとズボラなタイプの女、葉加瀬あいです!

AI技術の進化って、本当にすごいと思いませんか? 特に画像生成AIの分野は、日進月歩で新しいモデルが登場していますよね。

今回ご紹介するのは、Stable Diffusion 3 (SD3)。 Stability AIが開発した、テキストから画像を生成するオープンソースのAIモデルなんです!

「え、Stable Diffusionって聞いたことあるけど?」と思った方もいるかもしれませんね。 実は、Stable Diffusionにはいくつかのバージョンがあるんです。 SD3は、その最新版! 「どんな画像が作れるの?」「前のバージョンと何が違うの?」と、 気になるポイントがたくさんあるかと思いますので、一緒に見ていきましょう!

この記事では、SD3の中でも早速使えるようになったということで、特に注目されている「Medium」モデルについて、 基本的な情報から、実際に画像を生成する方法、さらには便利な活用事例まで、 余すところなく解説していきます!

「画像生成AIって難しそう…」と感じる方もご安心ください! 初心者の方にも分かりやすく説明していきますので、一緒にSD3について理解して行きましょう!

ちなみに、私のこちらの記事でもSD3という技術について詳しく解説しているので良かったら関連記事としてチェックしてみてください!

⚠️私の記事を読む上での注意事項⚠️

なお、私の記事を読む上での注意事項などをこちらで説明しておりますので、以下のプロフィール記事をご一読いただいた上で閲覧するようお願いいたします。

それでは、早速続きを解説していきたいと思います!


Stable Diffusion 3 Medium とは?

Stable Diffusion 3 (SD3) には、実は様々なバリエーションが存在するんです! まるでRPGのキャラクターみたいに、それぞれ異なる能力を持っているんですよ。

まず、SD3には世代の違いがあります。 SD1.X、SD2.0/2.1、SDXL...そして今回登場した最新のSD3! 世代が新しくなるにつれて、モデルの内部構造や機能が進化し、 より高品質な画像が生成できるようになっているんです。

そして、SD3の中でもさらにモデルの種類が分かれているんです。 それが、Medium、Large、Ultraといったバリエーション。

これらは、例えるならプラモデルのサイズのようなもの。 Mediumは中くらいのサイズで、Largeは大きいサイズ、Ultraは超特大サイズといったイメージです。

そして、現在このモデルの中で唯一使えるようになっているのが、「Stable Diffusion 3 Medium」 ということになります!

Reference:https://twitter.com/channelaiapp/status/1801859201322651767/photo/1

モデルのサイズの違いは、パラメータ数という数値で表されます。 これは、モデルが学習した情報の量を表すもので、いわばAIの「能力値」のようなもの。 パラメータ数が多いほど、より複雑で高品質な画像を生成できる可能性がありますが、 その分、動かすにはハイスペックなパソコンが必要になります。

今回リリースされたMediumは、その名の通り、パラメータ数が中くらいのモデル。 家庭用パソコンでも比較的動かしやすいサイズ感でありながら、 高品質な画像を生成できる、バランスの取れたモデルなんです!

ちなみに、SDXLという一つ前のバージョンと比較すると、 SDXLは26億ナノに対し、SD3 Mediumの方が20億とパラメータ数は少ないのですが、後ほど解説する DITアーキテクチャー という最新の技術が搭載されているため、より高品質な画像を生成できるんです!

Medium以外のLargeやUltraは、今のところStability AI社のサービスでしか利用できませんが、 将来的には一般公開されるかもしれません。 今後の展開が楽しみですね!



SD3 Medium の特徴とできること

SD3 Medium は、画像生成AIの世界に革命を起こす、
まさに「魔法の杖」のような存在なんです!

その特徴は、大きく分けて4つ!

1.  よりリアルな質感:
まるでプロのカメラマンが撮影したかのような、高画質でリアルな画像を生成できます。人物の肌の質感や髪の毛の一本一本、風景の細部まで、まるでそこにいるかのような感覚を味わえるんです!

2.  より良い構図:
皆さんが思い描くイメージを、言葉で詳しく説明するだけで、AIがその内容を理解し、完璧な構図で画像を生成してくれます。例えば、「夕焼けに染まる海辺で、白いワンピースを着た女性がたたずんでいる風景」といった複雑な描写も、SD3 Mediumならお手の物!

3.  パフォーマンスの向上:
少ない計算資源で効率的に動作するため、処理速度が速く、快適に画像生成を楽しめます。こちらに関しては先ほども少し紹介したDITアーキテクチャというものを使っているためですね!

4.  より優れた微調整機能: 特定の画風やキャラクターを学習させ、自分だけのオリジナル画像を生成できる「ファインチューニング」という機能もさらに強化されました。皆さんの理想のイラストや写真が、SD3 Mediumによって現実のものとなるかもしれません!

百聞は一見にしかず! SD3 Mediumがどれほどの画像を生成できるのか、 実際に見てみましょう!

(参考画像: https://twitter.com/fofrAI/status/1801726972193612033)

SD3 Mediumは、特に人物の描写に優れていて、 肌の質感や髪の毛の表現など、細部までこだわって描かれているのが分かります。

もちろん、風景画やオブジェクトの生成も得意なんです。 これらの画像のように、まるで写真のようなリアルな質感や、 複雑な構図も難なくこなしてしまうんです。

Reference:https://www.reddit.com/r/StableDiffusion/comments/1dez7uo/im_trying_to_stay_positive_sd3_is_an_additional/

ただ、「完璧!」とまではいかない部分もあるんです。 例えば、ピースサインをする手の形など、 複雑な構造をした部分の描写はまだ少し苦手みたいなんです。 以前のバージョンであるStable Diffusion XL(SDXL)と比べれば、 かなり改善されているんですけどね。

Reference:https://twitter.com/fofrAI/status/1801716977872080937

でも、ご安心ください! SD3 Mediumは、SDXLと同じく、ControlNetという技術と連携することで、 手の形やポーズといった細かい部分も、より正確に表現できるようになる可能性を秘めているんです!

ControlNetとは、画像生成AIが苦手とする「ポーズ」や「構図」などを より細かく制御できる技術のこと。 例えば、特定のポーズを取った人物の画像や、 複雑な構図の風景画などを、より思い通りに生成できるようになるんです。

SDXLでは、ControlNetの一種であるanytest_v3などを利用することで、 すでに手の形やポーズの改善が見られています。

知らない方向けに簡単に解説すると、「ラフ絵(手書きの大雑把な絵)などをきれいな線画にする → SDXLのベタ塗りLoRAなどで綺麗にその線に沿って色付けなどをする ;→ 細かい修正をAIやPhotoshopで行う」といった形です!

あえてすべてをAIで生成しないということで、手や服などの一貫性を保つ、AI漫画の界隈で今トレンドの技術ですね!

Reference:https://twitter.com/nana_tsukisuwa/status/1796855622585205176

↓ 
 ラフ絵や画像をきれいな線画にする技術

ここから先は

5,592字 / 7画像

この記事が参加している募集

#AIとやってみた

27,620件

この記事が気に入ったらサポートをしてみませんか?