Stable Diffusionの第３世代、Stable Cascade を詳細解説❗最高峰の画像生成が瞬足で可能に❗

ハカセアイ🎧“動画 + Note” でAI技術を裏研修🔥あいラボの詳細はプロフィール欄まで⟡.·🎈

2024年2月18日 17:04

皆さん日々の画像生成で、もっと早く高品質な画像生成ができたらなあ…とかって思ったりしたことないですかね？

実はこの前、そんな皆さんのお悩みを解決する、Stable Cascade というとても画期的な画像生成AIが登場しました！

Stable Diffusion の発表した従来のSDXLのパワーアップ版というイメージで、画像生成がより高品質でしかもより早くなっているととても話題です！

画像生成の性能としてはこんな感じです。

すごい高性能できれいですよね…。

ちなみに話はそれますが、カスケードを聞くと、アニメが大好きな私はこんなものを思い浮かべてしまいます…笑

この方も速くて強いのに代表例ですね…。笑https://th.bing.com/th/id/OIP.3kQIFyKm4i0QlGDu_LyW6QAAAA?rs=1&pid=ImgDetMain

話を戻すと、こちらは画像生成AIのStable Diffusionの開発元であるStability AIが発表した新しい学習モデルになります！

つまりは、今までよりも違った学習方法でAIに画像生成の学習を行っているので、従来のものよりもパワーアップして新しいものが出てきたといった感じですね。

イメージとしてはSD1.5が第一世代、SDXLが第二世代、そしてこちらのStable Cascadeが第三世代と言った感じになります！
（厳密にはもっと世代が色々あるんですけども、ここでは簡略化するためにあえて第三世代という表現をします。）

この**第三世代**がどのくらい**すごい**かというと、この人みたいな感じ…
（コードギアスみなさん分かりますかね…？）

今回の**Stable Cascade**は、要約すると**早くて強い**と有名なあの**ランスロット様**みたいな感じです…！

この方の登場でコードギアスの序盤はとても荒れましたね…笑：引用

ちなみに比較画像はこんな感じになります！
一番左側がStable Cascadeで、一番SDXL
真ん中がSD15といった具合になります。

https://twitter.com/toyxyz3/status/1759142620625023292/photo/1

リアリティとか、手や波などの複雑なもの綺麗さなどはやはりStable Cascadeの方が綺麗ですよね！
ほかの例も見てみましょう！

https://twitter.com/toyxyz3/status/1759164725278232984/photo/1

今回は、そんなStable Cascadeの特徴について解説をして行きたいと思います！それではさっそく行ってみましょう！

Stable Cascadeの特徴

Stable Cascadeの特徴としては、従来のStable Diffusionよりも高速でかつ高品質な画像生成ができるようになったということが挙げられますね。

ちまたでは、Midjourney V6 に匹敵する性能を持っているとか..！

https://twitter.com/Joybeanns/status/1758994814211690777

また、このStable Cascadeの学習モデルを使って新しく学習モデルやLoRAの追加学習を行うときに、より少ないコストでかつ10%から20%ほど高速に学習ができるみたいです。

ちなみにControlNetやLoRAなども使用することができますので、基本的には今までのStable Diffusionを使った画像生成と同じような雰囲気で使用できるかと思います！というか、もっとControlNetやLoRAの性能を忠実に再現できるようになるかもしれません。

なぜかというと、Stable Cascadeはこちらの画像のような三段構造になっています。「ステージA」「ステージB」「ステージC」の構造で以下のように処理を分けて実行しています。

ステージA：テキストや画像プロンプトから画像を生成
ステージB：高解像度化などの処理実施
ステージC：ControlNetやLoRAでの微調整

ちなみに流れとしてはステージCでまずはControlNetやLoRAによる制御を行ってそれを基にテキストプロンプトなどに従った画像を生成しているという流れになります。
（厳密に言うとステージAとステージBはお互いに相互しあっています。）

つまりここで何が言いたいかというと、ステージCがControlNetやLoRAなどの画像生成の処理を行うために切り離されて動作するようになっておりますので、ControlNetやLoRAでの微調整が従来以上に画像生成に影響を及ぼすということになります。

したがって、ControlNetやLoRAでもっと画像生成を柔軟にコントロールできるようになったということになります。

これだけでもすごいんですけど、実はControlNetやLoRAによる微調整がパワーアップした以外にも、先ほど少し触れた高速化や高品質などの特徴もStable Cascadeにはあります。

Stable Cascadeはどのくらい高速化しているのか？

まずは実際にどのくらい画像生成が高速化しているかを解説していきたいと思います。

こちらの画像を見ていただけるととてもわかりやすいのですが、実際に画像生成を行う時にどのくらいの時間がかかったかというものを表したグラフを使用して解説をしていきます。

こちらのグラフでは一番左がStable Cascadeを使用した画像生成で、その隣の水色のグラフがSDXLを使用したものとなっているのですが、Stable Cascadeは従来のSDXLと比べてその半分以下の時間で画像生成ができているということが分かります。
（このグラフを見ても先ほどのステージCとステージABが切り離されて処理されているというのがよくわかりますね。）

Stable Cascadeはどのくらい高品質になってるのか？

そしてどの程度従来のStable Diffusionと比べて高品質化しているかということについても解説をしていきたいと思います。

こちらもこのグラフを見ていただければ最も早いかと思います。
グラフは以下のような構造になっています。

上段-どのくらいユーザーの指示を忠実に再現しているか
下段-生成画像の美しさ

このグラフのオレンジの部分がStable Cascadeになるのですが、こちらを見ていただくと分かるように指示をどのくらい忠実に再現しているかに関しては若干の違いになりますが、生成画像の美しさに関してはSDXLの倍以上のスコアであることが分かります。これとてもすごいですよね...

ちなみにテキストプロンプトをより複雑に表現できるということは、今まで画像生成AIが苦手だった手や足、テキストなどもより忠実に表現できるということになります。
なのでSDXLよりも 10%以上は少しその点も改善できていると言えます。

つまりStable Cascadeは、以下のような特徴を持っていると言えます。

ControlNetやLoRAの影響度がパワーアップ
SDXLと比べ約2倍ほど高速な画像生成が可能になった
SDXLと比べ、とても高品質な画像が生成できる（スコアとしては2倍近く良い成績を納めている）

ここからは、Stable Cascade の Img2Img、アップスケール、Controlnet（インペイントやCanny、FaceID）などといった核心の技術について解説をして行きたいと思います！

続きの説明の前に少しだけ、メンバーシップの説明をさせてください。

『１万円』以上のＡＩ知識が『980円』で学べる。
Note メンバーシップ - あいラボで『お手軽＋お得な』プロの情報収集を。

AIの情報って難しかったりよくわからなかったりしますよね。しかも最近は怪しいものも多い…

私の『Note メンバーシップ - あいラボ』では、実際に複数のＡＩ案件を獲得しているノウハウを基にした最新＋プロ視点の生成AI情報を、本一冊分よりも安い料金で分かりやすく見ることができます。

実際、生成AIの情報記事はとても高く、私のNote メンバーシップと他のサービスを比較すると以下のような違いがあります。

Tips やココナラ等：1万円 ~ 5万円以上（１ジャンルのみの料金）
あいラボ：月額 980円 （さまざまなジャンルのAI記事が読み放題）

近年話題の画像生成AIや動画生成AIなどはあの GAFA も総力を上げて取り組んでいる事業で、今後必ず『AIを使える人・そうでない人』に別れます。

ですので、生成AIについてもっと知りたいと言う皆さんの思考はとても素晴らしいです。

実際にあいラボ（AI-Labo）では、現在 約100人の会員の方がいらっしゃり、これまでの記事のアーカイブも全て見ることができます。
初心者の方・中級者の方など、どんな方でも情報アドバンテージが得られる利点があります。

私も、生成AIをいろんな人にに知ってもらいたいという思いから、高校生でも出せる金額ということでこのサービスを運営しておりますので、ぜひ私のメンバーシップで様々な知識を吸収して行ってください。

メンバーシップの詳細は、是非こちらから！

それでは、つづきの解説を行っていきます！

Stable Cascade の mg2Img、アップスケール、Controlnet（インペイントやCanny、FaceID）

ここから先は

2,704字 / 12画像

🚨AI時代に損をする確実な未来を変えるために、私達ができることはAI知識を手に入れることだけです。…

このメンバーシップの詳細

ほぼ全ての有料記事が見放題❗スタンダードプラン

¥980 / 月

☑３つの特徴１．一部を除く、ほぼすべての記事が読み放題！２．32円 / 日の高コスパ！３．あなたの周りの１００名以上の会員様が購読！ ※技術的な質問・アドバイスは、プレミアムプランの会員限定となります。 👇️詳細はこちらから！ https://x.gd/4bmQx

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

読むだけで簡単にAIのプロに？！あいラボ：プレミアムプラン✨

¥4,980 / 月

あと3人募集中

☑３つの特徴１．技術的な質問・アドバイスが自由！２．本当は教えたくない、希少な技術やワークフローを惜しみなく公開！３．参加人数を３０人に制限！さらに、私の記事の内容や画像を使用した動画作成許諾の特典も⭕️ 👇️詳細はこちらから！ https://x.gd/4bmQx

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

ログイン

この記事が参加している募集

#AIとやってみた

29,820件

この記事が気に入ったらサポートをしてみませんか？