見出し画像

【画像生成AI】Stable Diffusion の衝撃! 世界はいかに変わったか?

はじめに

こんにちは、kimamanaDr です。

トップ画像は、8月20日リリースの Flux.1 のカスタムモデル blue_pencil-flux1_v001 を使って生成したものです。

とてもリアルなアニメ系イラストを生成することができます。

今回は、前編に続いて画像生成AIの歴史を見ていきます。

Stable Diffusion:画像生成AIの風雲児

今回は Stable Diffusion とその派生アプリにスポットを当てていきます。

サイバーパンクの世界で雨の日の夜に黒いヘルメットと革ジャンと革のズボンを履いた人物がバイクに跨っているイラスト横長の構図
SDXL GhostXL_v1.0
Stable Diffusion とその派生アプリの誕生を表したガントチャート

Stable diffusion シリーズ

  • ソースコードを公開して世界に衝撃を与えた

  • 多くの派生アプリが誕生

  • モデルの互換性がないので、SD 1.5 や SDXL もまだ現役

Stable Diffusion は2022年8月 に登場して、その ソースコードを完全に公開して世界に衝撃 を与えました。

AI 技術を人類の共通の財産としてオープンにするという理念は以前から存在していて、Chat GPT を開発した Open AI も、もともとはそのような理念をもとに設立された団体です。

サイバーパンクの世界で雨の日の夜に黒いヘルメットと革ジャンと革のズボンを履いた人物がバイクに跨っているイラスト
SDXL GhostXL_v1.0

今まで多くのAI技術が研究促進のために公開されてきましたが、画像生成AIは社会に与える影響が大きい ため、その公開のタイミングは慎重に議論されていました。

そのような中で、Stable Diffusion は開発当初からオープン化が宣言されていて、2022年8月に実際その通りに公開 されました。

前回の記事で紹介したように、Stable Diffusion の世界初の画像生成AIにはなりませんでしたが、その公開は実質的に Midjourney と Dall-E の公開にも影響を与えています。

Stable Diffusion 1:世界に衝撃を与えたAI

サイバーパンクの世界で雨の日の夜に雑然としたガレージに黒と赤のバイクが停まっているイラスト
SD1.5 ghostmix_v20

Stable Diffusion 1 は Stable Diffusion で最初に公開されたモデルです。

Stable Diffusion 1 の公開により、画像生成AIのコミュニティは一気に広がり、世界中のスタートアップ企業から個人まで、多くの人が開発に参加しました。

リリース当初は頻繁にアップデートされて、さらに多くのカスタムモデルが誕生して熱狂的な盛り上がりを見せました。

Stable Diffusion は画像生成AIの最大のコミュニティになり、ControlNet をはじめとした画期的な技術が次々と発表されています。

Stable Diffusion 2:ポテンシャルはあったが普及せず

サイバーパンクの世界で雨の日の夜に金髪の女性が白いバイクで走っているイラスト
SD2.1 BerryArtify-SD2.1_v0.2

Stable Diffusion 1 からわずか3ヶ月後に、Stable Diffusion 2 がリリースされます。

学習解像度を 512 x 512 → 768 x 768 に上げるとともに、全体的な品質と安定性が改善しました。

ところが、Stable Diffusiion 2 はほとんど普及しませんでした

理由は前世代の Stable Diffusion 1 のモデルと互換性がなかったこと、さらに要求されるスペックが上がり、ローエンドのGPUでは運用が難しくなったためです。

Stable Diffusion XL:時間をかけて少しずつ普及

サイバーパンクの世界でハードボイルドのヒットマンが裏路地に立っているイラスト
SDXL GhostXL_v1.0

Stable Diffusion XL は Stable Diffusion 2 の半年後にリリースされました。

学習解像度を 1024 x 1024 に上げ、さらにテキストエンコーダーを2つ搭載することでプロンプトの再現性が大きく改善しました。

Stable Diffusion XL は、当初は Stable Diffusion 2 と同じ理由であまり普及しませんでしたが、その基本性能の優秀さと軽量化技術の進歩により徐々に普及しました。

現在ではカスタムモデルの完成度も成熟していて、画像生成AIの最大のコミュニティ になっています。

Stable Diffusion 3:次世代モデルだが賛否両論

サイバーパンクの世界で雨の日の夜に黒いヘルメットと革ジャンと革のズボンを履いた人物がバイクで走っているイラスト
SD3 medium

Stable Diffusion 3 は SDXL からおよそ1年ぶりのメジャーアップデートになりました。

MMDiT という全く新しいアーキテクチャを採用して、そのポテンシャルは大幅に上がっています。

一方で、Stable Diffusion を開発した Stability AI 社は、今まで全ての技術をオープンソースで公開しているため、利益を得る仕組みがありませんでした。

Stable Diffusion 3 は一部有料化を意図して、自由な開発を制限するライセンスを設定したため、コミュニティで急速に支持を失って しましました。

  • SD3-8B(SD3 Ultra・large):80億パラメータ 非公開

  • SD3-2B(SD3 medium):20億パラメータ オープンソース

その後ライセンスは改定されましたが、さらに後述する Flux.1 の登場により次世代の本流から外れる可能性 も出てきています。

Stable Diffusion から派生したアプリ

Stable Diffusion とその派生アプリの登場を表したガントチャートの再掲

Novel AI:アニメ系が得意

Novel AI Diffusion Anime V3 スーツを着た銀髪の老紳士
筆者のアバターをもとに生成
  • 2022年10月に小説執筆支援アプリのイラスト機能として登場

  • Stable Diffusion を改良して追加学習を行った

  • アニメ系イラストに強い

Noavel AI Diffusion は小説執筆アプリのイラスト作成機能として実装されましたが、画像生成AIとしても広く使われています。

Novel AI Diffsuion は Stable Dissusion の言語解析アルゴリズムを改良して、さらに多くのアニメ系イラストで追加学習を行いました。

Novel AI Diffsuion は 2022年10月3日にリリースされましたが、その5日後に ハッキングを受けてデータが流出し、Stable Diffusion のコミュニティに拡散 されるという事件が起きました。

SD 1.5 のカスタムモデルの中には、この流出したデータを使用しているものあります。SDXL はモデルの互換性がないため、流用はありません。

Novel AI Diffusion Anime V3 は新たに SDXL をベースに開発され、引き続きアニメ系イラストのクオリティが向上しています。

Leonardo AI:Canva と連携して Stable Diffusion の機能も使える

「昼景/ユトリロ」 Created by K_Kameno using Leonardo AI
  • Leonardo.Ai 社 が Stable Diffusion XL をベースに開発

  • ControlNet などの一部の Stable Diffusion の機能が使える

  • 2024年7月30日に Canva に買収されて、機能が統合された

Leonardo AI は、2023年9月にオーストラリアの Leonardo.Ai社がリリースしました。

Dall-E や Midjourney と同じようにオンラインのサービスですが、実写系・アニメ系を含めた複数のモデルを選択できるほか、ControlNet など一部の Stable Diffusion の機能も利用することができます

Leonardo AI は無料プランで一定数の画像が生成できて、商用利用も可能です。

2024年7月30日に、同じオーストラリアの Canva Pty Ltd に買収されて、Canva に統合して利用 できるようになりました。

Kolors:中国語も理解できて高画質

黒いドレスを着たアジア人女性の実写風のイラスト
「黒いドレスを着た女性」 Created by Browncat using Kolors
  • 中国の Kuaishou Technology 社 が SDXL をベースに開発

  • 英語と中国語を理解できる

  • 画質も Stable Diffusion 3 を上回ると主張

Kolors は 2024年7月6日に中国の Kuaishou Technology 社 からリリースされました。

SDXL をベースに言語理解モデルを中国語も理解できる ChatGLM3-base に変更して、プロンプトの再現性を上げています。

画像も 学習データの最適化による再学習を行っていて、Stable Diffsuion 3 よりも高画質 であると主張しています。

オープンソースで公開されていていますが、今後の普及はコミュニティがどの程度発展するかによると考えられます。

Flux.1:次世代の本命!?

黄色いバイクに跨った青年が、今にも走り去ろうとしている様子
Flux.1 blue_pencil-flux1_v001
  • Stable Diffusion の元開発メンバーがリリース

  • 2024年8月にオープンソースで公開

  • Stable Diffusion 3 を抑えて実質的な後継になりつつある

Stable Diffusion の主要な開発メンバーが Stability AI 社 を去って、新しい画像生成AIの開発を続けていました。

2024年8月1日、Stable Diffusion を開発した技術者を中心 Black Forest Labs が設立され、同日に Flux.1 をリリース しました。

サイバーパンクの世界で赤色モヒカン頭の兄貴がバイクに乗って修理している実車風のイラスト
FLUX.1[schnell]
  • FLUX.1[pro]:非公開

  • FLUX.1[dev]:オープンソース 画像は商用利用可

  • FLUX.1[schnell]:軽量・高速モデル オープンソース 商用利用可

下位バージョンの FLUX.1[schnell] でも高いクオリティがあり、X の AIアシスタントの Grok や AI検索エンジン の perplexity にも搭載 されて急速に普及しています。

ライセンスも明確にしていることから開発も盛んで、新しい量子化軽量モデルなどの画期的な技術も登場しています。SD3 を抑えて SDXL の実質的な後継になる 可能性が高いとみられています。

Anifusion:5分で漫画が描ける

Anifusion が簡単に使えることを示したAnifusionで作った4コママンガ
  • Stable Diffusion をもとにした漫画執筆アプリ

  • 5分で漫画が作れる

  • 月額20ユーロの有料サービスで、最新の FLUX.1 にもいち早く対応

Anifusion はブラウザ上で漫画を描くアプリです。

デモムービーでは ストーリーの生成から描画まで自動 で行い、コマ割りや吹き出しが直感的に操作できることが分かります。

筆者も試しに利用してみましたが、初めてでもとても簡単に漫画を作ることができました

8月に公開された Flux.1 にもすでに対応していて、ストーリー生成を言語理解に優れる Flux.1 で行い、描画を完成された SDXL モデルで仕上げることができます。

有料サービスですが今後普及するポテンシャルが高いと考えられ、また後から登場する後続のサービスにも大きな影響を与えると思います。

2024.9.3  追記

Anifusion の紹介記事を書きました。

まとめ

画像生成AIの歴史をまとめたガントチャート
  • 画像生成AI は DALL-E から始まった

  • Stable Diffusion で爆発的に普及した

  • Flux.1 が次世代の主流になりつつある

今回、いろいろ調べて自分の知識を整理することができました。

Stable Diffusion 1 と Flux.1 のイラストを比べると、わずか2年間で驚くべき進化を遂げています。

私は使う方ばかりですが、モデルの制作者さんに改めて感謝したいと思います。

次回は、Flux.1 を一番簡単に導入する方法について紹介します。

お楽しみに!


今回使用したモデル

SD 1.5:ghostmix_v20

SD 2.1:BerryArtify-SD2.1_v0.2

SDXL:GhostXL_v1.0

Flux.1:blue_pencil-flux1_v001(2024.8.20 リリース!)


クリエイター紹介

私が利用していない画像生成AIについて、以下のクリエイターさんから作品を提供して頂きました。

Leonardo AI:K_Kameno さん

Kolors:Browncat さん

いずれのクリエイターさんも、素晴らしい作品ををたくさん発信されています。作品を提供して頂き、ありがとうございます!


参考図書

Stable Diffusion スタートガイド SB creative 2024年3月


この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?