見出し画像

【2024年8月版】画像生成AIの最新動向Flux1.0、SD3、ImageFX Imagen3他

こんにちは!AI-Bridge Labのこばです。
最近、AIによる画像生成技術が急速に進化していて、数ヶ月ごとに新しいモデルがリリースされていますね。

imagen3で生成

今回は、最新のAI画像生成ツールのパフォーマンスを比較してみました。みなさんの制作に役立つツール選びの参考になれば幸いです!
また、俯瞰的に画像生成AIの動向を把握することで、近い将来どのように進化していくのか方向性が見えてくるかもしれません。



はじめに

AI画像生成技術の進化は目覚ましく、クリエイターの制作プロセスを大きく変えつつあります。実際に大企業のコマーシャル映像に使われるケースなども増えてきた昨今、画像や映像系の生成AIのニーズはさらに高まっていくことが予想されます。

今回は、最新の主要AI画像生成ツール5つを比較し、それぞれの特徴や強みをご紹介します。

比較対象のツール:

  1. Flux1.0

  2. Stable Diffusion3 (Ultra / Middle)

  3. ImageFX Imagen3

  4. Midjourney V6.1

  5. Adobe Firefly Image3

これらのツールを、画質、生成速度、使いやすさ、ユニーク機能の4つの観点から比較していきます。

1. 画質比較

各モデル共通のプロンプトで生成してみました

Flux1.0

Fluxは、最新のオープンソースの画像生成AIとして注目を集めています。
Flux1.0にはPro / Dev / Schnell の3種のモデルがあり、それぞれで形式やライセンスの制限が異なります。

特に「Realism LoRA」などのアダプターを使用すると、驚くほど写実的な画像を生成できます。ロゴや字幕といった文字の描画(英語のみ)人物の手などの細部まで歪みなく表現できるのが強みです。

ドキュメンタリー番組風
ワニは作り物っぽい感じが少しありますが空気感や背景の緻密さ、破綻の無さはとても素晴らしく、字幕のフォントなどもリアリティがあります
アニメ風
少し古めの画風ですが、綺麗な線で、破綻なく描画されています
ドットアニメ風
デフォルメ感とキャラクターの表情が生き生きとしていて良い感じです
リアル風
アップスケールしていない状態なので、ややフォーカスが甘い感じがありますが、被写体の美しさ、崩れの無い指や文字が素晴らしいです

Stable Diffusion3 Medium

Stable Diffusion3は、複雑な関係性を含むプロンプトの処理と、画像内のテキスト生成が得意です。詳細で正確な画像生成が必要な場合に最適なツールといえるでしょう。

ドキュメンタリー番組風
無理な構図だったのか、何度も生成してみましたが指やワニの口など、ところどころに破綻が見られました。人物の生き生きとした表情と写実的なライティングは素晴らしいです。
アニメ風
部分部分は美しく見えますが、ごみのようなものが所々に見られます。
細い線画が苦手なのか、破綻の少ないイラストを出すのに10回以上は繰り返し生成する必要がありました。
ドットアニメ風
少ない試行回数で可愛らしいドット風のアニメイラストが生成できました。
少しごみが目立つのとデフォルメが少なめですが、比較的綺麗に描画できています
リアル風
英字の描画は得意分野ではありますが、Fluxと比べると誤字がかなり目立ちました
造形は美しく描画できていますが、指が破綻するパターンが多かったです

ImageFX Imagen3

ImageFX Imagen3は、豊かなディテールと自然な光の表現が特徴です。アーティファクト(不自然な歪みやノイズ)が少なく、高品質な画像出力が可能です。

ドキュメンタリー番組風
一発出しで、バランスの良い画像が生成できました
ワニの描画も美しく、字幕も誤字や崩れなく綺麗に描画されています
アニメ風
生成エラーが何度か出たものの、生成されたイラストは線画くっきりしていてバランスも良くクリアな印象です。
ドットアニメ風
ドットイラストもエラーが多く発生したものの、試行回数自体は少なく、美しいドット絵が生成できました。
リアル風
自然な表情と造形、質感、緻密な描き込みで、非常に高品質でリアルな画像が生成できました。

Midjourney V6.1

Midjourneyは、芸術的で細部まで作り込まれた画像生成が得意です。完全な写実性よりも、視覚的に印象的でクリエイティブな作品を生み出すのに適しています。特に、現代風のアニメ系の描画はniji6モデルが強いです。

ドキュメンタリー番組風
躍動感があり、破綻の少ない高品質なリアルテイストの画像が生成できました。
リアルなワニというより、ワニ風の乗り物っぽくなっています
アニメ風
アニメテイストは得意分野で、1発出しで非常に高品質で破綻のないイラストが生成できました。
ドットアニメ風
1発出しで高精細かつ、独特な表現が素晴らしいです。
ドットの良さと立体感が際立っています。
リアル風
文字の破綻が少なく、高精細な画像が生成できました。
高品質ですが、Imagen3と比較すると表情がやや硬めで、顔の造形が似通るところが見られます

Adobe Firefly Image3

Adobe Firefly Image3は、Adobe Creative Cloudとの連携が強みです。プロフェッショナルなクリエイティブワークフローに組み込みやすく、高品質な画像生成と編集が可能です。

ドキュメンタリー番組風
ライティングは非常にリアルで素晴らしいですが、ところどころに破綻が見られます。
アニメ風
全体としては綺麗ですが、線がガサガサしていたり所々破綻が見られます。
ドットアニメ風
テキストのみではドット風のイラストを出すのが難しかったため、スタイル参照をしたら、かなりデフォルメ化されたドット絵になりました。これはこれで需要がありそうです。
リアル風
ライティングによって非常にリアルに見える画像が生成できることがあります。
文字の描画は苦手のようで、ほぼ誤字として生成されたり、ブランクになっていることがありました。

2. 生成速度比較

  1. Flux1.0 :ローカルの場合、実行環境に左右される。Devはやや速度が遅め、Schnellは高速化されている 

  2. Stable Diffusion3: 高速。ローカルの場合、実行環境に左右される。

  3. ImageFX Imagen3: 高速

  4. Adobe Firefly Image3: 高速

  5. Midjourney V6.1: 詳細な画像生成のため比較的遅い

3. 使いやすさ比較

  1. Adobe Firefly Image3: Adobe製品に慣れているユーザーに最適

  2. ImageFX Imagen3: 自然言語プロンプトで簡単に使用可能

  3. Stable Diffusion3: オープンソースで高いカスタマイズ性だが、やや複雑

  4. Flux1.0: クラウドサービスで利用する場合は簡単に使える。ローカル環境の場合はやや複雑。

  5. Midjourney V6.1: Discord経由でのアクセスが必要で少し慣れる必要がある。Webブラウザ版は分かりやすいUIになっている。

4. ユニーク機能

Flux1.0

  • ComfyUI / SD Forge UIで利用可能。LoRAや拡張機能、追加学習で画風や構図のコントロールが可能

  • Dev,Schnellモデルはオープンソースで生成物の商用利用が可能

Stable Diffusion3

  • 様々なWebUIで利用可能。LoRAや拡張機能、追加学習で画風や構図のコントロールが可能

  • midleモデルはオープンソースで高いカスタマイズ性

ImageFX Imagen3

  • 自然言語プロンプトによる画像生成と、プロンプト候補の提示など優れたUXがある

  • SynthIDなどの安全機能搭載

  • 豊かなディテールと自然な光の表現

Midjourney V6.1

  • 芸術的で抽象的な表現が得意

  • 高度なカスタマイズオプション、特にスタイル参照や部分修正など

  • 独特の美的センスを持つ画像生成

Adobe Firefly Image3

  • Adobe Creative Cloudとのシームレスな連携

  • 写真編集、ベクターグラフィックス、テキスト効果など多機能

  • プロフェッショナルなワークフローに統合しやすい

5. 画像生成AIの今後

近い将来に予想される変化について簡単にまとめてみました。

5-1.短期的な展望

  1. Midjourney V6.2の登場 MidjourneyがV6.1アップデート直後に、約1ヶ月後のV6.2リリースを予告しています。これは大きなインパクトをもたらす可能性が高そうです。

  2. Google ImageFXとGemini Advancedの統合 Google ImageFXのImagen3モデルが、Gemini Advancedと統合されると予測されます。これにより、高品質な画像生成がより手軽に試せるようになるでしょう。

  3. オープンソースモデルの進化 FluxのようなオープンソースモデルがCivitAIなどのユーザーコミュニティを通じて、ファインチューニングや拡張機能の対応が進むことで、よりニーズに合った高品質な画像生成が可能になると予想されます。

5-2.中長期的な展望

  1. 多機能化: より複雑な要求にも応えられる機能の拡充

  2. 生成速度の高速化: リアルタイムに近い画像生成の実現

  3. プロンプト理解度の向上: より自然な言葉で希望の画像を生成

  4. 多言語テキスト生成の精度向上: 様々な言語で正確なテキストを画像内に生成

生成画像の品質的な頭打ちは近く訪れるかもしれません。しかし、高品質であると同時にコントロールが十分にできるかどうかが、プロユースでは求められます。これらの技術がビジネスや日常生活にどのような影響を与えるのか、今後も注目していく必要がありそうです。

まとめ

各AI画像生成ツールには、それぞれ強みと特徴があります。

私の独断と偏見ですが、各5個のモデルを10段階の相対評価でスコア化してレーダーチャート化すると以下のようなイメージになります。

実際の利用ケースとしては以下がおすすめです。

  • 写実的でプロンプトに忠実な画像が必要な場合は「Flux」

  • 高品質かつ自然な人物の画像生成には「ImageFX」

  • アーティスティックな表現を求めるなら「Midjourney」

  • 商用利用に適した画像を簡単に作成したいなら「Adobe Firefly」

自分のニーズや制作スタイルに合わせて、最適なツールを選んでみてください。AI画像生成技術は日々進化していますので、これからも新しい可能性が広がっていくことでしょう。みなさんのクリエイティブな制作活動に、AIツールがさらなる可能性をもたらすことを期待しています!

AI-Bridge Labについて

AI-Bridge Labは、企業や個人のAI活用を支援し、企業のDX実現をサポートしています。AIを活用したソリューションや人材育成にご興味があれば、お気軽にメールやXのDMでご連絡ください!

ai_business@doerstokyo.jp

最後まで読んでいただき、ありがとうございました。気に入っていただけましたら、「スキ」や「フォロー」をしていただけると嬉しいです😄


皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!