画像生成AIモデル「FLUX.1」の使用経験

2024年8月11日 00:41

　こんにちは、Browncatです。
　2024年8月1日、生成AIの研究開発を行う新会社Black Forest Labsが設立されました。
　Stable Diffusion などの開発に携わったAI研究者らが所属する同社はさっそく画像生成AIモデル「FLUX.1」を発表しました。
　FLUX.1には、pro、devおよびschnellの3種類あり、それら各版をStable Diffusion 3（SD3）、Kolors、Midjourney 6.1と相互比較しました。
（初版2024.8.11、改訂8.22）

FLUX.1概要

　前述の通り、FLUX.1には、FLUX.1 [pro]、FLUX.1 [dev]およびFLUX.1 [schnell]があります。それぞれの概要を以下に示します。

共通

マルチモーダルおよびパラレル拡散変換ブロックのハイブリッドアーキテクチャと、フローマッチングの採用
パラメータ数：12B

FLUX.1 [pro]

商用利用可
オープン化はされておらず、アクセス手段はAPI経由に限定

FLUX.1 [dev]

FLUX.1 [pro]を蒸留した版
非商用アプリケーション向け
Hugging Faceで入手可

FLUX.1 [schnell]

FLUX.1 [dev]の高速生成版
Apache2.0 ライセンス、ローカル開発と個人使用向け
Hugging Faceで入手可

　FLUX.1概要のその他の内容については、以下の公式ページでご確認ください。

　ここではFLUX.1についての技術的解説は省略いたしますが、FLUX.1で採用され、その技術的特徴となっているフローマッチングについては、以下の当該論文のほか、Preferred Networksの岡野原大輔氏による解説記事（日経Robotics）もご覧ください。

　FLUX.1のローカルでの運用については、チェックポイント「flux1-dev.safetensors」のサイズが24GB近くに及ぶため、家庭用PCで使われているグラフィックボード（特にVRAM 12GB以下）での運用方法に関して様々な動きがありますが、それについては別の記事で述べます。

生成例

　FLUX.1の3つの版は、生成条件を合わせるために、いずれもAPI経由で生成し、画像サイズは横896 x 縦1152ピクセルにしました。
　Black Forest Labsの公式APIを利用しようとしましたが、アクセス制限がかかっていましたので、代わりに、同社のパートナークラウドサービス「fal.ai」を利用しました。
　比較画像のうち、Midjourney 6.1は新規ですが、他は以前に報告した画像を参考までに添付します。

1. 黒いドレスを着た女性

【FLUX.1 [pro]】

　人物はもちろん、衣装や背景も質感が極めて高く、FLUX.1の最高峰の名にふさわしい表現です。

【FLUX.1 [dev]】

　一見、FLUX.1 [pro]とどちらが良いかわからないほどの高画質で、のちに示す、Stable Image Ultra、 Midjourney 6.1、Kolorsと同等レベルといえます。

【FLUX.1 [schnell]】

　FLUX.1 [dev]よりは若干背景の画質が落ちますが、人物や衣装についてはそれほど画質低下が感じられず、Stable Diffusion 3 Mediumよりましのように感じられます。

プロンプト：

(Photo realistic:1.2), a beautiful Japanese young woman is wearing a black velvet dress in the art deco room with windows, full body.

【Stable Image Ultra】（参考）

【Stable Diffusion 3 Medium】（参考）

【Midjourney 6.1】
　FLUX.1のベンチマークはMidjourney 6.0との比較で行われていますが、FLUX.1のリリース直前の7月31日にバージョン6.1がリリースされたため、ここではFLUX.1との比較用にMidjourney 6.1の画像を新たに生成しました。
※Midjourneyは6.1リリースから1か月ほどで次の6.2をリリースする予定ですので、Midjourneyに関する記事は6.2のリリース後に書く予定です。

　FLUX.1 [pro]もしくは[dev]とどちらが良いかは、好みの範囲内で、一概にはいえないと思います。Midjourney 6.1の生成結果はわずかながらファンタジー系イラストの要素が感じられます。

プロンプト：

Photo realistic, a beautiful Japanese young woman is wearing a black velvet dress in the art deco room with windows, full body. shot by Canon EOS R5 --ar 3:4 --v 6.1

【Kolors】（参考）

2. かき氷と女性

【FLUX.1 [pro]】

　非常に写実的で、かき氷のストロー、人物の手の爪、テーブルの木目までが綺麗に生成されています。その結果、Stable Image Ultra、 Midjourney 6.1、Kolorsと同等レベルの画質になっています。

【FLUX.1 [dev]】

　pro版に比べると、かき氷（アイス？）の表現にやや物足りなさを感じますが、その他については、ほとんどpro版との違いがわかりません。

【FLUX.1 [schnell]】

　proやdevに比べ、人物描写の画質にあまり違いがない一方で、背景の文字がうるさくなっていて、全体の画質は、proやdevに及ばなくなっています。

プロンプト：

photo real image of the Japanese young woman like a kawaii idol in ice blue frilled dress is sitting at the table and Hawaiian shaved ice is put on the table in front of shaved ice store, looking at viewer, smile

【Stable Image Ultra】（参考）

【Stable Diffusion 3 Medium】（参考）

【Midjourney 6.1】

　Midjourney 6.0はかき氷画像の生成が苦手なようで好みの画像が得にくい傾向にありましたが、バージョン6.1でやや改善されました。
　FLUX.1との画質比較については、綺麗に生成できさえすれば、proやdevと十分競争できる結果であるように思います。

プロンプト：

photo realistic, the Japanese young woman like a kawaii idol in ice blue frilled dress is sitting at the table and Hawaiian shaved ice is put on the table in front of shaved ice store, looking at viewer, smile. shot by Canon EOS R5 --ar 3:4 --v 6.1

【Kolors】（参考）

3.テキストの出力・カフェ「Browncat」

　以前にSD3系で、テキスト出力について検証しましたが、FLUX.1についても試してみました。

【FLUX.1 [pro]】

【FLUX.1 [dev]】

【FLUX.1 [schnell]】

以上のように、FLUX.1のいずれの版も、SD3系と同様に、プロンプトに入れた文字が非常に高い確率で画像にも表れることが確認できました。

プロンプト：

(super photo realistic and cinematic:1.4), a young Japanese woman like an idol in a black and white cleavage maid cosplay with smile is posing In front of a western classical wooden cafe with sign ”Browncat" in English.

他の生成例

　FLUX.1[dev]の他の生成例を、他のモデルとの比較をせずにいくつか掲載します。

1.「テニス」
　ラケット・ボールが破綻なく表現されていて、瞬間をとらえたような写真が再現されています。

2.「紫メタリックドレス」

【お知らせ】
　以降、FLUX.1のローカルでの利用に関する文章が続いていましたが、記事を追加したところ、長くなってしまったため、『画像生成AIモデル「FLUX.1」のローカル及びオンラインでの利用』として記事を独立させましたので併せてお読みください。

Xの「Grok」について【8/22追記】

　「ローカル及びオンラインでの利用」の記事でも述べましたが、8月13日、xAI（X Corp.の生成AI開発部門）は、大規模言語モデル（LLM）の新バージョン「Grok-2」「Grok-2 mini」のベータ版において、Black Forest Labsと協力してFLUX.1モデルを使用した画像生成への対応のテストを開始しました。
　X側もBlack Forest Labs側も、Grok-2の画像生成モデルがFLUX.1のどのカテゴリに相当するのか原稿執筆時点で明らかにしていません。
　いまのところ、Grok-2の画像生成モデルはschnellであるとする説と、schnellに近いカスタムモデルであるという説があり、私は当初、schnellであると思っていたのですが、実際にGrok-2で生成してみると、schnellとするには違和感があり、いまは後者の説（カスタムモデル）に傾いています。
　その根拠を説明するために、この記事の上のほうで検討した「かき氷」と同一のプロンプトで、Grok-2からの生成画像と、Grok-2に画像サイズ（1024 x 768 ピクセル）を合わせたFLUX.1のdev版とschnell版の結果と相互比較します。

【Grok-2】

【dev】

【schnell】

　以上を比較すると、schnellは背景の文字が若干煩雑なのに対し、Grok-2にはそれがなく、Grok-2とschnellが同一というのは難しいと思います。

まとめ

　FLUX.1を他のモデル・プラットフォームと比較し、FLUX.1 [dev]はオープン化されているにもかかわらず、少し先行するKolorsや、オープンでないStable Image UltraやMidjourney V6.1に迫る画質であることがわかりました。
　以上、記事を最後までお読みくださりありがとうございました。

画像生成AIモデル「FLUX.1」の使用経験

FLUX.1概要

共通

FLUX.1 [pro]

FLUX.1 [dev]

FLUX.1 [schnell]

生成例

1. 黒いドレスを着た女性

2. かき氷と女性

3.テキストの出力・カフェ「Browncat」

他の生成例

Xの「Grok」について【8/22追記】

まとめ

いいなと思ったら応援しよう！