FLUX.1 の概要

npaka

2024年8月2日 14:25

「FLUX.1」の概要をまとめました。

1. FLUX.1

「FLUX.1」は、「Stable Diffusion」の開発者たちが立ち上げた「Black Forest Labs」が発表した最新の画像生成AIモデルです。

2. FLUX.1 のモデル

「FLUX.1」には、アクセシビリティと機能のバランスをとるために、FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell] の3種類のモデルが提供されています。

2-1. FLUX.1 [pro]

FLUX.1 [pro] は「FLUX.1」の最高峰モデルで、最高レベルの画像生成、プロンプト追従、視覚品質、画像詳細、出力の多様性を提供します。API経由で「FLUX.1 [pro]」にアクセスできます。Replicateおよびfal.ai経由でも利用できます。さらに、専用のカスタマイズされたエンタープライズソリューションも提供しています。

2-2. FLUX.1 [dev]

FLUX.1 [dev] は、非商用アプリ向けのオープンウェイトのガイダンス蒸留モデルです。FLUX.1 [dev] は、FLUX.1 [pro] から直接蒸留されており、同様の品質と迅速な順守機能を備えながら、同サイズの標準モデルよりも効率的です。FLUX.1 [dev] ウェイトはHuggingFaceで入手でき、ReplicateまたはFal.aiで直接試すことができます。

2-3. FLUX.1 [schnell]

FLUX.1 [schnell] は「FLUX.1」の最速モデルで、ローカル開発と個人使用向けに調整されているタイムステップ蒸留モデルです。Apache2.0 ライセンスの下で公開されています。同様に、FLUX.1 [dev] の重みは HuggingFace で利用でき、推論コードはGitHubとHuggingFace Diffusersにあります。さらに、ComfyUIも初日から統合されています。

3. Transformer駆動フローモデル

公開されているすべてのFLUX.1モデルは、multimodalおよびparallel diffusion transformerブロックのハイブリッドアーキテクチャに基づいており、12Bパラメータに拡張されています。flow matchingを基盤として構築することで、従来の最先端の拡散モデルを改良しました。flow matchingは、拡散を特殊なケースとして含む、生成モデルを学習するための一般的で概念的にシンプルな方法です。さらに、rotary positional embeddingsとparallel attention layersを組み込むことで、モデルのパフォーマンスを向上させ、ハードウェア効率を改善しています。

4. 画像合成の新しいベンチマーク

FLUX.1 [pro] と [dev] は、視覚品質、プロンプト追従、サイズ/アスペクトの可変性、タイポグラフィ、出力の多様性のそれぞれにおいて、Midjourney v6.0、DALL·E 3 (HD)、SD3-Ultra などの人気のモデルを上回っています。FLUX.1 [schnell] は、これまでで最も高度な数ステップモデルであり、同クラスの競合製品だけでなく、Midjourney v6.0 や DALL·E 3 (HD) などの強力な非蒸留モデルよりも優れています。「FLUX.1」は、事前学習からの出力の多様性全体を維持するように特別にファインチューニングされています。

すべての「FLUX.1」モデルは、次の例に示すように、0.1 メガピクセルと 2.0 メガピクセルのさまざまなアスペクト比と解像度をサポートします。