見出し画像

FluxのAI感を消せるか?num_inference_stepsとguidance_scaleで検証してみた

Flux dev 8fpを使用した際、生成される画像にAI特有の不自然さを感じました。これはいわゆる「ガチャ要素」の影響もあると考えられますが、生成時に使用するnum_inference_stepsとguidance_scaleの設定値によって、結果が変わるかもしれないので、検証を行いました。
下記に、30通りの条件で生成した画像をアップしてありますので、ご確認ください。

画像生成にはガチャ要素(運任せの部分)が多いですが、いくつか気づいたことがあります。

  • num_inference_stepsが20以下のように低すぎると、画像が破綻しやすい
    推論ステップ(num_inference_steps)が極端に少ないと、画像の細部がうまく表現されず、崩れてしまうことが多いです。画像を安定して生成するためには、ある程度のステップ数が必要です。

  • guidance_scaleが10に近づくと、プロンプト(指示文)に忠実な画像になる
    guidance_scaleを高めに設定すると、指定したプロンプトに非常に忠実な画像を生成できます。ただし、別の記事で「guidance_scaleが高すぎると、プロンプトに矛盾がある場合に画像が破綻しやすい」と読んだことがあります。そのため、10のように最大値に近づけるのは注意が必要かもしれません。

そこで疑問に思ったのが、num_inference_stepsを高く設定するとどうなるのかという点です。

そこで、試しにnum_inference_steps=100、guidance_scale=10の設定で画像を生成してみました。結果は、プロンプトに非常に忠実で、画像もシャープでクリアでした。

ただし、この設定だと「AIらしさ」が強く出すぎて、どこか不自然な感じがしてしまいます。

つまり、num_inference_stepsとguidance_scaleの設定は、バランスが重要であり、一方を極端に高くするのではなく、状況に応じて適切な値を選ぶ必要があると感じました。

num_inference_steps = 100, guidance_scale = 10

結論

「num_inference_steps = 50、guidance_scale = 10」で設定するのが最適なバランスだと感じました。あとは、結果が変わるのはガチャ要素(運の要素)が大きいと思います。


1

num_inference_steps = 18, guidance_scale = 8.47

2

num_inference_steps = 14, guidance_scale = 6.47

3

num_inference_steps = 13, guidance_scale = 8.31

4

num_inference_steps = 23, guidance_scale = 7.19

5

num_inference_steps = 31, guidance_scale = 9.73

6

num_inference_steps = 36, guidance_scale = 5.08

7

num_inference_steps = 21, guidance_scale = 9.18

8

num_inference_steps = 28, guidance_scale = 4.9

9

num_inference_steps = 14, guidance_scale = 4.52

10

num_inference_steps = 21, guidance_scale = 4.69

11

num_inference_steps = 40, guidance_scale = 6.36

12

num_inference_steps = 31, guidance_scale = 6.95

13

num_inference_steps = 11, guidance_scale = 6.82

14

num_inference_steps = 25, guidance_scale = 5.06

15

num_inference_steps = 35, guidance_scale = 8.23

16

num_inference_steps = 28, guidance_scale = 9.18

17

num_inference_steps = 23, guidance_scale = 5.74

18

num_inference_steps = 41, guidance_scale = 3.68

19

num_inference_steps = 25, guidance_scale = 3.72

20

num_inference_steps = 47, guidance_scale = 9.6

21

num_inference_steps = 35, guidance_scale = 8.25

22

num_inference_steps = 42, guidance_scale = 5.46

23

num_inference_steps = 17, guidance_scale = 4.13

24

num_inference_steps = 41, guidance_scale = 3.57

25

num_inference_steps = 47, guidance_scale = 5.26

26

num_inference_steps = 11, guidance_scale = 8.53

27

num_inference_steps = 48, guidance_scale = 9.09

28

num_inference_steps = 13, guidance_scale = 4.74

29

num_inference_steps = 37, guidance_scale = 8.08

30

num_inference_steps = 20, guidance_scale = 5.83


プログラミングに苦手意識をお持ちの方は、ぜひ「DXパーティー」までお問い合わせください。
有料サービスではありますが、オンラインでマンツーマンのレッスンを受けることで、短期間でPythonを習得し、自在に使いこなせるようになると思います!

お問い合わせ - DXパティー (dxpt.jp)

マンツーマンオンライン講師を募集しています。 特に視聴者数が少ないDX・デジタル領域に取り組んでいるYouTube配信者を積極的に募集しています。 DXパティーのレッスンとYouTubeチャンネルの収益化の両方から収益を得て、安定した収入を目指しましょう。

DXパティーでは講師募集中!

お仕事のご依頼もお待ちしております!