見出し画像

【番外】Stable Diffusion は、なぜ古いバージョンである1.5が最強なのか?【ブログ】

バージョン2.0/2.1に続き、SDXLがリリースされてから既にかなりの時間が経ち、最近では Stable Diffusion 3 が発表されましたが、バージョン1.5の人気が衰える気配がありません。

この記事では、その理由について考察してみたいと思います。

多くの人は次の理由を挙げると思います。

  • ユーザーが多い

  • 1.5専用の学習モデルが多い

  • 高速で使用メモリも少ない

  • 1.5専用のプロンプトに慣れているから

  • 規制が少ない

もちろん、これらも人気の理由でしょうが、筆者はもっと単純な理由だと考えています。

AIモデルが持ってるパラメーターが少ないから。

by 筆者

似たような事は3Dアートにも言えます。たとえば次の画像を、3D作品として発表すれば、誰もが凄い!写真のようだ!と思うでしょう。

3D作品(フェイク)

しかし、傾ければネタがバレます。

ネタバレ

写真をオブジェクトにテクスチャとして貼り付けているだけです。だから「美しかった・まるで写真のようだった」わけです。写真がそのまま見えていたのですから。

この例は極端すぎますが、テクスチャなどの「素材」がそのまま出て来る方が綺麗になるのは当然です。

AIでも同じ事が言えます。パラメータの少ないSD1.5の方が、100倍近くパラメータが多いSDXLよりも「リアルに」なってしまう理由です。学習素材がそのまま出て来やすいからです。(※ もちろん、そのまま出てくる事はありませんが、相対的な話です)

つまり、画像生成系AIで人気の生成用途である「リアル風人物や学習した版権キャラ」に関して言えば、パラメータの少ないAIの方が綺麗になります。筆者自身も経験として強く感じています。

一方で、不得意なものはあります。バリエーションの幅が少なく、現実(学習)に存在しないものは苦手というわけです。たとえば、カエル顔の人間を〜のタッチで生成してとすれば、SDXLが圧勝するでしょう。

学習画像とほとんど変わらない人物やポーズ、物体やを生成する限り、今後新しいバージョンが発表されても、(学習がそのまま出てきてしまう)SD1.5のクオリティを超える事はないと思います。

なので、新しい Stable Diffusion のバージョンが出た時に、リアルで単調な人物やオブジェクトを生成して「リアルかどうか」で、AIの生成性能を語るのは意味がないのかもしれません。

この記事が気に入ったらサポートをしてみませんか?