【番外】Stable Diffusion は、なぜ古いバージョンである1.5が最強なのか?【ブログ】
バージョン2.0/2.1に続き、SDXLがリリースされてから既にかなりの時間が経ち、最近では Stable Diffusion 3 が発表されましたが、バージョン1.5の人気が衰える気配がありません。
この記事では、その理由について考察してみたいと思います。
多くの人は次の理由を挙げると思います。
ユーザーが多い
1.5専用の学習モデルが多い
高速で使用メモリも少ない
1.5専用のプロンプトに慣れているから
規制が少ない
もちろん、これらも人気の理由でしょうが、筆者はもっと単純な理由だと考えています。
似たような事は3Dアートにも言えます。たとえば次の画像を、3D作品として発表すれば、誰もが凄い!写真のようだ!と思うでしょう。
しかし、傾ければネタがバレます。
写真をオブジェクトにテクスチャとして貼り付けているだけです。だから「美しかった・まるで写真のようだった」わけです。写真がそのまま見えていたのですから。
この例は極端すぎますが、テクスチャなどの「素材」がそのまま出て来る方が綺麗になるのは当然です。
AIでも同じ事が言えます。パラメータの少ないSD1.5の方が、100倍近くパラメータが多いSDXLよりも「リアルに」なってしまう理由です。学習素材がそのまま出て来やすいからです。(※ もちろん、そのまま出てくる事はありませんが、相対的な話です)
つまり、画像生成系AIで人気の生成用途である「リアル風人物や学習した版権キャラ」に関して言えば、パラメータの少ないAIの方が綺麗になります。筆者自身も経験として強く感じています。
一方で、不得意なものはあります。バリエーションの幅が少なく、現実(学習)に存在しないものは苦手というわけです。たとえば、カエル顔の人間を〜のタッチで生成してとすれば、SDXLが圧勝するでしょう。
学習画像とほとんど変わらない人物やポーズ、物体やを生成する限り、今後新しいバージョンが発表されても、(学習がそのまま出てきてしまう)SD1.5のクオリティを超える事はないと思います。
なので、新しい Stable Diffusion のバージョンが出た時に、リアルで単調な人物やオブジェクトを生成して「リアルかどうか」で、AIの生成性能を語るのは意味がないのかもしれません。
この記事が気に入ったらサポートをしてみませんか?