CLIP Text Deprojectorを使って画像生成してみる　～アンサンブルの新方式の評価～

2023年7月9日 12:53

前回の記事では、物理メモリを超える１０万件の訓練データを使用した学習方法について改良しましたが、前々回に提案した新しいアンサンブル方式については評価を先送りしました。今回は、その評価を行います。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

アンサンブルの新方式について

前々回に提案したアンサンブルの新方式について、再度説明します。

まず、単体のモデルの推論フェーズは、モデルの出力を１つずらしてモデルの入力として実行されます。

これまでのアンサンブルモデルの推論では、単体モデルをそれぞれ独立して推論した上で、全単体モデルの出力の平均値を取ってアンサンブルモデルの出力としていました。

新方式では、全単体モデルの出力の平均値と、各モデルの出力との加重平均を取って、それをそれぞれのモデルの入力とするという方法です。

加重平均を取る際の、出力の平均値の側の重みをパラメータとして、次の４種類の重みで画像を生成しました。

生成画像は、一番上が比較用にDeprojectorを使わない画像で、２段目以降が、０％、５％、３０％、１００％と並んでいます。

なお、使用したモデルは、前回の記事で最も結果の良かったモデル（作った新アーキテクチャで内部モデルごとにエポック数を決めたモデル＝Hugging Faceに公開したモデル）です。

わずか５％の変化でも、生成画像には目に見える変化が起きています。重みの小さい側は生成画像への感度が高く、重みの大きい側では感度が低いことが推測されます。

０％（２段目）と１００％（５段目）の比較では、「教室」などの一部の画像では１００％の方が改善していると言えるものもありますが、全体としては従来式の０％の方が良い結果となるようです。

０％（２段目）と５％（３段目）の比較では、５％の方がよいと思われる画像も少なくなく、どちらがよいと結論づけることは難しいですが、計算がより複雑になることを考えると、５％の方を支持する理由が特になく、０％の従来式の方が現時点では好ましいと考えられます。

現時点では、アンサンブルモデルの推論方式を変更する理由は認められず、これまで通りの方式で推論を行うという結論となりました。

この記事が気に入ったらサポートをしてみませんか？