見出し画像

CLIP Text Deprojectorを使って画像生成してみる ~アンサンブルの新方式の評価~

前回の記事では、物理メモリを超える10万件の訓練データを使用した学習方法について改良しましたが、前々回に提案した新しいアンサンブル方式については評価を先送りしました。今回は、その評価を行います。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

アンサンブルの新方式について

前々回に提案したアンサンブルの新方式について、再度説明します。

まず、単体のモデルの推論フェーズは、モデルの出力を1つずらしてモデルの入力として実行されます。

単体モデルの推論

これまでのアンサンブルモデルの推論では、単体モデルをそれぞれ独立して推論した上で、全単体モデルの出力の平均値を取ってアンサンブルモデルの出力としていました。

アンサンブルモデルの推論(従来式)

新方式では、全単体モデルの出力の平均値と、各モデルの出力との加重平均を取って、それをそれぞれのモデルの入力とするという方法です。

アンサンブルモデルの推論(新方式)

生成画像

加重平均を取る際の、出力の平均値の側の重みをパラメータとして、次の4種類の重みで画像を生成しました。

  • 0%   : 従来式と同じ。各モデルの出力のみを使用

  • 5%   : ≒ 100^(1/3)

  • 30%  : ≒ 100^(3/4) > 100^(2/3)

  • 100% : 出力の平均値のみを使用

生成画像は、一番上が比較用にDeprojectorを使わない画像で、2段目以降が、0%、5%、30%、100%と並んでいます。

なお、使用したモデルは、前回の記事で最も結果の良かったモデル(作った新アーキテクチャで内部モデルごとにエポック数を決めたモデル=Hugging Faceに公開したモデル)です。

単一embedding
複数embeddingの合成

わずか5%の変化でも、生成画像には目に見える変化が起きています。重みの小さい側は生成画像への感度が高く、重みの大きい側では感度が低いことが推測されます。

0%(2段目)と100%(5段目)の比較では、「教室」などの一部の画像では100%の方が改善していると言えるものもありますが、全体としては従来式の0%の方が良い結果となるようです。

0%(2段目)と5%(3段目)の比較では、5%の方がよいと思われる画像も少なくなく、どちらがよいと結論づけることは難しいですが、計算がより複雑になることを考えると、5%の方を支持する理由が特になく、0%の従来式の方が現時点では好ましいと考えられます。

まとめ

現時点では、アンサンブルモデルの推論方式を変更する理由は認められず、これまで通りの方式で推論を行うという結論となりました。

この記事が気に入ったらサポートをしてみませんか?