CLIP Text Deprojectorを使って画像生成してみる　～LSTMモデルの比較～

2024年1月14日 18:49

ここで、一度、これまでに作ったLSTMモデルのバリエーションの性能比較を行ってみようと思います。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

方針

モデルを比較するにあたって、モデルのサイズで大まかに分類して比較します。分類の基準は、モデルファイルのサイズを元にして、次の通りとします。

使用したプロンプトはこれまでと同様、次の通りです。

単一embedding

複数embeddingの合成

35MB未満のクラスとして選んだモデルには、次にあげる条件をすべて満たすものが含まれます。

実際に比較したモデルは以下の通りです。

以上の結果では、最も質の良い画像を生成したのは、５段目の「初期LSTMモデル＋MLP（内部次元２倍）」のモデルでした。

35MB以上50MB未満のクラスとして選んだモデルには、次にあげる変更が１つだけ加えられたものが含まれます。

実際に比較したモデルは以下の通りです。

以上の結果では、４段目の「線形変換後に残差接続を繋げるモデル（内部次元１．５倍）」が最も質の良い画像を生成したと考えられます。

50MB以上のクラスとして選んだモデルには、上記のクラスに当てはまらないものが含まれます。

実際に比較したモデルは以下の通りです。

以上の結果では、明確に他のモデルより優れているモデルは見つけられませんでした。

以上の結果から、最もパラメータ数と性能のバランスが取れたモデルは、「線形変換後に残差接続を繋げるモデル（内部次元１．５倍）」と考えられます。

この記事が気に入ったらサポートをしてみませんか？