見出し画像

CLIP Text Deprojectorを使って画像生成してみる ~LSTMモデルの比較~

ここで、一度、これまでに作ったLSTMモデルのバリエーションの性能比較を行ってみようと思います。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集


方針

モデルを比較するにあたって、モデルのサイズで大まかに分類して比較します。分類の基準は、モデルファイルのサイズを元にして、次の通りとします。

  1. 35MB未満

  2. 35MB以上、50MB未満

  3. 50MB以上

使用したプロンプトはこれまでと同様、次の通りです。

単一embedding

  • cat maid (猫耳メイド)

  • 1girl red hair blue eye black skirt(赤髪 青目 黒スカート)

  • 1boy 1girl in class room(少年 少女 教室)

複数embeddingの合成

  • cat, maid (猫 メイド)

  • 1girl, red hair, blue eye, black skirt (赤髪 青目 黒スカート)

  • 1boy, 1girl, in class room (少年 少女 教室)

35MB未満

35MB未満のクラスとして選んだモデルには、次にあげる条件をすべて満たすものが含まれます。

  • LSTMの内部次元が入力次元と同じ

  • レイヤー数が1つ

  • 追加MLPの内部次元が入力次元の2倍以下

実際に比較したモデルは以下の通りです。

  1. Deprojectorなし

  2. 初期LSTMモデル(24.8MB)

  3. 入力を加算し残差を出力のみに含むモデル(24.8MB)

  4. 線形変換後に残差接続を繋げるモデル(LSTM次元1倍)(29.3MB)

  5. 初期LSTMモデル+MLP(内部次元2倍)(33.82MB)

単一embedding
複数embeddingの合成

以上の結果では、最も質の良い画像を生成したのは、5段目の「初期LSTMモデル+MLP(内部次元2倍)」のモデルでした。

35MB以上、50MB未満

35MB以上50MB未満のクラスとして選んだモデルには、次にあげる変更が1つだけ加えられたものが含まれます。

  • レイヤー数が2つ

  • LSTMの内部次元が、入力次元の1.5倍以下

  • 追加MLPの内部次元が入力次元の4倍

実際に比較したモデルは以下の通りです。

  1. Deprojectorなし

  2. 【40MB未満の最良モデル】初期LSTMモデル+MLP(内部次元2倍)(33.82MB)

  3. 線形変換後に残差接続を繋げるモデル(LSTM次元1.25倍)(37.8MB)

  4. 線形変換後に残差接続を繋げるモデル(LSTM次元1.5倍)(47.3MB)

  5. 初期LSTMモデル、レイヤー2層(47.4MB)

単一embedding
複数embeddingの合成

以上の結果では、4段目の「線形変換後に残差接続を繋げるモデル(内部次元1.5倍)」が最も質の良い画像を生成したと考えられます。

50MB以上

50MB以上のクラスとして選んだモデルには、上記のクラスに当てはまらないものが含まれます。

実際に比較したモデルは以下の通りです。

  1. Deprojectorなし

  2. 【50MB未満の最良モデル】線形変換後に残差接続を繋げるモデル(内部次元1.5倍)(47.3MB)

  3. 初期LSTMモデル、レイヤー3層(69.9MB)

  4. 線形変換後に残差接続を繋げるモデル(LSTM次元2倍)(69.85MB)

  5. 線形変換後に残差接続を繋げるモデル(LSTM次元1.25倍)、レイヤー2層(73.3MB)

単一embedding
複数embeddingの合成

以上の結果では、明確に他のモデルより優れているモデルは見つけられませんでした。

まとめ

以上の結果から、最もパラメータ数と性能のバランスが取れたモデルは、「線形変換後に残差接続を繋げるモデル(内部次元1.5倍)」と考えられます。

この記事が気に入ったらサポートをしてみませんか?