CLIP Text Deprojectorを使って画像生成してみる　～増量した訓練データの使い方～

2023年7月5日 07:29

前回の記事では１０万件の訓練データを用いてモデルを学習する方法を提案しました。今回は、その方法を改良してみます。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

学習手順の改良

前回提案した学習手順は次の通りです。

このうち、２番目のステップで５つメモリに読み込むとき、前回は毎回１０個からランダムに選びましたが、今回は次のように変更しました。

この方式では、ループ２回分で１０個の部分データを全て使い切ることになるため、前回とはエポックの数え方を変えて、ループ２回で１エポックと数えることとしました。

今回の実験では、前回使用した２種類のモデルアーキテクチャを比較しています。

アンサンブルモデルのアンサンブル方式は、前回提案した新しい方式は使用せず、従来型のアンサンブル方式を用いています。

最初に、アンサンブルモデルの内部モデルとなる４つのモデルを、全て同じエポック数まで学習したモデルで画像を生成して比較しました。従来型と新方式で使用したエポック数は、それぞれ次の通りです。

生成画像は、最上段がdeprojector不使用で、２段目が前々回に生成した５万件の訓練データを使用したモデル、３段目と４段目が今回１０万件の訓練データを使用したモデルで、３段目が従来型アーキテクチャ、４段目が新方式アーキテクチャです。

単一embeddingの生成画像では、２段目と比べて、３段目４段目は少し１段目の画像へと近づいたようです。

複数embeddingを合成した生成画像では、３段目４段目に比べて、２段目の方がやや入力文字列の意味をよく反映しているようです。

アンサンブルモデルの各内部モデルの生成画像を詳しく比較すると、内部モデルごとに学習を止めるエポック数を決める方が良い結果になりそうでした。以下が、内部モデルごとに決めたエポック数です。

生成画像の並び順は、上の節と同じになっています。

単一embeddingを見ると、３段目４段目がはっきりと２段目よりも改善していて、１段目とも比肩する結果となっています。また、３段目よりも４段目の方がわずかによい結果となっているようです。

複数embeddingを合成した画像でも、４段目が２段目３段目よりもよい結果となっており、また、１段目にも比肩する結果となっていると言えると思います。

全体として、４段目（新方式アーキテクチャ）の結果が２段目３段目（従来型アーキテクチャ）よりもよく、１段目（deprojectorなし）に接近しているようです。

物理メモリを超える訓練データを使って学習する場合は、非復元抽出を用いる方がモデルの性能が高くなることが分かりました。

また、１０万件の訓練データを使う場合は、新方式アーキテクチャを使う方が、特に複数embeddingの合成において、良い性能を出すことが分かりました。

ただし、新方式アーキテクチャの方が従来型アーキテクチャよりも学習に必要なエポック数が多くなるようです。

エポック数の決定では、アンサンブルモデルの内部モデルで一律のエポック数を用いるよりも、内部モデルごとに最適なエポック数を求める方が、全体としてアンサンブルモデルの性能も向上するようです。

最新版のモデルデータは、Hugging Faceリポジトリに登録済みです。新方式アーキテクチャを約１０万件のデータを用いて、モデル別のエポック数でトレーニングした４つモデルのアンサンブルモデルです。

この記事が気に入ったらサポートをしてみませんか？