CLIP Text Deprojectorを使って画像生成してみる　～増強データの割合～

2023年5月21日 15:34

前回は、CLIP Text Deprojectorのモデルをembedding演算を工夫してモデルを改良するという記事を書きました。今回は、訓練データ中の増強データの最適な割合を探してみたいと思います。

前回の記事

他のStable Diffusionの関連記事

Layered Diffusion Pipelineを使うためのリンク集

増強データの生成方法とその割合

増強データはテキスト２つからembedding演算を用いてembeddingを１つ生成して入力にし、結合テキストから生成したlast hidden stateをターゲットとして生成されています。詳細は以下の記事で説明しています。

ただし、記事中ではembedding演算にベクトルの平均を取る方式を採用していますが、今は前回の記事で説明したように差の合計を取る方式に変更しています。

これにより、増強データを含む訓練データ（およびテストデータ）の割合は、次のようになっています。ただし、増強なしデータの割合をＸ％と置きます。

Ｘ％　増強なしデータ
（１００－Ｘ）％　増強データ
- （５０－Ｘ／２）％　元テキスト１つをランダムに２分割して増強データを作成
- （５０－Ｘ／２）％　元テキスト２つから増強データを作成

これまでは、増強なしデータと増強データの割合を１：１（Ｘ＝５０％）として訓練データを作成していましたが、今回、２：３（Ｘ＝４０％）、１：２（Ｘ＝３３％）の訓練データを作成して、結果を比較してみることにします。

以前の記事で説明したように、Google Colabのメモリ使用量の制限内でトレーニングを行うため、特殊な手順でトレーニングを行っています。

Google Colabノートブック上でトレーニングを走らせる関係上、１万件ごとのデータに分割して、各分割データ上でearly stoppingを実施しています。

増強データの生成をランダムに行う関係上、各分割データの件数は厳密ではなくおおよそ１万件となっています。また、全ての分割データに空文字列のデータを１件ずつ含めるヒューリスティクスが入っています。

最左列からデータ増強割合が１：１（＝５０％）、２：３（＝４０％）、１：２（＝３３％）の順に並んでいます。また、最上段は比較用で、２段目以降が訓練データ２万件、３万件、４万件、５万件と並んでいます。

使用したプロンプトはこれまでと同じ３種類です。

最右列の１：２の増強データ割合の生成画像は、元のプロンプトの内容が適切に反映されていない様子がありますが、左２列の生成画像は同程度の質があるように思われます。強いて言えば、１：１の画像に比べ、２：３の画像は生成画像の特徴がやや遅れて出現しているようにも思われます。

複数embeddingの合成も、最左列からデータ増強割合が１：１（＝５０％）、２：３（＝４０％）、１：２（＝３３％）の順に並んでいます。また、上２段が学習件数２万件のモデルを用いた画像、下２段が学習件数４万件のモデルを用いた画像となります。

前回と同様、プロンプトには、次の３種類を使用しました。

複数embeddingの合成の場合は、中列の２：３の増強データ割合のモデルが最もプロンプトの意味に近い画像を出力しているように思われます。

また、３要素以上の合成では、いくつかの要素が無視される傾向があるように見えますが、この点はembeddingの合成がどういう意味を持った操作であるのかから含めて、もう少し検証が必要だと思います。

増強データ割合は、２：３の場合（増強なしデータが４０％）がもっともバランスの取れたトレーニングを行うことができると分かりました。

最新のモデルをHugging Faceに登録しました。増強データ割合２：３で約３万件のデータでトレーニングしたモデルになります。

この記事が気に入ったらサポートをしてみませんか？