見出し画像

カリオストロラボ・Animagine XL 3.0 リリースノート日本語翻訳(訳注あり)

2024年1月10日にカリオストロラボ(cagliostrolab.net)からリリースされた新型SDXLモデル「Animagine XL 3.0」(アニマジンXL3.0)のリリースノートの日本語訳をいたしましたので共有いたします。途中に訳注が2箇所入っていますのと、いくつかの挿絵は割愛させていただきました。一次発信者の意図とは異なる加筆となることをご容赦ください。気になる方は原作ページもご参照ください。


Animagine XL 3.0 の発表

2ヶ月前、私たちはAnimagine XL 2.0を発表しました。本日は、Stable Diffusion XLをベースとしたオープンソースのアニメテキスト画像生成モデルであるAnimagine XL 3.0をご紹介します。前回のイテレーションに続き、V3は最高のオープンアニメ画像生成モデルになるために開発・改良されました。

前回と比較して、より良い知識、より良いコンセプト、より迅速な理解が可能になりました。また、より良い手の解剖学的構造を生成することができます。

Animagine XL 2.0上でファインチューニング

試行錯誤の結果、Animagine XL 2.0がAnimagine XL 3.0の事前学習のベースモデルになることがわかりました。このモデルは、SDXL(これまでのところ世界最高のオープンな画像生成モデル)の上に構築されているだけでなく、Animagine XL 2.0はすでに純正バージョンよりもアニメのコンセプトを学習していたため、継続的なトレーニングが容易で効率的でした。

Animagine XL 3.0をトレーニングするために、私たちはRunpodで2x A100 80GBのみを使用しました。モデルのトレーニングは12月の21日間、約500GPU時間以上行いました。トレーニングスクリプトはkohya-ss/sd-scriptsを少し修正したものを使用しました。ラベルがシャッフルされないように動的に保つために、keep_tokens_separatorのようなものを追加しました。

ただし、Animagine XL 3.0の学習構成はAnimagine XL 2.0とは若干異なる可能性があるので、そのあたりは対応できればと思います。

タグの並び順

NovelAIは昨年、アニメのテキストから画像への変換モデルの第3弾、NovelAI Diffusion V3を発表しました。

彼らは、NAID V3はユニークなタグ順序で学習されたと主張しています。つまり、私たちが望むものを得るためには、迅速な順序が重要だということです。ありがたいことに、彼らはドキュメント内で調査結果を共有してくれました。

そのわずかな情報をもとに、私たちはデータセットを構築し、NovelAI Diffusion V3と同様にトレーニングすることで、タグの順序を再現しようと試みました。今のところ、その結果には満足しています。したがって、このプロンプトテンプレートを使ってV3モデルで推論することをお勧めします。

1boy/1girl, what character, from which series, everything else in random order*

1️⃣ 1boy/1girl
2️⃣ 何のキャラクター
3️⃣ 何のシリーズ
4️⃣それ以外のすべてをランダム順序で。ランダムな順序の他のすべては、一般的なタグから品質タグまで、すべてを含みます。

【訳注】日本の法律では特に2️⃣と3️⃣について、類似性や依拠性に注意する必要があります。

プロンプトガイド

{
  "prompt": "1girl, c.c., code geass, white shirt, long sleeves, turtleneck, sitting, looking at viewer, eating, pizza, plate, fork, knife, table, chair, table, restaurant, cinematic angle, cinematic lighting, masterpiece, best quality",
  "negative_prompt": "nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name, ",
  "resolution": "896 x 1152",
  "guidance_scale": 7,
  "num_inference_steps": 28,
  "seed": 0,
  "sampler": "Euler a",
  "sdxl_style": "(None)",
  "quality_tags": "Standard",
  "use_lora": null,
  "use_upscaler": null
}

より良い手

私たちは、V3が前回の反復と比較してより良い手を生成できると信じています。私たちは、waving、double v、v、pointing at viewer、hands up、rabbit pose、shushingなどのハンドジェスチャータグをテストしており、今のところ結果に満足しています。


[手を振る] [v] [人差し指を立てる]

よりシンプルなプロンプト、より良い知識

このモデルをトレーニングすることになったもう一つの理由は、LoRAの制御不能で非効率な開発でした。LoRAの平均サイズが50MB(8dim, 8 alpha, 8 conv dim, 4 alpha)だとすると、LoRAを保存するために約140GBのストレージを割り当てる必要があります。それだけでなく、全てのLoRAをロードし、壊れていないか検証し、ネットワークタブを開き、LoRAを選択し、LoRAアダプターのウェイトを調整してから生成しなければなりません。

LoRAを再び偉大に!

LoRAをより効果的かつ効率的にするには、より良いベースモデルをトレーニングする必要があります。このモデルを使えば、プロンプトだけで多くの有名なキャラクターを生成することができます。ほとんどのキャラクターは、特徴を説明する必要もありません。「Hoshimachi Suisei」と入力すれば「星街すいせい」が、「Arima Kana」と入力すれば「有馬かな」が出てきます。それだけです!

【訳注】日本の法律では特に原作が存在するキャラクターの生成について、類似性や依拠性の侵害に注意し、著作権者の権利に配慮する必要があります。

より低いCFGスケール、より少ないサンプリングステップ


これまでの結果から、分類器を使わないガイダンス(a lower classifier-free guidance; CFG Scale)を5~7程度に下げ、サンプリングステップを30以下にし、サンプラーとして「オイラー・アンセストラル」(Euler Ancestral; Euler A)を使用することをお勧めします。この設定は、結果の質を落とすことなくパフォーマンスを最適化します。

制御不能

良いことの次は、悪いことの説明に移ります。多くの高得点データセットがNSFW(職場では不適切な画像)であるため、master-piece, best quality を使うと、ユーザーはより多くのNSFWの結果に遭遇するかもしれません。ネガティブプロンプトには「nsfw, rating: sensitive」を、ポジティブプロンプトには「rating: general」を追加したほうがいいでしょう。

また、学習終了後に学習スクリプトがおかしいことに気づきました。複数のGPUを使用しているため、分散データ並列の問題があり、勾配が同期されていません。

特別タグ

前の反復のように、このモデルは、品質と年のタグ(year tag; 西暦で年を入れる)に結果を誘導するために、いくつかの特別なタグでトレーニングされました。これらの特別なタグがなくてもモデルは機能しますが、モデルを扱いやすくしたい場合は使用することをお勧めします。

品質タグ

SD 1.5からSDXLへの移行を簡単にするために、品質タグは同じままにしました。品質タグはデータセットのスコアに基づいて測定されます。以下は、最高から最低までのリストです:

傑作: masterpiece
最高品質: best quality
高品質: high quality
普通品質: normal quality
低品質: low quality
最低品質: worst quality


品質タグなし / 品質タグあり

年号タグ(year tags)

年号タグも導入していますが、NovelAI Diffusion V3とは異なり、単一の投稿年ではなく、投稿年の範囲に基づいて学習します。これはもう一つの品質タグであり、アニメのアートスタイルの現代性へと結果を導くためのものです。年タグはあまり効果的ではありませんが、特に2014年代のアートスタイルを取得したい場合は、有効です。以下は、新しいものから古いものへのリストです:

最新
後期
中期
初期
最も古い

アニマジンXL 3.0を使い始めるには

このモデルを使い始めるには、いくつかの方法があります:

Animagine XL 3.0はHuggingface Spaceで公開されています。このリンクをたどってください。
Animagine XL 3.0の重みとトレーニングコンフィグは、Cagliostro Research Lab HuggingfaceリポジトリCivitAIで公開されています。
Animagine XL 3.0はTensorArtでも公開される予定です。

新しいライセンスについて


Animagine XL 3.0は、Stable Diffusionモデルと互換性のあるFair AI Public License 1.0-SDを使用するようになりました。主なポイント

  1. 改変の共有: Animagine XL 3.0を変更した場合、変更内容と元のライセンスの両方を共有する必要があります。

  2. ソースコードのアクセシビリティ: 変更したバージョンがネットワークからアクセス可能な場合、他の人がソースコードを入手できる方法(ダウンロードリンクなど)を提供してください。これは派生モデルにも適用されます。

  3. 配布条件: どのような配布も、このライセンス、または同様の規則を持つ他のライセンスのもとでなければなりません。

  4. 遵守: ライセンスの終了を避けるために、不順守は30日以内に修正されなければならず、透明性とオープンソースの価値の順守を強調しています。

このライセンスの選択は、Animagine XL 3.0をオープンで変更可能な状態に保ち、オープンソースコミュニティの精神に沿うことを目的としています。このライセンスは、貢献者とユーザーを保護し、協力的で倫理的なオープンソースコミュニティーを奨励します。これは、このモデルが共同体からのインプットから利益を得るだけでなく、オープンソース開発の自由を尊重することを保証します。

Animagine XL 3.0の発表
https://cagliostrolab.net/posts/animagine-xl-v3-release/
作者
カリオストロ研究所
公開日
2024-01-10
ライセンス 
 CC BY-NC-SA 4.0


AICU media 編集部コメント

generated by Animagine XL 3.0

サンプルプロンプトにおける実在シリーズのキャラクター名は、著作権者の権利や商標権侵害に当たる可能性がありますが、それ以外の画質についてはSDXLかつ高解像度でのトレーニング、NovelAIの研究もあり非常に高い品質のイラストレーションが描けるモデルになっていると感じます。また、年号タグのような画風の時代を経ることによる変遷については大変根気がいる調査が必要であり、今後のアニメーション画風の研究にも役立つ可能性があります。オープンなモデルが様々な良い学習結果を取り込んでいく過程にあり、また日本製のアニメーションを大変良く研究した成果であると感じます。近年のNetflixやAmazon prime等の日本アニメーションの世界公開の影響も少なからずあるでしょう。国内の現在の法律や、ファン感情だけで偏見を持つのではなく、本当のアニメファンであれば目的や動向、その周囲にも目を向けるべきかと思います。なおCagliostroLab.net のドメインは2024年1月6日に取得され、ドメイン登録者はアイスランドのレイキャビクにて隠蔽されています。カリオストロラボのその正体は謎に包まれております。

AICU mediaでは今後も調査を進めていきます。

開発者の中心人物とのコミュニケーションは以下

ここから先は

0字

Stable Diffusionをゼロから学ぶマガジン

¥500 / 月
初月無料
このメンバーシップの詳細

この記事が気に入ったらサポートをしてみませんか?