Dream BoothをGoogle Colabで動作させる

2023年10月14日 17:03

テキストから画像を生成するモデルを、特定のオブジェクトの画像（３〜５枚程度）でファインチューニングすることによって、テキストで指定して特定のオブジェクトを画像生成できる Dream Booth という技術です。

http://cedro3.com/ai/dream-booth/

この記事を読んでみて検証がてら試してみました

Dream BoothはAI技術を使用して、異なる状況での被写体の生成の成功例を示しています。
具体的な例として、犬や猫の画像をさまざまなポーズや背景で生成することができ、高いリアリティが維持されています。また、有名な画家のスタイルでアート作品を生成することも成功しており、創造性や新規性が示唆されています。
学習をさせることによって与えられたテキスト(例えば毛の色など)によって画像を生成できることになります

「プロパティの変更」
プロンプト「a [color] [V] car」を使用して色の変更を示し、次の行では特定の犬と異なる動物との交差を示しています（プロンプト「a cross of a [V] dog and a [target species]」を使用）。
私たちの方法は、必要なプロパティの変更を実行しつつ、被写体にその個性や本質を与える独自の視覚的特徴を保存することを強調しています。

「アクセサリー化」
犬にアクセサリーを身につけること。被写体のアイデンティティは保持され、タイプが「a [V] dog wearing a police/chef/witch outfit」のプロンプトを用いることで、多くの異なる服やアクセサリーを犬に適用できます。
被写体の犬と服やアクセサリーとの実際的なインタラクションを観察し、多くの異なるオプションが可能であることがわかります。

コードはGoogle Colabで動かす形にしてGithubに上げてありますので、それに沿って説明して行きます。自分で動かしてみたい方は、この「リンク」をクリックし表示されたノートブックの先頭にある「Open in Colab」ボタンをクリックすると動かせます。

使用するテキストから画像を生成するモデル（Stable diffusion）をダウンロードするために、HuggingFace にログインします。

　なおログイン前に、HuggingFaceにSign UPし、Model cardの使用申請をし、Access Tokenを取得して置く必要があります。

http://cedro3.com/ai/dream-booth/

引用のHuggingFaceが必要になるので登録とアクセストークンの作成が必要です

上記をGoogle Colabで動作させてみると、動かすことが可能でした
動作環境と見本ソースがあると利用方法がわかりやすく、ドキュメントなども読みやすくなります

次回ではプロパティを変化させて試す予定です

この記事が気に入ったらサポートをしてみませんか？