見出し画像

DreamStudio(stable diffusion)で遊んでみた:(Text To Image)

1.概要

 2022年8月現在ではテキストから画像を生成するAIが話題になっており、それに伴い倫理感や作者の権利に関する話題などが活発化されております。

 今回は「Stability.AI」が提供しているdiffusion modelを使用したtext to imageである「Dream Studio」で遊んでみました。

 2022年8月21日現在では本サービスはDreamStudio Lite(β版)であり、将来的にDreamStudio Pro (video/audio) と Enterprise (studios)版が発表予定です。

2.確認事項

2-1.事前対応:StabilityAIのアカウント作成

 おそらく下記の「DreamStudio」からアカウント作成したら使用できると思います。

 私は別途「Stable Diffusion Beta Access」の申請もしておりますが(申請が下りたメールがきていないため)こちらは関係ないと思います。

2-2.無料回数の確認

 初回で£2.00(約320円分)の無料枠があります。デフォルトの「512x512, 50steps, 1枚出力」で処理すると0.02£/枚使用します。課金は右下にある通り£10単位(約1600円)で購入可能です(約500枚作成可能)。

 入力の条件値でかかる費用は変わってきますのでご注意ください。

2-3.コンテンツフィルター

 結論からいうと「フィルターは緩いが"Terms of Service"ではエロい不適切な絵は禁止」とのことです。
 「Stable Diffusion launch announcement」よりStability AIのモデルは「LAION-5B」で学習されており特に変なバイアスはないためおそらくある程度の絵は作成できると思います。

 ただしガイドラインには下記のような絵は作成しないように注意されているためよほどのことがない限りは避けた方がよいと思います。

3.DreamStudio実演

 使用方法を紹介します。詳細は公式「Prompt Guide」をご確認ください。

3-1.テキスト(Prompt)の入力方法

 一番下のBOXに出力したいテキストを入力して"dream"ボタンを押せば画像が出力されます。出力した画像および入力情報は"History"から確認可能です

 右サイドバーに入力値を調整できるタブがあるためコストを考慮しながら必要であれば入力条件を調整します。

【入力条件】
width:出力画像の幅
height: 出力画像の高さ
Cfg Scale:どれだけPrompt(入力したテキスト)に近いイメージを出すか
(高い値ほどPromptに近い絵を出力)
Steps:画像作成のための処理回数 (拡散モデルでのstep数?)
Number of Images:1回の処理で作成される画像の枚数
Sampler:Diffusion sampling method(わからん)->ddim,plms, k_euler,
k_euler_ancestral, k_heun, k_dpm_2, k_dpm_2_ancestral , k_lms
seed:AIモデルの乱数値(固定値にすると同じ結果が出るはず)

3-2.残使用回数の確認

 使用回数(残高£)の確認は「右上のアイコン」->「Menmbership」へ移動して右側にある値で確認できます。

3-3.出力結果の確認:受信ボックス

 左サイドバーの「History」から確認可能です。

3-4.画像の再生成

 現時点で何のための機能かはわかりませんが紹介します。
 「Hitstory」から作成した画像を選択して「Redream」ボタンを選択すると同じ画像が作成されます(コストも発生)。

3-5.結果の保存

 結論としては「出力した画像はすぐに保存しよう」です。
 出力した画像を選択するとダウンロードできます。なおHistory内の画像は圧縮されており右クリックの「名前を付けて保存」すると下図の通り全く異なるサイズで保管されます(pandaは正しく保存)。
 またβ版ではブラウザのキャッシュが消えると出力画像も消えるためローカルPCへの保存が必須です。

4.出力結果

 出力結果および入力テキストは下記の通りです。

  • new world after any human has been gone

  • Blue world without any creatures

4-1.Prompt:new world after any human has been gone

4-2.Prompt:Blue world without any creatures

5.所感

 細かい所感はDALL-E2の記事に記載しておりますので、今回は他モデルとの比較をコメントします。

 「Blue world without any creatures 」は結構気に入った感じでできたのですが「new world after any human has been gone」はダサい、というよりテキストをテキストで表現しているところがおかしい。
 Prompt(テキスト)の入力方法もだけど、各モデルで入力値の調整などいろいろ異なってて面白い。


参考資料


あとがき

 ワイの夏休みがああああああ・・・・・・

 


この記事が気に入ったらサポートをしてみませんか?