- 運営しているクリエイター
#StableDiffusion
Negative Prompt を入れるタイミングについて
こんにちはこんばんは、teftef です。久しぶりに書きます。
今回は Negative Prompt が画像生成時に与える影響についてです。
簡単に内容だけネタバレすると、Diffuseion モデルの推論では Negative Prompt は 1 step 目からかけるより、 n >1 step 目からかけたほうがいいんでね。という趣旨です。
私もまだ初学者であり、説明が間違っていたり勘
Latent Surfing(第3回 AI なんでもLT 会の振り返り)
こんにちはこんばんは、teftef です。2024 年 3月 10 日に開催された LT 会で話したことについてのまとめと振り返りです。「Latent Surfing 」という題目で、 GAN や Diffusion Models を用いたモーフィングについて話しました。その内容についてまとめます。
私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了
Nightshade の可能性と限界
こんにちはこんばんは、teftef です。今回は,敵対的サンプルとデータポイズニングについてです。主題として、 Nightshade について取り上げます。画像に対して摂動を加えることによって、機械 (識別器や特徴抽出器) を混乱させて、謝った結果を出力させることを目的にしています。 Nightshade の論文の中身にも触れますが、実際に効果があるのか、使われるのかを中心に考察を書いていきます
もっとみるLatent Consistency Models について
こんにちはこんばんは、teftef です。今回は爆速画像生成ができる Latent Consistency Models についてです。WebUI 拡張やお試しも載せておきます。
拡散モデルの拡散過程は確率常微分方程式 (Probability Flow ODE) を解いて得ることができ、少ないステップによってその解軌道に沿ったサンプリングができるように学習します。これによって、Consisi
超解像について (その3・Real-ESRGAN)
こんにちはこんばんは、teftef です。超解像その 2 の続きです。CNN を使った超解像が主流となる中で、GAN を使った超解像によって画像の高周波成分の復元が高品質にできるようになり、画像がぼやけることがなくなりました。しかし、SRGAN も ESRGAN も学習に使ったデータセットの質の問題が考慮されていませんでした。今回は学習する画像の質にバリエーションを増やし、汎化性能を上げた Re
もっとみる超解像について (その2・SRGAN と ESRGAN)
こんにちはこんばんは、teftef です。超解像その1の続きです。前回は、画像を拡大するアルゴリズム手法から始まり、SRCNN といった機械学習手法を使って超解像をするところまで書きました。今回はさらに SRCNN を応用した SRGAN , ESRGAN , Real-ESRGAN について書いていきます。GAN の概要は飛ばすので、もし読みたい方がいればこちらをご覧ください。
私もまだ初学
お絵描きAIに使われるGANと拡散モデルについて初学者向けに解説してみた(その1 : オートエンコーダー編)
こんにちは、こんばんは teftef です。今回はいよいよ Diffusion Model についての記事です。Diffusion Model は NovelAI や Stable Diffudsion , Midjyouney にも使われている生成モデルの一つです。これまでは生成モデルの覇権をとっていた GAN について 3 記事ほど書いてきて、「 GAN ってすごいよ!」というのをさんざん言
もっとみるAI を自分好みに調整できる、追加学習まとめ (その1 : 概要)
こんにちは、こんばんは teftef です。今回は最近流行りの「追加学習」について書いていこうと思います。今回の記事は追加学習の大まかな解説とどのような手法があるのかについてまとめていきます。私もまだつい最近まで初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただけたら幸いです。
モデルの作成
AI (人工知能) を作るため
AI を自分好みに調整できる、追加学習まとめ (番外編 : データセットの集め方について)
こんにちはこんばんは、teftef です。今回は主の追加学習用のデータセットの集め方と追加学習モデルを使えるようにした話について書いていきます。それでは行きます。
『追加学習まとめ』の記事で書いたように追加学習をするために多くのデータを収集する必要があります。特にファインチューニング、転移学習、は多くのデータを必要とします。そのため学習元となる画像を大量に用意する必要があり、持っていないので
AI を自分好みに調整できる、追加学習まとめ ( その3 : DreamBooth )
こんにちはこんばんは、teftef です。今回も追加学習手法についてです。今回は DreamBooth、前回の記事の Textual Inversion に似ていますが、これはこれでまた一味違った手法になっています。Textual Inversion との違いを比べつつ、書いていこうと思います。私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください
もっとみるAI を自分好みに調整できる、追加学習まとめ ( その5: LoRA)
こんにちはこんばんは、teftef です。今回も追加学習手法についてです。これまで説明してきた Diffusion Model のファインチューニングでは一般的に Unet , Text Transformer の再学習を行いました。しかし、全てのパラメーターを再学習するには時間がかかってしまいます。今回はファインチューニング後のモデルの品質を下げず、省時間、省メモリの手法を実現した軽量化手法、
もっとみる『FABRIC』 : フィードバックベース画像Editor
こんにちはこんばんは、teftef です。今回はユーザーのお気に入り画像をフィードバックし、ファインチューン無しでその画像に寄った画像を生成してくれるツール「 FABRIC 」についてです。 FABRIC はユーザーのフィードバックを基に、LDMs にそのフィードバック情報を追加することでユーザーエクスペリエンスと出力品質を向上させています。
私もまだ初学者であり、説明が間違っていたり勘違い
ComfyUI で動かす Stable Diffsion XL
こんにちはこんばんは、teftef です。今回は話題の Stable Diffusion XL についてです。と、言っても使い方の記事は調べればいくらでも出てくると思うので、主は依然として論文解説をします。使い方を見に来たという方々にとってはその目的にに沿わないと思うので、主が特に分かりやすいと思った記事を下に張っておきます。今回は SDXL が条件付けとして画像のサイズを使用していることについ
もっとみるGlyphControl: 文字を描く ControlNet
こんにちはこんばんは、teftef です。今回は GlyphControl です。DeepFloyd IF は Imagen をベースにしたカスケード式モデルであり、Text Encoder に大規模自然言語モデル(LLM)に使われる T5 モデルを使用していて文字が出力できる Generative AI として大きな話題となりました。しかし T5 モデルは非常に大きなモデルでありパラメータ数が
もっとみる