- 運営しているクリエイター
#AIとやってみた
Negative Prompt を入れるタイミングについて
こんにちはこんばんは、teftef です。久しぶりに書きます。
今回は Negative Prompt が画像生成時に与える影響についてです。
簡単に内容だけネタバレすると、Diffuseion モデルの推論では Negative Prompt は 1 step 目からかけるより、 n >1 step 目からかけたほうがいいんでね。という趣旨です。
私もまだ初学者であり、説明が間違っていたり勘
セグメンテーションを用いた被写体切り抜きとパーツ分け
こんにちはこんばんは、teftef です。今回は,セマンティックセグメンテーションを使って画像内の被写体抽出をただ試すだけという記事です。いくつかの論文と手法をベースにしていますが、詳しいことは書かない予定です。Google Cloab も配布しているのでぜひ最後まで見ていただけると幸いです。
私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承くださ
Nightshade の可能性と限界
こんにちはこんばんは、teftef です。今回は,敵対的サンプルとデータポイズニングについてです。主題として、 Nightshade について取り上げます。画像に対して摂動を加えることによって、機械 (識別器や特徴抽出器) を混乱させて、謝った結果を出力させることを目的にしています。 Nightshade の論文の中身にも触れますが、実際に効果があるのか、使われるのかを中心に考察を書いていきます
もっとみるLatent Consistency Models について
こんにちはこんばんは、teftef です。今回は爆速画像生成ができる Latent Consistency Models についてです。WebUI 拡張やお試しも載せておきます。
拡散モデルの拡散過程は確率常微分方程式 (Probability Flow ODE) を解いて得ることができ、少ないステップによってその解軌道に沿ったサンプリングができるように学習します。これによって、Consisi
超解像について (その3・Real-ESRGAN)
こんにちはこんばんは、teftef です。超解像その 2 の続きです。CNN を使った超解像が主流となる中で、GAN を使った超解像によって画像の高周波成分の復元が高品質にできるようになり、画像がぼやけることがなくなりました。しかし、SRGAN も ESRGAN も学習に使ったデータセットの質の問題が考慮されていませんでした。今回は学習する画像の質にバリエーションを増やし、汎化性能を上げた Re
もっとみる『FABRIC』 : フィードバックベース画像Editor
こんにちはこんばんは、teftef です。今回はユーザーのお気に入り画像をフィードバックし、ファインチューン無しでその画像に寄った画像を生成してくれるツール「 FABRIC 」についてです。 FABRIC はユーザーのフィードバックを基に、LDMs にそのフィードバック情報を追加することでユーザーエクスペリエンスと出力品質を向上させています。
私もまだ初学者であり、説明が間違っていたり勘違い
脳波 (EEG) から画像を生成する話
こんにちはこんばんは、teftef です。しばらく大学が忙しくて,記事を休止していました。少し前に fMRI を用いて画像を生成する記事について書きました。今回は fMRI の代わりに EEG を入力として画像を生成する DreamDiffusion についてです。
私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただ
自律型マインクラフター (Minecraft played by AI)
こんにちはこんばんは、teftef です。今回は AI がマインクラフト (Minecraft) をプレイするということに関してです。OpenAI が開発した Video PreTraining (VPT) 、強化学習を使用した MINEDOJO、GPT-4 を使用した Voyager という最新手法などを3つの異なるアプローチを紹介していきます。
私もまだ初学者であり、説明が間違っていたり勘
AI の, AI による, AI のための Governance
こんにちはこんばんは、teftef です。ここ最近の AI (Artificial Inteligence) は様々な形で私たちの身の回りのタスクを補うようになっています。しかし AI を受け入れ、共存していくという選択肢とともに AI に支配(統治)されることを恐れる声もあります。現在の AI にはどのような能力があり、人間とどのような関係性を気づいているのか、また、これから先私たちは AI
もっとみるDeepFloyd IF : 自然言語モデルの知識を利用した画像生成モデル (Imagen)
こんにちはこんばんは、teftef です。2023 年 4 月 29 日に Stability AI に所属する開発チーム : DeepFloyd から Stable Diffusion とは異なる手法を使用した DeepFloyd IF が公開されました。このモデルは文字を破綻せずに生成できたり、高品質な画像を生成できるモデルとして注目を集めています。今回はこの DeepFloyd IF のベ
もっとみるCLIP は赤い丸の意味を理解できるのか?新たな Prompt engineering の話
こんにちはこんばんは、teftef です。私たち人間は、画像に赤い丸がついていると、無意識にその丸の中身が重要なものであると判断すると思います。果たしてそれは大規模視覚言語モデル (LLM) の CLIP も同じような挙動をするのでしょうか?
今回は言語情報 (Prompt) の代わりに特定の視覚的情報を与えることでCLIPがその領域に注目できるかどうか、また視覚的情報が言語情報の代わりになる
CyberAgent より、画像生成タスクにおける新たな評価指標の提案
こんにちはこんばんは、teftef です。今回は CyberAgent より、生成モデルから生成された画像の品質評価に関する論文です。近年の画像生 AI の発展によって、『高品質』な画像が生成できるようになりました。しかしよくよく考えてみると『高品質』というのは何でしょうか?人間の好みが違いをどのように評価するのでしょうか?今回はそこについて軽く書いていきます。
私もまだ初学者であり、説明が間