マガジンのカバー画像

論文解説まとめ

30
論文解説まとめ
運営しているクリエイター

#画像生成

Negative Prompt を入れるタイミングについて

Negative Prompt を入れるタイミングについて

 こんにちはこんばんは、teftef です。久しぶりに書きます。
今回は Negative Prompt が画像生成時に与える影響についてです。
簡単に内容だけネタバレすると、Diffuseion モデルの推論では Negative Prompt は 1 step 目からかけるより、 n >1 step 目からかけたほうがいいんでね。という趣旨です。
 私もまだ初学者であり、説明が間違っていたり勘

もっとみる
Latent Surfing(第3回 AI なんでもLT 会の振り返り)

Latent Surfing(第3回 AI なんでもLT 会の振り返り)

 こんにちはこんばんは、teftef です。2024 年 3月 10 日に開催された LT 会で話したことについてのまとめと振り返りです。「Latent Surfing 」という題目で、 GAN や Diffusion Models を用いたモーフィングについて話しました。その内容についてまとめます。

 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了

もっとみる
Nightshade の可能性と限界

Nightshade の可能性と限界

 こんにちはこんばんは、teftef です。今回は,敵対的サンプルとデータポイズニングについてです。主題として、 Nightshade について取り上げます。画像に対して摂動を加えることによって、機械 (識別器や特徴抽出器) を混乱させて、謝った結果を出力させることを目的にしています。 Nightshade の論文の中身にも触れますが、実際に効果があるのか、使われるのかを中心に考察を書いていきます

もっとみる
Latent Consistency Models について

Latent Consistency Models について

 こんにちはこんばんは、teftef です。今回は爆速画像生成ができる Latent Consistency Models についてです。WebUI 拡張やお試しも載せておきます。
 拡散モデルの拡散過程は確率常微分方程式 (Probability Flow ODE) を解いて得ることができ、少ないステップによってその解軌道に沿ったサンプリングができるように学習します。これによって、Consisi

もっとみる
超解像について (その3・Real-ESRGAN)

超解像について (その3・Real-ESRGAN)

 こんにちはこんばんは、teftef です。超解像その 2 の続きです。CNN を使った超解像が主流となる中で、GAN を使った超解像によって画像の高周波成分の復元が高品質にできるようになり、画像がぼやけることがなくなりました。しかし、SRGAN も ESRGAN も学習に使ったデータセットの質の問題が考慮されていませんでした。今回は学習する画像の質にバリエーションを増やし、汎化性能を上げた Re

もっとみる
超解像について (その2・SRGAN と ESRGAN)

超解像について (その2・SRGAN と ESRGAN)

 こんにちはこんばんは、teftef です。超解像その1の続きです。前回は、画像を拡大するアルゴリズム手法から始まり、SRCNN といった機械学習手法を使って超解像をするところまで書きました。今回はさらに SRCNN を応用した SRGAN , ESRGAN , Real-ESRGAN について書いていきます。GAN の概要は飛ばすので、もし読みたい方がいればこちらをご覧ください。
 私もまだ初学

もっとみる
ComfyUI で動かす Stable Diffsion XL

ComfyUI で動かす Stable Diffsion XL

 こんにちはこんばんは、teftef です。今回は話題の Stable Diffusion XL についてです。と、言っても使い方の記事は調べればいくらでも出てくると思うので、主は依然として論文解説をします。使い方を見に来たという方々にとってはその目的にに沿わないと思うので、主が特に分かりやすいと思った記事を下に張っておきます。今回は SDXL が条件付けとして画像のサイズを使用していることについ

もっとみる
脳波 (EEG) から画像を生成する話

脳波 (EEG) から画像を生成する話

 こんにちはこんばんは、teftef です。しばらく大学が忙しくて,記事を休止していました。少し前に fMRI を用いて画像を生成する記事について書きました。今回は fMRI の代わりに EEG を入力として画像を生成する DreamDiffusion についてです。
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただ

もっとみる
teftef
割引あり
GlyphControl: 文字を描く ControlNet

GlyphControl: 文字を描く ControlNet

 こんにちはこんばんは、teftef です。今回は GlyphControl です。DeepFloyd IF は Imagen をベースにしたカスケード式モデルであり、Text Encoder に大規模自然言語モデル(LLM)に使われる T5 モデルを使用していて文字が出力できる Generative AI として大きな話題となりました。しかし T5 モデルは非常に大きなモデルでありパラメータ数が

もっとみる
自律型マインクラフター (Minecraft played by AI)

自律型マインクラフター (Minecraft played by AI)

 こんにちはこんばんは、teftef です。今回は AI がマインクラフト (Minecraft) をプレイするということに関してです。OpenAI が開発した Video PreTraining (VPT) 、強化学習を使用した MINEDOJO、GPT-4 を使用した Voyager という最新手法などを3つの異なるアプローチを紹介していきます。
 私もまだ初学者であり、説明が間違っていたり勘

もっとみる
AI の, AI による, AI のための Governance

AI の, AI による, AI のための Governance

 こんにちはこんばんは、teftef です。ここ最近の AI (Artificial Inteligence) は様々な形で私たちの身の回りのタスクを補うようになっています。しかし AI を受け入れ、共存していくという選択肢とともに AI に支配(統治)されることを恐れる声もあります。現在の AI にはどのような能力があり、人間とどのような関係性を気づいているのか、また、これから先私たちは AI

もっとみる
DeepFloyd IF : 自然言語モデルの知識を利用した画像生成モデル (Imagen)

DeepFloyd IF : 自然言語モデルの知識を利用した画像生成モデル (Imagen)

 こんにちはこんばんは、teftef です。2023 年 4 月 29 日に Stability AI に所属する開発チーム : DeepFloyd から Stable Diffusion とは異なる手法を使用した DeepFloyd IF が公開されました。このモデルは文字を破綻せずに生成できたり、高品質な画像を生成できるモデルとして注目を集めています。今回はこの DeepFloyd IF のベ

もっとみる
fMRI から画像を生成する話

fMRI から画像を生成する話

 こんにちはこんばんは、teftef です。今回は大阪大学から出た fMRI 画像から Stable Diffusion を用いて画像生成する論文をベースに Brain 2 Image について書いていこうと思います。
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただけたら幸いです。また、この記事を作成するにあたり、

もっとみる