マガジンのカバー画像

論文解説まとめ

30
論文解説まとめ
運営しているクリエイター

#AI

Negative Prompt を入れるタイミングについて

Negative Prompt を入れるタイミングについて

 こんにちはこんばんは、teftef です。久しぶりに書きます。
今回は Negative Prompt が画像生成時に与える影響についてです。
簡単に内容だけネタバレすると、Diffuseion モデルの推論では Negative Prompt は 1 step 目からかけるより、 n >1 step 目からかけたほうがいいんでね。という趣旨です。
 私もまだ初学者であり、説明が間違っていたり勘

もっとみる
ポケモン対戦エージェント : POKE´LLMON

ポケモン対戦エージェント : POKE´LLMON

 こんにちはこんばんは、teftef です。今回は,ポケモンを LLM でプレイしてみたという論文です。ぱっと見た感じ見た感じよくある「エージェント」の論文ですが、ちょっと結果が面白かったので、メモ程度に書いていこうと思います。(主がポケモンをやっていたから気になるというのもあります。)
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひ

もっとみる
セグメンテーションを用いた被写体切り抜きとパーツ分け

セグメンテーションを用いた被写体切り抜きとパーツ分け

 こんにちはこんばんは、teftef です。今回は,セマンティックセグメンテーションを使って画像内の被写体抽出をただ試すだけという記事です。いくつかの論文と手法をベースにしていますが、詳しいことは書かない予定です。Google Cloab も配布しているのでぜひ最後まで見ていただけると幸いです。
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承くださ

もっとみる
Nightshade の可能性と限界

Nightshade の可能性と限界

 こんにちはこんばんは、teftef です。今回は,敵対的サンプルとデータポイズニングについてです。主題として、 Nightshade について取り上げます。画像に対して摂動を加えることによって、機械 (識別器や特徴抽出器) を混乱させて、謝った結果を出力させることを目的にしています。 Nightshade の論文の中身にも触れますが、実際に効果があるのか、使われるのかを中心に考察を書いていきます

もっとみる
Latent Consistency Models について

Latent Consistency Models について

 こんにちはこんばんは、teftef です。今回は爆速画像生成ができる Latent Consistency Models についてです。WebUI 拡張やお試しも載せておきます。
 拡散モデルの拡散過程は確率常微分方程式 (Probability Flow ODE) を解いて得ることができ、少ないステップによってその解軌道に沿ったサンプリングができるように学習します。これによって、Consisi

もっとみる
teftef
割引あり
超解像について (その1・SRCNN まで)

超解像について (その1・SRCNN まで)

 こんにちはこんばんは、teftef です。今回は画像を拡大縮小することに関してです。2 回に分けて書きます。これは前半で比較的よく知られていることが書かれています。(個人的に超解像に興味がわいたので1か月くらい文献追ってました)
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただけたら幸いです。また、この記事を作成す

もっとみる
お絵描きAIに使われるGANと拡散モデルについて初学者向けに解説してみた(その1 : オートエンコーダー編)

お絵描きAIに使われるGANと拡散モデルについて初学者向けに解説してみた(その1 : オートエンコーダー編)

 こんにちは、こんばんは teftef です。今回はいよいよ Diffusion Model についての記事です。Diffusion Model は NovelAI や Stable Diffudsion , Midjyouney にも使われている生成モデルの一つです。これまでは生成モデルの覇権をとっていた GAN について 3 記事ほど書いてきて、「 GAN ってすごいよ!」というのをさんざん言

もっとみる
AI を自分好みに調整できる、追加学習まとめ (その1 : 概要)

AI を自分好みに調整できる、追加学習まとめ (その1 : 概要)

 こんにちは、こんばんは teftef です。今回は最近流行りの「追加学習」について書いていこうと思います。今回の記事は追加学習の大まかな解説とどのような手法があるのかについてまとめていきます。私もまだつい最近まで初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただけたら幸いです。

モデルの作成

AI (人工知能) を作るため

もっとみる
AI を自分好みに調整できる、追加学習まとめ (番外編 : データセットの集め方について)

AI を自分好みに調整できる、追加学習まとめ (番外編 : データセットの集め方について)

 こんにちはこんばんは、teftef です。今回は主の追加学習用のデータセットの集め方と追加学習モデルを使えるようにした話について書いていきます。それでは行きます。

 『追加学習まとめ』の記事で書いたように追加学習をするために多くのデータを収集する必要があります。特にファインチューニング、転移学習、は多くのデータを必要とします。そのため学習元となる画像を大量に用意する必要があり、持っていないので

もっとみる
AI を自分好みに調整できる、追加学習まとめ ( その5: LoRA)

AI を自分好みに調整できる、追加学習まとめ ( その5: LoRA)

 こんにちはこんばんは、teftef です。今回も追加学習手法についてです。これまで説明してきた Diffusion Model のファインチューニングでは一般的に Unet , Text Transformer の再学習を行いました。しかし、全てのパラメーターを再学習するには時間がかかってしまいます。今回はファインチューニング後のモデルの品質を下げず、省時間、省メモリの手法を実現した軽量化手法、

もっとみる
teftef
割引あり
『FABRIC』 : フィードバックベース画像Editor

『FABRIC』 : フィードバックベース画像Editor

 こんにちはこんばんは、teftef です。今回はユーザーのお気に入り画像をフィードバックし、ファインチューン無しでその画像に寄った画像を生成してくれるツール「 FABRIC 」についてです。 FABRIC はユーザーのフィードバックを基に、LDMs にそのフィードバック情報を追加することでユーザーエクスペリエンスと出力品質を向上させています。
 私もまだ初学者であり、説明が間違っていたり勘違い

もっとみる
脳波 (EEG) から画像を生成する話

脳波 (EEG) から画像を生成する話

 こんにちはこんばんは、teftef です。しばらく大学が忙しくて,記事を休止していました。少し前に fMRI を用いて画像を生成する記事について書きました。今回は fMRI の代わりに EEG を入力として画像を生成する DreamDiffusion についてです。
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただ

もっとみる
teftef
割引あり
GlyphControl: 文字を描く ControlNet

GlyphControl: 文字を描く ControlNet

 こんにちはこんばんは、teftef です。今回は GlyphControl です。DeepFloyd IF は Imagen をベースにしたカスケード式モデルであり、Text Encoder に大規模自然言語モデル(LLM)に使われる T5 モデルを使用していて文字が出力できる Generative AI として大きな話題となりました。しかし T5 モデルは非常に大きなモデルでありパラメータ数が

もっとみる
自律型マインクラフター (Minecraft played by AI)

自律型マインクラフター (Minecraft played by AI)

 こんにちはこんばんは、teftef です。今回は AI がマインクラフト (Minecraft) をプレイするということに関してです。OpenAI が開発した Video PreTraining (VPT) 、強化学習を使用した MINEDOJO、GPT-4 を使用した Voyager という最新手法などを3つの異なるアプローチを紹介していきます。
 私もまだ初学者であり、説明が間違っていたり勘

もっとみる