マガジンのカバー画像

論文解説まとめ

30
論文解説まとめ
運営しているクリエイター

#AIとやってみた

Negative Prompt を入れるタイミングについて

Negative Prompt を入れるタイミングについて

 こんにちはこんばんは、teftef です。久しぶりに書きます。
今回は Negative Prompt が画像生成時に与える影響についてです。
簡単に内容だけネタバレすると、Diffuseion モデルの推論では Negative Prompt は 1 step 目からかけるより、 n >1 step 目からかけたほうがいいんでね。という趣旨です。
 私もまだ初学者であり、説明が間違っていたり勘

もっとみる
ポケモン対戦エージェント : POKE´LLMON

ポケモン対戦エージェント : POKE´LLMON

 こんにちはこんばんは、teftef です。今回は,ポケモンを LLM でプレイしてみたという論文です。ぱっと見た感じ見た感じよくある「エージェント」の論文ですが、ちょっと結果が面白かったので、メモ程度に書いていこうと思います。(主がポケモンをやっていたから気になるというのもあります。)
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひ

もっとみる
セグメンテーションを用いた被写体切り抜きとパーツ分け

セグメンテーションを用いた被写体切り抜きとパーツ分け

 こんにちはこんばんは、teftef です。今回は,セマンティックセグメンテーションを使って画像内の被写体抽出をただ試すだけという記事です。いくつかの論文と手法をベースにしていますが、詳しいことは書かない予定です。Google Cloab も配布しているのでぜひ最後まで見ていただけると幸いです。
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承くださ

もっとみる
Nightshade の可能性と限界

Nightshade の可能性と限界

 こんにちはこんばんは、teftef です。今回は,敵対的サンプルとデータポイズニングについてです。主題として、 Nightshade について取り上げます。画像に対して摂動を加えることによって、機械 (識別器や特徴抽出器) を混乱させて、謝った結果を出力させることを目的にしています。 Nightshade の論文の中身にも触れますが、実際に効果があるのか、使われるのかを中心に考察を書いていきます

もっとみる
Latent Consistency Models について

Latent Consistency Models について

 こんにちはこんばんは、teftef です。今回は爆速画像生成ができる Latent Consistency Models についてです。WebUI 拡張やお試しも載せておきます。
 拡散モデルの拡散過程は確率常微分方程式 (Probability Flow ODE) を解いて得ることができ、少ないステップによってその解軌道に沿ったサンプリングができるように学習します。これによって、Consisi

もっとみる
超解像について (その3・Real-ESRGAN)

超解像について (その3・Real-ESRGAN)

 こんにちはこんばんは、teftef です。超解像その 2 の続きです。CNN を使った超解像が主流となる中で、GAN を使った超解像によって画像の高周波成分の復元が高品質にできるようになり、画像がぼやけることがなくなりました。しかし、SRGAN も ESRGAN も学習に使ったデータセットの質の問題が考慮されていませんでした。今回は学習する画像の質にバリエーションを増やし、汎化性能を上げた Re

もっとみる
teftef
割引あり
超解像について (その1・SRCNN まで)

超解像について (その1・SRCNN まで)

 こんにちはこんばんは、teftef です。今回は画像を拡大縮小することに関してです。2 回に分けて書きます。これは前半で比較的よく知られていることが書かれています。(個人的に超解像に興味がわいたので1か月くらい文献追ってました)
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただけたら幸いです。また、この記事を作成す

もっとみる
teftef
割引あり
『FABRIC』 : フィードバックベース画像Editor

『FABRIC』 : フィードバックベース画像Editor

 こんにちはこんばんは、teftef です。今回はユーザーのお気に入り画像をフィードバックし、ファインチューン無しでその画像に寄った画像を生成してくれるツール「 FABRIC 」についてです。 FABRIC はユーザーのフィードバックを基に、LDMs にそのフィードバック情報を追加することでユーザーエクスペリエンスと出力品質を向上させています。
 私もまだ初学者であり、説明が間違っていたり勘違い

もっとみる
脳波 (EEG) から画像を生成する話

脳波 (EEG) から画像を生成する話

 こんにちはこんばんは、teftef です。しばらく大学が忙しくて,記事を休止していました。少し前に fMRI を用いて画像を生成する記事について書きました。今回は fMRI の代わりに EEG を入力として画像を生成する DreamDiffusion についてです。
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただ

もっとみる
自律型マインクラフター (Minecraft played by AI)

自律型マインクラフター (Minecraft played by AI)

 こんにちはこんばんは、teftef です。今回は AI がマインクラフト (Minecraft) をプレイするということに関してです。OpenAI が開発した Video PreTraining (VPT) 、強化学習を使用した MINEDOJO、GPT-4 を使用した Voyager という最新手法などを3つの異なるアプローチを紹介していきます。
 私もまだ初学者であり、説明が間違っていたり勘

もっとみる
AI の, AI による, AI のための Governance

AI の, AI による, AI のための Governance

 こんにちはこんばんは、teftef です。ここ最近の AI (Artificial Inteligence) は様々な形で私たちの身の回りのタスクを補うようになっています。しかし AI を受け入れ、共存していくという選択肢とともに AI に支配(統治)されることを恐れる声もあります。現在の AI にはどのような能力があり、人間とどのような関係性を気づいているのか、また、これから先私たちは AI

もっとみる
DeepFloyd IF : 自然言語モデルの知識を利用した画像生成モデル (Imagen)

DeepFloyd IF : 自然言語モデルの知識を利用した画像生成モデル (Imagen)

 こんにちはこんばんは、teftef です。2023 年 4 月 29 日に Stability AI に所属する開発チーム : DeepFloyd から Stable Diffusion とは異なる手法を使用した DeepFloyd IF が公開されました。このモデルは文字を破綻せずに生成できたり、高品質な画像を生成できるモデルとして注目を集めています。今回はこの DeepFloyd IF のベ

もっとみる
CLIP は赤い丸の意味を理解できるのか?新たな Prompt engineering の話

CLIP は赤い丸の意味を理解できるのか?新たな Prompt engineering の話

 こんにちはこんばんは、teftef です。私たち人間は、画像に赤い丸がついていると、無意識にその丸の中身が重要なものであると判断すると思います。果たしてそれは大規模視覚言語モデル (LLM) の CLIP も同じような挙動をするのでしょうか?
 今回は言語情報 (Prompt) の代わりに特定の視覚的情報を与えることでCLIPがその領域に注目できるかどうか、また視覚的情報が言語情報の代わりになる

もっとみる
CyberAgent より、画像生成タスクにおける新たな評価指標の提案

CyberAgent より、画像生成タスクにおける新たな評価指標の提案

 こんにちはこんばんは、teftef です。今回は CyberAgent より、生成モデルから生成された画像の品質評価に関する論文です。近年の画像生 AI の発展によって、『高品質』な画像が生成できるようになりました。しかしよくよく考えてみると『高品質』というのは何でしょうか?人間の好みが違いをどのように評価するのでしょうか?今回はそこについて軽く書いていきます。
 私もまだ初学者であり、説明が間

もっとみる