マガジンのカバー画像

論文解説まとめ

30
論文解説まとめ
運営しているクリエイター

#画像

Latent Surfing(第3回 AI なんでもLT 会の振り返り)

Latent Surfing(第3回 AI なんでもLT 会の振り返り)

 こんにちはこんばんは、teftef です。2024 年 3月 10 日に開催された LT 会で話したことについてのまとめと振り返りです。「Latent Surfing 」という題目で、 GAN や Diffusion Models を用いたモーフィングについて話しました。その内容についてまとめます。

 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了

もっとみる
Nightshade の可能性と限界

Nightshade の可能性と限界

 こんにちはこんばんは、teftef です。今回は,敵対的サンプルとデータポイズニングについてです。主題として、 Nightshade について取り上げます。画像に対して摂動を加えることによって、機械 (識別器や特徴抽出器) を混乱させて、謝った結果を出力させることを目的にしています。 Nightshade の論文の中身にも触れますが、実際に効果があるのか、使われるのかを中心に考察を書いていきます

もっとみる
超解像について (その3・Real-ESRGAN)

超解像について (その3・Real-ESRGAN)

 こんにちはこんばんは、teftef です。超解像その 2 の続きです。CNN を使った超解像が主流となる中で、GAN を使った超解像によって画像の高周波成分の復元が高品質にできるようになり、画像がぼやけることがなくなりました。しかし、SRGAN も ESRGAN も学習に使ったデータセットの質の問題が考慮されていませんでした。今回は学習する画像の質にバリエーションを増やし、汎化性能を上げた Re

もっとみる
超解像について (その2・SRGAN と ESRGAN)

超解像について (その2・SRGAN と ESRGAN)

 こんにちはこんばんは、teftef です。超解像その1の続きです。前回は、画像を拡大するアルゴリズム手法から始まり、SRCNN といった機械学習手法を使って超解像をするところまで書きました。今回はさらに SRCNN を応用した SRGAN , ESRGAN , Real-ESRGAN について書いていきます。GAN の概要は飛ばすので、もし読みたい方がいればこちらをご覧ください。
 私もまだ初学

もっとみる
teftef
割引あり
超解像について (その1・SRCNN まで)

超解像について (その1・SRCNN まで)

 こんにちはこんばんは、teftef です。今回は画像を拡大縮小することに関してです。2 回に分けて書きます。これは前半で比較的よく知られていることが書かれています。(個人的に超解像に興味がわいたので1か月くらい文献追ってました)
 私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただけたら幸いです。また、この記事を作成す

もっとみる
teftef
割引あり
『FABRIC』 : フィードバックベース画像Editor

『FABRIC』 : フィードバックベース画像Editor

 こんにちはこんばんは、teftef です。今回はユーザーのお気に入り画像をフィードバックし、ファインチューン無しでその画像に寄った画像を生成してくれるツール「 FABRIC 」についてです。 FABRIC はユーザーのフィードバックを基に、LDMs にそのフィードバック情報を追加することでユーザーエクスペリエンスと出力品質を向上させています。
 私もまだ初学者であり、説明が間違っていたり勘違い

もっとみる
ComfyUI で動かす Stable Diffsion XL

ComfyUI で動かす Stable Diffsion XL

 こんにちはこんばんは、teftef です。今回は話題の Stable Diffusion XL についてです。と、言っても使い方の記事は調べればいくらでも出てくると思うので、主は依然として論文解説をします。使い方を見に来たという方々にとってはその目的にに沿わないと思うので、主が特に分かりやすいと思った記事を下に張っておきます。今回は SDXL が条件付けとして画像のサイズを使用していることについ

もっとみる
teftef
割引あり
GlyphControl: 文字を描く ControlNet

GlyphControl: 文字を描く ControlNet

 こんにちはこんばんは、teftef です。今回は GlyphControl です。DeepFloyd IF は Imagen をベースにしたカスケード式モデルであり、Text Encoder に大規模自然言語モデル(LLM)に使われる T5 モデルを使用していて文字が出力できる Generative AI として大きな話題となりました。しかし T5 モデルは非常に大きなモデルでありパラメータ数が

もっとみる
CyberAgent より、画像生成タスクにおける新たな評価指標の提案

CyberAgent より、画像生成タスクにおける新たな評価指標の提案

 こんにちはこんばんは、teftef です。今回は CyberAgent より、生成モデルから生成された画像の品質評価に関する論文です。近年の画像生 AI の発展によって、『高品質』な画像が生成できるようになりました。しかしよくよく考えてみると『高品質』というのは何でしょうか?人間の好みが違いをどのように評価するのでしょうか?今回はそこについて軽く書いていきます。
 私もまだ初学者であり、説明が間

もっとみる
お絵描きAIに使われるGANと拡散モデルについて初学者向けに解説してみた(その2 : 応用手法編)

お絵描きAIに使われるGANと拡散モデルについて初学者向けに解説してみた(その2 : 応用手法編)

 こんにちは、こんばんは teftef です。今回は Diffusion Model の応用手法について、書いていく記事です。前回の記事では Diffusion Model とGAN の比較について書きました。お互いが長所と短所を持ち合わせていて、今回の記事では、その復習から導入し、Diffusion Autoencoder という応用手法について書いていこうと思います。おそらく前回の記事を見て

もっとみる