論文解説まとめ

2023年4月29日 23:45

DeepFloyd IF : 自然言語モデルの知識を利用した画像生成モデル (Imagen)

　こんにちはこんばんは、teftef です。2023 年 4 月 29 日に Stability AI に所属する開発チーム : DeepFloyd から Stable Diffusion とは異なる手法を使用した DeepFloyd IF が公開されました。このモデルは文字を破綻せずに生成できたり、高品質な画像を生成できるモデルとして注目を集めています。今回はこの DeepFloyd IF のベ

もっとみる

teftef

2023年4月25日 21:55

CLIP は赤い丸の意味を理解できるのか？新たな Prompt engineering の話

　こんにちはこんばんは、teftef です。私たち人間は、画像に赤い丸がついていると、無意識にその丸の中身が重要なものであると判断すると思います。果たしてそれは大規模視覚言語モデル (LLM) の CLIP も同じような挙動をするのでしょうか？
　今回は言語情報 (Prompt) の代わりに特定の視覚的情報を与えることでCLIPがその領域に注目できるかどうか、また視覚的情報が言語情報の代わりになる

もっとみる

teftef

2023年4月16日 19:41

CyberAgent より、画像生成タスクにおける新たな評価指標の提案

　こんにちはこんばんは、teftef です。今回は CyberAgent より、生成モデルから生成された画像の品質評価に関する論文です。近年の画像生 AI の発展によって、『高品質』な画像が生成できるようになりました。しかしよくよく考えてみると『高品質』というのは何でしょうか？人間の好みが違いをどのように評価するのでしょうか？今回はそこについて軽く書いていきます。
　私もまだ初学者であり、説明が間

もっとみる

teftef

2023年4月12日 01:49

エージェント論文：Chat GPTによる人間社会のシミュラクラ

　こんにちはこんばんは、teftef です。今回はシミュレーションゲーム「ザ・シムズ」にインスパイアされた、スタンフォード大学と Google の共同研究である「エージェント論文」です。ChatGPT を用いた 25 人の AI エージェントを実際に 2 日間動かし、どのようになったかを調べました。町の様子や家具の動作、人間関係など設定がかなり凝っていて、実世界にかなり近い結果となっています。
　

もっとみる

teftef

2023年4月4日 02:25

fMRI から画像を生成する話

　こんにちはこんばんは、teftef です。今回は大阪大学から出た fMRI 画像から Stable Diffusion を用いて画像生成する論文をベースに Brain 2 Image について書いていこうと思います。
　私もまだ初学者であり、説明が間違っていたり勘違いがある可能性が 0 ではないということをご了承ください。ぜひコメントなどをいただけたら幸いです。また、この記事を作成するにあたり、

もっとみる

フォローしませんか？

2023年4月の記事一覧

DeepFloyd IF : 自然言語モデルの知識を利用した画像生成モデル (Imagen)

CLIP は赤い丸の意味を理解できるのか？新たな Prompt engineering の話

CyberAgent より、画像生成タスクにおける新たな評価指標の提案

エージェント論文：Chat GPTによる人間社会のシミュラクラ

fMRI から画像を生成する話