マガジンのカバー画像

論文を読む

24
気になった論文などを読んでまとめ
運営しているクリエイター

#画像処理

Stable Diffusionモデルを応用した超解像技術 DiffBIRを試す

テキストから画像への生成モデルであるStable Diffusionの事前学習モデルを活用して、劣化画像のブラインド画像復元タスク(超解像タスク)を行うDiffBIRというフレームワークが提案されています。サンプルコートも公開されているので早速試してみました。 DiffBIRはBSR(Blind Image Super-Resolution ブラインド画像復元)、およびBFR(Blind Face Restoration 顔画像の復元)の先行研究と比較して優れた結果を示して

画像セグメンテーション技術 SEEMとは?~arxiv論文「Segment Everything Everywhere All at Once」を読む

上記論文で提案された、マルチモーダルな画像セグメンテーション技術である「SEEM」の概要をまとめてみました。数学的な定義などは専門家にお任せして図表メインで説明します。なお、デモは以下で公開されており、ソースコードも近日中に公開されるとのことです。楽しみですね。 実行サンプルまず、特徴的な実行サンプルの紹介から トラック形態のオプティマスプライム(映画トランスフォーマーに登場する主人公というか指揮官の機械生命体)のトラックヘッドの画像にざっくり印(黄緑の線)をつけておくと、