マガジンのカバー画像

週刊コンピュータービジョン

5
arxivのコンピュータービジョンを週刊でピックアップし、ご紹介します。
運営しているクリエイター

記事一覧

第4号「コンピュータビジョンの深層学習ベース化」

Control Color: Multimodal Diffusion-based Interactive Image Colorization 画像に色のヒントを与えて着色するための拡散モデルです。 どんなもの?: 高度に制御可能な対話式画像着色手法であり、無条件および条件付き画像着色を支援し、色溢れや不正確な着色を解決します。 先行研究と比べてどこがすごい?: 複数の条件(テキストプロンプト、ストローク、サンプル画像)を統一フレームワークで扱い、色溢れと不正確な着

特別号「構成画像検索(Composed Image Retrieval)」

はじめに: 構成画像検索とは構成画像検索とは、画像とクエリ(テキスト)を使って画像を検索することです。例えば、魚の画像と「折り紙」というワードで画像を検索すれば入力した魚に近い折り紙の画像を検索できます。 従来のよくある全部の画像の埋め込みベクトルを事前に計算しコサイン類似度で画像検索するというやり方だと、入力画像との類似画像しか検索できないという問題やクエリを追加して柔軟に検索することができないという問題に対処するのが構成画像検索ともいえるでしょう。 最近の構成画像検索

第3号「セマンティックセグメンテーションの高精度化」

Exploring Simple Open-Vocabulary Semantic Segmentationどんなものか: 「S-Seg」は、画像の各ピクセルに意味的なラベルを割り当てるためのモデルで、任意の開放型語彙テキストセットから学習します。このモデルは、手動でアノテートされたセグメンテーションマスクや大規模な事前トレーニングを必要としません。 先行研究と比べてどこがすごいか: 既存の手法では、画像レベルのモデルや手動でアノテートされたマスクに依存することが多いです

第2号「画像編集と動画生成」

Edit One for All: Interactive Batch Image Editingどんなもの 課題:今までの画像編集は一つの画像に対しての手法でした。例えばDragGANも一つの画像に対してです。このような手法を多くの画像に適用するにはどうすれば効率的かということについての課題をこの論文では議論しています。 先行研究と比べてどこがすごい? 新規性: 従来の研究が単一画像の編集に焦点を当てていたのに対し、この研究ではユーザーが指定した編集を一連のテスト画

第1号 「画像生成と3D物体生成」

はじめのご挨拶 コンピュータービジョンを中心に毎週、新しい研究をいくつかピックアップし紹介いたいます。arXivを中心に紹介する予定ですが、学会が開催されていればそちらから紹介することもあるかと思います。詳細についてはピックアップする記事は少なくとも5~8本は選びたいので、その量から全て把握するのは難しいため、概要を把握するのに論文一つにかける時間を多くは避けません。私はまだまだ精進する身にあるため、勉強の一つとしてこの週刊ポストをすることにしました。そのため正確性には欠け