Image-to-Image Translation with Text Guidance

テキストガイダンスを用いた画像から画像への翻訳

著者: Bowen Li, et al. University of Oxford

Abstract
抄録


本論文の目的は、テキスト記述をImage-to-Image Translationに埋め込むことである。本研究では、以下の4つの要素を提案する:
(1) 重要度の低い単語をフィルタリングするためのpart-of-speech(POS) タグ付け
(2) ManiGAN を採用
(3) DiscriminatorとGeneratorの為の多層構造
(4) Discriminatorをさらに改良するための新しいstructure loss
COCOデータセットを用いた広範な実験により、我々の手法が視覚的リアリズムと与えられた記述との意味的整合性の両方において優れた性能を持つことが実証された。

1.Introduction
序章

条件付き画像合成は、scene graphsやsemantic layout、coarse layoutからの画像生成やtext-to-imageなど、制約条件に意味的にマッチしたリアルな画像を生成することを目的としており、デザイン、ビデオゲーム、アート、建築、画像編集など、多くの分野での応用が可能です。

この論文の目的は、segmentation masksからリアルな画像を生成することであり、また、生成画像の視覚属性(色、背景、テクスチャなど)を制御するために、制御可能な要素(=テキスト記述)を組み込むことです。現在のImage-to-Image TranslationのSotAモデルは、生成する画像を決定するために、ピクセルラベル付きの意味マップを細かく設定する必要があり、通常、合成画像の視覚属性を正確に予測することができませんでした。私たちのモデルは、与えられたマスク画像が単純なものであっても、自然言語記述の制御の下で、目的の画像を生成することができます。

そのためには、テキスト記述と画像に含まれる異なる視覚属性を完全に切り離し、semanticな単語とそれに対応する視覚属性との間に正確な相関関係を構築し、効果的な制御を実現することがカギとなります。また、より難易度の高いデータセットにおいて、説明文に則したリアルな画像をいかに効果的に生成するかは、データセットに含まれる各画像が、互いに複雑な関係を持つ複数のオブジェクトを有する場合に、対処すべき重要な課題です。

上記の課題を解決するために、私たちは、セグメンテーションマスクから現実的な画像を効果的に生成することができるRefinedGANを提案します。

最後に、COCOに対して、私たちの手法が効果的にリアルな画像を生成できること、また、自然言語記述を用いて合成画像の視覚属性を正確に制御できることを示す広範な分析を行います。データセット上での実験結果は、本手法が定性的にも定量的にも既存の手法を凌駕することを示しています。

2.Related Work
先行研究

Image-to-Image Translation / Text-to-Image Generation
/ Text-guided Image Manipulation / Multi-stage Architectures
俺↑これのがやりたいわ。

この記事が気に入ったらサポートをしてみませんか?