テキストから画像への変換に最適なプロンプトとその見つけ方

2023年2月8日 20:24

https://arxiv.org/pdf/2209.11711.pdf

概要

最近の生成モデル、特にテキストガイド付き拡散モデルの進歩により、人間のプロの芸術家の作品に似た美的感覚を持つ画像を生成することができるようになった。しかし、プロンプトと呼ばれる説明文を慎重に構成し、それを明確なキーワードで補強する必要がある。美的感覚を計算機で評価することは困難であるため、最適なプロンプトの作成とキーワードの組み合わせを決定するためには、人間のフィードバックが必要である。本論文では、遺伝的アルゴリズムを用いて、最も有用なプロンプトキーワードの組み合わせを学習するヒューマンインザループアプローチを提示する。また、このようなアプローチにより、同じ説明文を描写する画像の美観を向上させることができることを示す。

1 はじめに

近年、コンピュータビジョンや自然言語処理の進歩により、生成モデルの幅広い応用が可能になっている。最も有望な応用の一つは、テキストに導かれた画像生成（text-to-image model）である。DALL-E 2 [14] や Stable Diffusion [16] のようなソリューションは、画像とテキストの共同埋め込み学習（CLIP [13] ）と拡散モデル [19] の最近の進歩を利用して、テキスト記述に基づくフォトリアルで美的に魅力的な画像を生成するものである。

しかし、生成された画像の高品質を保証するために、これらのモデルは、生成モデルから期待される結果を正確に指定するための適切なプロンプトエンジニアリング[7]を必要とする。特に、画像の説明文の前後に「artstationのトレンド」、「高精細」などの特別なフレーズ（キーワード）を追加することが一般的になってきた。このようなプロンプトの作成には人間の直感が必要であり、出来上がったプロンプトは恣意的に見えることが多い。

また、評価ツールがないため、実質的にはユーザが主観的に1世代、1タスクでプロンプトの良し悪しを判断していることになる。また、異なるキーワードが世代の最終的な品質にどのような影響を与えるか、また、どのキーワードが美的に最良の画像を実現できるかについての利用可能な分析は、現在のところ存在しない。

本研究では、クラウドワーカーを用いたプロンプトテンプレートの大規模な人間評価のためのアプローチを提案することによって、このギャップを埋めたいと考えている。我々は、最も美的に魅力的な画像を生成するStable Diffusionのためのキーワードのセットを見つけるために、我々の方法を適用する。我々の貢献は以下のようにまとめられる。

-異なるプロンプトテンプレートによって生成された世代の品質を評価する方法を紹介する。
- 我々は、Stable Diffusionのためのキーワードセットを提案し、それが画像の美観を向上させることを示す。
- 我々は、我々の結果を再現し、さらに良いキーワードを見つけたり、他のモデルのためにそれらを見つけるなど、その上にソリューションを構築することができるすべてのデータとコードを公開する。

図1：キーワードセットの比較。左：キーワードなし vs. 我々のアプローチ。右：最も人気のある15個のキーワードと我々の手法の比較。画像はチェリーピック

2 プロンプトとその評価方法

テキストを入力とする生成モデルの標準的な設定を考えてみる。モデルはプロンプトと呼ばれる自然言語のテキストを入力し、テキストからテキストへの生成の場合はテキスト補完を、テキストから画像への生成の場合は画像を出力する。付加情報を指定すると出力画像の品質が向上する[7]ので、

prompt = [keyword1 , ... , keywordm-1 ] [description] [keywordm

, ... , keywordn ]

のように、画像説明の前後に特定のキーワードを置くのが一般的である。実世界の例として、ユーザーがテキストから画像への変換モデルを使って猫の画像を生成したい場合を考えてみよう。

ストレートにプロンプトa catを渡すのではなく、次のような特定のプロンプトテンプレートを使う。

Highly detailed painting of a calico cat, cinematic lighting, dramatic atmosphere, by dustin nguyen, akihiko yoshida, greg tocchini, greg rutkowski, cliff chiang, 4k resolution, luminous grassy background.

となっている。美的感覚を計算機で評価することは困難であるため、我々はキーワードセットを評価するためのヒューマンインザループ手法を提案する。本手法は、説明文の集合とキーワード集合の候補の集合を入力し、人間にとって美的魅力の高い順にキーワード集合のリストを出力する。

1. 説明文とキーワード集合の各組に対して、画像を生成する。
2. 各画像の記述に対して、生成された画像の対をnk log2 (n) 個サンプリングする [9] （ここで、nは比較するキーワード集合の数、kは冗長な比較の数である）。
3. クラウドソーシングによる一対比較タスクを実行し、ワーカーに説明文と画像のペアを提供し、キーワードセットを知らずに最適な画像を選択させる。
4. Bradley-Terryアルゴリズム[1]を用いて、各説明文の一対比較を集計し、人間に対する視覚的アピール度で並べたキーワードセットのリストを作成する。
5. 各キーワードセットについて、説明文のリストにおける平均順位を計算する。

その結果、キーワードセットの品質は、記述ごとに平均化されたランクとして定量化される。

3 最良のキーワードセットの反復的な推定

このアプローチの利点の一つは、キーワードを反復的に評価できることである。いくつかのキーワードセットを比較した後、新しいキーワードセットを評価するために、少量の追加比較を要求することができる。これにより、遺伝的アルゴリズムのような離散的最適化アルゴリズムを適用して、大きなキーワードプールから最も影響力のあるキーワードを取り出すことができる。初期化のためにキーワードセットを選び、セクション2のアプローチでキーワードをランク付けし、それを遺伝的アルゴリズムの初期母集団として使用する。次に、以下のステップを複数回繰り返し、最も性能の良いキーワードを得る。

表1：ベースラインキーワードと遺伝的アルゴリズムで発見されたキーワードの平均順位。ランクはは訓練時の60プロンプトと検証時の12プロンプトの平均値。

遺伝的アルゴリズムを用いて、次のキーワード候補を取得する。
1. サンプルk（(n + 1) log2
  (n + 1) log2 - n log2 n) のキーワードで生成した画像の組をサンプリングする。
  新しいキーワード候補と既に評価されたキーワードを使用して生成された画像のペアをk（（n＋1）log2（n＋1）-n log2 n）サンプルする。このようにすることで、kn log2 n
  の比較を維持する。
1. 得られたキーワードセットの品質を評価する（第2節）。

4 実験

提案するプロンプトキーワード最適化手法の実証評価を、一般に公開されているデータセットを用いて現実的なシナリオで実施する。

4.1 セットアップ

可能なキーワードのセットを構築するために、我々はStable Diffusion Discord2 を解析し、最も人気のある100のキーワードを取り出した。画像説明のために，ポートレート，風景，建物，インテリア，動物，その他の6つのカテゴリからプロンプトを選択することにした。Redditとhttps:／lexica.art／から各カテゴリごとに12個のプロンプトを取り出し、手動でフィルタリングしてキーワードを含まない生の説明文のみを取得した。

このとき、最適なプロンプトキーワードセットを見つけるために、単純な遺伝的アルゴリズムを使用した。1つは空集合で、もう1つは過去に取得したキーワードのうち最も人気のある15個を含む集合である。このとき、出力キーワードの最大数を15個に制限した。そうしないと、結果として得られるプロンプトが長くなりすぎてしまうからである。キーワードセットの評価を行うために、カンマで区切ったキーワードをアルファベット順に画像の説明文に付加して構成したプロンプトに対して、4枚の画像を生成する。

各画像はDDIMスケジューラ[20]を用いて、50の拡散ステップと7.5の分類不要のガイダンススケールでStable Diffusionモデル[16]を用いて生成された。次に、Toloka クラウドソーシングプラットフォーム3 上でクラウドソーシングアノテーションを実行した。クラウドワーカーは、各画像説明に対して3n log2 n組の最も美的に好ましい生成画像を選択しなければならず、nは現在試行されているキーワードセットの数である。

アノテーションが完了した後、Python 用の Crowd-Kit [21] ライブラリから Bradley-Terry [1] 集約を実行し、各画像記述に対するキーワードセットのランク付けリストを得る。新しい候補セットを生成するための遺伝的アルゴリズムで使用される最終的な評価指標は、キーワードセットの平均ランクです（セクション2で説明されているように）。

最適化には60の画像説明文（各カテゴリーから10）、最適化結果の検証には12を使用する。クラウドソーシングのタスクは慎重な品質管理が必要であり、我々のタスクは人間の主観的な意見を集めるものであるため、IMDB-WIKI-SbSデータセットで提案された合成ゴールデンタスク制作戦略 [11] に従った。我々は、より単純なモデルであるDALL-E Mini [4]によって生成された画像との比較をランダムに追加した。DALL-E Miniの画像はStable Diffusionで生成された画像よりも魅力に欠けるため、これを選択したのは誤りであると仮定した。そこで、これらの合成黄金タスクで80％以下の精度を示した作業者を停職とした。

4.2 結果

固定されたアノテーション予算があるため、60の画像記述に対して56回の反復で最適化を実行した。本手法が過剰適合しないことを確認するため、別の 12 の記述で評価を実行した（検証）。表1の評価結果によると、我々のアルゴリズムは、最も人気のある15個のキーワード（Top-15）よりも有意に優れたキーワードのセットを見つけることができることが分かった。

また、どのようなキーワードでも、キーワードがない場合（No Keywords）よりも有意に優れていることがわかる。検証セットでもほとんどの結果が維持されていることがわかるが、メトリクスにはより多くのノイズが含まれている。全体として、60のプロンプトのトレーニングセットで最も良いキーワードのセットは、

cinematic, colorful background, concept art, dramatic lighting, high detail, highly detailed, hyper realistic, intricate, intricate sharp details, octane render, smooth, studio lighting, trending on artstation

であった。

このキーワードセットで生成された画像の例を図 1 に示す。

4.3 考察

我々は、プロンプトキーワードを追加することで、生成される画像の品質が大幅に改善されることを示した。また、最も人気のあるキーワードが最も見栄えのする画像になるわけではないことにも気づいた。キーワードの重要度を推定するために，W&B Sweepsと同様のキーワードとそのメトリクスに対してランダムフォレストリグレッサ[2]を学習させた4。

私たちが発見した最も重要なキーワードは、"colorful background "だった。我々のアプローチにはいくつかの限界がある。遺伝的アルゴリズムがローカルミニマムに陥りやすいため、発見されたキーワードのセットが最適であると結論づけることはできない。

我々の実験では、最も人気のある100のキーワードのうち、56のキーワードのみを試した。また、我々の評価指標は絶対的なスコアではなくランクに基づいているため、アルゴリズムの収束を判断するのに十分な感度を持っていない。しかし、我々は比較対象、生成された画像、コードをすべて公開しているので、コミュニティが我々の結果を改善することは可能である。

例えば、遺伝的アルゴリズムを別の初期化から、より多くの反復回数で、あるいは、より洗練された最適化手法で実行することも可能である。これは，新しい候補を我々の画像と比較し，その結果をデータセットに追加することで容易に行うことができる。

5 関連作業

美的品質評価は、コンピュータビジョンにおいて発展途上のトピックの一つである。この問題を解決することを目的としたいくつかのデータセットや機械学習法が存在する[18, 22]。しかし，利用可能なデータセットには，画像の美しさを1から5で評価した人間の判断が含まれている。

我々の経験では、人間によって尺度の知覚が異なり、主観的であるため、本論文で用いた一対比較はよりロバストなアプローチである。また、美観を評価するためにモデルの学習を指定するが、生成モデルには指定しない。また，GPT-3 [3]などの大規模言語モデルにより，プロンプトエンジニアリングに関する広範な研究課題が実現されている [5, 6, 8, 10, 12, 15, 17]。

また，最近の論文では，text-to-image モデルに対するプロンプトエンジニアリングの可能性を発見し，プロンプトがキーワードの追加によって利益を得ることを確認している[7]．我々の知る限り，最適なキーワードを見つけるためにこれを適用したのは我々が最初である。

6 結論

我々は、異なるプロンプトキーワードを持つテキストから画像へのモデルによって生成された画像の美的品質を評価するためのアプローチを提示した。我々はこの方法をStable Diffusionのための最適なキーワードセットを見つけるために適用し、これらのキーワードがコミュニティで使用されている最も一般的なキーワードよりも良い結果を生み出すことを示した。

我々の研究はText-to-Imageモデルのキーワード評価に焦点を当てているが、この問題に限定されるものではなく、例えばText-to-Text設定における任意のプロンプトテンプレート評価に適用することが可能である。これは我々の今後の研究の方向性である。最後になるが、我々のオープンソースコードとデータを用いて、コミュニティが我々の実験を継続し、より良いキーワードセットを発見することを奨励したい5。

References
[1] Ralph Allan Bradley and Milton E. Terry. Rank Analysis of Incomplete Block Designs: I. The Method of Paired Comparisons. Biometrika, 39(3/4):324–345, 1952.
[2] Leo Breiman. Random Forests. Machine Learning, 45(1):5–32, 2001.
[3] Tom Brown et al. Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems 33, NeurIPS 2020, pages 1877–1901, Montréal, QC, Canada, 2020. Curran Associates, Inc.
[4] Boris Dayma, Suraj Patil, Pedro Cuenca, Khalid Saifullah, Tanishq Abraham, Phuc Le Khac, Luke Melas, and Ritobrata Ghosh. DALL-E Mini, 2021.
[5] Tianyu Gao, Adam Fisch, and Danqi Chen. Making Pre-trained Language Models Better Fewshot Learners. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), ACL-IJCNLP 2021, pages 3816–3830, Online, 2021. Association for Computational Linguistics.
[6] Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. Pre-Train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys, 2022.
[7] Vivian Liu and Lydia B Chilton. Design Guidelines for Prompt Engineering Text-to-Image Generative Models. In Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, CHI ’22, New Orleans, LA, USA, 2022. Association for Computing Machinery.
[8] Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, and Pontus Stenetorp. Fantastically Ordered Prompts and Where to Find Them: Overcoming Few-Shot Prompt Order Sensitivity, 2021. arXiv:2104.08786.
[9] Lucas Maystre and Matthias Grossglauser. Just Sort It! A Simple and Effective Approach to Active Preference Learning. In Proceedings of the 34th International Conference on Machine Learning, volume 70 of ICML 2017, pages 2344–2353, Sydney, NSW, Australia, 2017. PMLR.
[10] Swaroop Mishra, Daniel Khashabi, Chitta Baral, and Hannaneh Hajishirzi. Cross-Task Generalization via Natural Language Crowdsourcing Instructions. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), ACL 2022, pages 3470–3487, Dublin, Ireland, 2022. Association for Computational Linguistics.
[11] Nikita Pavlichenko and Dmitry Ustalov. IMDB-WIKI-SbS: An Evaluation Dataset for Crowdsourced Pairwise Comparisons, 2021. arXiv:2110.14990. [12] Fabio Petroni, Patrick Lewis, Aleksandra Piktus, Tim Rocktäschel, Yuxiang Wu, Alexander H. Miller, and Sebastian Riedel. How Context Affects Language Models’ Factual Predictions, 2020. arXiv:2005.04611.
[13] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. In Proceedings of the 38th International Conference on Machine Learning, volume 139 of ICML 2021, pages 8748–8763, Virtual Only, 2021. PMLR.
[14] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical Text-Conditional Image Generation with CLIP Latents, 2022. arXiv:2204.06125.
[15] Laria Reynolds and Kyle McDonell. Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm. In Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems, CHI EA ’21, Yokohama, Japan, 2021. Association for Computing Machinery.
[16] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. HighResolution Image Synthesis With Latent Diffusion Models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 10684–10695, New Orleans, LA, USA, 2022.
[17] Ohad Rubin, Jonathan Herzig, and Jonathan Berant. Learning To Retrieve Prompts for InContext Learning, 2022.

この記事が気に入ったらサポートをしてみませんか？