見出し画像

画像生成AIのプロンプト入力をテキスト生成AIにアシストさせてみた。

テキストチャットでURLを入力したい。DALL-Eの入力プロンプトを簡単したい。と、ほしい機能を実装していたら面白いことができた。

上記の記事では単純に一からプロンプトを考えるよりは、コンテキストでStable Diffusion 3用のプロンプトを作成する役割を与えることで、平易な言葉でStable Diffusion 3が読み込みやすい英文プロンプトが生成できたので、そのテキストを利用して画像を生成する仕組みにした。

また、KingjoeBotではChat AIをクラス化していてチャット中のコマンドで切り替えられる。画像生成AIもテキスト生成AIも同じAIとして並列に考えてたけれど、画像生成AI(DALL-E3、Stable Diffusion 3)のアシストとしてテキスト生成AI(GPT4、Gemini 1.5 pro、Claude3、Bison、Llama3、Gemma、Mixtral、DeepL)を使うと考えると2 x 8 = 18パタンで楽しめる(のか?)

また、全部ではないけれどマルチモーダルが可能なGPT4、Gemini、ClaudeではURLから情報を持ってきて、テキスト生成AIの入力に使えるようにしたので、それらしい情報を大量に投入できるようになってしまった。
URLから持ってくる情報に画像も含まれるので、より具体的な表現が可能になる。(かな?)

wikipediaのテキスト情報を付加して画像を生成

Visualize a female cyborg character in a futuristic setting, with her design inspired by characters from popular cyberpunk culture. This character is highly skilled in hacking and combat, with a body largely composed of cybernetic enhancements apart from her brain and spine. She's dressed in a tactical outfit engineered with optical camouflage capabilities, posed against the backdrop of a cyberpunk city at night. The urban landscape is lit by fluorescent, neon lights and digital billboards, reflecting her role as a law enforcement officer in charge of a specialized operations team. Her eyes shine with a distinctive red glow, a telltale sign of her cybernetic origins.

GPT4の生成したプロンプト
画像も入力したら皮膚が描かれるようになった

Imagine a femine character inspired by the cyberpunk aesthetic. She possesses a sleek, futuristic appearance and exudes a strong, confident posture. This character is standing in a dark, neon-lit urban environment, cradling a high-tech firearm in her hands. Her attire is tactical and form-fitting, indicating her role as a skilled operative in a dystopian society. Her expression is that of focus and determination, with subtle enhancements visible on her face and body. These enhancements evoke the idea of a hybrid, half-human, and half-cybernetic, embodying the fusion of humanity with technology.

GPT4の生成したプロンプト

会話履歴機能もあるため前回生成したプロンプトも入力として加えられるため、少しずつ改善させることができるようになったかな。そういえば、GPTとGeminiとClaudeはマルチモーダル入力が可能だった!
ということは画像を参考にプロンプトも作れる?
(上記で気付け!って後に反省)
ということで試してみた。

以前生成した画像をもとに生成を指示
元画像のイメージから”リアルな写真”を生成

うん、なぜかお部屋まで付いてきましたがまずまずでしょう。

この記事が気に入ったらサポートをしてみませんか?