【ChatGPT】GPT4vとDALL·E 3でimg2imgっぽい事をやってみる

AI情報発信@Shinano Matsumoto

2023年10月12日 17:39

手順

至って簡単。

写真をGPT4vに画像分析させる

DALL.E-3（文章から画像を生成する。プロンプトに忠実なモデルである。）用のプロンプトを私の撮影した写真をベースに考えてください。

私

プロンプト:
「古びたレンガ造りの鉄道高架下にある小さな商店街。路地には雨が降り、濡れたアスファルトが道を覆っている。店の前には自転車が停められ、遠くには歩行者が傘をさして歩いている。右側にはモダンな建物が見え、左側にはエアコンの外部ユニットと古びた看板が掛かっている。」

このプロンプトをDALL.E-3に入力することで、あなたの撮影した写真を基にした画像を生成することができます。

GPT4v

DALL·E 3にプロンプトを入れる

ChatGPT DALL·E 3はユーザーが打ち込んだプロンプトを独自に解釈して英語プロンプトで処理される。今回で言えば下記のプロンプトに変換された。

Photo-style image of a quaint shopping street located under an old brick railway overpass. The alleyway is wet from rain, with the glistening asphalt covering the path. Bicycles are parked in front of the shops, and in the distance, pedestrians walk with umbrellas. To the right, a modern building is visible, while the left side features an external air conditioning unit and aged signboards.

プロンプト変換後

画風を変えてみる

ChatGPTの場合、DALL.E-3でも会話が続くので、「今の絵をパステル画風にして」とかでOK牧場。

私の写真の雰囲気を維持したまま絵にすることができた。プロンプトから絵を書くので写真の構図そのままとはいかない。

絵でもやってみる

DALL.E-3（文章から画像を生成する。プロンプトに忠実なモデルである。）用のプロンプトを私の絵をベースに考えてください。青線は富士山。ピンク線は桜と花びら。黒線は侍。緑線は田園。

私

プロンプト:
"富士山の背景に、桜の花と花びらが舞う風景。前景には侍が立ち、その背後には緑豊かな田園が広がる。"
このプロンプトを使用してDALL.E-3に画像を生成させると、あなたの絵に基づいた美しい風景画像が生成されるでしょう。

GPT4v

やはり元の絵がより細かい方がいいようだ。Stable Diffusionのimg2imgのようにはいかない。

余談

BingのDALL·E 3だと頻繁にプロンプトが不適切（性的とか暴力的とか）で弾かれます。上の富士山の絵もBingでは受け付けてもらえませんでした。どの単語がNGなのか全く不明ですが。

この記事が気に入ったらサポートをしてみませんか？