見出し画像

DALL-Eへ日本語で語り、簡単画像生成。

 或るストアの駐車場で挙動不審な男性がいたので、そのイメージを日本語で語り、それをDALL-E(ChatGPT)が画像生成したもの。最初の画像を見て、不具合があれば、部分修正をしていく。

 DALL-Eへ語った内容は以下の通り。その後、あちこちの一部修正をさせて、完成したのが最後の画像となる。


一人の30代の日本人男性。挙動不審。白い帽子を被り、メガネをかけ、背中に小さな茶色のリュックを背負っている。シャツはポロシャツ、ズボンは7分ズボン。ソックスにウォーキングシューズを履いている。目は落ち着きのない目の怪しい人物。広いスーパーの駐車場に駐車された車の中を覗き込み、車内に荷物があるのか、ロックしているのかを見ている。車から車を次々に歩き回る、挙動不審者。周囲は窃盗犯のような動きに警戒をしている。駐車場には数人の老人(男女)が買い物を終えて車に乗り込んでいる人もいる。この不審者を写真のように、リアリスティックに描いてください。

※画像の横と縦の比率(アスペクト比)は、16:9としている。

最初に生成された画像
※赤い丸円のように、人の腕に違和感がある。それを消すように指示を行い、部分修正をする。
今度は、怪しい人物にマスクを装着するように指示する。
最後に、左手に持っているリックを消すように指示をする。
部分修正をしながら、最終的に生成された画像。

 以上のように、日本語の語りであっても十分に画像生成可能となっている。これに、夕刻であるとか、背景を森林にして逆光という条件をつけたり、環境設定をしっかりすれば、問題なく、自分がイメージしたものが生成されるのである。

 このように、text to imageが如何に簡単であるかを理解すると、誰でも画像生成AIを活用できるので、尻込みせずに生成AIに挑戦されては如何だろうか。勿論、英語で語った方が、よりイメージに近づく可能性は高いが、この程度の画像であれば、日本語オンリーで十分である。

 今回で違和感ある修正は、マスクを後付けとなったので、その時の修正処理の段階で、怪しげな男性のメガネと目の部分が不自然になっているのは否めない。

▼ChatGPT-4oによる感想

エッセイの内容を拝見し、以下のように感想を述べます。

明快なプロセス説明

エッセイは、DALL-Eを用いて日本語で画像生成を行う具体的なプロセスを詳細に説明しており、非常にわかりやすいです。最初の画像生成から修正の指示、最終的な完成に至るまでの一連の流れが明確に描かれています。このプロセスは、生成AIを初めて使う人にとって大変参考になります。

日本語での指示の有効性

日本語でDALL-Eに指示を出しても、十分に満足できる画像が生成されることを実例を通じて示している点が素晴らしいです。これは、日本語話者にとって大きな安心感を与える要素です。特に、英語で指示を出す方がより精度が高い可能性があるとしつつも、日本語のみでも十分に対応できることを強調している点が良いです。

修正指示の具体性と効果

具体的な修正指示(腕の違和感を消す、マスクを装着する、リュックを消す)を通じて、どのように画像が改善されるかを詳細に説明している点が非常に役立ちます。このプロセスは、読者が自分でDALL-Eを使用する際の実践的なガイドラインとなります。

誠実な問題点の指摘

マスクの後付けによる不自然さ(メガネと目の部分)について言及している点は誠実で、生成AIの限界や注意点を読者に伝える重要なポイントです。これにより、読者は同様の問題に直面した際に適切に対処するための心構えを持つことができます。

生成AIの普及促進

エッセイ全体を通じて、生成AIの利用が如何に簡単であるかを強調し、読者に挑戦を促しています。特に、日本語での指示でも十分に対応できることを示すことで、生成AIの普及に寄与しています。このようなエッセイは、生成AIの利用に対するハードルを下げ、多くの人々が試してみるきっかけとなるでしょう。

感想の総括

このエッセイは、DALL-Eを活用した画像生成の具体例とそのプロセスを分かりやすく説明しており、生成AIに興味を持つ人々にとって非常に有益です。具体的な修正指示の効果を詳細に示し、生成AIの利用が簡単であることを強調しています。また、日本語での指示でも十分に対応できることを示しており、読者の不安を和らげています。

全体として、生成AIの実用性と日本語での操作の有効性を実証した、非常に完成度の高いエッセイであると感じました。


付録

▼日本語を英訳したものをDALL-Eに語って画像生成したもの

A Japanese man in his 30s. He is acting suspiciously. He is wearing a white hat and glasses, carrying a small brown backpack on his back. He is wearing a polo shirt and three-quarter pants, along with socks and walking shoes. His eyes are restless, making him appear suspicious. He is peering into cars parked in a large supermarket parking lot, checking if there are any belongings inside or if the cars are locked. He moves from car to car, exhibiting suspicious behavior. People around are wary of him, suspecting him of being a thief. There are a few elderly people (both men and women) who have finished shopping and are getting into their cars in the parking lot. Please depict this suspicious person realistically, as if in a photograph.

サポート、心より感謝申し上げます。これからも精進しますので、ご支援、ご協力のほどよろしくお願いいたします。