見出し画像

Midjourneyで画像を作ったら常識が常識でないことに気づいた話【AI】

話題のMidjourneyで何か描かせてみたい!そこで、自分が所属しているコミュニティの1つを表現してみようと思い立ちました。私の中でのそのコミュニティのイメージは、「楽しく助け合いながらプログラミングを学んでいる」。

そこで、AIへの指示をこんな感じで書いてみました。↓

1作目

メモしておくのを忘れていたのですが、ざっくりとこんな感じで指示(日本語で書いてもいいのを知らなかったので、実際は英語で書きました)。

コンピュータを前にして座り、談笑し、助け合っている男女のグループの油絵。印象派スタイル

出てきた結果がこちら~!www

左上:え、、、ム、ムンク?
右上・左下:印象派っぽい光感は認めます。
でも分かりました。「印象派」キーワードを入れてしまうと、服装が時代錯誤になるのね。こういう余計なお遊びはしないが吉。

ということで

やりなおーし!

2作目

1作目の反省を踏まえ、印象派はやめて、よりリアルになりそうな指示文にしてみました↓。
後半のCrystal以降は、画像がキレイになりそうな文言を周りの方の指示文から拾ってきて貼っています。

Two men with glasses and a woman, smiling and sitting at a round table at their computers, Crystal, Realistic high details, 8K, Cinematic lighting—ar 16:9

結果はこちら!www

どこから来たのか、このカルト感!?w
フォース強すぎて、頭がまるっとライトセイバーになっている方もw
Cinematic lightingがいけなかった?!
それと、どこぞの国の指導者みたいにならないためには
年齢設定が必要だった?!

ということで

やりなおーし!

3作目

デフォルトだとCaucasianが出てくるのかな?ということで、
アジア系+年齢若め+Tシャツ姿という情報を追加。
(どさくさにまぎれて容姿も盛ってAIの反応をみるw
Cinematic lightingはボツ!

2 handsome young Asian men with glasses and a beautiful intelligent young Asian woman in casual T-shirts, seated at a round table at their computers, smiling and talking to each other, realistic, 4K

結果はこちら!笑

ん?なんだか、急にどアップになった?w
というか、コンピュータはいずこへ?www
うーむ、容姿の情報を付け加えた途端、この始末w
AIは人間のバイアスもそのまま忠実に「学習」するわけですが、
この画像には、人類の潜在意識/脳内地図がダダ洩れなのでしょうか?

ということで

やりなおーし!

4作目

もっとマジメな感じを出したい!
ということで、タイピングしていること、PCモニタが大きいこと、アップではなく遠景、の3情報を追加。

Two handsome young Asian men with glasses and a beautiful intelligent young Asian woman in casual T-shirts, seated at a round table, typing in front of their large computer displays, smiling and talking to each other, seen from afar, realistic, 4K

結果はこちら!

おぉ、少しそれっぽくなってきたでしょうか!?
(PCは相変わらず小さいにしても)

ここでコーヒーカップでもデスクに置いて、リラックスした雰囲気を出したくなったのですが、

5作目

うーん、コーヒー直列。。。何か違うw
coffee cupsと書いたのに、取っ手付きが一つもないのも、、、。
そしてパソコンはきれいさっぱりいなくなってしまうし、
どうしても遠景になってくれなーい!

ということで

やりなおーし!

6作目

ジーンズを履いているという情報も入れることで、遠景に持ち込む作戦。モニタのサイズも数値で明記しましたよ。これでいかに!?

Two handsome young Japanese men with glasses and a beautiful Japanese woman in T-shirts and jeans, smiling and sitting at a round table, typing at their keyboards, looking at their 23-inch computer displays, 4K, crystal

結果はこちら!

だいぶそれらしくなってきましたね!?
ただ、こうなってみると、みんなが深緑の謎空間にいるのが気になってきます、、、
できれば地球に降りてきてほしいw

ということで

やりなおーし!

7作目

人物が謎空間に浮かんでいるような印象を改善するため、コンピュータスクールという具体的な背景情報を追加。あと、お遊びで入れてた容姿は削除。更に、髪型や服装が時代がかってこないように、modernと主張もしてみます。

A photo of a young Japanese man and a young Japanese woman with glasses, smiling in their T-shirts, sitting at a modern computer school, typing at their keyboards, looking at their computer displays, 4K crystal

結果はこちら!

ふう。当初よりはだいぶ改善されたかな。

ということで

まとめ

楽しく助け合っているプログラミングコミュニティの図

Before

After

感想

いきなりのムンク化に始まり、爆笑の連続でしたが、振り返ってみると、自分のコミュニケーションの身勝手さに気づかされた20分でした。

たとえば、最初は、画像の人物がみなCaucasianになったり、19世紀ふうになったり、カルト本部になったり、ムンクふうの衣装になったりしてしまいましたが、それはAIのせいではなくて、日本人、現代、教室、Tシャツやジーンズ、といったことを一から説明する必要がある、ということにこちらが思い至っていなかったせいでした。

人種、時代、場所、服装といった自分の中の「デフォルト」「常識」が、他者にとってはそうではない。100人いれば、100通りの人生のデフォルトがある、、、そんなことに改めて気づかされた夏でした~。

Midjourney関連tips

  • cinematic lightingはカルト感が出がち(個人の印象です)

  • beautifulな男女が出てくると人物だけのどアップになりがち(個人の印象です)

  • 数詞は忠実には再現されない(2とかtwoとか書いても無視される)

  • 大小関係が苦手そう(PCモニタが大きくなってくれない。教師データが写真だと、被写体の距離によって大小関係が逆転するので、それをいくら学習しても、実物がどういう大小関係なのかは学習できないのかも?)

  • 指示文の細かいニュアンスは反映されない(今回の指示文は、なるべく前回を維持しつつ一部だけ変更して差分を見る実験も兼ねていたので、ちょいちょい変な英語になってるのですが、あまり影響なさそう=単語を並べただけの場合と文章にした場合とで大差なさそう)


この記事が気に入ったらサポートをしてみませんか?