ChatGPT画伯は賢いのか賢くないのか良く分からない
画像生成AIに筍を描いてもらうという試み。AIがどのように「筍」を解釈し視覚化したのか。この実験でAIの意外な一面が見えてくるかもしれません。
結果として出来たイラストについては先週投稿しています。なかなか興味深いものでした。ここで少し詳しく考察してみたいと思います。
要約
AIは、直接的に明示していない事柄についていろいろ推論してみようとするが、字面から来る先入観にも囚われてしまう。
ChatGPTは筍の本質を理解していないらしい。
ImageFXはChatGPTよりは筍を知っている様子である。
当面ChatGPTがメインツールなのは動かないが、ImageFXも使っていこう。
事の発端はこの投稿だった
筍。
なるほど筍か。
ChatGPT画伯にこのコンセプトを画像化してもらう
これを視覚化したら面白そうだと思い、ChatGPTを召喚しました。
より正確には、拙作のイメージ作成用GPTs「ブログアートジェネレーター」の利用を試みたわけです。
このGPTsは、数ワードの至極単純なテキストをプロンプトとして受け付け、それをテーマとした見出し画像向きのイメージを提供します。
今回のプロンプトは、「筍を過ぎた過去の人」です。
ChatGPT画伯は元発言の意図をきちんと忖度できた?
ブログアートジェネレーターは、しばしの黙考ののち、このような返答をよこしました。
「過去の栄光にしがみつく」。
おお、タケノコではなく、ちゃんと「筍」を「旬」と読み替えてくれている?
やるではないか、ChatGPT。
感心を返せ
しかし、続いて繰り出してきたのは、以下のような画像。
なるほど、確かに「過去の栄光にしがみついている」感を読み取れなくはありません。
しかし、ちょっと待ってほしい。それらは「タケ」だよね。「タケノコ」ではないよね。
他にも何枚か描いてもらいましたが、どれも同じような傾向。
そもそもChatGPTは「タケノコ」というものを理解しているんだろうか?
いや、理解してないっぽい
あらためてセッションをリスタートし、A close-up image of a bamboo shootを描けとChatGPTに要求した結果が、以下のイラストです。
ダメですやん。
これは少なくとも筍ではありませんね。
参考までに、Wikimedia Commonsに掲載されている「本物の」筍の画像はこちらです。
両者を比較すれば、違いは歴然としています。
どうもChatGPTは筍そのものを理解していません。上の画像は、「竹」と「(一般的な植物の)芽」という概念を適当に組み合わせた結果にすぎないように見えますよね。
ImageFXはいい線行ってるじゃないか!
では、イラストを描くのが得意とされるChatGPT以外のAIではどうなのか。
おお! 良いではないか、良いではないか!!
wikimedia commonsの写真にかなり近いものが出てきました。葉先の形状がやや気になりますが、まあ許容範囲でしょう。
AIは字面から来る先入観にも囚われてしまうようだ
興味深いのは、ChatGPTが《このテーマは「過去の栄光にしがみつく人」というニュアンスがある》と言及しているにもかかわらず、しっかりと「タケ」を素材とする画像を返してよこしたことです。
「筍」は本当は「旬」の意味であると読み取ったなら、このように竹林を背景にしたイラストを出してくる必然性はないはずなのです。今回のChatGPTのレスポンスはなかなか矛盾を孕んでいます。
ともあれ、AIに渡すプロンプトとして「裏の意味」があるような文を与えるのは、ミスマッチによる面白い効果を故意に狙うのでなければ、やはり控えなければなりませんね。
学習ソースに偏りがある?
タケは中国原産とされ、その生育域はアジア大陸と日本を含むアジア近隣の島々にほぼ限定されます。ヨーロッパやアメリカ大陸には自生していないのです。
タケを素材とした絵画などはそれなりに欧米でも知られているでしょう。アジアンテイストに興味を示す欧米人はそこそこいます。しかし、タケが「生えて」いるところを知っている人となると相当に絞られるでしょう。
日本だとちょっと田舎へ行けば道端に筍が生えている姿を目にすることはさほど珍しくはありません。食材としても一般的ですから、それらが加工されつつある光景も珍しくありません。当然ながら筍を写した写真やそれらに言及する文章もそれなりにあります。しかし、欧米では遥かに希少でしょう。
ImageFXは「いかにもその辺に居そうな日本人像を巧みに描いてくれる」ことで話題となっています。ImageFX(というかGoogle?)はChatGPTよりもワールドワイドなデータの収集と活用に成功しているということかもしれません。このワールドワイドには当然「日本的なもの」も含まれているというわけです。
今後AIイラスト生成に何を使うべきか?
結論としては、少なくとも私のようなライトユーザー(記事の添え物にするちょっとしたイラストが出来れば十分)には、やはりChatGPTが最も利便性が高いと考えます。
もちろん、StableDifffusionやMidnightJorneyがChatGPTの対抗馬として強力なのはわかっています。しかしこれらは本格的に使おうとなるとちょっと敷居が高すぎます。ライトユーザーには面倒すぎるのです。
それに、これらの出力にテイストの違いがあることはなんとなく分かるものの、具体的に「何が違う?」と問われたら、私のような人間には「なんとなく違う」以上の説明ができません。少なくともド素人を完全に煙に巻ける程度にはChatGPTのイラスト生成機能は高レベルであると言っていいのではないでしょうか。
ただし、今回、「和の物」を得たいならImageFXは有力な代替選択肢と考え得ることが確認できました。googleのアカウントさえ持っていれば簡単に使える点でもImageFXはポイントが高いです。
というわけで、私としては「イラスト作成用メインシステム」はChatGPT、「サブシステム」はImageFXという構成でしばらくやっていきたいと考えています。
おわりに
いつも同じことを書きますが、イラスト作成目的のAIの進化速度は途轍もなく早いです。つい2年前まで出来損ないの宇宙人のような人物像しか得られなくて、それでも大進化だと興奮していたのに。1か月後にはこの記事で書いたことがすっかり陳腐化している可能性もあります。頼もしくも悩ましい。これがAIイラストですね。