見出し画像

画像生成AIの現時点での限界点?

こんにちは、焼き鳥ネコです。
今年はお正月気分にひたるには気もそぞろな年明けでしたが、みなさまいかがお過ごしでしょうか。

せっかくなのでお披露目ニャ


※今日は単なる素人考えの感想です。IT関連の知識は聞きかじり程度のズブの素人ですので、技術的な誤りなどあったらすみません。


さて、1ヶ月ほどAI画像生成をいろいろ試してみて、目標であった自分の好みのグラビアを作成するということも案外あっさり達成できてしまいました。
勢いついでにデジタル写真集の出版までしちゃいましたし。


焼き鳥ネコをはじめとしたテキトー画像のガチャは相変わらず面白いのですが、ガチで描きたいモチーフが最近ちょっとなくなってきています。

同時にAI画像生成の仕組み的に若干の頭打ちを感じています。
ガチで描きたいものほどうまく描けないというか。

というのも、AIって
描かれたものが何と呼ばれているか、は判るようなのですが
描かれたものの正体は何か、が判ってないのです。

単に「美女を描いてください」といっても、
「こういう感じにピクセルが並んだ画像を、人類は美女と呼んでるらしい」ということを学習して、それを再現しているにすぎません。

「美女」というものが
・人間と言う脊椎動物の♀
・一定のルールに基づき骨格の上に様々な組織がくっついている物体
・さらに、目鼻立ちが整っていて
・さらにその上に様々な衣服も着用していて… etc.

ということを認識しているわけではないということです。

これは、人間の知覚を超えた画像を生成するにはむしろ効果的ではあるのですが、一方で人体など一定のルールに基づいた画像が欲しい時には必ずしもうまく働くわけではありません。

特定のキャラクターや生成物を固定して再現できないのもこの辺りが理由なよう。
(LoRAがありますが、あれは付け足した学習データから再現しているだけみたいなので。)

ControlNet によるポージング指定のような、一応それを補うような機能はできてきたりはするのですがまだまだ不充分です。


最近にわかに盛り上がってきたAI動画生成も同様で、AIが描かれているものの仕組みまで理解しているわけではないので、生物や機械が伸び縮みしたり変形したり雲霧消散したりしてしまうのです。

なので、描画途中から何を描いているかの認識(描いたものがどういう仕組みを持った存在なのか)をしながらより精度を上げていくか、もしくは描画アルゴリズムを根本から転換するといったもう一段上のブレイクスルーが起きないと画像生成AIはどこかで頭打ちになる気がします。

って書きながら思ったのですが、表面的な見栄えだけ真似してデッサンができてないみたいな絵がうまくない人みたいなもんかなぁって気もしてきました。(AIはそれでも充分に激ウマですけどね)

それでもAI生成は可能性がいっぱい、あっという間に進化していくかもしれませんね。

進化した未来のサイボーグ焼き鳥ネコみたいに

ヤキトリクウンダニャ


※この記事の画像はBing AI(Microsoft Image Creator)で生成しました。


この記事が参加している募集

やってみた

AIとやってみた

餌をくれるニャ?AIのクレジットに回せたらと思いますニャ