（備忘録）生成AIの仕組み（推測）

2023年5月10日 21:05

わかりやすいので何度でも貼ります。良ければお時間のある方、再生してみてください。1:20～の左右の図とグラフの動き方を見れば直観的に画像生成AIの仕組みが伝わるかなと。

なんか申し訳ないんすけど、そもそもまともに物体認識できてないものがデッサン崩れずにみれる絵っぽいのが出てる時点で学習元画像のポイントによせた過学習に決まってるじゃんっていう直感があったんですが、あんまりそれをいっても信じてもらえないんだよなーと
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

グラフィック分野もやりつつ数学を使ったモデル研究をしてた身としては当たり前じゃんという自明なことだったんだけど、この直感がはたらく人がほとんどいなかったんだよなー
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

物の構造をよく理解している人間ですら絵の描き始めは主観と思い込みによりバランスがぐちゃぐちゃになって「デッサンが下手ｗ」って状態になるのに、そもそも物体そのものの構造を認識どころか認知すらしていない機構がどうやってデッサンの崩れてない画像をだすんだ……パクりしかないだろ
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

こちらリンク先の動画に仕組みがあります。見てみて下さいhttps://t.co/9qHpBZUzh6
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

まさにスライダーで調節するキャラクリのイメージですねー。
そして、おっしゃる通りの理屈で「人間の審美眼に叶うもの」は元の絵に似ているはず、という推定を自分はしていました。
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

ですねー
さっきのyoutubeの動画で、スライダーの中間の部分の画像を人間の顔等でイメージして「美しく感じるだろうか？」と考えてみるとピンとくるはずです
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

研究とかでも最初に直観で「たぶんこうなってる」ってアタリ（仮説）つけてから、あとからそこを数学とか実験とかシミュレーションを用いたモデル研究とかで実証していくんだよな……その最初の「たぶんこうなってる」っていうアタリをつけられる人があまりにも少なかった
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

例えばあるイラストレーターで虫が嫌いでふだん昆虫類を極力避けるように生きている人がいて、その人に「海の図鑑に掲載するようのダイオウグソクムシのイラストレーションを描いてください」っていう依頼があったとします。愛好家に納得してもらえる違和感のない絵にするにはトレパクしかないよね。
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

ダイオウグソクムシの構造を観察するのが苦手、そして構造はよくわからないまま、専門家の目を楽しませなければいけない。その場合、現実的に取りうる手段は剽窃しかないのでは？
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

ここで紹介されているように、潜在空間（点の分布しているグラフ）のある点を指定して、そこからいろんな情報を混ぜ合わせてた像を生成することは可能だけれども、じゃあその「情報を混ぜ合わせて生成された画像」自体が人の目に美しいと認識されるかはまた別問題なんですよね https://t.co/NIGeB2klhG
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

適当に点を拾ってくると「なんか違和感のあるぐちゃっとしたみたことのない画像」になる
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

人間の厳しい審美眼のお眼鏡に叶っているということは、かなり恣意的に選ばれた=元の画像をかなり反映させたものになっているはず
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

という直観（直感）が働きました。
— 紫苑くん@ILE (@KakuregaI) April 29, 2023

この記事が気に入ったらサポートをしてみませんか？