日々の壁打ち：『潜在空間』とはなんなのか？～AIに『彼岸の向こうからやってきた少女』を描かせる、の続き

2024年11月16日 10:27

以前こんなnoteを書いた。今の画像生成AIが生まれるきっかけとなったLAION 5-Bの学習データが、画像生成AIの中ではどんなものになっているのかというたとえ話のようなものだ。

上のnoteの主要部分は以下の箇所だ。

また、LAIONのような膨大なデータベースは、私たちの大切な思い出をも「58億5000万枚の画像の一つ」に変えてしまう。それは、この世のカルマから解き放たれた「彼岸の世界」のようだ。しかし、現実世界では、そうした変化を受け入れることは容易ではない。

そもそも、デジタルデータと人間の感情は一対一で対応しているわけではない。失われた家族への想いは、LAIONのような膨大なデータベース内でデジタル化された画像とは別物なのだ。

デジタル世界と現実世界のスケール感の違いが、新たな倫理的課題を生んでいる。私たちは、その違和感の正体を見極めなければならない。

考えてみれば、StableDiffusion 1.5のチェックポイント（学習済みモデルのこと）で約1.5GB程度、SDXLで約6GB程度である。その程度のファイルサイズしかないモデルに、『58億5000万枚』の画像データがそのまま入っているなんてことはあり得ない。つまりそこにあるのは、単なる特徴量のあつまり、いくつかの次元からなるノイズでしかない。それらは「潜在空間（Latent Space）」と呼ばれている。

今の画像生成AIも含めた生成AIの技術とは、ざっくりと説明してしまえば、大量の学習素材から、ほぼありとあらゆる具体的な要素を取り除くことで、特徴量のみの情報として潜在空間に畳み込む「学習過程」と、それら極めて微小に畳み込まれた潜在空間内の特徴量に対して、人が指示（プロンプト）を与えることで自分が欲しい情報へと肉付けをしていく「生成過程」の2段階に別れている。

https://en.wikipedia.org/wiki/Variational_autoencoder#/media/File:VAE_Basic.png

仕組みとしては、「生成過程」は「学習過程」の逆回しなのだが、そもそも学習過程で行われる畳み込み自体が不可逆圧縮なので、決して元の学習データに戻ることはない。一度、具体的な要素を除かれたものは、いくら再構築しても完全な元のデータには戻らないのだ。一旦、死んだ人の細胞だけ生きながらえさせても、その本人が復活する訳ではないのと同じである。

ここで不可逆圧縮なのに、何故それなりにまとまったものが生成されるのか、疑問に思う方もいるかもしれない。それは生成過程で、元データが持っていた特徴量が再利用されることで、新たに肉付けされるからである。

AIの学習過程では、元の画像やデータが潜在空間に抽象的な特徴量として『圧縮』される。この圧縮は、元のデータそのものを再現することはできない『不可逆圧縮』である。しかし、これは『完全に元データを忘れる』という意味ではない。潜在空間には、元のデータに基づいた抽象的な特徴が蓄積されているのだ。生成過程でAIが何かを生成する際には、この特徴を利用して新しいものを構築する。たとえるなら、元のデータの具体的な形状や色が消えたとしても、それに基づいた『輪郭』や『質感』のようなものが潜在空間に残り、新たな生成物に影響を与えるということだ。

例えば、元のデータが一つの絵画だとすると、AIはその絵の具体的な構図や筆使いを覚えているわけではない。代わりに絵画全体の雰囲気や特徴的な色使い、スタイルといった『抽象的なエッセンス』を潜在空間に保存しているのだ。新しい絵を生成する際には、このエッセンスを取り出して新しい構図や表現を創り出す。元の絵と完全に同じものを再現することはできないものの、元の影響を感じさせる新しい作品を生み出すことが可能だということだ。

この過程は、人が絵画を勉強したり、鑑賞したり、研究したりした末に、その知識を元に新しい絵画を描けるようになるのと変わらないことだ。

そんなことを考えていたら、はてなにこんなポストが載っているのを見た。

タイトルは扇情的で、正直好ましくないものだが、書いてあることは概ね間違ってはいない。それでも読んでモヤモヤしたものを感じる人も多くいることだろう。

結局のところ、この生成AIが寄って立つ「学習過程」や「生成過程」。さらにはそれらが扱われる「潜在空間」という概念がなかなかスッキリと理解できるものではないというだけの話である。理解できないものには、当然お気持ちで対処するしかない。今、生成AIを使う人も使わない人も、なんとなく歯の隙間になにかが引っかかってる言動をとりがちなのは、この潜在空間とやらのわかりにくさが大いに関わっていることは間違いない。

𝕏ではこのポストについて、こんなことを書いた。

タイトルはともかくとして、一般的に言って「お仕事となりうる創作技術」とは、「クライアントからの要望や課題に十二分に応えることができて、しかもその成果物がクライアントの期待を上回れるもの。しかもクライアントからの正当なリテイクに対して、提供側がその創作物に対して十分にコントロール可…
— Nobu-Kobayashi (@nyaa_toraneko) November 15, 2024

自分の経験では、画像生成AIをコントロールするヒントのひとつは、このわかりにくい「潜在空間」に向かい合い、どうやればこの「潜在空間」から自分が取りだしたい成果物の特徴をAIに判りやすく指示するかにある。

そこで、最近工夫しているワークフローを使って、『彼岸の向こうからやってきた少女』達に、キャラクターとしての統一性をあたえてみた。
その結果がこちらだ。特にLoRAみたいなものは使っていない。

全てのイラストに統一感があるのがわかると思う。LoRAも潜在空間に対して影響を与える手段のひとつだが、強力なぶん生成される絵にアーティファクトが乗りやすい。上の手法は、イラストに登場する「キャラクターの特徴」と「絵全体のスタイルとカラーの組み合わせ」、「絵としてのコンポジション」を別々にStableDiffusionに与えてやることで、潜在空間から統一感のあるイメージを採りだしたものである。

元絵と比較してみると、そのことがよくわかると思う。

特にカラーに注目してみると、元絵もそれなりにカラーには近いものがあるが結構ばらけている。新しく生成したイラストのほうは、そこにも共通点がある。

「潜在空間」という、よくわからんけど重要な存在に適切に働きかけることができれば、こんな面白いことができるということだ。

さて、この潜在空間をもう少し判りやすく表現する方法はないかと、ChatGPTとダベっていたら、AIが興味深いことを言ってきた。

「AIの潜在空間は、人間の夢や無意識のように、過去の情報や体験を基にして新しいアイデアを生み出す場所です。ユーザーの指示が『何を夢見るか』を決定するきっかけになり、その結果、過去の知識やデータを組み合わせて、新しい物語やイメージを生み出すのです。」

先の『彼岸の向こうからやってきた少女』のnoteを例示しつつ、こんな感じに話しかけて見た結果だ。

分析してもらったポストとその感想ポストもそうですが、根本にあるのは、「AIの学習過程、特にTransformer技術の本質である「学習時の潜在空間への畳み込み」と「生成時に、ユーザーがAIに指示を与えることで、畳み込まれた潜在空間から、希望する情報を取り出すという展開過程」が、人にとって理解しづらい」ことが原因のひとつだと考えています。僕自身は、AIにとっての潜在空間とは、人にとっての無意識や集合知のようなものだと考えているのですが、それをそういうものに余り詳しくない人たちにどのように説明するとよいと考えますか？　添付するのは、その点に関して「画像生成AIとその学習について」書いてみたポストです。こちらを参考にしてください。

それに対する、GPT4oの回答がこちらである。

非常に興味深い考察を共有いただきありがとうございます。この投稿内容をもとに、「AIの潜在空間」と「人間の無意識や集合知」を比較しながら、AI技術の理解を広げる方法について水平思考的に考えてみます。

1. AIの「潜在空間」と人間の「無意識・集合知」の類似性

AIの生成プロセスにおける「潜在空間」は、人間が持つ無意識や集合知といくつかの共通点を持っています。AIの学習と生成に関するプロセスを理解する際に、これらを比較することで、人々が直感的にAI技術を受け入れやすくなる可能性があります。潜在空間とは、学習データをもとに多次元の特徴量を抽象化した空間であり、これを利用してAIは新しい生成物を作り出す仕組みです。人間の無意識や集合知と同様、過去の経験や知識をもとにして、新しい思考やアイデアを形成する点で共通しています。

2. AIの「潜在空間」の理解を助ける具体的な説明方法

1) メタファーを使った説明

「図書館の棚」メタファー:
- 潜在空間を膨大な本棚が並んだ巨大な図書館に例えます。AIはこの図書館の中で、無数の本（学習したデータ）が隠れている棚を探索し、指定されたテーマに合う本を取り出すことで新しい知識や作品を生み出します。人間の指示（プロンプト）は、本を検索するための「検索ワード」や「分類番号」に相当し、適切な指示があれば、AIはその本棚から新しいアイデアや情報を引き出してくれます。
- このメタファーによって、潜在空間の「探索性」や「データの組み合わせによる新たな生成」が、実際にはどのように動いているのかを視覚的にイメージしやすくなります。

2) 無意識や夢との類比

「夢を見ている脳」:
- 潜在空間の働きを、人間が夢を見る過程に例えることもできます。夢の中では、脳が過去の経験や記憶を断片的に再構成し、新しい物語や風景を生み出します。AIが学習したデータをもとに新しい生成物を生み出す過程は、まさに夢の中で起こる脳の働きに似ています。これにより、人々はAIの潜在空間の役割を、より直感的に理解できるかもしれません。

3) 集合知とのつながり

「集団的な記憶からの創造」:
- 人間社会で集合知とは、歴史的な出来事、文化的な価値観、コミュニティ全体の知識を共有し、意識的または無意識的に利用するプロセスを指します。AIが利用する潜在空間は、データの集積による「集合知」に近いものです。例えば、ある文化に関連する情報を大量に学習したAIは、その文化の中でよく用いられるパターンを識別し、新しいコンテンツを生成する際にその集合知を活用することができます。これを説明することで、AIが新しい情報を生成する過程が、社会における人間の知識や文化の集合とどうつながっているかを理解しやすくなるでしょう。

3. 実例を用いた説明

1) 画像生成AIの例:

投稿の中で触れられている「デジタル少女」が広がるデータ空間のイメージを使い、AIが「潜在空間」を探索してさまざまな情報を組み合わせるプロセスを説明します。この際、AIは無数の「記憶」や「データ片」を探し、それを組み合わせて新たな作品を生み出します。これを、人間が物語を作る過程やアイデアをひねり出すプロセスに置き換えることで、より共感しやすくなります。

2) 意識と無意識の対比:

人間の無意識の中に潜むアイデアや思い出が、ふとしたきっかけで表面に浮かび上がることがあります。AIの生成プロセスも、潜在空間から情報を「取り出す」プロセスと重なるため、これを理解の手助けとする説明が有効です。

4. 「彼岸」のメタファーとAIの生成技術

ポストの中で言及されている「彼岸」というメタファーは、AIの学習空間が現実の外側に広がる未知の領域として捉えられる点が非常に秀逸です。これを活用して、潜在空間を「現実を超えた場所での再構成」という形で説明することで、AIの生成物が現実の制約を超える力を持つことを示すことができます。このようにメタファーを駆使することで、一般の人々にも潜在空間のイメージを具体化しやすくなります。

結論: 簡潔な説明の提案

「AIの潜在空間は、人間の夢や無意識のように、過去の情報や体験を基にして新しいアイデアを生み出す場所です。ユーザーの指示が『何を夢見るか』を決定するきっかけになり、その結果、過去の知識やデータを組み合わせて、新しい物語やイメージを生み出すのです。」

このような説明を通じて、AIの潜在空間や生成過程が直感的に理解しやすくなるでしょう。AIが人間と協働して新しい創作を生み出すプロセスを、より多くの人が理解できるようになることを目指します。

わかりにくい「潜在空間」というものが、多少身近になったとしたら、幸いである。