見出し画像

人工知能の人工生命的未来

こんにちは、トクイテンの森(@HirokiMori)です。前回の豊吉の記事にもあったように画像生成のAIが注目を集めています。今回はそのアンサーノートといった記事になります。

DALL-E2に書いてもらったミニトマト収穫ロボットの水彩画

概要

画像生成のための人工知能は「問題を解く」人工知能研究のマインドセットではなく、物事を定義して観察する人工生命的なマインドセットで解釈できる。自然言語による画像生成モデルを人工生命的に捉えるとフレーム問題や記号接地問題への自然な回答を得ることができる。

汎用人工知能(Artificial General Intelligence: AGI)と画像生成AI

汎用人工知能という言葉があります。特定の問題に特化した人工知能に対して、様々な問題を一つのモデルで解決してくれるような「人工知能」を開発しようという考え方で、一般の方が抱いている「知能」のイメージに近いものだと思います。しかし、実際の情報システムや知能システムといわれれるものは具体的な特定の問題を解いてくれるけれど、それ以外の問題には全く役にたないものになっています。

実際、役に立っている「人工知能」はあらゆることができるというより、特定の問題を人間が何らかの形で与えて、それが解くためのシステムになって、さらに複雑な問題のためにな複数の「特定問題人工知能」を組み合わせたり、人工知能的なものとは言えないシステムとの組み合わせで問題を解いています。

汎用人工知能の話題が盛り上がったのは2017年の前後で、確か早稲田の研究室で夏合宿に行った時にスペイン人留学生から汎用人工知能についてどう考えるかと質問されて、議論した記憶があります。目的を定めるから目的に沿った人工知能システムが作れると考えると矛盾した何かを想定しているように感じられて、これを研究している人たちは、どう定義しているのだろうと疑問に思ったりしていましたが、明確な定義はなかったようです。

それは人工知能の出自からして必然ではあるのですが、そこでヒントになるのが人工生命の研究かもしれないと感じています。

人工知能のフレーム問題と人工生命

人工知能とよく似た名前の分野で人工生命という研究分野がありますが、考え方は違っています。

2014年に、東京大学の人工生命研究者である池上高志さんの講演会に行った時に一番なるほどと思った発言がこれ。

フレーム問題というのは、人工知能の大問題と言われている問題です。簡単にいうとロボットが指示された仕事を遂行するために必要な情報が、ロボットが見ている範囲外(フレーム外)にありすぎるために、問題が解けなくなってしまうという状態のことです。この問題は、人工知能研究者だけでなく、哲学者も議論する問題です。

さて、このフレーム問題を「問題」とする根っこには何があるのでしょうか?私の考えでは、以下のようになります。

世界を神様として俯瞰して見て、その世界の中から問題を切り出して、「解く」ことを志向するのが人工知能的な世界観

世界を個体の視点から見て、個体間や個体と環境のやり取りから秩序や無秩序の変化を「見る」ことを志向するのが人工生命的世界観

つまり、人工知能的世界観では問題を「特定」して「解決」することが求められていると「研究者が感じている」ために、それが解決できなかったときに情報の不足が問題になるということになるのだと思います。
誤解のないように補足すると、この二つの領域に客観的な違いはなく、研究者自身のマインドセットが結果として成果の違いを産んでいるということになります。私が参加した研究会で「知能とは問題を解くことだ」と定義した研究者がいましたが、人工知能研究領域の「問題を解く」マインドセットで人工生命の研究を見ると意味がわからなくて発狂するかもしれません(冗談でなく)。人工生命研究は閉じた世界で完結した問題を解くのではなく、(人間の定義からは想像できない)開かれた世界の成り行きをみたいという指向性があるかもしれません。
最近見つけたビデオで人工生命の美しい実例を紹介したものがあったので、下に貼っておきます。

再生していただくとカラフルな粒々が飛び交って細胞のような物を形作ったり、移動して、他の粒々を食べてしまったりといったような振る舞いが観察されると思います。しかし、ここには4種類の粒子と同じ種類の粒子同士やそれぞれお互いの粒子同士で引き合ったり反発しあったりといった、単純なルールが存在しているだけで、「円を描こう」とか「移動するにはどうしたら良いか」などの問題を解いているわけではありません。
人工生命的な研究は、このような基本的な世界観をルールとして構築してシミュレーションを観察するという発想で興味深い振る舞いを生み出したり、実際の生命との類似を議論したりといった形で進んでいきます。

人工生命的世界観は世界に開かれていて問題を解くマインドセットがないために、世界を切り取る「フレーム」という概念を無効化しているといっても良いかもしれません。

ビッグデータとマルチモーダル教師なし学習

近年の人工知能は1980年代のブームと異なり機械学習が中心になっています。その多くは教師あり学習といって、神様の視点の教師が想定されていて、その理想的な出力に近づけるようにモデルに学習をさせるものです。教師あり学習の枠組みでも柔軟な情報処理を実現することは可能で十分に実用的ではあるのですが、この教師がある意味で世界の枠組みを決めているともいえます。つまり、人間の設計者が与えた枠組みを超えることはないということです。

これに対して、教師なし学習、中でも複数のモダリティ(感覚質)にまたがる形で「表現」を学習する枠組では、教師がありません。このために研究者や技術者のフィルタの入っていない大量のデータを使うことができ、「開かれた知能」の一端を実現することができるかもしれません。

現在の画像生成AIでは画像とそれを表現した文章・単語列をそれぞれ変換した結果が同じ空間の同じような位置に配置されるような学習を行います。Midjourneyや、DALL-E2、Stable Diffusionは拡散モデルと呼ばれる最近の生成モデルを採用していますが、基本的にそのような言語と画像の潜在的な共通空間を形作るような学習を同時に行っています。

しかも、ここで得られた内部表現を利用して、言語からの画像生成だけでなく、欠損画像の穴埋めやラフ画からの精緻画像の生成など異なるタスクにも適用されて活用の幅が広がっています。このようなモデルは「基盤モデル」と呼ばれていて、さまざまなタスクをゼロから学習するのではなく基盤モデルに指示を与える形でタスクを実行する考え方を具現化するものです。今後は、言語と画像だけでなく、音声やロボット動作なども取り込んだ学習が行われて、基盤モデルが構築されていくと考えられます。(自分でもやりたい)

人間のフィルタを与えずにとにかくデータを与えて学習を行い、現れた事象を観察して面白がる…人工生命的なマインドセットと感じて興味深いです。

DALL-E2に書いてもらったミニトマト収穫ロボットのイラスト

人工知能と記号接地問題(常識問題)

もう一つ興味深いと思うのは、いわゆるフレーム問題と同様に人工知能の記号設置問題です。記号設置問題はコンピュータのプログラミングの中にある「記号」(変数といっても良いかもしれない)と現実の事象の対応関係をとるのが意外に難しいという問題です。すでに対応が取れてしまっている場合には形式的な操作で問題を解いて、その結果を現実世界で解釈して活用できます。

言葉の意味は辞書に書いてあると思われるかもしれませんが、辞書の中の単語の「意味」を説明する文章で使われている単語の意味はどうでしょうか?さらに辞書の中に意味が書いてあります。最終的に辞書で定義されている意味は辞書で閉じていて、世界との対応を取っているのは、経験からくる読者の「常識」ということになります。

ロボットを研究・開発していると特にですが、ロボットの制御で必要な情報と人間が直感的に指示したい情報が(粒度を含めてい)一致しない問題が起こります。「コーヒーいれて」とロボットに指示しても、まずコーヒーが何かからロボットは認識しなければ行けないし、豆から入れるのか、インスタントコーヒーなのか、もしかして缶コーヒーで良いのか、コーヒー豆を何かの容器に入れるのか、液体を作ったとしてボウルに入れるのか、マグカップに入れるのか、…常識がないために答えが多すぎて決定不能になったりします。

最近話題の画像生成AIでは自然言語と画像を結びつけるマルチモーダル学習が行われ、言語入力から画像を生成します。その生成結果を見ていると、言語で指示しきれなかった要素はAIに備わった「常識」でとにかくそれらしい画像で埋め合わせているように見えます。モデルの中にランダム要素が入っていて、同じ言語入力でも、ランダム値に応じて異なる画像が生成されます(ランダム値が同じなら同じ出力になる)。言語と画像が結びつくことである種の「記号接地」が行われているようにも見えるのですが、さらに大量のデータ(Midjournyでは数億の画像と文の対があるといわれる)によって「常識」が身に付く。この常識が人間と同じ常識なのか、画像生成以外にも有用な「常識」なのか、常識の定義がしづらいことを考えると、問題を解く人工知能的マインドセットでは到達できない領域かもしれません。

私が研究室で進めている共同研究の一つには言語とロボット動作を結びつける研究があります [Toyoda et al. 2021]。このような研究もマルチモーダル表現の学習と言え、記号接地問題が自然に解消されるのではないかと期待しています。(ボトルネックはロボットの身体が千差万別であることと、データの収集が画像に比べて容易でないということもあります。どこかにブレークスルーがあるのでしょうか…。)

まとめ

この文章では、最近現れた画像生成AIが伝統的な80年代以前からの「問題を解く」人工知能の研究からは離れたものになっていて、人工生命的に解釈できることを指摘しました。また、人工生命的な世界観と言語と画像の結びつきを学習した人工知能ではフレーム問題や記号接地問題が自然に解消されるのではないかとの示唆を得ました。

画像生成は2014年にGANs(Generative Adversarial Networks)が提案されたことから盛り上がってきました。大量のデータと大規模なモデルによる表現力があれば、想像を超えたことができそうということは言われていたのですが、このようにデモンストレーションされると圧倒されます。汎用人工知能の定義云々と議論していたのが馬鹿馬鹿しくなってきますが、これで良いのだと思います。定義や原理から順に実現していく方向性と、実現してしまったものをいかに理解するかという方向性の両輪で科学技術は進んできました。人工知能も数年前から、「動いているのはわかるけれど、なぜ正しく(場合によっては思った以上に)動いているのか本当のところは分からない」という段階にあります。

今後は、このような大量データセットをどのように集めて、どのように逐次反映させていくかという研究が進んでいくでしょう。その時現れた人工知能が何を見せてくれるのかワクワクが止まりません。(僕も研究者として見せていきます。負けてられません。)

参考情報
フレーム問題 [人工知能学会]
Midjourney [公式]
StableDiffusion [公式]
Toyoda, Suzuki, Mori, Hayashi, and Ogata: Embodying pre-trained word embeddings through robot actions, IEEE Robotics and Automation Letters (RA-L), Volume 6, Issue 2, pp. 4225-4232, 2021.
Generative Adversarial Networkとは――トップ研究者が解説 [nvidia]

おまけ

twitterでの関連する発言をまとめてみました。

昔から同じことばかり考えてきたんだな…

池上高志さんとのやりとり

さーて、そんな結論出す人は誰なんでしょうね…

谷口忠大さんとのやりとり


この記事が気に入ったらサポートをしてみませんか?