見出し画像

AGIまでの道のりはまだまだ長い

最近「やったぜこれでAGIだ」という言説を国内外でよく見かけるので私見を述べておく

AGIとは、人工一般知能(Artificial General Intelligence)で、要は人間と同等の思考能力を持つ人工知能のこと。汎用人工知能とも言う。

この先にはASI、つまり人工超知能(Artificial Super Intelligence)がある。ASIの成立がいわゆる「シンギュラリティ」の到達条件と考えられていて、世の中は「シンギュラリティ」の実現を目指す、碇ゲンドウのようなヤバい連中で溢れている。

AGIが作れればAGIは人間と同等の知能を持っているため、あとは人間が努力しなくても自動的にASIを作ることができると考えられている。

したがって、ASIを作るためにまずAGIを作ろうじゃないか、というのがロングスパンの議論なのだが、今の大規模言語モデルしか持たない野蛮な人類が、それをもってAGIが実現すると考えるのはお花畑に過ぎる。

大規模言語モデルはこれまでのAIの進歩から見ると大きな進歩と言えるが、重要な問題から目を背けている。

それは、大規模言語モデルの主張の正当性を検証する方法がほとんどないということだ。

例えば、よく知られた事実について、大規模言語モデルに聞けば、ほとんど正確に答えてくれるようにはできる。富士山が3776メートルだとか、アメリカの首都はワシントンDCだとか。

しかしそれは「答えのある問題」であり、大規模言語モデルの学習したデータセットの中にそのものずばりの答えがあっても全く不思議はない。

というか、もしもどこかに答えがずばり書いてあるようなことであれば、原理的に大規模言語モデルは常に正しい答えを出せるはずである。少なくともそこまでは必ず到達できる。もっと簡単にいえば、大規模言語モデルはカンニングをすることがいくらでもできる。学習データセットを検索すれば答えられるわけだ。

これは、対人工知能だけでなく、知能全般の高低を測る時にも同じ注意点がある。

つまり、今の大規模言語モデルをテストするということは、大学入試でスマホの利用をOKにするくらい難しいということだ。

スマホの利用が無制限に可能な入試を考えてみよう。
まず「富士山の高さは何メートルか」みたいなググれば出てくる設問は、全く意味をなさなくなる。

次に、「○○についてどう思うか?」という小論文形式の設問を考えてみる。小論文形式の場合、ググればいいというわけではないので少しは難易度が上がる。しかし、過去の事案についての論考はそれほどバリエーションがあるわけではない。ということは、どの小論文も「どこかで見たような正論」がずらりと並ぶことになる。

もしも、「過去に言及されたことがない視点が導入されていること」を採点基準に盛り込むとすると、例えば明らかに人類史上の愚行と思われるような過去の事件について、肯定的な意見を述べる小論文はその条件を満たすが、ホロコーストや原爆投下を肯定するような小論文を書いた人間(または機械知性)を合格とするのは問題があるだろう。

ということは、これらの知能をはかるテストは常に「彼らにとって完全に未知」のものでなくてはならず、それはとりも直さず大学入試を作る側が「彼らを上回る知性と想像力」を持っていなければならないということになる。

現実的に大学入試の設問は過去問のリミックスに過ぎず、完全な新規の設問というのは年に一個か二個、現れればいい方だ。実際問題として、試験問題と出題範囲が決まっている場合、一定時間内にある知識を持っているかどうか確認できる問題はたかだか有限個しかないのは常識である。

創作的な問題が出ることもあるが、完全に教科書にない知識を用いないと回答できないような設問の場合、そもそも出題者の意図と正解とされる回答がちゃんと矛盾なく作られているかどうか確認する作業もそれなりに大変である。

ということは、大学入試のような問題を解くことで機械知性と自然知性の知能の差を測ることはできない。実際のところ、大学入試が一種の受験マニア向けクイズであるという実態を考えると、それが知性を直接推し量る指標になり得ないことはもともと明らかだ。

これは大学を含めた我が国の教育制度全体が内包する欠陥でもあるが、ここではそれを指摘するのは横道に逸れるのでやめておく。

では一体全体どうすれば、機械知性と自然知性の能力を比較することができるだろうか。

試験で差がつかない(またはほとんどの場合自然知性が敗北する)としても全く驚きはない。大学入試はそもそも最初から「答えのある問題」しか解かないからだ。

では、全くランダムに、その場でランダムに出された複数の単語を組み合わせて時間内にプログラムを組むような対決はどうだろうか。

僕が10年前によくやっていた「9min Coding Battleナイン・ミニッツ・コーディング・バトル」だ。
これは与えられたお題に対して9分以内にゲームなりなんなりのプログラムを書くライブコーディングバトルで、これは実際にやってみるとわかるが、脳のスプリントレースのようなもので恐ろしく緊張感がある。

もしも今の大規模言語モデルと9min Coding Battleをやったら、自然知能は常に勝てるだろうかと考えると、やはりそこは互角になりそうだという気がする。

まだ人間の方が脳をフル回転させた時の反応が速いので勝機がなくはないが、タイピングスピードと正確性はAIがヒトを大きく上回る。

また、その場で出された題材から無理やり何かをこじつけて捻り出すのも人間よりもAIの方が得意なのではないかと思う。

9min Coding Batteは明らかに大学入試よりは人間の知能の優劣を図ることができると考えられる。そもそもちゃんとした思考力を持っていない人は9分以内に何かを完成させることすらできないはずだ。

しかしそれでもAIと互角だとすると、やはり大規模言語モデルはAGIに限りなく近い存在なのか。

もちろんそうではない。
いくつかの理由はあるが、大規模言語モデルは、単体では「自分が主体的に何かしたい」と考えることはない。

与えられた質問には答えるが、そこに自分の意思はない。
仮説を出せと言えば出すが、それは天才的な発想にはなり得ない。

そう、大規模言語モデルと会話していて感じるのは、この天才性の欠如である。

優れた知性は、必ず独自の価値観を持っており、その仮説を検証し、微修正しながら自分なりの世界観を構築していく。

大規模言語モデルには、その仕組みが丸ごと抜けている。
だからどこかで見たようなことしか言えない。これは一般的な知性とは到底呼べない。

どんな人であっても、それぞれ独自の価値観や世界観を持っており、それが人間というものの魅力を構成する大きな要因になっている。

大規模言語モデルに人間としての魅力はもちろん、知性としての魅力がカケラも感じられないのは、それがどこまでいっても平坦な教科書的反応しかできないからである。

大規模言語モデルは精巧な鏡であり、使い方によっては使う人の能力を大きく拡張してくれるが、使う人の能力に大きく制約を受ける。

大規模言語モデルをうまく使うことで人間は自分の能力を何倍にも引き出すことができるが、人間を使っても大規模言語モデルの能力が倍加することはない。

AGIを実現するという目標に比べて、大規模言語モデルにはまだまだ欠けているものが多過ぎる。でもこれはAIの歴史ではしばしば繰り返されてきたことで、つまり「あれができれば人工知能は完成する!」と思っていざ作ってみると、「欲しいのはこれじゃなかった。なぜだろう」と一歩前進するのである。

その意味では大規模言語モデルの向こう側にAGIがあるのではないかと錯覚するのはある程度は正常な反応と言える。そして同時に「そこには答えがない」と指摘するのも正常な反応だ。それはそれほどペシミスティックな話ではなく、「何ができて、何ができそうにないのか、正しく見極めた上で、役たつに使い方を考えよう」というリアリズムなのである。

大規模言語モデルの知性の優劣をどう図るか、僕がここで指摘した現在のAIに欠如している「天才性」とは何かについて考えることは、思考実験として一定の意味があると思う。

もっとわかりやすく言い方をこう変えてみようか。

「普通の人が想像する汎用人工知能は、せいぜい自分の父親や兄弟と同等の知能を有するAIだろう。しかし、本当の意味での汎用人工知能は、宮崎駿や宮本茂やスティーブ・ジョブズといった人物の頭脳を再現するものでなくては意味がない」

では、どうすれば、そうした知能を作ることができるか、今の大規模言語モデルの延長上にその世界はないだろうことは想像できるはずだ。

本を読めばスティーブ・ジョブズになれるのなら、みんなもっと本を読んでいるはずである。でもそうではない。