「今夜、一緒に食事をしませんか?」をAIは理解できない

2023年3月4日 17:53

正直、GPT関連のニュースに辟易している。
あまりにもノーテンキな言説が一日に何度も何度も、タイムラインに繰り返し現れるからだ。

僕はこの現象を、まさしく「ワイゼンバウム・シンドローム」と呼ばざるを得ない。今手元に一冊の本がある。

ジョセフ・ワイゼンバウム著「Computer Power and Human Reason」である。

「コンピュータの可能性と人間の理性」とでも訳すべきか。ちなみに邦訳も出ている。

1976年、奇しくも僕が生まれた年に刊行された本だ。
この本があまりメジャーでない理由のいくつかは、「あまりにも批判的」な内容だから、なのかもしれない。邦訳では現代では使われなくなった言葉が頻出するし、あまりにも多くの人々、既存の科学者や当時の人工知能研究者に対して批判めいた主張が多い本でもある。

しかし、だからこそ、今読んでおくべき本でもある。
冒頭には、ワイゼンバウムが生み出した会話プログラム「イライザ」に関する有名なエピソードが出てくる。かいつまんで引用してみよう。

会話プログラムと一言二言交わした彼の秘書は、ちょっとAIに話があるから部屋を出ていってほしいと懇願した
会話プログラムと人間が実際にどんな会話をしたのか記録して研究に活かそうとしたワイゼンバウムは、人々のプライバシーに触れるスパイ行為をするのかと非難された。ワイゼンバウムは、こんなくだらないプログラムにそんなに実際のプライベートなことを相談するのかと驚いた
アメリカの精神科医たちが、やがてイライザが発達すれば、公衆電話ボックスのようなもので手軽に精神診断を受けられるようになると期待を寄せた

今思えばかなりナンセンスなのだが、GPTに無邪気に湧いている現代人は、彼らを笑うことはできない。こうした人々は大真面目に「一般的な問題を解決するAI開発の糸口が見つかった」と信じていたのである。

僕はワイゼンバウムと違ってGPTを作り出したわけではないが、GPTの原理はよく知っている。

ワイゼンバウムは本書の中で、たとえばこんな単純な問題にはAIは意味を解釈できないと鋭くも予言している。

「今夜、一緒に食事をしませんか?」

もしもこれが、まだ若い青年が、死に物狂いの感情で意中の人に向けて放った言葉だったとしたら、AIはそれを理解できないだろうとワイゼンバウムは主張する。

鋭い。さすがの慧眼である。それはたぶんGPTも理解できない。
イライザとGPTは規模は全く異なるが実は構造の単純さは似ている。

イライザはパターンマッチによって会話する。
「父」や「母」という言葉が含まれていれば、「ご家族についてもっと教えてください」「あなたのお父さんはどんな人ですか?」といった質問を生成する。

GPTも、「父」や「母」という単語を含む会話文に対する返答を出せ、と言われたら、それに関係する単語を選んで(生成して)並べる。

パターンマッチとその反応部分を作っているのが人間なのがイライザで、パターンマッチと反応文まで学習によって自動的に行うのがGPTであるという違いしかない。もちろん計算の規模は気が遠くなるほどに違うが、それ以上でも以下でもない。

ChatGPTは、与えられた文章に関してもっともらしい反応する単語を連鎖的に選択(生成)する

試しに「今夜、一緒に食事をしませんか?」と聞いたら、こんな答えが返ってきた。

これは実に巧妙な返しのように見える。もしもChatGPTではなくて意中の人物にこう返されたら、青年はどう思うだろうか。「はぐらかされた!」と思うかもしれない。実際の人間同士の会話というのは、はぐらかすものがほとんどなのだ。

ChatGPTが獲得した現代版「パターンマッチ」は、それらしい会話を成立させるためにはどんな質問に対してもうまくはぐらかすことが大事である、ということが組み込まれている。

だってそうでしょう?

よく知らない若い子から、「今夜、一緒に食事をしませんか?」と、仮に「あなた」が言われた時、どう返すか?

「いいですよ」と返すのも一つ。たぶんChatGPTも何度もやれば「いいよ」と返すことくらいあるはずだ。

もう一度聞いてみるともっとつまらない答えが返ってきた。

これはChatGPTが通常のものとちがい、人間からのフィードバック評価(ヒューマンフィードバック)を用いた強化学習によって学習されているからだ。

つまり、「コンピュータとしてできないことはできないと言うべき」と強く躾けられている。それでもこれを突破する方法がないわけではないが、なぜ突破できるかといえば、確率論的にそういう特殊な状況を生み出すことは文脈の上では可能だからだ。

本書では、ワイゼンバウムが「なぜあまりにも多くの知識人がコンピュータが実際的な知性を持ちうるという錯覚を覚えてしまうのか」と実例を挙げながら反論する。長い長い文章を使って反論しているので、読んでいると少し疲れてくる。

また、こうも指摘する。

B.F.スキナーが主張するように、人間の持つ価値観は錯覚に基づくものであるかもしれない。もしそうなら、実際、スキナーが(科学者として)試みているように、このことを証明するのが科学の責任であろう。また、それと同時に、科学自体も錯覚の体系だということになる。
それは、科学が与えることのできる唯一の確実な知識は、形式化された体系がどう振る舞うかという知識だからである。言い換えると、この体系は人間が自ら作り出したゲームであり、この体系のなかで真理であるということは、チェスのゲームで規則通り何回か駒を動かすと、ある駒模様が盤面に出現すると主張することと同じである。

「コンピューターパワー」ジョセフ・ワイゼンバウム・著/秋葉忠利・訳(サイマル出版)

ここで引用されているのはバラス・スキナーという心理学者で、スキナーは「自由意志とは幻想であり、人の行動は過去の行動の結果に依存する」と考え、「強化原理(Principle of Reinforcement)」を提唱した人物だ。行動を強化するための「オペラント条件付け」の実験を数多く行ったため、「スキナー条件づけ」とも呼ばれる。日本ではオペラント条件付けは、「パブロフの犬」の実験として知られる。

このスキナーの「強化原理」は、奇しくもChatGPTだけでなくここ十年のAIにおける脅威的な進歩の原動力である「強化学習」のモデルになっているアイデアだ。スキナーは動物実験で「強化学習」が行えることを証明したが、AIでは数学的な処理で「強化学習」を行う。

また、この考え方、つまり、行動が自由意志とは無関係であるという考え方は、慶應の前野教授による受動意識仮説にもつながっている。「意識の正体」を知る上で重要な概念についての指摘が半世紀も前にされていたことは興味深い。

ワイゼンバウムは、スキナーが意思は幻想であり、意思があると感じること自体が錯覚であると主張したことを受けて、意思が幻想であるならば、意思が作り出した理論の集合体である科学体系そのものが錯覚であると指摘する。

ワイゼンバウムは、本書の中で繰り返し、「人間と機械の違い」について言及する。コンピュータは万能機械のように当時でさえ考えられていたが、だからこそ人間にしかできないことがある、という主張だ。

ワイゼンバウムは先ほど引用した、「今夜、一緒に食事をしませんか?」という質問について、たとえコンピュータが、愛情や感情の高ぶりをシミュレートしたとしても、それは果たしてコンピュータが「青年の心情を理解した」と言えるだろうか、と指摘している。

確かに、僕もそれには否定的だ。
僕はほとんどの場合で、AIを、「人工ニューラルネットワーク」の意味で使うが、コンピュータとAIは本来関係ない。現状は、コンピュータでAIをシミュレートしているだけであって本来はコンピュータがいらない場合もありえる。マッチ箱でも、光路でもAI(人工ニューニルネットワーク)は作れてしまう。

学習されたAIというのは、ひとつのソリッドな構造物であって、その中でどんな計算が行われていようと、その計算のひとつひとつを紐解こうと、全体を理解することはできず、あまり意味がない。

それは、生きている人間の神経細胞のいくつかだけを観測しても、その人が何を考えているのかまではわからないというのと近い。

コンピュータとAIは、むしろ全く違う性質を持つからこそ、組み合わせたときに面白くなる。

ChatGPTが顕著だが、強化学習はAIの「外」にある仕組みである。
強化学習とAIの関係は、大リーグ養成ギブスと星飛雄馬の関係に近い。
ガンダムとアムロ・レイのほうがわかりやすいだろうか。
サトシとピカチュウ?いや、だんだんわからなくなってきた。

つまり、サトシがピカチュウ(AI)を育てるのである。
サトシは自分で育ててもいいが、プログラムを書いてコンピュータにピカチュウ(AI)を育てさせることもできる。これがたとえば強化学習でもいいし、LangChainや深津さんのMAGIシステムのように複数回のAIの回答の呼び出しの組み合わせでもいい。

この原稿で言いたいことは、要はピカチュウ(GPT/AI)がすごいとかすごくないとかの議論はどうでもよくて、サトシとして、どう組み合わせれば(LangChainやHFRLなど)もっと面白いことができるかみんな真面目に考えるべき、という話なのである。

ある意味で、シンセサイザーの話に近い。
「そのオシレーター(AI)の音がいいのはわかったが、それをどういうアルゴリズムで組み合わせてほしい音を出すつもりなんだい?」ということなのだ。

AIの能力はスケールの法則(Scaling Law)で計算の規模と計算時間によって線形に上がっていくが、いずれそこに意味がなくなる。

1983年に登場したファミリーコンピュータ、いわゆるファミコンは、画面に表示できるキャラクター(スプライト)を一画面に同時に64個(水平方向には最大8個)までしか表示できなかった。

1990年のスーパーファミコンではスプライトが最大128個表示可能になり、1994年発売のPlayStationでは3Dのフレームバッファ方式に変わったためスプライト機能は事実上なくなったが、スプライト機能に換算すると最大4000個表示できると主張されていた。

この頃からスプライト数ではなく描画可能なポリゴン数が競われ始め、初代PlayStationは秒間36万ポリゴン、2000年発売のPlayStation2では600万ポリゴン(公称最大7500万ポリゴン)、2006年発売のPlayStation3では、プログラマブルシェーダの搭載によりポリゴン数よりもピクセルフィルレートのほうが重要になった。PS4ではVRAMの容量が、PS5ではカスタムSSDの方が重要になった。

今現在、ゲーム機でスプライトが何個表示できるかとか、ポリゴン数を秒間何枚描画できるかとかをベンチマークに使う人はいない。

性能が線形に変化しているように見える時、それはもう「自律的な成長」というレベルに達したのであって、あとは眠っていても自動的にダウンサイジングされ、コストダウンされ、コモディティ化され、誰もその「性能」を気にしなくなる。

GPT、およびそれに類似する、いわゆる「事前訓練済みモデル(AI)」の性能に今は着目しているが、それはスーパーファミコンが発売されたときに子供が「今度はスプライトが128個表示できるんだぜ」と目を輝かせているのとあまり大差がない。その僅か10年後には、スプライトなんか誰も使ってないのだ。

ただ、だからこそLangChainのように、「GPT(的なもの)の出力結果をくみわせて何かしらの意味ありげな結果を導こうとする」というやり方には希望が見出せると思う。

これはGPTの進化に直線的に依存するのではなく、非線形な進化を生み出す大きなヒントになるからだ。

ただ、今は残念ながらLangChainが技術者意外にほとんど知られておらず、毎日ほとんど無意味に思える「GPTスゲエエエ」というだけの無邪気な内容の記事がタイムラインに流れてきて、まるで新清士がPS3について熱く語っていた時のようだなあと遠い目をした。