見出し画像

「家としてのAI」とアライメント問題

前回に続く、AIアライメントに関する私的考察。寝る前の時間の殴り書きメモである。今日は、「AIアライメント問題」にはいくつかの種類がありそうだという話をしてみる。

なお、私がこのテーマについて書くことはすべて、素人の印象論にすぎないことをお断りしておきます。すでに専門家の間では議論されつくされているかもしれないことを、先行研究を調べる手間も取らずに、勝手に考えて書いている。そういうものでもちょっと読んでみようと思える時間的余裕のある方にだけ、目を通していただければ幸いです。

私の印象では、近年の「AIアライメント問題」として議論されている問題には、大きく二つの種類が混ざっているように見受ける。一つ目は、LLMなどの「入力を出力に変換する装置」としてのAIモデル/システムを対象に、その出力が人間の価値観や意図と整合させるにはどうすればようかという問い。「公平性」「バイアス」「説明可能性」などがキーワードになる。

もう一つは、AIを単なる入出力機械ではなく、一定の「自律性」を持った存在として捉え、その振る舞いが人間の目的と沿うものにするにはどうすればよいかという問いである。この問題は、一部界隈では「Agent Foundations」というジャンルとして議論されているらしい(ということを1,2か月前に知った)。いわゆるAIの存亡リスク、壊滅的リスクを語る人が念頭にあるのは、この第2のアライメント問題だろう。

しかし、これだけなのだろうか。AIが人間に影響を与えるのは、生成モデルの出力や、自律ロボットの行動を通してだけではない。もっと根本的に、社会に浸透している感じがする。一度、AIを人間と同じ階層の他者のようにみなすバイアスから解き放たれれば、AIとは機械で模倣した「人」や「ペット」であるだけでなく、「工場」であったり「家」であったり「都市」であり、人間を包み込む環境そのものがAI化しているのである。先日の三宅陽一郎さんのWired記事にはそのようなAI観が描かれていて、とても印象的だった。

そう考えると、AIアライメント問題には第3形態があるように思われる。この視点に立つと、AIの単一の出力や行動が問題になるのではなく、人間がそのなかで「住む」ことの影響が問題になる。無理やり「アライメント問題」の言い方にそろえるならば、「環境そのものがAI化し、AIの中で暮らすようになることによる私たちの生活と社会の変容が、私たちが個人・社会として持つ価値観と整合するか?」となるだろうか。

このアライメント問題は難しい。AIという機械の挙動のみならず、社会や人間の心理のダイナミクスを予想しなければいけなくなる。加えて、「AIの中に住む」ことは、アラインすべき「価値観」そのものを容易に変えてしまうだろう。なお、これはアライメント問題(1)と(2)でも想定できることで、その意味で今回の投稿と前回の「AI-人間アライメントの三つのイメージ」の話はある意味で直交する。だが、(3)の視点に立つ場合に、先日のブログに書いた「AIと人間の相互アライメント」の状況が一番顕著になるとはいえそうだ。

技術的なAIアライメント研究が(1)と(2)のフレームワークに集中するのは自然なことだと思う。しかし一番影響が大きいのは(3)だろう。実際に最近はSociotechnical problemなどとして陽に扱われるようになってきている気がするが()、さらに扱いを大きくするべきかもしれない。しかし、これは難しい。AIを一度脱擬人化し、もう少し階層が上の、社会的存在としてのAI(これを三宅さんは「メタAI」と呼んでいた)へとイメージをシフトさせないといけなそうだ。


この記事が気に入ったらサポートをしてみませんか?