「科学×AI」から考えるAIアライメントの難しさ

2024年4月13日 23:59

先日の勉強会では、AIが科学をどう変えるのか、いわゆる「AI for Science」の帰結について考えた。一方で、AIそれ自体も新しい科学の研究対象になりつつある（＝Science of AI）。「AI for Science」と「Science of AI」が組み合わさるとどうなるか。AIが科学を変え、科学はAIを理解しようとする。その科学そのものにAIがまた使われる。したがって、「AI for Science of AI for science of AI for …」というフィードバックループ、互いを強化しあう増幅回路が現れそうだ。すでに現れているかもしれない。

少し視野を広げれば、この構図は科学以外にも成り立ちそうだ。「AI×人間の営為」において、AIはその営為の意味や前提（例：『機械カニバリズム』で記述されるAIと将棋棋士の関係）を変え、そのことが”AI”と呼ばれる技術や概念を揺さぶっていく。

AIの「アライメント問題」とは、人間の目的・選好・価値観に整合（アライン）したふるまいをAIにさせるにはどうすればよいかを問う。これを聞いて誰しもまず気になることの一つに、「何がアラインするのか（align to what?)」がある。アライメント問題が解決するとはどういうことか。たぶん最初にイメージされていたのは、1）「人間の選好・価値観にAIの挙動をアラインさせる」というものだろう。しかし、２）「AIの挙動にアラインするように人間の選好・価値観が変わる」ことも、ある意味アライメント問題の解といえる。少し考えると、そのどちらでもないパターンがあることがわかる。「AIの挙動と人間の選好・価値観が相互依存的に変化しながらアラインする」という第3のパターンであり、最も現実的なのは実はこのパターンだろう（なお、ここでの論旨とは若干ずれる意味合いかもしれないが、昨年のワークショップで山川宏氏はAIと人間の「相互アライメント」という言い方を提案している）。

これからのAIと科学が、「AI for Science of AI for science of AI for …」という再帰的なフィードバックループの中で発展していくのだとすれば、科学は上記の「第3のAIアライメント」のイメージがより強調されて起こる局面だといえるかもしれない。（ただし、この話とAIアライメントとつなげるには、科学とAIの関係がどのように科学の「価値」や「目的」に影響を与えうるかという補助線が必要になる。）

「科学AIを駆使するAI科学」が、人間科学者や人間社会とアラインし続ける保証はないが、アラインしたとしても、「第3のAIアライメント」が現実に起こることならば、両者の絡み合いがどこへ向かうかは予想も制御もできない。いや、できるのだろうか。できるとするならば、その学問的な材料はどこに存在しているだろうか。

この記事が気に入ったらサポートをしてみませんか？