ベンチマークで知能は測れるのだろうか

近年のAIの進歩は、「ベンチマーク開発」の歴史でもある。このことを認識するきっかけは、スタンフォード大学のFei-Fei Li教授の著書”The Worlds I See”だった。Li氏が構築した画像認識用ベンチマークのデータセット「ImageNet」が2010年代の深層学習ブームの基礎となっていく経緯が、この本には克明に描かれていた。

ImageNetのあとにも、多くのベンチマークが作られてきたが、ここにきて、「人類の最後の試験(Humanity’s Last Exam)」という凄い名前のベンチマーク構築の計画が発表された。MMLUやMATHといったAIのベンチマークを提案してきたCenter for AI Safetyが、Scale AI社とともに専門家へのクラウドソーシングで作る。数学などの研究者レベルでないと解けない「難問」の公募を開始している(応募は11/1まで)。

こうしたベンチマークはAI開発に不可欠であるとともに、AIと人間の知能を比較するときの根拠にもなる。ここには大事なポイントがあるような気がしていてしばらく考えていた。以下はそのメモ。

***

AIと人間の「知能」を比べることができるのは、「知能」を使う何らかのタスクについて、その達成度を、「勝敗」や「スコア」で定量化できたときでだろう。

その定量化ないし勝敗判定の定式化ができた時点で、AIの勝利は概ね宿命づけられているように見える。データ量と計算量に制約がある場合の工学的な難しさはあるにせよ、今のところ、多くのベンチマークテストのスコアは、「Human level」に向かって右肩上がりに向上している。

出典:Plotting Progress in AI https://contextual.ai/news/plotting-progress-in-ai/

これから作られるものを含め、すべての「テスト」で人間を上回れば、「超知能」が誕生するのだろうか。ニック・ボストロム氏は2006年の記事で、超知能を次のように説明している。

”By a "superintelligence" we mean an intellect that is much smarter than the best human brains in practically every field, including scientific creativity, general wisdom and social skills.” 「『超知能』とは、科学的創造性、一般的な知恵、社会的スキルなど、事実上あらゆる分野において、最高の人間の頭脳をはるかに凌駕する知性のことを指す。」

https://nickbostrom.com/superintelligence

「事実上あらゆる分野」で人間の頭脳を超えた状態は、いくつかのベンチマークのセットで測れるものだろうか。ここにずっと引っ掛かりがある。

たしかに、私たちは人間の「頭の良さ」を何らかの尺度で測っている。「頭がいい」と私たちが思う人たちはたしかに、IQテストなどの「試験」で優れたスコアをとれる人々だろう。しかし、AI研究者のMelanie Mitchell氏は

「AIが、ある汎用能力の名がつけられたベンチマークで人間を超えたことは、実際にその汎用能力に関して人間を超えたことを意味しない。」

https://aiguide.substack.com/p/ai-now-beats-humans-at-basic-tasks?triedRedirect=true

という。ベンチマークはあくまで代理指標でしかなく、ざっくりといってしまえば、「テストでよい点を取れた人間は頭がいい」という経験則は、アーキテクチャを異にするAIには成り立たない可能性がある。

さらに、そうした「現実世界に影響を及ぼす能力」としての知能は、個人に帰属できるものなのだろうか。よく考えると、新しい科学理論の発想や、民間ロケット会社を創業などの達成は、人のネットワーク、文化的蓄積、時代ごとの先端技術といった外部環境によって実現している。そうした知能を「超えるAI」というのは意味がよく分からなくなってくる。

将棋という最も能力の定義が明確できてそうなケースですら、実は「GPUをどれくらい使っていいか/人間の考慮時間をどうするか/継ぎ盤の利用はありにするか/…」等々、人間とAIのフェアな強さの比較は困難であることを2018年の久保明教『機械カニバリズム』は指摘している。

この記事で、提起してみたかった疑問をまとめると、次のようになる。

人間とAIの知能の比較は、
1)特定タスクでスコアや勝敗を定義できた場合には意味をなすが、おそらくその時点でAIの勝利が宿命づけられる。
2)一方で、「現実世界で何かをなす能力としての知能」に関しては、有意味に議論できないのではないか?

2)の状況への対策としてすぐに思いつくのは、人間が点数をつけること。ある種のチューリングテストだ。しかし、それは、「ある個人ないしグループが優秀だと思うAI」であって、普遍的に「人間を超えたAI」とは言えない。そのレベルの客観性を得るには、やはりベンチマークを整備するという話になり、1)の範疇に収まっていく。

***

ベンチマーク構築がAI開発のエンジンであるとするなら、「(現実的なコストで作れる)ベンチマークの枯渇」によってAI開発は減速していくのかもしれない。ベンチマークがつくれないなら、AIを現実世界に解き放ち、強化学習で直接報酬を取りに行かせよう、となるのもしれない。しかしそれはどちらかといえば、「人間を超えたAI」ではなく、「制御不能のプログラム」に近いものになるように思われる。

この記事が気に入ったらサポートをしてみませんか?