【論文瞬読】AGIの定義と進歩を測る革新的フレームワーク

2024年4月14日 22:43

こんにちは、みなさん。株式会社AI Nestです！
今日は、人工汎用知能(AGI)について考える上で重要な提案をした論文を紹介したいと思います。

タイトル：Levels of AGI: Operationalizing Progress on the Path to AGI
URL：https://arxiv.org/abs/2311.02462
所属：Google DeepMind
著者：Meredith Ringel Morris, Jascha Sohl-dickstein, Noah Fiedel, Tris Warkentin, Allan Dafoe, Aleksandra Faust, Clement Farabet, Shane Legg

AGIとは何か？その定義と測定方法を明確にする必要性

AGIは、人工知能(AI)研究者の間で長年議論されてきたトピックです。簡単に言えば、AGIとは人間のような汎用的な知能を持ったAIのことを指します。でも、実際のところ、AGIの定義ってあいまいで、研究者によってバラバラなんですよね。

例えば、チューリングテストを基準にするアプローチもあれば、人間の脳の複雑さに匹敵するかどうかで判断する考え方もあります。経済的価値のある仕事ができるかどうかを重視する定義もありますし、特定のタスクではなく、新しいスキルを学習する能力こそがAGIだという意見もあるんです。

こうした多様な定義が存在する中、この論文の著者らは、AGIの定義と進歩を測る方法について、明確で操作可能なフレームワークを提案しています。彼らは、既存の定義を丹念に分析し、その長所と短所を浮き彫りにしました。そして、そこから導き出されたのが、以下の6つの原則です。

AGIを定義する6つの原則とは？

能力に焦点を当てる（プロセスではなく）
汎用性と性能の両方を考慮する
認知的タスクとメタ認知的タスクに注目する
潜在能力に着目する（実際の適用ではなく）
生態学的妥当性を重視する
AGIへの道のりに着目する（単一のゴールではなく）

これらの原則は、AGIを定義する上で考慮すべき重要な点を的確に捉えていると思います。特に、「能力に焦点を当てる」という原則は、AGIを判断する上で、内部のメカニズムよりも、実際にできることを重視すべきだという考え方を反映しています。また、「汎用性と性能の両方を考慮する」という原則は、AGIには幅広い能力と高い性能の両方が求められることを示唆しています。

性能と汎用性に基づくAGIのレベル分け

著者らは、これらの原則を踏まえた上で、AIシステムの性能の深さ（depth）と能力の幅広さ（breadth）に基づく2次元のレベル分けされたオントロジーを提案しています。

具体的には、性能のレベルを「Emerging（初期）」「Competent（適正）」「Expert（熟練）」「Virtuoso（達人）」「Superhuman（超人的）」の5段階に分類。一方、汎用性については「Narrow（特化型）」と「General（汎用型）」の2種類に大別しています。

このレベル分けは、以下の表にまとめられています。

$$
\begin{array}{|c|c|c|} \hline
性能 (行) × 汎用性 (列) & Narrow (明確に限定されたタスク or タスクセット) & General (メタ認知能力を含む、幅広い非身体的タスク) \\ \hline
Level0: No AI & Narrow Non-AI(電卓ソフト、コンパイラなど) & General Non-AI (Amazon Mechanical Turkなどのヒューマン・イン・ザ・ループ・コンピューティング)\\ \hline
Level 1: Emerging (未熟練者と同等かやや優れている) & Emerging Narrow AI (GOFAI、単純なルールベースのシステムなど) & Emerging AGI (ChatGPT、Bard、Llama 2、Geminiなど) \\ \hline
Level 2: Competent (熟練者の少なくとも50パーセンタイル) & Competent Narrow AI (Jigsawなどの毒性検出器、Siri、Alexa、Google Assistantなどのスマートスピーカー、PaLIなどのVQAシステム、Watson、特定のタスクに特化したSOTA LLMなど) & Competent AGI (まだ達成されていない) \\ \hline
Level 3: Expert (熟練者の少なくとも90パーセンタイル) & Expert Narrow AI (Grammarlyなどのスペル・文法チェッカー、Imagen、Dall-E 2などの生成モデルなど) & Expert AGI (まだ達成されていない) \\ \hline
Level 4: Virtuoso (熟練者の少なくとも99パーセンタイル) & Virtuoso Narrow AI (Deep Blue、AlphaGoなど) & Virtuoso AGI (まだ達成されていない) \\ \hline
Level 5: Superhuman (人間の100%を上回る) & Superhuman Narrow AI (AlphaFold、AlphaZero、Stockfishなど) & Artificial Superintelligence (ASI) (まだ達成されていない) \\ \hline
\end{array}
$$

この表は、AGIへの道のりを可視化するための強力なツールです。現在のAIシステムの位置づけを明確にするだけでなく、将来の発展の方向性も示唆しています。例えば、最新の言語モデルは「Emerging AGI（初期段階のAGI）」に位置づけられます。一方、将棋や囲碁のAIは「Virtuoso Narrow AI（特化型の達人レベルAI）」と言えるでしょう。

そして、この2軸のマトリクスに現在のAIシステムを当てはめることで、AGIへの進歩を段階的に捉えることができるというわけです。例えば、最新の言語モデルは「Emerging AGI（初期段階のAGI）」に位置づけられるでしょう。一方、将棋や囲碁のAIは「Virtuoso Narrow AI（特化型の達人レベルAI）」と言えそうです。

このフレームワークの利点は、AIの進化を連続的なスペクトラムとして捉えられること。従来のように、AGIを「ある or ない」の二元論で考えるのではなく、段階的な発展の過程として理解できるようになります。

AGIのベンチマークとリスク評価の課題

とはいえ、このフレームワークを実践に移すには、いくつか乗り越えるべきハードルがあります。

まず、AGIのベンチマークをどう設計するか。著者らは、認知的タスクとメタ認知的タスクを幅広くカバーし、生態学的妥当性の高いタスクを選ぶべきだと提言しています。しかし、それを具体的にどう実現するかは、簡単ではありません。新しいベンチマークの開発には、多様な専門家の知恵を結集し、長期的な取り組みが求められるでしょう。

また、AGIのレベルが上がるほど、自律性も高くなり、リスクも増大する可能性があります。特に「Virtuoso AGI（達人レベルのAGI）」や「Artificial Superintelligence（超人的知能）」の段階では、AIが人間の制御を離れ、予期せぬ行動をとるリスクが高まります。このリスクにどう対処するか。技術的な安全装置だけでなく、倫理的・法的なフレームワークの整備も急務だと言えます。

まとめ

AGIは、人類の知性の本質に迫る挑戦であり、その実現は科学史に残る大きな節目になるでしょう。しかし、同時に、社会に大きな影響をもたらす可能性も秘めています。

この論文は、そうしたAGIの将来を見据えた上で、その定義と測定方法について一石を投じるものです。著者らの問題提起は、AIの研究者だけでなく、政策立案者やビジネスリーダー、そして一般市民にも、AGIについて改めて考えるきっかけを与えてくれます。

AGIの実現に向けて、私たちに何ができるでしょうか。技術の進歩を見守るだけでなく、その意味や影響について、社会全体で議論を深めていく必要があります。そして、AGIが人類に資する存在となるよう、英知を結集していかなければなりませんね！