見出し画像

【論文を読む】「AGIのレベル:AGIへの道の進捗を具体化する」(Levels of AGI: Operationalizing Progress on the Path to AGI)を読む 前編

2022年11月30日にChatGPTが登場して以降、様々な大規模言語モデル(LLM)やマルチモーダルAIが開発、発表されました。2023年12月にはGoogleからGeminiも登場しています。

ちなみにChatGPTを開発したOpenAIの使命は次のとおりです。

Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity.

OpenAI About

つまり「汎用人工知能(AGI)が人類全体に確実に利益をもたらすようにすること」です。ChatGPTの出現によって、AGIが登場するのも遠くないのかもしれません。

そのような状況の中、GoogleDeepMindがAGIに関する論文を発表しています。GPT-4を使って抄訳しながら読んでみましょう。なお論文は2023年11月4に投稿されています。


abstract

人工汎用知能(AGI)モデルおよびその前身の能力と行動を分類するための枠組みを提案します。提案されている枠組みは、人工汎用知能(AGI)モデルとその前身の能力と行動を分類するためのものです。この枠組みは、AGIの性能、汎用性、および自律性のレベルに焦点を当てており、モデルを比較し、リスクを評価し、AGIの発展を測定するための共通言語として機能します。AGIの定義を分析し、6つの原則を抽出しています。これらには、能力に焦点を当てること、汎用性と性能を別々に評価すること、そしてAGIへの進展の段階を定義することが含まれます。提案された「AGIのレベル」は、能力の深さ(性能)と幅(汎用性)に基づいており、現在のシステムの適合性を考察します。また、AGIモデルの行動と能力を定量化するための将来のベンチマーク、自律性とリスクの相互作用、そして高度なAIシステムの責任ある安全な展開のための人間とAIのインタラクションパラダイムの選択の重要性についても議論しています。

抄訳

AGIモデルを理解するために、AGIの定義を6つの原則、さらにその原則を汎用性と性能を別々に評価し、それぞれのレベルを提案することとしています。

AGIを定義するための9つのケーススタディ

AGIを定義するにあたって9つのケーススタディを挙げています。

ケーススタディ1「チューリングテスト」

チューリングテストは、テキストが別の人間によって生成されたのか機会によって生成されたのかを対話的に区別するよう求めています。現在のLLMはチューリングテストのいくつかのフレーミングに合格しているため、ベンチマーキングとしては不十分であることが明らかです。

P2 抄訳

ケーススタディ2「強力なAI-意識を持つシステム」

強力なAIは、単なる心の研究のツールではなく、適切にプログラムされたコンピュータ自体に心があり、正しいプログラムを与えられれば心を理解し認知状態を持つといえると、哲学者のジョン・サールは考察しています。強力なAIはAGI達成のための一つの方法かもしれませんが、判断する方法に関して科学的な合意がありません。このプロセス指向のフレーミングは非現実的です。

P2-3 抄訳

ケーススタディ3「人間の脳への類推」

AGIという用語の最初の使用は、Mark Gubrudによる1997年の軍事技術に関する記事でした。この時の定義は、「複雑さと速度で人間の脳に匹敵またはそれを超えるAIシステム」としており、一般的な知識を取得・操作・推論することができ、人間の知能が必要とされる分野で使用が可能としています。現代のニューラルネットワークアーキテクチャは人間の脳に大まかに触発されているものの、人間のような学習に依存しないトランスフォーマーベースのアーキテクチャの成功によって、厳密な脳ベースのプロセスやベンチマークが必要ではないことを示唆しています。

P3 抄訳

ケーススタディ4「認知タスクにおける人間レベルのパフォーマンス」

LeggとGoetzelは、2001年にコンピューター科学者の間でAGIという用語を普及させました。その時に説明したのが、「人々が通常行う認知タスクを実行できる機械」です。この定義は、非物理的なタスク(AGIの前提としてロボットの体を必要としない)に焦点を当てているため、「どのタスクを?」や「誰に対して」といった選択に曖昧さを生じています。

P3 抄訳

ケーススタディ5「タスクの学習能力」

Shanahanは、「The Technological Singularity 」において、AGIを「特定タスクの遂行に特化されていないが、人間と同じくらい広範なタスクを実行できる人工知能」と定義しています。この定義は、AGIを達成するための要件にメタ認知タスク(学習)を含めることの価値を強調しています。

P3 抄訳

ケーススタディ6「経済的に価値のある仕事」

OpenAIの憲章は、AGIを「ほとんどの経済的に価値ある仕事において人間を上回るパフォーマンスを発揮する高度に自律的なシステム」と定義しています。この定義は、根底にあるメカニズムに関わらずパフォーマンスに焦点を当てているため、「機能でありプロセスではない」という基準に基づいた強みを持っています。さらに測定のための潜在的な基準、即ち経済的価値を提供します。この定義の欠点は、「一般知能」の一部となる可能性のあるすべての基準を捉えていないことです。知能に関連する多くのタスクは、芸術的創造性や感情知能など、明確に定義された経済的価値を持っていないものもあります。そのような特性は経済指標で間接的に説明される可能性があります。(例えば、芸術的創造性は本や映画を生み出し、感情知能はCEOとして成功する能力と関連するかもしれません)。ただし、経済的価値が「知能」のすべての領域を捉えているかどうかは不明確です。経済的価値の観点からの枠組みのもう一つの課題は、その価値を実現するためにAGIの導入の必要性を示唆していることです。一方で機能に焦点を当てると、AGIがタスクを実行する可能性のみが必要でしょう。私たちは技術的に、経済的に重要なタスクを実行するシステムを持っているかもしれません。しかし法的、倫理的、社会的などの様々な理由で、その経済的価値の実現に気づいていません。

P3 抄訳

ケーススタディ7「柔軟性と汎用性-「コーヒーテスト」と関連する課題」

Marcusは、AGIを「人間の知能と同等またはそれ以上の機知や信頼性を備えた柔軟で汎用的な知能(多数存在するかもしれない)」と示唆しています。この定義は、汎用性と性能(信頼性を含めることによって)の両方を捉えています。特に「柔軟性」の言及は注目に値します。なぜなら、これはShanahanの定式化と同様に、新しいスキルを学ぶ能力などのメタ認知タスクをAGIの機能セットに含める必要があることを示唆しているからです。さらに、Marcusは定義を具体化するために5つの具体的なタスクを提案しています。そのタスクは、「映画の理解」「小説の理解」「任意のキッチンでの料理」「バグのない10,000行のプログラム作成」「自然言語の数学的証明の記号形式への変換」です。定義にベンチマークを付随させることは価値があるものの、十分に包括的なベンチマークを構築するにはさらなる作業が必要となります。これらのタスクのいくつかに失敗するとシステムはAGIではないことになることは同意します。しかしベンチマークを通過することが、AGIステータスに十分であるかどうかは不明確といえます。AGIのテストセクションでは、AGIの汎用性を捉えるために必要かつ十分なタスクセットを開発する課題についてさらに議論します。また、Marcusが提案したタスクの一つである、「任意のキッチンで有能な料理人として働く」(スティーブ・ウォズニアックの「コーヒーテスト」の変形)はロボットの体を必要とするため、非物理的なタスクに焦点を当てる他の定義と異なります。

P7-8 抄訳

ケーススタディ8「人工的有能な知能」

Suleymanは、「The Coming Wave」において、オープンワールドで複雑な複数ステップのタスクを実行するのに十分な性能と汎用性を備えたAIシステムとして「人工的有能な知能(ACI)」という概念を提案しました。具体的には、「現代のチューリングテスト」というACIスキルの経済ベースの定義を提案し、AIに10万ドルの資本を与え、数ヶ月かけて100万ドルにするようなタスクを与えます。この枠組みは、OpenAIの「経済的に価値のある仕事」という定義よりも狭く、また財政上の利益だけを目指すことで調整リスクを導入しなければならない可能性があります。しかしSuleymanの概念の強みは、人間が価値を見出す複雑な複数ステップのタスクを実行することに焦点を当てている点です。100万ドルを稼ぐことよりも広く解釈する場合、ACIが複雑な実世界のタスクに重点を置くことは注目に値します。なぜなら、そのようなタスクは現在の多くのAIベンチマークよりも生態学的妥当性が高い可能性があるからです。

P8 抄訳

ケーススタディ9「一般的なSOTA(State-of-the-Art)としてのLLM」

Agüera y ArcasとNorvigは、最先端のLLM(例えば、GPT-4、Bard、Llama、Claudeの2023年半ばの展開)はすでにAGIであると提案しました。汎用性はAGIの重要な特性です。言語モデルが幅広いトピックについて議論し、幅広いタスクを実行し、マルチモーダルな入出力を処理し、複数の言語で操作し、ゼロショットや少数ショットの例から「学習」することができるため、十分な汎用性を達成していると主張しています。汎用性がAGIの重要な特性であることに同意するものの、パフォーマンスの尺度(例えば、LLMがコードの記述や数学を実行しても信頼性がない場合、十分なパフォーマンスが出ていない)と組み合わせる必要があると主張します。

P8 抄訳

AGIを定義する6つの原則

9つのケーススタディは、AGIまたはAGIに近い概念となるため、その例を反映してAGIの明確で具体的な定義を特定したとのことです。AGIを定義するためには、6つの原則を満たすべきと論じています。

1. プロセスではなく能力に焦点を当てる

ほとんどの定義は、AGIが達成できることに焦点を当てており、タスクを達成するメカニズムに焦点を当てていません。これは、必ずしもAGIを達成するための条件に必要ではない(興味深い研究トピックではあるかもしれない)特性を特定するために重要です。能力に焦点を当てることで、AGIに必要な要件から以下を除外することができます。
・AGIの達成は、システムが人間のような方法で考えたり理解したりすることを意味しません。
・AGIの達成は、システムが意識(主観的な認識)や感情(感情を持つ能力)などの資質を持つことを意味しません。

P4-5 抄訳

2. 汎用性と性能に焦点を当てる

すべての定義は、様々な程度で汎用性を強調していますが、いくつかは性能の基準を除外しています。AGIの重要な構成要素は、汎用性と性能の両方であると主張します。次のセクションでは、これらの次元間の相互作用を考慮したそれぞれのレベルに基づいた分類法を紹介します。

P5 抄訳

3. 認知及びメタ認知タスクに焦点を当てる

AGIの基準として、ロボットの体を必要とするかについては議論の余地があります。ほとんどの定義は、非物理的なタスクを意味する認知タスクに焦点を当てています。最近のロボティクスの進歩にもかかわらず、AIシステムの物理的能力は非物理的能力に比べて遅れているようです。物理世界での具現化は、一部の認知タスクを遂行するために必要な世界知識を構築する上で重要である可能性があり、少なくとも一部の認知タスクの成功への道の一つかもしれません。それが真実であれば、具現化することはAGIに向けた道の一つとして重要といえるでしょう。一方で、メタ認知能力(新しいタスクを学ぶ能力や、人間に明確化や支援を求めるべき時を知る能力など)は、システムが汎用性を達成するための重要な前提条件です。

P5 抄訳

4. 導入ではなく可能性に焦点を当てる

システムが特定の性能レベルで必要なタスクを実行できることを示すことができれば、そのシステムがAGIであると宣言するのに十分です。オープンワールドで、このようなシステムを展開することは、AGIの定義に固有であるべきではありません。例えば、労働を代替する一定レベルに達するという意味でAGIを定義すると、実世界での展開が必要になります。一方、労働を代替する能力を持つことに基づいてAGIを定義すると、可能性に焦点が当てられます。AGIを測定する条件として導入を要求することは、法的及び社会的な考慮事項などの非技術的な障壁、潜在的な倫理、安全上の懸念が生じます。

P5 抄訳

5. 生態学的妥当性に焦点を当てる

AGIに向けた進捗をベンチマークに使用できるタスクは、提案された定義を具体化するために不可欠です。このことは「AGIのテスト」セクションでさらに議論します。ここでは人々が評価する実世界(即ち、生態学的に妥当な)のタスクに一致するタスクを選択する重要性を強調します(「価値」を経済的価値だけではなく、社会的価値や芸術的価値など広く解釈します)。これは、自動化または定量的に測定するのが簡単な従来のAI指標を避けることを意味するかもしれません。しかし、そのような指標は人々がAGIで評価するであろうスキルを捉えられない可能性があるかもしれません。

P5 抄訳

6. 単一のエンドポイントではなくAGIへのパスに焦点を当てる

自動運転のレベルの標準セットの採用によって、自動運転車に関連する政策や進歩についての明確な議論が可能になったように、「AGIのレベル」を定義することに価値があると考えています。後続のセクションで説明するように、AGIの各レベルには、明確な「メトリック/ベンチマークセット」「各レベルで導入される特定のリスク」、そしてそれに伴う「人間とAIのインタラクションパラダイムの変更」が関連付けられることを意図しています。AGIを定義するレベルベースのアプローチにより、多くの著名な人達の定義を共存することがサポートされます。次のセクションでは、AGIのレベルベースのオントロジーを紹介します。

P5 抄訳

AGIのレベル

AGIのレベルは、AGIへ進むシステムを分類するための、能力の性能と汎用性に基づく階層化されたマトリックスアプローチとのことです。AIシステムの明確な分類には、AGIのテストセクションで説明するように、標準化されたタスクベンチマークが必要となります。

レベル0:No AI(非AI)

狭義:狭義の非AI
 計算機ソフトウェア、コンパイラ
一般的:一般的な非AI
 ヒューマン・イン・ザ・ループ・コンピューティング(人間参加型コンピューティング)(例:Amazon Mechanical Turk)

P6 抄訳

レベル1:Emerging(新興)

初歩的なAIよりも優れているか、同等の性能

狭義:狭義の新興AI
 GOF4i、単純なルールベースのシステム(例:SHRDLU)
一般的:新興AGI
 ChatGPT、Bard、Llama2

P6 抄訳

レベル2:Competent(有能)

少なくとも熟練した成人の50パーセンタイル以上の性能

狭義:狭義の有能AI
 有害物質検出器(例:Jigsaw)、スマートスピーカー(例:Siri、Alexa、Googleアシスタント)、VQAシステム(例:Pali)、一部のタスク用のSOTA LLM(例:短いエッセイの作成、単純なコーディング)
一般的:有能なAGI
 まだ達成されていない

P6 抄訳

レベル3:Expert(専門)

少なくとも熟練した成人の90パーセンタイル以上の性能

狭義:狭義の専門AI
 スペルと文法チェッカー(例:Grammarly)、生成的な画像モデル(例:Imagen、DALL-E 2)
一般的:専門なAGI
 まだ達成されていない

P6 抄訳

レベル4:Virtuoso(達人)

少なくとも熟練した成人の99パーセンタイル以上の性能

狭義:狭義の達人AI
 Deep Blue、AlphaGo
一般的:達人AGI
 まだ達成されていない

P6 抄訳

レベル5:Superhuman(超人)

人間の100%を超える性能

狭義:狭義の超人AI
 AlphaFold、AlphaZero、StockFish
一般的:人工超知能(ASI)
 まだ達成されていない

P6 抄訳

ここまでの感想

英語論文をGPT-4を使って抄訳してきました。文章表現としておかしな部分は精査してきたつもりですが、そのために本来の意味が変わってしまったところもあるかもしれません。その場合はご了承いただければと思います。

実際に論文を読むにあたっての参考程度にしていただければと思います。とはいえ、まだ半分ぐらいなので、次に続いていきます。

後編はこちら

読んでいる方へのお願い

この内容が役に立ったという方は、「♡(スキ)」や「フォロー」をお願いします。「X」「facebook」「LINE」でシェアいただけるとさらに嬉しいです。

またGenerativeAI活用研究所では、サポートをお受けしています。活動を継続させていくために、どうかお願い申し上げます。

GenerativeAI活用研究所では、サポートをお願いしております。サポートのお金は、活動の原資(運営費や電気代などの固定費、書籍購入費など)に充てさせていただきます。活動を継続させていくために、どうかお願い申し上げます。