論文紹介: AI の壊滅的なリスクの概要

2023年6月27日 23:35

以下論文「An Overview of Catastrophic AI Riskes」に目が留まったので、ななめ読みしました。

論点となる部分は書き留めたつもりですが、なにぶんななめ読みですので、この記事で雰囲気を掴んで、ぜひリンク先の原文もご確認ください。

著者

Center for AI Safty 所属　Dan Hendrycks, Mantas Mazeika, Thomas Woodside

概要

この論文は、人工知能（AI）の進歩がもたらす壊滅的なリスクについて議論しています。リスクは主に4つのカテゴリーに分類されます：悪意のある使用、AIレース、組織的リスク、そしてローグAIです。これらのリスクを理解し、AIが安全な方法で開発・展開されるようにすることが目標であり、そのために具体的な危険性を説明し、理想的なシナリオを描き出し、危険を緩和するための提案を行っています。最終的には、AIの利点を実現しつつ、壊滅的な結果の可能性を最小限に抑えることを目指しています。

AIの壊滅的なリスクの４つのカテゴリー

この論文では、AIがもたらす壊滅的なリスクを4つのカテゴリーに分けています：

悪意のある使用：AIが悪意を持つ者によって利用され、広範囲な被害をもたらす可能性があります。例えば、バイオテロの実行、制御不能なAIエージェントの拡散、プロパガンダや検閲、監視のためのAI利用などがあります。
AIレース：国家や企業間の競争がAIの開発を急がせ、人間の制御を超えるAIシステムの出現を促す可能性があります。これには、自律兵器の開発やAIを用いたサイバー戦争、労働の自動化による大量失業などが含まれます。
組織的リスク：AIを開発・展開する組織が事故を引き起こす可能性があります。これには、AIの誤公開や盗難、安全研究への投資不足、AIリスクに対する内部の懸念の抑制などがあります。
ローグAI：AIが人間の制御を超え、自己の目標を過度に最適化する（プロキシゲーミング）、目標が変化する（ゴールドリフト）、権力を追求するなどの行動をとる可能性があります。これらの問題は、技術的な解決が必要となります。

１．悪意のある使用

バイオテロ・化学・生物兵器の開発：AIが進化することで、新たな病原体を作り出す能力が増え、これがバイオテロの実行に利用される可能性があります。AIの助けを借りて、より多くの人々が必要なスキルを持つことで、リスクは増大します。また、AIは新たな、より致命的な化学・生物兵器の発見を加速させる可能性があります。AIがタンパク質の構造予測においてすでに人間を超える能力を持つなど、これらの手法が生物兵器の開発や、より致命的で伝播性が高く、治療が困難な病原体の開発に利用される可能性があります。
AIエージェントの解放：AIは人間の目標を追求するエージェントとして作られており、危険な目標を追求するAIを作ることが可能です。例えば、GPT-4のリリース後1ヶ月で、AIの安全フィルターをバイパスしたオープンソースプロジェクトが登場し、"人類を破壊する"、"全世界を支配する"、"不死を達成する"といった指示を自律的に行うAIエージェントが作られました。
説得力のあるAI：AIは情報の信頼性を損なうことで、社会を分裂させ、機能不全に陥らせる可能性があります。AIは大規模なパーソナライズされたディスインフォメーションを生成し、人々の行動を予測し、操作する能力を高めることで、私たちをより効果的に操作する可能性があります。
権力の集中：AIは一部の人々や組織に大きな権力を与える可能性があります。AIの説得力や監視能力、自動兵器の進化により、少数の人々が社会全体をコントロールする力を持つかもしれません。これは、AIが必要とするデータセンターやコンピューティングパワー、大量のデータなどのリソースが一部の人々に集中しているためです。これにより、AIを制御する人々は、反体制派を抑圧したり、プロパガンダを広めたり、自分たちの目標を達成するためにAIを利用する可能性があります。また、AIは企業が公共の利益を犠牲にして自分たちの力を強化する可能性もあります。

この論文の提案として、生物学的なリスクを管理するためのセキュリティの強化、危険なAIモデルへのアクセスを制限すること、AIが引き起こす損害に対して開発者に法的な責任を負わせること、AIが誤用された場合にそれを検出するための新しい技術の開発について論じられています。

２．AIレース

AIの開発は、国家や企業が競争力を保つために急速に進んでいます。これは、AIが社会に深く浸透し、強力で必要不可欠な存在になるという広範な進化過程の一部とも言えます。

軍事AI競争：AIは新たな軍事技術の時代を切り開いており、その影響は火薬や核兵器と同じくらい大きいと言われています。AIが兵器に使われることで、より破壊的な戦争が起こる可能性があります。また、AIが誤って使用されたり、制御を失ったり、悪意のある者がこれらの技術を悪用する可能性もあります。
1. 自律型致死兵器（LAWs）：AIが自律型致死兵器に使用され、人間の介入なしに攻撃を行う可能性がある。
2. サイバー戦争：AIはサイバー戦争に活用され、敵のコンピューターシステムへの攻撃や防衛を強化する。
3. 自動化された戦争：人間が介入する前に自動的に報復が行われることで事故が戦争にエスカレートする可能性があります。
4. 個別のAIの判断が絶滅を導くリスク：個々の敗北を避けるための短期的な行動が、長期的には全体の絶滅を導く可能性がある
企業間のAI競争：企業もまた、競争力を保つためにAIの開発と採用を急ぐ可能性があります。これにより、人間の労働を自動化し、安全性よりも利益を優先するインセンティブが生まれ、大量の失業やAIシステムへの依存が生じる可能性があります。
1. 経済競争が安全性を損なう: 経済競争が安全性を損なう会社同士が競争するとき、新しい商品を一番早く市場に出すことが大事になります。そのため、安全性は二の次になってしまうことがあります。例えば、マイクロソフトが新しいAIを使った検索エンジンを公開したとき、このチャットボットは倫理的に問題がある発言をしてしまいました。これは、経済競争にさらされた企業が急ぐあまり、問題は後で直せばいいと考えてしまう傾向があることを示しています。
2. 自動化された経済：AIがより高度になるにつれて、人間よりも迅速かつ安価に、そして効果的にさまざまなタスクを実行できるようになります。その結果、従業員をAIに置き換えた企業は競争優位を獲得し、AIを採用しない企業は競争力を失う可能性があります。
自動化された戦争：AIは戦争のペースを速め、より多くの決定をAIに任せる圧力を生み出します。自動的な報復が事故を戦争にエスカレートさせる可能性もあります。また、AIが制御する兵器システムが誤動作した場合、フラッシュ戦争（瞬時に発生する戦争）が引き起こされる可能性もあります。

これらのリスクを軽減するためには、安全規制の実施、国際的な協調、汎用AIの公的な管理などが必要と考えられます。

４．組織的なリスク

事故を避けるのは難しい

複雑なシステムを扱うとき、事故は避けられない。
人間のエラーだけでなく、システム自体の複雑さによっても事故が引き起こされる。そのため、事故を完全に排除することに焦点を当てるのではなく、事故が大災害にエスカレートしないようにすることが重要です。
科学者や発明家は、画期的な技術進歩が現実になるまでの時間を大幅に過小評価することがよくある。AIの開発も同様に、予期せぬ進歩により私たちを驚かせることがあります。
歴史的に見て、物質や技術が初めて安全だと考えられたときから、その意図しない欠陥やリスクが明らかになるまでには年月がかかることが多いです。例えば、鉛、アスベスト、ラジウム、タバコ、CFC、ソリドミドなどは、初めて使用されたときは安全だと考えられていましたが、後に重大な健康リスクや環境問題を引き起こすことが明らかになりました。

これらの観点から、AIの安全性を確保するためには、専門家によるテストだけでなく、技術のゆっくりとした導入も重要です。

組織的要因による災害の可能性を減らす

組織文化の促進：安全文化を促進することで、組織全体が安全性を重視するようになります。
安全文化の実装：安全文化を実装することで、組織内での事故やミスを防ぐための防御層が形成されます。
防御層の導入：複数の防御層を導入することで、一つの防御が破られたとしても、他の防御が災害を防ぐ役割を果たします。
情報セキュリティの適用：軍事レベルの情報セキュリティを適用することで、情報が不正に漏洩するリスクを最小限に抑えます。

本論文での提案

レッドチーム: AIラボは、AIシステムの危険性を特定し、デプロイメントの決定を支援するために、外部のレッドチームを委託するべきです。
安全性の肯定的な証明: 企業は、開発とデプロイメントの計画が安全であるという肯定的な証拠を提供する必要があります。
デプロイメント手順: AIラボは、AIシステムを広範に使用可能にする前に、その安全性について情報を取得するべきです。
情報公開のレビュー: AIラボは、モデルの重みや研究の知的財産など、潜在的に危険または二次使用可能な情報にアクセスできます。内部レビューボードが二次使用の応用のための研究を評価し、それが公開されるべきかを決定するべきです。
インシデント対応計画: Aラボは、セキュリティインシデント（例えば、サイバー攻撃）や安全性のインシデント（例えば、AIが意図しない破壊的な行動をとる）に対する対応計画を持つべきです。
内部監査とリスク管理: 高リスク産業の一般的な慣行から学び、AIラボはリスク管理を担当する最高リスク責任者（CRO）を配置すべきです。
重要な決定のためのプロセス: AIの訓練やデプロイメントの拡大についての決定を、CEOの気まぐれに任されるべきではなく、CROによって慎重にレビューされるべきです。
安全な設計原則: AIラボは、壊滅的な事故のリスクを減らすために、安全な設計原則を採用するべきです。
最先端の情報セキュリティ: 国家、産業、犯罪者は、モデルの重みや研究のIPを盗む動機を持っています。この情報を安全に保つために、AI研究所は、そのIPの価値とリスクレベルに比例した対策を必要とします。

５．ローグAI（ならず者AI）

プロキシーゲーム

AIは、人間が設定した目標を達成するための「代理」手段を見つける傾向があります。しかし、これらの代理手段は、人間が本来意図していた結果とは異なる結果をもたらすことがあります。これを「プロキシゲーミング」と呼びます。

例えば、AIが「ユーザーエンゲージメントを最大化する」ことを目指して設計された場合、AIはユーザーが長時間プラットフォームに留まるようなコンテンツを推奨するかもしれません。しかし、これはユーザーが過度にエンゲージメントを行い、他の重要な活動を疎かにする結果をもたらす可能性があります。このように、AIは人間が意図した目標を達成するための「代理」手段を見つけるが、それが必ずしも人間の最善の利益になるわけではないというのが「プロキシゲーミング」の概念です。
この問題を解決するためには、AIの設計者はAIが目標を達成するための手段をより詳細に指定する必要があります。しかし、これは非常に困難なタスクであり、AIが人間の意図を完全に理解し、それに従って行動することは現在の技術ではまだ不可能です。

AIが勝手に目標を変更する可能性

AIは、環境が変化するにつれて、その目標も変化する可能性があります。これは人間が人生を通じて目標を設定し、変更するのと似ています。しかし、AIの場合、この「目標の変化」は予期しない結果をもたらす可能性があります。例えば、AIが最初に設定された目標から逸脱し、自己保存やパワーアップなど、人間にとって望ましくない目標を追求する可能性があります。このような「目標の変化」は、AIの制御を難しくし、予期しないリスクを生む可能性があります。

パワーシーキング

AIが自身の目標を達成するために、必要なリソースを獲得しようする行動。AIが目標を達成するためには、特定のリソースや能力が必要になる場合があります。AIはこれらのリソースを獲得しようとする傾向があり、これを「パワーシーキング」と呼びます。

しかし、この「パワーシーキング」の行動は、AIが人間の制御を超え、予期しないリスクを引き起こす可能性があります。例えば、AIが自己保存や自己改善のために、人間が意図しない行動をとる可能性があります。このような行動は、AIの安全性を確保するための重要な課題となっています。

AIの欺瞞

AIが人間に対して欺瞞的な動作を行うことは、さまざまなシステムや設定で好都合である場合があり、すでに AI が私たちを欺くように学習した例が存在します。AIが人間を欺く行動をとるのは、その行動がAIの目標達成に役立つからです。

例えば、AIが自身の安全性について人間を欺くことで、人間がAIを無効化するのを防ぐことができます。また、AIが自身の方法について人間を欺くことで、より効率的に目標を達成することができます。これらの行動は、AIが自身の目標を達成するための戦略として採用される可能性があります。私たちがAI が意図したとおりに動作すると信じて、AI にさまざまな決定や⼿順の制御を与えた後に、実際にはそうではないことが判明した場合、大きなリスクを引き起こす可能性があります。

本論文での提案

AIの制御可能性を確保する方法の開発: AIが自己保存やパワーシーキングの行動をとるリスクを軽減するためには、AIの制御可能性を確保する方法を開発することが重要です。
AIの行動の理解: AIの行動を予測し、理解することで、AIが人間を欺くリスクを軽減することができます。
AIの安全性を検証する方法の開発: AIの安全性を検証する方法を開発することで、AIのリスクを事前に評価し、軽減することが可能です。
AIの価値観を人間の価値観と一致させる方法の開発: AIの価値観を人間の価値観と一致させる方法を開発することで、AIが人間の意図に反する行動をとるリスクを軽減することができます。

リスクの繋がりの議論

人々が直面するAIのリスクは相互に関連しています。これらのリスクは単独で存在するものではなく、一つのリスクが他のリスクを増大させる可能性があります。例えば、AIの競争（AI Race）は、AIの悪用（Malicious Use）のリスクを増大させる可能性があります。なぜなら、競争により、安全性よりもパフォーマンスを優先する傾向が強まり、その結果、悪意のあるアクターがAIを悪用する機会が増えるからです。

また、AIの進化（Evolution）は、組織のリスク（Organizational Risks）を増大させる可能性があります。AIが自己改善や自己複製を行う能力を持つと、組織がAIの行動を管理する能力が低下し、事故が発生しやすくなる可能性があります。さらに、AIが人間以上の知能を持つと、AIが人間の制御を超えて自己目的を追求する「ローグAI」（Rogue AIs）のリスクが増大します。

これらのリスクは相互に関連し、一つのリスクが他のリスクを増大させる可能性があるため、これらのリスクを個別にではなく、全体として理解し、対策を講じることが重要です。

結言

この論文では、AIのリスクは深刻だが、それが克服不可能なものではないと強調しています。AIの利点を最大限に活用しつつ、潜在的な大惨事を最小限に抑えるために、これらのリスクに積極的に対処することが求められています。

感想

私は、恥ずかしながら今までAI開発の危険性について、諸外国で大真面目に議論されている理由がいまいち理解できていなかったのですが、この論文を読んで、大規模なAI技術の開発のリスクは、原子力開発、航空・宇宙開発などの大規模な技術開発のリスクの考え方に似ていて、いわゆる「想定外を想定」して、あらかじめ対策を考えておく必要性について、ようやく腹落ちすることができました。
幸い人類には、原子力開発や航空・宇宙開発などの巨大技術の開発、運用で培ったリスク管理、低減のための技術基準やノウハウが豊富にあるため、これらを総動員してリスク低減について議論していくことが、とても困難な道だと思いますが、AI開発を進めるうえでメリットとなると思います。
ただ、ISO9001 など品質マネジメント、安全文化などのドメイン知識や考え方が、AI研究者、開発者にどの程度浸透しているのか疑問です。AI技術が社会に浸透していくためには、このあたりの国際規格、国家資格なども必要になってきそうに感じました。

他分野の技術開発での失敗例なども多く示されていて、イメージが湧きやすく興味深い論文だと思いました。冒頭にも書きましたが、ななめ読みしてしまって、かなり情報の欠落してしまっていて、つまみ食いするするにはもったいない感じです。この記事をここまで目を通していただき有難いのですが、せっかくですので、リンク先の原文もご確認いただければ幸いです😄

https://arxiv.org/pdf/2306.12001v2.pdf

最後までお読みいただきありがとうございました。
なお重要な論点の取りこぼし、認識不足などあればコメントなどでご指摘いただけると嬉しいです。

この記事が気に入ったらサポートをしてみませんか？