見出し画像

AIの謎解き:サム・アルトマンが語る解釈可能性の課題

Futurismは先週、スイスのジュネーブで開催された国際電気通信連合(ITU)のAI for Goodグローバルサミットで、OpenAIのCEOであるサム・アルトマン氏は、同社の大規模言語モデル(LLM)が実際には内部でどのように機能しているかを尋ねられ、困惑した事について記事にしています。

イベント中に、アトランティック誌のニコラス・トンプソン最高経営責任者(CEO)から「それは、より強力な新モデルをリリースし続けるべきではないという議論ではないのか」と問われたアルトマン氏は、当惑した様子で、AIは「一般的に安全で堅牢であると考えられている」と半ば本気で保証して反論しました。

AIの解釈可能性には課題がある

研究者たちは長い間、AI チャットボットが投げかけられたあらゆる質問にほとんど魔法のように、そして楽々と反応する舞台裏で行われている自由な「思考」を説明できずブラックボックスとしてきました。この事は、AIの解釈可能性が「限定的」であるか、「困難である」か、「まだ発展途上である」と表現されます。

どんなに努力しても、AI のトレーニングに使用された元の資料まで出力を遡ることは極めて困難であることが判明しており、OpenAI はその社名と起源の物語にもかかわらず、AI のトレーニングに使用するデータを厳重に秘密にしてきました。

英国政府の委託を受けた報告書

75人の専門家からなる委員会は最近、英国政府の委託を受けた画期的な科学報告書の中で、AI開発者は「システムがどのように動作するかをほとんど理解していない」、そして科学的知識は「非常に限られている」という結論を下しました。

「モデルの説明と解釈可能性の技術は、汎用AIシステムの動作に関する研究者や開発者の理解を深めることができるが、この研究はまだ初期段階である」と報告書には記されています。

Anthropic社のこころみ

他の AI 企業は、自社のアルゴリズムの人工ニューロンをマッピングすることで「ブラックボックスを開く」新しい方法を見つけようとしています。たとえば、OpenAI の競合企業である Anthropic は最近、最初のステップとして、最新の LLM の 1 つである Claude Sonnet の内部動作を詳細に調査しました。

「アントロピックは創業以来、解釈可能性の研究に多大な投資を行ってきました。モデルを深く理解することで、より安全なモデルを作ることができると信じているからです」と最近のブログ投稿には書かれています。

と同社は「作業は始まったばかりでわれわれが発見した特徴は、トレーニング中にモデルが学習したすべての概念のほんの一部に過ぎず、現在の技術を使って特徴の完全なセットを見つけるのはコストがかかりすぎるだろう」とブログの中で言っています。

また、「モデルが使用する表現を理解しても、それがどのように使用されるかはわかりません 。特徴はわかっていても、それが関係する回路を見つける必要があります」とアントロピックは書いています。「そして、私たちが見つけ始めた安全関連の機能が、実際に安全性の向上に使用できることを示す必要があります。」とくくっています。

AIの安全性や、一部の専門家によれば人類絶滅レベルの危険を意味する人工汎用知能が暴走するリスクをめぐる白熱した議論を考えると、AIの解釈可能性は解明すべき問題です。

アルトマン氏自ら「安全・セキュリティ委員会」のリーダーに

アルトマン氏自身は最近、同社のいわゆる「スーパーアライメント」チーム全体を解散しました。このチームは「我々よりもはるかに賢いAIシステムを操縦・制御する」方法を見つけることに専念していたが、その代わりとなる「安全・セキュリティ委員会」のリーダーに自らを任命しました。

苦境に立たされているCEOの最近の発言を考えると、同社が超知能AIを制御できるようになるまでには、まだ長い道のりがあるようです。

もちろん、アルトマン氏にとって、主力製品が実際にどのように機能するか全く分かっていないにもかかわらず、同社が安全とセキュリティに注力していることを投資家に安心させ続けることは、経済的に最大の利益となる。

「これらのモデルで何が起こっているのかをより深く理解できればできるほど、より良い結果になると思います」と先週の会議で同氏は述べた。「それが、安全性の主張をし、検証する方法についての一貫したパッケージの一部になると思います」と語りました。

「解釈可能性が低い」のは人間にも当てはまると筆者は思った

AIがどのように動作するかを完全に理解することは困難であるため、その安全性を確保するための具体的な対策やフレームワークの構築が重要視され、サム・アルトマン氏自ら「安全・セキュリティ委員会」のリーダーに立ったわけですが、人間の行動や意思決定も完全には解釈できない部分が多いとおもいます。

それぞれの人が持つ背景、感情、動機などが複雑に絡み合っているため、予測が難しいことがよくあります。この点で、AIの解釈可能性と人間の予測不可能性は似たような課題を共有していると言えますね。

AIの安全性や制御の問題を考えるとき、人間社会の管理や法的枠組みがどのように機能しているかを参考にするのも有効なアプローチではないでしょうか?たとえば、国の安全を守るためには、様々なチェックポイントや監視システムが必要であり、AIの管理においても同様の戦略が考えられるわけです。

人間は何故裏切るのか?AIもおなじではないか?

人間が何故裏切るのか、その理由や背景を考えることは、AIが予期しない行動をとる理由を理解するのに役立つかもしれません。人間の場合、裏切りに至る背景には多くの要因が関与しています。たとえば、プレッシャー、誤解、利己的な動機、感情の高まりなどが挙げられます。AIにおいても、設計の不備や訓練データの偏り、未知のシナリオへの適応など、様々な要因が予期せぬ行動を引き起こす可能性があります。

このような視点からAIの問題を考えると、AIの安全性を高めるためにどのような対策が有効か、より具体的なアイディアが得られるかもしれません。例えば、AIにおける「裏切り」を防ぐためには、その動作をより透明にする、外部からの監視を強化する、さらには倫理的なガイドラインを設定することなどが考えられます。

この記事が気に入ったらサポートをしてみませんか?