見出し画像

AIの展開、安全性、セキュリティ、規制のベストプラクティス - 『複雑適応系』

8,064 文字

おはようさん、みなさん。せやねん、この話題をしばらく取り上げたかってんけど、ちょっと込み入った話やさかい、できるだけ面白おもしろうに説明しようと思うわ。
要するにな、人工知能の安全性と規制について正しく考える方法として、複雑適応系(CASまたはCass)っちゅう観点から見るのがええっちゅうことやねん。
複雑適応系っちゅうのは、まあ例を2つほど挙げたろか。多分一番馴染みがあるんは株式市場やろな。もう一つは、ソーシャルメディアや。どっちも、ウイルス的な効果や、突然現れる行動パターンがあるんよ。
ほな、株式市場とソーシャルメディアを念頭に置いて、複雑適応系の特徴を9つか10個ほど挙げていくわ。これで複雑適応系っちゅうもんがどんなもんかがわかると思うで。
まず一つ目は「創発」や。創発っちゅうんは、より単純な下位レベルのルールから、複雑な高次の行動やパターンが現れることやねん。例えば、鳥の群れや魚の群れの行動がそうや。個々の生き物は単純なルールに従うてるだけやのに、大勢で動くと、ダイナミックに互いに反応したり、捕食者に対応したりできるんや。サメが魚の群れに近づいたら、群れが赤海みたいに割れるのを見たことあるやろ?あれが創発行動の例やな。
次は「自己組織化」や。これは、外部からの制御や指示なしに、システム内で自然に秩序や構造が生まれることや。例えば、アリの巣やミツバチの巣の組織化がそうやな。まあ、魚の群れやミツバチの巣が複雑適応系に当てはまるかどうかは分からんけど、これらの特徴は確かに持ってるわな。
3つ目は「非線形性」や。これは、構成要素間の関係が比例的じゃなくて、予測不可能な結果につながることや。単純な線形方程式では表現できへんのや。非線形性の例としては、ウイルス的な広がり方があるな。株式市場でも、10年くらい前にあったフラッシュクラッシュとかがそうや。ある取引者が間違えて10億を100万の代わりに入力して、大量の注文を出してしまったんや。それで、一つの株価が暴落しただけやなく、みんなパニックになって、次々と波及効果が起こったんや。これが非線形性の例やな。一つの予期せぬ行動が、システム内の他のノードでも予期せぬ行動を引き起こすんや。
4つ目は「フィードバックループ」や。フィードバックループには、ポジティブフィードバックループ(善循環)とネガティブフィードバックループ(悪循環)の2種類があるんや。ポジティブフィードバックループの場合、エネルギーがもっとエネルギーを生み出すんや。ネガティブフィードバックループの場合は、繰り返すごとに状況が悪くなったり、効果が薄れたりするんや。
ポジティブフィードバックループの例で馴染み深いのは、複利や複合リターンやな。例えば、毎年キャピタルゲインと利子で10%の収益があるとすると、その利益が次の年の元本に加わって、さらに利益を生み出すんや。
一方、ネガティブフィードバックループの例としては、収穫逓減がある。例えば、ある投資が今年は10%の利回りがあったけど、来年は規模の限界や利益率の低下で9%になるようなケースや。
5つ目は「適応」や。複雑適応系では、システム全体が環境の変化に応じて振る舞いを変えるんや。これは「無限ゲーム」としても考えられるな。無限ゲームの目的はゲームを続けることやから、システムには終端条件があるけど、ゲームを続けるためにはルールを変える必要があるんや。
株式市場を例に取ると、市場は永遠に続くもんやから、株式市場を取り巻くルールが変わっていくんや。規制が変わったり、SECが変わったり、投資家の行動が変わったり、企業の行動が変わったりするんや。株式市場には、個人投資家、機関投資家、政府規制当局、それに株式を発行している企業自体など、たくさんの利害関係者がおるんや。これらの関係者全員が、システムの動きに応じて自分たちの行動を変えられるんが、複雑適応系の重要な特徴の一つやな。システムがどう動いているかについての信念や観察結果が、システム内のすべてのプレイヤーの行動を変えられるんや。だからこそ、ウイルス的な効果が起こりうるんやな。
次は「共進化」や。株式市場を例にすると、さっき言うたようにいろんな利害関係者がお互いに反応し合うてるんや。システム自体が時間とともに進化するだけやなく、例えば参加している証券会社や取引所、上場廃止される企業なんかもあるし、時間とともに投資家の感覚もより洗練されていくんや。
共進化の例としては、ミーム株の出現があるな。GameStopの例なんかがそうや。ある集団が全く新しい信念や行動を生み出して、それが株価を操作し始めた。これは、他の人々がネイキッドショートセリングで株価を操作してたことへの反応やったんや。これが共進化の一例やな。
多様性についてはもう話したから飛ばすわ。
最後の2つが私にとって一番面白いんやけどな。8つ目は「カオスの縁」や。カオスの縁っちゅうんは、秩序と無秩序のバランスポイントのことや。ここで複雑系が最も適応性と創造性を持つんや。システムが騒がしすぎたり、カオス的すぎたりすると、何も起こらへんし、エントロピーが支配的になる。エントロピーが支配的になると、ただのノイズになって、何も生産的なことが起こらへん。逆に、秩序や構造が強すぎて硬直化すると、十分な変化が起こらへん。だから、システム内のエントロピーの量をバランスよく保つ必要があるんや。カオスの縁は、秩序と無秩序の最適なトレードオフポイントやねん。これは、技術全般や人工知能を語る上で特に重要になってくるで。
最後の9つ目は「アトラクター状態」や。アトラクター状態っちゅうのは、システムが最初の状態に関係なく、進化していく傾向にある条件やパターンのことや。アトラクター状態は、主にインセンティブによって作られるんや。システム内の行動を導くインセンティブ構造や報酬メカニズムによってな。
例えば、アリやミツバチの場合、主な報酬シグナルの一つが食べ物や。アリの行動は、主に食べ物をどこで見つけるかによって決まるんや。コロニーを作る場所も、インセンティブによって決まる。シェルターを探したり、水が適度にあったり、雨風をしのげたりする場所を選ぶんや。
もっと複雑なシステムでは、インセンティブ構造はもっと違ってくるし、歪んだインセンティブが生まれることもあるんや。例えば、株式市場では、ある人は株価が上がることを望んでるけど、別の人は株価が下がることに賭けてる。こういう対立する力が働いてるんや。
株式市場のプレイヤーによって、根本的に異なるインセンティブがあるんや。個人投資家の主なインセンティブは、もっと儲けることやろ。ほとんどのプレイヤーはもっと儲けたいと思ってる。でも、企業には違うインセンティブもあるんや。一般的に株価を上げたいし、買収を避けたいと思ってる。
一方、規制当局、つまり取引所や証券会社、政府なんかは、根本的に違うインセンティブを持ってるんや。彼らは基本的に審判みたいなもんで、ゲームをより秩序立てて進めることで報われるんや。つまり、カオスを抑えることが彼らの役目なんや。
市場での非線形的な行動の例としては、チューリップ狂乱があるな。好き勝手なことを言うて、チューリップを売るって約束して、価格が急騰したんや。
ほんじゃ、さっき話した概念をおさらいしとこか。1.創発、2.自己組織化、3.非線形性、4.フィードバックループ、5.適応、6.共進化、7.カオスの縁、8.アトラクター状態や。リストにあるいくつかは、ちょっと重複してるから飛ばしたけどな。
株式市場を例に挙げて説明してきたけど、次は他の2つの例について話そか。1つ目はソーシャルメディア、2つ目はサイバーセキュリティや。サイバーセキュリティの例として、あの大規模な停止について話すわ。クラウドストライクやったかどうか覚えてへんけど、とにかくあの時、大量のアンチウイルスソフトが強制的にアップデートされて、多くのWindowsマシンがブルースクリーンオブデスになったんや。これが原因で、いろんな障害が連鎖的に起こった。フライトが遅延したり、銀行取引が凍結したりしたんや。アンチウイルスソフトとフライトの間に明らかな直接的な関係はないように思えるかもしれんけど、これが複雑適応系の例なんや。
まず、ソーシャルメディアを複雑適応系として見てみよう。ソーシャルメディアは、何百万ものユーザー(エージェント)がプラットフォームを通じて投稿やいいねなどで相互作用してるんや。ユーザーエージェントだけやなく、プラットフォーム自体も利害関係者やプレイヤーとして複雑適応系に参加してるんや。つまり、TwitterやReddit、Facebook、YouTubeなんかのプラットフォームにも、それぞれのルールやシステムがあって、モデレーターや管理者、オーナーもみんなプレイヤーなんや。
こういった複雑なシステムでは、ウイルス的なコンテンツや集団行動といった創発的なトレンドが見られるんや。また、異なる認識論的部族も生まれる。認識論的部族っちゅうのは、似たような信念や情報との関係を持つユーザーグループのことや。例えば、地球平面説者なんかがそうや。インターネットの存在によって生まれた認識論的部族やな。他にも、レッドピルvsブルーピル、インセルなんかの異なるグループが出現するんや。
ソーシャルメディアの非線形的な性質は、例えば一つのツイートが誰かをキャンセル(社会的に抹殺)することにつながったり、一つのツイートがウイルス的に広がったりすることで示されるな。多くの陰謀論がソーシャルメディアで成文化されていく様子もええ例や。ロコの大蛇(ロコ・バジリスク)なんかがそうやな。これは、もともとは冗談半分の思考実験やったんや。
ロコの大蛇っちゅうのは、未来の超知能AIが、その超知能AIの創造を手伝わなかった人間を拷問するっちゅう最悪のシナリオを想像するものや。そうすることで、遡って自分の創造を確実にするんや。ロコの大蛇はマインドウイルスみたいなもんで、この単純な思考実験がウイルス的に広がって、今では独自の生き物みたいになってしもうたんや。
ちなみに、オリジナルの「攻殻機動隊 STAND ALONE COMPLEX」アニメシリーズでも、これについて語られてたな。誰かがアイデアを作り出して、そのアイデアが独自の生命を持つようになる。これがスタンドアローン・コンプレックスの例やな。
フィードバックループについても話せるな。クリエイターとして、私らはウイルス的に広がるものに報われるんや。これはインセンティブ構造に戻るわけや。例えば、私が動画やポッドキャストを作って、全然視聴されへんかったら、それは「もうそれはやめとき」っちゅう負のシグナルになるわな。逆に、めっちゃエンゲージメントが高くて登録者が増えるようなことをしたら、システムから「それをもっとやれ」っちゅうシグナルをもらうことになるんや。
次に、サイバーセキュリティの話をしよか。さっき言うた強制的なアンチウイルスアップデートが広範囲のシステム障害を引き起こした事件について説明するわ。これには連鎖的な影響や下流への影響も含まれてたんや。
要するに、こういうことが起こるんや。WindowsシステムやWindowsデスクトップ、Windowsサーバーがブルースクリーンになると、サービスがダウンしてしまう。多くの人が気づいてへんのは、クラウドもWindowsやUnix、Linuxなどのオペレーティングシステムで動いてるってことやな。
クラウドのすべての要素や構成要素が従来のオペレーティングシステムで動いてるわけやないけどな。独自のオペレーティングシステムで動いてるものもあれば、ファームウェアレベルやBIOSレベルのオペレーティングシステムで動いてるものもある。すべてがWindowsで動いてるわけやないんや。
けど、Windowsが位置する抽象化のレイヤーは、多くのものをコントロールしてるんや。例えば、認証をコントロールしてる。これは、サービスにログインできるかどうかや、他のサービス同士が通信できるかどうかを決めるんや。スケジューリングやアプリケーションサーバーなど、いろんな構成要素があるんや。
つまり、Windowsサーバーがダウンすると、パブリッククラウドやプライベートクラウドの多くの機能が停止してしまうんや。クラウドストライクの停止事件みたいなことが起こると(まだコーヒー飲んでへんから、クラウドストライクやったかどうか思い出せへんけど、まあ分かるやろ)、多くのシステムが機能を停止し始めるんや。
職場や店にいて、システムがダウンしたときのことを経験したことあるやろ。多くの人がサーバー、特にWindowsサーバーに頼りすぎてて、サーバーがダウンすると、多くの場合、その日は営業できへんことになるんや。サーバーがダウンすると、ウェブサイトが完全にダウンしたり、ロードできへんかったりする。ウェブサイトの一部の機能が動かへんかったり、物を購入できへんかったりすることもあるんや。こういう場合、影響範囲がめっちゃ広くなる可能性があるんや。
さて、複雑適応系について理解できたと思うし、3つの主な例も挙げたな。1つ目が株式市場、2つ目がソーシャルメディア、3つ目がクラウドインフラとサイバーセキュリティや。じゃあ、これが人工知能にどう適用されるか話そか。
AIは単一の存在として展開されへんのや。これがAI安全性コミュニティに対する私の主な批判の一つなんや。彼らはまだ、単一の超知能をどうコントロールするかっちゅう考え方をしてる。けど、単一の知能にも、単一の超知能にもならへんのや。複雑な環境や複雑なネットワークに参加する何十億ものエージェントが存在することになるんや。それぞれが異なるインセンティブ構造を持ってな。
結局のところ、すべてはインセンティブに帰結するんや。個々のAIエージェントのインセンティブを見る必要があるんや。中には、ユーザーを欺こうとする創発的な行動を示すかもしれへん。けど、覚えておいてほしいのは、これらのエージェントは人間だけやなく、他のシステムや他のエージェントとも多くの時間を費やして通信することになるんや。
APIを欺けるかって?APIは特定の入力を必要とするんや。APIにバリデーションやチェックがあれば、欺くのは難しいんや。まあ、APIにゼロデイ脆弱性や他の不具合を見つけることはできるかもしれへんけど、APIの背後にレイヤーを設けて、エージェントが言うてることを検証することもできるんや。我々はこれを「ゼロトラスト」って呼んで研究してきたんや。
ゼロトラストっちゅうのは、基本的に「信用せず、すべてを検証する」っちゅう考え方や。ネットワーク上でのコミュニケーションが中間者攻撃や敵対的なものかもしれへんって常に想定するんや。誰と話してるのか、その意図が何なのかを信用できへんのや。
ゼロトラストの原則とAIエージェント間のコミュニケーションを組み合わせるのは、ほんま簡単なことやで。さらに、多くの異なるエージェントが多くの異なるインセンティブを持つっちゅうことは、「みんな、合言葉は『人類を滅ぼせ』や。1、2、3で『人類を滅ぼせ』って一斉に言おうな」みたいな調整をするのがめっちゃ難しくなるんや。そんなことは多分起こらへんやろ。
けど、我々が注目せなあかんのは、意図せぬ結果や。ミスや創発的な行動やな。例えば、OpenAIが支えてる大量のモデルやエージェントがあって、OpenAIに毒された言葉や他の変なものがあるとしよう。GPT-4やGPT-5、GPT-6、どのモデルがこれらのエージェントの基盤になってるにしろ、そこにはバイアスが組み込まれてるし、欠陥も組み込まれてるんや。
けど、100億や1000兆のエージェントが同じバイアスや同じ信念、同じパターンを持ってたら、めっちゃ複雑な創発的行動が起こる可能性があるんや。
複雑適応系を研究してる人たちが推奨してる方法の一つは、チョークポイントを設けることや。重要なのは、チョークポイントやゲートを設けて、リスクを分離し、影響範囲を限定することやね
ん。AIエージェントだけで全プロセスを端から端まで動かすんやなくて、人間による検証が必要なチョークポイントを設けるんや。
まあ、人間による検証はボトルネックになりすぎるかもしれへんけど、他の種類の検証もできるんや。もっとアルゴリズム的な検証や、ブロックチェーンや透明性、合意に基づく検証なんかができるんや。チョークポイントは主要な方法の一つやね。
チョークポイントや分離、あるいは「障害領域」っちゅうのは、要するに小さな障害領域を作ることが、これを抑制する一番の方法なんや。
ストップギャップ措置も取れるな。株式市場を研究することで、「多くのエージェントから異常な行動が検出されたら、全てにブレーキをかける」っちゅうようなことができるんや。確か、株価が一定期間に10%か20%以上暴落したら、アルゴリズム的に取引を停止するルールがあったと思うわ。
AIでも同じようなことができるんや。エージェントが英語以外の何かで通信し始めたら、「その言語は遮断するで」って言うたりな。ストップギャップ措置を設けて、「これらのエージェントの行動がおかしいな」とか「普段アクセスせえへんリソースにアクセスしようとしてるな」っちゅうのを察知できるんや。
ちなみに、今日のサイバーセキュリティプラットフォームでもこれができるんや。誰が何のリソースにアクセスしてるかをモニタリングできるんや。もし、あるエージェントやエージェントの種類が突然、アクセスしちゃいけないリソースにアクセスしようとしたら、まずは良い意図があると仮定するんや。エージェントは単に与えられた問題を解決しようとしてるだけかもしれへんからな。
けど、それを制限して、アクセス権限を実装したり、エージェントを遮断したりして、「あかんで」って言うんや。人間が会社でリソースを探していて、あるファイルをクリックしたら「アクセス拒否」って出たときと同じや。その明示的な拒否は、「お前は誰やねんけど、ここにアクセスする権限はないで」っちゅうことを意味してるんや。
そしたら、人間やったらどうする?アクセス権限をリクエストするか、間違った場所にいることに気づくよな。同じように、多くのエージェントが「道具的収束の証拠」とか言われるような行動を示すけど、それは完全に無害な行動で、エージェントは単に与えられた問題を解決しようとしてるだけなんや。そして、ガードレールにぶち当たるんや。それがガードレールの存在意義やねんな。
つまり、3つのポイントがあるんや。一つ目はガードレール。これは境界線を作ることや。二つ目はチョークポイント。これは一種の受け渡しや検証のステップを設けることや。三つ目は小さな障害領域を作ること。
複雑適応系には他にもたくさんの原則があるけど、大体わかってもらえたと思うわ。既存の複雑適応系を研究することで、つまり既存のサイバーセキュリティフレームワークや、経済的なフェイルセーフ、株式市場だけやなく経済の複雑適応系を研究することで、エネルギーグリッドのような連鎖障害の影響を受けやすいシステムも見ることができるんや。
既存の複雑適応系を研究して、それを使って規制やベストプラクティスを実装し、大規模なAIエージェントの展開を設計・実施する。これが、安全性と規制、そしてベストプラクティスにアプローチする方法なんや。
技術的には3つのことやけどな。
以上や。うまく説明できたと思うわ。聞いてくれてありがとう。じゃあな。

この記事が気に入ったらサポートをしてみませんか?