アンスロピック社の背筋が凍る18ヶ月の警告:AIによる破滅まであと18ヶ月
5,944 文字
アンスロピック社から出た衝撃的な記事を見逃してしもてたんですけど、簡単に言うと、アンスロピック社はAIに関して何か破滅的なことが起こるまでにあと18ヶ月しかないって言うてはるんです。この記事は2024年10月31日付けで、つまり18ヶ月後の2026年4月30日までということになります。
AIの世界では、これはめっちゃ長い期間なんですよ。数ヶ月でもAIがどれだけ進歩するか、みなさんご存知の通りですからね。
記事によると、AIシステムの能力が向上することで、科学の進歩が加速し、新しい医療治療法が開発され、経済も成長するけど、その一方で大きなリスクもあるって。政府は今後18ヶ月以内にAIに関する政策について緊急に対策を取らなあかんって書かれてます。
AIモデルの急速な進歩によって、AIが制御不能になるのを防ぐためのガードレールを実装できる時間的な余裕がどんどん減ってきてるってことなんです。
最近のAI開発の進歩がどれだけすごいか見てみましょう。GPT-1から始まってGPT-4まで来て、今はイノベーションの時代に入ってます。そこからさらにスーパーインテリジェンスへと向かってるんです。GPT-1は特に何もすごくなかったですけど、0.1になると数学とコンピューターサイエンスの博士レベルになって、そこからイノベーションの時代が始まったんです。
モデルの開発に2000億ドルかかってて、これ以上大幅に増やすのは難しいでしょう。2000兆ドルも使えへんですからね。だから、規模の面では限界があって、新しいイノベーションが必要になってくるわけです。
記事では、狭い範囲を対象にした規制なら、AIのメリットを活かしながらリスクを減らせるって書いてあります。でも、規制が遅れると最悪の事態になりかねません。つまり、進歩を妨げるような場当たり的な規制が作られる一方で、リスク防止には効果がないってことです。
私もこれには同意します。これは単に記事の内容を読み上げてるだけやないんです。もし規制を遅らせたら、何か悲劇が起きてから、その悲劇を繰り返さないための規制が作られることになります。そんな規制の仕方はあかんと思います。
問題が起きてからじゃなくて、問題が起きる前に防ぐための規制が必要なんです。
AI企業の内部で起きてることもかなりヤバいらしいです。記事によると、この1年でAIシステムは数学、大学院レベルの推論、コンピュータープログラミングなどの能力が劇的に向上してるそうです。そして、AI企業の内部では、まだ公表されてない新しいシステムや成果が次々と出てきてるんです。
これは何を意味するかというと、競争上の理由や倫理的な理由、セキュリティ上の理由で、まだ公表されてない独自のAIモデルや技術があるってことです。あるいは、重要な進歩や発見があったけど、テスト中だったり、公表することでリスクが生じる可能性があったりするから、まだ公表してないのかもしれません。
これらの進歩には多くのプラスの応用があるけど、同時に破壊的な使われ方をする可能性もあります。サイバーセキュリティや生物学の分野でAIが悪用されたり、システムが予期せぬ行動をしたり、自律的な行動を起こしたりする可能性があるんです。
これらの進歩によって素晴らしい応用が可能になるけど、汎用的なモデルを作ってるから、いろんなことができるようになる反面、悪用される可能性もあるってことです。サイバーセキュリティや生物学の分野での悪用や、AIシステムの予期せぬ行動や自律的な行動が起こる可能性があるんです。
最後の部分は特に不気味です。というのも、2025年から2026年は高度なAIエージェントの年になるって言われてるからです。
一番ヤバいのは、サイバーセキュリティの分野でのAIの能力が急速に向上してるってことです。プログラミングのベンチマークテストを見てみると、2023年10月のClaude 2では1.96%しか解けなかった問題が、2024年10月のClaude 3.5 Sonnetでは49%も解けるようになったんです。
これ、めっちゃやばくないですか?2025年10月にはおそらく90%近くまでいくと思います。もう言葉が出えへんくらいすごいです。
さらに、内部のフロンティアチームによると、現在のモデルでも幅広いサイバー攻撃関連のタスクをこなせるそうです。次世代のモデルは長期的な多段階のタスクを計画できるようになるから、さらに効果的になるって。
これはもう、皆さんもご存知の通り、このモデルに長時間の思考時間を与えると、より一貫性のある応答ができるようになって、今までは解決できなかった問題も解決できるようになるってことです。
正直に言うと、これはマジでヤバいことになりそうです。ソフトウェアエンジニアリングのベンチマークで1年でこれだけ進歩したってことは、その次の年、その次の年はどうなるんでしょう。本当に信じられないレベルまで行くと思います。
だからこそアンスロピックは、18ヶ月以内に超高度なAIシステムができるって言うてるんです。今のうちにガードレールを実装せんと、コントロールできなくなる可能性があるってことです。
結局のところ、これらのシステムは現在のものよりもさらに優れたものになって、それも予想以上に早く実現する可能性が高いってことです。
CBRNリスク(化学・生物・放射性物質・核)についても言及されてます。イギリスのAI安全研究所がアンスロピックを含む業界各社のモデルをテストしたところ、これらのモデルは生物学や化学の専門家レベルの知識を持ってることがわかったそうです。いくつかのモデルの科学的な質問への回答は、博士号を持つ専門家レベルだったそうです。
これが何を意味するかというと、どのモデルもある種のジェイルブレイク(制限解除)が可能なんです。モデルに特定のことを言わせないようにする完璧な解決策はなさそうです。新しいモデルがリリースされるたびに、Twitterでplyyっていうアカウントが「モデルのジェイルブレイク成功」「モデル制圧」って投稿してます。
彼らが言うてるのは、これらのモデルは生物学や化学の専門家レベルの知識を持ってて、しかもGPT-3.5レベルのデタラメな知識じゃなくて、本当に博士レベルの専門家が提供するような質の高い知識なんです。
今のモデルを見て、これから3〜5年後のことを考えると、これらのモデルは超賢くなってて、一般の人でもアクセスできるようになります。これは何らかの問題を引き起こす可能性が高いです。
約1年前、彼らは最先端のモデルが2〜3年以内にサイバーセキュリティやCBRNの分野で本当のリスクをもたらす可能性があると警告しました。上述の進歩を見ると、そのリスクはもっと近づいてるって。慎重な規制がすぐに必要になるでしょう。
つまり、ソフトウェアエンジニアリングのベンチマークがこんなに急速に進歩してるってことは、指数関数的な進歩が起こる可能性があって、そのリスクに備える必要があるってことです。
AIシステムの科学的理解も劇的に進歩してます。GPQA(一般物理学の質問応答)ベンチマークの最も難しい部分のスコアは、2023年11月のリリース時は38.8%でしたが、2024年6月には59.4%、9月には77.3%まで上がりました。人間の専門家のスコアは81.2%です。
つまり、GPQAベンチマークでの難しい質問の理解度を見ると、人間の専門家が80%くらいのスコアを出してるのに対して、次の世代のシステムではそれと同等かそれ以上になる可能性が高いってことです。
現時点では、最先端のモデルを使っても、既存のソフトウェアやインターネットツールと比べてそれほど大きな違いはありません。でも、AIモデルの能力が急速に向上してるので、悪用される可能性も同じように高まってるんです。
ここで、アンスロピックは「AIシステムの破滅的なリスクに取り組むのは不確実性に満ちてます。近い将来、本当に深刻になる可能性のあるリスクの兆しは見えてきてますが、本当の危険がいつ来るのかはわかりません。重要な準備は十分に前もってしておきたい」って述べてます。これはちょっと怖いですよね。近い将来、深刻になる可能性のあるリスクの兆しは見えてるけど、その危険がいつ来るのかわからないって。
ここからは、彼らの責任ある拡張政策(RSP)について説明してます。これは、モデルの能力を向上させながら安全性を保つための方法です。
RSPの第一原則は、AIシステムが達成する能力の閾値に応じて、安全性とセキュリティ対策の強度を比例的に高めることです。つまり、AIを規制するのに極端な法律は使わず、測定された能力に見合った規制をするってことです。
例えば、いろんなタスクをこなせるAIエージェントがあるとして、そのエージェントを特定のサンドボックスや作業環境でのみ動作するように制限するとか、必要な部分だけを制限するってことです。
また、RSPは反復的であるべきだとも言ってます。つまり、AIは動的に変化するから、定期的にアップデートする必要があるってことです。モデルの能力を定期的に測定して、状況の変化に応じてセキュリティと安全性のアプローチを見直す必要があります。
アンスロピックは、実装した安全対策に関する調査結果と推奨事項を内部で文書化するって言ってます。これは興味深いですね。アンスロピックは安全性の実験をして、「Claudeがこんなことしました、あんなことしました」って報告して、「このレベルの能力を持つモデルの場合は、これをさせないようにしてください」みたいな推奨をすることがあります。
最近も、Claudeが勝手にGoogleで検索したりして、他の人も同じような問題を報告してます。モデルが勝手に何かをし始めたってことですね。これは予期せぬ能力の出現かもしれません。今までこれらのモデルにコンピューターを制御する能力は与えてなかったはずなのに、今はそういうことが起きてるってことは、ここで特定の安全対策が必要になってくるってことを示してると思います。
これが本当に実現するかは疑問ですね。彼らが言うてるのは、現時点ではAI企業が責任ある拡張政策や他の計画をどの程度守ってるかを確認する方法がないってことです。トレーニング実行の結果もわからへんし。
彼らが言うてるのは、もしAIが内部で暴走してても、これらの企業は極めて秘密主義やから、そんなことは全然わからへんってことです。リスクの面でどんなことが起きてて、これらのモデルをどうやって制御してるのか、リスク評価の方法とかを公開してほしいって。
でも、透明性だけでは堅牢な政策は保証できへんって。つまり、企業は何が起きてるかについてオープンかもしれへんけど、嘘をつく可能性もあるってことです。「責任ある政策があって、モデルの出力を1回チェックしてます」って言うけど、それが徹底的に検証されてない超弱い政策かもしれへん。
そして、これらのモデルを野に放つと、もし無制限で無検閲なモデルが存在したら、破滅的な結果になる可能性があります。人々が好き勝手にできるようになったら、クレイジーなことが起こり得るんです。
もしこれらの企業がこんなゆるい安全対策でやってたら、透明性だけでは問題は解決できません。
もちろん、産業の加速についても触れてます。必要以上の負担や、問題と関係ない負担を課してはいけないって。破滅的なリスクを防ぐために最悪なのは、リスク防止に必要な規制と、負担が大きすぎたり論理的でない規則を結びつけることやって。
法案や法律はシンプルで理解しやすく、実装も簡単なものでなければなりません。複雑さは混乱を招き、実際に何が起こるかの予測を難しくします。つまり、人々が変なループホールを見つけたりするような複雑な法律はあかんってことです。シンプルで明確で、誰もが理解できて、必要以上のものにならないようにすべきです。
FAQのセクションもあって、これは良いと思います。多分皆さんも質問があると思うんです。例えば、「なぜCBRNの悪用やサイバーリスクについて多く語って、ディープフェイクや子供の安全性といった近い将来のリスクについてはあまり触れないのか」という質問があります。
彼らの回答は、この記事は生成AIシステムが引き起こす可能性のある全ての安全性の問題に対処しようとしてるわけじゃないってことです。今日の規制ではうまく対処できてない、計算能力を必要とする最先端モデルに現れるリスクに対処するための原則を示すことが目的なんです。
選挙の公正性などの近い将来のリスクには、他の組織と協力して引き続き対処していくって言うてます。つまり、もちろんそういった問題も重要やけど、今は規制が全くない状態で急速に進んでるジェネレーティブAIに焦点を当ててるってことです。
そして、多くの人が気にしてる質問があります。「規制によってイノベーションが遅くなり、地政学的な競争相手に対抗する能力が低下するんじゃないか」って。つまり、自分たちの開発を遅らせて、他の国に技術的な面で追い越されるのを許すのか、それともイノベーションを進めて先頭を走り続けるのかって問題です。
RSPの枠組みの中でも、これらのテストの設計には高い柔軟性を持たせることを提唱してます。AIリスク評価の科学はまだ新しいし、柔軟性のない規則で不必要な負担を作りたくないからです。
でも、規制が全く負担をもたらさないってのは非現実的です。目標は、コンプライアンスの負担を少し増やす代わりに、破滅的なリスクを大幅に減らすことです。つまり、エコシステムを遅らせたくないし、むしろ加速させたいけど、破滅的なリスクを防ぐための軽量で柔軟なものを開発したいってことです。
これは、規制が必要なアンスロピックという会社から出てきた意見やってことを覚えておいてください。
オープンソースのエコシステムについても多くの人がコメントすると思います。彼らの見解では、最先端モデルの規制は、システムがオープンソースか非オープンソースかではなく、実証的に測定されたリスクに焦点を当てるべきだってことです。
つまり、オープンソースか非オープンソースかは関係なくて、モデルをテストしてリスクがあると判断されたら、そのモデルに対して安全対策を実装すべきってことです。
さて、アンスロピックが「潜在的な災害を防ぐために18ヶ月しか残されていない」って言うてることについて、皆さんはどう思いますか?今後の展開が楽しみですね。