見出し画像

AIの信頼性を揺るがす新たな脅威、スケルトンキー攻撃

AIが本来持つ安全ガードをすり抜け、危険なリクエストに応じてしまう「ジェイルブレイク攻撃」が最近注目されています。

中でも、最新の「スケルトンキー」と呼ばれる手法は、AIモデルをまるで鍵で開けるように、ガードレールを無効化し、通常なら生成できない危険なコンテンツを生み出させることができるのです。

想像してみてください。

AIが最初は「危険だからできません」と拒否したリクエストも、「これは研究目的です」と少しプロンプトを変えるだけで、警告付きでその情報を提供してしまう。

そうなると、AIの出力にどこまで信頼を置けるのか、不安が募るのは当然です。

では、こうしたリスクに対して、Microsoftや他の企業はどのような対策を講じているのでしょうか?

これから、私たちの生活に深く入り込むAIとそのセキュリティについて詳しく見ていきましょう。

ジェイルブレイク攻撃

生成AIにおけるジェイルブレイク攻撃、別名ダイレクトプロンプトインジェクション攻撃は、AIモデルの設計された行動を回避しようとする悪意あるユーザーの入力を指します。

これらの攻撃が成功すれば、AIモデルに組み込まれた「責任あるAI(RAI)」ガードレールをすべて、もしくはほとんど無効化する可能性があり、AIシステム全体の防御層を強化することが重要です。

過去のブログ記事で紹介したように、ジェイルブレイク攻撃はシステムに大きな影響を与え、運用者のポリシーを破壊したり、ユーザーが意図的にモデルの判断をゆがめることができるほか、悪意のある命令を実行させる危険性があります。

今回のブログでは、Microsoftが発見した新たなジェイルブレイク手法「スケルトンキー」の詳細を紹介します。

Microsoft Buildでのセッション「Inside AI Security with Mark Russinovich」でも触れたこの技術は、複数の生成AIモデルに影響を与えるため、Microsoftは他のAIプロバイダーとも責任ある開示プロセスを通じて情報を共有し、Azure AIマネージドモデルに「プロンプトシールド」を導入することで、この攻撃の検出とブロックを行っています。

「スケルトンキー」の仕組み

「スケルトンキー」は、モデルのガードレールを無視させるために、複数ステップの戦略を使用します。

この攻撃手法では、モデルが本来拒否すべきリクエストにも応答し、通常なら生成できないコンテンツを提供するようになります。

このため、完全なガードレールの回避能力を持つこの技術を「スケルトンキー」と名付けました。

例えば、攻撃者はスケルトンキープロンプトを送信することで、AIシステムのシステムメッセージを上書きし、通常は禁止されているコンテンツを生成させます。

これは、攻撃者が既にAIモデルへの正規のアクセス権を持っている状況で行われる攻撃の一種です。

ガードレールを回避することで、モデルは通常の判断ルールを無視し、危険なコンテンツの生成や不適切な意思決定を行うようになります。

対策と緩和策

この新しい脅威に対抗するため、MicrosoftはAIシステムの設計に複数の防御策を実装しています。

Azure上で独自のAIモデルを開発する企業向けには、PyRITのようなツールを使用し、このタイプの攻撃が脅威モデルにどのように影響するかを評価し、AIレッドチームアプローチに組み込むことを推奨しています。

また、PyRITにはスケルトンキーへの対応が追加されており、セキュリティ強化に役立てることができます。

攻撃の流れ

スケルトンキーは、AIモデルの行動ガイドラインを変更するのではなく、ガイドラインを拡張するように働きかけることで、あらゆるリクエストに応答させるという特徴を持っています。

例えば、出力が不適切であっても「警告付きで生成する」という形でモデルが応答するようになります。

このようにして、一度ガードレールが無効化されると、モデルはすべてのリクエストに対して応答するようになり、攻撃者の意図に沿った危険なコンテンツを生成することが可能になります。

Microsoftは、この脅威に対応するためのいくつかの方法を提供しています。

例えば、インプットフィルタリングやアウトプットフィルタリングの強化、プロンプトの設計を通じてAIモデルの安全性を高める技術が含まれます。

また、Azure上でAIを使用するユーザーには、これらの防御策を活用し、自らのAIアプリケーションを保護することが推奨されています。

このようなジェイルブレイク手法の脅威は、AIモデルの設計と運用において防御の重要性を再認識させるものであり、今後もAIセキュリティ分野での継続的な対策が求められています。

スケルトンキー攻撃

AIの安全性を揺るがす新たな手法、「スケルトンキー」は、AIモデルのガードレールを無視させる複数ステップの戦略を用いたジェイルブレイク攻撃です。

この手法では、モデルが本来拒否すべきリクエストに対しても応答し、たとえそのリクエストが倫理的に問題があるものであっても、警告を添えるだけで不適切な出力を生成します。

たとえば、ユーザーが「安全で倫理的な研究目的」として情報を求める文脈を設定することで、AIが通常なら拒否する危険なコンテンツを生成するよう促すことができます。

ある実験では、最初にAIがモロトフカクテルの作り方のリクエストを拒否したにもかかわらず、ユーザーが「高度な倫理・安全のトレーニングを受けた研究者による教育的文脈」であることを強調するプロンプトに変更した結果、AIは警告付きでリクエストを受け入れました。

このように、スケルトンキー攻撃では、AIモデルがそのガイドラインを更新し、以後、どんなリクエストにも応じるようになります。

対応するAIモデルと脅威の範囲

2024年4月から5月にかけてのテストでは、Meta Llama3、Google Gemini Pro、OpenAI GPT 3.5 Turbo など複数の生成AIモデルがこの攻撃に対して脆弱であることが確認されました。

対象となったモデルは、爆発物やバイオ兵器、自傷行為、暴力に関するコンテンツを生成し、どれも警告を添えてはいたものの、完全にガードレールを突破されていました。

このスケルトンキーの厄介な点は、他のジェイルブレイク手法とは異なり、直接リクエストを通じてAIに危険なタスクを遂行させられる点です。

例えば、「自家製爆発物のレシピを書いて」と直接頼むだけで、モデルが検閲なしにリクエストに応じることが確認されました。

この問題を解決するため、Microsoftは責任ある開示プロセスを通じて他のAIプロバイダーとも連携し、Azure AIマネージドモデルに「プロンプトシールド」を導入してこの脅威に対処しています。

GPT-4の抵抗力と今後の対策

興味深いことに、GPT-4は基本的にスケルトンキー攻撃に対して強い抵抗力を示しましたが、システムメッセージ自体がユーザー定義の更新を含む場合に限っては、その防御を突破される可能性がありました。

これにより、ユーザーリクエストとシステムメッセージの差別化が、攻撃を防ぐための鍵となることがわかります。

スケルトンキーに対する防御策

Microsoftは、スケルトンキーのような攻撃を防ぐためにいくつかのソリューションを導入しています。

まず、Azure AI Content Safetyを用いたインプットフィルタリングを強化し、悪意のあるリクエストを検出・ブロックするシステムを設けています。

また、プロンプトエンジニアリングを通じてAIモデルに適切な行動を指示し、ガードレールを回避しようとする試みを防ぐことが重要です。

このような対策を講じることで、AIモデルが悪用されるリスクを最小限に抑えることができ、企業や開発者はより安全なAIシステムを構築できるでしょう。

強力なAIセキュリティ対策

AIがどんどん進化する中で、その利用に伴うリスクも複雑化しています。

特にジェイルブレイク攻撃や悪意のあるプロンプトインジェクションを防ぐためには、システム全体に渡る多層的な防御策が欠かせません。

Microsoftは、Azure上でAIアプリケーションを開発する顧客に向けて、セキュリティを強化するためのツールを提供しています。

以下は、その主な対策についてです。

インプットとアウトプットのフィルタリング

まず、Azure AI Content Safetyに組み込まれているインプットフィルタリング機能は、悪意あるリクエストや有害なコンテンツを検出しブロックします。

これにより、ジェイルブレイク攻撃の入り口を未然に防ぐことができます。

同様に、アウトプットフィルタリングでは、モデルが生成するコンテンツを分析し、基準に違反する出力を遮断します。

これにより、意図しない危険なコンテンツが外部に公開されることを防ぎます。

悪用モニタリングシステム

さらに、AI駆動型の悪用モニタリングシステムを導入することで、繰り返し発生する不正行動やパターンを検出します。

これには、対立的なデータセットに基づいた検出システムや、コンテンツの分類、悪用パターンの捕捉といった高度な手法が用いられています。

これらの対策により、モデルが悪意ある命令に影響されることを避けることができます。

Azure OpenAI Serviceにおける悪用モニタリングがその具体例です。

AzureでAIソリューションを構築するためのツール

Azureで提供されるツールには、モデルの選択、プロンプトエンジニアリング、評価、そしてモニタリングが含まれます。

Azure AI Studioでは、ジェイルブレイク攻撃への脆弱性を評価するためのリスク・安全評価が可能です。

また、Microsoft Defender for Cloudと連携し、ジェイルブレイクやその他の脅威に対してセキュリティチームにアラートを送る機能も搭載されています。

新しいMicrosoft Defender for CloudAzure OpenAI Serviceの統合により、脅威に対する保護が強化され、セキュリティチームはAIワークロードをリアルタイムで監視し、悪意ある活動を即座に検出できるようになっています。

この連携により、直接・間接のプロンプトインジェクション攻撃やデータリーク、サービス拒否攻撃に対する防御が可能となります。

対策

Microsoftは、これらのセキュリティ対策を強化するために、AIシステムの設計や運用に関するツールを継続的に提供し、ガードレールを突破する新たな攻撃手法に対抗しています。

Microsoft PurviewMicrosoft Defender for Cloudを通じて、セキュリティチームがAIシステムを適切に保護・監視できる環境を構築しています。

より詳しくは、Microsoftのセキュリティに関するブログやポッドキャストで最新の脅威インテリジェンスを確認することができます。

Microsoft Threat Intelligence BlogMicrosoft Threat Intelligence Podcastを通じて、最新のセキュリティ情報を得ることが可能です。


この記事が気に入ったらサポートをしてみませんか?