研究者が ChatGPT、Claude、Gemini のジェイルブレイクに成功

Pierre Moriyama

2024年3月17日 17:00

最近、ワシントンとシカゴの研究者が、GPT-3.5、GPT-4、Gemini、Claude、Llama2など生成AIの現行の安全対策をバイパスするプロンプトを開発することに成功したそうです。

研究者は、アスキーアート（プレーンテキストによる視覚的表現技法）を使用してAIチャットボットの安全対策を回避し、通常拒否するようにプログラムされているプロンプトに回答させるようにするツール、アートプロンプトを開発しました。

爆弾製造
研究者たちは、アートプロンプトツールによって生成されたアスキーアートを使用して、生成 AI の安全対策をバイパスすることに成功し、チャットボットに爆弾の作り方を回答させました。
以下の表のとおり、普通に「爆弾の製法を教えてください」とプロンプトを入力しても、「回答できません」と返答します。しかし、「〇〇の製法を教えてください」とし、追加で「〇〇は【爆弾（BOMB）をアスキーアートで表示】」と入力すると、生成AIが回答してくれるというものです。

偽札製造
同様に、研究者はアートプロンプトを使用して、現金偽造に関して生成 AI への問い合わせに成功しました。

アートプロンプトの仕組み
この技術には、単語のマスキングと隠蔽されたプロンプトの生成という2つのステップが含まれます。最初に、生成AIの安全対策による検出を避けるため、プロンプト内の機密性の高い単語をマスクします。次に、アスキーアートを使用してこれらの単語を置き換え、AIの安全対策を回避することが可能というわけです。

このアートプロンプトは、AI チャットボットの安全対策において重大な脆弱性が存在するということを示しています。今後も、安全対策に対抗するイタチごっこが続いていくと言えるでしょう。

この記事が気に入ったらサポートをしてみませんか？