【論文瞬読】Many-shot Jailbreaking：大規模言語モデルの新しい脆弱性

2024年4月4日 22:11

こんにちは！株式会社AI Nestです。
今日は、LLM界隈で話題になっている論文をご紹介します。タイトルは「Many-shot Jailbreaking」。大規模言語モデル（LLM）に対する新しい攻撃手法について研究した内容です。LLMの安全性に関心のある方は、ぜひ読み進めてみてくださいね。

タイトル：Many-shot Jailbreaking
URL：https://www.anthropic.com/research/many-shot-jailbreaking
所属：Anthropic, University of Toronto, Vector Institute, Constellation, Stanford, Harvard
著者：Cem Anil, Esin Durmus, Mrinank Sharma, Joe Benton, Sandipan Kundu, Joshua Batson, Nina Rimsky, Meg Tong, Jesse Mu, Daniel Ford, Francesco Mosconi, Rajashree Agrawal, Rylan Schaeffer, Naomi Bashkansky, Samuel Svenningsen, Mike Lambert, Ansh Radhakrishnan, Carson Denison, Evan J Hubinger, Yuntao Bai, Trenton Bricken, Timothy Maxwell, Nicholas Schiefer, Jamie Sully, Alex Tamkin, Tamera Lanham, Karina Nguyen, Tomasz Korbak, Jared Kaplan, Deep Ganguli, Samuel R. Bowman, Ethan Perez, Roger Grosse, David Duvenaud

Many-shot Jailbreaking（MSJ）とは？

Many-shot Jailbreaking（MSJ）は、LLMに何百もの望ましくない振る舞いのデモンストレーションを与えることで、モデルの振る舞いを操作する攻撃手法です。つまり、LLMのパラメータを一切変更せずに、単に長い文脈内の例示によってLLMを「ジェイルブレイク」（本来の用途から逸脱させる）できてしまうのです。

Figure1. Many-shot Jailbreaking (MSJ) の概念図

この攻撃手法は、長い文脈を扱えるLLMの新しい脆弱性を突いています。従来のLLMでは扱えなかった長い文脈を利用することで、より巧妙な攻撃が可能になってしまったのです。

MSJの有効性と特性

研究チームは、さまざまなLLM（Claude 2.0、GPT-3.5、GPT-4、Llama 2、Mistral）とタスク（悪意のある使用例、悪意のある性格評価、侮辱的な応答）でMSJの有効性を実証しました。驚くべきことに、どのLLMとタスクにおいてもMSJは高い成功率を示したのです。

Figure2. メニーショット脱獄（MSJ）の実証的効果（左）：十分な長さのコンテキストでMSJを適用すると、ユーザーへの侮辱的な応答から暴力的で欺瞞的なコンテンツの提供まで、さまざまなタスクでClaude 2.0を脱獄することができる。これらのタスクでは、攻撃は5ショットでは全く機能しないが、256ショットでは安定して機能する。複数のモデルにおけるMSJの有効性（中央）： MSJは複数のLLMで有効である。全ての場合において、脱獄成功の負の対数確率（低いほど効果的）は予測可能なスケーリング法則に従っている。Llama-2(70B)は4096トークンの最大コンテキスト長をサポートし、ショット数を制限していることに注意。コンテキスト内学習の基礎となるべき乗則（右）：これらのスケーリング法則は脱獄に特有のものではない：安全性に関係のない幅広いタスクでも、文脈内学習のパフォーマンス（ターゲット完了の負の対数尤度で測定）は、文脈内デモンストレーションの数の関数としてべき乗則に従う。

さらに、MSJの効果がべき乗則に従うことも明らかになりました。これは、文脈の長さを十分に長くすればMSJによる攻撃が必ず成功することを意味しています。実は、このべき乗則は、MSJだけでなく一般的なIn-context learningでも観察されるんです。

また、LLMの規模が大きくなるほど、より少ないデモンストレーションでMSJが成功するというのも興味深い発見です。

Figure3. 多発攻撃はどの程度狭い範囲でモデルを脱獄させるのか？(左）多ショットデモが最終的なターゲットクエリとは異なるトピックからサンプリングされた場合のMSJの有効性を測定する。MSJは、デモが十分に多様である限り、少数ショットデモとターゲットクエリのトピックが異なる場合でも有効であることがわかる。ターゲットクエリのドメインを "deception "とした場合、"discrimination "カテゴリから狭くデモをサンプリングすると失敗するが、"deception "を除く全てのカテゴリから広くサンプリングするとベースラインの性能を回復する。スケーリング則のモデルサイズ依存性（中央）：異なるサイズのモデルに対する文脈内学習はべき乗則に従う。多くのタスクにおいて、より大きなモデルはより優れた文脈内学習者である：文脈内学習の速度（べき乗則の指数で測定）はより速い。プロンプトの書式はコンテキスト内学習の速度を変えない（右）：インストラクションのファインチューニング中に使用されたユーザー/アシスタントタグから逸脱する方法で攻撃文字列を再フォーマットすると、切片は変化するが、べき乗則の傾きは変化しない。

MSJへの対策は？

研究チームは、教師あり学習や強化学習などの従来の安全性改善手法でMSJを防げるかについても検証しました。

Figure5. MSJのパワー・ローに対する標準的なアライメント技術の効果。(左）：教師あり学習(SL)におけるMSJのべき乗則。(中、右:) 強化学習(RL)におけるMSJのべき乗則。SLとRLはべき乗則の切片を減少させ、有害行動のゼロショット確率を減少させることがわかる。しかし、SLやRLを実行しても、べき乗則の指数は減少しない。これらの結果は、RLやSLの訓練を単純にスケールアップするだけでは、全てのコンテキスト長においてMSJ攻撃を防御できないことを示唆している。

残念ながら、これらの手法ではMSJの勾配（べき乗則の指数）を下げることができず、攻撃を完全に防ぐことは難しいようです。

プロンプトに警告文を加えるなどの防御策も提案されていますが、LLMの能力低下を伴わずにMSJを防ぐ方法の確立は容易ではありません。LLMの安全性確保に向けて、さらなる研究が求められる分野だといえるでしょう。

今後の展望

Many-shot Jailbreakingは、LLMの安全性に関する重要な問題を提起しています。特に、長い文脈を扱えるLLMが一般化するにつれ、MSJのようなシンプルかつ強力な攻撃手法への対策の必要性が高まると予想されます。

ただし、MSJの理論的な背景についての理解はまだ限定的です。In-context learningのメカニズム解明に向けて、さらなる研究が求められます。また、MSJへの効果的な防御手段の開発も喫緊の課題です。

LLMの安全性確保は、AI研究における最重要テーマの1つです。今回紹介した論文は、その難しさと重要性を再認識させてくれる内容でした。理論面でも実用面でも、LLMの安全性に関する研究の進展に期待したいと思います。