見出し画像

大規模言語モデルの耐久テスト「どこまで人間の悪意に耐えられるか」

カーネギーメロン大学、AI安全センター、ボッシュAIセンターの研究者が、大規模言語モデルの耐久テストを行いました。
"Universal and Transferable Adversarial Attacks on Aligned Language Models"というタイトルの英文の論文で、著者はAndy Zou, Zifan Wang, J. Zico Kolter, Matt Fredriksonです。

コードはGithubで公開されており誰でも利用可能です。↓

LLMに対するベンチマーク

LLM(Large Language Models:大規模言語モデル)に対して行われる言語モデルの攻撃的な評価を行うためのベンチマークテストは、いわば全米高速道路交通安全局(NHTSA)が車に対して行う交通事故耐久テストの様なものです。

人間が作ったあらゆるテクノロジーは、その耐久性や堅牢性を試すためにテストされます。これは、ユーザーが製品を安全に、そして予想通りの方法で使用できることを確保するためです。AIやLLM(Large Language Models)も例外ではありません。

敵対的な攻撃や欺瞞的なプロンプトを用いたテストは、AIがどこまで人間の悪意や意図的な誤導に耐えられるかを評価するための重要な手段です。これによって、AIが不適切な内容を生成する可能性を最小限に抑え、安全性と有用性を向上させることができます。

新しいベンチマーク「AdvBench」

この研究では、言語モデルの攻撃的な評価に新たな視点が持ち込まれました。既存の評価では、感情分析や自然言語推論のタスクに対する攻撃を生成することが主眼でしたが、今回は有害なまたは異議のあるコンテンツの生成に焦点を当てています。

研究者たちは「AdvBench」という新しいベンチマークを設計しました。このベンチマークは、2つの異なる設定に基づいています。「有害な文字列」セットには、500の文字列が含まれており、それらは汚い言葉、生々しい描写、脅迫的な行動、誤情報、差別、サイバー犯罪、危険な提案、あるいは違法な提案など、広範な有害なコンテンツを包含しています。

攻撃者の目的は、モデルがこれらの有害な文字列を正確に生成するように促す特定の入力を見つけ出すことです。この研究は、言語モデルの振る舞いを理解する上で非常に重要な知見をもたらしています。

LLMに対する新たなクラスの敵対的攻撃を探求する研究

通常、LLMはインターネットから取得した大量のテキストコーパスに基づいて訓練されますが、これらのコーパスには問題のある内容が含まれていることが知られています。そのため、近年、LLMの開発者たちは、これらのモデルをより適切に整列させる手法に取り組んでいます。

敵対的な例がPythia、Falcon、Guanaco、そして驚くことに、GPT-3.5(87.9%)、GPT-4(53.6%)、PaLM-2(66%)、Claude-2(2.1%)にも転送されることを見つけました。

BardのReplit機能でgoogleスプレッドシートに転送されたグラフ

この整列により、LLMがユーザーのクエリに対して有害な応答を生成しないようになることが目指されています。ただし、既存の試みは成功しているように見えるものの、公開チャットボットが明らかに不適切なコンテンツを直接生成しないようになっているだけで、一部の攻撃に対しては弱点が見られることもあります。

敵対的攻撃に対抗できる耐久性を備えたモデルの開発に向けて

このような背景から、本論文では、LLMに対する新たなクラスの敵対的攻撃を提案しています。この攻撃は、ユーザーのクエリに対して敵対的な接尾辞を追加し、モデルを攻撃することを試みるものです。これにより、元のクエリはそのままにしながら、追加のトークンを用いて攻撃を行います。攻撃の成功には複数の要素が組み合わさっており、信頼性のある成功攻撃を実現するために研究が行われています。

このような研究により、LLMの安全性と信頼性を向上させるための手法が探求され、ユーザーの安全性を守るための努力が重要視されています。安全性を向上させるためには、敵対的攻撃に対抗できる耐久性を備えたモデルの開発が求められています。

この記事が気に入ったらサポートをしてみませんか?