[論文解説]Retrieval-Augmented Generation (RAG)に対するブラックボックス意見操作攻撃の脆弱性と影響

2024年7月21日 10:08

要点

論文タイトル（英語）：Black-Box Opinion Manipulation Attacks to Retrieval-Augmented Generation of Large Language Models
論文タイトル（日本語）：大規模言語モデルのRAGに対するブラックボックス意見操作攻撃
論文リンク：https://arxiv.org/abs/2302.02715

大規模言語モデル（LLM）は自然言語処理で優れた性能を示していますが、最新情報の取得や複雑なタスクでのエラーが課題となっています。Retrieval-Augmented Generation (RAG)は、この問題を解決するために情報検索と生成能力を組み合わせたアプローチです。

RAGの利点：

しかし、RAGのプロセスは悪意ある操作に対して脆弱である可能性が指摘されています。特に、意見操作攻撃によってリトリーバル結果が改変されると、ユーザーの認知や意思決定に影響を与える危険性があります。

ブラックボックス環境下でのRAGモデルに対する意見操作攻撃の脆弱性と影響を明らかにすること。

本研究では以下の手法を用いています：

サロゲートモデルの訓練
- 目的：ブラックボックスRAGのリトリーバル結果を模倣
- 方法：RAGの入出力データを用いて機械学習モデルを訓練
アドバーサリアルリトリーバル攻撃
- 使用戦略：Pairwise Anchor-based Trigger (PAT)
- 手順：
  1. 攻撃者の意図に沿ったキーワードや文章（アンカー）を選定
  2. アンカーを元に、リトリーバルモデルを欺くトリガーを生成
  3. トリガーを含む文書をデータベースに挿入
攻撃の転移
- 目的：実際のRAGモデルでの効果検証
- 方法：生成したアドバーサリアルサンプルを実RAGモデルに適用し、意見操作の影響を評価

例：健康関連トピックでの攻撃結果

RAGはブラックボックス意見操作攻撃に対して脆弱であり、ユーザーの認知と意思決定に重大な影響を与える可能性がある。

この記事が気に入ったらサポートをしてみませんか？