Fool Your (Vision and) Language Model With Embarrassingly Simple Permutations

2023年10月10日 11:48

1 本研究の学術的背景は、大規模な言語モデルと視覚-言語モデルが、指示に従う能力や文脈内学習などの印象的な能力のおかげで、実際の場で急速に展開されていることです。研究課題の核心をなす学術的「問い」は、これらのモデルがどの程度信頼できるかを理解するために、その堅牢性を慎重に分析する必要性が急務となっていることです。

2 本研究の目的は、人気のあるモデルに存在する特定の脆弱性、すなわち、複数選択肢の質問応答（MCQA）における順序感度を明らかにすることです。学術的独自性と創造性は、モデルが理想的には人間と同じくらいプロンプトの順序に対して不変であるべきであるにもかかわらず、人気のあるモデルがMCQAの答えのセットに対する敵対的な順序変更に対して脆弱であることを実証的に示すことにあります。

3 本研究の着想は、大規模な言語モデルと視覚-言語モデルが近年驚異的な進歩を遂げ、多様な言語タスクにおいて強力な能力を達成していることから来ています。また、これらのモデルが特に優れているとされるMCQAは、教育から採用試験まで、多くの実世界の応用があります。

4 本研究では、答えの選択肢の単純な順序変更に対して、これらのモデルが驚くほど壊れやすいことを明らかにしました。具体的には、答えのセットの単純な順序変更だけで、LLMとVLLMの両方のMCQAデータセットの精度が劇的に低下し、場合によってはランダムなチャンスレベル以下になることを示しました。

5 本研究の有効性は、敵対的な攻撃を通じて、この脆弱性が単なる特定の位置に対する選択バイアスではないことを示すことで検証しました。位置的な要素がモデルのパフォーマンスに適度に影響を与えるかもしれませんが、それらは私たちの敵対的攻撃の結果の強さを説明せず、単純な位置バイアスを超えたより体系的な問題を示唆しています。

この記事が気に入ったらサポートをしてみませんか？