AIの有害発言の検閲に関する論文紹介

sergicalsix

2024年3月25日 20:26

論文名

Recourse for reclamation: Chatting with generative language models

arXivリンク

https://arxiv.org/pdf/2403.14467.pdf

ひとこと要約

AIチャットボットによる有害発言の検閲に対して、ユーザーが有害さの閾値を調整できる仕組みを提案。30人の参加者を対象とした小規模な実験で提案手法の有効性を確認。

メモ

AIチャットの検閲について

テキストがどれくらい攻撃的か、有害かを数値化するものをtoxicity scoringという。toxicity scoringはマイノリティ（社会的少数者）が使う言葉を、AIが間違って有害だと判断してしまうことが多い問題がある。(例えば、黒人英語や、LGBTQコミュニティ特有のユーモアのある言い回しが、攻撃的だと誤認されるなど)

提案手法

AIの出力のtoxicity scoringに対して2つの閾値を設定。最小閾値を超えると、発言は完全に検閲され、デフォルト閾値を超えると、発言は一時的に検閲される。
ユーザーはデフォルト閾値を超えた発言について、見るかどうかを選択できる。また今後同様の発言を検閲するかどうかを選択することができる

提案手法のメリット

ユーザーは発言の検閲を、自分の好みに合わせて調整できる。完全に許容できない発言は最小閾値で排除されつつ、グレーゾーンの発言については、ユーザーの判断を反映できる。

実験

30人の参加者を対象とした実験を実施。従来の固定閾値によるフィルタリングを行う対照条件と提案手法を比較。

従来手法よりもSystem Usability Scale（SUS）等の指標が高い。

結果の一般化には注意が必要。

SUSについて補足
- SUSは10個の質問で構成
- 奇数番目の質問は肯定的な内容（使いやすさなど）
- 偶数番目の質問は否定的な内容（複雑さなど）
- 各質問に対して、1（強く反対）から5（強く賛成）で回答
- スコアの計算
- 奇数番目の質問は、回答から1を引いた値を加算
- 偶数番目の質問は、5から回答を引いた値を加算
- 合計値に2.5を掛けて、スコアを算出
- スコアの目安
- 80.3以上: A（優秀）
- 68〜80.3未満: B（良い）
- 68未満: C（改善の余地あり）
- 51未満: D（使いづらい）
- SUSの有効性
- 5人程度の評価でも、大まかな傾向をつかむことができる。
- ただし、より詳細な分析には10人以上の評価が推奨。

この記事が気に入ったらサポートをしてみませんか？