AIの有害発言の検閲に関する論文紹介
論文名
Recourse for reclamation: Chatting with generative language models
arXivリンク
https://arxiv.org/pdf/2403.14467.pdf
ひとこと要約
AIチャットボットによる有害発言の検閲に対して、ユーザーが有害さの閾値を調整できる仕組みを提案。30人の参加者を対象とした小規模な実験で提案手法の有効性を確認。
メモ
AIチャットの検閲について
テキストがどれくらい攻撃的か、有害かを数値化するものをtoxicity scoringという。toxicity scoringはマイノリティ(社会的少数者)が使う言葉を、AIが間違って有害だと判断してしまうことが多い問題がある。(例えば、黒人英語や、LGBTQコミュニティ特有のユーモアのある言い回しが、攻撃的だと誤認されるなど)
提案手法
AIの出力のtoxicity scoringに対して2つの閾値を設定。最小閾値を超えると、発言は完全に検閲され、デフォルト閾値を超えると、発言は一時的に検閲される。
ユーザーはデフォルト閾値を超えた発言について、見るかどうかを選択できる。また今後同様の発言を検閲するかどうかを選択することができる
提案手法のメリット
ユーザーは発言の検閲を、自分の好みに合わせて調整できる。完全に許容できない発言は最小閾値で排除されつつ、グレーゾーンの発言については、ユーザーの判断を反映できる。
実験
30人の参加者を対象とした実験を実施。従来の固定閾値によるフィルタリングを行う対照条件と提案手法を比較。
従来手法よりもSystem Usability Scale(SUS)等の指標が高い。
結果の一般化には注意が必要。
この記事が気に入ったらサポートをしてみませんか?