汚れたデータがAIに与える影響

2023年4月4日 06:04

先日大規模言語モデルがすごいよという記事を書いた [予想を超えるAI。大規模モデルが示す創発性｜まめフクロウ｜note] が、そのモデルに与えるデータの取り扱いを間違えると大変なことになるという論文があったので紹介しておこう。

こちらの論文 [https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3333423] は少し古いのだけど、手違いや恣意的なミスで悪いデータが入ってしまうとせっかくのAI技術がダメになるどころか危険性すらあるということが書かれている。

論文の概要

米国にある警察の取り締まりにはAIが活用されていて、犯罪が発生しやすい場所や地域、時間帯を教えてくれるので警察官の見回りの強化と犯罪抑制に役立てているんだそうな。

ところが、そのAIに学習させているデータ自体が間違っているものが使用されていたり、恣意的な悪いデータが含まれていたりしてAIの判定自体に疑義があるとのこと。
またこのAIを使った取り締まりによって、さらに悪いデータの収集を加速させる可能性があるという危険性についても警告している。

汚れた犯罪データ

AIに犯罪予測をさせるという場合、大量のデータを食べさせて学習を行う必要がある。
ではそのデータはどこから来るかというと、過去の犯罪データが使用される。（場所とか時間帯の他にも、凶悪度や具体的な内容などさまざま）

学習させるデータが適切なものであれば、犯罪予測が上手に行われ『どこどこの路地裏が危険』とか『こういう店が密集している地域が狙われやすい』みたいに犯罪が発生しやすい箇所をアドバイスしてくれるようになる。

ところがその過去のデータにおいて、警察から提供されたデータに誤りが結構含まれているこおとが分かったそうな。

例えば2005年から2012年にかけてロサンゼルス警察は発生した14,000件の重度の暴行犯罪を軽犯罪として登録していたり、逆に恣意的に水増しが確認された例もあったとのこと。

なぜ汚れたデータができるのか？

ではなぜこういった汚れたデータが登録されるのかというと、そこには様々な理由がある。

よくあるのは警察にもノルマがあるので、特定の犯罪のみを取り締まったり、起訴や逮捕の時期をずらすといったことが行われているとのこと。
また、地域的な慣行で特定の地域を重点的に取り締まっていたり、特定の人種の人だけ取り締まっていたりすることもあるらしい。
（小さな犯罪でもカウントされると特定地域の件数だけが増えていく）
一方で犯罪の重要度や頻度からは大きい割合を占めるはずのホワイトカラーの犯罪は報告されていない事例も多いとのこと。

あるいは地域の人と警察官との距離が遠いと犯罪がそもそも警察に通報されないということも起こるらしい。また、聞き取り調査の情報が歪曲されていたり、逆に話している方が誇張して報告する場合もある。

なぜ正しいデータに修正しないのか

それではなぜ間違ったデータが何年も蓄積され、だれも修正しないのかというと、そこにはいくつかの理由がある。

理由１：データを正しく取る理由がない
警察官が登録済みの自署の犯罪データや別の地域の警察官の犯罪データを必要とすることはほとんどなく、お互いにチェックすることにメリットもないためほっておかれるとのこと。

理由２：方法がない
本当に正しい犯罪データを収集するためには、ほぼすべての犯罪をリアルタイムでデータを収集して登録するようなシステムが必要となるが、現時点では方法論やメカニズムが存在しない。

理由３：警察内の腐敗や汚職を確認するすべがない
データを登録するのは警察官だが、その際地域の慣行や個人の偏見、汚職などが絡んでいたとしても登録されたデータのみでは正しいデータなのか間違ったデータなのか判断はできない。

汚れたデータがもたらす弊害

ただ間違ったデータが貯められているだけであれば何ら問題は起こらないが、これがAIの学習に使用されると問題となることがある。

例えば特定の地域の犯罪率が高いと判定されると多くの警察官がその地域を見回ることとなる。それにより小さな犯罪でも検挙される率が増えるため、さらにその地域の犯罪率が上昇することがある。
（あるいは見回る警察官に犯罪が起こるのではという偏見をもたらすこととなる）
一方、警察官が見回らなくなった地域は犯罪が発生しても検挙されることがなくなるので、さらに犯罪率が下がったと判定される可能性がある。

こういった悪いフィードバックが発生すると、せっかくのAIを用いたシステムが逆の効果をもたらすと警告している。

These policing practices and policies shape the environment and the methodology by which data is created, which raises the risk of creating inaccurate, skewed, or systemically biased data (“dirty data”). If predictive policing systems are informed by such data, they cannot escape the legacies of the unlawful or biased policing practices that they are built on. Nor do current claims by predictive policing vendors provide sufficient assurances that their systems adequately mitigate or segregate this data.
（このような取り締まりの現実が、（誤った）データを作成する環境や方法を形成し、不正確で歪んだ、あるいはシステム的に偏ったデータ（「汚れたデータ」）を作成するリスクを高めることとなる。予測的取り締まりシステムがそのようなデータから情報を得ているのであれば、その上に築かれた違法、または偏った取り締まり慣行を免れることはできない。また、予測的取り締まりを行うベンダーは、自社のシステムがこのようなデータを適切に軽減・分離しているという十分な保証を提供していないのが現状である。）

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3333423
Abstract

この論文の問題点については、報告されているのですでに改修されているはずだが、今後もAIを活用する現場が増えてくると、どのようにデータを収集するかは課題となってくる。

（この手の話は難しいねぇ）

記事が気に入ったらフォローやスキをつけてもらえると嬉しいです。サポートいただけたら私のやる気（コーヒー代）となります。