ジョージナ・スタージ『ヤバい統計／政府、政治家、世論はなぜ数字に騙されるのか』

2024年2月24日 05:52

☆mediopos3386　 2024.2.24

数字やデータ
それに基づく統計を
客観的で中立的だと思いこむのは
危ういことだ

昨今エビデンスという言葉がひとり歩きし
データに基づいた人工知能によるアルゴリズム
それに基づく政策決定をという
「無意識データ民主主義」が示唆されたりもするが

データとは「数える、測るといった
手法によって得られる情報」で
表の顔は客観性と中立性を装ってはいるものの
そのその裏には
「人間の判断という世界が広がっていて、
そこには数多くの思い込みに加えて、
疑わしい算出方法が共存している場合さえある」

データがすべてにおいて無意味だというのではないが
データとそこから導き出されるものについて

そこで使われている
「モデルや機械の仕組みを理解していなければ、
「それらがいつどこで間違えるのかを把握できない。
あるいは、なぜ間違えるのかを把握できない」

間違いが起こるというだけではなく
データや統計の結果が
意図的に操作されることもある

そしてそれらの規準となるのが
「お金」や「政治的意図」となることも多く
そこに「科学（者）」や「メディア」が
深く関わっているのは
とくにここ数年の諸事件によっても明らかである
それらのデータや統計が「赤信号」であったとしても
「赤信号みんなで渡れば怖くない」となる
「みんな」だと「赤信号」であることさえわからないまま
ひどく危険であるにもかかわらず渡ってしまう

訳者もあとがきでこう述べている
「どの時代の社会にあっても、
物事を数えたり測ったりするうえで
人々の見方や思惑が複雑に絡み合うのは、
当然ながら避けられないことだ」

重要なのは
データがどんな意図をもって設計されているのか
さらにいえば「意図」はどこから来るのか
またどのように数えられているのか
出てきたデータがどのように処理されているのか
そこで生まれてしまうバイアスは把握できているのか
そうしたことに意識的であることだろう

いうまでもなくそれ以前に
「数えられないもの」「計測できないもの」
それをデータ化し数値化してしまうときの
危険性についての感受性を失わないこと

数値化し計測することに疑いをもたなくなったとき
ひとはそのことで生まれる
エビデンスなるものを信仰する
そんな自動機械になってしまっている

■ジョージナ・スタージ（尼丁千津子訳)
　『ヤバい統計／政府、政治家、世論はなぜ数字に騙されるのか』
　（集英社 2024/1）

＊（「はじめに」より）

「データとはなんだろうか？　簡単にいえばデータとは情報のことであり、本書ではおもに数値データを指している。つまり、数える、測るといった手法によって得られる情報だ。通常、そうした確固たる数字の裏には、人間の判断という世界が広がっていて、そこには数多くの思い込みに加えて、疑わしい算出方法が共存している場合さえある。また、一般的には偏りないと考えられている。データ駆動システム【データに基づいて意思決定するシステム】を信頼しすぎるのも危険だ。」

「公共政策に関する判断を逸話や風聞、直感あるいはまったくの思い込みなどに依拠するのではなく、経験的証拠に基づいて下すべく真剣に取り組まれるようになったのは、ここ一〇〇年ほどのことである。データが公正な統治に欠かせないのは、逸話や思い込みなどとは対照的に、データというのは客観的かつ中立だとみなされているからだ。

　この発想の源は、一七世紀末から一八世紀にかけてヨーロッパで興った啓蒙主義にさかのぼる。それまで、世界というのは「誰も理解できず、また理解すべきでもない、一つの大いなる神秘的な謎」だという認識が、当たり前だとされていた。やがてこの考えは、「体系だった注意深い観察を通じて、我々は物事の仕組みを解明し、しかしその仕組みを支配しようとさえできるようになる」という、フランシス・ベーコンをはじめとする思想家たちの急進的な見解によって一掃された。

　そうして「世界は、測れるもの、理解できるもの、支配できるものだ」というこの発想から、「国民の幸せのために、国は世界を測り、理解し、支配すべきだ」という考えが生まれたのである。この新たな考え方は、「君主や政府は神権に基づいた不可侵な存在などではなく。社会契約を通じて国民に対する責任を負う」ことを意味している。つまりこの契約によって、人々は法律に縛られて納税義務を負うことを受け入れ、一方で政府はそれらの法律を施行し、集めた税金を賢く使うという使命を果たさなければならなくなる、というわけだった。」

「一九八〇年代には、統計をとることはもはやあまりに当たり前の作業になり。データをわざわざ講評するませもないのではないかという人も出るほどだった。」

「問題は、（･･･）役立つ「グッドデータ」【統計学的に理想的な良質のデータ】が、常に手に入るわけではないという点だ。」

「たいていの場合、明確に定義して測定するのが最も難しいのは、社会的に重要な物事だ。「障害をもっている」や「貧しい」の定義は確立されておらず、「心の病」「孤独」「差別」といった、広く認められた社会問題であっても、満場一致で賛同を得られるような明確な定義はいまなお定まっていない。」

「今回のパンデミックがあらためて明らかにしたのは、物事を長期にわたって比べたり、他国と比較したりするのがいかに難しいかということだ。さらには、それでも人々が比べるのに必死になることもわかった。行われている検査の基準はほぼすべての国で異なり、しかも、死亡に関する記録方法もそれぞれ異なっている。」

「こうしたことは、何か特別な場合や、専門的な分野でのみ起こる問題ではない。
「バッドデータ」【統計学的に理想的なデーやに紛れ込んで分析を邪魔する粗悪なデータ】を問題視しなければならないのは、政府が重大な決断をする際には必ずデータを利用するからだ。（･･･）世間は自分たちが見たり聞いたりする情報の出所が国の統計職員といった信頼すべき人々であれば、その情報を信用してしまいがちだ。私たちは、ありとあらゆる物事について、それに関するデータが必ず存在し、手に入れられると思い込む傾向にある。また、善意によるもおか悪意によるものかはともかく、「これがあなたの求めていたものです」といって、なんらかの情報を与えてくれる人がいるとき、確かなデータがなければフェイクニュースに反論できる手立てはない。」

「統計モデルやアルゴリズムを用いる（･･･）システムの性能は、設計思想と投入されるデータの質にかかっているため、「データに導かれて正しい答えが手に入る」という発想は、単なる思い込みになってしまうことも多い。ひどい設計をもとに製造された機械に「バッドデータ」が入力された結果、本来なら対象外の人々に巨額の予算が謝って割り当てられ、それ以外の人々は完全に忘れられるという事態が起きてしまった例もある。」

「本書では、データがどのようにして生まれるのか、データが作成される過程での人間の選択がいかなる根本的影響を及ぼすのか、また、データはなぜ公共政策に不具合をもたらす恐れがあるのかについて解説したい。信頼できて当然だと思っていたデータの裏側を覗けば、みなさんも驚くはずだ。それどころか、ショックを受けるかもしれない。」

＊（「第六章モデル」より）

「現在では。ドイツを本拠地とする非営利団体「アルゴリズム・ウォッチ」のような、アルゴリズムの透明性向上を訴えるための組織がつくられている。また、「オープン・アルゴリズム・ネットワーク」構想には、英国政府の代表者も加わっている。この構想の目的は、世間にとって不透明なアルゴリズムの透明性を向上させるための方法を、政府同士が共有することだ。

　結局のところ、現実を反映していないモデルは、正確な答えを人間に与えてくれないということだ。現実では成りたたない過程に依存しているアルゴリズムは、優れた判断を下せないはずだ。もし、機械に与えられたのが、「バッドデータ」」（特定の人口集団がそっくり除外されたデータ、時代にそぐわない古いデータ、目的との関連性が薄いデータ、当てにならない予測に基づいたデータ）であれば、出てくる結果も同じぐらい悪いか、さらにひどいものとなる可能性が高い。

　私たちがモデルや機械の仕組みを理解していなければ、それらがいつどこで間違えるのかを把握できない。あるいは、なぜ間違えるのかを把握できないのだ。」

＊（「第七章不確かさ」より）

「こうした現状を変える方法はないのだろうか？　喜ばしいことに、「裏づけとなる根拠に基づいた政策決定」に向けた動きは年年活発になっている。ただし、裏づけとなる根拠が多少なりとも使われることと同じくらい、あるいはそれ以上に重要なのは、その根拠自体の質だ。

　学問の世界でも、みずから定めた基準を自分たちで管理・監督している状況について、対処しなければならない問題がたくさんある。命を救うかもしれないと思われている薬についての論文が、たとえそれがまさにでっち上げのデータに基づいたものであるにもかかわらず、査読をすり抜けたあげくに医療政策の情報源として利用されたとしたら、私たちにはどんな希望が残されているというのだろう？　学問の世界を外部から覗くと、なかにいる人が自分のキャリアに箔をつけるために互いの便宜を図り合うという、ある種の陰謀集団のように見えてしかたがないこともある。世間が抱いているそういった疑惑を、そのままにしておくべきではない。

　医学は、その厳密さゆえに、「何が効果的な手段なのか」を判断する際に懸念すべき点が少ないが、警察、教育、国際開発といった曖昧な要因が多い分野では、その問いに答えるときには今後も常に注意が必要だ。社会科学者、公務員、政治家が過剰な自信でもって結論を急ぐのには、明確な動機があるからだ。だが、そのようなやり方には抵抗しなければならない。

　私たちのそうした抵抗を成功させる秘訣は、「不確かさ」を汚い言葉であるかのように扱うのを止めることだ。」

＊（「おわりに」より）

「数字によって管理されるとしても、データによる独裁は防がなければならない。データとは私たち人間の手の上にあるべきものだということを、きちんと認識しよう。」

＊（「訳者あとがき」より）

「目の前に二〇〇ｃｃのところに目盛りがついていて、ちょうどそこまで水が入っている。これを「まだ半分ある」と捉える人もいれば。「あと半分しかない」と思う人もいるだろう。

　いま紹介したのは、人間の心理状態を分析するときに持ち出されることが多い、非常に有名な事例だ。だが、この本が問題にしているのは、そこから先の話である。さらに少し情感を加えて考えてみよう。

　このコップはいつもは水が満杯なのに、たまたま今日だけ一〇〇ｃｃだったとする。すると、昨日と今日の二日間だけ観察した人は「水の量が急激に減っている」とみなすかもしれない・あるいは今日と明日だけ観察する人は、水の量が元どおりになっている明日には、「水の量が急激に増えている」と結論づけてしまうかもしれない。さらに、目盛りが指しているところが実は一〇〇ｃｃではないことだってありうる。それは目盛りのつけ間違いという単純な人為的ミスによるものかもしれないし、何らかの理由で意図的に操作が加えられたためかもしれない・

　このように「二〇〇ｃｃのコップに一〇〇ｃｃのところまで水が入っている」という単純な状態ですら、少し想像を膨らませただけでも、実にさまざまな捉え方が可能であることがわかる。データは切り取り方により、人々の意見を正反対の方向に導きかねないのだ。

　あるいは、もしかしたら。「このコップの水の量を『あと半分しかない』ではなく。『まだ半分ある』とすべての国民に思わせるには、どうすればいいだろうか」と思案しはじめる権力者もいるかもしれない。

　さらに言えば、「貧困」や「幸福度」といった直接測るのが難しいものを測るためにつくられる「物差し」には、その規準を作成した人間の意図がより一層色濃く反映される。どの時代の社会にあっても、物事を数えたり測ったりするうえで人々の見方や思惑が複雑に絡み合うのは、当然ながら避けられないことだ。」

【目次】
はじめに
第一章人々
第二章質問する
第三章概念
第四章変化
第五章データなし
第六章モデル
第七章不確かさ
おわりに
謝辞
訳者あとがき
註

○ジョージナ・スタージ
統計学者(英国議会・下院図書館所属)。専門は公共政策の計量的分析。英国国家統計局の人口・移民統計に関する専門家諮問グループの一員。国会議員のために調査を行い、統計の利用法や背景情報を解説する上級統計学者。オックスフォード大学移民観測所の顧問も務める。2011年、オックスフォード大学卒業(英文学)。2013年、マーストリヒト大学修士課程修了(公共政策及び人間開発)。

○尼丁千津子(あまちょうちづこ)
英語翻訳者。神戸大学理学部数学科卒業。主な訳書に『人工知能時代に生き残る会社は、ここが違う!』『「ユーザーフレンドリー」全史』『馬のこころ』『マッキンゼー CEOエクセレンス』『限られた時間を超える方法』など。

この記事が気に入ったらサポートをしてみませんか？