「データは真実」はほんとうか

2019年1月8日 05:38

最近、データを使うということが手段でなく、目的になってしまい、その挙げ句、データが「神格化」されてしまっているような風潮があります。

つまり、データが言うのだから、間違いはないというわけです。

そこで「データ・ドリブン」という言葉が先歩きをしてしまうのでしょう。

もちろん、単に「データ」と言っても、人によってその意味することは様々ですが、その中でも、英語では、「Raw Data」、日本語にすると「生データ」、つまり加工する前の、とれたてほやほやのデータという意味でのデータは、人間によって操作されていないので、事実で、客観的で、正直だと私達は思い込んでいたりします。

しかし、そういった期待は全くの勘違いで、データとは集められた瞬間からすでに人間の意思によって「汚れている」ものなのだという記事がおもしろかったので、こちらで紹介したいと思います。

以下、要訳。

---

Why Data Is Never Raw - Link

私達がデータの話をする時、実はそのデータがそもそも何を意味するのかわかっていなかったりすることがよくあります。

知識を形成するもっとも低いレベルの構成要素のことを言っているのでしょうか。オンラインの行動を記録するデジタルなもののことでしょうか。私達は、分析から得られたインサイトのことや、時には「エビデンス」のことを「データ」とよんだりすることもあります。

私達は「生」データと言ったりしますが、それは人間の判断の影響を受けていないものとしてです。

データが人間の持つ主観から解放されているというイメージが、「データの言うことを聞こう」といった、何かデータが人間のようなものとして扱うことになってしまっています。

しかし実際には、どのようにデータが作られて、記録されて、集められるのかというのは人間による意思決定の結果です。

どのように計測するか、どのタイミングで、どこで計測するのか、さらにどういった手法を使って計測するのか、そもそも何を計測するのか、何を計測しないのか、といったものはすべて人間が決めています。

例えば、家庭内暴力の率は歴史的には低く見積もられていました。というのもこうした犯罪は文書化されること自体がほぼなかったからです。

世論調査ではホームレスや入院患者の人たちの実態が抜けてしまいます。こうしたデータの対象となる人とは、集める人にとって、連絡を取りやすい人たちであって、答えてくれる可能性の高い人達なのです。そうでない人たち、または力のない人たちの意見が反映されない世論調査の結果というのは偏ったものになります。

社会科学のデータには人間の主観が入り込みやすい

科学の研究では何をどのように計測するかというのは大変重要です。しかし、社会科学の分野でははっきりとした計測単位というものが決まっていません。そこでそれを決める必要があるのですが、ここで計測する人の解釈やバイアスが入り込みます。

多くの家を訪問してインタビューをしてデータを収集している場合、このデータを収集する人たちはどういった人たちなのでしょうか。しっかりと質問するスキルをもっているのでしょうか。

さらに答える人の答えにも、人間の意図が入り込みます。例えば、収入に関する調査を行っていた場合、回答者が、その結果が税金に関する施策に使われると思い込んでしまえば、現在税務署に報告していないような収入をわざわざ答えることはないでしょう。

また、その時々の政治的な空気が回答者の答えに影響を与えることは少なくありません。

全てのデータは加工済み

多くの人が「データ」を石油や砂糖などのようなものに例え、「生データ」と「加工されたデータ」とわけて考えがちです。そこで、この「生データ」というのが「嘘のない事実」、となるわけです。

しかし、全てのデータというのは実は加工されているものなのですから、「生データ」という考え自体が馬鹿げています。「生データ」といった幻想に惑わされるのではなく、逆に、全てのデータを「加工されたデータ」と捉えることで、そのデータ収集のプロセスに対してもっと注意を促すべきです。

データのコンテクスト、つまりなぜそれが収集されたのか、どのように収集されたのか、どのように加工されたのか、ということをいつも考えることが重要です。私達が想像するような完全に客観的なデータというものはありえないのですから。

データは集めた人の声を代弁する

データが客観的で、コンテクストに縛られないと考えてしまうことの問題は、因果関係、バイアス、選択、不完全性といった問題は、大量のデータを使うことで解決されてしまうと思いこんでしまうことです。「生データ」には理論上、不正の入る余地はなく、私達に真実を見せてくれ、複雑な問題でも十分なデータ量さえあれば解決できるのだと、私達は信じたいのです。

データを集める人たちが持っている前提というものが、データの中に入ってきてしまことで、データを集める人の意図がデータに反映されてしまうのです。

ジャーナリストのLena Groegerは、以前、「データが自分自身で話すことはない。それはデータを集めた人の声を代弁していいるのだ。」と言っていましたが、これはデータに含まれる、データ収集者によるバイアスをうまく言い表しています。

データは人間の衝突を解決しない

意思決定を評価するには、それがサポートする価値感や前提を調べる必要があります。

価値観や、好み、興味がぶつかりあうときに、政治というのは避けて通れないだけでなく、それは必要なものとなります。アルゴリズムがどの決定がより重要なのかを決定することはありません。なぜなら、そうした決定は誰の価値感がもっとも重要なのかを決めることになるのですから。

こうしたことを無視して、「データが私達に言っている」のだからそれを盲目的に信じてしまうというのは、私達の意思決定を一部の人に託してしまうこととになってしまいます。こうしたデータに対する盲信ともいえるイデオロギーが進みすぎると、多くの人たちはデータを使った話に疑問を抱くようになり、そのデータに対する信用さえなくすことになってしまいます。

---

要訳、終わり。

最近、Weekly Updateでも、「データ・ドリブン」ではなく、「データ・インフォームド」をもっと意識するべきということをよく言っています。

データから得られたインサイトを持って、意思決定を行うときには、そのコンテクスト（背景）、確率、リスク、わかってないこと、などを考慮するべきというものです。

今回は、データそのもの、いわゆる「生データ」がどうやって生成されているのか、そのコンテクストやバイアスなどにもっと注意を払うべきだという考察でした。

ところで、こうした問題というのは、統計の知識が少しでもある人にとってはある意味当たり前のことで、耳が痛いような話である一方、そうでない人たちにとっては、あまり響かない話なのかもしれません。

先日もイギリスのBBCというTVで、ある司会者がしきりに2つのグループ（男と女）の給料の平均の違いを問題にし、ゲストの学者を問い詰めていました。ゲストの人は、そもそも単変量解析をもとにそうした違いを分析するべきでなく、しっかりと多変量解析をするべきで、多変量解析の結果では男と女の違いが本当の理由とは言えないことがわかっているということを主張していたのですが、2人の議論は全く噛み合っていませんでした。

噛み合わない理由は、この司会者の人には統計の知識がまったくないので、ここで「多変量解析」と言われても、その意味がわかっていない（本人はわかっているふりをしていましたが。）、さらに相関と因果の違いもわかっていない、もしくは気にもしていないからです。

(5:50からスタート)

現在のメディアの一番の問題は、データを理解することのできる人、つまりしっかりとした統計の知識を持っている人がいないということではないでしょうか。にもかかわらず、そうした人たちが「データ」を振りかざして、あたかも真実であるかのように人々を説得しようと試みるわけですから、それは公害以上の何ものでもないと思います。

そして、もちろんこれはメディアに限らず、政治でもビジネスの世界でも平気で毎日起きていることです。

これまでは、そもそもデータが限られていたり、またデータを使って意思決定を行うという例があまりなかったのでそれでもなんとかなっていたのかもしれません。しかし、現在はどんどんとデータが集められ簡単に手に入るようになっていきますし、これからもその流れは加速していくでしょう。

すると、データを使いこなせる人と、そうでない人の差というのがどんどんと開いていくと思います。もちろん、使いこなすことのできる人はそれによってより良い意思決定を行うことができるので、そのことによる格差というのはわかりやすいと思います。

逆に、使いこなせない人がデータを持ってしまうことで、データにドライブされてしまい、おかしな意思決定を行ってしまうことで、マイナスの方向に向かっていってしまうという、ネガティブな格差もあるというのはもっと注意が払われるべきです。

このことが、データを持っているか持っていないかよりも、使えるか使いないかの差による格差こそが、これから大きな問題になっていくと思います。

Netflixでは、プロダクトを作る部門の上に上がっていくには統計のバックグランドが欠かせないとのことですが、データ・インフォームドを地で行って正解を出していっている組織ですから、もっともです。

データの分析を専門家に任せるという時代は終わったので、ぜひこれからの時代の荒波を乗り越えていきたいという人は、英語なんかよりも、もっと重要なスキルであるという認識で、統計、機械学習といった知識とスキルを2019年こそは習得していっていただければと思います。

---

以下、告知です。

データサイエンス・ブートキャンプ、3月開催！

この3月の中旬に、Exploratory社がシリコンバレーで行っているトレーニングプログラムを日本向けにした、データサイエンス・ブートキャンプを東京で開催します。

データサイエンスの手法を基礎から体系的に、プログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に参加を検討してみてください。詳しい情報はこちらのホームページにあります！