見出し画像

本を読む暇のない人のために、デイヴィッド・J・ハンド著「ダークデータ」を要約してみた

本書は、データ分析に携わる人には必須の知識だと思われたので内容をまとめて紹介します。

イントロダクション

インターネットの時代になり、膨大なデータが蓄積され、データを分析することで意思決定を行うことが求められるようになってきた(とは言っても、日本ではごく一部のIT関連企業以外はまだまだ、という感じですが)。「ビッグデータ」という言葉も一般的になってきたことは周知の通りです。

本書は、その膨大なデータの中で、特に測定されていないデータに着目し、データを見逃すことで発生すると思われる様々な問題を指摘しています。著者は、この観測されない、または取得されていないデータを「ダークデータ」と呼んでいます。これは、物理学(または宇宙論)における「ダークマター(暗黒物質)」に準えたものだそうです。これら「見えないデータ」が現実の意思決定に影響を及ぼす可能性を指摘しています。

画像1

「インターネットじゃ、おれたちが犬だって誰にもわからないぜ」
(1993年、ニューヨーカー誌に掲載されたピーター・スタイナーの有名な漫画より)

ダークデータの分類

著者の言うダークデータの種類をまずまとめておきます。DDはダークデータ(Dark Data)。

DDタイプ1:欠けていることがわかっているデータ
DDタイプ2:欠けていることがわかっていないデータ
DDタイプ3:一部の例だけを選ぶ
DDタイプ4:自己選別
DDタイプ5:重要なことを見落とす
DDタイプ6:あったかもしれないデータ
DDタイプ7:ときの経過とともに変化する
DDタイプ8:データの定義(データが定義されない、一貫性がないことで見落とされるデータのこと)
DDタイプ9:データの要約(要約により切り捨てられるデータ)
DDタイプ10:測定誤差と不確かさ
DDタイプ11:フィードバックループとつけ入り(収集されたデータが収集の過程に影響を与える)
DDタイプ12:情報の非対称性(分かりやすい例として、インサイダー取引、アカロフのレモン市場)
DDタイプ13:意図的なダークデータ化(都合の悪いデータを隠す、タチが悪いが実はよくある)
DDタイプ14:データの捏造または合成(隠すどころか、もはやデタラメ、これは最悪の場合社会問題化する。日本じゃSTAP細胞事件、アメリカではセラノス事件、なんてのもありました)
DDタイプ15:データ外の外挿

ちょっとあるすぎな気もしますが、著者の分類はこの通りで、本書の10章にまとめてあります。

どんな例があるか

これで終わってもいいのですが、いくつか興味深い事例をピックアップ!

生存者バイアス:スタートアップ企業では成功の話がされることが多い。これは時間の経過と共に変化するデータで生存者バイアスがかかるため。つまり生き残ったスタートアップの背後には多数の滅んだ企業もある、ということ。

縁石する(カーブストーニング):インタビューを行う調査員がサボる。調査員が家を訪問せず道路の縁石に腰を下ろし調査票に自ら記入(おいおい!)。

ランダム化比較検証または無作為比較試験(RCT):A/Bテストとも呼ばれる。調査対象を無作為にA、Bの2グループに分けて別々の施策を施し結果を比較する。ウェブ実験で使われる。(フランス経済学者エステル・デュロフ氏発案、ノーベル経済学賞)

可用性バイアス:基準率の誤謬。偽陽性(ほんとは病気になっていないのに検査では陽性判定、検査の間違い率)の可能性があることを無視したりすると謝った判断を与える。今回のコロナパンデミックでは偽陽性が話題になることがほとんどないのはどういうわけだ?

シンプソンのパラドクス:母集団を分割すると異なる分析結果がえらえる。本書ではKaggle(世界的なデータ分析コンペサイト、Googleが運営)でメジャーなタイタニック問題を取り上げている。

平均への回帰:学生の成績は実力よりも偶然に左右される要素がどれくらいあるかで決まる。偶然から生じる不確実性の範囲が能力の範囲よりも広ければ平均への回帰は強まる。私たちには本来の能力と不確実性が合わさったものしか見えない。日本の暗記重視の教育は、不確実性の範囲を広げている。覚えたことが試験に出るかどうかは、偶然に左右されるからだ。だから東大生はクイズ番組でその無駄な能力をひけらかすしかない。

ヒーピング、パイリング、ピーキング、離散化、数字選好:端数処理。切り捨て(トップコーディング、ボトムコーディング)。

逆にダークデータにすべきもの:EUの「ジェンダー指令」では、保険会社が性別に基づいて保険料を算定することが禁じられている。世界の多くの国では特定の集団を差別したり、不公平に扱うことは法律で禁じられている。もちろん日本は除く。

キャンベルの法則:指標の達成が目標とされると、その指標は役に立たなくなる。

エコチェンバー(反響室)現象:閉鎖された環境で価値観に似たものどうしがフィードバックし合い、信念や態度や意見が強化される。会社の中!だな!

「ジャッカルの日」詐欺:フレデリック・フォーサイスのベストセラースリラー「ジャッカルの日」で死亡者の出征証明書で身分を偽造する暗殺者が登場する。いわゆる「なりすまし」の例。どうでもいいが、この暗殺者のターゲットはイタリアのド・ゴール、だったんだぜ!

ウォーターベッド効果:ある場所で犯罪を抑止すると別の場所で犯罪が増加する現象。

検証可能性、反証可能性:科学におけるダークダータの存在。科学の実践では、ガール・ポパー(投資家ソロスも心酔する哲学者)が科学における理論は「反証可能」でなければならない、と主張。しかし、ザビーネ・ホッセンフェルダー著の「数学に魅せられて、科学を見失う」では、これを真っ向否定!近代の最先端物理学ではなんと「反証できないように理論が微調整されていく」、という。なんとも、いやはや。機会があったら、この本も紹介しますね。

p値ハッキング:データ分析で多用される有意性判定の問題。検定数を考慮せずむやみに多くの有意性検定が行われている。検定数を明らかにしないで結論を導くのは問題だ、ということ。

ハーキング:結果がわかってから仮説を立てる(オイオイ!)。

ダークデータのレシピ:ホーキシング(データのでっち上げ)、フォージング(偽データと入れ換え)、トリミング(理論に合うようにデータを調整)、クッキング(観測を多数行って理論にあるものだけを採用)

リジェクト・インファレンス:個人融資において融資を拒まれた人(リジェクツ)と融資を認められた人(アクセプツ)を対比。

エンディング

以上は個人的に目のついたものだけ。他にもスペースシャトルの爆発事故(有名なOリングの話)などあるが、この先は是非とも購入して読んでください。

古いジョークにこんなのがあるそうだ。「酔っ払いが夜、道端で鍵を落として、街頭の下で探しているが、そこで鍵を落としたからではなく、そこが明るかったから。」

見えないところに、大切なものがある、はず。



この記事が気に入ったらサポートをしてみませんか?