見出し画像

データの誤謬#15 『 サマリー指標の危険 』

” 誤謬(ごびゅう)とは、つまり、間違っていることである。”
データにまつわる誤謬を紐解き、やさしく知るシリーズ(全15回)最終回


データ視覚化の重要性を、”恐竜”で表す?
新しいものを古いもので表現するセンスと発想が、
なんともすばらしいと思いませんか?


#15 サマリー指標の危険

平均や分散などのサマリー指標(統計量)だけを見てしまい、
生データにある大きな違いを見逃してしまうこと

画像1

平均や分散( 標準偏差 )、 相関係数 などのサマリー指標が同じだとしても、デー タセット の “形状” は、まったく異なることがある。

これを実証するために、統計学者のFrancis Anscombe(アンスコム)さんは、1970年代に4つのデータセットの例を示しました。
「 アンスコムのカルテット」と呼ばれるこのデータセットは、それぞれほぼ同じ平均、分散、相関のサマリー指標を持っています。

それなのに、グラフにしてみると、イラストのようになり、それぞれのデータセットが全く異なることがわかります。

アンスコムさんが言いたかったことは、
サマリー指標と同じくらい、データの視覚化は大事で、
非常に強力なデータ分析手法の一つですよということです。

分かりやすい例では、スプレッドシートの数字だけでは、違いを見つけるのは困難である場合があるけど、グラフ等使い、うまく視覚化できればもっと良い分析ができるよということです。

ビジネスでのデータ視覚化には、データダッシュボードも便利ですよ!

おまけ:データサウルス?

同様の例を示すため、最近では、グーグル、EU(欧州連合)など、世界有数の組織で教えるインフォグラフィックスのエキスパート
「アルベルト・カイロ」さんが作成した「データサウルス」が有名です。

first created by Alberto Cairo

データセットをグラフにすると、なんと恐竜が現れます。
アンスコムのカルテットと同じく、「サマリー指標だけを信頼するのではなく、常にデータを視覚化する重要性」を人々に促したのでした。


画像2

忙しい毎日、しかし、生産的であるとは限りません。
多くのチームでは、データのカオスに時間を奪われています。

「データの確認」に毎日、何回クリックしてますか?
「数字の読み合わせ」に時間を割くミーティングは効率的ですか?
「深刻なエラー」を見逃さない工夫がありますか?

Geckoboard(ゲッコーボード)で解決できるかもしれません。

あなたがこれから目にするものは、他に類を見ない、見る者の目を奪う「揺るぎないシンプルさ」を追求した、美しいダッシュボードです。

画像3

※当記事は、英ロンドンDatachoice Solutions Limited社とのライセンスに基づいて、転載・加筆しています。



もしかして、あなたが私のnote最初のサポーターですか?😉