マガジンのカバー画像

データの誤謬シリーズ(全15回)

16
” 誤謬(ごびゅう)とは、つまり、間違っていることである。” データにまつわる誤謬を紐解き、やさしく知るシリーズ
運営しているクリエイター

#データ分析

データの誤謬#6 『ゲリマンダリング』

語源が、ちょっぴりファンタジー!!! なんです。 #6 ゲリマンダリング 結果を変えるために、データをグループ化するための地理的境界を操作すること。 多くの政治システムでは、選挙区を再定義することで、当選する可能性を高めるなどの操作をすることが可能です。 例えば、農村部を選挙区に含めることで、都市部で人気のある政党を不利にすることができるなど。 同様の現象は、データ分析の際に「可変な単位領域問題(Modifiable Areal Unit Problem: MAU

データの誤謬#7 『サンプリングバイアス』

イラストには、犬がいっぱい。 犬と一緒にいる犬のTシャツを着た女性に、 男性が「犬と猫どちらが好きですか?」と尋ねてます。 なんと答えますかね?(笑) #7 サンプリングバイアス母集団を代表していない偏ってサンプリングしたデータから結論を導き出すこと。 世論調査で、調査員独自の抽出や分析者の偏見によりサンプリングしたせいで、そもそも参加した人々が総人口(母集団)を代表していないデータから結論を導き出すことがサンプリングバイアスです。 有名な例では、1948年のシカゴトリ

データの誤謬#8 『ギャンブラーの誤謬』

赤か?黒か? ルーレットで起こった奇跡↓ 黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒”赤” #8 ギャンブラーの誤謬いつもより頻繁に起こっていることを、次は起こりにくいと勘違いしてしまうこと(その逆もまた然り) これは、1913年に現地のルーレットテーブルで起きた有名な例から、 「モンテカルロの誤謬」とも呼ばれています。 そのルーレットの出目はなんと、、、26回連続で黒。 黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒黒赤 こんな感じです。 ギャンブラ

データの誤謬#9 『ホーソン効果』

リモートワークでは、「見られている」が減少。 やる気を失ってしまったら、「見られている」状況を自分で作り出すのが効果的かもしれませんよ。 #9 ホーソン効果誰かを監視するという行為が、その人の行動に影響を与え、 偽りの調査結果につながること。 ホーソン??? 1920年代、イリノイ州にあるホーソン工場では、 「労働時間」や「照明」、「休憩時間」などの物理的環境を変えて、 労働者の生産性を調べる社会実験が行われました。 条件を悪くしてみたにも関わらず、結果はなんと、 ど

データの誤謬#10 『平均への回帰』

レーダーチャートの生みの親は、え?ナイチンゲール! 本題から、ズレすぎ疑惑あり。 #10 平均への回帰データに偏りがあったとしても、時間の経過や回数とともに平均値に戻っていくこと。 結果に偶然の要素が含まれる場合、平均値に回帰する傾向が見られます。 例えば、ビジネスでの成功は、自社の「実力」だけでなく、 「運」にも左右されることは想像できるでしょう。 平均回帰に当てはめると、現在最も優れた業績を上げている企業も、10年後には平均に近い業績になっている可能性が高いという

データの誤謬#11 『 シンプソンのパラドックス 』

「平均値」ってよく耳にしますよね。 どうしても、「普通」とか「中央値」という意味で連想しがちですが、 それは思っているものとは違うかもしれません。 真実はいつも・・・ #11 シンプソンのパラドックス 全体で見るか?部分で見るか?分析の違いよって 矛盾した結果が出てしまうこと。 1970年代、バークレー大学は、女性の志願者が男性の志願者よりも合格率が低かったため、性差別だと非難されました。 しかし、問題の原因を突き止めようとしたところ、 個々の学科で、女性の方が男性より

データの誤謬#12 『 マクナマラの誤謬 』

フォード社長、国防長官、世界銀行総裁を務めたスゴ腕エリート 「 歩くIBMコンピューター 」の異名をもつ超秀才とは? #12 マクナマラの誤謬 複雑な状況下で、指標だけに頼り、大局を見失ってしまうこと。 ”真実は、「数値的データ」と「統計的厳密さ」のみから見い出される ”と、信じて疑わなかったアメリカの国防長官ロバート・マクナマラ(1961年~1968年)さんにちなんで名付けられてしまった、なんとも不名誉な誤謬用語です。 マクナマラさんは、ベトナム戦争において、 敵の戦

データの誤謬#13 『 オーバーフィッティング 』

人工知能とかけて、人間関係と解く。 その心は? #13 オーバーフィッティング手持ちのデータに合わせすぎて、一般的な傾向を表していない偏ったモデルを作ってしまうこと 手持ちのデータにフィッティングし過ぎると 未知データの予測精度は下がってしまうようなことが起きます。 よくある例としては、AI(人工知能)で頑張って学習させて、 本番になると、全く使えないじゃん(怒!)となるやつです。 原因は、オーバーフィッティング。 これまで学習してきたデータと同じような場合は精度

データの誤謬#14 『 出版バイアス 』

皆さん、気づいてますよね? ネガティブな話の多くは、隠蔽されてしまうということを。 #14 出版バイアス 面白い研究結果が発表されやすくなり、現実の印象が歪められてしまうこと 統計的に有意な結果であれば、読んでいて面白い。 だから、出版(公表)される可能性が高くなります。 反対に、同様の研究が他にあったとしても,結論が出ないと出版は控え目。ネガティブな結果が出た研究も、同様です。 つまり、出版・公表されている時点で、 バイアスが働いてしまっているわけです。 よって

データの誤謬#15 『 サマリー指標の危険 』

データ視覚化の重要性を、”恐竜”で表す? 新しいものを古いもので表現するセンスと発想が、 なんともすばらしいと思いませんか? #15 サマリー指標の危険 平均や分散などのサマリー指標(統計量)だけを見てしまい、 生データにある大きな違いを見逃してしまうこと 平均や分散( 標準偏差 )、 相関係数 などのサマリー指標が同じだとしても、デー タセット の “形状” は、まったく異なることがある。 これを実証するために、統計学者のFrancis Anscombe(アンスコム

避けるべきデータの誤謬ポスター

いつでも思い出して、データの誤謬の罠を避けよう! 『データにまつわる誤謬を紐解き、やさしく知るシリーズ(全15回)』を 楽しんでもらえたファンの皆様に、 次はデータ溢れる実社会で ・だまされないように、 ・ときには「ウンチク」として語るため、 いつでも思い出せるよう、ポスター(PDF)を作成しました。 これ欲しい〜❤️という圧倒的マイノリティーの貴方へ。 「避けるべきデータの誤謬ポスター(PDF版)」を応援ください! クリックしてダウンロード ↓

¥390