見出し画像

統計学が最強の学問である②:データ集計だけでは19世紀どまり…とは?「誤差」を考える重要性について

読書ノート(137日目)
さて今日も昨日に続いて
こちらの本からです。

第3章:誤差と因果関係が統計学のキモである
・「集計」だけでよかったのは19世紀まで
・看護師として有名なナイチンゲールの功績の一つは、
 戦闘で負った傷で亡くなる兵士よりも、
 負傷後に何らかの菌に感染したせいで死亡する兵士の方が
 圧倒的に多い
ことを明らかにしたことだったといわれている
・彼女はこのデータをもとに
 「戦争で兵士ひいては国民の命を失いたくなければ、
  清潔な病院を戦場に整備するべき」
と提案

・統計学はその後100年ほどで大きく進化した
・本当に清潔な病院を整備すれば戦死者を減らせるのか
・病院の整備にどれだけのコストをかければどれだけの命が救われるのか
・これらの問いに答えようとすれば、
 20世紀に発達した現代的な統計学の手法が必要

・データ分析で重要なのは
 「果たしてその解析はかけたコスト以上の利益を
  自社にもたらすような判断につながるのだろうか?」
という視点

・データをビジネスに使うための「3つの問い」
【問1】何かの要因が変化すれば利益は向上するのか?
【問2】そうした変化を起こすような行動は実際に可能なのか?
【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
 この3つの問いに答えられた時点ではじめて
 「行動を起こすことで利益を向上させる」という見通しが立つ
・つまり、統計解析はこれら3つの問いすべてに答えなければならない

・p値5%以下を目指せ!「誤差」を考えない試算は皮算用
・フィッシャーたちの時代とそれ以前の統計学の大きな違いは、
 誤差の取り扱い方にある
・あるEC企業ではWEBサイトの細かいデザインを変更しただけで
 サイト訪問した10万人のうち商品購買率で0.1%(100人)が
 増えたことが集計結果から分かった
・この0.1%の差に意味があるのかどうか、それとも
 誤差でもこれぐらいの差は生じるのか
はこれだけでは分からない
・割合の有意差を確かめる解析手法「カイ二乗検定」を実施すると、
 10万人中100人の0.1%の差が生じる確率は44.7%との結果
「実際には何の差もないのに誤差や偶然によって
  たまたまデータのような差が生じる確率」

  統計学の専門用語でp値という
・慣例的にp値が5%以下で科学者たちは
 「この結果は偶然得られたとは考えにくい」と判断する

・「因果関係の向き」という大問題
・商品購入者と非購入者に対して、当社の広告を見たことがありますか?
 のアンケートで、広告を見たと答えた人が、
 商品購入者のうち60%、非購入者のうち20%との結果だった場合、
 「広告を認知していたから商品を購入した」のか
 「商品を購入したから広告をその後も認知したのか」という、
 見たから買ったのか?、買ったから覚えているのか?については、
 この一時点の調査データからは因果の向きは分からない

・ゲームと少年犯罪の因果関係を統計的に解析するには…
・親に対するアンケート調査の結果、
 子どもが暴力的なテレビゲームで遊んでいたかどうか
 という質問項目と、子どもの犯罪・補導歴の有無の関連性を分析し、
 少年犯罪者のほうが暴力的なテレビゲームで遊んでいる割合が高かった、
 という結果が得られても、暴力的なテレビゲームを規制して
 犯罪率が下げられるかどうかは分からない
・なぜならゲームなどからは何の影響も受けない
 もともとの「暴力性」とでもいった原因があり、
 その「暴力性」が高い子どもほど暴力的なゲームを好み、
 また犯罪にも手を染めやすいといった因果関係が真理かもしれない
・その場合、ゲームを規制したからといって
 その子どもの暴力性が制御できるわけでもなく、
 それでもやはり同じように罪を犯す、ということになってしまう

・暴力的なゲームと少年犯罪の関連性を見たいのであれば
 「ほかの条件(家庭環境、子どものもともとの心理的傾向など)は
  まったく同じだが、暴力的なゲームのプレーの有無だけが
  異なっている」という集団同士を比べれば理想的な比較
となる

・因果関係の向きが分からないというのは、
 比較している集団が同じ条件ではない、
 つまり「フェアではない」ことに由来
している

・2つの解決法
①そもそものデータの取り方の時点で「フェアに条件を揃える」
 教育学の分野では、一卵性双生児を集めて
 遺伝子の影響を揃えた状態で実験を行うこともある
②「関連しそうな条件」を元に集団をランダム化してフェアな比較を行う
 一卵性双生児を集めなくてもフェアな条件で実験ができるというのが、
 「ランダム化」というフィッシャーによる歴史的大発見

(→第4章:「『ランダム化』という最強の武器」に続きます)

今回の内容も昨日に続いて
僕にとっては濃かったです…!

p値が偶然性を表す指標であること
などは、統計を使い日常的にデータ分析を
しているので基礎知識としては
持っていますが、そもそもとして…

 「果たしてその解析はかけたコスト以上の利益を
  自社にもたらすような判断につながるのだろうか?」


・データをビジネスに使うための「3つの問い」
【問1】何かの要因が変化すれば利益は向上するのか?
【問2】そうした変化を起こすような行動は実際に可能なのか?
【問3】変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

ということについては、
今年1年間で関わらせてもらった
データ分析の仕事を振り返ると…
この3つの問いを自信を持って
全て満たせていた分析レポートって、
果たしてどれくらいあっただろうか…?
と少し不安にも感じました。

また、目次を読んだ時に
個人的に興味深かったテーマである、
「暴力的なゲームと少年犯罪の関係性」に
ついては、結果として本書では明かされず…
という結末でしたが、
それは比較対象がフェアではないことが原因
ということでした。

次回は、統計学の中でも最強の武器である
「ランダム化」ということで
引き続きダイジェスト版で
このnoteで紹介できればと思います!

「ランダム化」の利点を少しだけ紹介すると…
ランダム化した比較実験をすることで
従来の集計などでの「調査データの分析」から
エビデンスレベルを一段上げられます。

ただそれだけに、
p値が5%未満となる有意差が生まれる
ランダム化比較を設定するのは難しい…!
ということにもなるのですが…

エビデンスピラミッド(出典:データビークル)

ということで今日はこの辺で。
それではまたー!

皆さんも良い日曜日をお過ごしください~!😉✨

この記事が気に入ったらサポートをしてみませんか?