見出し画像

#56 データ社会を生き抜くための「統計学」

統計学が最強の学問である

今回読んだ本のタイトルになります。
早速アウトプットしていきます。

背景

新社会人に備えて、人の行動・感情を知るために必要な学問「統計学」について理解したいと思い、購入しました。
統計学に対する予備知識を蓄え、実際に扱えるようにしたいです。

本を読んで気になったポイント

すべての学問に携わる学者は統計学を使わざるを得ない
コレラを例にして、疫病を防止する学問 「疫学」に統計学が重要な役割を担うことを示した。理解が難しい定性情報について統計学を用いることでその確からしさを調べることができる。


統計学=データ間の関連性から因果関係を推論する


なぜビッグデータという言葉が流行るのか?
様々な企業でIT化が進み、ITメーカーは十分すぎる性能を持つ技術を、すでにデータ管理について満足している企業に売り込む理由が必要だった。統計解析はまさしくこの技術を使って自由自在に扱うことができるものであったため、ビッグデータという流行り言葉が生まれたのではないか。

しかし、統計学は今ITという強力なパートナーを手に入れ、すべての学問分野を横断し、世界のいたるところで、そして人生のいたる瞬間で、知りたいと望む問いに対して最善の答えを与えるようになったとも言える。


全数調査vsサンプリング調査
全数調査=全部を網羅的に調査する方法。
サンプリング調査=一部を調査して、全体へと応用させる方法。

精度は前者のほうが良い。
ただ考えるべきは精度が低下することで、実際に下すべき判断や行動にどんな影響を及ぼすか、である。
影響を及ばさないレベルの精度は無意味で、そのためにかけなければならないコストはムダである。
ビッグデータも同様であり、まずは正しい判断に必要な最小十分なデータに対して探索的解析を行うべき。


統計学をビジネスの具体的な行動に繋がるためには?
3つの考え方が重要である。
①何かの要因が変化すれば利益が向上するのか?
②そうした変化を起こすような行動は実際に可能なのか?
③変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
単純集計(年代、性別、売上など)たけではこの問いに答えられない。
→因果関係を把握することが重要。

その手法とは以下のようなものが挙げられる。
クロス集計=要因比較のための集計
A/Bテスト=AパターンとBパターンを両方試して比較すること

その際、p値の検討は必要不可欠。
p値=実際には何の差もないのに誤差や偶然でたまたまデータのような差が生じる確率


どんなデータを解析すべきか
「目指すゴールを達成したもの」と「そうでないもの」の比較

2つの因果関係の向きはどちらもありうる。(Aが原因でBが起こるともBが原因でAが起こるとも言える。)
因果関係の向きを明らかにするには以下の2つが大事。
①関連しそうな条件を考えうる限り継続的に追跡操作し、なるへくフェア(自分にとって都合の良い解釈ではNG)な比較を行う
②解析ではなくそもそもデータのとり方でもフェアに条件をそろえる
→これらを満たす手法は「ランダム化比較実験」である。

ランダム化比較実験のメリット
比較する以外の条件をランダム化してしまえば、平均的に比較したい両グループ間で同じになるといえ、比較条件のみを検討することができる。

これを使えば小さなコストとリスクで「あえて間違いを犯すこともできる」ため、推論ができるようになる。
統計学的な裏付けないのにそれが絶対誤りだと決めつけることは愚かである。


ランダム化比較実験の限界(デメリット)
ランダム化比較実験を実施する際に気にするポイントが3つある。
①現実→数回程度とチャンスが少ないものを扱うことはできない。(例:宇宙ロケット)
②倫理→ランダム化で人的に有害であるのはダメ、明らかに不公平なレベルでものすごくいいものとそれほどでもないものが存在していると事前にわかっているのもダメ(例:薬剤投与)
③感情→感情的な強い抵抗か受益者や関係者にあるのであればダメ(例顧客から不信感を持たれてしまうランダム化はダメ)(例:キャンペーンメールを送る人と送らない人にランダムで分ける)


その他の手法
・「ケースコントロール研究」
同様と考えられるグループ内で比較対照、層別解析をする手法。
「厳密に同様な集団間での比較はありえないのではないか」という意見もあるが、「揃えきれていない条件」にどこまでこだわるべきかが重要である。(ランダム化比較実験とあまり結果に差はない。)

・「回帰分析」フェアな比較
データ間の関連性を示し、それが誤差と呼べる範囲なのかどうかを検定する手法
データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析という考え方である。
バラつきを持つ現象に対する理論的な予測がそれほどうまくいかない。
データを取り回帰分析を行い、その関係性を分析する必要がある。


統計学自体は広範な分野に応用できるが、学問のは専門性は細分化されており、すべての分野を理解することは難しい。
例えば、「実態把握を行なう社会調査法」では「ランダムサンプリングによる正確な推定値」を大事にする。
一方、「原因究明のための疫学・生物統計学」では「ランダム化による妥当な判断」を大事にする。
「抽象的なものを測定する心理統計学」においては「心」や「精神」といった目に見えない抽象的なものを測定することを目指す。
抽象的な概念が何なのか定義し、被験者への質問用紙に命をかける。

学問により重要視するポイントは異なることを理解するべき。

まとめ

はじめの方の章で、統計学の重要性について理解できました。
疫学をはじめビジネスにおいても効果を発揮する統計学の汎用性について理解しました。
統計学を勉強する自身のモチベUPにもつながったと思います。

具体的な手法については実践がないため理解に苦労する部分があったと思います。
まずは最近データをとっている「シージ」(最近ハマっているゲームの名前)について統計学を活用してみようと思いました。

詳細はこちら⬇
#39 e-Sports上達のために データシート作ってみた
https://note.com/sezakinoutput/n/n2dc35ab0237b

目指すゴールを達成した状態:自分が死なずに、ラウンド勝利をすること
そうでない状態:自分が勝利に貢献せずにデスすること。ラウンド敗北すること。
と定義して、自分のデスやラウンド勝利につながる要因や傾向を明らかにしていきたいです。

あとは実際に新社会人になってからの研修だったり、新たに追加注文した「統計学」に関する本から「統計リテラシー」を高めていきたいと思います。

SezakiN