はじめての統計学(サトウマイ)
イントロ
日常生活の中にある出来事を統計学や行動経済学、情報理論などの学問と結び付けて考察していく本です。
初心者でもわかりやすいように書かれているため、数学やデータが苦手な方にもお勧めです。
本書の中で印象に残ったテーマと、そこから私が考えた【考察】を記録しました。
(追記)
👇この本もテーマは似ているのですが、数学や統計学の方に寄せて書かれているので、数字やデータが苦手だと途中で挫折するかもしれません。専門校や大学の一般教養クラスなどで、この本を使えば面白いと思います。
合理的な選択で有限な時間を賢く使う
人間は科学的ではない
本の表紙は、レジ待ち行列のイラストです。
「待ち時間が最短となるレジはどれか」という問題です。
特別な事情が無ければ、ほとんどの人は、待ち時間が最短になるであろうレジ待ち行列の最後尾に並びます。
でも、それって、どんな列か説明できますか?
――3人並んでいるレジより2人並んでいるレジの方が速い
――セルフレジの方が速い
――レジ担当者が若いと速い
・・・・・・
・・・・・・
このように、直感、感覚、経験論など、特に根拠が無くても、人間は論理的ではない選択をすると本書では指摘しています。
人間は本能的に、科学的ではない生き物なのです。
例えば、セルフレジ。
有人のレジでただ待たされるよりも、有人レジより時間が掛かるとしても、自分の手を動かして会計できるセルフレジの方が速いと感じるそうです。
レジの待ち時間×待ち行列理論
では「どのくらい待つか」を真面目に考えようとした場合、平均的な待ち時間を算出するということになります。
これは「待ち行列理論」で説明することができますので、レジの待ち時間問題を待ち行列理論で考えるというのが本書のテーマです。
待ち行列理論自体は、情報や統計の世界でよく使われるのですが、どうしても難しい内容になりがちなところを、この本ではわかりやすく解説しています。
以下のオブラブ様のサイト(サルでもわかる待ち行列)もわかりやすく、病院の待ち時間を待ち行列理論で説明しています。
細かい計算は本書を参考していただくとして、レジの稼働率と、レジの平均待ち人数から「回転率」を出せば、待ち時間は推定できます。
以下、結論のみ紹介します。
「たった数分の待ち時間で何を」と思う人
タイトルが「レジの行列」であるもう一つの意味は、日常生活でよくある出来事ほど、統計や確率で考える意義が高いということです。一生に一度しか経験できないようなものに、確率や統計を当てはめる意味はほとんどありません。
標準偏差や正規分布で簡単な本👇
コインを投げて裏か表か。確率は50%。
でも、1回しかチャレンジできないなら、確率はどーでもいいのです。
統計や確率で物事を考える時、何回チャレンジできるか(試行回数)が重要です(大数の法則/分散の収束)
レジの待ち時間はどうでしょうか。
――何かをするには短すぎる。
――無駄にするにはもったいない。
そう、統計や確率が活きる場面なのです。
【考察】人生で何分レジ待ちするか
人生の中で、何時間をレジの待ち時間に消費するか考えてみたことがありますか?
180日×3分×45年 ≒ 400時間 ≒ 17日
17日間!(゚Д゚;)
生産性のないレジ待ちに、人生を17日間も費やしています!(゚Д゚;)
レジで待つのは仕方ないことですが、レジ待ち時間を3分から1分に短縮できれば、人生12日くらい得する! という考え方だと思います。
180日×1分×45年 ≒ 135時間 ≒ 5.5日
本書の表紙裏には、以下のように書かれています。
AIとじゃんけん勝負
本書の中で、桜美林大学、芳沢光雄教授の研究結果が紹介されています。
簡単にまとめてしまうと、グーチョキパーを出す確率はそれぞれ33%ですが、あいこの直後に同じ手を出す確率は25%にまで落ちるというものです。
グーであいこなら、相手はチョキかパーを75%の確率で出すので、チョキを出すと勝率が上がるということです。
このように、確率が誤差の範囲ではなく、統計的に意味のある値になることを有意差と表現します(25%=有意差)
問題は、この25%(あいこになれば違う手を出す確率が75%)が有意差か、誤差の範囲内かという判断です。
【考察】「あいこで75%」は有意差か誤差の範囲内か
あいこになると75%で次は違う手を出す(以下、あいこ75%現象といいます。)という確率のすごさを、以下のギャンブルで考察します。
グー・チョキ―・パーの出る確率は33%です。
33%の確率で2倍になり、33%の確率で1倍になり、33%の確率で0倍になります。
次に期待値を求めてみます。
期待値は、確率×その時に得る額で求められます。
$$ 2,000円×\frac{1}{3} + 1,000円×\frac{1}{3}+0円=999.99円 $$
勝利時の期待値:666円
あいこの期待値:333円
敗退時の期待値:0円
事前情報がなければ、期待値100%。
じゃんけんは公平です。
ここからが本題です。
この状況で、あなただけがあいこ75%現象を知るとします。
(私は何も知りません)
勝ちの期待値は666円、負けの期待値は0円で変わりません。
グーであいこの場合、あなたはチョキを出すことが最適な戦略です。
私は3/8の確率でパーを出してあなたの勝ち
私は3/8の確率でチョキを出してあなたの勝ち
私は1/4の確率でグーを出してあなたの負け
$$ 333円×\frac{3}{8}×2+333円×\frac{3}{8}×1 $$
$$ 333円×\frac{3}{8}×3 = 374.625円 $$
■ 374.625円(最適戦略時の期待値)
■ 333円(あいこ75%現象を両者共に知らない時の期待値)
差額:41.625円
あいこ75%現象により、あなたは40円相当を儲けることができます。
ここで40円は、掛け金の約4%になります。
掛け金を4%で増やせるギャンブル(投資)になるんです。利回り4%。
誤差の範囲内とは言えないです。有意差です。
4%が大きいのか小さいのかわかりませんか?
ほとんどの銀行預金は、利回り1%もありません。
【さらに考察】ギャンブルの大前提はプロスペクト理論
ギャンブルの考えるとき、大前提となるのは行動分析学で有名なプロスペクト理論です。
ポイントは2つ。
価値は自己資本に対して相対的になる
人間は1万円を得る喜びより、1万円失う悲しみの方が大きい
上記のじゃんけんギャンブルも書き方や金額を変えると、例え有意差のあるギャンブル(投資)だとしても、敬遠するプレーヤーが出現します。
期待値的にはじゃんけん(ギャンブル)すべきなのに、全資産が1千万前後、年収が1千万以下の人(大多数の日本人)に条件を絞れば、500万円をもらう人だらけになるでしょう。
「1円は1円」ですが、価値は相対的なのです。
資産100億円の人の500万円と、資産1千万円の人の500万円には価値の差があるのです。
200万円→2千円、500万円→5千円にするだけで、ギャンブルする人は増えます。
直感に訴えかけるマーケティング(広告)
本書の中では、有能な社員は「わかりやすく」「的確に」「データ・エビデンスに基づいて」仕事をするそうですが、マーケティングの世界では必ずしもそれが正解とは限らないと紹介されています。
直感に訴えかける、あえて「わかりにくくする」表現について考察します。
【考察】射幸心を煽るキャンペーン
A社とB社が期間限定のキャンペーンを始めました。
どちらのキャンペーンがお得だと思いますか?
A社:全額返金キャンペーン実施中
B社:キャッシュバックキャンペーン実施中
A社のモデルは何とかペイの広告です。
B社のモデルは近所のスーパーの広告です。
会社側の立場からすると、たくさんのユーザーが参加する条件下では、A社の広告でも、B社の広告でも、出費は等しく2.5%になります。
A社とB社では目的が違います。
A社は新規顧客を獲得したく、B社は既存顧客へ還元したいのです。
どちらも同じような広告ですが、大衆的にはB社の広告よりもA社の広告の方が魅力的だと感じるのです。
広告制作の費用面では、A社>B社になります。
ギャンブル依存症の説明で有名なスキナー箱というのがあります。
パチンコやパチスロと同じで、独立試行(毎回抽選)に人間は魅力を感じるのです。
錯誤相関に注意
――ある事とある事に関係はないのに、まるで関係があるかのように感じてしまう。
錯誤相関といいます。
錯誤相関は日常に溢れていて、広告や詐欺にも使われています。
認知バイアスともいいます。思い込みは原動力になります。
人間はウソをつきますが、数字はウソをつきません。
騙されないためには、「因果関係」と「相関」を切り分けて、隠された第3の変数を探すことが大切なのです。
「この売場から高額当選者がいっぱい出ました!」→第3の変数は?
――この売場で宝くじを買うと当たりやすいのかな !(^^)!
そんなことを思わせるための広告ですが、宝くじの当選確率は全国どこで購入しても同じです。
「高額当選者が多い」から「当たりやすい窓口」という錯誤相関に騙されているのです。
――隠された第3の変数は何か。
「宝くじの購入者数」です。
①宝くじを購入する人が増える
②高額当選者が出る確率が上がる
③「高額当選者が出ました!」と広告する
④この売場で買えば自分にもチャンスがある――と錯誤相関させる
⑤①に戻る
・・・
騙されないで。
そもそも宝くじは「全国自治宝くじ」であり、総務省のHPでも地方財政制度の一つとして紹介されています。宝くじの収益用途は公共事業や少子化対策等に使われています。
宝くじは税金、それも住民税みたいなものです。宝くじの購入場所で当選確率が変わるなんてことが起きれば大事件です。
ゆるふわ統計(ベイズ推定)
――ベイズ推定は、統計的推定方法の一つであり、簡単に言うと確率分布と尤度から事後確率分布を求めることである――
これでは、ちょっと敷居が高い説明……
間違いではないけど、理解してもらえるか微妙です。
この著者は実に上手な表現をするな、と私が思ったのはこのベイズ推定の部分でした。
私も人にベイズ推定を説明するときは、著者の言葉を借りています。
ベイズ推定は、ゆるふわな統計です。
データを集める時代からデータを学習する時代へ
一昔前まで、データ解析系の世界は、膨大なデータセット(サンプル)を入手し、データを解析してモデルを作成し、モデルを用いて何かするというのが一般的でした。
Googleの画像検索で「りんご」と調べてみます。
こういう画像認識システムを昔に作ろうと思えば、以下の手順でプログラムを書いていました。
「りんご」の画像をたくさん集めて「A1,A2,A3…,An」と名前を付ける
「りんご」以外の画像をたくさん集めて「B1,B2,B3…,Bn」と名前を付ける
A1~Anを「りんご」の正解画像として登録する
B1~Bnを「りんご」の不正解画像として登録する
「りんご」画像とその他画像が混在したテスト用データセット「C1,C2,C3…,Cn」をたくさん集める
テストしたCのデータ群をAのデータ群またはBのデータ群に振り分けて精度アップする
5と6のステップを繰り返す
一定の精度が確保されたらシステムとして使用開始
データを用意できないと何もできないし、データを用意できてもシステム使用開始まで時間がかかる状況でした。
そこで「ゆるふわなベイズ推定」の登場です。
ベイズ推定では、とりあえず仮設をたてて、その都度直していくのです。
とりあえずモデルを作る
「丸くて赤っぽい」画像データの7割はりんごってことにする
テストしたら「丸くて赤っぽい」画像データの6割がりんごと判明した
次からは「丸くて赤っぽい」画像データの6割をりんごってことにする
他の特徴と組み合わせていく
トライ&エラーみたいな考え方です。
アマゾンの広告や商品おススメ機能、メールふりわけ機能、予測変換……
全部、ベイズ推定絡んでます。すごいですよね。
著者のベイズ推定については、以下のnoteでかなり詳しく説明されています。
簡単な本だと👇のあたりがおすすめです。
アウトロ
とにかく簡潔でわかりやすく、極力数字を省いて日本語で説明してくれる本です。
数字が苦手な人でも読みやすく面白い本なのでおすすめです。
この記事が気に入ったらサポートをしてみませんか?