はじめての統計学（サトウマイ）

TAKKIE

2024年6月18日 01:00

イントロ

　日常生活の中にある出来事を統計学や行動経済学、情報理論などの学問と結び付けて考察していく本です。

　初心者でもわかりやすいように書かれているため、数学やデータが苦手な方にもお勧めです。

　本書の中で印象に残ったテーマと、そこから私が考えた【考察】を記録しました。

（追記）
　👇この本もテーマは似ているのですが、数学や統計学の方に寄せて書かれているので、数字やデータが苦手だと途中で挫折するかもしれません。専門校や大学の一般教養クラスなどで、この本を使えば面白いと思います。

合理的な選択で有限な時間を賢く使う

人間は科学的ではない

　本の表紙は、レジ待ち行列のイラストです。
「待ち時間が最短となるレジはどれか」という問題です。
　特別な事情が無ければ、ほとんどの人は、待ち時間が最短になるであろうレジ待ち行列の最後尾に並びます。

　でも、それって、どんな列か説明できますか？

　――３人並んでいるレジより２人並んでいるレジの方が速い
　――セルフレジの方が速い
　――レジ担当者が若いと速い
　・・・・・・
　・・・・・・

　このように、直感、感覚、経験論など、特に根拠が無くても、人間は論理的ではない選択をすると本書では指摘しています。

　人間は本能的に、科学的ではない生き物なのです。

　例えば、セルフレジ。
　有人のレジでただ待たされるよりも、有人レジより時間が掛かるとしても、自分の手を動かして会計できるセルフレジの方が速いと感じるそうです。

レジの待ち時間×待ち行列理論

　では「どのくらい待つか」を真面目に考えようとした場合、平均的な待ち時間を算出するということになります。
　これは「待ち行列理論」で説明することができますので、レジの待ち時間問題を待ち行列理論で考えるというのが本書のテーマです。

　待ち行列理論自体は、情報や統計の世界でよく使われるのですが、どうしても難しい内容になりがちなところを、この本ではわかりやすく解説しています。

　以下のオブラブ様のサイト（サルでもわかる待ち行列）もわかりやすく、病院の待ち時間を待ち行列理論で説明しています。

　細かい計算は本書を参考していただくとして、レジの稼働率と、レジの平均待ち人数から「回転率」を出せば、待ち時間は推定できます。
　以下、結論のみ紹介します。

・レジの待ち時間は、レジの処理能力（通過時間）が強く影響します。
・レジの処理能力（通過時間）が２倍になるとき、
　レジの待ち時間は半分以下になります。

はじめての統計学@サトウマイ

「たった数分の待ち時間で何を」と思う人

　タイトルが「レジの行列」であるもう一つの意味は、日常生活でよくある出来事ほど、統計や確率で考える意義が高いということです。一生に一度しか経験できないようなものに、確率や統計を当てはめる意味はほとんどありません。

標準偏差や正規分布で簡単な本👇

　コインを投げて裏か表か。確率は５０％。
　でも、１回しかチャレンジできないなら、確率はどーでもいいのです。
　統計や確率で物事を考える時、何回チャレンジできるか（試行回数）が重要です（大数の法則/分散の収束）

　レジの待ち時間はどうでしょうか。
　――何かをするには短すぎる。
　――無駄にするにはもったいない。

　そう、統計や確率が活きる場面なのです。

【考察】人生で何分レジ待ちするか

　人生の中で、何時間をレジの待ち時間に消費するか考えてみたことがありますか？

・２日に１回買い物する３０歳
・健康寿命の平均７５歳くらいまで買い物を続ける
・いつも３分間のレジ待ち

人生の何日間をレジ待ちに費やすか計算してみよう

　１８０日×３分×４５年　≒　４００時間　≒　１７日
　１７日間！(ﾟДﾟ;)
　生産性のないレジ待ちに、人生を１７日間も費やしています！(ﾟДﾟ;)

　レジで待つのは仕方ないことですが、レジ待ち時間を３分から１分に短縮できれば、人生１２日くらい得する！　という考え方だと思います。
　１８０日×１分×４５年　≒　１３５時間　≒　５.５日

　本書の表紙裏には、以下のように書かれています。

統計学は人生哲学であり、有限な時間を賢く生きるための知恵です。

はじめての統計学（サトウマイ）：　表紙裏

AIとじゃんけん勝負

　本書の中で、桜美林大学、芳沢光雄教授の研究結果が紹介されています。

　簡単にまとめてしまうと、グーチョキパーを出す確率はそれぞれ33%ですが、あいこの直後に同じ手を出す確率は25%にまで落ちるというものです。
　グーであいこなら、相手はチョキかパーを75%の確率で出すので、チョキを出すと勝率が上がるということです。

　このように、確率が誤差の範囲ではなく、統計的に意味のある値になることを有意差と表現します（２５％＝有意差）

　問題は、この２５％（あいこになれば違う手を出す確率が７５％）が有意差か、誤差の範囲内かという判断です。

【考察】「あいこで７５％」は有意差か誤差の範囲内か

　あいこになると７５％で次は違う手を出す（以下、あいこ７５％現象といいます。）という確率のすごさを、以下のギャンブルで考察します。

・私とあなたの２人でじゃんけん勝負
・じゃんけんは何回も繰り返す
・じゃんけんの敗者は勝者に1,000円渡す。
・あいこの場合、勝者と敗者が決まるまで繰り返す。

　👆日本国内でやったら違法ですよ('Д')

　グー・チョキ―・パーの出る確率は３３%です。
　３３%の確率で２倍になり、３３%の確率で１倍になり、３３%の確率で０倍になります。

　次に期待値を求めてみます。
　期待値は、確率×その時に得る額で求められます。

$$ 2,000円×\frac{1}{3} + 1,000円×\frac{1}{3}＋0円＝999.99円 $$

勝利時の期待値：666円
あいこの期待値：333円
敗退時の期待値：0円

　事前情報がなければ、期待値１００％。
　じゃんけんは公平です。

　ここからが本題です。
　この状況で、あなただけがあいこ７５％現象を知るとします。
（私は何も知りません）

　勝ちの期待値は666円、負けの期待値は0円で変わりません。
　グーであいこの場合、あなたはチョキを出すことが最適な戦略です。

私は3/8の確率でパーを出してあなたの勝ち
私は3/8の確率でチョキを出してあなたの勝ち
私は1/4の確率でグーを出してあなたの負け

$$ 333円×\frac{3}{8}×2＋333円×\frac{3}{8}×1　$$

$$ 333円×\frac{3}{8}×3 = 374.625円 $$

■　３７４．６２５円（最適戦略時の期待値）
■　３３３円（あいこ７５％現象を両者共に知らない時の期待値）
　　差額：４１．６２５円

　あいこ７５%現象により、あなたは４０円相当を儲けることができます。
　ここで４０円は、掛け金の約４％になります。
　掛け金を４％で増やせるギャンブル（投資）になるんです。利回り４％。
　誤差の範囲内とは言えないです。有意差です。

　４％が大きいのか小さいのかわかりませんか？
　ほとんどの銀行預金は、利回り１％もありません。

【さらに考察】ギャンブルの大前提はプロスペクト理論

　ギャンブルの考えるとき、大前提となるのは行動分析学で有名なプロスペクト理論です。
　ポイントは２つ。

価値は自己資本に対して相対的になる
人間は１万円を得る喜びより、１万円失う悲しみの方が大きい

　上記のじゃんけんギャンブルも書き方や金額を変えると、例え有意差のあるギャンブル（投資）だとしても、敬遠するプレーヤーが出現します。

・私とあなたの２人でじゃんけん勝負
・じゃんけんを５回繰り返す
・じゃんけんで負けたとき、あなたは何ももらえない。
・じゃんけんで勝つとき、あなたは１回あたり200万円貰える。
・あなたがこの勝負を辞退すれば、無条件で500万円が貰える。

　👆日本国内でやったら違法ですよ('Д')

　期待値的にはじゃんけん（ギャンブル）すべきなのに、全資産が１千万前後、年収が１千万以下の人（大多数の日本人）に条件を絞れば、５００万円をもらう人だらけになるでしょう。

「１円は１円」ですが、価値は相対的なのです。
　資産１００億円の人の５００万円と、資産１千万円の人の５００万円には価値の差があるのです。
　２００万円→２千円、５００万円→５千円にするだけで、ギャンブルする人は増えます。

直感に訴えかけるマーケティング(広告)

　本書の中では、有能な社員は「わかりやすく」「的確に」「データ・エビデンスに基づいて」仕事をするそうですが、マーケティングの世界では必ずしもそれが正解とは限らないと紹介されています。
　直感に訴えかける、あえて「わかりにくくする」表現について考察します。

【考察】射幸心を煽るキャンペーン

　Ａ社とＢ社が期間限定のキャンペーンを始めました。
　どちらのキャンペーンがお得だと思いますか？　

A社：全額返金キャンペーン実施中

B社：キャッシュバックキャンペーン実施中

　Ａ社のモデルは何とかペイの広告です。
　Ｂ社のモデルは近所のスーパーの広告です。

　会社側の立場からすると、たくさんのユーザーが参加する条件下では、Ａ社の広告でも、Ｂ社の広告でも、出費は等しく２.５％になります。

　Ａ社とＢ社では目的が違います。
　Ａ社は新規顧客を獲得したく、Ｂ社は既存顧客へ還元したいのです。

　どちらも同じような広告ですが、大衆的にはB社の広告よりもA社の広告の方が魅力的だと感じるのです。
　広告制作の費用面では、Ａ社＞Ｂ社になります。

　ギャンブル依存症の説明で有名なスキナー箱というのがあります。

　パチンコやパチスロと同じで、独立試行（毎回抽選）に人間は魅力を感じるのです。

錯誤相関に注意

　――ある事とある事に関係はないのに、まるで関係があるかのように感じてしまう。

　錯誤相関といいます。
　錯誤相関は日常に溢れていて、広告や詐欺にも使われています。
　認知バイアスともいいます。思い込みは原動力になります。

　人間はウソをつきますが、数字はウソをつきません。
　騙されないためには、「因果関係」と「相関」を切り分けて、隠された第３の変数を探すことが大切なのです。

「この売場から高額当選者がいっぱい出ました！」→第３の変数は？

　――この売場で宝くじを買うと当たりやすいのかな !(^^)!
　そんなことを思わせるための広告ですが、宝くじの当選確率は全国どこで購入しても同じです。

「高額当選者が多い」から「当たりやすい窓口」という錯誤相関に騙されているのです。

　――隠された第３の変数は何か。
「宝くじの購入者数」です。

①宝くじを購入する人が増える
②高額当選者が出る確率が上がる
③「高額当選者が出ました！」と広告する
④この売場で買えば自分にもチャンスがある――と錯誤相関させる
⑤①に戻る

・・・
騙されないで。

　そもそも宝くじは「全国自治宝くじ」であり、総務省のHPでも地方財政制度の一つとして紹介されています。宝くじの収益用途は公共事業や少子化対策等に使われています。
　宝くじは税金、それも住民税みたいなものです。宝くじの購入場所で当選確率が変わるなんてことが起きれば大事件です。

ゆるふわ統計（ベイズ推定）

　 ――ベイズ推定は、統計的推定方法の一つであり、簡単に言うと確率分布と尤度から事後確率分布を求めることである――

　これでは、ちょっと敷居が高い説明……
　間違いではないけど、理解してもらえるか微妙です。

　この著者は実に上手な表現をするな、と私が思ったのはこのベイズ推定の部分でした。
　私も人にベイズ推定を説明するときは、著者の言葉を借りています。

　ベイズ推定は、ゆるふわな統計です。

データを集める時代からデータを学習する時代へ

　一昔前まで、データ解析系の世界は、膨大なデータセット（サンプル）を入手し、データを解析してモデルを作成し、モデルを用いて何かするというのが一般的でした。

　Googleの画像検索で「りんご」と調べてみます。

　こういう画像認識システムを昔に作ろうと思えば、以下の手順でプログラムを書いていました。

「りんご」の画像をたくさん集めて「A1,A2,A3…,An」と名前を付ける
「りんご」以外の画像をたくさん集めて「B1,B2,B3…,Bn」と名前を付ける
A1～Anを「りんご」の正解画像として登録する
B1～Bnを「りんご」の不正解画像として登録する
「りんご」画像とその他画像が混在したテスト用データセット「C1,C2,C3…,Cn」をたくさん集める
テストしたCのデータ群をAのデータ群またはBのデータ群に振り分けて精度アップする
5と６のステップを繰り返す
一定の精度が確保されたらシステムとして使用開始

　データを用意できないと何もできないし、データを用意できてもシステム使用開始まで時間がかかる状況でした。

　そこで「ゆるふわなベイズ推定」の登場です。
　ベイズ推定では、とりあえず仮設をたてて、その都度直していくのです。

とりあえずモデルを作る
「丸くて赤っぽい」画像データの７割はりんごってことにする
テストしたら「丸くて赤っぽい」画像データの６割がりんごと判明した
次からは「丸くて赤っぽい」画像データの６割をりんごってことにする
他の特徴と組み合わせていく

　トライ＆エラーみたいな考え方です。

　アマゾンの広告や商品おススメ機能、メールふりわけ機能、予測変換……
　全部、ベイズ推定絡んでます。すごいですよね。

　著者のベイズ推定については、以下のnoteでかなり詳しく説明されています。

　簡単な本だと👇のあたりがおすすめです。

アウトロ

　とにかく簡潔でわかりやすく、極力数字を省いて日本語で説明してくれる本です。

　数字が苦手な人でも読みやすく面白い本なのでおすすめです。

この記事が気に入ったらサポートをしてみませんか？