![見出し画像](https://assets.st-note.com/production/uploads/images/125936358/rectangle_large_type_2_f83f454963e9a3b4e21d4ea67cd440c4.png?width=800)
統計学が最強の学問である⑤:"おむつとビール"のバスケット分析よりも優れた手法とは?
読書ノート(140日目)
さて今日も前回に続いて
こちらの本からです。
・「IQ」を生み出した心理統計学
・心理統計家であるスピアマンは先行研究で示されていた
種々の知能の測定方法をいくつか選び、研究参加者に対して試してみた
・そしてそれぞれの「知能を表すはずの指標」の間の相関を分析した
・結果として、現在では「因子分析」と呼ばれる手法により、
全く別々に考案された知能に関わる指標すべてと
相関する合成変数が作り出せた
・この合成変数だけが分かれば、ほとんどの知能に関連した
テストの成績が予測できるとし、この指標のことを「一般知能」と呼んだ
・スピアマンの「一般知能」の構成要素
反応速度、記憶力、言語能力、計算能力
・その後1938年にサーストンによって、知性を示す7つの因子が抽出
①空間や立体を知覚する空間的知能
②計算能力についての数的知能
③言葉や文章の意味を理解する言語的知能
④判断や反応の速さに繋がる知覚的知能
⑤論理的推論を行う推理的知能
⑥言葉を早く柔軟に使う流暢性知能
⑦暗記力を示す記憶知能
・その後のさまざまな分析によると、
一般知能がだいたい全得点の30%~60%ほどの影響力を持つとされている
・マーケティングの現場で生まれたデータマイニング
・「おむつとビール」でのバスケット分析
・バスケット分析は、1993年にIBMの技術者ラケシュ・アグラワルが
英国の百貨店マークス&スペンサーのために作った手法
(※以下は筆者作成の仮の数値データ)
・1000人の顧客データのうち、ビールを購入した人は300人で30%。
1000人のうち、おむつを買った人が50人で、
おむつとビールを買った人は20人で40%だった。
つまり、おむつを買った人の方がビールを買う確率は約1.3倍も高い
・この1.3倍の数値を「改善度(リフト値)」と呼ぶ
・ただし、このバスケット分析は
「あまりに数の少ない組み合わせ」では結果が大きく異なる場合がある
・仮におむつを買った人が全体のうち50人ではなく5人しかおらず、
そのうち2人がおむつとビールを一緒に買った場合も
計算上は改善度は約1.3倍となるが、もしも、
その2人のうちどちらか1人が、おむつとビールを買わなかっただけで、
改善度は0.67倍となり、約1.3倍の改善どころか改悪という結果になる。
・Googleの共同設立者のサーゲイ・ブリンは学生時代に
「バスケット分析より統計学的な相関分析の方がいい」という論文を発表
・このようなクロス集計表の相関を分析するときは、
カイ二乗検定のもととなるカイ二乗値を用いると、
「推定値の誤差」を考慮できるため、
統計的に有意な関連性の強い商品の組合せを探すことができる
・Amazonの商品レコメンドでも、こうした相関分析が行われている
IQの話と「おむつとビール」の話は
本書の中でも身近に感じたので
今回はピックアップしてみました。
IQって単語はよく耳にしますが、
どうやって測るのだろう…と思い
検査方法を調べてみたら
以下のサイトを見つけました。
![](https://assets.st-note.com/img/1703820299177-OEYwYyw7By.png?width=800)
ふむふむ…
サーストンが1938年に提唱した
7つの知能因子そのままではなく、
4つの因子から測定するということで、
さらに研究が進んでいたりアレンジが
されているのかもしれないですね。
また、「おむつとビール」の
バスケット分析は
私自身もMBAの授業で聞いたことがあり、
マーケティング学習者の多くの方々は
既にご存知かもしれません。
ただ、1993年のIBMの技術者の分析手法を
Google共同設立者のサーゲイ・ブリンが
「もっと良い分析手法」があるとして、
学生時代に論文を出していたとは知らず…
もう…「学生時代から凄すぎる!」
としか言えないです!(語彙力…😂)
余談ですが…カイ二乗検定というのは、
「割合の差が有意かどうかを検定」する手法で
この割合の差は、たまたまの偶然で計算された
数値である可能性がどれくらいあるのか?
を表すp値(ピーチ🍑)を算出できるので、
その点でバスケット分析よりも優れている
ということだと理解しました。
今回の例だと、おむつとビールを
①50人のうち、20人の40%が購入した割合と
②5人のうち、2人の40%が購入した割合で
改善度は同じでも、p値は全然違うはずで
仮に②のp値が5%を越えている場合は
この改善度のスコアは、たまたま偶然の
可能性が高いので参考値にしかならない。
(この結果をもって、おむつ売場の近くに
ビールを陳列しよう!と決めるのは早計)
…という点まで統計的に判定可能ということです。
また、本書での最終章は
「巨人の肩に立つ」ということで
代表的な論文データベースのWEBサイトが
紹介されておりましたので、
ご参考まで(&自分の備忘メモのため)に、
リンク先を下にまとめてみました。
2024年はこれらの論文を自分で検索し
先行研究を参考にしながら
より一層、データ分析のスキルアップを
目指していこうと思います!😉
…ということで、今日はこの辺で!
読書ノートとしての2023年分の投稿は
140日目と、ちょうどキリも良いですし
今回を最終回とします。
ここまで読んでくださった皆さん、
今年も読書ノートにお付き合いくださり、
本当にありがとうございました!😊✨
明日か明後日に、
2023年の1年間の読書記録を
総括&整理した投稿をする予定です。
そして2024年1月からは引き続き、
「統計学が最強~」の続編シリーズ本を
紹介していこうと思います。
それでは皆さんも
良いお年をお迎えください~!🎍✨
(ご参考&備忘メモ用)
・代表的な論文データベース(英語版)
教育学:ERIC
心理学:PsycINFO
経済学:Econlit
医学:Pubmed
綜合:JSTOR
・日本語版
国立情報学研究所:cinii
科学技術振興機構:J-STAGE
この記事が気に入ったらサポートをしてみませんか?