- 運営しているクリエイター
2023年4月の記事一覧
【読書メモ】西内啓『統計学が最強の学問である』20
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
計量経済学者:経済学分野で統計学を用いる人たち
→計量経済学者は、統計家として特別な立場にある
他の統計家との違い(表面的な違い)
説明変数の選択を慎重に検討する傾向がある
説明変数と結果変数の間に、直線的な関係性だけでなく、曲線的な関係性を考えることもある
統計家がロジスティック回帰を用いたがるが、計量経済学者はプロビ
【読書メモ】西内啓『統計学が最強の学問である』19
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
テキストマイニングに携わる専門家
人文学系の教育を受けた者、そうした背景を持った教員に指導された者
→資料の見通しをよくする、自説の傍証にする
IT的な側から自然言語処理に興味を持つ者
→データマイニングの専門家と近い立場
→形態素解析を機械的なアルゴリズムで高速かつ正確に行うための研究をしている
テキストマイニングの応用
【読書メモ】西内啓『統計学が最強の学問である』18
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
テキストマイニング:自然言語で書かれた文章を統計学的に分析すること
文章の分析に数が持ち込まれるようなった歴史は意外に古い
→19世紀頃から行われている(計量文献学)
初期の計量文献学
→シェイクスピアの文体を研究
→シェイクスピアはフランシス・ベーコンではないか?という仮説を検証
→文章の数量的特徴(平均的な単語の長さや単
【読書メモ】西内啓『統計学が最強の学問である』17
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
人工知能の研究から生まれた高度な手法
ニューラルネットワーク
サポートベクターマシン
クラスター分析
クラスター分析:教師なし分類の代表的な手法
教師なし分類:類似性の高さで分類
→例:椅子もしくはそれとデータ上に似た家具という分類
クラスター分析でできるのは、「分類すること」だけ
→どういうグループ(クラスター)で
【読書メモ】西内啓『統計学が最強の学問である』16
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
データマイニングの技術は、ITの進歩によって生み出された
データマイニングと統計学の考え方や手法の共通点と相違点は何か?
バスケット分析:スーパーマーケットの会計の集計
おむつとビール
→おむつを買っている人が、おむつと同時に買っている可能性がいちばん高いのがビール
→おむつを買っている人にビールを勧めれば売上は伸びるので
【読書メモ】西内啓『統計学が最強の学問である』15
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
心理統計家は目に見えない抽象的なものを測定することを目指す(心や精神など)
抽象的な概念の定義を行い、それについて関連しそうな質問を考える
質問の精査
役に立たない質問の削除
事前に想定していた因子と関係のない質問の削除
答えるたびに回答が変わる質問の削除
こうして出来上がった質問紙は、尺度と呼ばれる
→測定結果を回
【読書メモ】西内啓『統計学が最強の学問である』13
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
統計学は数学的な理論に基づいているが、その理論の適用の際にいくつかの仮説をおく。その仮説や仮説の扱いに関する現実的な判断は、分野ごとの視座によって異なる
統計学の6つの分野
社会調査法:実態把握を行うため
疫学・生物統計学:原因究明のため
心理統計学:抽象的なものを測定するため
データマイニング:機械的の分類のため
【読書メモ】西内啓『統計学が最強の学問である』11
読んだ本読書マインドマップ読書メモ第5章 ランダム化できなかったらどうするか?
重回帰分析:説明変数が複数ある状況に拡張された回帰分析
ロジスティック回帰:重回帰分析の拡張
シンプソンのパラドクス:全集団同士の単純比較は、その内訳の小集団との比較の結果とは異なる
→層別解析でパラドクスは防げるが、考慮すべき条件が多くなるとうまくいかなくなってくる
重回帰分析
層分けを不要にする
複数の
【読書メモ】西内啓『統計学が最強の学問である』10
読んだ本読書マインドマップ読書メモ第4章 ランダム化できなかったらどうするか?
一般化線形モデル
→「広義の回帰分析」という考え方に由来
→直線的な関係性のことを指す
一般化線形モデルをまとめた1枚の表(p.170)
説明変数:どのような分析軸か
→2グループ間の比較、多グループ間の比較、連続値の多寡で比較、複数の要因で同時に比較
結果変数:どのような値を比較したいか
→連続値か二値(あり
【読書メモ】西内啓『統計学が最強の学問である9
読んだ本読書マインドマップ読書メモ第5章 ランダム化できなかったらどうするか?
一般化線形モデル:データ間の関連性を示し、誤差を検定する手法
t検定
カイ二乗検定
分散分析
回帰分析
平均値への回帰
→身長の高い親の子どもほど、実際はそれほど背が高くない(逆もあり)
なぜ「平均値への回帰」という現象が起こるのか?
→この世のすべての現象が「バラつき」を持っているから
バラつきを持つ
【読書メモ】西内啓『統計学が最強の学問である』8
読んだ本読書マインドマップ読書メモ第5章 ランダム化できなかったらどうするか?
実験だけでなく、観察でも、統計学は大きな力を発揮する
喫煙とがんの因果関係
→「ケースコントロール研究」と呼ばれるデータの取り方が重要
疫学におけるケース:症例(関心のある病気となった患者)
コントロール:比較対照
→比較対照:関心のある疾患とリスク要因の有無以外は条件が似た人
→層別解析:調査対象とした患者と
【読書メモ】西内啓『統計学が最強の学問である』7
読んだ本読書マインドマップ読書メモ第4章 「ランダム化」という最強の武器
「攻め」のランダム化比較実験
→小さなコストとリスクで「あえて間違いを犯すことができる」(= あえてバカな思いつきを試す」)
ミシンを2台買ったら1割引のキャンペーンはどうか?
→顧客たちは共同購入を呼びかけた(顧客は2台ミシンがほしいわけではない)
→3倍以上の売上となった
→人件費を浪費して終わりのない会議を繰り返す