- 運営しているクリエイター
#読書
【読書メモ】西内啓『統計学が最強の学問である』22
読んだ本読書マインドマップ読書メモ終章 巨人の肩に立つ方法
巨人の肩に乗る
→先人たちの知恵を学び、その上に立脚すれば、遠くまで見通すことができる
エビデンスのヒエラルキー
メタアナリシス / 系統的レビュー
系統的レビュー:「レビューする論文」の条件を決めたうえで、条件に該当する論文を収集・分析し、結論をまとめる
→主観などが含まれない「現時点で最善の答え」となるはず
メタアナリシス:
【読書メモ】西内啓『統計学が最強の学問である』21
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
頻度論者とベイズ論者
→両者の違いは「事前に何らかの確率を推定するか」「しないか」
本物のコイン(表:50%、裏:50%)とイカサマのコイン(表:80%、裏:20%)を何回か投げる
→10回投げて10回とも表が出た
頻度論:確率を頻度で捉える
本物のコインの場合、全部表が出る確率は0.10%だから、「コインは本物」と
【読書メモ】西内啓『統計学が最強の学問である』20
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
計量経済学者:経済学分野で統計学を用いる人たち
→計量経済学者は、統計家として特別な立場にある
他の統計家との違い(表面的な違い)
説明変数の選択を慎重に検討する傾向がある
説明変数と結果変数の間に、直線的な関係性だけでなく、曲線的な関係性を考えることもある
統計家がロジスティック回帰を用いたがるが、計量経済学者はプロビ
【読書メモ】西内啓『統計学が最強の学問である』19
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
テキストマイニングに携わる専門家
人文学系の教育を受けた者、そうした背景を持った教員に指導された者
→資料の見通しをよくする、自説の傍証にする
IT的な側から自然言語処理に興味を持つ者
→データマイニングの専門家と近い立場
→形態素解析を機械的なアルゴリズムで高速かつ正確に行うための研究をしている
テキストマイニングの応用
【読書メモ】西内啓『統計学が最強の学問である』18
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
テキストマイニング:自然言語で書かれた文章を統計学的に分析すること
文章の分析に数が持ち込まれるようなった歴史は意外に古い
→19世紀頃から行われている(計量文献学)
初期の計量文献学
→シェイクスピアの文体を研究
→シェイクスピアはフランシス・ベーコンではないか?という仮説を検証
→文章の数量的特徴(平均的な単語の長さや単
【読書メモ】西内啓『統計学が最強の学問である』17
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
人工知能の研究から生まれた高度な手法
ニューラルネットワーク
サポートベクターマシン
クラスター分析
クラスター分析:教師なし分類の代表的な手法
教師なし分類:類似性の高さで分類
→例:椅子もしくはそれとデータ上に似た家具という分類
クラスター分析でできるのは、「分類すること」だけ
→どういうグループ(クラスター)で
【読書メモ】西内啓『統計学が最強の学問である』16
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
データマイニングの技術は、ITの進歩によって生み出された
データマイニングと統計学の考え方や手法の共通点と相違点は何か?
バスケット分析:スーパーマーケットの会計の集計
おむつとビール
→おむつを買っている人が、おむつと同時に買っている可能性がいちばん高いのがビール
→おむつを買っている人にビールを勧めれば売上は伸びるので
【読書メモ】西内啓『統計学が最強の学問である』13
読んだ本読書マインドマップ読書メモ第6章 統計家たちの仁義なき戦い
統計学は数学的な理論に基づいているが、その理論の適用の際にいくつかの仮説をおく。その仮説や仮説の扱いに関する現実的な判断は、分野ごとの視座によって異なる
統計学の6つの分野
社会調査法:実態把握を行うため
疫学・生物統計学:原因究明のため
心理統計学:抽象的なものを測定するため
データマイニング:機械的の分類のため
【読書メモ】西内啓『統計学が最強の学問である』11
読んだ本読書マインドマップ読書メモ第5章 ランダム化できなかったらどうするか?
重回帰分析:説明変数が複数ある状況に拡張された回帰分析
ロジスティック回帰:重回帰分析の拡張
シンプソンのパラドクス:全集団同士の単純比較は、その内訳の小集団との比較の結果とは異なる
→層別解析でパラドクスは防げるが、考慮すべき条件が多くなるとうまくいかなくなってくる
重回帰分析
層分けを不要にする
複数の
【読書メモ】西内啓『統計学が最強の学問である9
読んだ本読書マインドマップ読書メモ第5章 ランダム化できなかったらどうするか?
一般化線形モデル:データ間の関連性を示し、誤差を検定する手法
t検定
カイ二乗検定
分散分析
回帰分析
平均値への回帰
→身長の高い親の子どもほど、実際はそれほど背が高くない(逆もあり)
なぜ「平均値への回帰」という現象が起こるのか?
→この世のすべての現象が「バラつき」を持っているから
バラつきを持つ
【読書メモ】西内啓『統計学が最強の学問である』8
読んだ本読書マインドマップ読書メモ第5章 ランダム化できなかったらどうするか?
実験だけでなく、観察でも、統計学は大きな力を発揮する
喫煙とがんの因果関係
→「ケースコントロール研究」と呼ばれるデータの取り方が重要
疫学におけるケース:症例(関心のある病気となった患者)
コントロール:比較対照
→比較対照:関心のある疾患とリスク要因の有無以外は条件が似た人
→層別解析:調査対象とした患者と