【読了】統計学の基礎から学ぶ Excelデータ分析の全知識

2022年1月15日 13:26

網羅的ではないけど、ストーリーを1〜2本通すような本。入門書としては理に適ってる。
Excelスキルってこうゆうのも含むよね。

データ駆動課題解決の全体像

思考サイクル

①見かけの課題（現象）の具体化：5W1H
②検証可能な仮説（課題の仮説）の策定
③データ分析による仮説の検証：逆算思考（アウトプットイメージの定義→データ収集→データ分析→示唆出し）
④検証された仮説に基づくアクションの実施／見直し：KDI
⑤アクションの効果検証：アクションは実施できたか？効果はどうか？
⑥仮説のアップデート（②に戻る）

なんとなく感じた「見かけの課題」を直接的に考えるのではなく、まず「真の課題は何か？」という問いを持って、ちゃんと検証（その手段がデータ分析）してから、アクションを打っていくというのがデータを活用するということ。

データ活用の段階

①現状の定量化：集計、可視化
②関連性の把握：散布図、回帰分析
③因果関係の把握：仮説検定、RCT（ランダム化比較試験）、効果検証
④将来の予測：時系列分析、予測器（機械学習）
⑤最適解の導出：数理最適化

必要とされるスキルも、記述統計→推測統計→機械学習と移ってくイメージ。

記述統計

基本統計量とか可視化（グラフ、ヒートマップ）とか。簡単なので省略。
分析対象とするデータ自体を理解するためには不可欠なスキル。

推測統計

推測統計は、推定と検定（仮説検定）に分類できる。

検定

差異が偶然生じたものかどうかを結論づけるために使う手法。

数ある検定のうち、本書で扱うのは「t検定」と「χ2検定」のみ。

仮説検定のステップ

①帰無仮説H0／対立仮説H1の設定
②有意水準（危険率α）の設定
③検定統計量の選択
④検定統計量の算出（p値も算出）
⑤有意性の評価：p値が有意水準（危険率）よりも小さければ帰無仮説を棄却できる

検定統計量とp値がいつも混乱する。
・p値：帰無仮説を前提とした場合に、観測した事象（得られたデータ）よりも珍しいこと起こる確率probability（＝確率分布の面積）。
・検定統計量：p値を算出するための確率変数。t値（t分布に従う）、χ2値（χ2分布に従う）、など。

背理法の理屈。
・算出したp値が有意水準より小さい→観測事象は極めて珍しい（あり得ない）→帰無仮説が棄却される→対立仮説は正しいと結論できる
・算出したp値が有意水準より大きい→観測事象は珍しくない→帰無仮説が棄却されない→対立仮説が正しいかどうかは不明

有意水準αを小さくすればするほど、TypeⅠエラー（誤棄却）を起こす確率は下がる。一方で、TypeⅡエラー（誤採択）を起こす確率が上がる（検出力1-βが下がる）。

t検定

t検定といっても、母平均に関する検定、母平均の差に関する検定（「等分散を仮定する」スチューデント、「等分散を仮定しない」ウェルチ、「一対の」対応あり）、いろいろある。

Excelでは「分析ツール」を使えば、一通り検定できるらしい。

χ2検定

χ2検定の方も、母分散に関する検定、独立性検定、適合度検定、とかいろいろある。本書で扱ってるのは独立性検定（A/Bテストの例）。

独立性検定も適合度検定も似たような2次元テーブルを使うから混乱してたけど、自由度が違うらしい。
・独立性検定：2個以上のカテゴリカル変数に関係があるか（独立性があるか）を検定するので、クロス集計表（n×m）
・適合度検定：期待度数と実測値のズレが偶然かどうかを検定するので、n×2

本書では言及されてないけど、独立性検定を行った後には、具体的にどのカテゴリカル変数間に関係があったのか、残差分析で更に検証するらしい。

Excelで残差分析する方法はこちら。

前処理

欠損値、表記ゆれ、外れ値（外れ値のうち原因が判るものを異常値と呼ぶ）の処理、カテゴリカル変数のダミー変数化、などなど。
省略。

回帰分析

記述統計と推測統計の両方に使う手法。
説明変数（特徴量）と目的変数の関係、および各説明変数の寄与度合いを把握できる。
機械学習アルゴリズムで得られるモデルと比較して、回帰分析で得られるモデルは「解釈可能性が高い」、つまりホモサピに理解できるほどシンプル。

・記述統計における回帰分析：散布図に近似曲線を引く
・推測統計における回帰分析：真の回帰曲線を推定／検定する

回帰分析の種類

・線形回帰分析
　・単回帰分析
　・重回帰分析
・ロジスティック回帰
・ガンマ回帰

Excelの「分析ツール」を使うと、各説明変数に対するp値（帰無仮説H0「傾き＝0」）も出力してくれるらしい。
また、決定係数R2（Excelでは「重決定R2」）というのも着目すべき指標で、回帰分析で見つけた説明変数で目的変数を説明できている割合（当てはまりの良さ）を示している。

回帰分析の精度を高める

・外れ値を除外する
・多重共線性を解消する（説明変数を減らす）

最適化

・数理最適化：制約条件（変数の取り得る範囲）のもとで、目的関数の値を最大／最小にする変数の値（最適解）を求めること

代数的に解ける（解析解）場合もあるし、近似的にしか解けない（数値解）場合もある。
Excelの「ソルバー」を使うと数理最適化が実行できる。

追記

分散分析

重回帰分析

①回帰統計：補正R^2、1に近いほどよい
②分散分析表（帰無仮説：母重相関係数=0）：有意F、0.05未満ならよい
③偏回帰係数のt検定（帰無仮説：偏回帰係数=0）：P-値、0.05未満ならよい

この記事が気に入ったらサポートをしてみませんか？