【読了】統計学の基礎から学ぶ Excelデータ分析の全知識

網羅的ではないけど、ストーリーを1〜2本通すような本。入門書としては理に適ってる。
Excelスキルってこうゆうのも含むよね。

データ駆動課題解決の全体像

思考サイクル

①見かけの課題(現象)の具体化:5W1H
②検証可能な仮説(課題の仮説)の策定
③データ分析による仮説の検証:逆算思考(アウトプットイメージの定義→データ収集→データ分析→示唆出し)
④検証された仮説に基づくアクションの実施/見直し:KDI
⑤アクションの効果検証:アクションは実施できたか?効果はどうか?
⑥仮説のアップデート(②に戻る)

なんとなく感じた「見かけの課題」を直接的に考えるのではなく、まず「真の課題は何か?」という問いを持って、ちゃんと検証(その手段がデータ分析)してから、アクションを打っていくというのがデータを活用するということ。

データ活用の段階

①現状の定量化:集計、可視化
②関連性の把握:散布図、回帰分析
③因果関係の把握:仮説検定、RCT(ランダム化比較試験)、効果検証
④将来の予測:時系列分析、予測器(機械学習)
⑤最適解の導出:数理最適化

必要とされるスキルも、記述統計→推測統計→機械学習と移ってくイメージ。

記述統計

基本統計量とか可視化(グラフ、ヒートマップ)とか。簡単なので省略。
分析対象とするデータ自体を理解するためには不可欠なスキル。

推測統計

推測統計は、推定と検定(仮説検定)に分類できる。

検定

差異が偶然生じたものかどうかを結論づけるために使う手法。

数ある検定のうち、本書で扱うのは「t検定」と「χ2検定」のみ。

仮説検定のステップ

①帰無仮説H0/対立仮説H1の設定
②有意水準(危険率α)の設定
③検定統計量の選択
④検定統計量の算出(p値も算出)
⑤有意性の評価:p値が有意水準(危険率)よりも小さければ帰無仮説を棄却できる

検定統計量とp値がいつも混乱する。
・p値:帰無仮説を前提とした場合に、観測した事象(得られたデータ)よりも珍しいこと起こる確率probability(=確率分布の面積)。
・検定統計量:p値を算出するための確率変数。t値(t分布に従う)、χ2値(χ2分布に従う)、など。

背理法の理屈。
・算出したp値が有意水準より小さい→観測事象は極めて珍しい(あり得ない)→帰無仮説が棄却される→対立仮説は正しいと結論できる
・算出したp値が有意水準より大きい→観測事象は珍しくない→帰無仮説が棄却されない→対立仮説が正しいかどうかは不明

有意水準αを小さくすればするほど、TypeⅠエラー(誤棄却)を起こす確率は下がる。一方で、TypeⅡエラー(誤採択)を起こす確率が上がる(検出力1-βが下がる)。

t検定

t検定といっても、母平均に関する検定、母平均の差に関する検定(「等分散を仮定する」スチューデント、「等分散を仮定しない」ウェルチ、「一対の」対応あり)、いろいろある。

Excelでは「分析ツール」を使えば、一通り検定できるらしい。

χ2検定

χ2検定の方も、母分散に関する検定、独立性検定、適合度検定、とかいろいろある。本書で扱ってるのは独立性検定(A/Bテストの例)。

独立性検定も適合度検定も似たような2次元テーブルを使うから混乱してたけど、自由度が違うらしい。
・独立性検定:2個以上のカテゴリカル変数に関係があるか(独立性があるか)を検定するので、クロス集計表(n×m)
・適合度検定:期待度数と実測値のズレが偶然かどうかを検定するので、n×2

本書では言及されてないけど、独立性検定を行った後には、具体的にどのカテゴリカル変数間に関係があったのか、残差分析で更に検証するらしい。

Excelで残差分析する方法はこちら。


前処理

欠損値、表記ゆれ、外れ値(外れ値のうち原因が判るものを異常値と呼ぶ)の処理、カテゴリカル変数のダミー変数化、などなど。
省略。

回帰分析

記述統計と推測統計の両方に使う手法。
説明変数(特徴量)と目的変数の関係、および各説明変数の寄与度合いを把握できる。
機械学習アルゴリズムで得られるモデルと比較して、回帰分析で得られるモデルは「解釈可能性が高い」、つまりホモサピに理解できるほどシンプル。

・記述統計における回帰分析:散布図に近似曲線を引く
・推測統計における回帰分析:真の回帰曲線を推定/検定する

回帰分析の種類

・線形回帰分析
 ・単回帰分析
 ・重回帰分析
・ロジスティック回帰
・ガンマ回帰

Excelの「分析ツール」を使うと、各説明変数に対するp値(帰無仮説H0「傾き=0」)も出力してくれるらしい。
また、決定係数R2(Excelでは「重決定R2」)というのも着目すべき指標で、回帰分析で見つけた説明変数で目的変数を説明できている割合(当てはまりの良さ)を示している。

回帰分析の精度を高める

・外れ値を除外する
・多重共線性を解消する(説明変数を減らす)

最適化

・数理最適化:制約条件(変数の取り得る範囲)のもとで、目的関数の値を最大/最小にする変数の値(最適解)を求めること

代数的に解ける(解析解)場合もあるし、近似的にしか解けない(数値解)場合もある。
Excelの「ソルバー」を使うと数理最適化が実行できる。

追記

分散分析

重回帰分析

①回帰統計:補正R^2、1に近いほどよい
②分散分析表(帰無仮説:母重相関係数=0):有意F、0.05未満ならよい
③偏回帰係数のt検定(帰無仮説:偏回帰係数=0):P-値、0.05未満ならよい


    

この記事が気に入ったらサポートをしてみませんか?