テクノベート基礎3:コンピュータが扱う統計の基礎
統計のアプローチとしては
1.数字に集約
2.数式に集約
の2つがある。
1.数字に集約するアプローチ
代表値と散らばりがある。
代表値
1.平均値
一番メジャーだが異常値に弱い。そんな時は中央値を使う。中央値とは数字を小さい順に並べたときの中央の数字。
2.最頻値
最もデータ数が多いものをサンプルとした数字。
・散らばり
1.分散
2.標準偏差
標準偏差の場合知っておくとよいこと
正規分布だった場合で、平均値と標準偏差が出ている場合に限るが下記の計算式で全体の68%と95%を占める値を計算することが可能。
X-2とX+2の間の値が全体の68%、X-2αとX+2αの間の値が全体の95%となる。
2.数式に集約するアプローチ
あるデータから他のデータの値を推測すること。
・相関係数
-1から+1の間であらわされ、1に近いほど関係性は近い。-1 になることを負の相関という。
・回帰分析
1つの目的変数を1つの説明変数で予測。予測値が最も近くなる数式を見つける手法
・重回帰分析
1つの目的変数を複数のアプローチから見つける手法