テクノベート基礎3:コンピュータが扱う統計の基礎

統計のアプローチとしては

1.数字に集約
2.数式に集約

の2つがある。

1.数字に集約するアプローチ

代表値と散らばりがある。

代表値
1.平均値
一番メジャーだが異常値に弱い。そんな時は中央値を使う。中央値とは数字を小さい順に並べたときの中央の数字。
2.最頻値
最もデータ数が多いものをサンプルとした数字。
・散らばり
1.分散
2.標準偏差

標準偏差の場合知っておくとよいこと
正規分布だった場合で、平均値と標準偏差が出ている場合に限るが下記の計算式で全体の68%と95%を占める値を計算することが可能。

画像1


X-2とX+2の間の値が全体の68%、X-2αとX+2αの間の値が全体の95%となる。

2.数式に集約するアプローチ

あるデータから他のデータの値を推測すること。

・相関係数
-1から+1の間であらわされ、1に近いほど関係性は近い。-1 になることを負の相関という。
・回帰分析
1つの目的変数を1つの説明変数で予測。予測値が最も近くなる数式を見つける手法
・重回帰分析
1つの目的変数を複数のアプローチから見つける手法

画像2