やっぱりAIだよね 6

今回は『平均』『分散』『標準偏差』について勉強していこう!

■平均

平均とは、いくつかの値の合計を個数で割って求める数のことです。
テストの平均点とか、日本人の平均身長とか、様々なところで使われています。

プログラムで書けば簡単に求めることが出来ますね。

■分散と標準偏差

分散とは、個々のデータの散らばり具合を表す数値です。
これだけだとわかりにくいですが、例えば同じ平均値になるデータでも、全体的に平均値に近いデータなのか、バラバラのデータなのかで持つ意味合いが変わってきます。
例えばクラスの平均点が60点だとして、その中身が30点と90点がいるような状態なのか、60点前後に集中しているのかで先生の指導方針が変わるように、分散の数値を見ることでデータの持つ意味を補足することが出来ます。
※平均値が同じでも分散の値が違うイメージグラフ↓

分散を求めるには、まずデータの平均値を算出し個々のデータとの差を2乗した値を合計します。この合計値をデータ数で割ったものが分散です。
しかしこのままだと2乗した後の数なので元々のデータの単位がずれてしまいます。そのためこの分散の平方根を計算し元の単位に戻します。この値を『標準偏差』と言います

pythonには『Numpy』という便利な関数を予めまとめたライブラリが用意されています。このライブラリを使えば同じ内容を以下のように簡単に計算することが出来ます。


今回はこの辺まで
…次回に続く

この記事が気に入ったらサポートをしてみませんか?