Python2年生:8日目
今日は、データの見方について(代表値について)
代表値=このデータは全体としてどういうものなのかを表す値
代表値の使い方
データの比較に使う
他の値と比較する
代表値と代表値の比較=グループとグループの差がわかる
代表値と1つのデータの比較=1つのデータが全体のどのあたりなのかがわかる
代表値いろいろ
平均値…すべてのデータを考慮。外れ値の影響大。標準偏差の相性がいい。
中央値…データを順番に並べたときちょうど真ん中にくる値。外れ値の影響は少なめ。
最頻値…データの中で一番多く現れる値。外れ値の影響はかなり少ない。サンプル数が少ないと使えない。
代表値を求めていく
まずはデータセットを作る
平均値
平均値を代表値とすると…
外れ値の影響を受けやすい
平均値を代表としていいか調べる
データのばらつきについて
データのばらつきを調べる
表にして調べるときは度数分布表で調べる
度数分布表は…区切った範囲に値がどれくらい入っているか見れる。
いくつかの範囲に区切る。区切った範囲のことは「階級」という。
データセットを作る
平均値・中央値・最頻値を出す
度数分布表を作る
pd.cut() いくつかの範囲に区切る
cut.value_counts() それぞれの範囲に幾つのデータが入っているかカウントする
right=False 範囲の左側は含まれるが右側は含まれない
と、ここまでで次の章に行くので…今日はここまで。
※本のリンクはAmazonアソシエイトプログラムを使ってます。
この記事が気に入ったらサポートをしてみませんか?