見出し画像

Python2年生:8日目

今日は、データの見方について(代表値について)

代表値=このデータは全体としてどういうものなのかを表す値

代表値の使い方

  • データの比較に使う

  • 他の値と比較する

  • 代表値と代表値の比較=グループとグループの差がわかる

  • 代表値と1つのデータの比較=1つのデータが全体のどのあたりなのかがわかる

代表値いろいろ

  • 平均値…すべてのデータを考慮。外れ値の影響大。標準偏差の相性がいい。

  • 中央値…データを順番に並べたときちょうど真ん中にくる値。外れ値の影響は少なめ。

  • 最頻値…データの中で一番多く現れる値。外れ値の影響はかなり少ない。サンプル数が少ないと使えない。

代表値を求めていく

まずはデータセットを作る

平均値

平均値を代表値とすると…

  • 外れ値の影響を受けやすい

平均値を代表としていいか調べる

データのばらつきについて

データのばらつきを調べる
表にして調べるときは度数分布表で調べる

度数分布表は…区切った範囲に値がどれくらい入っているか見れる。
いくつかの範囲に区切る。区切った範囲のことは「階級」という。

データセットを作る

平均値・中央値・最頻値を出す

度数分布表を作る

  • pd.cut()  いくつかの範囲に区切る

  • cut.value_counts() それぞれの範囲に幾つのデータが入っているかカウントする

  • right=False 範囲の左側は含まれるが右側は含まれない

と、ここまでで次の章に行くので…今日はここまで。

※本のリンクはAmazonアソシエイトプログラムを使ってます。

この記事が気に入ったらサポートをしてみませんか?