![見出し画像](https://assets.st-note.com/production/uploads/images/132425668/rectangle_large_type_2_08439a19dea7111836b6df9ba6945c73.jpeg?width=1200)
Python2年生:8日目
今日は、データの見方について(代表値について)
代表値=このデータは全体としてどういうものなのかを表す値
代表値の使い方
データの比較に使う
他の値と比較する
代表値と代表値の比較=グループとグループの差がわかる
代表値と1つのデータの比較=1つのデータが全体のどのあたりなのかがわかる
代表値いろいろ
平均値…すべてのデータを考慮。外れ値の影響大。標準偏差の相性がいい。
中央値…データを順番に並べたときちょうど真ん中にくる値。外れ値の影響は少なめ。
最頻値…データの中で一番多く現れる値。外れ値の影響はかなり少ない。サンプル数が少ないと使えない。
代表値を求めていく
まずはデータセットを作る
![](https://assets.st-note.com/img/1709179684928-0HvGfdGzWU.jpg?width=1200)
平均値
![](https://assets.st-note.com/img/1709180267400-U90p1nwwXM.jpg?width=1200)
![](https://assets.st-note.com/img/1709182081552-YISKhgjKMY.jpg?width=1200)
平均値を代表値とすると…
外れ値の影響を受けやすい
平均値を代表としていいか調べる
![](https://assets.st-note.com/img/1709183284977-2XtQf3v64T.jpg?width=1200)
データのばらつきについて
データのばらつきを調べる
表にして調べるときは度数分布表で調べる
度数分布表は…区切った範囲に値がどれくらい入っているか見れる。
いくつかの範囲に区切る。区切った範囲のことは「階級」という。
データセットを作る
![](https://assets.st-note.com/img/1709184213976-UNAkZue9QN.jpg?width=1200)
平均値・中央値・最頻値を出す
![](https://assets.st-note.com/img/1709184775635-krWsPG5qZD.jpg?width=1200)
度数分布表を作る
![](https://assets.st-note.com/img/1709184956217-1vPGL7RRJh.jpg?width=1200)
pd.cut() いくつかの範囲に区切る
cut.value_counts() それぞれの範囲に幾つのデータが入っているかカウントする
right=False 範囲の左側は含まれるが右側は含まれない
![](https://assets.st-note.com/img/1709185489482-odOwg7oOJn.jpg?width=1200)
と、ここまでで次の章に行くので…今日はここまで。
※本のリンクはAmazonアソシエイトプログラムを使ってます。
この記事が気に入ったらサポートをしてみませんか?