見出し画像

統計WEB 単元4「代表値と箱ひげ図」学習

←単元3 単元5→

おはようございます。hoshiです。☕
今回は単元4の「代表値と箱ひげ図」学習の私的まとめを掲載していきます。

①平均、中央値、最頻値を求めてみよう

4.1 平均、中央値、最頻値(モード)の極意

🌟平均=全てのデータをデータ数で割ったもの。「合算合計÷データの総数」

例 1,2,3,4のデータがある場合
合算合計は1+2+3+4=10。データ総数は4。よって10÷4=2.5となりこれが平均。

🌟中央値=データを小さい順に並べた時に丁度真ん中にあるデータ

<データ総数>
奇数(3個、11個、23個等)→中央値は一つしかない。
偶数(2個、6個、16個等)→中央値はデータを小さい順から並べた時、ちょうど真ん中にある2つの値の間にあります。

例 1,2,3,4のデータがある場合
データ総数は4個。偶数でちょうど中央は2と3の間。すなわち2+3を2で割った2.5が中央値になります。

🌟最頻値=最も頻度が多い、つまり多く出てるもの。

例 1,2,2,3,3,3,4,4,4,4というデータがある時

何度も数値が出ている値が2,3,4。うち4が4回出ているので最頻値は4となります。

✏️補足:中央値と平均値が一致するとき

「左右対称=真ん中を縦軸(対象軸)として回転させても図が一致する」のときは、平均値と中央値は等しくなります。それ以外は前半に来る(中央値<平均値)か後半に来る(平均値<中央値)かによって中央値の位置が変わります。

②四分位数を見てみよう

4.2 四分位数の極意

🌟四分位数
データを小さい数から並べ四等分した時の区切りとなる値。

Ⅰ、第一四分位数(25パーセンタイル)
データ全体の最初から数えて25%の位置にある値。

Ⅱ、中央値(50パーセンタイル)
データ全体の最初から数えて50%の位置にある値。第二四分位数とも。

Ⅲ、第三四分位数(75パーセンタイル)
データ全体の最初から数えて75%の位置にある値。

Ⅳ、四分位範囲(第三四分位数-第一四分位数)
25%-75%の範囲。

✏️四分位範囲を求めるメリット
平均値、中央値周辺の値なので、異常値(外れ値=4.3で登場)の影響を受けにくい。

③箱ひげ図を描いてみよう

4.3 箱ひげ図の極意

🌟箱ひげ図→データの分布を「箱」と「ひげ」で表したグラフ。データの分布の様子をざっくり把握する目的。

<箱ひげ図の作り方>
①表のデータを少し変える
箱ひげ図を1つ作る場合はpdfのように指標を1つにして残りは数値でまとめる。複数の場合は指標を下に増やすなどして数値と連動できるようにする。

②箱ひげ図を選択
Excelの挿入→おすすめグラフから選択。
ショートカットでやる場合は「グラフにする範囲を選択→alt→n→rの順番」

③ひげの長さは?
🌟上端と下端を求めること
・上端=第三四分位数+1.5×四分位範囲(第三四分位数-第一四分位数)
・下端=第一四分位数-1.5×四分位範囲

④ところが・・・
上端と下端がそのまま最小値、最大値になるとは限らない。

最小値は下端以上のデータの中で最も小さいデータ、最大値は上端以下のデータの中で最も大きいデータ。

⑤最後に領域外(外れ値)を出す
添付したpdfの場合2800のみ外れ値に該当。よって2800に〇or✖をつける。平均値にも印をつけておくこと。

次章は「データのばらつき」になります。

予定は、5-1「データのばらつきを計算してみよう」5-2「分散と標準偏差の性質を詳しく見てみよう」 5-3「変動係数を求めてみよう」です。

それでは、この辺りで失礼いたします。
おつかれさまでした。🍵


この記事が参加している募集

#スキしてみて

525,791件

最後まで読んでいただきありがとうございます! 始めてまだ間もない者になりますが、いいねとシェアをいただければ嬉しいです。拙い文章ですがこれからもご拝読の程よろしくお願いいたします🙇