速報DATA Saberへの道 5

2020年のプロ野球シーズンも残すところあとわずか
皆さんの御贔屓のチームの成績はいかがですか?

関西出身の私はもちろん『あのチーム』を応援しています。

こんにちは てらぴです。

私がDATA Saberの挑戦を開始したのが、8月8日
第104回全国高校野球選手権大会真っ盛りに開始しました

♪ 今はもう秋 誰もいない海・・

私の挑戦もいよいよ佳境に入ってまいりました。
最後まで喰らいついて見せますよ!!!(あのチームにもお願いしたい)

==================================================

箱ひげ図って なに??

あまり見慣れないグラフなのか先日こんな質問をいただきました。
簡単ですが箱ひげ図について少し触れておきたいと思います。

Tableauのホワイトペーパー『最適なチャート/グラフを選択する方法』
には以下のような記載があります。

箱ヒゲ図 (ボックスプロットとも呼ばれる) は、データの分布を示す一般的な方法です。「箱」には、データの中央値と第 1 四分位数および第 3 四分位数 (中央値より 25% 以上および 25% 以下) が含まれ、「ヒゲ」は通常、四分位範囲 (IQR) (第 1 四分位数と第 3 四分位数の差分) の 1.5 倍内のデー タを表します。また、ヒゲはデータの最大および最小ポイントを示す際にも使用できます。

はい 今回のブログは以上になります。
最後までお読みいただきありがとうございました。

           


すみません もう少し簡単に説明したいと思います。

箱ひげ図の表しているもの

箱ひげ図

箱ひげ図は主にデータの分布を把握したい場合に使われます。
上の図のようにひげの一番上が値の最大値で一番下が最小値です。

箱の上が75%のデータで箱の下が25%のデータを表しています。
箱の中にある横線は中央値50%を表しています。
箱の中にはデータの50%が含まれています。

箱ひげ図は4等分


箱ひげ図

またそれぞれの範囲の中は四等分されています。
例えばデータが100あるとすると以下のようになります。

・最大値から75%の間に25個のデータ
・75%から中央値の間に25個のデータ
・中央値から25%の間に25個のデータ
・25%から最小値までの間に25個のデータ

どんな時に使うの?

下のグラフをごらんください。
昨日までのペナントレースの順位に並べて本塁打数を見ています。
(色がうるさいかもしれませんがチームカラーにしています。)

本塁打数では、首位ヤクルトと3位巨人が他チームを圧倒していますね。
平均でみるとヤクルトと巨人はおよそ1本の差となっています。

チーム別本塁打の状況

それを箱ひげ図にしてみてみると

じゃじゃーん

箱ひげ図にしてみた


箱ひげ図にしてみると巨人は20本以上打っている選手が50%いて
ヤクルトは20本以下の選手が50%だということがわかります。

いかに村上選手がすごいか(外れ値)ということもわかります。
棒グラフだけでは、見えなかったことが見えてきましたね

Tableau Publicにも投稿しております
あわせてご覧いただけると嬉しいです。

2022年度 NPBセントラルリーグ本塁打数 | Tableau Public



最後までお読みいただきありがとうございました。

この記事が気に入ったらサポートをしてみませんか?