散布図・ヒストグラム・箱ひげ図について

お疲れ様です。見習いSaberのATです。

本日は散布図・ヒストグラム・箱ひげ図
この3つのグラフの使い方を考えていきたいと思います。

まずなぜこのテーマなのか

私はDataSaberに挑戦する以前に「ビジネス統計スペシャリスト基礎レベル」というexcelで行うデータ分析スキルを問う資格を取得しました。その資格の勉強をしていた時に散布図・ヒストグラム・箱ひげ図を習いました。
そしてOrd2「Visual Best Practice I」でこの3つのグラフが出てきて「知っているグラフだしこの問題は解けるはず!」と思っていたのに、何度も間違えて4~5回目くらいでようやくOrd2に合格出来ました。
Ord2を通して散布図・ヒストグラム・箱ひげ図は分布を表すことが得意だけど、3つの使い分けが難しいなと思いました。
この3つのグラフについて、もう一度復習しようと思います。

散布図とは

相関関係を表すのが得意なグラフ。相関関係とは原因と結果の関係が成り立ちます。(例)売上(=原因)と利益(=結果)の関係性
tableauでは行と列両方にメジャーをドロップすると、自動で散布図が表示されます。

散布図 得意なこと

傾向線を引くことで2変数間に正の相関(右肩上がり)があるか、負の相関(右肩下がり)があるかを可視化できます。

クラスター分析をグラフ上で表したときに、あるグループに分けられたデータたちはグループ内にたくさん固まっているのか、もしくはグループ内はあまりデータが多くないのか。
たくさんのデータの散らばり具合をすぐに見分けることが得意だと思います。
下の画像はサンプルスーパーストアの返品データを使用して、返品があるオーダーIDと返品のないオーダーIDの売上と利益の関係を散布図で可視化し傾向線を引いたVizです。
返品があるオーダーIDは売上と利益は生み出しているものの、やはり返品の無いオーダーIDより売上も利益も少ないです。
返品のないオーダーIDは緑色のクラスター3が多くの売上と利益を生み出していますが、データのばらつきが多いことも分かります。

ヒストグラムとは

横(=列)が階級、縦(=行)が度数
棒グラフのように見えますが、棒グラフは各棒が独立しています。(カテゴリ:家具、家電、事務用品)
ヒストグラムはグラフ上の棒が、全て一つの量的データ(オーダーID別の売上など)の分布を表すために連なっています。
階級にたくさんのデータがあれば棒が長くなり、あまりデータが多くなれば棒は短くなります。
tableauでは売上などのメジャーの各階級ごとのサイズを指定してビンを作成します。
ヒストグラムを作成するには、ビンは列にドロップします。
オーダーIDなど階級ごとに分けたいデータを行にドロップすることで、ヒストグラムを作成できます。
ちなみにビンのサイズはパラメータを使えば、Viz上でビンのサイズを指定した範囲内で好きに変更することが出来ます。

ヒストグラム 得意なこと

ヒストグラムは度数分布を表す棒グラフ。
どの階級にデータが固まっているかをすぐに把握ことが出来ます。
また全体に対する割合が分かりやすく表せます。
ヒストグラムはデータの正規分布に従っているかを見るときにも使われます。個人的には中央の一番盛り上がっている部分が一番ありふれているパターン、つまり平均的なデータ。
両端のデータがあまり固まっていない部分は極端に低いか極端に高いパターン、つまつ平均以上に大きいか平均以上に少ないか。
それらがバランスよく集まっているから正規分布の形(左右対称の山形)になると解釈しています。(自分の正規分布に対する理解が正しいかは少し不安ですが…汗)
下の画像は同じく返品のあるデータIDの利益をヒストグラムで可視化したものです。
利益はパラメータを使って5000円から10000円の範囲でビンのサイズを可変できるようにしました。
一番階級の細かい5000円単位にすると、一番多いのは0円から5000円単位んですが25000円から30000円の階級に属するオーダーIDが少しだけ多いことが一目で分かりました。

箱ひげ図とは

長方形の箱の末端が25%地点、箱の中央が50%地点(つまり中央値)、箱の上端が75%地点。
長方形の箱から下に伸びるひげが最小値、箱から上に伸びるひげが最大値。
上と下のひげから飛び出した点は外れ値を表しています。
最小値・中央値・最大値の把握だけでなく、箱が売上などの目盛りの下のほうにあれば売上が全体的に低いことが分かり、箱が目盛りの上のほうにあれば全体的に高いことが分かります。(私はデータ分析の勉強をするまで、箱ひげ図の存在を知りませんでした…汗)
tableauでは行にメジャーを、列にディメンションにドロップする。
オーダーIDなど一意のデータを詳細カードにドロップすれば、アナリティクスペインから箱ひげ図をVizにドロップできます。

箱ひげ図 得意なこと

外れ値を表し方は、3つのグラフの中で一番分かりやすいのではないかと思います。
散布図の同じようにデータの散らばり具合を可視化するために使うグラフですが、箱ひげ図は複数の項目のデータの散らばり具合を一つの画面で可視化することが出来ます。
下の画像は左が全体的なオーダーIDの売上分布、右が返品のあるオーダーIDのみにフィルタをかけたときの売上分布を箱ひげ図で表したVizです。
左も右も両方、一番最小値と最大値の幅が広いのはアプライアンスであることが分かります。またアプライアンス以外は最小値から最大値までが100,000円以内にあり、事務用品はサブカテゴリごとで売上の変動が大きいカテゴリであることが分かります。
またサブカテゴリ全17項目×2シーツ分のサブカテゴリ別データの散らばり具合を、一つのダッシュボードだけで可視化することが出来ました。

最後に

散布図・ヒストグラム・箱ひげ図は値の大小を比較するグラフではなく、あるデータの全体的な傾向を知るためのグラフだと改めて認識しました。

散布図 → 相関関係、クラスター分析を可視化したい時に使う
ヒストグラム → 量的データの分布を可視化したい時に使う
箱ひげ図 → 複数項目の量的データの散らばり具合を可視化したい時に使う
といった感じで使い分けるとうまく使いこなせるかなと、自分の頭を整理出来ました。

以上で終わりとさせていただきます。
最後まで読んでいただきありがとうございます。
駄文失礼いたしました。


この記事が気に入ったらサポートをしてみませんか?