第144回: 「統計の実務」5 箱ひげ図
◀前の記事へ 次の記事へ▶
≡ はじめに
前回は、「データの分布状況を視覚的に認識する」ことを目的とした「ヒストグラム」について書きました。メチャクチャ大事で基本的なグラフなので、軽く復習しつつ箱ひげ図の話に移ります。
ヒストグラムは、例えば模試の結果で、「何点くらいが多いの?」とか、「高得点グループと低得点グループに分かれているの?」といった疑問に対して、視覚的にパッと答えてくれるグラフです。以下のヒストグラムは、20名に対して実施した国語と数学の模試結果です。
なんとなく、国語は60-70点あたりを中心に正規分布していそうで、数学は高得点グループと低得点グループに分かれていそうなことが読み取れます。
元データはこちらです。
今回の箱ひげ図も、全体の分布を確認するグラフという点では同じですが、“ばらつき”に焦点が当たります。データ群を比較する時にもよく使います。
さて、先ほどのヒストグラムと同じデータを箱ひげ図にしてみます。グラフのメニューから箱ひげ図を選んで、[層別のプロット]ボタンを押して、
質的変数に[科目]を選びます。質的変数は値が文字の変数のことでした。
すると、このような箱ひげ図が表示されます。
ヒストグラムと箱ひげ図とでは、だいぶ印象が変わったのではないでしょうか? 「数学は、得点が散らばっているんだなあ」と。
値のばらつきが見やすくなった一方で、ヒストグラムから読み取れた「数学がふた山(三山?)」という情報は見えなくなってしまいました。
≡ 箱ひげ図の使いどころ
箱ひげ図は、「データのばらつきをわかりやすく表現する」ことを目的としています。具体的に見ていきましょう。
先ほどの箱ひげ図の「国語」の得点で見ていきます。元データはこちらです。
全部で20個のデータがあります。Rコマンダーのメニューから
[統計量]>[要約]>[数値による要約]
を選んで、「科目」で層別してみます(下図のボタンで選ぶ)。
次の出力が得られました。
mean sd IQR 0% 25% 50% 75% 100% 得点:n
国語 66.85 11.63151 16.00 48 59.75 63.5 75.75 89 20
数学 64.10 29.38833 51.75 14 39.75 67.0 91.50 99 20
「国語」の行だけ抜き出して一覧表にして箱ひげ図と対応してみます。
要は、データを小さい順で並び替えて、最小値と最大値を横線のひげで表し、真ん中の値(中央値と呼びます)を太い線で、25%-75%の間を箱で表現したグラフが箱ひげ図です。
箱ひげ図は、単独で使うよりも比較で使うことが多いです。
こちらは、総務省統計局が作った箱ひげ図です。
色を変えたり、箱のなかに「×」マークで「平均値」をプロットしています。「お医者さんが増えてる」ことがひと目で分かります。
≡ 箱ひげ図の読み方
読み方も何も、「直感的に分布とバラツキがわかる」ところが箱ひげ図の良いところです。
違いを感じてもらいたいので、これまでの検査数のグラフと比較してみます。
まずは、インデックスプロットはこちらです。
前回、同じものをヒストグラムで描いたものがこちらです。
次は、箱ひげ図で、四半期ごとに描いてみました。(元データも置いておきます)
それぞれのグラフで、読み取れるものが違っているのが、面白いですね。箱ひげ図は、データを層別して、データ群の比較をするのに便利です。
「検査数」は、ちょっと気持ち的にしんどいので、題材をプリキュアの視聴率に変えます。
初代は、ばらつきは大きいものの視聴率は高いです。ハートキャッチプリキュアも人気シリーズでした。ばらつきが小さくなってきたのは、視聴者が固定されてきたからでしょうか?
HUGプリは、ばらつきは更に少ないものの、視聴率は初代やハートキャッチと比較すると低いです。(ただし、現行の「トロピカル~ジュ!プリキュア」の視聴率は3%前後ですので、決してHUGプリが悪い作品というわけではありません。)
統計値を表にまとめておきます。グラフと見比べてください。(meanは平均を、sdは不偏標準偏差を意味します)
検査数より、考察のし甲斐があるってもんです。(笑)
データ数は一つ増え、外れ値を表す「⚪︎」と、そのデータ番号(行番号)を示す「21」がグラフに追加されました。数値による要約結果は次の通りです。
mean sd IQR 0% 25% 50% 75% 100% n
国語 65.09524 13.8993 16 30 59 63 75 89 21
平均値を箱ひげ図に書き入れたいときには、Rのコマンドを書いて実行するしかありません。
具体的には、Rコマンダーの[Rスクリプト]ビューにRのコマンドを入力して、そこにカーソルを置いて、[実行]ボタンを押します。今回なら「points(65.1,pch=4)」を実行します。(65.1は平均値、pch=4は×マークを意味します)
「×」マークがつきました。今回の試験では中央値よりも少し大きかったのですね。
≡ おわりに
今回は、箱ひげ図の話をしました。「データのばらつきをわかりやすく表現する」には、箱ひげ図が最適です。特に、データ群を比較するときにはもってこいです。
次回は、「QQプロット」を取り上げます。ちょっと耳慣れない人が多いかもしれませんが、データが正規分布しているかどうかを判断するための大切なグラフです。
◀前の記事へ 次の記事へ▶
この記事が気に入ったらサポートをしてみませんか?