意外と知らない箱ヒゲ図

データの分析や可視化の際に頻繁に用いられる箱ヒゲ図ですが、実はその読み方を正確に理解していない研究者も少なくありません。この記事では、箱ヒゲ図の基本的な見方と、それがどのようにデータを表現しているのかを詳しく解説します。

箱ヒゲ図の構成要素

箱ヒゲ図は、データの散らばり具合を視覚的に表すグラフで、主に以下の要素から構成されます。

  1. : データの中央の散らばりを表し、上下の辺はそれぞれ上四分位数(75%点)と下四分位数(25%点)に相当します。つまり、箱の中にはデータ全体の半数、つまり中央の50%が含まれます。

  2. ヒゲ: 箱の上下に伸びる線で、通常、最大値と最小値を表します。ただし、これらの値が極端に大きい場合、つまり箱の幅の1.5倍を超える場合、それらは外れ値として考慮され、ヒゲの先ではなく点で表示されます。

  3. 中央値: 箱の中に引かれた横線で、データの中央値を示します。


箱ヒゲ図の例

外れ値

外れ値は、通常のデータ範囲から大きく逸脱している値を指し、箱ヒゲ図では点として表示されます。

箱ヒゲ図では、ヒゲの長さが箱の幅の1.5倍を越える場合、外れ値があるとみなします。1.5倍という基準はグラフ描画ソフトによって変えられることが多いですが、デフォルトでは1.5倍がよく使われます。

なぜ、1.5倍を使うのかという理由については下の記事が詳しいです。簡単にいうと、一般的な外れ値の基準と比べて、1倍だと小さく、2倍だと大きいので、1.5倍が採用されているということになります。


他のグラフ

箱ヒゲ図は、データの代表値や散らばりを視覚化するのに優れていますが、データの分布形状を詳細に表現するには限界があります。そこで、点の散らばりをより詳細に表現するグラフとして、バイオリンプロットが用いられることもあります。バイオリンプロットは、箱ヒゲ図に似ていますが、データの密度分布も表現するため、分布の形状をより詳細に捉えることができます。


バイオリンプロット

まとめ

箱ヒゲ図は、データの散らばりや代表値を視覚的に理解するのに有用なツールです。このグラフを正しく読み解くことで、データセットの重要な特徴を素早く把握することができます。

この記事が気に入ったらサポートをしてみませんか?