G検定 / 統計検定 データの集計 #5

株式会社リュディアです。前回に引き続きデータの集計についてまとめていきます。

前回までのG検定 / 統計検定 データの集計のまとめへのリンクは以下を参考にしてください。

今回もデータのばらつきを扱う指標の1つ変動係数についてまとめます。まず変動係数の計算方法についてです。あるデータに対する平均標準偏差が与えられたとき変動係数は以下の式で計算されます。

変動係数 = 標準偏差 / 平均

変動係数は Coefficient of Variation と書かれ記号 CV を使います。標準偏差を平均で割っているので無次元の数です。ただ感覚的に何を言ってるのかわかりづらい指標なので具体例で見ていきます。

前回に使っていたてテストの点数の情報を以下につけます。

画像1

さらに今回は他の点数も使います。以下を見てください。

画像2

この2つのクラスは分散の値がほぼ同じ 237 付近、標準偏差もほぼ同じ 15 付近になっていますが点数の分布の様子が全く違うことはわかりますね。

では変動係数はどうなるでしょうか?それぞれ 0.20 と 0.60 になります。上の例が同じ教科のテストを同じ学年の生徒が受験したものと思い込んでおられた方が多いと思いますが、私はそのようなことは書いていません。これを例えば最初の点数は高校生が英語のテストを受けた結果、後の点数は小学生が社会のテストを受けた結果だとするとどうでしょうか?そもそも比較に意味があるの?という話が出てきますよね。そのような場合に使うのが変動係数です。無次元なので意味があるかどうか別にして何でも比較可能です

この2つの例であれば平均点だけ見ると小学生の社会のテストの方が平均点は低いというかボロボロになっています。分散、標準偏差もよく似た数字だからばらつきが同じか、というとそうではありませんよね。そこで変動係数を見てみると 0.2 と 0.6 なので小学生の社会のテスト結果の方がばらつきが大きいということになります。

分散や標準偏差は平均点からの距離、つまり偏差がベースになっていますが変動係数は平均と標準偏差がベースの無次元の数なのでいろいろなばらつきの比較を行えます。使えそうな状況があれば是非積極的に使ってみてください。

では、ごきげんよう。


この記事が気に入ったらサポートをしてみませんか?