見出し画像

【第4回】四分位数-前編

今回は四分位数について、記事を書きたいと思います。まずは、平成29年(2017年)公示の中学校学習指導要領の引用です。

[第2学年]
D データの活用
⑴ データの分布について,数学的活動を通して,次の事項を身に付けることができるよう指導する。
ア 次のような知識及び技能を身に付けること。
 (ア) 四分位範囲や箱ひげ図の必要性と意味を理解すること。
 (イ) コンピュータなどの情報手段を用いるなどしてデータを整理し箱ひげ図で表すこと。
イ 次のような思考力,判断力,表現力等を身に付けること。
 (ア) 四分位範囲や箱ひげ図を用いてデータの分布の傾向を比較して読み取り,批判的に考察し判断すること。

中学校学習指導要領(平成29年公示)p.71~p.72

上記の内容は、1つ前(平成20・21年改訂)の学習指導要領では、高等学校の「数学Ⅰ」で扱われていた内容で、このたびの改訂により中学校第2学年に移行されました。
文部科学省の検定教科書の定義に沿った四分位数の考え方はそれほど難しくはないのですが、問題は学習指導要領にも述べられております「コンピュータを用いる」場合です。教科書で述べられている四分位数の定義と表計算ソフトの代表的な関数で採用されている四分位数の定義が一致していないため、私も結構戸惑いました。今回はそのあたりを詳しく見ていきます。

検定教科書における定義

それではまず、検定教科書における四分位数の定義を確認してみましょう。

四分位数とは,全てのデータを小さい順に並べて四つに等しく分けたときの三つの区切りの値を表し,小さい方から第1四分位数,第2四分位数,第3四分位数という。第2四分位数は中央値のことである。なお,四分位数を求める方法として幾つかの方法が提案されているが,ここでは四分位数の意味を把握しやすい方法を用いる。
例えば,次の九つの値があるとき,中央値(第2四分位数)は5番目の 26 である。
23  24  25  26  26  29  30  34  39
この5番目の値の前後で二つに分けたときの,1番目から4番目までの値のうちの中央値 24.5 を第1四分位数,6番目から9番目までの値のうちの中央値 32 を第3四分位数とする。

中学校学習指導要領(平成29年公示)解説 数学編 p.120~p.121

つまり、四分位数は下記の手順で求めるということです。

  1. 中央値が第2四分位数である。

  2. 第2四分位数の前後でデータを2つの組に分ける。ただし、第2四分位数自身はどちらの組にも含めない。

  3. 第2四分位数より前のデータの組の中央値が第1四分位数、第2四分位数より後のデータの組の中央値が第3四分位数である。

図1:四分位数(奇数個の数から成るデータの場合)
図2:四分位数(偶数個の数から成るデータの場合)

表計算ソフトにおける定義

表計算ソフトで四分位数を求める関数は、QUARTILE.INC関数とQUARTILE.EXC関数の2種類があります。
以前のバージョン(Excelでは2007以前)と互換性を持たせるために使われるQUARTILE関数は、QUARTILE.INC関数と同じ働きです。QUARTILEが四分位数を意味しています。

まずは比較

QUARTILE.INC関数もQUARTILE.EXC関数もほとんど同じ使い方で、
 =QUARTILE.INC(データ,0〜4の数字)
 =QUARTILE.EXC(データ,1〜3の数字)
という形で使います。

図3: QUARTILE.INC関数・QUARTILE.EXC関数(数式入力)

「0〜4の数字」は、下記を表しています。ただし、QUARTILE.EXC関数は0と4は定義されていません。
0:最小値(データ全体の0%の位置にある数)
1:第1四分位数(データ全体の25%の位置にある数)
2:中央値(データ全体の50%の位置にある数)
3:第3四分位数(データ全体の75%の位置にある数)
4:最大値(データ全体の100%の位置にある数)
この「データ全体の25%の位置」や「データ全体の75%の位置」の定義が両関数で異なり、検定教科書の定義とも異なっています。
まずは、出力結果を見てみましょう。

図4: QUARTILE.INC関数・QUARTILE.EXC関数(値出力)

まずは前述の通り、QUARTILE.EXC関数は「0%の位置にある数」と「100%の位置にある数」が定義されていません。したがって、最小値と最大値を出力するセルに「#NUM!」というエラーが出ています。
こちらを見ると第1四分位数と第3四分位数の値が異なっていることがわかります。
それでは、それぞれの関数における四分位数の定義を見ていきましょう。

QUARTILE.INC関数

こちらの関数では、N個の数から成るデータの場合、最小値を0番目のデータと考え、最大値をN-1番目のデータと考えます(Pythonのリストのインデックスと同じです)。そして、k番目のデータは全体の k / (N-1) の位置にあると考えるわけです。今回の例でみてみましょう。
23  24  25  26  26  29  30  34  39
例えば、25は2番目のデータです。9個の数からなるデータ(N=9)ですので、25は 2 / 8 = 0.25 の位置、つまりデータ全体の25%の位置にあるということになります。

図5: QUARTILE.INC関数(パーセント点)

この関数で定義している「データ全体の何%の位置にあるか」を求めるときのイメージをつかんでおきましょう。
数字と数字の間に旗を1本ずつ立てます。「すべての旗の本数」に対する「その数より左側にある旗の本数」の割合がその数の位置を表しています。
例えば上の例で30はデータ全体の何%の位置にあるか求めてみましょう。
 旗は全部で8本あります。
 30より左にある旗の本数は6本です。
したがって、30は全体の 6/8 = 0.75 (75%) の位置にあると計算できます。

以上より、上の例におけるQUARTILE.INC関数での第1四分位数は25、第3四分位数は30になることが分かります。

QUARTILE.EXC関数

こちらの関数では、N個の数から成るデータの場合、最小値を1番目のデータと考え、最大値をN番目のデータと考えます。そして、k番目のデータは全体の k / (N+1) の位置にあると考えるわけです。今回の例でみてみましょう。
23  24  25  26  26  29  30  34  39
例えば、25は3番目のデータです。9個の数からなるデータ(N=9)ですので、25は 3 / 10 = 0.3 の位置、つまりデータ全体の30%の位置にあるということになります。

図6: QUARTILE.EXC関数(パーセント点)

この関数で定義している「データ全体の何%の位置にあるか」を求めるときのイメージをつかんでおきましょう。
数字と数字の間および両端に旗を1本ずつ立てます。「すべての旗の本数」に対する「その数より左側にある旗の本数」の割合がその数の位置を表しています。
例えば上の例で24はデータ全体の何%の位置にあるか求めてみましょう。
 旗は全部で10本あります。
 24より左にある旗の本数は2本です。
したがって、24は全体の 2/10 = 0.2 (20%) の位置にあると計算できます。
今回は「ちょうど25%の位置にある数」がありませんので、これは補間します。詳しくは次回の記事に改めてまとめますが、今回の場合は、「20%の位置」と「30%の位置」のちょうど中間の位置が25%の位置です。したがって、24と25の平均(足して2で割った数)の24.5がそれにあたります。
同様にして、70%の位置にある数30と80%の位置にある数34の平均である32が75%の位置にある数になります。

以上より、上の例におけるQUARTILE.EXC関数での第1四分位数は24.5、第3四分位数は32になることが分かります。

いったんまとめ

長くなってきましたので一度ここまでをまとめておきます。
四分位数はさまざまな定義があり、検定教科書で採用している定義と表計算ソフトのQUARTILE.INC関数、QUARTILE.EXC関数で定義されているものは異なります。奇数個の数からなるデータでは、検定教科書で採用されている定義に基づいた四分位数はQUARTILE.EXC関数を利用して求めたものと一致しましたが、偶数個の数からなるデータではそうではありません。
今回の記事を書くにあたり、下記の奥村先生のサイトを参考にさせていただきました。

次回の記事では、奇数個の場合と偶数個の場合を比較して四分位数のまとめをし、高校の情報の授業の中で四分位数を扱うときにどのように指導するのがよいのかについて私の意見をまとめさせていただきます。
最後までお読みいただき、ありがとうございました。