見出し画像

【第2回】平均値と中央値-前編

今回から、統計データの分析と活用についての記事を書いていきたいと思います。今回は、基本的な統計量である平均値と中央値についてです。

中学校までの学習内容

平均値はデータを全て足した合計値をデータ数で割った値であり、中央値はデータを昇順あるいは降順に並べたときの中央の値(データ数が偶数の場合は中央の2個の数の平均をとった値)のことでした。
これらはデータの大まかな傾向を知るときに利用される値で代表値とも言われています。
下記は「小学校学習指導要領(平成29年告示)解説 算数編」からの引用です。今回の改訂で中学校1年生から学習内容が一部移行されています。

小学校第6学年 
D データの活用 
D(1) データの考察
(1)データの収集とその分析に関わる数学的活動を通して,次の事項を身に付けることができるよう指導する。
 ア 次のような知識及び技能を身に付けること。
  (ア) 代表値の意味や求め方を理解すること。
  (イ) 度数分布を表す表やグラフの特徴及びそれらの用い方を理解すること。
  (ウ) 目的に応じてデータを収集したり適切な手法を選択したりするなど,統計的な問題解決の方法を知ること。
 イ 次のような思考力,判断力,表現力等を身に付けること。
  (ア) 目的に応じてデータを集めて分類整理し,データの特徴や傾向に着目し,代表値などを用いて問題の結論について判断するとともに,その妥当性について批判的に考察すること。
〔用語・記号〕ドットプロット 平均値 中央値 最頻値 階級

小学校学習指導要領(平成29年告示)解説 算数編 p.306-p.307

平均値や中央値を求められること自体も重要なのですが、これらの代表値の特性を理解し、適切に使い分けられるようになることが大事であること考えます。
シンプルな例を使って、平均値と中央値の特徴について簡単に振り返っておきましょう。下記は9名の生徒の20点満点の小テストの点数を低い方から順に並べたデータです。

0, 1, 1, 2, 3, 3, 3, 3, 20

難しいテストだったみたいですね。まずは平均値を求めてみましょう。

平均点は4点でした。9名の生徒のうち、平均点を超えている生徒は満点をとった生徒の1名のみであり、これはこのデータの全体の傾向をあまりよく表していないものといえます。つまり代表値としてふさわしくないということです。一方、中央値は3であり、1名を除いておおよそこの点数付近の生徒が多く、全体の傾向をつかめているような値です。
このように、全体の傾向から極端に外れた値がある場合、平均値はその値に引きずられてしまうのに対し、中央値は影響を受けにくいという特徴があります。このような場合は代表値として中央値を使うことがふさわしいと考えられるということですね。
このあたりを中学校までにすでに学習を終えていることを前提にし、高等学校の情報の授業を組み立てていくことになります。

都道府県別人口と面積の分析

データのダウンロード

データを分析するにあたりコンピュータを活用することの良さを理解できる1つの題材だと思います。表計算ソフトを利用して、都道府県別人口と面積の平均値と中央値を調べてみることにしました。

上記サイトの次のExcelファイルをダウンロードしました。
表番号6:面積及び人口密度-全国,都道府県(大正9年~平成27年)
表番号12:男女別人口及び人口性比-全国,都道府県(大正9年~平成27年)

今回は平成27年(2015年)の都道府県別人口と面積のデータを使います。
下記のようなGoogleスプレッドシートファイルを作成しました。

図1:2015年度国勢調査 都道府県別の男女別人口と面積

まずは、ウォーミングアップとして、合計値を求めるところからの演習です。このあたりは中学校で学習している生徒が多いようにも思いました。

表計算ソフト セルの相対参照

Step1
セルF4に「=D4+E4」を入力して、それをセルD5~D50にコピーします。

ここでセルの相対参照についての解説です。
セル番地をD4のように記述して数式をコピーすると、セルの相対的な位置に
合わせて数式で参照されるセルが自動的に変わります。
セルF4の数式「=D4+E4」を1つ下の行であるセルF5にコピーすると、数式中の行番号(ここでは4)がすべて1加算され「=D5+E5」になるということです。余談ですが、Googleスプレッドシートは2021年12月下旬現在、フィルハンドルを使ってコピーをした際に「書式なしコピー」ができないようです。ちょっとしたことですが、改良して欲しいところの1つです。
仕方ないので、セルD5~D50を選択し、右クリックをして「特殊貼り付け>数式のみ貼り付け」で対応することにしました。よくよく考えたら、こっちのほうが応用がきくので、結果良かったような気もしてきました。

Step2
セルD3に「=SUM(D4:D50)」を入力して、それをセルE3・F3・H3にコピーします。

ここでSUM関数を利用します。「=SUM(範囲)」で範囲内のセルに入っている値の合計値を求める関数ですね。「=SUM(」まで入力したら、合計値をとるセル範囲をマウスで囲むのが最も簡単です。
このセルD3の数式を先程と同じ要領で、E3・F3・H3にコピーして下準備は完了です。

表計算ソフト 平均値と中央値

それでは、表計算ソフトで平均値と中央値を求めてみましょう。

図2:2015年度国勢調査 都道府県別の男女別人口と面積 平均値と中央値(算出前)

Step3
セルM2に「=AVERAGE(F4:F50)」、セルN2に「=AVERAGE(H4:H50)」を入力します。

これにより、都道府県の人口と面積の平均値が算出されます。

Step4
セルM3に「=MEDIAN(F4:F50)」、セルN2に「=MEDIAN(H4:H50)」を入力します。

平均値と中央値の分析

これにより、都道府県の人口と面積の中央値が算出されます。

図3:2015年度国勢調査 都道府県別の男女別人口と面積 平均値と中央値

人口の平均値は270万4144人、中央値(24位)は168万8177人です。
中央値と比較して平均値がかなり高いです。これは下の棒グラフを見ても、上位の数都道府県が平均値を引き上げていることが読み取れそうです。

図4:2015年度国勢調査 都道府県別の人口 棒フラフ

面積の平均値は8042㎢、中央値(24位)は6097㎢で、こちらも中央値と比較して平均値がかなり高いことが分かります。
こちらも棒グラフで見てみましょう。改めて北海道が広いことに気づかされます。

図5:2015年度国勢調査 都道府県別の面積 棒フラフ

以上のことから、日本の都道府県別人口と面積に関しては「中央値」のほうがふさわしい代表値であると言えます。
こちらの表に関しましては、次回も引き続きデータ分析のサンプルとして利用していきたいと思っています。
長くなってきてしまいましたので、一度このあたりで本記事を終了します。お読みいただき、ありがとうございました。