見出し画像

代表値の利点と欠点について

Cover Photo by Алекс Арцибашев on Unsplash

小学校6年生では、統計の教科書の最初の方に必ず登場する、データの代表値とその求め方、それから、データの可視化について学びます。こんなところまで小学校で教えることになったのか? と隔世の感がします。

6年生D領域(1)

(1) データの収集とその分析に関わる数学的活動を通して,次の事項を身に付ける
 ア:知識及び技能
  (ア)代表値の意味や求め方を理解すること。
  (イ)度数分布を表す表やグラフの特徴及びそれらの用い方を理解すること。
  (ウ)目的に応じてデータを収集したり適切な手法を選択したりするなど,統計的な問題解決の方法を知ること。
 イ:思考力,判断力,表現力等
  (ア)目的に応じてデータを集めて分類整理し,データの特徴や傾向に着目し,代表値などを用いて問題の結論について判断するとともに,その妥当性について批判的に考察すること。

〔用語・記号〕ドットプロット 平均値 中央値 最頻値 階級

「解説」より

内容が多いので、今回は知識・理解の(ア)である「代表値」についてのみ書くことにします。

3種類の代表値

代表値として用いられるのは、主に次の3つです。平均値、中央値、最頻値。それぞれの意味を確認しておきましょう。

  • 平均値:データの個々の値を合計し,データの個数で割った値

  • 中央値:データを大きさの順に並べたときの中央の値

  • 最頻値:データの中で最も多く現れている値

これらの代表値に関して、統計の教科書に必ず書かれていることがあります。つまり、

  • データ数が偶数のとき、ちょうど中央にあたる値がないので、中央の位置をはさむ2つの値の算術平均を中央値とする。(例:データが 1,3,5,7のとき、中央値は(3+5)/2=4とする)

  • 量的変数で最頻値を求める場合、階級の取り方によって最頻値が変化することがある。また、最頻値は唯一の値とならないこともある。

というあたりです。が、「解説」には、データ数が偶数のときの中央値について特に記載がありませんし(私が見落とした可能性もある)、階級の取り方と最頻値の関係については、中学校1年生で扱うと説明があります。というわけで、以下では平均値のみ詳しく取り上げましょう。

代表値の利点と欠点

「解説」では、代表値を用いることの利点と欠点を次のようにまとめています。

  • 利点:データの特徴を簡潔に表現できる、複数のデータを比較可能になる

  • 欠点:分布の形の情報が失われる

さらに、次のような注意書きもあります。

分布が非対称であったり多峰性であったりする場合や,極端にかけ離れた値があったりすると,平均値はデータが集中している付近からずれてしまうことがあり,そのような場合には代表値としてふさわしくない。このようなとき,中央値や最頻値を代表値として用いる。

「解説」p.307

こういうことを理解させるためには、分布の形状が異なるデータを比較させ、それぞれについて計算した平均値と中央値を比較する、という活動が必要になります。うーん。小6の算数、大変そうです。教える方も。

2つの「平均値」?

ところで、「解説」の第2章、D領域全体の解説のところに、かなり細かいことが論じられています。次の箇所です。

第6学年では,量的データの全ての値を足し合わせ,データの数で割ることで得られる,ならす操作としての平均が,ばらつきのある対象に対して,分布の中心がどの当たりになるかを示す指標(平均値)としての意味合いをもっていることを理解させる。

「解説」p.70

何を言っているのかわかるでしょうか? これは、「誤差」というものが2種類あることについて述べているように、私には読めます。つまり。

5年生で学習した平均は、同じ対象(例:歩幅)を測定しても、測定のたびに異なる数値が得られることがある。何度も測定したものを平均することで、真の値に近い値が得られる。ここでは、「測定誤差」について考えていることになります。

6年生で学習する平均は、同じ概念について異なる対象(者)について測定するとき、異なる数値が得られる。これらを平均して得られるのは、測定したい概念についての真の値ではなく、分布の重心である。ここでは、「個体差(個人差)」について考えていることになります。そして当然ですが、各個体(個人)についての測定値には、測定誤差も含まれています。

もちろん、この通りの内容を小学生に指導しても難しすぎるでしょう。しかし、5年生で学習した平均と、6年生で学習する平均が、何かちょっと違うものに見えるけれど、どちらも「平均」といって、同じ操作で求めることができるんだよ、ということを指導しなさいと「解説」は言っているのだと思います。

難しいこと書いてあるねえ! でも、この「誤差」についての考えは、たぶん、とても大事なものです。心理学で統計が必要なのは、統計処理によって「個体差」を取り除くことが必要だからです(そのはずです…たぶん)。だから、心理学の研究成果は、人の心の「平均的な」働き、言い換えれば、その「一般的な傾向」なのであって、それを具体的な個人にそのままあてはめることはできません。なぜなら、その具体的な個人が、集団の中でどの位置にいるのかわからないからです。研究成果として表されている「平均的な」働きと比較して、反応が強い(あるいは高い)のか、弱い(低い)のか、わからないまま、「心理学でこういう研究結果があるから、この人もこれが当てはまるはずだ」と決めつけるのは間違っているのです(たぶん)。
とても面倒くさいことを書いてしまっているのですが、とてもとても重要なことなのだと思います。

問題集を見てみる

さて、すでに書いたように、階級幅を変えると最頻値が変わってしまう、分布の形状が変わって見えてしまうことは、中学校での学習とされています。とはいえ、階級幅や階級の度数と相対度数については学習するようです。小学6年生では、1つ1つの値を単純にプロットしていく方法がおもに扱われています。それが「ドットプロット」です。

また、市販の問題集(学研の「毎日のドリル 図形・数・データ」6年生)を見る限り、偶数個のデータに対して中央値を求める問題は出ていません。が、与えられた度数分布表を見て、階級幅や、最頻値である階級、中央値が含まれる階級、階級の相対度数などについては問題が出されています。これらについては、別の記事でまとめることにします。

6年生大変だなあ。がんばってくれ。

演習問題

放送大学のある面接授業を受講した学生に、年代を尋ねたら次のような結果になりました。

年代別受講者数
  1. 各年代の相対度数を求めてください(小数1桁まで)。

  2. 最頻値を答えてください。

  3. 中央値の含まれる階級を答えてください。

  4. この表をもとに、「平均年齢」を概算するにはどうしたらよいでしょう。(もちろん、正しい平均年齢は求められません。あくまでも、概算するとしたら、という設定で考えてください。)