![見出し画像](https://assets.st-note.com/production/uploads/images/145128554/rectangle_large_type_2_ee08a63d764dbb710724e899f6562c67.jpeg?width=800)
平均値と中央値の差の絶対値は標準偏差以下
[定理]
$${n}$$個のデータ$${x_1,x_2,\cdots,x_n}$$の平均値$${\mu}$$、中央値$${m}$$、標準偏差$${\sigma}$$に対し、$${|\mu - m| \leqq \sigma}$$が成り立つ。
データにおいて、平均値と中央値がある程度離れた値になる、ということはよくあります。例えば、外れ値の多いデータでは、平均値と中央値の差が大きくなります。その理由の$${1}$$つとして、「平均値は外れ値の影響を受けやすく、中央値はその影響を受けにくい」が挙げられます。この事情により、外れ値の多いデータにおける代表値としては、平均値より中央値の方が適切、と考える人が多いです。
とこで、平均値と中央値はどれくらい離れることができるのでしょうか?上記の定理は、その回答を与えています。平均値と中央値の差の絶対値が標準偏差よりも大きくなることはありません。
定理の証明ですが、次の通りです。ものすごく凝縮して記述しています。
![](https://assets.st-note.com/img/1719231023453-PXy5mjiqne.jpg?width=800)
「平均値と中央値の差の絶対値は標準偏差以下」の証明です。 https://t.co/nMFVueHsZv pic.twitter.com/1ezaPxiyGm
— 大澤裕一 (@HirokazuOHSAWA) October 8, 2023
さて、この定理に関連する問題を出題しておきましょう。ぜひ考えてみてください。
[問題]
「偏差値の中央値が61」となることはあるか。
ツイッターにて、この問題をアンケート形式で出題しました。結果は次の通りでした。さあ、正解は「はい」「いいえ」、どっちでしょうか?
[問題]
— 大澤裕一 (@HirokazuOHSAWA) October 7, 2023
「偏差値の中央値が61」となることがある。
正解は「いいえ」です。
(1) 偏差値は、得点データを平均=$${50}$$、標準偏差=$${10}$$となるように変換したもの。
(2) 平均値と中央値の差の絶対値は標準偏差以下となる(冒頭に紹介した定理)。
の2点に注意すれば、偏差値の中央値$${m}$$が$${40 \leqq m \leqq 60}$$の範囲に入ると分かります。従って、$${m}$$が$${61}$$になることはありません。
■神戸大学の丸山祐造先生(@umaruyama)の投稿を参考リンクとして貼っておきます。
「中央値が標本平均±標準偏差に含まれる」件,気になって久保川先生に確認しました。歴史がありました!
— Yuzo Maruyama (@umaruyama) May 21, 2021
1.2016年初頭の某シンポで竹村先生が講演。当時監訳で関わっていたPeter Flach「機械学習」で証明なしに書いてある中央値の性質をさらっと紹介。https://t.co/AvhB77bnho
不等式
— Yuzo Maruyama (@umaruyama) October 12, 2023
|中央値 - 標本平均| < 標準偏差
の改良
Σ|x_i-a| を最小にする a が中央値である事実を使う必要はなくて,数列の和に関するコーシーシュワルツの不等式を使うだけ。
サンプルサイズが偶数でも出来るが,結果は汚くなる。https://t.co/KdSZiO9ZqT pic.twitter.com/PRh4kgSL9Y
この記事が気に入ったらサポートをしてみませんか?