毎日統計4

今日も終日外出のため、WEBでできるお勉強。

昨日のおさらい

昨日はベイズの定理について整理した。条件付き確率の定義式を基に、未知の事象の発生する確率を求める。事前確率として定義した値に対して、事象が発生した後に、次に向けての発生確率を更新する。それが機械学習と相性が良いため、近年注目されている。

今日の課題

今日は少し統計検定を意識して、以下に掲載されている問題を解いて、間違えたものを取り上げてみようと思う。

と、いう事で早速間違えた。練習問題2-4のジニ係数について、1回目のノートで全く言及していなかった…

ジニ係数は、ローレンツ曲線で表現した格差を数値表現したものと考えれば良さそう。ローレンツ曲線では、45°の線との乖離具合を見ていたが、その解離している分の面積の2倍をジニ係数と呼ぶ。

なぜ2倍するんだろうとふと思ったが大した意味はなく、ジニ係数が最大値をとる時、その求める面積は面積は三角形の面積と一致するため、2の除算分を補うためなのであろう。

定義上、この値は0〜1の間を取るということと、大きい方が格差がある事を示していると理解しておけば良さそう。

ちなみに、この間違えた問題の選択肢を見て気がついたが、ローレンツ曲線自体は、45°の線に対して上に凸になることもあり得るとのこと。確かに定義的にはあり得なくはない。






この記事が気に入ったらサポートをしてみませんか?