人事のためのデータサイエンス7/16
書籍:人事のためのデータサイエンス~ゼロからの当家解析入門~
著者:入江崇介さん
~第7章~
人事データの特徴を数で表す
①中心的傾向を示す「代表値」
最頻値、中央値、平均値の3つがある。
▶最頻値
ある変数について、最も多くの観測対象が存在する値
→ExcelではMODE関数でもとめることができる
▶中央値
ある変数の値を地位さん準備並べた際に、中央に位置する値
→ExcelではMEDIAN関数で求める
▶平均値
ある変数に対する観測対象全体の算術平均
→ExcelではAVARAGE関数で求めることができる
➡最頻値、中央値、平均値は一致しないこともある
代表値を確認する際には、それがどれに該当するのかを伝えることも重要
②散らばりを示す「散布度」
変数の散らばりを確認することの重要性
▶最大値と最小値、範囲
最も大きな値である「最大値」と最も小さな値である「最小値」
→ExcelではMAX関数、MIN関数で確認できる
▶四分位範囲と四分位偏差
主に中央値と共に用いる散布度
第三四分位数と第一四分位数の差を「四分位範囲」という
(箱ひげ図などでつかわれることがある)
→ExcelではQUARTILE関数で求めることができる
▶分散と標準偏差
平均値と共に用いるのは分散と標準偏差。
分散:平均値からの観測対象の値のばらつき。平均値からの差の2乗を観測対象ごとに求め、それを平均したもの。
標準偏差:分散で、2乗した値では解釈が難しいので、その平方根を取って解釈しやすくしたもの。SDと表記されることもある。
例)今期の賞与の支給額の平均値は50万円。標準偏差は15万円。よって7割の人は支給額が35万円~65万円の範囲におさまっている。
→ExcelではVAR関数や、VAR.S関数など
以上。