見出し画像

モーリーのビ ジ ネ ス Tip【統計学の基礎 #1】


☆ 統計学の基礎 #1


今日は テクノベート時代に 

ビジネスパーソンが 理解しておくべき

コンピュータが 扱う 統計学の基礎について 

お話し していきます。


私のように 文系人間で

統計や 数字に 

苦手意識を持っている方には

参考になる お話しかも知れません。


なので ならべく数字を使わず 

簡単に 説明できればと思います。


ところで 

最近では ショッピングサイトの 

レコメンドシステムの 

精度は どんどん上がってきています。


では どうやって 

これらは 的確なオススメなどを 

出しているのでしょう?


これらの レコメンドシステムは 

ディープラーニングの 発達によって

飛躍的に精度を 上げてきています。


ディープラーニングや

機械学習 と 聞くと 

なんだか すごく難しそう 

と 思われるかも 知れません。


でも 実は これらの 技術は 

全て 古典的な統計学の

考え方の 延長線上にあるのです。


それでは 統計学に 欠かせない 

分析には どのようなアプローチ方法が 

あるでしょうか?


統計学には 基本となる2つの 

アプローチが あります。


一つ目は 数字に 集約する アプローチ


二つ目は 数式に 集約する アプローチ


です。


一つずつ 説明しますが

まずは 


数字に集約するアプローチ です。


数字に 集約する アプローチ ですが

平均値を 計算する 

標準偏差を 計算する

がこれに 当たります。


標準偏差とは

『データが平均値の周辺で 

   どれくらい ばらついて いるか』 




これらを さらに 二つに分けると

代表値を 算出する アプローチ

散らばりを 算出する アプローチ


が あります。


代表値とは 文字通り 

その集団を 代表するような数字 です。


代表値で もっとも よく使われるのは 

平均値です。



例えば ある会社の 年収の 平均がわかれば 

その会社の 給与水準が 高いのか低いのかが 

おおよそ 想像することが可能です。


しかし 平均値は 

異常値に弱いという 特徴が あります。


平均年収 500万円の 会社に 

例えば 突然 10億の給料の役員が加われば

明らかに その平均値は 上がってしまいます。

なので そのデータは 給与水準の 

平均値としては 実際には 参考になりません。


このように 平均値は 異常値に 

とても 弱いのです。


このような ケースでは  

代表値である 中央値 を使って 

平均値を 割り出す方が 理にかなっています。



中央値とは 数字を小さい順に 並べた時の

ちょうど 中央の数字 のことです。


分析によっては 

最頻値(さいひんち) という  

代表値 を 使うケースも あります。

これは 最も データ数が 多い数値 を表します。



どの 代表値を 使うかは 

データの 特性や 『何を 伝えたいのか』 

に よって変わります。



データに 現れた数字には 

数字の 散らばりが 見えてきます。

これらの 分布が 

狭い範囲に かたよっているのか

広い範囲に 散らばっているのかを
 

表す 数字を 散らばり と呼びます。




この 代表的なものは  

分散や 標準偏差 があります。


分散とは データのばらつき度合いを表します。


標準偏差 は

データが平均値の周辺で 

どれくらい ばらついているか ・・・

また 平均を中心に

大体の数が入っている エリアを 示す値です。



標準偏差に ついて 覚えておくと 

便利な 知識があります。


生徒数が 1万人の ある 女子大学の 

平均身長は 158cm

身長の 標準偏差は 5cm です。

これは 何を 意味するのか?

実は 身長や テストの 点数など

世の中の 多くの データの 分布は 

正規分布といって 

釣鐘型の 分布をとることが 知られています。


そして この場合 

平均値から 標準偏差の 2倍を 引いた 数値から 

平均値に 標準偏差の 2倍を 足した 数値範囲に

全体の 約95% の データが 含まれる 

関係性 が あると知られています。


なので 

先ほどの 女子大学の データから

158-5×2=148cm から

158+5×2=168cm の間に

95%の 学生 つまり 9500人は 

この 範囲内にいるだろうということが 

予測されるのです。


このように 

正規分布だった場合に 限られますが

平均から 前後 標準偏差の 2倍の範囲に 

95%の データが入る という知識は 

散らばりの 概念を 理解する上でも

標準偏差を 実生活で 使うためにも 

とても 重要なので

覚えておいたらいいかも知れません。



本日は 以上です。


次回は 二つ目の 

数式に集約するアプローチ


を 説明したいと 思います。

それでは また さよなら

↓↓↓


私は、「転職」や「副業」に挑戦している人を
応援してます。

ぜひ、私のTwitter をフォローしてみてください。


↓↓↓


スタエフでも配信中



この記事が気に入ったらサポートをしてみませんか?