見出し画像

データサイエンティストの仮説思考①:(+相関分析に必要なサンプル数とは?)

読書ノート(126日目)
先週から読書の時間を少しずつ作り始め
約4カ月ぶりに読書ノートの更新です。

この本の著者の一人であるNECの河野さんが
講師を務めるデータ分析に関するセミナーを
受けたことがあり、凄く分かりやすかったので
本書を手にとることにしました。

この本の第1章では

・日本政府は「AI戦略2019」にて、
 デジタル社会の基礎知識(「読み・書き・そろばん」的な素養)
 として、すべての国民が「数理・データサイエンス・AI」に関する
 知識を身につけることを目標に掲げている

・データドリブン思考とは、データをもとに物事を考えること

・ビジネスパーソンが身につけるべき
 6つのデータリテラシーとは
 (1)データを読む力
 (2)データを説明する力
 (3)データを扱う力
 (4)データを分類する力
 (5)データから法則を見つける力
 (6)データから予測する力

と紹介がされています。
さて、この読書ノートでは
今回から全5回に分けて
データを読む力
②データを説明する力
③データを分類する力
④データから法則を見つける力
⑤データから予測する力
を紹介できればと思います。

では、今日は①データを読む力
についてです。

■データの全体傾向を掴む
・データの全体像を掴むには
 代表値(平均値、最頻値、中央値)
 ヒストグラムを確認する
・一例として、日本の世帯別所得金額は
 平均値と最頻値が異なるなど(実社会では平均値=最頻値は珍しい)

・例えばヒストグラムの中央あたりにくぼみがある場合、
 複数の分布が異なるデータを混ざっている可能性を疑う
・データを読むときは「データが発生した背景」や
 「観測された背景」を常に意識してデータと向き合う

■データの細部を確認する
・外れ値と異常値
 他のデータと比べて極端に大きい(小さい)値を外れ値という
 外れ値の中でも、記録ミスや測定ミスなど
 「値が極端な原因・理由」が分かっているものを異常値と呼ぶ
・異常値があるデータを扱う場合、異常値を適切に
 修正(もしくは除外)してから分析をする

・データの関係性を読み解く
・相関関係
:一方のデータが大きいと、
      もう一方のデータも大きいという関係性
・因果関係:一方が原因で、もう一方が結果である関係
・疑似相関:相関関係があるように見えるが
      2つのデータ間に因果関係がないもの

データ分析の基礎知識として
様々なキーワードが出てきましたが
ここまでは聞き馴染みがある方も
多いかと思います。

僕自身、プロとして仕事をするためにも
もう一歩踏み込んで、以下についてを
調べてみようと思います。


(以下からは本書の内容とは異なります)

●外れ値と見なす基準
●相関係数を分析するために必要なサンプル数

●外れ値と見なす基準について
⇒標準偏差から±3倍以上離れているかで判定!

 これは受験などで馴染みがある偏差値でいうと、
 80以上・20以下となり、
 確率的には各0.13%の出現率ということで
 1000人に1人ずつということですね。

 確かに1000回に1回の出現率なら
 外れ値と言われても納得できそうです。
 (ただし外れ値は必ず除去すべき
  とも言えないのが難しいところですが…)

●相関係数を分析するために必要なサンプル数
⇒相関係数0.4の場合、47サンプルが必要!

相関係数は直感的にも分かりやすく
僕自身も使用する機会は多いのですが、
算出された相関係数の値に対して
必要なサンプル数を下回っていると
偶然性を排除できない…となってしまうので
分析する際は気をつけています。

詳しくは「無相関検定」を行い
有意水準を満たしているかを
確認しないといけないのですが、
こちらのサイトでは
様々なパターンを計算をした上で
非常に分かりやすい一覧表を
掲載してくださっているので紹介します。
(便利すぎます!ありがたいっ!!)

まず、相関係数が示す意味はこちら

そして、相関係数ごとに目安となる
サンプル数の一覧表がこちらです。

https://toukeier.hatenablog.com/entry/how-to-determine-sample-size-in-correlation-coefficient-test/

分析をする際に、
かなり相関関係があるとされる「0.4」
を一つの目指す基準とするならば
必要なサンプル数は47例、

もし0.3の相関係数を偶然ではなく
意味あるものと言うためには85例が必要。
ということで、この表があることで
相関係数ごとに必要なサンプル数の
目安を持つことができました。

ということで、今日はこの辺で!^^

データ分析の書籍紹介のはずが
つい、自分の興味のままに専門知識を
調べてたら、結果として深堀りしている
文章の方が増えてしまいました…

でも、
こういう素朴な疑問を1つずつ解消することが
データ分析を自分の武器として利用する際の
解像度を上げることにも繋がっているはず!
だと信じ、今後も専門知識の深掘りは
時間が許す限り続けていきたいと思います。

最後まで読んでくださり
ありがとうございました!
それでは皆さんも良い週末を~!😉✨

この記事が参加している募集

習慣にしていること

ビジネス書が好き

この記事が気に入ったらサポートをしてみませんか?