Courseraのデータサイエンス専門講座を受けた感想その4

Courseraのデータサイエンス講座の6コース目を受講しました。前回のコースの受講感想はこちらになります。

Statical Inference

 6コース目は統計的推論を学ぶことができます。確率論における基本的な知識から検定についても学ぶことができます。確率論は条件付き確率からベイズの法則、期待値などを学べます。また、コースでは確率の問題も解くことができますが、問題文も英語が書かれています。人によっては確率よりも英文の解釈が難しいかもしれません。
 また、基本的な分布として、二項分布、正規分布、ポアソン分布の性質、それに対応して仮説と信頼区間についても学べます。これらについてはとても重要なので何回も見直すといいと思います。
 さらに、今まで学んだことを活かして、t検定、p値による統計的有意性、最強力検定を学ぶことができます。この講座では、信頼区間や自由度を使って、R言語で検定をする流れを学ぶことができますので、どう検定を進めていけばいいかがわかると思います。

p値について

  p値はとても誤解が多く、また悪用しやすいものになっています。まず、アメリカ統計協会がp値の禁止をするという話がありますが、これは間違っていて、正しく使うことを啓蒙したものです。詳しくはこちらで確認してみてください。
 p値は帰無仮説が想定する確率分布が正しいと仮定した上での計算です。帰無仮説の正しさや重要性、再現性を主張する論文がありますが、これは誤った主張です。p値はこれらを扱う概念ではありません。そもそも統計的有意性だけで帰無仮説の正しさを主張するのは前々から問題視されています。結局p値はデータ分析の1つの方法にすぎず、解析、検出力、専門知識も合わせて考慮すべきです。
 また、帰無仮説が統計的に有意でないことは、学術やビジネスにおいて無意味であることを意味しません。事実有意でないものが学術やビジネスで重要な役割を果たすことが多々あります。逆に統計的に有意でも無意味な例もあります。
 p値は統計学において重要ですが、万能ではなく、扱いが難しいことを理解した上で使うべきだと思います。 

この記事が気に入ったらサポートをしてみませんか?