kakuritsu_magazine_header_アートボード_1

統計検定2級はデータ分析者と一緒に仕事をしている人が受けるべき理由

統計検定2級の試験を受けてきました。
テストが終わり、改めて勉強してきたノートとかを見直していたのですが、この試験で出る範囲は、データ分析者にとっては基礎的な部分のカバーする範囲ではあるのですが(だからこそ、落ちると恥ずかしいと思っています。たぶん大丈夫なはずなんですが。。。)

むしろ、データ分析者と一緒に仕事をする人、データの活用を促進したい人こそ受けるべき知識を習得できる構成になっていることに気づきました。

今回はその理由について説明していきたいと思います。

はじめに

大きく分けると統計検定の2級では3つの視点+αに分かれているといえます。
1.データの概要をつかむ
2.データを比較する
3.データの関係性を探る

 +αとして、データを効率的に集めるサンプリングなどの手法論が入りますが、ここは実務者向けな感じなので割愛

上記3点を抑えることで、データ分析者の持ってくる結論を吟味したり、データやグラフを理解したり、議論することができるようになるための最低限の武器になるのです。

この3つについて簡単に説明していきます。(ニーズがあれば詳細に)

1.データの概要をつかむ

ここでもさらに3つに分かれます。可視化、相関、分布です。聞いたことあるよとおもわれるかもしれませんが、ここはもう少しお付き合いください。

1-1:ボックスプロット、ヒストグラム、コレログラフなどデータを可視化されたものからデータの概要をつかむものです。単純に総数、平均や中央値などをグラフにしたものはそこまで出てきません。それらは、データを抽出したものの結果なので、そもそもデータの特徴を知らないと平均を見ることがいいのかわからないからです。

例えば、ボックスプロット、ヒストグラムは対象データのばらつきを理解するグラフです。
 我々はすぐに、平均だ、中央値だという話をしますが、実はデータのばらつきを把握したうえでこの数値を見ないと誤解をする可能性があります。(あくまで可能性) 

 試験では、基本、点数を稼ぐ部分ではありますが、見方はもちろん、縦軸の大きさをしっかり見ないと結構ケアレスミスで点数落とします。

 実際の場面でも縦軸の大きさでグラフの印象を変えることができてしまうため、その感覚をつかませる意図も大いにあるはずです。

1-2:散布図と相関 2つの変数のばらつきの関係性をみることです。

散布図は2変数のマッピングにより、2つの相関性を見るものです。
 相関、相関係数というものを聞いたことがある人は多いと思いますが、ある変数が大きくなった時に、もう一つの変数がどう動くかを指標にしたものです。

中には共分散という結構重要な指標が出てきます。二つの変数の分散が1の時、相関係数とイコールになります。共分散のほうが計算しやすいため、データを標準化して共分散を求める方法もあります。
 
 2級では平均や平均の2乗、それぞれの分散などの変形させた計算問題も出てきます。きっとポイントは共分散の感覚、大きくなる時、小さくなる時を持つことだと思っています。

1-3:確率分布
みんな聞いたことがある正規分布やそのほかの分布を考える問題です。
分布も大きくわけると3種類に分かれると思っています。
母集団 → ①正規分布、指数分布、一様分布などの横軸が小数点以下もとれるもの
    → ②2項分布、ポアソン分布、幾何分布などの横軸が自然数のもの
 標本 → ③カイ二乗分布、T分布、F分布
③は条件によっては①、②で代用できるときもあるので、訳が分からなくなったりもしますが、ざっくりいうとこんな感じ。これに若干の派生形が出てきます。
 なぜ、このような面倒なことを覚えなければいけないかというと理由は大きく二つあるはず。
 ・要素が簡単(平均や分散などが簡単に求められる場合)
 ・応用しやすい(いろんなケースで使える) 
  例えば、2峰性の分布も二つの正規分布を足し合わせることで表現できたりします。
 このようにベースとなる分布を理解しておくと目の前の対象もこれらの分布で大枠を理解できる可能性が広がっていきます。 

2.データを比較する

これは大きくは2つ、推定と検定です。2級はここがメインの勉強するポイントになる箇所です。
推定と検定も比較対象がサンプル間の場合と、母集団(きっとあるはずの真の値)との比較に分かれます。
ここでは、基本的に、データを幅で見る視点が養われます。(点推定というピンポイントでみる推定もあるのですが、)
基本的には、1-3の確率分布に従ってどれくらいの幅でぶれるかを許容できるかを考えるものです。
もちろんそれ以外のこともありますが、そこはあきらめるというデータの重要な見方です。この辺が確率的な見方になります。

その理由から予測などをした時に、「絶対、大丈夫?」と聞かれても、一般のアナリストはYesとは答えられないのです。
(Yesといえる人は、アナリストではないか、未来が読める人です。)

ただ、推定や検定は、データ量が多くなっている今では、結構パスされやすい分野でもあります。
(答えが、「差があるとは言えない」のように曖昧になりやすいところも影響しているようです。

 なので、一般的な仕事(医療統計とか、工場の精度チェックなどは入らない)で使うときには、この辺はある程度の緩さをもって使うほうがいいと考えています。)

3データの因果関係性を探る

回帰分析がメインです。統計検定では、単回帰、2変数くらいまでの重回帰しかでないはずです。計算が大変になるからというのもあるはず。

ここは結構、システマチックな問題が多く、Rで出力された結果をどう読み解くかという問題が多い印象です。係数の結果の見方、自由度の把握、係数が0だった時に今回の結果はどれくらいの確率で出現するかというF分布の結果を見る感じです。

回帰分析についてはアナリストとしては情報が足りていない印象です。結果を確認するところまでという感じ。

どの変数を入れるべきかという問題や、検定結果についても、P値だけでなく、因果がありそうかを見るなど、まだまだフォローすべき要素は多いイメージです。

また、ビジネスで使うものって単純に線形で伸びることは少ないので(入力変数が大きくなった場合も、結果はサチって行くものが多く、データの範囲外まで線形で伸びるとは考えにくいので)予測というよりは因果を見るのが重要なので、もっと変数を増やして多変量でほかの要素の影響を除いたうえで係数を比較することが大切な使い方だと思っています。

というように、出てきた結果を自信を持って確認するための情報が満載ですので、ぜひ多くの人に挑戦してもらいたいと思います。


ここまで読んでいただきありがとうございます。 スキを押していただけると嬉しいです。 フォローしていただけるとさらにうれしいです。