見出し画像

「プロフェッショナル統計分析ワークショップ」に参加しました

先日から「プロフェッショナル統計分析ワークショップ」という3日間の講座を受けています。統計分析を理解し、論文を読めるようになる、という講座。大変勉強になっておりますが、今日はその学んだ内容について、書いてみたいと思います。

かつて心折れた統計分析・・・

大学院で、心折れた授業に「データアナリティクス演習」というものがありました。統計分析について、その概念とSPSSなどの解析ソフトの使い方を学ぶ授業です。

ふと思い返すと、そもそも数学的な概念が苦手で、大学院の授業も、それらの話を聞いていると猛烈な眠気が襲ってくることも・・・。かつ、エクセルの操作も苦手で、皆がエクセルを使いながら進めているときも、私は授業の1回目から、だんだんと遅れていきました。そして2回目、3回目になるにつれて、その差は開いていき、周回遅れどころか、3周遅れくらいになっていることを実感していました。

チームで進めるはずのデータ分析の授業も、そんな状態でしたので、船を漕ぐオールに手を掛けているものの、実質何も役に立てないフリーライダー化していて、ひたすら申し訳ない・・・と思っていた記憶があります。

あらためて基礎に立ち戻ろう

大学院を何とか卒業した後も、置いてきた課題は依然として残り続けるようです。統計の用語や概念を「なんとなく」理解はしていても、自分で扱えるようになるレベルには至っておらず、それは論文を読むたびについて回ります。

t検定、χ二乗検定、P値、F値、Cohenのd…、色々な言葉についてのふわっと理解はしていても、土台をしっかり作っていない建物のように、どこか手触り感がないまま論文を読んでいる・・・、そんな状態が続いていました。

本質的なこと、基礎的なことを理解していないと、結局その用語も呪文のようにしか聞こえません。そして、用語の意味も、そのストーリーが繋がっていないのですぐに忘れてしまいます。その都度検索して「あれなんだっけ?」となってしまう。

これからも論文を読み続けるのであれば、または将来何かのきっかけで自分が書く立場になる可能性も考えるならば、「統計分析」について、改めて基礎から学ぶ必要がありそうだ、と思ったのでした。

「プロフェッショル統計ワークショップ」との出会い

そんな中、統計に関するこんなコースを見つけました。

「参加資格は足し算・引き算・割り算・掛け算ができればOK。エクセルに入力ができれば大丈夫」とあったため、これは自分にぴったりだ!と思いました。そして、先日からこのコースを受講しております。

こんなコースです
【プロフェッショナル統計分析ワークショップ】
https://www.idcj.jp/seminar/statistical-analysis-workshop.html

さて、本コースの特徴ですが「未経験の人でも統計がわかる」です。私のような学んだはずなのに歯が立たなかった人には、自信を取り戻すのにピッタリそう。エクセルもあんまり使えないですし、これはよさそう。

ちなみに少しだけ補足すると、主催団体が「国際開発センター」とのことで、教育やインフラ開発等の途上国への支援(介入施策)が、どのような効果を発揮したのかを、統計を通じて分析できることを念頭においたワークとなっています。そのため、JICA関連の民間のコンサル会社の方が多く参加しているようでした。

なぜそうなるか?を手計算してみよう

そんな本ワークショップでは、「統計上概念が、どのようにできているのかを、手計算で行ってみること」を強調されています。先生曰く「やり方は統計ソフトや計算式がある。でも、なぜその計算になるのかを理解して、手で計算してにそうなっている、とわかることが、その後の統計の理解に繋がる」とおっしゃられていたのが印象でした。

たとえば、「統計的に有意である」ことを証明する「p値」という値があります。これは、10%以下で有意である(†)5%以下で有意である(*)、とか、1%以下で有意である(**)と論文で書かれているのを、よく目にするものです。

「偶然にその様な結果になる可能性が◯%以下であり、確率的に極めて起こる可能性が低い。だから統計的に有意である」と証明する記号として、統計分析の基礎的なものとして学ぶものです。

こういうやつです

手計算すると「つながり」が分かる

しかし、この「p値」がどのように計算されているのかは、実はよくわかっていませんでした。ただ、一つずつ丁寧に見ていくと、統計分析にも大きなストーリーがあることがわかってきます。

ここからはあんまり上手に言葉にできなさそうなのですが、私の拙い理解のをイメージとして書いてみます。たとえば、こんな統計分析のストーリーです。

(1)正規分布図(釣鐘型のグラフ)は、自然界のルールである。海岸の砂をガッと適当に掴んで、その砂粒の大きさを並べると、だいたい釣り鐘型の正規分布図になる。これがヒストグラムの原型である。

標準偏差のグラフ

(2)正規分布図を示す自然界の法則が当てはまる数式を研究者等が探したところ、『標準偏差(SD:Standard deviation)』を導く方程式見つかった。正規分布は、標準偏差は±1の範囲内に68%が含まれ、±2の範囲に95%が含まれることがわかった。

(3)「p値」とは、あるデータが「偶然には起こり得ない」ことを示すものである。正規分布図のように等分散されていると仮定した場合、標準偏差±2の範囲内に当てはまる可能性は95%。もしあるデータが95%以内に当てはまらなかったらなかった場合は、「5%以下で確率でそうなる」となる。これを、”統計的に5%以下で有意である(偶然起こらない)=>p<0.05(*)という流れになる。これが「p値(Probability)」である。

(4)またp値の別の形の表現が「t値」である。t>2であれば統計学的に有意で、t≦2であれば、統計学的に有意とは言えない。(続く)

というイメージです。(私の理解です)

そして、そこから影響度を調べるために、コーヘンの「d」という概念が登場したり、「F値」(F>3~4なら、統計的に有意。F≦3~4なら統計的に有意とは言えない)などが登場したりします。

ただ、「すべては標準偏差の式がベースに出来上がっている」というということ。そして標準偏差を求める計算として、

<標準偏差の求め方>
1)個別データから平均値を引く
2)1)のデータを二乗する
3)1)2)で計算した個別データの合計を足して、サンプル数で割る。そうすると「分散(Variance)」が計算できる
4)「分散」を平方根(√)で戻す。すると標準偏差(SD)がわかる

というメカニズムが知って、手計算をして、「おお、たしかにそうなった」とわかることで、ふわっとしていたものが質感を持って理解できたような感覚を覚えたのでした。

標準偏差を求める計算式。ちんぷんかんぷん風ですが、
一つずつ計算すると、足し算と引き算とわり算と掛け算だけでできる
(講義資料より引用)

まとめと個人的感想

とはいえ、受講しながら意識が飛びそうになる(それでもやっぱり苦手)ため、理解度が極めて鈍い自分の頭の弱さに辟易します。それでも、丁寧に教えて貰えれば、地道に一つずつ理解が深まり、きっと長い目でみれば多少はマシになるのだろう、という予感があります。

この分野で秀でることはできなくとも、自分が論文などを参考にしながら、これからも研究を続けていこうと思うのであれば、「避けて通れない道」が統計分析なのだろうな、と感じています。

どこかのタイミングでこうした苦手なことも向き合うこともやっぱり必要なのでしょう。玄人とはいかずとも、ある程度扱えるように、そして自分の言葉で説明できるように、学び続けたいと思った次第。

あと1日ありますが、しっかり学びたいと思います

この記事が気に入ったらサポートをしてみませんか?