見出し画像

文系未経験からデータサイエンティストに転職した人の統計勉強法

【2020年10月20日追記】

本記事の内容を、「入門勉強法」としてより厳選した記事をブログで公開していますので、そちらも是非お読みください。

「【保存版】初心者向け統計の入門勉強法を徹底解説」

https://hazimenoippo-hawaii.com/datascience-tokei-beginner/

↓ここからnoteの本文です↓

こんにちは、Hawaii(Twitter:@Hawaii07597403)です。
前回noteで投稿した記事「文系未経験からデータサイエンティストに転職するまで」やTwitterから、ありがたいことに「どのように勉強したのか」「お勧めの書籍はあるか」といった質問をたくさん頂戴しました。

統計やプログラミングについての勉強法をまとめてnoteで記事にしようと2か月程前に思っていたのですが、何となく自分の中で違和感があり、記事にしていませんでした。

この違和感は何だろうと考えていて最近ようやく気が付いたのですが、
多くの方が求めているのは「データサイエンティストになるための勉強法」である一方、私は「仕事に生かしたくて勉強してたら、結果としてデータサイエンティスト職になった」ため、皆さんの目的に沿った記事が書けないからだと思いました。

とはいえありがたいことにたくさんご質問も頂けるので、細かい私の拘りはさておき、一旦「共有」の意味で記事を書き始めた次第です。

あとは、4に載せている「実務にどう生かしたか」は意外に語られることが少ないと思うので、参考になる点もあるかなと思っています。

今回は統計について、私が転職までに学習した内容やポイントを共有させていただこうと思います。

お読みいただく方は上記の前提(これをやればデータサイエンティスト職に就くための十分な知識がつくとは言ってない)を十分認識いただいたうえで、参考としてお読みください。

1.前提

私のレベルについて
統計検定3級合格(一応満点・・)。2級の内容で言うと仮説検定は実務で少しやってみたことがあります。ここからわかるとおり、私の今の統計のレベルは全然高くありません。とはいえ、3級であっても満点取れるくらいの理解があれば、基礎的な統計の内容はわかっていますので、実務にも非常に有効と感じます。

2.お勧めの参考書・動画

(1)文系でも仕事に使える統計学はじめの一歩
https://www.amazon.co.jp/%E6%96%87%E7%B3%BB%E3%81%A7%E3%82%82%E4%BB%95%E4%BA%8B%E3%81%AB%E4%BD%BF%E3%81%88%E3%82%8B%E7%B5%B1%E8%A8%88%E5%AD%A6%E3%81%AF%E3%81%98%E3%82%81%E3%81%AE%E4%B8%80%E6%AD%A9-%E6%9C%AC%E4%B8%B8-%E8%AB%92/dp/4761273178
私が統計に初めて触れたのはこの本です。
前職でプロジェクトで成果を出すために、何となく統計という言葉を聞いたことがあるからちょっと見てみるかという気持ちで近所の本屋に立ち寄りました。近所の本屋が小さかったので置いてある統計の本はこれとあと1,2冊程度で、たまたま手に取りました。

試しに買ったところおもしろさにどはまりし、今までに3周は読みました。
解説も非常に丁寧なので、初学者に大変お勧めです。

(2)【udemy】「【ゼロからおさらい】統計学の基礎」
https://www.udemy.com/course/datamix_basic/
めちゃくちゃお勧めです。
特に仮説検定の章は、仮説検定自体知らなかったのでわくわくしながら勉強したのを覚えています。

この(1)~(2)だけでも統計の基礎中の基礎はしっかり力をつけられると思います。

(3)【udemy】「Rではじめる統計基礎講座」
https://www.udemy.com/course/r-statistics/
これは、(1)(2)を経て実務でデータ分析してみたくて受講した講座です。
(1)(2)は概念的には非常に有効ですが、「で、どうやって実務に生かすの?」という視点が私には不足していたので、この講座の通りにRで実務のデータ分析をしました。

そのまま上司にレビューもしていたので、かなり実践としても使えると思います。

(4)統計検定 公式問題集3級
https://www.amazon.co.jp/%E6%97%A5%E6%9C%AC%E7%B5%B1%E8%A8%88%E5%AD%A6%E4%BC%9A%E5%85%AC%E5%BC%8F%E8%AA%8D%E5%AE%9A-%E7%B5%B1%E8%A8%88%E6%A4%9C%E5%AE%9A-3%E7%B4%9A%E3%83%BB4%E7%B4%9A-%E5%85%AC%E5%BC%8F%E5%95%8F%E9%A1%8C%E9%9B%86-2017%E3%80%9C2019%E5%B9%B4/dp/4788925532/ref=asc_df_4788925532/?tag=jpgo-22&linkCode=df0&hvadid=426119125892&hvpos=&hvnetw=g&hvrand=430811287175233589&hvpone=&hvptwo=&hvqmt=&hvdev=c&hvdvcmdl=&hvlocint=&hvlocphy=1009318&hvtargid=pla-892283183729&psc=1&th=1&psc=1

これは、せっかく統計の勉強を始めたので力試しの意味で統計検定を受けてみようと思い、学習に使った本です。
こちらの勉強法は次の章に書きたいと思います。

3.お勧めの勉強法

①2.お勧めの参考書・動画の(1)~(3)(書籍+udemy)
最重要ポイント:「自分ごととして引き付けて考える」

どんなことにもあてはまりますが、「ただ読むだけ」「ただ動画を見るだけ」だと身につく量やレベルがどうしても小さい・低くなってしまいます。
なぜなら、どこか他人事として受け止めてしまうからです。

私は勉強する際、必ず「この動画だと”商品の重量が変わったことは統計的に正しいといえるか” という文脈で説明されているが、実務だと”商品の重量”は”●●”に当てはまるな・・」というようにすぐに実務に生かすための視点を持つようにしていました。

この姿勢の有無で身につくスピード・アウトプットのスピード感に雲泥の差が出てきますので、是非意識してみてください。

②2.(4)統計公式問題集
「合格できればいい」という方はここはスルーしてください。
私は統計検定の受験を通してより統計の考え方をしっかり身につけたかったため、下記を意識しました。

ポイント:正解でない選択肢も、「なぜ不正解なのか」を全て説明できるようにすること

統計検定3級はすべて選択肢です。
明らかに正解(or不正解)が分かる場合もあり、その際、他の選択肢は特に見ない方が多いと思います。

それだと意味が薄いと思ったので、私はすべての選択肢において(もちろん数値のみの選択肢は対象外)、なぜこの選択肢が正解で、他の選択肢は間違いなのかを、1冊全て説明できるようにしました

その結果だいぶ基礎的な理解が進み、本番の3級受験は満点を取ることができました。

4.実務にどのように生かしていたの?

もちろん前職の内容をお伝え出来ないのでざっくりした説明にはなりますが、主に使ってみたのは下記です。

(1)基礎統計量の算出(平均・中央値・標準偏差)
基礎中の基礎ですが、意外にこういった基礎数値をおさえずに仕事を進めている職場は今もなお非常に多いと思います。
私の職場はまさにそうだったので(標準偏差を知らない人も多かった・・)、現実を知るという観点で数値を出していました。

(2)箱ひげ図での可視化
地域ごと(その中には無数の店舗がある)の売上という例で話してみます。
(実際の仕事は全然違う内容です)

今までは全地域(=全店舗)に同じ対策を同じ量ずつ打っていたので、現場のパワーが無駄に消費されていると感じていました。
そこでy軸を売上にして、x軸を地域で分類し、店舗数の分布を箱ひげ図にしました。
そうすると特定の地域のみに課題があることが一目でわかり、より効率的・効果的な施策を打つという提案に生かしました。

(3)仮説検定
今までいろんな施策が職場で行われていましたが、私がすごく課題に感じていたのは、「新しい施策を打つことへのハードルが高い」ということです。
「何となくやった方がよさそうだけど、めぼしい根拠も見当たらないから重い腰が上がらない」というのが率直な理由だと思います。

そんな時に仮説検定に出会い、これだ!と思いました。
仮説検定ができるようなデータの集め方を考え、小規模なトライアルを行いました。
その結果と施策を打つ前の結果を仮説検定し、「有意水準5%でこの施策はbeforeの結果と同じ(=つまりやらなくても同じ)という仮説を棄却できる」という結果を導くことができました。

これを上司にレビューし、それであればやってみようという動きになり、一気に仕事のスピード感が上がりました。

※ぶっちゃけ、上司は統計について理解はありませんでしたが、「なんか数値に基づいて凄そう」という雰囲気が出せたことも一因だと思っています。
あとは私の熱量が凄すぎて、そこを買ってくださったのは絶対あるとは思います。

細かいことを挙げれば他にもありますが、主にはこのような形で学んだことを実務に生かしていました。

「統計を仕事に生かす」というとなんだか敷居がものすごく高そうな印象を受けますが、現場の課題は案外基礎的な数値をまずは見てみる・可視化してみるだけで浮き彫りになることが多いと思います。

そういった意味で、3級(一部2級)のレベルであっても、実務の課題を解決するという意味で非常に有効だと感じます。

5.その他


転職までに私が勉強した内容は以上になります。
今後は統計に対してより深い理解をしていきたいと思っていて、2級の範囲の学習に少し手を出しています。
とはいえ今は転職したばかりで他に優先したい学習がたくさんあるので、統計は優先度が若干下がります。

統計の学習を再開し、2級に合格するレベルになったらその時はまた更新した学習方法を共有させていただければと思います!

最後までお読みいただきありがとうございました。


この記事が気に入ったらサポートをしてみませんか?