見出し画像

データサイエンス学習の振り返りとこれから

勉強してきた内容を振り返りつつ、これから何を学ぶかについての考えをまとめる。

この半年〜1年間、本格的にデータサイエンス分野の勉強をしてきた。
大学1~3年生の間は数学や統計について学んでいたが、理論だけの授業にあまり興味を持てなかった。特に目指すものもなく、授業の単位は割と真面目に取っていたが、「将来に向けた取り組み」という観点ではもっと有意義な時間にできたと思う。

そんな中で、大学4年の初期に統計・多変量解析分野の研究に出会えたことは本当に幸運だった。
研究テーマは比較的自由度が高く、私の場合はデータを自ら集め、統計解析法を用いていい感じに分析をし、分析結果と考察などを論文にまとめた。
具体的には、企業ごとのさまざまなデータから何が若手社員の離職に影響しているのかを調べるというもの。
次元圧縮やクラスタリングで分析したけど、ガッツリ因果推論使って色々やりたかったーーーー
当時は、因果推論ってなに?って感じだったので手法として使おうという発想にも至らなかったが、手探りでさまざまな手法を試せたことは非常に良い時間だった。

研究に向けて、さまざまな手法を学ぶうちに楽しくなり、社会人になってからも同じようなことやりたいなーと思い、今ではデータサイエンティストを目指している。

その過程で勉強したことや、これから何をやっていくかについて書いていきます。


お気に入りの書籍・ツール

①統計学実践ワークブック

とりあえず大学で統計学やってるわけだし、網羅的に学び直せるし、準一級なら頑張ればいけるはずと思って買った。
でも予想以上に難しい。
よくわからない箇所は飛ばしながらパラパラ読んでいたら、試験も落ちた。
でも網羅的に復習できたし初めて知ることも多かった。試験勉強は一旦辞めて、これ以降は研究で使う手法にフォーカスした。
今、この本と再度向き合ってる。ここに書いてある理論や手法について完全に理解し、実際に使えるようになることを目標としている。
「この検定は具体的にどんな場面で使われているのだろう?」
「もし、こういうシチュエーションになったら使えそうだな」
みたいなことを考えながらpython実装を含めて、じっくり学んでいる最中。
卒研を通して、分析する対象や目的に応じてさまざまな手法を使い、正しく解釈する能力が重要なのだと学んだので、試行錯誤しながら今はこういったスタンスで学んでいる。もちろん、合格も目指して。

②データ解析のための統計モデリング入門

これは読んでて本当に楽しかった。
一般的な教科書では、数学的な説明が大半を占め、実際の現場でどのように使うのかが学べないことが多い。しかし、この本は「モデルを作るとは」という概念から説明してくれていて、統計学を応用するための視点を教えてくれる。ベイズを用いたモデリングの説明も非常にわかりやすく、ベイズ統計が好きになったきっかけの本でもある。
また、印象に残っているのが「ブラックボックス統計解析の悪夢」というトピック。データ解析はソフトウェアで簡単に実装できる反面、その背景を理解していない場合が多い。これによって間違った結論を導き出してしまうことを著者は問題視されていた。
この箇所を読んで、最低限の理論はしっかり抑えようと改めて思い、今の私のモチベにもつながっている。

③GPT4

十分認知されているとは思うが、これは勉強する上で最高の家庭教師
何回聞いてもいいし、すぐ返事くれるし、わかりやすいしとにかく最高。
chatGPTの回答にケチつけることだってできる。
もうちょいわかりやすくーとか
それって違くない?とか
基本的になんでも聞けるし、資格勉強レベルでは答えられないことはほぼないのでは。議論していく過程で理解が深まっていると日々実感する。
統計に関して言えば数値実験を用いて解説してくれるのが非常にありがたい。
例えば、中心極限定理で標本平均が正規分布に従うのってサンプルサイズがどれくらいあればいいの?みたいな問いにpythonで数値実験してくれる。
理論と実践を結びつけて理解できる。
これからの時代は、教科書とペンとchatGPTという勉強スタイルが当たり前になると勝手に思っている。

スキル面でなにを優先して学ぶか

(実務経験をしたことがないペーペーの考察)

データサイエンティストって色々な話聞いてる感じ、スキル面では精度特化型と解釈特化型があるような気がする。
(もちろん、分析スキルだけでなくドメイン知識や課題解決力など分析以前に必要となるスキルはあるが、それはまた別として)
精度で言ったら間違いなくdeepや勾配ブースティングなどのつよつよモデル。kaggleで勝つモデルもこれ。今や、生体認証や自動運転などAIと言われるサービスはdeep様様。
私も統計解析を勉強していた時、「deepしか勝たん」ということで統計解析を疎かにしていた。今は、統計からしっかりやり直そうと思って勉強している。
一方でこれらのモデルにはデメリットもある。それが結果の説明不足。現場の意思決定は中身がブラックボックスのモデルでは難しい場面があるらしい。
↓(こちらの記事)

そこで、もう一つが解釈特化型。これは、統計解析や因果推論を用いて数学的に現象を説明できること。
現場では複雑なモデルによる予測では、原因や根拠を突き止めることが難しいらしい。
はやり多くの人を納得させ、意思決定を促すにはしっかりと根拠を提示しない。データ分析による結果の解釈が正しくなければ、重大なリスクとなる、
そのためにはやはり、統計学という学問に対する深い理解が必要不可欠。
機械学習やりたい
という気持ちはあるがまずは統計学・因果推論あたりの内容について、理論・実践ベースで学んでいこうと思う。


この記事が気に入ったらサポートをしてみませんか?