見出し画像

データサイエンス勉強記録⑥(4/25)

どうも。こんにちは。

ケミカルエンジニアのこーしです。
今週も統計学と数学(線形代数)を勉強しました。

今週の勉強記録

今週の進捗は下記の通りです。

  1. 「スモールデータ解析と機械学習」3章(python復習)、4章(4.3まで)

  2. 「これなら分かる応用数学教室」6章(6.3特異値分解)

金谷先生の「これなら分かる応用数学教室」「特異値分解」を勉強しました。

scikit-learnのPLSRegressionで「特異値分解」が使われていることを先週学んだので、内容を理解したかったからです。

先週読んだ「統計学のための数学入門30講」では、しっかり理解できなかったので、こちらの教科書で補いました。

「これなら分かる応用数学教室」では、例題をどんどん解いていくと、過去の例題とつながっていき、いつのまにか理解できていました。
大学の講義を受けているような感覚で、しかも先生と生徒の質疑応答(ディスカッション)があるので、かゆいところに手が届く良書でした。

本書の5,6章が線形代数の内容なので、来週また復習してみようかなと考えています。

「スモールデータ解析と機械学習」は、先週学んだ内容(PCR、リッジ回帰、PLS、CV、RMSE)についてPythonで復習しました。

先週も書きましたが、本書ではScikit-learnやStatsmodelsを使わず、ほぼnumpyだけでPLSやクロスバリデーションなどを実装していくので、本当の意味で「復習」になります。

ただ、Pythonでコードを書いているとどうしてもエラーに悩まされます。
回帰係数βがベクトルで出力されるはずが、行列で出力されてしまい、2時間くらい悩みました。
誤植ではないかと疑って(第1版第1刷なので。。)色々調べましたが、結局自分のタイプミスでした💦

あと、Pythonブログを執筆予定でしたが、勉強が思ったように進まず取り組めませんでした。
Pythonブログは、すでに多くの方が良記事をたくさん書いてくれているので、自分にしか書けない記事というのを模索中です。

まずは、「化学系のためのデータサイエンス勉強方針」について、記事を書いてみようかなと思います。
これまでの勉強軌跡が誰かの参考になるのではないかと考えています。

あとがき

データサイエンスの勉強方針について少し考えてみました。
もし、先輩や後輩がデータサイエンスの勉強を始めたいと相談に来たとき、どのような勉強法をオススメするかです。

まず第1に、目標が立てやすく、達成感を得られやすい勉強法(指針)が良いと考えました。
よって、下記をベンチマークにすると良さそうです。

  • 統計検定の取得

  • 読了した本の数

  • 構築したプログラム(自作モジュール)の数

  • Kaggleのメダル数など?

第2に、自分にデータサイエンスが向いているかどうかがすぐにわかることが重要と考えました。
つまり、データサイエンスの肝の部分(統計学)から優先的に学ぶべきですね。

PythonやSQL、Gitや Dockerなど、周辺知識から学んでしまうと、いざ本丸の「統計学」に到達したときに、実は統計学は理解できない、勉強が全然楽しくないというオチになるかもしれません。

よって、まず最初に統計学を勉強し、データサイエンスへの適正を見極めてから、PythonやSQL、Gitや Dockerなどに進むと良いと思います。
もし、適性が無かったとしたら、他の興味のある分野について勉強をすれば良いです。
何事も早い方が良いですよね。

よって、下記の順番が良いのでは無いかと考えています。

  1. 統計学

  2. Python

  3. SQL、データベース

  4. Git(バージョン管理)

ベンチマークを含めてもう少し具体的に書くと、

  1. 統計検定2級取得

  2. 統計検定準1級取得

  3. Python 3 エンジニア認定データ分析試験(仮:未受験のため)

  4. データ分析ダッシュボード作成(Python)

  5. SQL、Git(バージョン管理)習得

後半は未知の領域なので適当ですが、初級向けとして上記1〜4の詳細をブログ記事にまとめるのはありですね。

自分の勉強指針を立てるためにも整理しておくのは良さそうです。


ついに!来週からGWですね!
まとまった勉強時間を確保できる貴重な機会です。
今からしっかり計画を立ててGWに突入したいと思います!

それでは、引き続き今週もコツコツ勉強していきましょう!
ではまた来週!

この記事が気に入ったらサポートをしてみませんか?