データサイエンス勉強記録⑤(4/17)
どうも。こんにちは。
ケミカルエンジニアのこーしです。
今週も少しだけ統計学を勉強しました。
前置き
本日の前置きは、統計学関連です。
統計学が先か、Pythonが先か
Twitterでもたくさんの人が持論を展開しており、統計学から勉強すべきという人は少数派なのかもしれません。
しかし、データ分析をしたいのであれば、まず第1に「統計学」から勉強すべきです。
目的から考えると当然ですね。
もちろん、Pythonが使えるとデータ分析の質が上がります。
ただ、少なくとも統計検定準1級レベルまで勉強してから、Pythonに取り組むと良いです。
私自身、統計検定2級レベルでPythonを勉強し始めましたが、このままではまともなデータ分析はできないと感じ、統計検定準1級を目指しました。
いきなりPython学習を勧める人もいますが、自分の教材があるから勧めているだけでしょう(ステマの一種)。鵜呑みにしない方が良いです。
学ぶべきは、PythonかRか
色々と勉強してきて分かってきましたが、過去の教科書はRを前提に書かれたものが多いです。
しかし、現在ではPythonで書かれた教科書が多くなってきています。
プログラミング言語は、次々と新しい言語が生まれ、より良い言語が生き残ります。
現在、Rはアカデミックな場で使われていることが多く、ビジネス現場では大半がPythonに移りつつあります。
よって、仕事でデータ分析をしたいのならPythonを選びましょう。
勉強記録
今週の進捗は下記の通りです。
「スモールデータ解析と機械学習」 〜3章
「統計学のための数学入門30講」 23章
「スモールデータ解析と機械学習」の「3章 回帰分析と最小二乗法」をメインに勉強しました。学習した内容はざっと下記の通りです。
多重共線性(pythonで確認)
主成分回帰( PCR)
リッジ回帰
部分最小二乗法(PLS)
PLSアルゴリズム(NIPALS、SIMPLS)
クロスバリデーション
回帰モデルの性能評価
scikit-learnを使わずに、numpyだけで実装していくので、計算過程がよくわかり、理解が進みました(若干、誤植が気になりましたが)。
理論の解説も詳しく、Pythonと理論のバランスがとても良いと思いました。
Pythonを使わなくても十分読み込めるけど、「Pythonコード書いた方がより理解が進む」といった感じです。
scikit-learnのPLSRegression()は、特異値分解に基づいたアルゴリズム(SIMPLS)を使っているとの記載があったため、「統計学のための数学入門30講」で特異値分解を復習しました。
完全に理解したとは思えないので、来週は他の教科書で補うつもりです。
GWの勉強計画(仮)
先週に引き続き、GWの勉強計画をアップデートしていきます。
基本的には、化学・化学工学向けのデータサイエンス関連本を優先的に読んでいきます。
しかし、上記ツイートの通り、異常検知の本を買ってしまいました。
異常検知が面白そうなので、コチラを先に読んでみたいです。
また、ソフトセンサーでもガウス過程回帰がよく使われているのを知っていましたが、先日購入した異常検知の本にもガウス過程回帰が載っていたので勉強するしかないなと思っています。
はじパタと多変量解析入門は、理論で理解不足のところがあれば参照したいと思います。
また、他の本と内容が被っているものは補欠に回しました。
【補欠】
Pythonで気軽に化学・化学工学
Pythonで学ぶ実験計画法入門
エンジニアのための実践データ解析
ケモメトリックス
あと、pythonブログもGWに2記事くらい書きたいですね。
下記3点をモジュール化していきたいです。
外れ値除去
標準化
ステップワイズ法
それでは、引き続きコツコツ勉強していきましょう!
ではまた来週!
この記事が気に入ったらサポートをしてみませんか?