データサイエンス勉強記録②(3/27)
どうも。こんにちは。
ケミカルエンジニアのこーしです。
今週も仕事が忙し過ぎて全然勉強できず、休日だけスタバで勉強しました。
生産現場で働いているので、「大量のデータ」に囲まれて仕事ができますが、データ解析にじっくり取り組むヒマが無いのが悩みです。
前置き
悩みと言えば、最近はこんなことを考えています。
例えば、①生産技術職と②研究開発職のメリット・デメリットは下記の通りです。
①生産現場で働く生産技術職
メリット⇒対象データに習熟しており、データの質がわかる
デメリット⇒データ解析するヒマも技術も無い
②研究所で働く研究開発職
メリット⇒生産技術職に比べると、時間も技術もある
デメリット⇒対象データの知見が無い
よって、データ解析業務で結果を出すためには、「生産技術職」と「研究開発職」がお互い歩み寄りながら、力を合わせる必要があります。
ここで言う歩み寄るとは、「生産技術職」が統計学やpython、データベース周りについて学習し、一方「研究開発職」はドメイン知識と呼ばれる対象データの背景にある技術を理解することです。
お互い歩み寄ることができればプロジェクトは上手くいくはずですが、現実には縦割り業務に陥りやすく、上手くいかないことが多いです。
私は、生産技術職として統計学とpythonを学び、ビジネスに価値をもたらすデータ解析を行うつもりです。
それでは、今週の勉強記録について書いていきます。
勉強記録
今週は、線形代数、多変量解析、Pythonの勉強をしました!
統計学のための数学入門30講 ⇒ 14〜16章
化学のためのPythonによるデータ解析・機械学習入門 ⇒ 4章、7章読了(5,6章後回しにした)
スモールデータ解析と機械学習 ⇒ 1章
ブログ1記事執筆
金子先生の下記の本をメインに勉強しました。
サンプルコードがとても豊富で、pythonに慣れている人には非常におすすめです。
今週は、下記5点を詳しく勉強しました。
サポートベクターマシン(SVM)
決定木(DT)
ランダムフォレスト(RF)
混同行列
適応型ソフトセンサー
SVMと混同行列は、統計検定準1級で学習済みだったので、つまずくことはありませんでした。
ただ、それ以外の内容を完全に理解したとは言いがたいので、再読するか下記の3冊で補いたいと思います。
今後勉強したいこと
古典的な機械学習の手法
⇒決定木、ランダムフォレストなどpythonブログ執筆
⇒環境構築、データ前処理、データ可視化、回帰分析など平滑化手法
⇒Fused Lasso、Savitzky-Goley法変数選択手法
⇒ステップワイズ法、Lasso、VIP、GA、Boruta異常検知
⇒MSPC
勉強したいことがいっぱいあるので、コツコツ進めていきたいと思います。
ただ、統計検定1級を受験している余裕があるのか疑問です。。
とりあえず今は、考えながら行動(勉強)していきます!
それでは、また来週!
この記事が気に入ったらサポートをしてみませんか?