見出し画像

データサイエンス勉強方針(2022年)

どうも。こんにちは。

ケミカルエンジニアのこーしです。
最近は、統計検定準1級に合格して一息ついているところです。

今後、統計検定1級に挑戦する予定(2022年11月)ですが、統計検定対策ばかりでは実務能力が向上しないため、2022年6月頃までは実務に関する勉強を進めたいと思います!

よって、本記事では実務向けの勉強方針について書いていきます。

やりたいこと

化学プラントにおけるデータ活用イメージ

まず、データサイエンスを勉強して何がしたいのかというと、ざっくり下記の2点です。

  • 製品品質の制御

  • プラントの異常検知

化学事業において利益を生み出すためには、色々な施策がありますが、プラントの運転管理に的を絞ると、「原単位を下げる」が一つの目標になります。

  • 製品価格を上げる

  • 販売量を増やす

  • 製造原価を下げる
    ⇒原料、溶媒、用役単価を下げる
    ⇒修繕費、減価償却費(設備投資)を下げる
    原単位を下げる☆
     ⇒収率を上げる
     ⇒省エネ運転する
     ⇒溶媒ロスを削減する など

下記の記事にもやりたいことについて詳しく書いています。


製品品質の制御

化学プラントにおいては、温度・圧力・流量・液面・濃度などのセンサーデータをリアルタイムで監視しています。

しかし、製品品質の大部分は分析室(ラボ)にて人間が分析しています。
(例えば、HPLCやGC、粒度分布計や原子吸光などです。)
また、製品品質は、測定が難しい場合も多く、測定頻度を上げることができません。

よって、製品品質は他のセンサーデータに比べてデータ数が少なく、品質規格から余裕をもった運転条件で運転せざるを得ない状況です。

そこで、製品品質を他のセンサーデータからリアルタイムで推定(ソフトセンサー)できるようにし、かつ、品質の操作因子を探索することで品質のばらつきを抑え、省エネ、省コストの運転管理を目指したいと考えています。

  1. 品質のソフトセンサー作成(予測)

  2. 品質の操作因子探索(解釈)

  3. モデル予測制御や線形計画法(安定制御)


プラントの異常検知

また、化学プラントではスタートアップ・シャットダウンにおける、製品ロスや用役ロスの影響が大きいです。
よって、いかに安定的に運転できるか原価低減(省エネ、省コストの運転管理)には欠かせません。

そのためにも、設備の異常を検知し、トラブルを未然に防ぐことも重要になってきます。

日本では、老朽化したプラントが多くなっており、10〜20年運転して初めて生じるような設備異常も起こりえる状況です。

そこで、以下のような手法によりプラントの異常検知にも取り組みたいと考えています。

  • 主成分分析に基づく手法

  • 機械学習や深層学習を用いた手法


今後の勉強方針

今考えている勉強内容は下記の通りです。

  1. Python

  2. 数学(主に線形代数)の復習

  3. 多変量解析(主に重回帰分析、主成分分析、PLSなど)

  4. データベース(SQLなど)

  5. 数理統計学(統計検定1級対策)

 Python

実務でデータ解析するためには、Pythonが欠かせません。

仮説検定や分散分析ならば、Excelでできないこともないですが、機械学習の手法を使おうとすると、Pythonを使う必要があります。

また、化学プラントは多変数かつ大量のデータがあり、外れ値の除去や欠測値の除去・補完をするだけでも大変な作業になります。
しかし、Pythonを使えば非常に簡単にデータの加工ができます。

これまで書籍やUdemyでそこそこ勉強してきたので、今後は実務でよく使う作業をブログにまとめていくような形で学習を進めていきたいと思います。


数学の復習

数学もそこそこ勉強してきたのですが、主成分分析などの理解を深めるためにも線形代数の復習が必要だと感じています。

統計検定準1級の勉強で参照しましたが、復習したいと思います(通読してみる)。

こちらも、統計検定準1級の勉強で参照しましたが、線形代数の部分のみもう1周しようかなと考えています。


多変量解析

ソフトセンサーを作成するために、重回帰分析、主成分分析、PLSなどの理解を深めたいなと考えています。

化学プラント向けとしては、明治大学の金子先生の著書が気になっているので読んでみたいと思います。

化学プラントのソフトセンサーにおいては、予測精度よりも解釈性が求められることも多く、まずは比較的解釈性の良いモデルに絞って勉強を進めていきたいと思います。

金子先生の論文を読んだら、何を勉強すべきかが少し見えてきました。

  • PLS

  • 遺伝的アルゴリズム(GA)

  • スペクトル解析

  • ガウス過程回帰

  • SHAP

  • LIME

金子先生のブログをしっかり読んで、勉強の道筋をつけられたらなと思ってます。


データベース

ソフトセンサーを実装したり、作ったモデルでモデル予測制御をしようとするとデータベース周りの知識が必要になってきます。

今は、システムエンジニアに依頼しているだけですが、今後は理解して依頼できたらなと考えています。


数理統計学

こちらは、統計検定1級対策でしっかり勉強していく予定です。
2022年6月頃から本腰を入れていきます。

まだ全体像がつかめてませんが、統計学の本質をより理解できるようになると信じています。


今後も週1回くらいのペースで勉強記録を残せたら良いなと考えています。
では!

勉強記録↓↓


この記事が気に入ったらサポートをしてみませんか?