データ解析者の心得: 製造DXの初歩の初歩
随分と長い間,主にプロセス産業の製造現場のデータを対象として,様々な解析を行ってきた.今でも,いくつかの企業と一緒にデータ解析をしている.特に最近は,製造DX実現を掲げての依頼が多い.これまで,多くの成果をあげてきたし,それ以上に多くの失敗もしてきた.その経験を踏まえて,製造プロセスのデータ解析をしようという技術者に「これだけは伝えておきたい」ということがある.それを「3つの心得」としてまとめておくことにした.もっと詳しく知りたいという人がいれば,私の講演を聞いて下さい.
製造プロセスのデータ解析
そもそも,製造現場で制御したいのは製品品質(製品の重要特性)であるが,その計測値・分析値がリアルタイムに得られることは珍しい.多くの場合,抜き取り検査をして,高価な分析装置を使って,長い時間をかけて,分析値を得る.この分析値が出てくるのを待っている間にも生産は継続しており,「あっ,不良品だ!」と気付いてから対応するのでは手遅れになる.
ではどうするか?
リアルタイムに製品品質の分析値が得られないなら,製品品質を予測するモデルを構築して,その予測値を用いてプロセスを管理あるいは制御すればいい.予測値は瞬時に計算できるので,製品品質のフィードバック制御も実現できる.
このようにリアルタイム計測困難な製品品質等を計測が容易なプロセス変数等から予測することを「仮想計測」と呼ぶ.予測モデルは「ソフトセンサー」と呼ばれることが多い.半導体分野では「バーチャルメトロロジー」と呼ばれる.また,実測値の代わりに予測値を用いる制御は「推定制御」と呼ばれる.
プロセスを運転するとき,仮想計測だけで十分なわけではない.
製品の不良や装置の異常はなるべく早く検出したいし,できることなら,実際に不良や故障が発生する前にその予兆を見付けたい.そのためには「異常検出」が欠かせない.しかし,異常を検出してアラームを発報するだけでは大した役には立たないかもしれない.どこでどのような異常が発生したのかを明らかにすることが望まれる.そのために「異常診断」が必要になる.
生産で利益をあげるためには,生産コストを下げなければならない.最も良い条件で運転しなければならない.そのために「最適化」が必要である.製品品質を継続的に改善していく「品質改善」も求められるだろう.
さらには,ここまで実施しているところは少ないだろうが,製造設備のパフォーマンスを維持・向上させるためには,制御システムがその能力を十分に発揮しているかを調べる「制御性能評価/監視」も重要になる.
ここに述べたような様々な技術を組み合わせて製造プロセスを運転するわけだが,これらの技術が製造現場で役立つかどうかは,適切なモデルが構築できるかどうかに依存する.良いモデルが構築できれば何とでもなる.構築できなければ何ともならない.
このため,「プロセスデータ解析」が重要になる.データ解析で成果をあげるために知っておくべきことがある.というわけで,「3つの心得」について説明しよう.
1.目的を明確にする
ひとつめの心得は「目的を明確にすること」である.
データ解析で最も大切なことは,いや,データ解析に限らず,何かをするときに最も大切なことは,「目的を明確にすること」である.「最終的に成し遂げるべきことは何かを明らかにすること」である.
そんなことは当然だと誰もが思うだろう.しかし,目的が曖昧な人やプロジェクト,目的をうやむやにしてしまう人,目的と手段を取り違える(手段が目的になってしまう)人,に心当たりがある人は多いだろう.それが失敗の最大の原因である.データ解析にどのような機械学習手法を選ぶかは,確かに性能に影響を与えるが,目的設定に比べれば些細なことでしかない.
目的と手段を取り違えてしまうという致命的な失敗に関しては,このメモも参考にして欲しい.
2.対象を理解する
ふたつめの心得は「対象を理解すること」である.
データ解析を行う際に,とても大切なことのふたつめは「対象を理解すること」である.「どのようにしてデータが生成されているかを把握すること」である.
対象とする製造プロセスがあって,仮想計測をしたい場合でも異常検出をしたい場合でも,どのような設備をどのように運転しているかによって取得できるデータの特徴は変わる.そうであれば,設備や運転方法について知っておく必要がある.
こんなことは当然なのだが,製造プロセスについて勉強しないままデータ解析する人,どのように運転されているか知らないままデータ解析する人,設備や運転方法について質問されて答えられない自称研究者や自称技術者,は少なくない.私自身,そういう人に数多く出会ってきた.
実際,企業の方々と一緒にデータ解析を行うとき,私は物凄い量の質問をすることが多い.製品についても,設備についても,運転方法についても,まるで知らないからだ.知らないもののデータを正しく解析することはできない.工場を訪問して設備を見学させてもらうのも基本だ.適切なイメージを持つことは大事だ.
3.生データを見る
みっつめの心得は「生データを見ること」である.
データ解析を行う際に,とても大切なことのみっつめは「生データを見ること」である.「データがどのような特徴を持っているか,設備や運転方法から考えておかしなところがないかを確認すること」である.
そんなことは当然だと誰もが思うはずだが,データを確認しないままデータ解析する人は少なくない.
その原因のひとつは,データ解析が出来るように綺麗に整えられたデータが与えられたところが出発点だと思っていることだろう.多変量解析の本でも機械学習の本でも,数多くの優れた解析手法を解説してくれてはいても,解析に用いるデータをどのように準備したらいいかについては触れていないものが多い.データの前処理は泥臭い作業だ.前処理をして褒められることもないだろう.しかし,極めて重要であり,結果を大きく左右する.
生データを見れば,おかしなところがあれば気付ける.データの特徴がわかる.そうして初めて,どのような解析をするのが良さそうかがわかる.
データ活用
製造DXに取り組むべきだとの認識が広がり,データ活用に取り組むところが増えたのは大変嬉しいことだ.私がプロセスデータ解析を始めたころは,データを活用するという発想を持っている現場は多くなくて,「ただの数字遊びでしょ」「物理モデルしか信用ならん」という声が強かった.それでも,「データベースがデータの墓場になってませんか?」「データを活用して生産性を高めましょう!」と言い続けてきた.
多くの組織や人がデータ活用に取り組むようになったのは喜ばしいが,気になることがある.それは,データしか見ていなくて,とにかく,データベースから取り出してきたデータに機械学習を適用して結果を出すという闇雲な作業に突っ走っている人がいることだ.それでも成果が出るならいいが,そううまくいくわけではないだろう.
データ活用は重要だし有効だ.しかし,データ活用は機械学習の方法だけ知っていればできるものではない.専門知識(ドメイン知識)と組み合わせることで,成果を出せる可能性が高まる.私は元々化学工学の出身なので,産業を問わず製造プロセスのことは何となくわかる.直観が働く.経験もある.このため,データ解析の対象となるプロセスが与えられたとき,どこに注意すべきかも想像がつく.必ずしも自分の直観が正しいわけではないが,ドメイン知識を駆使することで,無駄を省けるし,データをより上手く活用できる.
最近,データ活用について話をして欲しいと依頼されたときには,ここで紹介した「3つの心得」についても触れるようにしている.共同研究での成功事例なども紹介するが,いきなりそのレベルのデータ解析ができる人は多くない.まずは,基本を身に付ける必要がある.解析手法をたくさん知っていることが大切なのではない.データにどう向き合うかという態度によって成果は大きく変わりうる.そのことを伝えたいと思って,このメモを書くことにした.
© 2024 Manabu KANO.