論文読み:測定値を有効利用できる機械学習パイプライン [Experimental design for the highly accurate prediction of material properties using descriptors obtained by measurement]

 本記事は、なんとなしに読んだマテリアルズインフォマティクス関連の論文、R. Tamura, et al. "Experimental design for the highly accurate prediction of material properties using descriptors obtained by measurement"(オープンアクセス)について、読書記録的にまとめたものです。

 本記事の対象論文(以下単に本論文)は、NIMS、旭化成株式会社、三菱ケミカル株式会社、三井化学株式会社、住友化学株式会社らの名だたる組織からなる化学マテリアルズオープンプラットフォーム(化学MOP)の成果の一つです。NIMS発表のプレスリリース(概要)は以下の通りです。

強度や脆さといった材料物性を機械学習で予測する際に、材料の構造から得られる情報を有効に活用し、少ない実験回数で、予測値と実値の誤差を小さくできる (予測精度の高い) AI技術を開発しました。高分子材料をはじめとした材料開発の強力なツールになると期待されます。

NIMS プレスリリース

 本論文は、手元のデータを元に次に実験すべき条件を提案させる手法の一つ、ベイズ最適化を用いたアクティブラーニングにおいて、その次条件の提案におけるアルゴリズムに関して、新たな手法を示しています。

背景

 材料開発では、ある目的となる特性値に対してどのように実験条件を設定したら良いか、が知りたいわけですが、この実験条件ー特性値の組みに加えて、目的の特性値以外を測定した結果というものが途中生まれます。例えば、ある組成で合金を作って磁化を最大化したいという問題設定では、実際に作った材料の合金について、目的となる磁化を測るだけでなく、X線回折で結晶構造をみたり、SEMで内部組織をみたりすることで、元の組成ー磁化のデータの他に、結晶構造や生成相等のデータを加えることができます。目的特性によっては、元の実験条件よりも途中の測定値の方が、うまく予測できる情報量を持つことが少なくないです。
 ただし、当たり前ですが、途中の測定値というのは結局のところ実験条件を定めて、実際に測ってみないと出てこない値であり、アクティブラーニングのインプットとして使えるのはやはり実験条件のみです。ですから、特性値の予測能力が高い途中の測定値の情報をうまく参照して、次の実験条件を提案できるような手法を作れば、より効率的な実験試行ができると考えられるわけです。

提案手法

 本論文で提案された手法(BOED, Bayesian Optimization based Experimental Design) はちょっと複雑で、文章で表現するのが辛いので下のスライドで示します。。操作可能な変数(実験条件)と、操作不可能な変数(途中の測定値)を行ったり来たりして、次の条件を提案しています。測定値ー特性の関係を学習し、新たにどの測定値、つまり実験条件のデータを加えれば特性予測モデルの性能向上を達成できるか、という視点での手法であると思います。(正直ただしく理解できているか不安です。。)

 この手法の有効性を、ポリプロピレン材料のデータベースを用いて検証しています。比較となる手法は、(もう一つの提案手法?)操作不可変数(測定値)を一切使わずに、実験条件と特性値のみで従来のベイズ最適化+アクティブラーニングした手法(USED, Uncertainty Sampling based Experimental Design) およびランダムに次条件を提案させるRandom Samplingです。目的とする特性値は、シャルピー衝撃試験と引張弾性率の機械物性の二つです。

 結果として、メインの提案手法(BOED)ともう一つの手法(USED)はおおよそランダムで条件を提案させた場合よりも少ない試行回数で、良い特性予測モデルができています。また引張弾性の予測については、操作可能な変数(実験条件)のみを用いた予測性能よりも、操作不可な変数(測定値)を用いた予測性能が悪く、この場合はBOEDの手法はうまく行っていないことも示されています。BOEDにおけるデータ分割に関するパラメータLについても、予測性能変化のL依存性をみています。

感想

 一番最後に書いた、測定値では予測がうまくいかないデータについては提案手法がうまくいかない、などの事実は、確かに途中の測定値の情報を取り込んでいることを示しているのでしょう。ただ提案手法によって抜群に試行回数が減らせたりするわけではないようです。もっとバシッとうまくいく方法はないものでしょうか?
 また本論文では、評価基準が「測定値を用いたときの特性予測精度」であり、実際のよくある問題設定は「実験条件を決めた時の特性予測(特に良い値を出すとこ)」でしょうから、ちょっとストレートではない印象があります。(もちろん考察の中で、測定値と実験条件を同時に組み合わせてモデル学習の特徴量として用いることが提案されています。)
 本論文の手法をそのまま素直に用いることは難しいかもしれませんが、せっかくある測定値という情報をうまく活用しよう、という一試みとして知っておくのは有用であると思います。

文献

Ryo Tamura, Yuki Takei, Shinichiro Imai, Maki Nakahara, Satoshi Shibata, Takashi Nakanishi & Masahiko Demura (2021) Experimental design for the highly accurate prediction of material properties using descriptors obtained by measurement, Science and Technology of Advanced Materials: Methods, 1:1, 152-161, DOI: 10.1080/27660400.2021.1963641


この記事が気に入ったらサポートをしてみませんか?