まずはMIの全体像を俯瞰する
こんにちはそんです。MIを使いこなして効率的・革新的な材料開発をやりたい人です。
まずはMI技術を俯瞰して全体像を掴むため、2020年に特許庁が出した「特許出願技術動向調査 結果概要 マテリアルズインフォマティクス」をざっくり読みました。現時点でのMIの理解を備忘録として書いておきます。
MI(マテリアルズ・インフォマティクス)の定義
MIは第四の科学であるデータ科学を用いて効率的に材料開発を行う手法である。これまで我々人類は、第一の科学「実験」第二の科学「理論」第三の科学「計算科学」を使って材料開発を進めてきたわけだが、ここにきて第四の科学「データ科学」をも活用してやろうということのようだ。データ科学を活用するとは要するに「機械学習」や「深層学習」といったデータ解析手法を使って材料開発をする、ということ。また、データ解析を行うためにはそこに投入する「データ」が必要である。MIとはどうやら「投入するデータ」と「それを解析する手法」の大きく2つが重要そうである。
図. 令和元年度 特許出願技術動向調査 結果概要 マテリアルズインフォマティクスより.
MIを材料開発に使う流れ(現時点での理解)
(1) データを取得する
(2) データを蓄積・保存する
(3) データを使って解析する→解析した結果、新しい知見が発見されたり、人間が思いもよらなかった新しい材料候補が提案されたりする
(4) 提案された新材料候補を実際に作ってみる→(1)に戻る
(1) データを取得する
どんなデータを取得するのか?What
テキストデータ:論文、特許、報告書
実験データ:計測データ。実験ノート、物性データ、スペクトルデータ、画像データなど。
シミュレーションデータ:Gaussianで計算した数値データとか(シミュレーションは別途勉強する)
オープンデータ vs クローズドデータ
オープンデータ:誰でも利用できるデータ。論文、特許、データベース(たぶんPubChem、PolyInfoとか)
クローズドデータ:社内しかしらない秘匿化されたデータ。
一会社目線だと競争優位性・他社差別化のためにできるだけクローズド化しておきたいが、国目線で見ると同業他社同士で協力して国際競争力を高めて欲しいので、ある程度はオープン化したほうが良さそう。オープン化とクローズド化のバランスは大いに議論がありそうだ。
どうやって取得するのか?How
●既存のデータ
データベースから:PubChemやPolyInfoみたいなデータベースから化合物データを引っ張ってくる。
テキストデータ:特許や論文などのテキストデータから重要な知見を抽出してデータベース化したい。キーワードはテキストマイニング。
紙ベースの実験データ:過去の実験結果は紙で保存されている場合が多い。手入力するかOCRツールを活用する。
●これから取得する新しいデータ
実験する:普通に実験して新しいデータを取ってくる。合成(つくる)と評価(計測する)。この実験も自動化できれば良い。キーワードはハイスループット合成・評価。材料各社にMIが導入された後はいかにこの新しいデータを早く・多くとってくるかが競争優位の源泉になりそう。特に人手不足の日本では真面目に自動化しないとマンパワーで負ける。
シミュレーションデータ:第一原理計算、分子動力学、モンテカルロ法といった手法でシミュレーションしたデータをMIに使う。正直シミュレーションは全く理解していない。シミュレーションしたデータを使って機械学習をする方法もあるが、その際はシミュレーションデータの精度が重要だろう。まずは機械学習を補う形で使用したほうが良さそう。例えば、機械学習モデルで内挿範囲外となっていて怪しい場合、シミュレーションで計算してみるとか。
(2) データを蓄積・保存する
当然ではあるが、AIが取り扱える形で保存する。実際にはexcelファイルということになるだろう。
実験ノート:AIに投入することを前提に紙ではなく電子データとして保存したい。例えば実験ノートの電子化・クラウド化。
(3) 解析する
ここが肝。特許庁の資料に記載されているキーワードを列挙する。
機械学習、ニューラルネットワーク、深層学習、サポートベクターマシン、決定木、ランダムフォレスト、ベイズ最適化
現時点でこれらの詳細はほとんで理解できていない。これから使いながら学習していくことになる。
(4) 提案された新材料候補を実際に作ってみる
普通に実験する。(1)ですでに記載したとおり、自動化して効率的に実験することも必要。
今回の結論
(1)~(4)を高速でひたすらぶん回していくのがこれからの材料開発サイクルと考えられる。これからMI技術全体はざっくり俯瞰できたので今後各論を学習していく。
この記事が気に入ったらサポートをしてみませんか?