見出し画像

混合混触危険性を大規模言語モデルで予測する:はじめに


1.混合混触危険性とは

突然ですが、もしもあなたの知り合いに、化学業界というヤクザな分野に足を踏み入れている奇特な方がいたら、2次会の終わり、なるべく夜更けごろを狙って「混合混触危険性…って知ってるかい?」と尋ねてみてください。相手はきっと、アリバイを聞かれた犯人のような顔をするか、タチの悪い顧客の相手を年中させられているコールセンター勤務員のような目でこちらを見やるか、はたまたマジで知らないかです(マジで知らないっていう顔をされたら、こと化学に関してその人のことはあまり信用しない方が良いかもしれません)。

混合混触危険性? いやそりゃもう…みてるよ当然。でもさ、この話はやめとかないか?

化学物質、それも、化学業界にいる大人たちが取り扱おうと目論む化学物質というのは、だいたいが危ないものです(下記の爆発事故は、肥料のような一見無害な物質ですらことと次第によっては…という例です)。そして面倒なことに、異なる種類の化学物質を混ぜ合わせるとさらに危ない現象(例:急激な発熱、有毒ガスの発生)を引き起こすことが多いです(他のものと混ぜたら何かが起こるからこそ、それらは化学反応の原料として有望でもあります)。混合混触危険性とは、2種類の化学物質を混ぜ合わせた時におこる何等かの危険性を指します。

それなら化学物質なんて使わなければいいじゃないか、とも思ってしまうのですが、現代の生活において化学物質の使用を取りやめるというのは、文明の一切合切とさよならバイバイ、野生動物の生活に戻るのとほぼ同義です。そして、化学業界に身を置く方々は、これら化学物質同士の化学反応を利用して、現代の生活にとって有用かつ(多くの場合)不可欠な製品を作り出すことを生業としています。つまり、化学物質を製造する人々にとって、混合混触危険性というのは目を背けることのできないものなのです。

2.混合混触危険性判定とその難しさ

混合混触危険性判定とは、これら化学物質が持つ危険性を、それを実際に取り扱う(例:新たな化学反応の触媒を探索するために、様々な化学物質を原料としてラボスケールにて触媒を調製する)前にあらかじめすべて確認しておくという業務の名称です。あらかじめすべて、と書くだけならば簡単に見えますが、実務上はかなりの困難さを伴うものです。例えば、20種類の化学物質を用いて(ことが触媒探索である場合、20種類というのは控えめな設定値です)触媒調製を行うとした場合、想定すべき化学物質の組合せは20C2 = 190通りも存在します。これらすべてについて混合混触危険性を見落としなく人間が判定するというのは、控えめに言って中々しんどいものがあります(しんどいというのは、現実的な業務時間に収まらないためにサービス残業の一因となるか、あるいは「できるわけがない」とショートカットされ、不安全行動の温床となりうる、というニュアンスです)。

3.既存の支援ツールとその課題

当然ながら、こうしたしんどさというのは化学業界に属する方々に共通したものです。従って、混合混触危険性判定の支援ツールも開発、流通しています。中でも、CRW(Chemical Reactivity Worksheet)は一般に広く利用がなされており、非常に強力かつ便利なものの一つです。組成式が同一の化学物質についても、状態が異なる場合は分けて判定する(例:圧縮空気と液体空気)など、現場の危険を反映した設計思想が見える点も好ましいと私は考えています。

CRWの解析結果例。注意、危険と判定されるとチャート上に黄色、赤色にて表示される。

ただし、CRWは極めて優れたツールである一方、弱点もあります。それは、CRW自体が記憶している5000種類オーダーの既知物質についてしか、混合混触危険性を判定できないということです。従って、CRWにとって未知な組成の化学物質や、あるいは未知の形態を持つ化学物質についてはその危険性を予見することが出来ません。このことは、取り扱う化学物質が日を追って多様かつニッチなものとなりがちなユーザー(私もその一員だったのですが)にとって、看過できない課題でした。

4.機械学習という甘い罠

そう、なら既知のデータセットを機械学習すればいいじゃない。私もそう思いました。なのですが、機械学習による混合混触危険性の予測には一つ、大きな課題があります。それは記述子です。

化学物質に関する機械学習の経験者はよくご存じのことですが、化学物質のもつ何等かの物性yを予測するためには、化学物質自体を特徴づける手掛り、記述子xが必要となります。そして問題は、混合混触危険性の予測においてはこの記述子が一意に定まらないことです。

具体例で説明しましょう。例えば、CRWに掲載されている物質のうち、簡単なものとしてアルミナ(Al2O3)があります。この物質をCRW上で検索すると、検索結果は下記のようになります。

アルミナとエメリー

はて、エメリーとはなんでしょう? 調べると次のような記載がありました。そう、エメリーというのは主成分がアルミナなのですが、純物質ではなく、混合物なのです。困りましたね、これでは記述子が定まりません。

エメリーはコランダム(アルミナ)や尖晶石を主成分とする鉱物です。磁鉄鉱や赤鉄鉱や斜長石を多量に含んだ天然の研磨材です。とくに、光沢仕上げを必要とするバフ研磨工程に使用されます。

https://www.xebec-tech.com/blog/no-31/

いや、ここであきらめてはいけません。仕方がないので、エメリーについては後で考えることにしましょう。アルミナのような無機物質については(実はアルミナと言ったとたんに、ほう…アルミナか、それはどのアルミナだ? っていう沼な議論を始めることもできる、というか現実にはこっちが始めたくなくても向こうが始めてくるというのがよくあるんですが、その話は置きます。重すぎて置いた床が歪みそう)、XenonPyに代表される組成式記述子がしばしば利用されます。この記述子は290次元を持ち、無機物質の基本的な性質をよく表すことができます。

しかし、世の中は無機物質だけで出来ているわけではありません。有機物についてはどうしましょうか? 低分子についてはSMILES記法で表現したのち、フィンガープリントやRDKit、Mordredに代表される各種の記述子を使用することができます。しかし高分子は? いや、その場合は絡み合いを表現できる程度の重合体についてSMILESを…

例外処理が多すぎて頭がパンクしたデータサイエンティストがここに一人。

5.混合混触危険性の予測技術が満たすべき要件

ということで、混合混触危険性の予測に必要な条件は以下の3点となります。さて、これらを満たす予測技術というのはありうるものなのでしょうか? 私は、この問いに対する回答の一つが、大規模言語モデルであると考えています。

  • 未知の化学物質同士についても混合混触危険性を予測できる

  • 入力データが多様でも学習、予測できる

  • 多くの化学物質同士の危険性を、素早く予測できる

次回予告:大規模言語モデルを用いた混合混触危険性予測モデルの開発

次回からは、下記のnoteを参考にした混合混触危険性予測モデルの開発について紹介していきます。


この記事が参加している募集

仕事について話そう

この記事が気に入ったらサポートをしてみませんか?