GPT-MolBERTa: GPT Molecular Features Language Model for molecular property prediction

Ikemen Mas Kot

2023年10月11日 13:56

本研究の問いは、「化学化合物の詳細なテキスト情報を用いて、その特性を予測する大規模な言語モデルを作ることは可能か？」です。これは従来のSMILES表現には、情報量の不足や一般性に欠けるという問題があったためです。
本研究の目的は、化合物の特性をテキストデータから予測する新たな言語モデル、GPT-MolBERTaを開発することです。基本的な原子情報から複雑な幾何学的情報や相互作用に至るまでをカバーするテキスト説明を用い、化合物の特性を予測します。さらに、このモデルは自己学習（self-supervised）能力があるため、大量の教師ありデータに依存することなく学習できます。
本研究の着想は、新薬の発見などで重要な役割を果たす分子の性質予測において、化学化合物の表現法としてSMILESが使われてきたものの、その限界が指摘されていたことから来ています。また、Transformerアーキテクチャが自然言語処理の分野で強力なパワーを持つことが判明して以来、その応用を化学分子の解析に向けて試みる動きが増えています。
本研究では、化学化合物のテキスト説明をベースにした大規模言語モデルGPT-MolBERTaを開発しました。326,000の化合物について大量のテキストデータをChatGPTと共に生成し、それを学習させました。結果として、GPT-MolBERTaはさまざまな分子特性ベンチマークで優れたパフォーマンスを示し、更に回帰課題では最新の結果と匹敵するパフォーマンスを発揮したことが明らかにされました。
GPT-MolBERTaの効果は、詳細なテキスト説明を用いて訓練した後、BERTとRoBERTaモデルをフィネチューニングに使用して性質の予測を行った結果で確認されました。実験結果から、GPT-MolBERTaが様々な分子特性ベンチマークで高いパフォーマンスを発揮しており、具体的には回帰タスクにおいて最先端のパフォーマンスに近づいていることがわかりました。

この記事が気に入ったらサポートをしてみませんか？