見出し画像

Towards Foundational Models for Molecular Learning on Large-Scale Multi-Task Datasets

  1. 本研究で問われる学術的な問いは、「手作業で作成されて限られた規模のデータセットがほとんどである分子マシン学習の分野で、基盤モデルの開発を促進するための新たなデータセットとコードベースがどのように作成できるか」です。

  2. 本研究の目的は、分子学習の監督ラベルの規模と多様性の両方の境界を押し広げる新しいデータセットを提供し、それらのデータセットに基づいた基盤モデルの開発を支援する新たなマシン学習ライブラリを作成することです。これにより、今までにないスケールと多様性のデータセットを利用した興味深い分子マシン学習の研究が可能となり、学術的な独自性と創造性があります。

  3. 本研究は、分子マシン学習の分野で、基盤モデルの開発が限られたデータセットの存在に阻害されているという状況を背景に、それを解消するための新たなアプローチとして着想されたものです。国内外の研究動向としては、自己教師付き学習や基盤モデルの成功が報告され、該当の分野におけるデータ効率の大幅な向上が確認されていますが、分子マシン学習の分野ではまだ探求の余地が多いため、本研究はその新たな取り組みと位置づけられます。

  4. 本研究では、ほぼ1億の分子と3000以上の疎な定義タスクをカバーし、合計で130億以上の個別のラベルを含む7つの新たなデータセットを提供しました。これらのデータセットは、分子学習の監督ラベルの規模と多様性の境界を押し広げます。さらに、これらのデータセットに基づいた基盤モデルの開発を支援するための新たなマシン学習ライブラリ、「Graphium」を提供しました。最後に、これらのデータセットでの多タスクおよび多レベルトレーニングの出発点となる一連の基準結果を提供しました。

  5. 本研究の有効性は、提供したデータセットとマシン学習ライブラリを使用して行った一連の実験により検証しました。具体的には、提供したデータセットを用いて、単一データセットと複数データセットの両方のシナリオでモデルを訓練し、その結果を基準としました。これにより、提供したデータセットとライブラリの有効性を示しています。

この記事が気に入ったらサポートをしてみませんか?