見出し画像

Prediction of plant secondary metabolic pathways using deep transfer learning

  1. 本研究の学術的背景は、「植物の二次代謝経路」を解明することであり、これは植物の成長や発育中の生物学的なプロセスで重要な役割を果たします。しかし、現在のデータベースには十分な情報がないため、植物の生合成と分解経路の理解は難しいという課題があります。そのため、本研究の学術的な「問い」は、「Graph Transformerと畳み込みニューラルネットワークを組み合わせた深層学習の枠組みを用いた転移学習法によって植物の代謝経路を予測できるか」です。

  2. 本研究の目的は、「GTC」というモデルを開発し、KEGGデータセットに先行学習を行い、その後植物由来のデータセットで微調整を行うことで、植物の二次代謝経路を予測することです。独自性と創造性は、構造的特徴を抽出するためのGNNベースのブロックと、SMILES文字列のテキスト情報を学習するためのCNNベースのブロックを組み合わせることで、分子のより包括的な表現を提供する点にあります。

  3. 近年、機械学習アルゴリズムや深層学習モデルが代謝経路の予測に活用されるようになり、生物学的な実験による経路探索が時間とリソースを大量に消費する問題を解決してきました。しかし、これらのモデルにはさらなる改良と応用範囲の拡大が求められていました。そこで本研究では、グラフニューラルネットワーク(GNN)と畳み込みニューラルネットワーク(CNN)の開発によりこれを進展させ、データが十分でない問題を解決するために転移学習を活用しました。

  4. 「GTC」というモデルを開発し、KEGGデータセットで学習させた後、植物由来のデータセットで微調整を行いました。その結果、平均精度98.30%で植物の二次代謝経路を予測できることを確認しました。また、アルカロイドは100%、シキミ酸とフェニルプロパノイドは98.42%という高い精度で自然製品を分類できることを示しました。

  5. 精度、適合率、再現率、F1スコアという4つの指標を用いてモデルの性能を評価しました。GTCと他の6つのモデルを比較した結果、GTCがKEGGデータセットにおいて最も優れていたことが確認されました。また、GTCの各コンポーネントの不可欠性を確認するために削除研究を行った結果、GTCのすべての部分が不可欠であることが確認されました。

この記事が気に入ったらサポートをしてみませんか?