見出し画像

Comparison of the Strengths and Weaknesses of Machine Learning Algorithms and Feature Selection on KEGG Database Microbial Gene Pathway Annotation and Its Effects on Reconstructed Network Topology

https://www.liebertpub.com/doi/10.1089/cmb.2022.0370

1. 本研究の学術的背景,研究課題の核心をなす学術的「問い」は何ですか?
- 新しくシーケンスされた生物種の遺伝子アノテーションのためのツールの開発は、従来の前にアノテーションされた種との同型比較から進歩していません。さらに多様な腸内微生物種をシーケンスし組み立てるにつれて、遺伝子のアノテーションの品質は低下し続けています。本研究は、従来の技術に代わる高品質の選択肢である機械学習を使用して、異なる種の遺伝子アノテーション問題における一般的な古典的および非古典的機械学習アルゴリズムの相対的なパフォーマンスを調べました。

2. 本研究の目的及び学術的独自性と創造性は何ですか?
- 本研究の目的は、人間の腸内細菌種の遺伝子をKEGGデータベースから用いた遺伝子アノテーションにおいて、古典的な機械学習や非古典的機械学習などの機械学習アルゴリズムの相対的な性能を評価することです。従来の同型比較やオルソロガス遺伝子クラスタリングに比べて、モチーフベースの機械学習法は、新しい種へのアノテーションがより速く高い精度・再現率で行えることが明らかになり、従来のアルゴリズムと比較して高い予測精度を実現しました。

3. 本研究の着想に至った経緯や,関連する国内外の研究動向と本研究の位置づけは何ですか?
- シーケンス技術が進歩するにつれ、新しく発見された種に対しての遺伝子アノテーションの必要性が高まっており、従来の方法では限界があることから、本研究では一般的な機械学習アルゴリズムを用いた手法を提案します。

4. 本研究で何をどのように、どこまで明らかにした?
- 本研究では、異なる種の遺伝子アノテーション問題における一般的な古典的および非古典的機械学習アルゴリズムの相対的なパフォーマンスを評価し、従来の方法に比べて、モチーフベースの機械学習アルゴリズムの方が高い予測精度を示す結果が得られました。特に、Gradient boosted ensemble methods and neural networksは、旧来の比較方法よりも2倍多くのKEGGパスウェイの相互作用を発見することができました。

5. 本研究の有効性はどのように検証した?
- 本研究では、従来のアルゴリズムに比べて高い予測精度があることが示され、モチーフベースの機械学習アルゴリズムの使用が、従来では達成できなかった力学的に相互作用する腸内細菌との相互作用解析において、研究者に強力なツールを提供できると考えられます。

この記事が気に入ったらサポートをしてみませんか?