CodonBERT: Large Language Models for mRNA design and optimization
https://www.biorxiv.org/content/10.1101/2023.09.09.556981v1
この研究の学術的背景と「問い」の核心は、mRNAベースのワクチンと治療法が様々な疾患に対して広く使用される中で、それらの設計時に重要な課題である「mRNAの配列の最適化」についてです。
本研究の目的は、適切な配列を選択するためのツールであるCodonBERT(大規模言語モデル)を開発することです。CodonBERTの独自性と創造性は、先行のモデルと違ってコドン(遺伝情報をコード化するための最小単位)を入力として使い、これによってより良い表現を学ぶことが可能になる点にあります。
本研究の着想は、mRNAベースのワクチンや治療法の設計における重要な課題、つまり、同じタンパク質やペプチドをエンコードするためのmRNAは膨大な数に上るという現状から生まれたと思われます。また、この研究は大規模言語モデルをビオロジーの分野に応用するという新たな試みとして位置づけられます。
本研究では、CodonBERTを開発し、それを用いて、mRNAの各種の特性を予測するタスクを可能にしました。また、それは10万以上の多様な生物からのmRNA配列を用いて訓練されており、重要な生物学的概念を捉えています。更に、CodonBERTは新しいインフルエンザワクチンのデータセットを含む、既存のmRNA予測方法よりも優れたパフォーマンスを示しています。
本研究の有効性は、多くの異なる生物から得られた大量のmRNA配列を用いてCodonBERTを訓練し、その結果を先行のモデルと比較することで検証しました。また、新しいインフルエンザのワクチンデータセットを用いて、従来の予測方法よりもCodonBERTが優れたパフォーマンスを示すことで有効性が確認されました。
この記事が気に入ったらサポートをしてみませんか?