見出し画像

Large language models generate functional protein sequences across diverse families

  1. 本研究の学術的背景,研究課題の核心をなす学術的「問い」は?

  • 深層学習言語モデルは、タンパク質設計やエンジニアリングを含む様々なバイオテクノロジーの応用において、有望な成果を示している。本研究の学術的背景や核心となる問いは、高度な制御性を持つタンパク質配列を生成する、タンパク質のための言語モデル「ProGen」を開発できるかどうかという点である。

  1. 本研究の目的及び学術的独自性と創造性は?

  • 本研究の目的は、異なるタンパク質ファミリーにわたって、可予測な機能を持つタンパク質配列を生成することができる、タンパク質のための言語モデル「ProGen」を開発することである。学術的独自性と創造性は、ProGenが、タンパク質の設計や技術者による高度な制御を可能にする点にある。

  1. 本研究の着想に至った経緯や,関連する国内外の研究動向と本研究の位置づけは?

  • ProGenの開発に至るまでの着想は、自然言語処理における言語モデルとその制御機能に着目し、タンパク質に適用することで高度な制御性を持ったタンパク質の設計が可能になることが期待されたためである。関連する国内外の研究動向は、言語モデルをタンパク質設計に応用可能な手法として活用しようという取り組みが進んでいる点にある。

  1. 本研究で何をどのように,どこまで明らかにした?

  • 本研究では、タンパク質のための制御性の高い言語モデル「ProGen」を開発した。ProGenは、約1,9000のタンパク質ファミリーから約2.8億のタンパク質配列を学習し、タンパク質プロパティを制御するタグを使用してタンパク質の生成を制御することができた。また、ProGenをチューニングして5つの異なるリソソームファミリーに対応し、31.4%といった低い自然蛋白質の配列同一性でも自然のリソソームと同様の触媒効率を持つ人工タンパク質を生成することができた。ProGenが、これまでに探索されたことのない多様なタンパク質ファミリーに適用可能であることも実証された。

  1. 本研究の有効性はどのように検証した?

  • 本研究における有効性の検証は、2つの方法を用いて行われた。1つ目は、ProGenが生成したタンパク質配列にアルファフォールド予測を適用し、試験した異なるタンパク質ファミリーで高品質のタンパク質構造を生成することができることを確認することである。2つ目は、抗菌活性のある人工リソソームを生成し、その活性を実証することである。結果として、ProGenが高度に制御されたタンパク質配列を生成することができ、それらが自然のタンパク質と類似した活性を持つことを示すものであった。

この記事が気に入ったらサポートをしてみませんか?