【最近読んだ論文の備忘録】AIが開く合成生物学の新たな扉:遺伝子設計と生物学の未来
はじめに
2024年10月23日のNature誌に興味深い論文が掲載されていたので、その紹介も兼ねてAIと生物学の未来について雑文を書いてみます。
紹介する論文は、
Gosai, S.J., Castro, R.I., Fuentes, N. et al. Machine-guided design of cell-type-targeting cis-regulatory elements. Nature 634, 1211–1220 (2024).
上の論文の紹介記事は、
Andreas R. Pfenning. AI-designed DNA sequences regulate cell-type-specific gene expression. Nature 634, 1059-1061 (2024)
基本的知識
生物の形質は、二重らせん構造をもつ二本鎖のDNAという物質を介して遺伝する。
DNAがmRNAに転写され、それがタンパク質に翻訳されることで機能する。
この二つが分子生物学の基盤です。
(RNAをゲノムとするウイルスや逆転写、RNAとして機能するものなどは、ここでは触れません)
DNA上の制御領域やスペーサー領域も含めて、すべての遺伝子セットを「ゲノム」と呼びます。ゲノムDNAは染色体にパッケージされ、ヒトには22本の常染色体と1本の性染色体X, Yが対として合計で46本、シロイヌナズナには5本の染色体が対として10本の染色体が存在します。ヒト全ゲノムという場合には22本の常染色体と性染色体X, Yの合計24本+ミトコンドリアゲノム、シロイヌナズナ全ゲノムという場合には、5本の染色体+ミトコンドリア+葉緑体ゲノムを指します。
遺伝子やアミノ酸配列、タンパク質の組み合わせは無限だが、実際には規則性、保存性がある
まだヒトゲノムもシロイヌナズナゲノムも決まっていなかった時代に、「ヒトやシロイヌナズナの遺伝子の数は2~3万個しかないらしい。ということは、一人が一遺伝子を研究するとして生物学者は3万人もいれば事足りてしまう」という話がありました。しかし、実際には遺伝子は単独で機能するわけではありません。多くのタンパク質が相互作用し複合体を形成して働き、また複数のシグナル経路が影響しあって機能しています。例えば、2万個の遺伝子がコードするタンパク質があり、相互作用は2つのタンパク質がペアを組む形で行われると仮定した場合だけでも、組み合わせは約2億通りです。3つ以上の複数のタンパク質の相互作用による組み合わせを考えると、その組み合わせは膨大です。
「膨大」…というと手に負えない感じがしますが、実際の相互作用はランダムではなく、同じ細胞内で同時に存在しなければ相互作用することはありません。発生初期に芽生えでしか存在しないタンパク質と、発生後期に花弁でしか存在しないタンパク質は相互作用し得ないし、根端でのみ発現するタンパク質と、雄蕊でのみ発現するタンパク質も、移動しない限り相互作用しません。シグナル伝達に関しても、タンパク質や代謝産物などの分子が同時に存在し、立体構造上で何らかの凹凸がマッチすることが必要と推察されます。
遺伝子配列に関してもランダムな配列が機能することは稀で規則性が存在します。転写の開始に必要な領域には、CAT-boxやTATA-boxなどの保存された遺伝子配列が存在します。mRNAからタンパク質への翻訳開始コドンはAUG(DNA上ではATG)であり、翻訳終止コドンは、UAA、UAG、UGA(DNA上ではTAA 、TAG、TGA)です。アミノ酸配列でもタンパク質中で機能するドメインは保存されており、転写因子であればホメオボックスやVP16転写活性化ドメイン、膜タンパク質では膜貫通ドメイン、葉緑体のタンパク質では移行シグナルペプチドなど、何らかの保存されたドメインが存在します。DNAの変異はランダムに生じて遺伝しますが、自然選択の結果として、遺伝子やアミノ酸の配列、タンパク質の相互作用にはなんらかの規則性があり、進化の過程を経て保存された配列になっています。
AIと生物学は親和性が高い
そこで、最近のAI技術の活用というのが生物学と親和性が高そうだというのが今回の話。
例えば、AIのChatGPTに「『はじめまして』に続く文章を書いてください」と尋ねると、
「私は[名前]です」というような答えが返ってきます。
「はじめまして」に続く単語は「私は」でした。「暗黒世界」とは返ってきません。これは既存の文章を学習した結果、統計的に確率の高そうな単語をAIが判断して回答している結果です。
「『今日は』に続けて文章を書いて」と尋ねると、「とても良い天気ですね」と返ってきました。
「晴れですね」を想像していたので少し違いましたが、統計的に出現頻度の高い単語をAIが抽出して回答しているのは容易に想像できます。実際の社会では「今日は」に続く単語で「暗黒世界」についてと書く人がいないとも限りませんが、確率的に低いのでAIはそう回答しません。
このように統計的な確率を用いて予測するAIは、生物学にも適用できそうです。例えば、AIの仕組みを活用して、タンパク質の機能や相互作用、シグナル伝達を見出すのに、単なる遺伝子の共発現やタンパク質の共局在パターンだけではなく、機械学習による予測で何かできないかな?と思っていたところで、件の論文が発表されました。
AIによって人工的に転写調節領域を設計
細胞内でゲノム上の遺伝子は、その組織や機能に応じて活性化または抑制化されています。その調節には特定の細胞や環境条件下で遺伝子発現を制御するDNA上の調節領域CRE(cis-regulatory element)が関与しています。この論文では、大規模並列レポーターアッセイ(MPRA)の技術を用いて、K562(赤血球前駆体)、HepG2(肝細胞)、SK-N-SH(神経芽腫)の3種類の細胞で、700,000以上の200 bp長CREの機能的活性を測定し、そのデータをAIに学習させました。その結果、AIが学習した配列と活性の相関から、CRE配列の活性と特異性を予測し、特定の細胞型で遺伝子発現を制御する合成シス調節領域CREを設計できるようになりました。実際に36,000の合成CRE候補が生成され、in vitroとin vivoで検証したところ。合成CREはヒトのゲノムから得られた天然のCREよりも高い細胞特異性を示し、モデル生物であるゼブラフィッシュやマウスのin vivo実験系においても、その特異性が確認されました。
この論文の興味深いところは、AIが特定の細胞型で遺伝子発現を制御するCRE(シス調節領域)を設計し、その特異性が従来の天然CREよりも高いことが確認されたという点です。この技術は精密な遺伝子治療に応用できる可能性があり、AIが自然界を超える新しい進化形態を創り出せることを示しています。生物進化の観点から見ると、自然界に存在する天然のCREは必ずしも最適化されているわけではなく、冗長性を持たせているのかもしれない、あるいは、最適なCREを導き出すには生物進化の時間は短すぎるのかもしれないなど、いろいろ想像力を掻き立てられます。
AIと生物学の未来
2024年のノーベル化学賞が「タンパク質構造予測」を受賞したことは記憶に新しいですが、同様のAI技術は遺伝子やDNA配列にも応用され、生物学のあらゆる分野で大きな影響を与える可能性があります。最近、AIの画像識別機能を使って植物の写真を取り込んで植物種名を表示するアプリがありますが、形態情報から種名がわかるのなら、DNAの塩基配列を予測して出力してくれる未来が訪れるかもしれません。すでに、数百の植物種のゲノムが決定されており、系統間の変異のデータも蓄積しているので、近い将来、植物の写真や想像図をもとに、「このような表現型を持つ植物種を作り出すのには、遺伝子Aにこのような改変を加えれば可能です」「このようなゲノム配列を持った植物を作れば、写真のような植物ができます」といった遺伝子改変を提案する技術も登場するかもしれません。AIの進化が生物学の未来をどう変えていくのか、今後の発展が楽しみです。
生物学は、古典的な分類学、形態学、生理学、遺伝学、生態学の世界から、生化学と分子生物学の登場により、個々の分子の機能や相互作用を明らかにする要素還元的な科学へと変貌を遂げました。今世紀に入って大量のゲノム情報が蓄積し網羅的に全体を見渡すシステム生物学の時代に突入して、要素還元的手法による仮説検証型の研究と網羅的なデータを活用したデータ駆動型の研究の融合によって、多くの知見が得られてきました。今後は、それら知見から遺伝子群を組み合わせて実際に生物を創って生命現象を再現して理解する合成生物学の時代に突入することは想像に難くありません。その際にAI技術をどのように活用できるのか、どんな未来が待っているのか、興味は絶えません。