[翻訳] BioNTech/Pfizer の新型コロナワクチンを〈リバースエンジニアリング〉する
本記事は Bert Hubert による [Reverse Engineering the source code of the BioNTech/Pfizer SARS-CoV-2 Vaccine] を許可を得て日本語訳したものです。
はじめに
ようこそ。この記事では、バイオンテック社・ファイザー社による新型コロナウイルスの mRNA ワクチンのソースコードを、1文字ずつ解読していきます。
本記事を読みやすく、正しいものとするために時間を割いていただいた多くの方々に感謝いたします。間違いはすべて私の責任に属しますが、 bert@hubertnet.nl または @PowerDNS_Bert までお知らせいただけると幸いです。
〔訳注:翻訳に関する指摘は柞刈湯葉 @yubais まで。〕
「ワクチンのソースコード」だって? ワクチンは腕に注射する液体だろ、そのソースコードって何だよ? と思われたかもしれません。いい質問ですね。ではまず、バイオンテック・ファイザーのワクチンの一部を見るところから始めましょう。このワクチンはコードネーム BNT162b2, 一般名は Tozinameran, また商品名は Comirnaty と呼ばれています。
BNT162b2 mRNA の最初の500文字。出典:World Health Organization
BNT162b2 mRNA ワクチンの心臓部は、このようなデジタルコードから始まります。全体で4284文字、やろうと思えば Twitter に連投できるサイズです。ワクチンの製造過程は、まずこの配列を DNA プリンター(そういうものがある)にアップロードして、データを DNA 分子に変換するところから始めます。
Codex DNA 社の DNA プリンター「BioXp 3200」
この機械から少量の DNA が出力され、そこから様々な化学的・生物学的過程を経て RNA が生成されます。1回分のワクチンは約30マイクログラムの RNA と、それをヒトの細胞に導入するための脂質膜からなります。
RNA は不安定な「作業記憶」です。DNA はコンピュータで言えばフラッシュストレージに相当します。信頼性が高く、冗長性があります。しかし、コンピュータはフラッシュストレージのデータを直接実行したりはしませんね。もっと扱いやすい、揮発性メモリにデータをコピーしてから実行します。生命でその役割を担っているのが RNA なのです。
コンピュータの RAM が、生命の RNA ということです。なかなかいい符合でしょう? RAM はフラッシュメモリと違って、愛情(電圧ともいう)を与えておかないと、すぐデータが消滅してしまいますね。RNA もこれと一緒で、バイオンテック・ファイザーのワクチンは、ディープフリーザー(-80℃の冷凍庫)に入れておかないと、あっというまに分解してしまいます。
RNA の1文字あたりの質量は、0.53・10⁻²¹ グラムです。つまり、30マイクログラムのワクチンには 6・10¹⁶ 文字の RNA が含まれます。これは14ペタバイトに相当します。4284文字の RNA を13兆回コピーしたものなので、実際の情報量はほんの1キロバイト程度です。ちなみに新型コロナウイルス自体のゲノムは7.5キロバイトです。
背景知識:DNA/RNA の基本
DNA はデジタルコードです。コンピュータは0と1でできているのに対し、生命のコードは A, C, G, U/T の4種類の文字からなります。これらの文字は「ヌクレオチド」「ヌクレオシド」「塩基」などと呼びます。
コンピュータの0と1は、電荷、電流、磁気、電圧、電波の変調や反射性などさまざまな方法で表現されますが、いずれにせよ抽象的概念ではなく、ちゃんと物理的実体のあるものです。同様に、生命の A, C, G, U/T も、分子の配列という形で DNA および RNA に収容されています。
また、コンピュータでは8ビットを「バイト」と呼び、このバイトが情報処理の基本単位になりますが、生命では3個のヌクレオチドを「コドン」と呼び、これが処理の単位になります。DNA は1文字あたり2ビットなので、2⁶=64 通りのコドンが存在します。
ほら、完全にデジタルでしょう。嘘だと思ったらワクチンについての WHO の文章を見てみなさい。
さらに詳しいことはこの記事 What Is Life? を読んでください(英語)。動画がよければ2時間のものがあります。
で、ワクチンのコードは何をしてるの?
ワクチンの基本的な考え方は、発病させずに、免疫系に病原体との戦い方を教えるというものです。歴史的には弱毒化・無毒化された病原体を使い、そこに免疫効果を高めるアジュバントを追加します。ただ、こうしたやり方は相当の時間、そして幸運を必要とします。
〔訳注:adjuvant はしいて訳せば「免疫強化補助剤」だが、日本のワクチン学では単にアジュバントと呼ぶ。注入した病原体の分解を遅らせ、抗原提示を長期化するなどの効果がある。『ワクチン学』(山内一也、三瀬勝利)より〕
今回用いられた mRNA ワクチンという技術は、「免疫系に学習させる」という点では従来のワクチンと同じですが、レーザーのように精密、かつ強力な方法です。
実際にどのように働くかを見ていきましょう。このワクチンは新型コロナウイルスの一部分である、スパイクタンパク質の遺伝子が記述された RNA です。
この RNA が注入されると、私たちの細胞はその遺伝情報を律儀に読んで、免疫獲得に十分な量のスパイクを産生します。これに加えて細胞の乗っ取りに対する反応によって、私たちはスパイクを攻撃するための免疫を獲得するというわけです。
〔訳注:スパイクはウイルス本体が細胞にとりつくための針のような部位で、ウイルス本体の情報は含まれないため、これだけ体内で産生させてもコロナが発症することはない。〕
このようなわけで、ワクチンには95%もの効果が生まれているのです。
ソースコードを見てみよう
では実際にワクチンの配列を見てみましょう。WHO の文章には便利な図が載っています。
この図はいわゆる「もくじ」です。まずは最初の「cap」の部分から見てみましょう。文字通り、小さな帽子の絵で描かれているものです。
ほとんどのコンピュータがオペコードの列だけ書かれたファイルを実行できないように、生命のOSもヘッダーが必要です。ここにはリンカや呼出規約のような情報が含まれています。〔エンジニア用語がわからない人向けの訳注:要するに荷札。〕
このワクチンのコードには、2文字のヘッダーが付与されています。
GA
これは DOS および Windows の実行ファイルが MZ から始まることや、UNIX スクリプトが #! から始まるのに似ていますね。コンピュータにおいても生命においても、これらの2文字が「実行」されることはありませんが、入れないといけません。
mRNA の cap にはいくつかの機能があります。たとえば、細胞の核内で合成された mRNA を、核外に輸送するための印になります。ワクチンはそもそも外部から注射するのでこの機能は不要ですが、ないと「不正なRNA」と判定されて分解されてしまうので付けておきます。
またこの2文字は、化学的にRNAの他の部分と少しだけ異なるので、これが帯域外信号として機能します。
5'非翻訳領域
ここでちょっと業界用語を導入します。RNA には「向き」が存在し、読むときは5'末端から始まり、3'末端で終ります。まぎらわしい名前ですが。
生命というのは基本的にタンパク質でできています(あと、タンパク質が産生する物質)。そして、タンパク質を生成する情報は RNA に記述されているのですが、この情報からタンパク質が生成することを翻訳と言います。
しかし、RNA のすべての情報が翻訳されるわけではなく、5'末端には非翻訳領域 (untranslated region, UTR) というものが存在します。このワクチンでは、以下のような配列になっています。
GAAΨAAACΨAGΨAΨΨCΨΨCΨGGΨCCCCACAGACΨCAGAGAGAACCCGCCACC
おっと、ここで妙なことに気づきましたね。通常の RNA は A, C, G, U からできているはずです。U は DNA でいう T に相当します。では、この Ψ は何なのでしょう?
実は、これが mRNA ワクチンの極めて巧妙な点です。私たちの細胞にはもともと強力な対ウイルスシステムが備わっているため、外来の遺伝子(mRNA ワクチンも含まれる)を見つけると、それが何かをする前に破壊してしまうのです。
しかし、長年にわたる実験の末に、研究者たちはあることを発見しました。RNA の U にちょっとした修飾をしてやると、免疫系の目を逃れることができるようになるのです。マジです。
というわけで、バイオンテック・ファイザーのワクチンでは、すべての U が 1-methyl-3’-pseudouridylyl と呼ばれる物質(Ψ と表記)に置換されています。この Ψ の優れた点は、免疫反応を避けられるにもかかわらず、遺伝情報としては通常の U と同じく扱われるということです。
コンピュータのセキュリティでも、同様のトリックはよく使われます。わずかに壊れたメッセージを送信し、ファイアウォールや安全対策を混乱させれば、サーバーがこれを受け入れてしまい、ハックされることがあるのです。〔訳注:マジかよ。〕
私たちはこのような基礎研究から大きな利益を得ているのです。この Ψ 技術の発見者は、資金調達で大きな苦労をしましたが、彼らの労苦はまったく賞賛されるべきものです。私は彼らがノーベル賞を受賞すると確信しています。
ここで多くの人は「ウイルスも Ψ を使って私たちの免疫を騙してくる可能性があるのでは?」と思ったことでしょう。ですが、その可能性は極めて低いです。というのは、生物はこの Ψ = 1-methyl-3’-pseudouridylyl を作る機能を持っていないからです。ウイルスは生物の機能を間借りして増殖しているため、生物が作れない素材を使うことはできません。なお、mRNA ワクチンは人体ですぐに分解されるため、残留した Ψ をとりこんだ RNA が作られることもありません。No, Really, mRNA Vaccines Are Not Going To Affect Your DNA もあわせて読むといいでしょう。
では、話を5'非翻訳領域に戻しましょう。自然界のほとんどのものと同様に、これも明瞭な単一の機能があるわけではありません。
RNA を翻訳してタンパク質にする機能を担っているのが、リボソームと呼ばれる器官です。これは、いわばタンパク質の3Dプリンターです。これは RNA の情報に従ってアミノ酸を連結させ、タンパク質を出力します。
出典:Wikipedia user Bensaccount
動画が動かない方はリンク先を参照。
この動画ではリボソームの働きが描写されています。下にあるこの黒い線が RNA で、緑色の塊から上の方へ伸びている黒い線が、形成されていくタンパク質です。飛んで入っては外に出ていく青いものが RNA に結合するアダプターで、タンパク質の原料となるアミノ酸がここについています。
リボソームが機能するためには、まず RNA に物理的に「座る」必要があります。一度座ってしまえば、あとはどんどん RNA の情報を取り込んで、タンパク質を出力することができます。5'非翻訳領域はその座るための開始点として機能しています。
さらに、5'非翻訳領域には「いつ、どのくらい翻訳するのか?」といったメタ情報も含まれています。ワクチンの場合、アルファグロビンの遺伝子から取り出した「今すぐ、大量に」というメタ情報をもとにしています。WHO の文章によると、研究者はこの非翻訳領域をさらに最適化したので、アルファグロビン自体のものよりも優れているそうです。
シグナルペプチド
ワクチンの目的は、スパイクタンパク質を産生させることです。ここまではずっとメタ情報や呼出規約の話でしたが、ようやくタンパク質本体の話に入ります。
が、ここでもうちょっとだけメタ情報の話をします。リボソームがタンパク質を作った際(上の動画参照)、そのタンパク質には「行き先」が必要です。この行き先を指定するのが「S糖タンパク質シグナルペプチド」です。
これはつまり、タンパク質の先端についている配送先表記のようなものです。この場合、輸送先は小胞体(endoplasmic reticulum)経由で細胞外、と指定されています。スタートレック用語だってこんなファンシーではないでしょう!
〔エンジニア向けの訳注:5'非翻訳領域が TCP ヘッダー、シグナルペプチドが HTTP ヘッダーだと思えばわかりやすい。世界はヘッダーに満ちている。〕
このシグナルペプチドはそれほど長くありませんが、ここでは元のウイルス (Virus) の配列と、ワクチン (Vaccine) での配列を比べてみましょう。見やすくするために Ψ は U と表記しておきます。
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
Virus: AUG UUU GUU UUU CUU GUU UUA UUG CCA CUA GUC UCU AGU CAG UGU GUU
Vaccine: AUG UUC GUG UUC CUG GUG CUG CUG CCU CUG GUG UCC AGC CAG UGU GUG
! ! ! ! ! ! ! ! ! ! ! ! ! !
RNA は3文字ごとにコドンを形成するので、ここでは3文字ごとに区切りました。ウイルスとワクチンの RNA は微妙に違っていますが(! マークで表記)、実はここから翻訳されるシグナルペプチドは全く同一のものです。
「えっ、RNA を翻訳するとタンパク質になるんでしょ? どうして違った RNA から同じタンパク質が出てくるの?」と思ったでしょうか。ここでコドンは 4³ = 64 通りあることを思い出してください。タンパク質を構成するアミノ酸は20種類しかないので、違うコドンが同じアミノ酸を指定することがあるのです。
RNA コドン表(Wikipedia より)
生命が使う RNA コドンとアミノ酸の対応表(コドン表)を見てみましょう。たとえば UUU と UUC はどちらもフェニルアラニンを指定していますね。このような関係を同義コドンといいます。
コドン表をよく見ると、コドンの3文字目を変えても、指定されるアミノ酸はあまり変わらないことがわかります。上に示したウイルスとワクチンのシグナルペプチドも、すべて同義コドンどうしの改変なので、指定されるアミノ酸は変わらないのです。
でも、同じアミノ酸を指定するのなら、どうしてわざわざコドンを変えるのでしょう? 先述のとおり私たちの免疫系は外来の RNA をなるべく受け入れない性質があります。このために U を Ψ に変換したのでしたね。ただ、G や C を多く含む RNA の方がより効率的にタンパク質に変換されるので、翻訳される部分の RNA はそのように置換するのです。よく見てみると、改変はひとつを除いてすべて G や C への変更になっていますね。
〔誤訳修正:「U=Ψ を少なくした方が免疫を回避できる」となってましたが逆ですね。大変失礼しました。2021/01/01 15:45〕
ひとつだけ C や G ではない変更 (CCA → CCU) が含まれているのが気になっています。どなたか理由をご存知の方がいれば、ぜひ教えてください。ちなみに、ヒトゲノムにおける同義コドンの分布に偏りがあることは知っていますが、これは翻訳速度にあまり影響しないと思われます。
〔生物学系向け訳注:同義コドン置換による翻訳速度がタンパク質の折りたたみに影響して違う立体構造になるという論文があるので、あえて遅いコドンを使う可能性も考えられるけど、シグナルペプチドなので折りたたみはあんまり関係ない気がする。〕
スパイクタンパク質本体
次の3777文字が今回の目的であるスパイクタンパク質の遺伝子ですが、ここでもウイルス本来の遺伝子から「コドン最適化」を施され、C と G の量が増えています。ここで一か所に注目してみましょう。
* *
L D K V E A E V Q I D R L I T G
Virus: CUU GAC AAA GUU GAG GCU GAA GUG CAA AUU GAU AGG UUG AUC ACA GGC
Vaccine: CUG GAC CCU CCU GAG GCC GAG GUG CAG AUC GAC AGA CUG AUC ACA GGC
L D P P E A E V Q I D R L I T G
! !!! !! ! ! ! ! ! ! !
RNA 配列の上下についている L D K V E A E… は、コドンに対応しているアミノ酸です。1文字略号で表記しています。
なんと、ここには同義コドンでない置換が含まれています(* のついた部分)。ウイルスで K = リシン および V = バリンだったアミノ酸が、ワクチンでは2個の P = プロリンに置き換わっているのです。
このたった2つの置換が、ワクチンの効果を大幅に高めることが判明しています。
いったいなぜ? これを理解するためには、コロナウイルスの実際の姿を見て、スパイクの様子を確認してみましょう。
SARS virus particles (Wikipedia)
球状のウイルス本体(ヌクレオカプシド・タンパク質)の周囲にまとわりついているのがスパイクです。これを見てわかるように、スパイクは本体という「足場」に刺さった形で存在しています。
しかし、ワクチンによってスパイクの部分だけを産生させると、「足場」のないスパイクはすぐに構造が崩れてしまうのです。これでは細胞は崩れたスパイクに対する免疫を獲得してしまい、本物のウイルスが来たときに攻撃することができません。
ではどうすればいいか? 実は、2017年にコロナウイルスの一種である SARS と MERS について、スパイクの2ヶ所をプロリン置換することで、「足場」がなくてもちゃんと本来の形を取ることが報告されていました。これはプロリンが非常に固いアミノ酸で、スパイクを支える添え木の役割を果たすからです。
素晴らしい成果です。これを発見した人たちは、きっと絶え間なくハイタッチしながら歩き回っていることでしょう!
追記:発見したグループのひとつ McLellan lab と連絡がとれました。「パンデミックのせいでハイタッチは控え目にしているが、ワクチンに貢献できたことを大変うれしく思う」とのことです。また彼らは他の多くのグループ、ワーカー、ボランティアの重要性を強調していました。
タンパク質の終わりと、その先
ソースコードの残りの部分を見ていきましょう。スパイク・タンパク質の最後に、いくつか小さな修正があります。
V L K G V K L H Y T s
Virus: GUG CUC AAA GGA GUC AAA UUA CAU UAC ACA UAA
Vaccine: GUG CUG AAG GGC GUG AAA CUG CAC UAC ACA UGA UGA
V L K G V K L H Y T s s
! ! ! ! ! ! ! !
タンパク質の最後には終止コドンがあり、小文字の s で示されています。これは「タンパク質はここで終わり」という意味です。元のウイルスは UAA 終止コドン1個ですが、ワクチンでは UGA 終止コドンを2個入れています。単なるオマケかもしれません。〔訳注:そんな。〕
3'非翻訳領域
5'末端にリボソームにつかまる開始点としての非翻訳領域があったように、3'側にも同様の構造が見られます。3'非翻訳領域について語るべきことは多いですが、ここは Wikipedia からの引用で済ませましょう。「3'非翻訳領域は、局在化、安定性、輸送、および翻訳効率に影響し、遺伝子発現に重大な役割を果たしている。(……)現在の理解にもかかわらず、3'非翻訳領域については比較的、不明な点が多い。」
私たちにわかることは、特定の3'非翻訳領域がタンパク質の発現を促進するということです。WHO の文章によると、バイオンテック・ファイザーのワクチンの3'非翻訳領域は、
「split (AES) mRNA のアミノ末端エンハンサーおよびミトコンドリアの12SリボソームRNAから選んだもので、RNA を安定化させタンパク質の総発現量を高めることができる」
とあります。これはこう言うべきでしょうね。「アッハイ」
全ての終わりの AAAAAAAAAAAAAAAAAAAAAA
mRNA の最終部分は「ポリアデニル化」されています。これは、大量の AAAAAAAAAAAAAAAAAAA で終わる、という意味です。〔訳注:A, C, G, U/T のひとつである A はアデニンといい、それが大量にあるのでポリアデニン。〕
mRNA は何度も再利用されますが、そのたびに末端の A が少しずつ失われていきます。つまり、ポリアデニンは RNA の本体を分解から保護している、と言えるでしょう。
mRNA ワクチンとして最適な A の数は数多く研究されていますが、公開されている文献によると、120個ほどのようです。
一方、BNT162b2 ワクチンの最後はこのようになっています。
****** ****
UAGCAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAGCAUAU GACUAAAAAA AAAAAAAAAA
AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAAAAAAAA AAAA
すなわち、30個の A のあとに10塩基の連結部分(GCAUAUGACU)が入り、そのあと70個の A が続きます。これは、タンパク質の発現量を高めるために独自の最適化を行ったのではないかと思われます。
まとめ
これにて BNT162b2 ワクチン mRNA の全構造を読み終わりました。つまり、以下のような構成です。
・RNA を通常の mRNA として認識させるための cap
・最適化された5'非翻訳領域
・スパイクタンパク質を適切な位置に輸送するための、コドン最適化されたシグナルペプチド(アミノ酸配列は元ウイルスと完全に同一)
・2ヶ所をプロリンに置換した、コドン最適化されたスパイクタンパク質
・最適化された3'非翻訳領域
・やや謎めいた末端ポリアデニンの連結部分
コドン最適化は mRNA に多くの G と C を追加します。また、U の代わりに Ψ を使うことで、私たちの免疫システムを回避することができます。
さらに学ぶために
私が2017年に行った DNA の2時間のプレゼンテーションはこちらで見られます。本稿と同様に、コンピュータ関係者を主な対象としています。
また、私は2001年から「プログラマーのためのDNA」というページを管理しています。
最後に、私のブログでの DNA、新型コロナウイルス、また COVID 関係の記事をこちらにリストアップしておきます。
〔訳注:2021/01/04 11:21 原文の修正に合わせて翻訳を更新。〕
翻訳者の所感 (Translator's comment)
たいへん読み応えのある記事だった。そして元記事の「Translation」に20言語くらい並んでるのに日本語がなかったので、なけなしの愛国心を振り絞って訳してみた。読みやすさの観点から段落構成をちょっと変え、「多分ジョークなんだろうけど意味がよくわからん」と思ったところは申し訳ないが省略した。翻訳で学術的に誤った点がある場合は連絡していただけると助かります。
mRNA ワクチンはなにもコロナ専用ではなく、今後現れるであろう感染症に幅広く応用が効くと予想される。また U を Ψ に置換するような技術は、おそらくほとんどの mRNA 医薬品(ワクチンに限らない)で応用可能だろう。一方、スパイク構造維持のためのプロリン置換のような技術は、個々のウイルスを見てみないとわからない。こうした点が将来現れる感染症に迅速に対応するうえでの課題になるだろう。
記事中にもあるが BioNTech/Pfizer のワクチンの難点は、保存に-80℃を要することだ。電力供給の不安定な途上国ではこれは厄介なはずだ。同社は専用の容器を開発するなど、輸送にかなり苦心をしているようだ。なお、同様の mRNA ワクチンを開発しているモデルナ社は-20℃で保存できるらしい。これも RNA 配列の最適化の違いだろうか。
新型コロナウイルスを収束させても、人類はこれから新たに現れるであろう感染症と戦っていかねばならないので、こういった技術の蓄積によるワクチン開発の高速化が重要となるだろう。人類各位、頑張ってください。
文章で生計を立てる身ですのでサポートをいただけるとたいへん嬉しいです。メッセージが思いつかない方は好きな食べ物を書いてください。