見出し画像

混入ベクターDNA配列の見つけ方について: McKernan博士の生データ再解析

引き続き「RNAコロナワクチンにDNAが混入している?」という疑惑についての記事になります。McKernan博士の当初の目的はファイザーとモデルナのワクチンのRNAの品質チェックでした。その過程で博士はワクチンのRNAの網羅的塩基配列解析をしたのです。

さて、今回私は博士の生データを自身で再解析し、過程を一部再現してみました。

ディープシークエンシングはNGS (next generation sequencing、次世代シークエンシング) とも呼ばれます。この技術はシークエンス反応の並列化により、1回の装置稼働で数百メガバイトから数ギガバイトの塩基配列データを生成します。ディープシークエンシングの技術は生命科学におけるゲノム配列決定のアプローチを根本的に変化させました。

博士のファイザーコロナワクチンの塩基配列データを例にして、実際の塩基配列データを見てみましょう。用いたデータは以下のものです。

Sequencing of bivalent Moderna and Pfizer mRNA vaccines reveals nanogram to microgram quantities of expression vector dsDNA per dose

Pfizer Bivalent Vial 1 Forward reads
Pfizer Bivalent Vial 1 Reverse reads

このデータはMcKernan博士がファイザーコロナワクチンRNAを逆転写してDNAに変換し、それをイルミナシークエンサーで配列決定したものです。イルミナ社のシークエンサーについては以前、逆転写についての記事でも触れた事があります。こうした実験はRNA-seqと呼ばれます。ディープシークエンシングの技術ではDNAを断片化させ、それをPCR増幅し、同時並行的に塩基配列を決定します。ペアエンドシークエンシングの技術ではそれぞれのDNA断片の両端から塩基配列を決定します。一度に読める配列が短くとも、DNA断片を両端の塩基配列を読む事により、比較的長いDNA断片を解析する事が可能となります。

ここから先は私が実際に再解析したデータになります。解析に用いたアプリはCLC Genomics Workbench (Ver. 23) です。

以下がディープシークエンサーの配列の例です。配列はMcKernan博士のファイザーワクチンのものです。それぞれの配列はリード (read) と呼ばれます。下の図には5つのリードが表示されています。

それぞれのリードのデータは、リード名、塩基配列、クオリティスコアからなります。クオリティスコアとはそれぞれの塩基の精度を意味します。こうした大量のリードの配列データは、元々はテキストファイルにアルファベットと数字が並んだものとして出力されたものです。ゲノム解析のアプリがそれらを視覚化しています。

ディープシークエンシングでは大量のリードのデータを扱う事になります。ファイザーワクチンのバイアル1のデータは3856万1557個のリードです。塩基数では46億2274万1152塩基になります。例えば、厚生労働省が行ったデータの捏造の手口は単純なグラフの数字の操作でした。また、一般論として論文の画像ファイルの加工によるデータ捏造などが話題になる事がありますが、これらに対し、データの巨大さと複雑さからディープシークエンシングのデータを捏造する事は困難です。

説明の都合でMcKernan博士の解析したベクター配列(Pbiv1_WM_k141_107)を参照配列 (reference) として用います。リードをベクター配列と比較します。そして、ほぼ同一の配列が見つかった場合、ベクターのその位置に重ね合わせていきます。これがマッピングと呼ばれる作業です。

今回は1つの配列にマップしますが、1つの種のゲノム全体にマップしたり、トランスクリプトーム (全mRNAの合計) にマップする事も可能です。

左に大きな山ができました。ここはスパイクタンパクの遺伝子の位置です。良く見ると右側の部分にも低い何かがうっすら存在します。上の図の高さ (リード数) は212万7093です。高さを調節して、拡大してみましょう。高さを1万に下げてみます。

やはり何かがありそうです。上の四角で囲まれた部分をさらに拡大してみます。

横線が見えるようになってきました。これらがそれぞれのリードであり、対応する参照配列に対してマップされたものです。マップとは参照配列と同一、あるいは類似性の高い配列を参照配列に整列する事です。上の四角で囲まれた部分をさらに拡大してみます。

それぞれのリードの塩基配列が見えるようになってきました。ちなみにこの場所はSV40プロモーターの位置です。2回繰り返している強化型である事が分かります。

ディープシークエンシングは大量の塩基配列の統計解析でもあります。例えば、DNA結合タンパクがゲノムのどの位置に結合しているのかといった情報も定量化できます。これがChIP-sequencingの技術です。RNA seqは数万個の遺伝子の発現レベルを同時に比較できます。それどころかスプライシングのパターンまでも定量化できるのです。ゲノムレベルの大規模データを1塩基レベルの定量化実験にまで応用できるのもディープシークエンシングの長所です。

DNA断片の長さの解析です。シークエンシングされたDNA断片の長さの分布をグラフにしました。断片長のピークは100 bp辺りで、長いものは500 bp程に及びます。あまり長いとPCR増幅が効率良くかかりません。もともと一本鎖DNAが多かったり、DNAの断片化が進んでいる場合は、シークエンシングのサンプル調整のための断片化によりさらにDNAの分解が進みます。そうしたものは解析対象から外れてしまいます。ここで分かるのは、プラスミドバックボーンに対応するDNA断片も綺麗なものであり、ディープシークエンシングの解析に耐えるような品質と長さを持っていたという事です。

全リードの合計が3873万6826。これらは46億2274万1152塩基の情報を含みます。そのうち参照配列にマッピングされた配列は3856万1557。全体の99.55%がマップされました。マップされなかったリードも17万5269あります。マップされなかった理由は様々です。基本的にシークエンスエラーを多く含む低品質の配列は参照配列に対応できず、マップされません。マップされない配列は通常は廃棄されます。

仮に、混入したプラスミドベクターの配列が分かっていなかった場合、McKernan博士の生データからその配列を導くにはどうすれば良いでしょうか?

まずはRNA seqのリードをファイザーコロナワクチンの配列と比較します。つまり、配列を参照配列にしてマッピングするという事です。その時にマップされない配列が大量に出てきます。ではこれは何の配列なのか?

次にリード全体の中からマップされない配列だけを抽出し、それら自身を比較してみます。de novo assemblyの技術は参照配列無しにリード同士を整列して、元の配列を復元する技術です。そしてその復元された配列をDNAデータバンクで検索します。するとプラスミドベクターバックボーンの配列が現れます。

そして全リードをもう一度de novo assemblyにより、参照配列無しに整列してみます。するとプラスミドベクターバックボーンとスパイクタンパク遺伝子を持つ全長プラスミドの配列が手に入ります。

一般的な配列解析では、マップされない配列は興味の対象外として廃棄されておしまいです。通常は見過ごしがちな部分を無視せずに深く観察すると、McKernan博士のような重要な発見につながる事もあるのです。コロナワクチンRNAから逆転写されたDNAを解析しただけのはずが、もしかするとワクチン中には元からプラスミドDNAが混入していたのではないか?と博士は気が付いたのです。今回、自身で行った解析を通し、博士の洞察力に私は改めて感銘を受けました。


このDNA混入疑惑の件につきましては、引き続き追加の記事を予定しています。




#コロナワクチン

#ワクチン

#コロナ


*記事は個人の見解であり、所属組織を代表するものではありません。


この記事が気に入ったらサポートをしてみませんか?