統合DNAウイルスによる単細胞真核生物ゲノムへの大規模侵入


統合DNAウイルスによる単細胞真核生物ゲノムへの大規模侵入

https://www.pnas.org/doi/full/10.1073/pnas.2300465120

Christopher Bellas https://orcid.org/0000-0001-5084-7830 christopher.bellas@uibk.ac.at, Thomas Hackl https://orcid.org/0000-0002-0022-320X, Marie-Sophie Plakolb, +2, and Ruben Sommaruga https://orcid.org/0000-0002-1055-2461Authors 情報および所属。
Edited by Eugene Koonin, NIH, Bethesda, MD; received January 12, 2023; accepted March 20, 2023
2023年4月10日受理
120 (16) e2300465120
https://doi.org/10.1073/pnas.2300465120

関連コンテンツを見る
9,745
1
指標
総閲覧数
9,745
過去12ヶ月
9,745
総引用回数
1
最近12カ月
1

第120巻|第16号
意義
要旨
結果
考察
材料と方法
データ、材料、ソフトウェアの入手
謝辞
サポート情報
参考文献
情報と著者
指標と引用
オプションの表示
参考文献
メディア
シェア
意義
原生生物は、動物でも植物でも菌類でもない、主に単細胞の真核生物である。原生生物は真核生物の生命樹の大部分を占め、ほぼすべての生態系の主要な構成要素であり、炭素と栄養の循環に不可欠である。本研究では、原生生物ゲノムの大部分はウイルス起源であり、これらのウイルス統合は細菌ゲノムのプロファージ統合に匹敵する規模であることを見いだした。原生生物のEVEは、より大きな「巨大ウイルス」に寄生し、真核生物の宿主に感染して死滅させるウイルスのグループであるウイルスファージと遠縁であった。多くのEVEは機能的なウイルスであるようで、このことはこれらのエレメントの多様な配列が宿主の抗ウイルスシステムの一部である可能性を示唆している。
概要
真核生物のゲノムには、様々な内在性ウイルスエレメント(EVEs)が存在する。EVEsの多くは、もはや機能しないRNAやssDNAウイルスに由来するもので、"ゲノムの化石 "と考えられている。しかし、EVEのゲノム調査は、動物や植物に偏っており、真核生物の多様性の大部分を占める原生生物は、まだ十分に調査されていない。ここで我々は、原生生物ゲノムには数万から数千の多様な、〜14〜40kbpの長さのdsDNAウイルスが存在していることを示す。これらのEVEは、ウイロファージ、ポリントン様ウイルス、およびその関連生物から構成されるが、ウイルスグループ間の配列保存性が低いこと、また、反復性のため正確なショートリード配列決定ができないことから、これまで隠されたままであった。我々は、ロングリード配列決定技術がウイルスの挿入を解決するのに理想的であることを示している。多くの原生生物のEVEは無傷であり、そのほとんどがインテグラーゼをコードしていることから、真核生物の樹を越えて宿主を積極的にコロニー化していることが示唆された。また、宿主のトランスクリプトームにおける遺伝子発現の証拠や、近縁のウイルスファージやポリントン様ウイルスゲノムがウイルスメタゲノムに豊富に存在することも明らかになり、多くのEVEがおそらく機能性ウイルスであることが示された。
PNASアラートに登録する
新しい論文のアラートを受け取ったり、論文が引用されたときにアラートを受け取る。

真核生物における既知の内在性ウイルスのほとんどは、レトロウイルス(1)に属している。レトロウイルスはRNAウイルスの一群で、ライフサイクルを完了するために脊椎動物のゲノムに組み込まれる必要がある。時折、宿主の生殖細胞内に入り込み、時間の経過とともに多数の実体がゲノムに固定されることがある(2)。このようにして、ヒトゲノムの最大8%がレトロウイルスの統合によって獲得された(3)。単細胞真核生物では、このような実質的なウイルス統合の報告はほとんどないが、様々な内在性ウイルスが検出されている(1)。最大の内在性ウイルスエレメント(EVE)は、「巨大ウイルス」とも呼ばれる核細胞質性大型DNAウイルス(NCLDV)に由来するもので、特定の葉緑素ゲノムに最大2 Mbpの挿入が報告されている。これらの大きな、しかし不完全なウイルス断片は、株間のゲノム変異の一因となっている(4, 5)。NCLDVのEVEの散発的な証拠は、刺胞動物だけでなく、様々な原生生物(アメーバや藻類を含む)でも検出されており(6-8)、このことはEVEが広く存在している可能性を示唆している。
この20年間、ある種の真核生物ゲノムにおいて、様々な小さな(15〜20kb)ウイルス様可動要素が繰り返し独立して発見されてきた: 繊毛虫Tetrahymena thermophilaのTlrエレメント(9)、主に脊椎動物や無脊椎動物のMavericks(10, 11)、動物や少数の原生生物ゲノムのほぼ同義のPolintonsやAdintovirus(12, 13)などである。これらのウイルスは、検出可能なウイルスカプシド遺伝子を持たないことから、当初は自己合成トランスポゾンと考えられていた(12)。しかし、メジャー・キャプシド・タンパク質(MCP)、マイナー・キャプシド・タンパク質(mCP)、ATPアーゼを含むウイルスの特徴的遺伝子が検出されたことから、現在では、すべてではないにしても、いくつかは内在性ウイルスであることが示唆されている(13-15)。特筆すべき例外は、パラバソラスのトリコモナス(Trichomonas vaginalis)で、ゲノムの約3分の1を占める数百のマーベリック・ポリントン(Maverick-Polinton)エレメントを含んでいるが(11)、これまでのところウイルスカプシド遺伝子は見つかっていない。このことから、いくつかのエレメントはウイルス遺伝子を失ってトランスポゾン的なライフスタイルを完全に送り、ゲノム内でのみ複製するという考えが支持された(16)。
ポリントン様ウイルス(PLV)は比較的新しいタイプのウイルスで、水生生態系に非常に多様かつ比較的多く存在することが分かっている(17, 18)。その名前が示すように、PLVはマーベリック・ポリントンの遠い親戚であり、似たようなゲノムを持つ(17-20)。しかし、PLVには複数のグループが存在し、それらは互いにほとんど検出可能な配列類似性を示さないことから、いくつかのウイルスグループに分類されることが示唆されている(17, 18)。これらのグループのほとんどについて、おそらく単細胞の真核生物の宿主は不明なままであるが、一握りの原生生物のゲノムに関連するものが記載されている(13, 17, 18, 20, 21)。PLVはまた、検出可能な配列の類似性はないものの、大型ウイルス依存性または関連性のあるウイルスである、より一般的にヴィロファージとして記述されるMaveriviricetesクラスのウイルスと、類似した遺伝子含量を共有している(22)。既知のビロファージ分離株はすべて、細胞質ビリオンファクトリーで複製を行うために、真核宿主の巨大ウイルスに感染する必要がある(23, 24)。およそ5つの異なるvirophage/giant-virus/host系が培養されているが(25-29)、既知のPLV単離株は2つしか特徴づけられていない: Tetraselmis striata virus (TsV-N1)は海藻Tetraselmis striataの溶原性感染が報告されており(30)、Phaeocystis globosa virus virophage (PgVV)(31)は海産ハプト藻Phaeocystis globosaに関連している。最近の実験により、PgVV(Gezel-14T)はその複製を共感染巨大ウイルスに依存しており、それゆえウイルスファージ的な生活様式を持つことが示された(21)。TsV-N1とPgVV型PLVの親戚は、最近、Tetraselmis属や他の葉緑素ゲノムに統合ウイルスとして存在することが見いだされ(20, 21)、海産ストラメノパイルCafeteria burkhardae(32)のマウイルス・ウイロファージと同様の方法で、独立して真核宿主をコロニー化していることが確認された。
ユニークなPLVの宿主予測を改善しようとする中で(17)、我々はvirophage、PLV、Maverick-Polinton MCP遺伝子が原生生物ゲノムアセンブリーのドラフト(GenBank Whole Genome Shotgun - WGSデータベース)には頻繁に現れるが、最終的に発表されたゲノム(GenBank nr; RefSeqデータベース)には存在しないことが多いことに注目した。このことを調べるために、我々は、一般に公開されているすべての原生生物ゲノムアセンブリー草案から、ウイルスファージおよびポリントン様ウイルスMCP遺伝子を系統的にスクリーニングし、内在性ウイルスが、単細胞真核生物ゲノムの反復的でアセンブリー困難な領域中に隠れていることを発見した。いくつかの生物では、何千もの統合されたウイルスが検出され、これらのウイルスが原生生物ゲノムのかなりの割合を占めていることが示唆された。
研究結果
統合型ウイルスの検出
単細胞真核生物のゲノムにおけるウイルスの統合を検索するために、GenBank WGS(1352、2021年12月;SI Appendix、Table S1)からすべての原生生物ゲノムアセンブリーのドラフトをダウンロードし、プロファイル隠れマルコフモデル(HMM)を用いてPLVとウイルスファージのMCP遺伝子を繰り返し検索した(Materials and Methods)。ヒットをクラスタリングし(MMseqs2)(33)、代表的な配列をHHpred (https://toolkit.tuebingen.mpg.de/tools/hhpred)を用いてチェックし、ダブルゼリーロールフォールドMCP遺伝子であることを確認した(SI Appendix, Table S2)。相同性が認められなかった場合、ColabFold (34)またはAlphaFold Colab (35) (https://colab.research.google.com/github/deepmind/alphafold/blob/main/notebooks/AlphaFold.ipynb)を用いてタンパク質構造をモデル化し、Foldseek (36)を用いてProtein Data Bank (PDB100)と照合し、ウイルス性MCP遺伝子であることを確認した(SI Appendix, Table S3)。その後、すべてのドラフト原生生物ゲノムを、DIAMOND BLASTX (37)を用いて、確認されたウイルスMCPデータベースと再度検索した。このようにして、462の原生生物ゲノムから35,000を超える内在性ウイルスMCP遺伝子のヒットが検出され、それらは73のタンパク質クラスター(30%の長さで25%の同一性;MMseqs2)にグループ分けされた(図1およびSI Appendix, Table S4)。
図1.

原生生物238種462ゲノムにわたる内在性MCPクラスターの分布。MCPクラスター(30%の長さで25%の同一性、73クラスター)は、各クラスター内のMCPの数に応じて大きさをスケーリングした内側の円で示されている。数字は割り振られたMCPクラスター番号を指し、大きなウイルス群にはラベルが付けられている。MCPクラスターは、それらが見出される真核生物種(NCBI分類学に基づく)に接続されている。より多様な宿主範囲を持つクラスターはプロットの中心に近い方に描かれている。
我々の解析では、T. vaginalis Maverick-PolintonsのMCP遺伝子の欠失を含め、原生生物ゲノム中に多くの高度に分岐したウイルスMCP遺伝子が同定された。T.vaginalisにおけるMaverick-Polintonsのコピー数の多さは、ウイルスカプシド遺伝子の欠如と相まって、トランスポゾンとしての存在に対する最後の主要な論拠の一つであり続けてきた(16)。我々は、保存された仮説的タンパク質(DUF4106ファミリー)の1つがMCP遺伝子に対応することを発見した。MCP遺伝子は、利用可能な2つのT. vaginalisゲノム(WGSアクセッション番号MJMQ01とAAHC01)に2,224コピーと4,841コピー存在する。推定MCP構造予測は、他のダブルゼリーロールフォールドMCP遺伝子と一致する2本の8本鎖、逆平行βバレルを含んでいる(SI Appendix, Fig.) これらのT. vaginalisエレメントにカプシド遺伝子が存在することは、すべてのマーベリック-ポリントンが実際には内在性ウイルスであることを示唆している。
ゲノムあたりのウイルス性キャプシド遺伝子の数は、最小の自由生物である真核生物Ostreococcus sp. (Chlorophyta, 13 Mbp genome, 1 to 2 MCPs)から、Polarella glacialis (Dinophyceae, ≈3 Gbp genome, 2,535 MCPs)やPaulinella micropora (Rhizaria, ≈1 Gbp genome, 3,251 MCPs)のような大きなゲノムでは数千のコピーがあった(SI Appendix, Table S4)。渦鞭毛藻ゲノムの大きな反復性はよく知られているが、我々の解析では、検出されたすべてのMCPがそれぞれ15〜20kbpの長さのエレメントの一部であると仮定すると、P. glacialisゲノムの1〜2%が内在性DNAウイルスで構成されている可能性があると予測した。この推定値は根粒菌のP. microporaではさらに高く、ゲノムの≈10%に達する(SI Appendix, Table S4)。最も珍しいゲノムはT. vaginalis(Parabasalia、160 Mbpゲノム、4,841 MCP)のもので、MCP遺伝子の密度が圧倒的に高かった(ゲノムデータ1 Mbpあたり27個)。DNAポリメラーゼ遺伝子に基づく推定では、ゲノムの3分の1がMaverick-Polintonエレメントで構成されている(11)。Tritrichomonas foetus(34%)でも同様に高い割合が見られた。特に注目すべきはクリソフィティ(ゲノムあたりMCPコピー数33〜104)で、ゲノムあたり最大10種類のMCP遺伝子(25%の同一クラスター)を含んでおり、多様なグループからのウイルスがこれらの生物に統合可能であることを示している。かなりのシークエンシングが行われている(データセットでは245ゲノム)真菌類も、1ゲノム中に最大299個のMCPコピーを含んでいた。真菌類のMCP遺伝子は5つのタンパク質クラスターに限定されており(図1)、以前はPLVの中でも別個のGossevirus(GKS1)グループとして定義されていた(17)。葉緑素では、支配的なタイプのMCP遺伝子(タンパク質クラスター86と87;SI Appendix, Table S4)はPLVのPgVVグループのメンバーに属し(18)、このグループは主に藻類に関連していることが示唆された。PgVVタイプのMCP遺伝子は、最近いくつかの葉緑素ゲノムで検出されており(21)、我々の方法はこれらの所見を確認した(SI Appendix, Table S4)。意外なことに、ウイルスファージ(Maveriviricetesクラスのメンバーとして定義)も内在性ウイルスとして豊富であり、特にParamoeba pemaquidensis(Neoparamoeba pemaquidensis、 アメーバ、64個のウイルスファージMCP)、Neovahlkampfia damariscottae(ディスコバ、21個のMCP)、Halocafeteria seosinensis(ビギラ、74個のMCP)、および複数のクリソフィティゲノム(ゲノムあたり0〜37個のMCP)に存在した。渦鞭毛藻Symbiodinium microadriaticumとSymbiodinium sp. KB8には、Cafeteria burkhardae(38)で以前に報告されたものに加えて、マウイルス様ウイルスファージMCP遺伝子(それぞれ2MCPと4MCP)も含まれており、我々のアプローチでも検出された。
MCP遺伝子はEVEを代表する。
MCP遺伝子が原生生物ゲノムの全長ウイルスを表しているかどうかを確認するために、MCP遺伝子とその周辺のゲノム領域を各コンティグから抽出し、PLV、ウイルスファージ、Maverick-Polinton遺伝子のデータベースと照合してアノテーションを行い、末端インバーテッドリピート(TIR)をスキャンした(材料と方法)。コンティグが十分に長い場合、MCP遺伝子は通常、DNAポリメラーゼ(pPolB)またはDNAプライマーゼ-ヘリカーゼ(Pri-Hel)、およびチロシンリコンビナーゼ(YR)またはレトロエレメントrve型インテグラーゼのいずれかの統合を担う遺伝子を含む、いくつかの他のPLV/ウイルスファージ遺伝子と一緒に存在していた。挿入部分の長さは一般に15〜30kbpで、隣接する宿主配列と比較してGC含量に顕著な違いが見られることもあった(図2およびデータセットS1)。高品質のEVE位置の約47%(3,487/7,382)にTIRがあった(39)。これは挿入エレメントの特徴である(高品質:コンティグ>60kb、MCP>両端から20kb、少なくとも3つのウイルス様遺伝子)。これらの結果から、ウイルス性MCP遺伝子の存在は通常、完全長EVEの存在も示していると結論づけられた。
図2.

MCP遺伝子は完全なEVEの一部である。原生生物にコードされたMCP遺伝子の代表例(濃い水色)を、様々な真核生物グループのゲノム近傍に示す。EVEは、gggenomes (https://github.com/thackl/gggenomes)を用いて、既知のポリントン様およびウイルスファージ遺伝子のデータベースに対してアノテーションした。TIR(黒い線で結ばれた青いボックス)は、しばしばEVE挿入部に接している。灰色のグラフはゲノム平均からのGC含量の偏差を示す。
ウイルス挿入は劣化エレメントか?
単細胞真核生物から非常に多くの統合型ウイルスが検出されたことから、それらが無傷のエレメントなのか、それとも分解された(偽遺伝子化された)エレメントなのかという疑問が生じた。我々の自動アノテーション(図2)と選択された手動アノテーション(SI Appendix, 図S2)から得られた多くのウイルス遺伝子(MCP遺伝子を含む)は、複数の停止コドンを含んでおり、当初は後者であることが示唆された。しかし、現在までの原生生物ゲノムアセンブリのほとんどは、まだイルミナのショートリードのアセンブリに依存しており、最大40kbpの長さになることもある密接に関連した高コピー数のエレメントを解決するのは困難である。実際、全ヒットの17%は、MCP遺伝子のみをコードする短いコンティグ(<1,600 bp)で見つかり、全MCPヒットの半数近くは、ウイルスゲノム自体よりも大きくないと考えられるゲノム断片(<25,000 bp)で見つかった。このことは、EVEを含む領域のアセンブリーが特に困難で、ウイルスゲノムが別々のコンティグとしてアセンブルされることを示唆している。短い遺伝子断片から統合ウイルスを決定するために、GenBank WGSに寄託された短いコンティグ上に複数の多様なMCP遺伝子が見つかり、さらにロングリード(PACBIO)シーケンスデータが公開されている2つのオクロサイトゲノムを選択した。Pedospumella encystans株JBM/S11 (SRR9203571)とSynura sp. LO234KE (SRR9203568)から得られたPACBIOロングリードをウイルスカプシドについてスクリーニングし、一致する約10kbpのロングリードをいくつかエラー訂正した(材料と方法)。この結果、複数の完全なウイルス遺伝子を含む長いコンティグが得られ、GenBank WGSで検出された単独のMCP遺伝子は、より大きなウイルス挿入の不完全なアセンブル断片であることが示された(SI Appendix, Fig.) 断片化されたEVE遺伝子の観察をさらに評価するために、私たちは、多数の早発ストップコドンのために分解されたと思われる、白藻類Hydrurus foetidusからアセンブルされた最長のEVE(GenBank UYFQ010000146;22Kbp)をダウンロードした。厳密な基準(Materials and Methods)を用いてイルミナのデータとのマッピングを行い、アセンブリーをエラー訂正したところ、当初観察されたストップコドンはもはや存在しなくなり、PLVゲノムに埋め込まれたTy3/Gypsyレトロトランスポゾンも明らかになった。このことは、多くの停止コドンが、内在性マウイルス様エレメントに見られるのと同様に、アセンブリー・アーチファクトであることを示唆している(38)。したがって、当初断片化または分解されたように見えたMCP遺伝子は、無傷のウイルス遺伝子を持つ、より大きな完全なEVEである可能性が高い。しかし、この方法で長いリードをエラー訂正すると、複数のほぼ同じ遺伝子からのイルミナリードがこれらの内因性ウイルス領域に集まる傾向があるため、しばしば失敗し、宿主ゲノムの平均よりもはるかに広いカバレッジを持つ誤ったコンセンサスコンティグが作成される。誤ったコンセンサス配列には、一塩基変異やフレームシフトが含まれる傾向があり、遺伝子が人為的に断片化されたように見える。
短い断片で検出されたMCPが完全長のPLVであるかどうかをさらに確認するため、Oxford Nanoporeロングリード技術を用いて2つの褐虫藻ゲノムを再シークエンシングした(材料と方法)。これらのゲノムは、高山湖で検出されたウイルスにMCP遺伝子が多数ヒットしたことから選択した(17)。Dinobryon sp. (LO226KS) (chrysophyte) および Synura sp. LO234KE (synurid) の部分集合体を DIAMOND BLASTX (37) (Materials and Methods) を用いて MCP 遺伝子についてスクリーニングした結果、ゲノムあたりそれぞれ 58 および 61 の MCP ヒットが得られた。これは、ショートリードデータから作成された一般に入手可能なアセンブリーを独自に検索した際に検出された46個(Synura sp.)と75個(Dinobryon sp.)のMCPとよく比較される(SI Appendix, Table S4)。しかし重要なことに、私たちが精製したロングリードアセンブリー(Materials and Methods)では、より長いコンティグ(n50値はそれぞれ44kbpと79kbp、GenBank WGSでは2kbpと2.5kbp)が得られ、多くの場合、より大きな宿主コンティグに統合された完全なウイルスゲノムを含んでいた(39)。コンティグが十分に長い場合、20~30kbpのGC含量の低下が挿入配列の境界を示すことが多かった(図3)。
図3.

ロングリードデータから得られた原生生物ゲノムアセンブリでは、完全長のEVE挿入配列が検出された。Synura sp. LO234KEおよびDinobryon sp. LO226KSのOxford Nanoporeリードの部分アセンブリから選択したコンティグ。統合されたウイルス領域は、しばしば宿主ゲノムとのGC含量の顕著な違いを示す。Synura属はポリントンに似たEVEを持つが、Dinobryon属のEVEはウイルスファージグループに属する。コンティグ456には150kbpと300kbpの位置に2つの挿入があり、後者は部分的にしか組み立てられていない。レトロトランスポゾン(Ty3/Gypsy;茶色の注釈)はウイルス挿入部近傍でしばしば観察される。コンティグの下のグラフはGC(青)とAT(緑)のパーセンテージを示す。数字はコンティグの位置(kbp)を示す。MCP-メジャーカプシドタンパク質、mCP-マイナーカプシドタンパク質、プロテアーゼ-システインプロテアーゼ、ヘリカーゼ-DNAヘリカーゼ、pPolB-DNAポリメラーゼタイプB、Pri-Hel-プライマーゼ-ヘリカーゼ、RVE-レトロエレメント型インテグラーゼ、Nuc trans. - ヌクレオチジルトランスフェラーゼ、MTase - DNAメチルトランスフェラーゼ、Retrotrans. - レトロトランスポゾン、TIR - ターミナル・インバーテッド・リピート、HNH - ホーミング・エンドヌクレアーゼ。
単一原生生物ゲノム内のEVE多様性。
我々は、原生生物ゲノムには何千ものウイルスMCP遺伝子が含まれている可能性があり、その多くはおそらく完全長の内在性ウイルスであるが、ショートリードデータからは別々のコンティグとしてアセンブルされる傾向があることを示した。このことは、EVEが高コピー数の同一エレメントなのか、それともゲノム内の別個の、しかし密接に関連したエレメントの集まりなのかという疑問を提起する。真核生物のEVEのアセンブリー中に、遺伝子の断片化につながる誤った停止コドンが見つかったことから(SI Appendix, Fig. S2)、これらのエレメントはゲノム内で同一ではないことが示唆された。私たちは、単一生物内のMCP遺伝子の多様性を調べるために、P. micropora KR01株(GenBankアクセッションWBZZ01)を選んだ。このゲノムは長いコンティグ(n50 = 143 kbp)によくアセンブルされており、数千のMaverick-Polinton様DNAポリメラーゼ遺伝子が以前このゲノムで検出されている(40, 41)。DIAMOND BLASTXでヒットした塩基配列から、少なくとも6つのMCPグループにまたがる900bp以上のMCP塩基配列2,678個(合計3,251個のヒットのうち)を抽出して解析したところ(SI Appendix, Table S4)、49個だけが同一コピーであった(MMseqsクラスタリング、30%以上の長さで100%の同一性)(Materials and Methods)。配列決定とアセンブリーの誤差を考慮した98%の同一性でクラスタリングした後でも(SI Appendix, Fig. S2)、1,792のユニークなクラスタが生成され、1つのゲノム内に数百のバリアントが存在することが示唆された。実際、ゲノム全体のMCPの多様性は、ヌクレオチドレベルで意味のあるMCPアラインメントを作成するには大きすぎ、早すぎる停止コドンは全長アミノ酸アラインメントを妨げていた。そこで、ヌクレオチド配列を(30%の長さにわたって)50%の同一性でクラスタリングしてから、各クラスタを別々にアライメントした。MCP遺伝子はこの閾値で5つの主要なクラスターを形成し、それぞれが多様性の広いスペクトルを含み、しばしば数十から数百の密接に関連するが、同一であることはまれな遺伝子が共存していた。各クラスターはSI Appendixの図S3-S7に別々に表示され、1つの生物内の1つの遺伝子における大きなマクロ多様性とミクロ多様性の両方を強調しており、ショートリード配列データからEVEを正確に組み立てることの難しさを説明している。
ゲノム間の多様性
特定のEVEが特定の真核生物の系統と関連しているのか、あるいは多様な宿主間での移動性の証拠を示しているのかを決定するために、すべての内在性MCP遺伝子を用いて配列類似性のネットワークベースの解析を実行した(材料と方法)。このようなアプローチにより、多重配列アラインメントが不可能な数千もの多様性の高い遺伝子を比較することができる。この解析では、BLASTベースの配列比較(1e-4カットオフ;Materials and Methods)を行う前に、もともと記述されていたMaverick-Polintons(14)、Adintovirus(13)、脊椎動物ゲノムで検出されたMaverick-Polintons(15)のMCPと、メタゲノムで検出されたすべてのPLV(17)のMCPも含めた。
この解析から(図4)、MCP遺伝子は多様性の高い複数のグループを形成しており、ウイルスの幅広いコレクションを代表していることが示唆された。P. microporaのMCPは、これらの主要なスーパークラスターのうち少なくとも3つに分類され、これらのゲノム内に多様なウイルスエレメントが存在することが確認された。脊椎動物のゲノムに由来するMaverick-Polintons(14,15)と既知のAdintovirus(13)は、ほぼすべて大きなスーパークラスタに属し、先に記述したグループIとグループIIのPolintons(16)に分けられる。例外は、刺胞動物とGuillardia theta(クリプト藻類)のMCP遺伝子で、これらはこの主要グループから外れていた。従って、マーベリック・ポリントンの原型は、紅藻類とディスコシアのMCP遺伝子1つを除けば、すべて後生動物に由来するウイルスの別個のグループであると思われる。刺胞動物のMCP遺伝子は、この主要なマーベリック-ポリントンクラスターから外れた唯一の後生動物であった。全てのウイロファージ様(Maveriviricetes)MCP遺伝子は、これらの閾値(BLASTP cutoff 1e-4)を用いた他のグループと検出可能な類似性を持たない単一のクラスターを形成し、これらのエレメント内でのMCP遺伝子の大きな分岐を強調する役割を果たした。アルプスの湖で最初に検出されたPLVのGossevirus GKS1グループは、MCPクラスタリングによって別個のウイルスグループであることが示された。真菌類はほとんど常にGossevirusグループのMCP遺伝子(MCPクラスター57から61)を持つEVEを含んでおり、MCPクラスター58から60は菊藻類(どちらもStramenopiles)にも見られた。ほとんどの渦鞭毛藻EVE MCP遺伝子は別のクラスターを形成しており(Dinoグループ)、このクラスターは多様な宿主に見られるMCPと遠縁であった。この宿主には、クリソフィサイト、クロロフィサイト、ストレプトフィサイト、ハプトフィサイト、および巨大DNAウイルスとコアプライセートするウイルス分離株PgVVが含まれる(21)。Metamonadaグループは、T. vaginalisで検出されたMCPによって播種された。このグループは、5種の寄生虫のMCP変異体と、アミノ酸グルタミンをコードするTAAコドンとTAGコドンを持つ非標準遺伝暗号を使用することで知られるシロアリの腸内共生生物Streblomastix strixのMCPから構成されていた(42)。S. strixのEVEもまた、同じ翻訳表を使用していることが判明し、このグループにおいてウイルスと宿主の間に長期的な関連がある可能性が示された。しかし興味深いことに、Evosea(アメーバ動物)で見つかったいくつかのMCPも、このメイングループ内にクラスター化していた。実際、ネットワーク全体を通して、MCPクラスターには複数の真核生物系統のEVEが含まれることが多く、これらのEVEの水平移動が進化の歴史のある時点で起こったに違いないことを示している。
図4.

真核生物ゲノムにおけるマーベリック・ポリントン、PLV、ウイロファージの主要キャプシドタンパク質間の関係を示すネットワーク解析。すべてのMCP遺伝子は、一般に公開されている原生生物ゲノム、出版物、および環境メタゲノムから検索した。複雑さを軽減するため、原生生物にコードされたMCP遺伝子は、個々の宿主ゲノムについて90%の塩基同一性でクラスタ化した。物語に重要な種を選んでラベルを付けた。色はMCPが取得されたゲノムを表し、ラベル付きの円はMCPタイプで指定されたそれらが属するより広いウイルスグループを表す。水色の菱形は、メタゲノムで検出されたMCP遺伝子(17)を、数を減らすために70%の同一性でクラスター化したもので、黒枠はウイルスのみのメタゲノムで検出されたものを強調している。最初に報告されたPolinton(14)とAdintovirus(13)のMCP遺伝子は黒で、脊椎動物のMavericks(15)は濃い青で示されている(すべて90%の同一性でクラスター化されている)。線(端)は期待閾値<1×10-4でのBLASTPアラインメントを表す。青色の略号は単離されたウイルスを示す: TSV, Tetraselmis striata virus; PgVV, Phaeocystis globosa virus virophage (Gezel-14T). 太字の名称はウイルスグループを示し、GKS 1-3およびTrimcapはBellas and Sommaruga(17)によって記述されたグループを指す。MMN、PaM1-2、およびDinoは、本研究で定義したMCP遺伝子のグループである。数字は、図1およびSI Appendix, Table S4に詳細に示されている主要なMCPタンパク質クラスターを示す。
フィルターでろ過した水生生物ビローム(17)からメタゲノム的に検出されたMCP遺伝子は、EVE由来のMCPを含むいくつかの主要なグループにクラスター化した。これには、Gossevirus GKS1グループ、GKS3グループ(Alveolataで発見)、Trimcapグループ(未分類のStramenopilesで発見)、PaM1グループ(Rhizaria、Amoebozoa)、PgVVグループ(Chlorophyta、Streptophyta)、およびTsVを含む中央クラスター(ChlorophytaおよびOchrophyta)のメンバーが含まれる。内因性MCP遺伝子とウイルス由来のMCP遺伝子の類似性から、少なくともいくつかのEVEはビリオン形成が可能であり、したがって機能的ウイルスであることが示唆される。
MCP遺伝子発現の証拠。
EVE遺伝子発現の証拠を検出するために、GenBank Transcriptome Shotgun Assembly (TSA) データベース(773トランスクリプトーム、2021年12月)の原生生物トランスクリプトームを、我々のMCP遺伝子データベースと照合した。GenBank TSAの原生生物は、GenBank WGSの原生生物と一部しか重複していない。しかし、ほとんどの主要グループからの代表が利用可能であった。また、一定の条件下で培養されている生物は、EVEの発現に適していない可能性があり、特にこれらのエレメントがvirophage的な生活様式を持ち、活性化するために巨大ウイルスによるチャレンジを必要とする場合は注意が必要である。合計で600のMCP遺伝子が、ゲノムデータセットと同様に、様々な真核生物グループの88のトランスクリプトームから検出された。その中には、特に鞭毛藻類、渦鞭毛藻類、アメーバ動物などのトランスクリプトームで見つかったウイルスファージ型EVE(MMseqsタンパク質クラスター45~46;SI Appendix, Table S6)や、ハプト藻類のトランスクリプトームで見つかったPgVV様MCP遺伝子(MMseqsタンパク質クラスター86~87)が含まれていた。P.microporaのトランスクリプトームはなかったが、近縁種のP.chromatophoraのトランスクリプトームから20個の類似したMCP遺伝子(タンパク質クラスター100, 32, 11; SI Appendix, Table S6)が見つかり、この生物では複数の異なるウイルスグループのメンバーが発現していることが示唆された。Maverick-Polinton型MCP遺伝子を発現している注目すべき新しい原生生物群は、通常線虫や軟体動物の腸内に生息するConoidasida綱の寄生性肺胞虫の多くから得られた。このMCP遺伝子群はほとんど動物にしか発現しないことから、トランスクリプトームが宿主に汚染されているか、あるいはこれらの生物にエレメントが水平移動していることを示している。
考察
我々の包括的なゲノム調査により、ポリントン様スーパーグループの14〜40kbp長のDNAウイルスが、多様な原生生物ゲノムに頻繁に生息していることが明らかになった。さらに、配列決定された原生生物ゲノムの3分の1に数千の内在性ウイルスが存在するという我々の発見は、まだ控えめな推定であるかもしれない。これまで原生生物ゲノム中の内在性ウイルスのほとんどが検出されなかったのは、多くの要因が絡み合っている。第一に、低GC DNAに対するシーケンシングバイアスにより、イルミナデータの収量が減少している。そのため、マウイルス・ウイロファージで示されたように、内在性ウイルス領域はアセンブリーにおいて過小評価されることがある(38)。第二に、原生生物のEVEはコピー数が多く、数百から数千のマイクロバリアントが存在することが多いため、ショートリードデータからのゲノムアセンブリに問題が生じ、誤ったコンセンサス配列のために人為的に断片化され、アノテーションが不十分な遺伝子になる。第三に、塩基配列の提出や処理中に、内在性ウイルスを含む多くのコンティグ、特に別々にアセンブルされたコンティグが、自動化された汚染除去パイプラインで除去される可能性がある。最後に、配列保存性が低いため、リモート相同性検出や計算コストのかかるタンパク質構造予測のための高感度な方法を適用しない限り、多くの原生生物のEVEを同定することは困難である。正確なロングリードシーケンスの利用が進むにつれて、これらの方法論的問題の多くが軽減され、原生生物ゲノム中の内在性ウイルスの検出が容易になり、その生態進化的影響の真の規模が明らかになる。
我々の研究により、以前環境ビロームから検出されたほとんどのPLVグループの真核生物宿主が同定され、遊離ウイルスであることが予測された(17)。ロングリード配列決定(図3)や原生生物のトランスクリプトーム(SI Appendix, Table S6)から得られた証拠と合わせると、このことは多くのEVEが機能的である可能性を示唆している。現在、未解決の大きな疑問は、それらがどのような機能的役割を担っているかということである。EVEは複数のウイルス群を代表しているため、その起源や生活様式が異なる可能性がある。Tetraselmis spp.のEVEとTetraselmis striataに感染するウイルス粒子の両方として以前発見されたTsV-N1について予測されたように、溶原性ウイルスである可能性もある。また、いくつかのEVEは転位によって複製できる可能性も残っている。ポリントンはもともと、ウイルスカプシド遺伝子が検出される前にトランスポゾンであると予測されていた。今回発見したEVEの多くは、検出可能なDNAポリメラーゼ遺伝子を欠いており、これは別の複製様式を使用していることを示している可能性がある。しかしながら、我々のデータセットでは、DNAヘリカーゼドメインがしばしば未知のドメインと融合していることが観察された。したがって、これらのエレメントでは複製酵素をまだ検出できていない可能性がある。ゲノム内のEVEは、関連するMCPタイプを持っている傾向があり、時には数百のバリアントが共存していることもあります。このことは、特定のゲノムや原生生物グループ内での複製が、グループ間の水平移動よりも一般的であることを示唆している。このような観察結果は、ゲノム内転位と、宿主ゲノムに繰り返し組み込まれ、活発に複製される外来ウイルスの両方によって引き起こされる可能性がある。本研究のすべての個体はMCP遺伝子を持っており、もしそれが厳密なトランスポゾンであれば失われることが予想されるため、いくつかのエレメントはウイルス複製とトランスポゾン様複製の両方が行われる、二重のライフスタイルが可能である可能性がある。最後に、EVEのグループの中には、活性化と複製に巨大ウイルスを必要とする、ウイロファージのような生活様式を持つものがあるという証拠が増えつつある。PgVVグループのウイルスGezel-14Tは、Maveriviricetesクラスの正真正銘のウイロファージとの配列類似性が検出できないにもかかわらず、巨大ウイルスの存在下でのみ共複製を行う(21)。PgVVグループのメンバーは、葉緑素全体にEVEとして見つかっており、この戦略はより広範囲に広がっている可能性を示唆している。PLVのGossevirusグループとMaveriviricetesウイロファージとの類似性も見いだした。ゴッセウイルスはシステインプロテアーゼ遺伝子を含むウイロファージのコア遺伝子をすべて持っており、モデル化されたMCP構造はスプートニクウイロファージのMCPに最も似ている。対照的に、他のポリントンやPLVのMCPはNCLDVキャプシドタンパク質に似ている(SI Appendix, Table S2 and S3)。ここで述べたEVEグループの一部だけが巨大ウイルスと相互作用するとしても、その生態学的意義は最も重要であろう。1つの原生生物ゲノムに数万から数千の関連するが非同一のEVEが存在するということは、巨大ウイルスの多様性の多くが、活性型内在性ウイルスの形をした同様に多様な宿主応答によって対抗されていることを示唆している可能性がある。個々のウイルス-宿主系の詳細な実験的研究により、これらの多様で豊富な真核生物のEVEの幅広い機能が明らかになると期待される。これらを総合すると、我々の発見は、真核生物の生命樹全体にわたって進化を形成してきた、複雑で入り組んだウイルス-宿主間の軍拡競争について、エキサイティングな視点を与えてくれる。
材料と方法
ウイルスMCPデータベースの構築
Bellas and Sommaruga (17)に記載されているポリントン様ウイルスとウイルスファージのMCP遺伝子を、MMseqs2 (33)を用いて70%の長さで30%の同一性でクラスタ化した。クラスター代表(以後、「PLV MCP reps」と呼ぶ)を用いて、GenBank WGS原生生物アセンブリーを反復調査し、以下のように遠縁のMCP遺伝子を検出した: I) GenBank Whole Genome Shotgun (WGS)のすべての原生生物アセンブリーを、Entrez Direct (EDirect)を用いて2021年12月にダウンロードした(1,352ゲノム): 4,751(菌類)、33,208(動物界)、3,193(高等植物)。ただし、Streblomastix strixの場合は、非標準の翻訳表(SI Appendix, Table S6)を使用し、ウイルス配列が宿主ゲノム内から生じたことを確信できた。II) MetaGeneMark (43)を用いて、すべてのGenBank WGSアセンブリーで遺伝子を予測した。このような原核生物/ウイルス遺伝子予測ツールの使用は、イントロンを含まず、迅速に予測できるため、内在性ウイルスには有効である。ただし、S. strixは例外であり、別個に扱った。III)検索のためのデータベースサイズを小さくするために、遺伝子予測は200から900aaの長さのアミノ酸配列でフィルタリングされ、MMseqs2 (easy-cluster--min-seqs-id 0.5 -c 0.8)を用いて80%の長さで50%の同一性でクラスタリングされた。IV) 遠距離に関連するMCP遺伝子を検出するために、JackHMMER (HMMER 3.1b2)を用いて上記の遺伝子クラスターの反復検索を行った。PLVのMCPレップはそれぞれ、JackHMMERの5回の繰り返し(-N 5 -E 1e-7)を用いて、クラスター化されたWGSデータベース(ステップIII)に対してクエリーされた。初期反復におけるHMMプロファイルの構築を容易にするため、WGSデータベース(ステップIII)はBellas and Sommaruga(17)からのすべてのMCP遺伝子でもシードされた。V) S. strixにおける非標準遺伝暗号MCPヒットを決定するために、T. vaginalisのMCPヒットをGenBank nonredundant protein database (nr) (E-value cutoff 10-5) のオンラインPSI-BLAST検索に使用した(https://blast.ncbi.nlm.nih.gov/Blast.cgi)。一致したS. strixのレコードをアミノ酸配列としてダウンロードし、以下のように確認した。VI) JackHMMERからのヒットがウイルスMCP遺伝子に属するかどうかを確認するため、ヒッ トをクラスタリングし、さらにチェックを行った。全ての候補MCP遺伝子はMMseqs2で80%の長さで30%の同一性でクラスタリングされ、各クラスタはMAFFT v7.490(44)でアライメントされ、アライメントはHHpred(https://toolkit.tuebingen.mpg.de/tools/hhpred)の入力として使われた(設定: global:realign)。ヒットは、ダブルゼリーロール(DJR)フォールドウイルスのMCP遺伝子に最もよくヒットしたウイルスとして特徴づけられた(SI Appendix, Table S2)。HHpredのヒットが見つからなかった場合、ColabFold (34)を用いて、MAFFTクラスターアライメント(ステップVI)を多重配列アライメント(MSA)入力としてタンパク質構造を予測した。トップモデルの予測結果をFoldseek (36) (https://search.foldseek.com/search)にアップロードし、3Di/AAモードを用いたPDB100からの構造予測と比較した。トップヒットが二重ゼリーロールフォールドのウイルス MCP 遺伝子であった場合、これを確定 MCP 遺伝子とみなした(SI Appendix, Table S3)。VII) 確認されたすべてのMCP遺伝子をBellas and Sommaruga (17)のすべてのMCP遺伝子に加え、Maverick-Polintons、PLV、virophageから最終的な確認済みMCPデータベースを作成し、さらなる解析に使用した。最後に、SI Appendix、Table S4およびFig. 1のために、データベースからMCP遺伝子をタンパク質クラスターにグループ化するために、すべてのMCP遺伝子をMMseqs2で30%の長さにわたって25%の同一性でクラスタリングし、121のMCPクラスターを定義した。
すべてのGenBank WGS原生生物アセンブリーからMCP遺伝子を検索。
DIAMOND BLASTX (37)を用いて、確認されたMCPデータベースに対して、すべてのゲノムアセンブリーからすべてのWGSコンティグを検索した。劣化した配列、配列決定エラー、非標準の翻訳テーブルを検出するためにフレームシフトを許容し、クエリー範囲ごとに1ヒットに結果を制限するために範囲カリングを使用したので、コンティグあたり複数のヒットが検出される可能性があるが、個々のMCP遺伝子あたり1ヒットしか検出されなかった(設定 --evalue 1e-12 --range-culling -F 15 --max-target-seqs 1)。得られた出力は、100aaの長さで最低23%の同一性を持つようにフィルターされ、確認されたMCPマッチの表が作成された(SI Appendix, Table S5)。これらのうち、73のMCPクラスターの代表が原生生物ゲノムに統合されていることが確認されたが、48のMCPクラスターは環境メタゲノムにのみ存在した。
TSAウイルスMCP遺伝子。
GenBank TSAからアセンブルされたすべての原生生物トランスクリプトームを、前回と同様にEDirectを用いてダウンロードした。トランスクリプトームは上記と同様にDIAMOND BLASTXを用いてMCP遺伝子をスクリーニングしたが、短いコンティグを考慮し、最小配列長は50アミノ酸とした。
MCP遺伝子座のアノテーションとgggenomesによる検査。
検出された MCP 遺伝子が EVE に対応するかどうかをさらに調べるために、ゲノムコンテキストを分析し、視覚的に検査した。宿主コンティグからMCPヒットの上下流30kbpまでを抽出し、ウイルスの特徴をアノテーションした。配列データの操作(抽出、変換、翻訳)にはseqkit (45)を、配列に沿ったGC含量の計算にはbedtools (46)を、MCP遺伝子座を既知のvirophageおよびPLVのホールマークタンパク質にアライメントするにはMMseqs2 (easy-search -s 7.5 --greedy-best-hits 1)を使用した。ホールマークタンパク質は、NCBIまたは各出版物(17, 19, 25-27, 31, 38, 47-55)に記載されている情報源からダウンロードした1,000以上の既発表のウイルスファージおよびPLVのプロテオームから得た。Prodigal v2.6.3でタンパク質のアノテーションを行い、MMseqs2 (-s 7 -e 1e-4 -c 0.7)でクラスタリングを行った。各クラスタの機能アノテーションは、既知の機能を持つメンバーか、HHsearch(56)を用いたリモート相同性検出とマルチプル配列アラインメントの比較に基づく手作業によるキュレーションを組み合わせたクラスタ間のヒットに基づいて伝播された。ホールマークタンパク質データベースは、ウイルス性ライフスタイルに関連する既知の機能を持つすべてのクラスターと、多くの参照ゲノムで保存されているクラスター(conserved hypotheticals)を保持することにより作成された。MCP遺伝子座をアノテーションするために、ホールマーククラスターをMMseqs2プロファイルデータベースに変換し、遺伝子座をそれに対してアラインメントした。TIRはMinimap2(57)の改良版でアノテーションした。このMinimap2は自己マッピングのみを報告するように制限することができ、パラメータは短い同一性の高いヒットに最適化されている(-S -rev-only -c -m 30 -n 3 -c -B5 -O6 -E3 -k 10 -s 60)。注釈付き MCP 遺伝子座は gggenomes v0.9.5 (https://github.com/thackl/gggenomes) で可視化した。
リードとコンティグの研磨。
Pedospumella encystans株JBM/S11 (SRR9203571)とSynura sp. LO234KE (SRR9203568)からPACBIO生リードをダウンロードし、上記と同様にDIAMOND BLASTXを用いてウイルス性MCP遺伝子をスクリーニングした。MCP遺伝子が確認されたコンティグを抽出し、公開されているイルミナのショートリードデータ(Synura sp. LO234KEはSRR9203575、P. encystansはSRR9203573)を用いてポリッシングした。Polishing は、Geneious Prime 2022.2.2(www.geneious.com)で、Geneious mapper(設定: Custom sensitivity; Maximum 10% gaps per reads, Word Length 18, Maximum Mismatches per read 10%, Max Gap size 10; Only map paired reads which map nearby; Iterate up to 20 times)。このデータセットではPACBIOのリードエラーを考慮し、10%の大きなミスマッチエラーを許容した。遺伝子はGlimmer (Genetic code 11)を用いて予測し、HHpred (https://toolkit.tuebingen.mpg.de/tools/hhpred; Settings: HHblits=>UniRef30.global:realign)を用いた。
Hydrurus foetidusについては、ほとんどのMCPヒットは短い断片であった。完全なEVEを示すのに十分な長さのコンティグは1つだけでしたが、そのコンティグには多数のストップコドンが含まれていました。これを改善するため、最長のコンティグ(GenBank UYFQ010000146; 22 kpb)をダウンロードし、Geneious mapperと厳密なマッピング基準(1リードあたり最大5%のギャップ、最大ミスマッチ5%、近傍にマップされるペアリードのみマップ、最大ギャップサイズ6、2回繰り返し)を用いてポリッシュした。遺伝子はGlimmerで予測し、上記のようにHHpredでアノテーションした。
ロングリードシーケンス。
上記のDIAMOND BLASTX検索に基づき、クリソフィティDinobryon sp.とSynurid Synura sp. LO234KEにEVE MCP遺伝子への複数のヒットが含まれていることを決定した。これらのヒットがゲノム内のEVEであるかどうかを調べるため、ロングリード技術を用いて2つのゲノムの塩基配列を決定した。培養液は、J. Boenigk(University Duisburg-Essen、ドイツ)の研究室の好意で入手した。非アキセニック培養は、WC培地中、明暗サイクル12:12時間、16℃で培養した。収穫は、細胞を1000×gでペレット化し、WC培地で2回洗浄し、再度ペレット化した後、DNeasy PowerWater Kit(Qiagen)を用いてDNA抽出を行った。Ligation Sequencing Kit(SQK-LSK-110)を用いてナノポアライブラリーを調製し、R10.4フローセルでシーケンスした。ベースコールはGuppyのSuper Accuracyモードで行った。すべての短いリード(<5 Kbp)を除去した結果、Dinobryon sp.の生データは1 Gbp(103,571リード、N50は9,910、最大長126,523)、Synura sp.の生データは1.2 Gbp(105,081リード、N50は12,177、最大長123,019)となった。これらのリードはFlye v2.9 (58) (settings --nana-hq --meta -g 100m --read-error 0.03 --iterations 3)を用いてアセンブルした。2回目のアセンブルは、EVEアセンブルの成功確率を最大にするため、10kbp以上のリード(49,447リード)を用いてSynura sp.で行った。選択したEVEは、イルミナリード(Synura sp. LO234KEはSRR9203575、Dinobryon sp. L0226KSはSRR9203574)を用いて、Geneious Prime read mapper(リードあたり最大5%ギャップ、最大ミスマッチ5%、近傍にマップされるペアリードのみマップ、最大ギャップサイズ6、15回反復)を用いてポリッシュした。
種内MCP多様性の解析。
単一生物内のEVE MCP遺伝子の多様性を解析するために、P. microporaのゲノム(WGS Accession BJOX01)を選択した。DIAMOND BLASTXのヒット座標を用いて、ヒットしたMCP遺伝子に対応するゲノム領域を抽出した後、MMseqsを用いてヌクレオチド配列をクラスタリングし(30%の長さで50%の同一性)、MUSCLE v3.8.1551を用いて個別にアラインメントした5つの主要なクラスタを形成した(59)。最尤樹はPhyML v3.0(60)を用いて構築し、ITOL (https://itol.embl.de/)を用いて可視化した。
原生生物由来の内在性MCP遺伝子のネットワーク解析。
原生生物ゲノムから一致する全てのMCP遺伝子を検索することを試みた。まず、DIAMOND BLASTXの出力をbedfileに変換し、これらの座標を用いてbettools (61)を用いてアセンブルファイルから対応する領域を検索した。冗長性を減らすため、MCP遺伝子を各ゲノム内で90%の同一性で個別にクラスタ化した(MMseqs設定 -c 0.8 --min-seq-id 0.9)。各ゲノムの各クラスタからの代表的な配列を、MetaGeneMark (-m MetaGeneMark_v1.mod)を用いて遺伝子を予測することにより、正しい読み枠のアミノ酸配列に翻訳した。長さ200aa以上のアミノ酸配列はさらなる解析のために残し、不完全な配列や複数のフレームシフトエラーを持つ配列はネットワーク解析のために破棄した。S. strixの場合、bedtools抽出の前に、bedfile領域を左右に50bpずつ拡張した。この場合、遺伝子予測はProdigal v2.6.3 (62)を用い、翻訳表6をセットした(設定:-g 6)。ネットワーク解析を完了するために、すべてのMaverick-Polinton、Adintovirus、脊椎動物のMaverick、およびメタゲノムで検出されたMCP遺伝子(13-15, 17)をMCPファイルに追加した。解析と結果のネットワークの複雑さを軽減するため、まず脊椎動物のMaverick-Polintonを90%のヌクレオチド同一性でクラスタ化し、メタゲノムで検出されたMCPを70%のアミノ酸同一性でクラスタ化した。Enzyme Similarity Tool (EFI-EST https://efi.igb.illinois.edu/efi-est/) (63)を用いて、all-vs-all blast search (1e-4 cutoff)と最小アラインメントスコア6を用いて配列類似性ネットワークを作成した。ネットワークは、prefuse force-directed layoutを用いてcytoscapeで可視化した。
データ、材料、ソフトウェアの入手
補足生データはhttps://doi.org/10.6084/m9.figshare.21581355 .v3(39)で入手可能であり、1) MCP遺伝子のAlphaFold構造予測(.pdb); 2) HHpredまたはAlphafoldで確認された全てのMCP遺伝子(Fastaフォーマット); 3) Fig. 4 generation; 4) 全ての原生生物ゲノムから検索されたMCP遺伝子; 5) 原生生物ゲノム中の高品質EVE(7382)と関連するアノテーショントラック; 6) Synura sp.とDinobryon sp.からのコンティグを含むナノポアアセンブリーとPLV。 全ての原生生物ゲノム中のEVE MCP遺伝子へのGenBank WGSアクセッション番号と座標は、SI Appendix, Table S5にある。コンティグは https://www.ncbi.nlm.nih.gov/Traces/wgs/?view=wgs から検索できる。
謝辞
ロングリードシーケンス用の培養液は、J. Boenigk(University Duisburg-Essen、ドイツ)の研究室の好意により入手した。Declan Schroederには、原稿についての議論とコメントをいただいた。最後に、本研究で使用した原生生物のシーケンスデータをGenBankで公開してくださった研究者の皆様に感謝する。本研究はオーストリア科学基金(FWF P-34620)の助成を受けた。発表した計算結果は、インスブルック大学のハイパフォーマンス・コンピューティング・インフラLEOを(部分的に)利用して達成された。また、フローニンゲン大学情報技術センターの支援とPeregrineハイパフォーマンス・コンピューティング・クラスターへのアクセス提供にも感謝する。
著者貢献C.B.とR.S.が研究を計画し、C.B.、T.H.、M.-S.P.、M.G.F.が研究を実施し、C.B.、T.H.、M.-S.P.、A.K.、M.G.F.がデータを分析し、C.B.、T.H.、A.K.、M.G.F.、R.S.が論文を執筆した。
利益相反著者らは利益相反がないことを表明している。
参考情報
付録01 (PDF)
ダウンロード
1.47 MB
付録02 (XLSX)
ダウンロード
4.69 MB
データセット S01 (PDF)
ダウンロード
4.18 MB
参考資料
1
C. Feschotte, C. Gilbert, 内在性ウイルス: ウイルスの進化と宿主生物学への影響に関する洞察。Nat. Rev. Genet. 13, 283-296 (2012).

論文・報告等
PubMed
グーグル奨学生
2
A. 動物ゲノムにおける内在性ウイルスエレメント. PLoS Genet. 6, e1001191 (2010).
参考文献へ
クロスリファレンス
パブコメ
グーグル
3
E. S. Landerら、ヒトゲノムの初期配列決定と解析。Nature 409, 860-921 (2001).
参考文献へ
クロスリファレンス
PubMed
グーグル
4
M. モニルザマン、A.R.ワインハイマー、C.A.マルティネス-グティエレス、F.O.アイルワード、巨大ウイルスの広範な内在化が緑藻類のゲノムを形成する。Nature 588, 141-145 (2020).
参考文献へ
クロスレフ
パブコメ
グーグル
5
M. このような背景のもとで、生物種間におけるゲノム変異が、ウイルスによって引き起こされる可能性が示唆された。Virus Evol. 8, veac102 (2022).
参考文献へ
クロスレフ
PubMed
グーグル
6
N. 褐藻Ectocarpus siliculosusのゲノムには一連のウイルスDNA断片が存在する。BMC Evol. Biol. 8, 110 (2008).
参考文献へ
クロスリファレンス
PubMed
グーグル奨学生
7
J. Filée, 真核生物のゲノムが獲得する巨大ウイルスのコア遺伝子の複数出現: Virology 466-467, 53-59 (2014).
Crossref
PubMed
グーグル奨学生
8
F. アカントアメーバと巨大ウイルス間の遺伝子輸送の研究から、アメーバ感染ウイルスの未発見ファミリーが示唆された。Genome Biol. Evol. 8, 3351-3363 (2016).
参考文献へ
クロスレフ
PubMed
グーグル奨学生
9
J. このような遺伝子発現は、遺伝子発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する。Nucleic Acids Res. 30, 2524-2537 (2002).
参考文献へ
クロスリファレンス
PubMed
グーグル奨学生
10
C. 哺乳類以外のc-インテグラーゼは巨大トランスポーザブルエレメントにコードされている。Trends Genet. 21, 551-552 (2005).
参考文献へ
クロスリファレンス
PubMed
グーグル奨学生
11
E. J. Pritham, T. Putliwala, C. Feschotte, Mavericks, a novel class of giant transposable elements widespread in eukaryotes and related to DNA viruses. Gene 390, 3-17 (2007).

クロスレフ
PubMed
グーグル奨学生
12
V. V. Kapitonov, J. Jurka, 真核生物における自己合成DNAトランスポゾン. 真核生物におけるDNAトランスポゾンの自己合成。Natl. Acad. Sci. U.S.A. 103, 4540-4545 (2006).

クロスレフ
PubMed
グーグル奨学生
13
G. J. Starrettら, Adintovirus: このようなウイルスは、動物に感染する可能性がある。Virus Evol. 7, veaa055 (2021).

クロスレビュー
PubMed
グーグル奨学生
14
M. このような遺伝子発現は、遺伝子発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する遺伝子の発現を制御する。Biol. Direct 9, 6 (2014).

クロスレフ
PubMed
Google Scholar
15
J. G. N. Barreat, A. Katzourakis, 脊椎動物のマーベリックウイルス様移動遺伝要素の系統学. Mol. Biol. Evol. 38, 1731-1743 (2021).

クロスレフ
PubMed
グーグル奨学生
16
M. 真核生物のウイルス、トランスポゾン、プラスミド進化の温床: 真核生物のウイルス、トランスポゾン、プラスミド進化の温床。Nat. Rev. Microbiol. 13, 105-115 (2015).

Crossref
PubMed
グーグル奨学生
17
C. ポリントンに似たウイルスは水生生態系に多く存在する。Microbiome 9, 13 (2021).

クロスフィルム
PubMed
グーグル奨学生
18
N. Yutin, S. Shevchenko, V. Kapitonov, M. Krupovic, E. V. Koonin, A novel group of diverse Polinton-like viruses discovered by metagenome analysis. BMC Biol.

Crossref
PubMed
Google Scholar
19
J. M. A. Stoughら、Chrysochromulina parvaウイルスとそのウイルスファージのゲノムと環境活性。Front. Microbiol. 10, 703 (2019).
参考文献へ
クロスレフ
パブコメ
グーグル奨学生
20
E. ウイルス進化学 8, veac068 (2022). Virus Evol. 8, veac068 (2022).

クロスレフ
PubMed
Google Scholar
21
S. Roitmanら、豊富な海洋藻類におけるポリントン・ライク・ウィルス・ウイロファージの単離と感染サイクル。Nat. Microbiol. 8, 332-346 (2023).

論文
PubMed
グーグル奨学生
22
S. Rouxら、virophage分類学の更新とポリントン様ウイルスとの区別。Biomolecules 13, 204 (2023).
参考文献へ
クロスリファレンス
パブコメ
Google Scholar
23
M. ウイルファージとサテライトウイルスの分類システム。Arch. Virol. 161, 233-247 (2016).
参考文献へ
クロスレフ
パブコメ
グーグル奨学生
24
S. Duponchel, M. G. Fischer, Viva lavidaviruses!巨大DNAウイルスに寄生するウイルスファージの5つの特徴。PLoS Pathog. 15, e1007592 (2019).
参考文献へ
クロスレフ
パブコメ
グーグル奨学生
25
B. ラ・スコラ(La Scola)ら、巨大ミミウイルスのユニークな寄生虫としてのウイルスファージ。Nature 455, 100-104 (2008).

クロスフィルム
PubMed
Google Scholar
26
M. G.フィッシャー、C.aサトル、大型DNAトランスポゾンの起源におけるウイルスファージ。Science 332, 231-234 (2011).
Crossref
PubMed
グーグル奨学生
27
M. Zamilon, a novel virophage with Mimiviridae host specificity. PLoS One 9, 1-8 (2014).
参考文献へ
クロスリファレンス
グーグル・スカラー
28
R. Michel et al., Saccamoeba lacustrisにミミウイルス様巨大ウイルスと小型サテライトウイルスを実験的に共感染させた。Endocytobiosis Cell Res. 29, 6 (2018).
Google Scholar
29
Y. 単細胞緑藻類培養によるミミウイルス科の大型緑藻ウイルス(Chlorella Virus XW01)とそのウイルスファージ(Chlorella virus virophage SW01)の単離と同定。J. Virol. 96, e0211421 (2022).
参考文献へ
クロスリファレンス
PubMed
グーグル奨学生
30
T. T.グレベール, A.パガレッテ, R.-A. Sandaa、G. Bratbak、O. Stepanova、Tsv-N1:Tetraselmis striataに感染する新規DNA藻類ウイルス。Viruses 7, 3937-3953 (2015).
参考文献へ
クロスレフ
PubMed
Google Scholar
31
S. 真核生物に感染する最大のDNAウイルスの共通祖先を明らかにしたPhaeocystis globosaウイルスPgV-16Tのゲノム。Proc. Natl. Acad. Sci. U.S.A. 110, 10800-10805 (2013).

クロスレビュー
PubMed
グーグル奨学生
32
M. G. Fischer, T. Hackl, 宿主ゲノム統合と巨大ウイルスによるウイルスファージ・マウイルスの再活性化. Nature 540, 288-291 (2016).
参考文献へ
クロスレフ
PubMed
Google Scholar
33
M. MMseqs2 は、膨大なデータセットの解析のための高感度なタンパク質配列検索を可能にする。Nat. Biotechnol. 35, 1026-1028 (2017).

Crossref
PubMed
グーグル奨学生
34
M. Mirdita et al., ColabFold: タンパク質のフォールディングを誰でも利用できるようにする。Nat. Methods 19, 679-682 (2022).

クロスレビュー
PubMed
グーグル奨学生
35
J. Jumperら、AlphaFoldによる高精度タンパク質構造予測。Nature 596, 583-589 (2021).
参考文献へ
クロスリファレンス
パブコメ
Google Scholar
36
M. van Kempenら, Foldseek: bioRxiv [Preprint] (2022) https://doi.org/10.1101/2022.02.07.479398 (Accessed 11 April 2022).

Google Scholar
37
B. Buchfink、C. Xie、D. H. Huson、DIAMONDを用いた高速かつ高感度なタンパク質アライメント。Nat. Methods 12, 59-60 (2014).

Crossref
PubMed
Google Scholar
38
T. このような研究により、細胞内レトロトランスポゾンが従属栄養鞭毛虫のゲノムをコロニー形成していることが明らかになった。

遺伝子発現
PubMed
グーグル奨学生
39
C. Bellasら、統合DNAウイルスによる原生生物ゲノムへの大規模侵入。Figshare. 2023 https://doi.org/10.6084/m9.figshare.21581355.v3. 2023年3月31日寄託。

グーグル・スカラー
40
M. M. Matsuo et al., large DNA virus promoted the endosymbiotic evolution to make a photosynthetic eukaryote. bioRxiv [Preprint] (2019) https://doi.org/10.1101/809541 (Accessed 2022 October 20).
参考文献へ
グーグル・スカラー
41
D. Lhee et al., Amoeba genome reveals dominant host contribution to plastid endosymbiosis. Mol. Biol. Evol. 38, 344-357 (2021).
参考文献へ
クロスリファレンス
パブコメ
グーグル
42
S. (1)細胞内メタゲノミクスによるStreblomastix strixとその共生細菌の代謝能力の解明。Proc. Natl. Acad. Sci. U.S.A. 116, 19675-19684 (2019).
参考文献へ
クロスレフ
パブコメ
グーグル奨学生
43
W. メタゲノム配列における第一原理遺伝子同定。Nucleic Acids Res. 38, e132 (2010).
参考文献へ
クロスレフ
PubMed
Google Scholar
44
K. 加藤和彦, 三澤和彦, 久間和彦, 宮田俊哉, MAFFT: 高速フーリエ変換に基づく高速多重配列アライメント法。Nucleic Acids Res. 30, 3059-3066 (2002).
参考文献へ
クロスリファレンス
PubMed
グーグル奨学生
45
W. Sen、S. Le、Y. Li、F. Hu、SeqKit: FASTA/Qファイル操作のためのクロスプラットフォームかつ超高速なツールキット。PLoS One 11, e0163962 (2016).
参考文献へ
クロスリファレンス
PubMed
Google Scholar
46
A. R. Quinlan, BEDTools: ゲノム特徴解析のためのスイス軍ツール。Curr. Protoc. Bioinforma. 47, 11.12.1-11.12.34 (2014).
参考文献へ
クロスリファレンス
パブコメ
グーグル
47
S. Yau et al., Virophage control of Antarctic algal hostal-virus dynamics. Proc. Natl. Acad. Sci. U.S.A. 108, 6163-6168 (2011).
参考文献へ
クロスリファレンス
パブコメ
グーグル奨学生
48
M. ミミウイルス科ウイルスファージの広範なスペクトルにより、ミミウイルスレポーターを用いた分離が可能になった。PLoS One 8, e61912 (2013).
クロスフィルタリング
PubMed
グーグル奨学生
49
J. Zhou et al., メタゲノムデータセットにおけるウイロファージの多様性. J. Virol. 87, 4225-4236 (2013).
クロスレビュー
PubMed
Google Scholar
50
J. イエローストーン湖のメタゲノムから発見された3つの新規ウイルスファージゲノム。J. Virol. 89, 1278-1285 (2015).
Crossref
PubMed
Google Scholar
51
N. (1)動物腸管メタゲノムから得られた新しいハイブリッド型ウイロファージファミリー(Yutin, V. Kapitonov, E. V. Koonin). Biol. Direct 10, 19 (2015).
Crossref
PubMed
Google Scholar
52
C. Gong et al., Novel virophages discovered in a freshwater lake in China. Front. Microbiol. 7, 5 (2016).
クロスレフ
PubMed
グーグル奨学生
53
S. を用いた。劉、メタゲノミクスによりチベット山岳湖に新種のウイロファージ集団が存在することが明らかになった。Microbes Environ. 31, 173-177 (2016).
Crossref
PubMed
Google Scholar
54
S. Rouxら、時系列メタゲノミクスによるウイロファージとその巨大ウイルス宿主のエコゲノミクス評価。Nat. Commun. 8, 858 (2017).
Crossref
PubMed
グーグル奨学生
55
D. Paez-Espino et al., Diversity, evolution, and classification of virophages uncovered through global metagenomics. Microbiome 7, 157 (2019).
参考文献へ
クロスレフ
PubMed
Google Scholar
56
M. Steinegger et al., HH-suite3 for fast remote homology detection and deep protein annotation. BMC Bioinformatics 20, 473 (2019).
参考文献へ
クロスレフ
PubMed
Google Scholar
57
H. Li、Minimap2:塩基配列のペアワイズアライメント。バイオインフォマティクス 34, 3094-3100 (2018).
参考文献へ
クロスリファレンス
PubMed
Google Scholar
58
M. Kolmogorov et al: リピートグラフを用いたスケーラブルなロングリードメタゲノムアセンブリ。Nat. Methods 17, 1103-1110 (2020).
参考文献へ
クロスリファレンス
パブコメ
グーグル奨学生
59
R. C. Edgar, MUSCLE: 高精度・高スループットの多重配列アライメント。Nucleic Acids Res. 32, 1792-1797 (2004).
参考文献へ
クロスリファレンス
PubMed
Google Scholar
60
S. Guindonら、最尤系統を推定する新しいアルゴリズムと方法: PhyML3.0の性能評価。Syst. Biol. 59, 307-321 (2010).
参考文献へ
クロスリファレンス
パブコメ
グーグル
61
A. ゲノム上の特徴を比較するための柔軟なユーティリティ群: ゲノム特徴を比較するための柔軟なユーティリティ群。Bioinformatics 26, 841-842 (2010).
参考文献へ
クロスリファレンス
PubMed
グーグル
62
D. Hyatt et al: 原核生物の遺伝子認識と翻訳開始部位の同定。BMC Bioinformatics 11, 119 (2010).
参考文献へ
クロスリファレンス
パブコメ
グーグル奨学生
63
R. ゲノム酵素学ツールのためのEFIウェブリソース: このような研究成果は、生化学、生物学、環境科学、生物学、生物工学の各分野の専門家にとって、非常に有益なものである。Biochemistry 58, 4169-4182 (2019).
参考文献へ
クロスリファレンス
PubMed
Google Scholar
全文を見るpdfをダウンロード
この号でさらに読む
研究論文2023年4月11日
矢状縫合の拡大は骨格幹細胞の増殖を誘導し、内因性腓骨再生を維持する
ザーラ・A・アルダウッド、ルイジ・マンチネッリ、ジュゼッペ・インティーニ、
研究論文2023年4月10日
トランスPD-L1とCD80の相互作用の遮断は抗腫瘍免疫を増強する
張元勲, 宋慶暁, [...]Defu Zeng、
研究論文2023年4月14日
脳微小血管における脳卒中誘発性変化の分子プロファイリングから有望な治療候補が明らかになる
ケリ・カレガリ、サビヤサチ・ダッシュ、[...]テレサ・サンチェス
トレンド
研究論文2023年8月29日
無条件現金給付がホームレス問題を軽減する
ホームレスの中核的な原因はお金がないことであるが、解決策として即時現金支援を提供するサービスはほとんどない。われわれは、ホームレス状態にある個人に対して、1回限り無条件で7,500カナダドルの現金給付を行った。クラスター無作為化比較試験において、我々は、ホームレスの中核的な原因である金銭不足に対処するため、ホームレス状態にある50人に1回限り、7,500カナダドルの無条件現金給付を行った。
ライアン・ドワイヤー, アニータ・パレプ, [...]趙嘉穎、
研究論文2022年12月30日
目で心を読む」テストの英語版を用いた57カ国にわたる「心の理論」の性差と年齢差
心の理論」のパフォーマンス課題である "Reading the Mind in the Eyes "テスト(アイズテスト)に関する(我々の知る限り)これまでで最大規模の研究で、我々はアイズテストの英語版を用いて、4つのユニークなデータセット(合計N = 312,739)を活用した。... "目で心を読む "テスト(アイズテスト)は、"心の理論 "の評価として広く用いられている。NIMHの研究領域基準では、"心の状態を理解する "ための2つのテストのうちの1つとして推奨している。これまでの研究では、「心の理論」の平均的な...
デビッド-M-グリーンバーグ、ヴァルンWarrier、[...]サイモン-バロン-コーエン、
研究論文2023年8月28日
社会的動物の戦争では、複雑な戦場は大軍よりも強力な兵士に有利である
戦争は、ヒトから昆虫に至るまで、社会的種における競争の結果の基本であり、世界的な関心事であり、科学者にも一般の聴衆にも魅力的なものである。理論的には、集団戦が行われる環境は...社会的動物では、成功するかどうかは集団戦の結果に左右される。戦争の理論モデルは、集団戦闘能力は2つの重要な要素、すなわち集団内の各兵士の強さと集団の大きさに比例すると予測している。集団内の各兵士の強さと集団の大きさである。
サミュエル・J・リュンベリー、ブルース・L・ウェバー、ラファエル・K・ディダム
ニュースレター
PNAS Highlights ニュースレター
詳細な科学記事を月2回受信トレイにお届けします。
name@example.com
購読する
PNASロゴ

閲覧
最新号
PNAS NEXUS
特集
コロキア
号外リスト
論文集
ニュース
巻頭特集
ジャーナルクラブ
ポッドキャスト
インフォメーション
Pnasについて
ダイバーシティ&インクルージョン
編集委員会
執筆者
査読者
購読者
図書館員
プレス
コザレリ賞
PNAS更新情報
著作権 © 2023 米国科学アカデミー。無断複写・転載を禁じます。| オンライン ISSN 1091-6490

PNASはCHORUS、CLOCKSS、COPE、CrossRef、ORCID、Research4Lifeのパートナーです。

お問い合わせ サイトマップ 規約とプライバシーポリシー アクセシビリティ
当サイトでは、お客様の利便性を高めるためにクッキーを使用しています。このウェブサイトを利用することで、クッキーの設定に同意したものとみなされます。詳細を見る

リファレンス#1

この記事が気に入ったらサポートをしてみませんか?