見出し画像

真核生物のCD-NTase、STING、バイペリン・タンパク質は、ドメイン・シャフリング、水平移動、原核生物からの古代の継承を経て進化した

研究論文
真核生物のCD-NTase、STING、バイペリン・タンパク質は、ドメイン・シャフリング、水平移動、原核生物からの古代の継承を経て進化した

https://journals.plos.org/plosbiology/article/figures?id=10.1371/journal.pbio.3002436



エドワード・M・カルバートソン、テラ・C・レヴィン

これは未修正のプルーフです。
詳細はこちら
要旨
動物は様々な細胞自律的自然免疫タンパク質を用いてウイルス感染を検出し、複製を防いでいる。最近の研究では、哺乳類の抗ウイルスタンパク質のサブセットが細菌の抗ファージ防御タンパク質と相同性を持つことが発見され、生命の樹全体で共有される自然免疫の側面があることが示唆されている。これらの研究の大半は、細菌性タンパク質の多様性と生化学的機能の特徴づけに焦点が当てられているが、動物と細菌性タンパク質の進化的関係はあまり明確ではない。この曖昧さの一因は、動物タンパク質と細菌タンパク質を隔てる進化的距離が長く、両者の関係が不明瞭であることにある。ここでは、3つの自然免疫ファミリー(CD-NTase [cGASを含む]、STINGs、viperins)について、真核生物全体のタンパク質の多様性を深くサンプリングすることによって、この問題に取り組む。その結果、バイペリンとOASファミリーのCD-NTaseは古くから存在する免疫タンパク質であり、真核生物が誕生した当初から受け継がれてきた可能性が高いことがわかった。一方、その他の免疫タンパク質は、バクテリアから少なくとも4つの独立した水平遺伝子転移(HGT)を経て獲得されたことがわかった。そのうちの2つは藻類がバクテリアのバイペリンを新たに獲得したものであり、さらに2つのHGTイベントによって真核生物のCD-NTアーゼの異なるスーパーファミリーが生まれた。cGASを含むcGLRスーパーファミリーは一連の動物特異的な重複を経て多様化し、eSMODSスーパーファミリーはバクテリアのCD-NTアーゼによく似ているが、これまで未定義であった。最後に、cGASタンパク質とSTINGタンパク質は、細菌と真核生物でSTINGタンパク質のドメインが収斂的にシャッフルされ、実質的に異なる歴史を持っていることがわかった。全体として、我々の発見は、真核生物の自然免疫は非常にダイナミックであり、真核生物は、タンパク質ドメインの再利用を通して、また細菌性抗ファージ遺伝子の豊富なリザーバーを繰り返しサンプリングすることによって、古代の抗ウイルスレパートリーを構築している、という図式を描いている。

引用 Culbertson EM, Levin TC (2023) 真核生物のCD-NTase、STING、およびviperinタンパク質は、ドメインシャッフリング、水平移動、および原核生物からの古代の継承を介して進化した。PLoS Biol 21(12): e3002436.

学術編集者 Michael T. Laub, HHMI, マサチューセッツ工科大学, アメリカ合衆国

受理された: 2023年11月7日受理: 受理:2023年11月7日;受理:2023年11月20日;発行:2023年12月8日 発行:2023年12月8日

著作権:© 2023 Culbertson, Levin. 本論文は、クリエイティブ・コモンズ表示ライセンスの条件の下で配布されたオープンアクセス論文であり、原著者および出典のクレジットを条件として、いかなる媒体においても無制限の使用、配布、複製が許可されている。

データの利用可能性: すべての関連データは論文およびそのSupporting Informationファイル内にある。論文で使用した追加コードはhttps://github.com/MBL-Physiology-Bioinformatics/2021-Bioinformatics-Tutorial-Materials/tree/master/phylogenetics。

資金提供 本研究の一部は、ピッツバーグ大学研究コンピューティングセンター(RRID:SCR_022735)の支援を受けた。具体的には、NIH賞番号S10OD028483の支援を受けたHTCクラスタを使用した。EMCはNSF Postdoctoral fellowship 2208971の支援を受け、TCLはNIH R00AI139344およびR35GM150681の支援を受けた。資金提供者は、研究デザイン、データ収集と解析、発表の決定、原稿の作成には関与していない。

競合利益: 著者らは、競合する利害関係は存在しないと宣言している。

略語:blSTING、細菌様STING;CBASS、環状オリゴヌクレオチドに基づく抗ファージシグナル伝達系;CD-NTase、cGAS-DncV様ヌクレオチジル転移酵素;cGAS、環状GMP-AMP合成酵素;HGT、水平遺伝子移動;HMM、隠れマルコフモデル;LECA、最後の真核生物共通祖先;PAP、ポリ(A)RNAポリメラーゼ;STING、インターフェロン遺伝子刺激因子(Stimulator of Interferon Genes

はじめに
病原体に対する防御の第一線として、すべての生物は脅威を認識し、対抗策で対応するために、細胞自律的な自然免疫に依存している。最近まで、自然免疫の多くの構成要素は系統特異的であると考えられていた [1]。しかし新たな研究により、哺乳類の抗ウイルス免疫に使われるタンパク質の数が増え続け、バクテリオファージ感染を撃退するために使われる細菌免疫タンパク質と相同性を持つことが明らかになった。このリストには、アルゴノート、CARDドメイン、cGASやその他のCD-NTase、死様ドメイン、ガスダーミン、NACHTドメイン、STING、SamHD1、TRADD-Nドメイン、TIRドメイン、viperinなどが含まれる[2-13]。おそらく、これらの細菌防御システムから得られた最もエキサイティングな発見のひとつは、これらの細菌タンパク質が担う非常に多様な生化学的機能であろう。例えば、細菌cGAS-DncV様ヌクレオチジルトランスフェラーゼ(CD-NTase)は、環状ヌクレオチドメッセンジャー(cGASに類似)を生成するが、現在までに6,000以上のCD-NTaseタンパク質が発見されており、非常に多様である。動物のcGASタンパク質が産生する環状GMP-AMPシグナル以外にも、細菌のCD-NTアーゼは、環状ジヌクレオチド、環状トリヌクレオチド、直鎖オリゴヌクレオチドなど、幅広いヌクレオチドシグナルを産生することができる[11,14]。これらの細菌のCD-NTase産物の多くは、ウイルス感染に対する細菌の防御に重要である [8]。興味深いことに、CD-NTアーゼに関するこれらの発見は、細菌のバイペリンで発見されたことと同じである。哺乳類では、バイペリンタンパク質は3′-デオキシ-3′,4′-ジデヒドロ(ddh)ヌクレオチドを生成することによってウイルス複製を制限し[4,15-17]、RNA合成を阻害し、それによってウイルス複製を阻害する[15,18]。哺乳類のバイペリンはddhCTP分子を生成するが、細菌のバイペリンはddhCTP、ddhUTP、ddhGTPを生成する。場合によっては、1つの細菌タンパク質がこれらddh誘導体の2つまたは3つを合成できることもある[4]。これらの発見は、いくつかの細胞防御には生命の樹全体にまたがる深い共通性があり、多様な微生物系統の中でさらに新しい免疫機構が発見されるのを待っていることを示唆しているからである。しかし、かなりの相同性があるにもかかわらず、これらの細菌と動物の免疫タンパク質は、しばしば分子機能が異なり、劇的に異なるシグナル伝達経路で作動している(総説はこちら[5])。では、動物やその他の真核生物は、どのようにしてこれらの免疫タンパク質を獲得したのだろうか?

この分野で一般的な仮説のひとつは、これらの免疫タンパク質は古くから存在し、バクテリアと真核生物の最後の共通祖先以来受け継がれてきたというものである [5]。また、バクテリアと真核生物の間の水平遺伝子転移(HGT)が、この類似性を説明するために引き合いに出されることもある[6,19]。しかし、この分野のほとんどの論文は、新しい細菌免疫遺伝子をゲノムデータベースから検索し、生化学的に特徴付けることに焦点を絞っているため、真核生物におけるこれらのタンパク質の進化については、それほど十分に調べられていない。

我々は、動物免疫と細菌免疫に共通する3つの遺伝子ファミリーの祖先を調査した: インターフェロン遺伝子刺激因子(STING)、環状GMP-AMP合成酵素(cGAS)、およびそのCD-NTaseファミリー、そしてバイペリンである。STING、CD-NTase、viperinは、それぞれ下流の免疫遺伝子を活性化したり、ウイルス感染を感知したり、ウイルスプロセスを破壊したりすることによって、ウイルスのライフサイクルを阻害する、抗ウイルス免疫モジュールとして機能するインターフェロン刺激遺伝子である[20]。我々がcGAS、STING、viperinに注目した理由はいくつかある。第一に、後生動物ではcGASとSTINGは同じシグナル伝達経路の一部であるが、細菌のCD-NTaseはしばしば細菌のSTINGとは独立して作用する[21]。また、細菌のCD-NTアーゼの多様性は膨大であることから、真核生物がcGASとは異なるCD-NTアーゼを獲得しているかどうかについても興味があった。同様の理由で、真核生物ではより狭い範囲でしか機能しないが、バクテリアでは多様性のあるバイペリンについても調べた。

その結果、真核生物のCD-NTaseはバクテリアと真核生物の間で何度もHGTが繰り返された後に生まれたことがわかった。一方、OAS様タンパク質は独立に獲得されたもので、ほとんどの真核生物で見られるCD-NTaseの主流である。これとは別に、我々は真核生物のSTINGタンパク質が分岐し、メタゾアンとバクテリアのSTINGの進化的ギャップを埋めていること、またバクテリアと真核生物が収束的ドメインシャッフリングによって類似タンパク質を獲得した2つの例を発見した。最後に、バイペリンはLECA以前から存在していた可能性が高く、真核生物の生命樹全体に広く分布していること、また真核生物が最近新たに細菌のバイペリンを獲得した2つのHGT事象の証拠があることがわかった。全体として、我々の結果は、バクテリアと真核生物の間で共有される免疫タンパク質は進化的にダイナミックであり、真核生物はこれらの古代の免疫モジュールを獲得し、展開するために複数のルートをとっていることを示している。

研究結果
真核生物の生命樹を横断する免疫ホモログの発見
CD-NTase、STINGs、viperinsの進化を理解するための最初のステップは、真核生物の樹木全体からこれらのタンパク質の配列を取得することであった。多様な免疫ホモログを探索するために、我々は隠れマルコフモデル(HMM)戦略を採用した。HMMは感度が高く、偽陽性の数が少なく、同じタンパク質内の複数の(独立に進化している可能性のある)ドメインを別々に解析する能力を持つ[22-24]。EukProtデータベースは、真核生物の多様性の真の範囲を反映するために開発されたもので、真核生物の樹にまたがるように特別に選択された約1,000種のゲノムとトランスクリプトームから構成されている[25]。EukProtはNCBIとEnsembleの配列に加え、他のデータベースにはない多くの分岐した真核生物種を含んでおり、真核生物の多様性を示すユニークなリソースとなっている[25]。従来のデータベースでは、真核生物の多様な配列を取得することは困難であったが、EukProtでは、メタゾアンのデータが過剰に反映されているため[26]、従来過剰に反映されていた分類群をダウンサンプリングすることで、このバイアスを改善している。

最初の動物のホモログから、より一般的な真核生物の配列まで検索範囲を広げるために、EukProtデータベースの反復HMM検索を使用し、各検索からのヒットを後続のHMMに組み込んだ。このアプローチで各タンパク質ファミリーについて汎真核HMMを作成した後、細菌のホモログを加えてユニバーサルHMMを作成し(図1AおよびS1)、新しいタンパク質配列が見つからないか、目的のファミリー以外のタンパク質が見つかるようになるまで、繰り返し検索を続けました(S1図)。目的のタンパク質を近隣の遺伝子ファミリーから分離する境界を定義するために、そのファミリーを定義するタンパク質ドメインを共有し(ドメインの指定については材料と方法を参照)、系統樹上でアウトグループ配列よりもイングループ配列に近いホモログを含めることに焦点を当てた(アウトグループ配列は材料と方法に記載)。

CD-NTase、STINGs、viperinsを検索した結果、各ファミリーから数百の真核生物タンパク質が回収され、その中には特に多くのメタゾアンの配列が含まれていた(図1Bの赤いバー)。これらのタンパク質はそれぞれ後生動物で発見され、特徴づけられたものであり、これらの動物ゲノムは他の分類群よりも質が高い傾向があるので(S2 Fig)、メタゾアンのホモログがこれほど多く見つかったことは驚くべきことではない。我々はまた、真核生物の樹上に広がる他の種からもホモログを回収し、我々のアプローチが深く分岐したホモログをうまく同定できることを実証した(図1B)。しかしながら、メタゾア以外では、これらのホモログはまばらに分布しており、我々のデータセットに含まれるほとんどの種(711/993)について、調べた3つの免疫ファミリーのいずれからもタンパク質を回収することはできなかった(白いスペース、色のついたバーがない、図1B)。これらの欠落の一部は、技術的なエラーやデータセットの不完全さによるものかもしれないが(S2 Fig)、我々はこのパターンを、他の自然免疫タンパク質[27-29]や、真核生物全体で調査された他のタイプの遺伝子ファミリー[28,30-32]で見つかっているように、真核生物全体で継続的に繰り返される遺伝子損失の反映と解釈している。実際、免疫ホモログを欠く種の多くは、質の高いデータセットで表現されていた(例:後生動物、葉緑体、菌類)。従って、我々のアプローチがいくつかのホモログを見逃している可能性は常にあるが、得られたデータは、少なくとも現在EukProtに含まれている種については、真核生物全体の多様性の公正な評価を表していると考えている。

拡大サムネイル
図1. HMM検索による真核生物のTree of Life全体にわたるホモログの検索。
(A)HMM検索プロセスの概略図。各タンパク質ファミリーの動物優位の初期HMMプロファイルから始め、EukProtデータベースの反復HMM検索を用いて汎真核生物HMMを生成した。これらをバクテリアの配列と組み合わせることで、真核生物におけるバクテリアに似たホモログを発見することができた。各検索セットは、真核生物の追加配列がほとんど、あるいは全く回収されなくなるまで繰り返された。(B)主要なスーパーグループを色分けした真核生物の系統樹。各グループの色の付いた長方形の高さは、EukProtにおけるその種の表現に比例している。STING、CD-NTase、viperinのホモログが見つかった各真核生物種を水平の色付きバーで示す。白いスペースは、検索したがホモログが見つからなかった種を示す。ヒットしたCD-NTaseは、図2で定義した3つの真核生物スーパーファミリーに分けられた。個々のデータはS1ファイルにある。CD-NTase, cGAS-DncV-like nucleotidyltransferase; HMM, hidden Markov model; STING, Stimulator of Interferon Genes.

doi:10.1371/journal.pbio.3002436.g001

詳細 "
真核生物は複数の独立したHGTイベントを通じて細菌からCD-NTaseを獲得した
われわれは次に、cGASとそのCD-NTase酵素ファミリーから始めて、自然免疫タンパク質の進化を研究した。感染や細胞損傷後、cGASは細胞質DNAと結合し、サイクリックGMP-AMP(cGAMP)を生成し[33-36]、STINGを介して下流の免疫応答を活性化する[35,37-39]。もう一つの真核生物のCD-NTaseである2′5′-オリゴアデニル酸シンテターゼ1(OAS1)は、リボヌクレアーゼL(RNase L)と結合して活性化する2′,5′-オリゴアデニル酸を合成する[40]。活性化されたRNase Lは強力なエンドリボヌクレアーゼで、宿主とウイルスの両方のRNAを分解し、ウイルスの複製を減少させる(総説[41,42])。DncVのような細菌のCD-NTアーゼの中には、動物のcGASに似た働きをするものがある。それらはファージ感染によって活性化され、cGAMPを産生する [8,21,43]。このようなCD-NTaseは、多くの細菌門や古細菌において、環状オリゴヌクレオチドに基づく抗ファージシグナル伝達系(CBASS)内で一般的に見つかっている [8,21,44]。

よく研究されているcGASに加えて、真核生物のCD-NTaseは、OAS1パラログ(OAS2/3)、Male abnormal 21-Like 1/2/3/4 (MAB21L1/2/3/4)、Mab-21 domain containing protein 2 (MB21D2)、Mitochondrial dynamics protein 49/51(MID49/51)、Inositol 1,4,5 triphosphate receptor-interacting protein 1/2 (ITPRILP/1/2)など、数多く報告されている[44]。これらのうち、cGASとOAS1が最もよく特徴付けられており、両者とも免疫シグナル伝達に関与している。最近の研究では、cGASと関連する動物タンパク質であるcGAS様受容体(cGLR)は、ほぼ全ての後生動物分類群に存在し、多様な環状ジヌクレオチドシグナルを生成することが示されている [45] 。しかし、Mab21L1とMB21D2の免疫機能は不明なままであり、Mab21L1は発生に重要であることが示されている[46-48]。

真核生物のCD-NTaseの進化の歴史を解析するために、EukProt v3でホモログを検索し、系統樹を作成した。MAFFTとMUSCLEでホモログを整列し、IQtree、FastTree、RaxMLで系統樹を作成した(材料と方法参照)。遺伝子ごとに生成された6本の木の大部分で一致した場合、結果は頑健であるとみなした。

真核生物のCD-NTaseの配列検索を開始するために、cGASの主要な触媒ドメインを表すPfamドメインPF03281を出発点として使用した。代表的な細菌性CD-NTaseとして、CD-NTaseの多様性の広い範囲を表す6,132の細菌配列を使用した[21]。反復HMM検索の結果、109の真核生物から313の配列が得られ、そのうち34は後生動物であった(S30, S31 and S32 Files and Fig 1B)。系統樹の中で、ほとんどの真核生物の配列は2つの異なるスーパーファミリーのいずれかにクラスター化した:cGLRスーパーファミリー(クレードで定義され、Mab21 PFAMドメインを含む:PF03281)またはOASスーパーファミリー(OAS1-C:PF10421)(図2A)。細菌のCD-NTaseは通常、セカンドメッセンジャーオリゴヌクレオチドまたはジヌクレオチド合成酵素ドメイン(SMODS: PF18144)のHMMと一致する配列を持っていた。

拡大サムネイル
図2. 独立したHGTイベントにより、複数のCD-NTaseスーパーファミリーが生まれた。
(A)真核生物と細菌の多様性にまたがるCD-NTaseのIQtreeによる最尤系統樹。cGLRスーパーファミリー(赤、左上)は、cGASを含む多くのパラログを持つ、動物特有の革新的なものである。対照的に、他のほとんどの真核生物系統はOASスーパーファミリーのCD-NTaseをコードしている(多色、右上)。比較的小さなeSMODSスーパーファミリー(ピンク、左下)は、クレードDの細菌と真核生物の間の最近のHGTから生じたと考えられる。細菌のCD-NTase配列は灰色で示す。真核生物の配列は、図1Bと同様に真核生物のスーパーグループに従って色分けされている。ツリーは細菌クレードA、B、G、Hと残りの細菌CD-NTaseを分離する枝に任意に根を張っている。(B)メタゾア(左)または非メタゾア真核生物(右)において、少なくとも1つのSTING、cGLR、および/またはOASホモログが検出された種の数を示すベン図。(C) (A)のCD-NTase系統樹の拡大図。クレードCの細菌CD-NTaseの中でOASスーパーファミリーが分岐する領域(グレーの枝)を示す。(D)真核生物に何度も水平移動し、cGLRスーパーファミリーとeSMODSスーパーファミリーの両方を生み出したクレードDのCD-NTase(グレーの枝)を示す拡大図。IQtreeによって決定された超高速ブートストラップを主要ノードに示す。CD-NTaseの系統樹はS4 Figを参照。基礎となるNewickファイルはS2ファイルに含まれている。あるホモログ(図2B)のCD-NTaseがどの種であるかについての追加情報はS1ファイルにある。CD-NTase, cGAS-DncV-like nucleotidyltransferase; cGAS, cyclic GMP-AMP synthase; HGT, horizontal gene transfer; STING, Stimulator of Interferon Genes.

doi:10.1371/journal.pbio.3002436.g002

詳細 "
cGLRスーパーファミリーは、アメーバ動物、襟鞭毛虫、その他の真核生物からわずかなホモログを持つだけで、ほぼ完全にメタゾアンの配列で構成されている(図2A)。実際、動物CD-NTaseの大部分(cGAS、Mid51、Mab21、Mab21L1/2/3/4、Mb21d2、ITPRI)は、動物特有の重複を繰り返して生じたcGLRスーパーファミリーのパラログである[49](S4 Fig)。対照的に、動物が支配的なcGLRスーパーファミリーとは異なり、OASスーパーファミリーは真核生物の幅広い分類群にまたがっており、8/12の真核生物スーパーグループにOAS様ホモログが存在する。このような分布から、OASタンパク質は真核生物全体に見られる最も一般的なCD-NTaseであり、真核生物の歴史において非常に早い時期、おそらくLECA以前に生じたことが示唆される。

動物といくつかの細菌においてcGASとSTINGの間につながりがあることから[3,21,50]、STINGをコードする生物種がcGLRおよび/またはOASタンパク質も持っているかどうかを調べた。cGLRスーパーファミリーは動物に特異的であるため、メタゾア(Metazoa)またはすべての非メタゾア(Metazoan)真核生物で別々にこの解析を行った(図2B)。STINGホモログが見つかった動物種では、通常cGLRスーパーファミリーの配列も見つかり(32/34)、特に(26/34)種ではcGASホモログも見つかった(図2B)。我々はまた、検出可能なSTINGホモログを持たないcGLR様配列を持つ19の後生動物種を観察した。これらの種のほぼ半数(10/19)は節足動物であり、節足動物にSTINGが少ないという先行研究結果と一致している[50]。我々は、EukProt v3において8/19の節足動物種にSTINGホモログを発見したが、これにはDrosophila melanogaster、Apis mellifera、Tribolium castaneumの以前に同定されたSTINGが含まれていた[50,51]。動物以外では、STINGホモログを持つ生物種は通常、いずれのスーパーファミリーからも検出可能なCD-NTaseタンパク質を持たないことがわかった(22/34)。これらのSTINGタンパク質が、我々のデータセットにはなかった、これから発見されるCD-NTaseと一緒に機能している可能性は残っているが、それゆえ我々は、後生動物以外の多くの真核生物とその近縁種[52]は、STINGとCD-NTaseのホモログを互いに独立に使っているという仮説を立てた。

真核生物のCD-NTaseの進化的起源は?興味深いことに、cGLRとOASスーパーファミリーは互いに遠縁にある。それぞれは異なる、以前に定義された細菌CD-NTaseクレードの中にある(図2Cと2D)。OASスーパーファミリーは細菌クレードCに属し(最も近縁の細菌CD-NTaseはサブクレードC02-C03のものである、図2C)、一方、メタゾアンのcGLRスーパーファミリーは細菌クレードD(サブクレードD12)に属している(図2D)。このツリー(図2D)では、クレードDは1つのまとまったクレードを形成していない。

また、異なる細菌CD-NTaseクレードに散在する多くの真核生物の配列も観察された(図2A、グレーのクレード内の色のついた枝)。これらのいくつかは追加のHGT事象を反映しているかもしれないが、他のものは真核生物配列の細菌汚染などの技術的アーチファクトに由来する可能性が高い。このような偽陽性のHGTコールを最小化するために、我々の解析では保守的なアプローチをとり、以下の場合のみバクテリア-真核生物のHGTイベントの可能性を信頼できるとみなした: (1)真核生物とバクテリアの配列が、強い支持(ブートストラップ値>70)を得て互いに隣接して分岐している;(2)真核生物の配列が、同じ真核生物のスーパーグループから少なくとも2つの種によって代表される、明確なサブクレードを形成している;(3)真核生物の配列が、少なくとも2つの異なる研究によって作成された;そして(4)水平移動した配列の位置が、使用したすべてのアラインメントと系統的再構築方法にわたってロバストであった(S3A図)。トランスクリプトームのみで表される生物種については、これらの基準では、真核生物-細菌HGTを、真核生物に関連した細菌共生体の長期的な存在などの特定のシナリオと区別することはまだ難しいかもしれない。しかしながら、これらの基準は比較的古いHGT事象に焦点を当てることを可能にするので、これらの事象が実在する可能性が高いという確信を与えてくれる。

cGLRスーパーファミリーは、4つのHGTの閾値すべてに合格し、またCD-NTaseの別の真核生物クレードも合格した。このスーパーファミリーの各配列のhmmscanによるスコアのトップがSMODSドメイン(PF18144)であったため、このクレードを真核生物SMODS(eSMODS)スーパーファミリーと名付けた(S25ファイル)。この配列の類似性は、eSMODSがバクテリアからの最近のHGTの後に生じたこと、および/またはこれらのCD-NTaseが真核生物のOASファミリーやcGLRファミリーよりもバクテリアの前任者からあまり分岐していないことを示唆している。さらに、全てのeSMODS配列はヌクレオチジルトランスフェラーゼドメイン(PF01909)を持ち、(8/12)はポリメラーゼベータドメイン(PF18765)を持つと予測され、これらはクレードD、E、Fの多くの細菌性CD-NTaseと共有される特徴である(S25ファイル)。eSMODSスーパーファミリーは、アメーバ動物、襟鞭毛虫、Ancryomonadida、および1つの動物(海綿動物Oscarella pearsei)からの配列で構成され、これらは細菌クレードD(例えば、Myxococcus xanthus由来のCD-NTase 22であるサブクレードD04)内で、高い支持(99の超高速ブートストラップ値)で頑健にクラスタリングされた(S4図)。樹上におけるeSMODSの配置は、使用したすべてのアラインメントと系統的アルゴリズムに対してロバストであった(S3A Fig)ことから、eSMODSはバクテリアからのCD-NTaseの追加的な独立した獲得物であることが示唆された。

細菌のクレードCとクレードDのCD-NTアーゼは、環状トリヌクレオチドを生産する唯一のCD-NTアーゼであり、それぞれ環状トリ-アデニル酸とcAAGを生産する[11,14,53,54]。興味深いことに、OASは直鎖状のアデニル酸を産生するが、これは以前に特徴づけられたクラスC CD-NTaseが産生するcAAA産物から一段階離れたものであり、同様にcGAMP(cGASによって産生される)は、クレードDの産物cAAGから一段階離れたアデニル酸である。この原稿を書いている時点では、eSMODSとcGLRスーパーファミリーに最も近いクレードDのCD-NTase(それぞれD04とD12)の特性はよく分かっていない。したがって、これらのCD-NTaseは、真核生物が細菌性免疫タンパク質を獲得するための進化の足がかりを示唆する可能性があるため、今後の研究の焦点となるべきであると主張する。

真核生物のSTINGが細菌と動物の橋渡しをする
次に、STINGタンパク質の解析に目を向けた。動物では、STINGは重要な環状ジヌクレオチドセンサーであり、ウイルス、細菌、寄生虫感染の際に重要である(総説はこちら[55])。構造的には、ほとんどの後生動物のSTINGは、C末端のSTINGドメインに融合した4つのαヘリックスからなるN末端の膜貫通ドメイン(TM)から構成されている [56]。正統的な動物のSTINGは、細菌のCBASSからのSTINGエフェクターと遠い相同性を示すが、これらの動物と細菌の防御の間には、タンパク質構造と経路機能において大きな違いがある。例えば、細菌では、STINGタンパク質の大部分はSTINGドメインとTIR(Toll/インターロイキン-1受容体)ドメインとの融合体である(図3A)。細菌のSTINGタンパク質は、環状ジGMPを認識し、活性化するとオリゴマー化し、TIRの酵素活性を促進する[3,57,58]。フラボバクテリウム科などのいくつかの細菌は、STINGドメインを膜貫通ドメインに融合したタンパク質をコードしているが、これらの細菌のTM-STINGがどのように機能するかは不明である [3]。他の細菌は、STINGドメインとデオキシリボヒドロラーゼ、α/β-ヒドロラーゼ、またはトリプシンペプチダーゼドメインとの融合体を持っている[19]。真核生物のTM-STINGに加えて、カキのCrassostrea gigasのような少数の真核生物はTIR-STING融合タンパク質を持つが、そのTIRドメインの正確な役割はまだ不明である [3,51,59]。

拡大サムネイル
図3. 多様な真核生物のSTINGタンパク質は、後生動物と細菌の橋渡しをしている。
(A)STINGタンパク質に共通するドメイン構造を図式化したもの。(B)メタゾアとバクテリアのSTINGドメインの最尤根なし系統樹。黒い点(-)は以前に実験的に特徴づけられたタンパク質を示す。細菌配列は灰色、動物配列は赤色。 (C) 多様な真核生物のSTINGドメインに対する反復HMM検索からヒットした最尤根なし系統樹。多様な真核生物のblSTINGからのSTINGドメインは細菌と動物のSTINGの間の長い枝を分断している。示されたSTINGタンパク質の構造は上に示されており、AlphaFoldによって予測されたものはアスタリスクで示されている。X線結晶構造を持つホモログは[3,87]による。細菌と真核生物には2つのドメイン構造が存在し(TIRドメインに連結したSTINGと膜貫通ドメインに連結したSTING)、それぞれドメインシャッフリングによって収束的に進化してきた。IQtreeによって決定された超高速ブートストラップを主要ノードに示す。真核生物の配列は、図1Bのように真核生物グループに従って色分けされている。完全なSTING系統樹はS5図を参照。基礎となるNewickファイルはSupporting information(S3ファイルおよびS4ファイル)に含まれている。AlphaFoldで予測された構造も、Supporting informationに含まれている(S6 File, S7 File, S8 File)。 blSTING, バクテリア様STING; HMM, 隠れマルコフモデル; STING, Stimulator of Interferon Genes。

doi:10.1371/journal.pbio.3002436.g003

詳細 "
ドメイン構造、リガンド、下流の免疫応答に大きな違いがあることを考えると、動物や細菌はSTINGに基づく防御をどのように進化させてきたのだろうか?この研究に先立ち、動物と細菌のSTINGの系統的関係を高い支持率で特徴づけることは困難であった[19]。実際、これまでに知られている動物と細菌のSTINGドメインの系統樹を作成したところ、メタゾアンの配列は細菌の配列と非常に長い枝で隔てられており、その枝に沿って多くの変化が起こっていることがわかった(図3B)。

より多様な真核生物のSTING配列を含めることによって系統樹を改善するために、我々はまず、細菌と動物のSTING間で相同性のあるSTINGの領域を注意深く同定することから始めた。PfamドメインPF15009(TMEM173)は動物のSTINGドメインを定義するのに一般的に使われているが、このHMMは細菌のSTINGには共有されていないSTINGの膜貫通ドメインの一部を含んでいる。そこで、HsSTING (6NT5)、Flavobacteriaceae sp. STING (6WT4)、およびCrassostrea gigas STING (6WT7)の結晶構造を比較し、コアとなる "STING "ドメインを定義した。6NT5の残基145-353に対応する領域を、PF1500915の15個のSTING配列(InterPro上の "Reviewed "配列)の最初のHMMシードアラインメントとして使用した。検索した結果、64種から146の真核生物配列が得られ、その中には34の後生動物からのSTINGホモログが含まれていた(S31ファイルおよび図1)。STINGドメイン単独で最尤系統樹再構築を行ったところ、26の多様な微小真核生物からSTING様配列が同定され、そのSTINGドメインは細菌とメタゾアンの配列の間にクラスターを形成し、長い枝を分断した。これらの配列はバクテリア様Prok_STINGドメイン(PF20300)を持つ唯一の真核生物STINGsグループであり、また樹上ではバクテリアSTINGsとの枝の長さが短い(0.86対1.8)ことから、バクテリア様STINGs(blSTINGs)と名付けた(図3C)。以前の研究で、STINGドメインは真核生物2種(Stramenopilesの1種とHaptistaの1種)にあると報告されたが[19]、我々はこのセットをさらなる種に拡大し、アメーバ動物、リザリア、襟鞭毛虫からもblSTINGを回収することができた。この多様性により、高い信頼性(ブートストラップ値>70)で配列をツリー上に配置することができ、以前の研究[19]とは大幅に異なるツリーを回復した。CD-NTaseに関しては、我々が復元した樹形トポロジーは、複数の異なるアラインメントと系統樹構築アルゴリズムにわたって頑健であった(S3A Fig)。

blSTINGsのSTINGドメインとバクテリアのSTINGsのドメインが似ていることから、次にHmmscanとAlphaFoldを用いて、これらのタンパク質のドメイン構造が似ているかどうかを調べた。新しい真核生物blSTINGの大部分は、ヒトSTINGと同様に4つのN末端αヘリックスを持つと予測された(図3C、S5ファイル、S6ファイル)。細菌のTM-STINGは表面的にはN末端膜貫通ドメインに似ていたが、これらのタンパク質は2つのαヘリックスしか持たないと予測され、すべての系統樹において、細菌のTM-STINGからのSTINGドメインは真核生物のホモログよりも他の細菌のSTINGに似ていた(S3A図)。これらの結果は、真核生物と細菌が独立に、ドメインシャッフリングによって共通のTM-STINGドメイン構造に収束したことを示唆している。

興味深いことに、同じようなパターンの収束的ドメインシャッフリングが、TIR-STINGタンパク質でも二度目に起こったようである。カキのC. gigasのようないくつかの真核生物は、TIR-STING融合タンパク質を持つ[3,51,59]。これらのTIR-STINGのSTINGドメインは、他の後生動物のSTINGと密接にクラスター化しており、動物由来であることが示唆された(図3B)。我々はまた、C. gigasがそのTIR-STINGタンパク質のTIRドメインをバクテリアからHGTで獲得した可能性についても調べた。しかし、C. gigasのTIRドメインは、ホモ・サピエンスのTICAM1や2のような他の後生動物のTIRドメインとクラスターを形成しており(超高速ブートストラップ値75)、この解析でもTIRドメインの動物起源が示唆された(S7図)。真核生物のTIR-STINGもまたまれであり、このタンパク質が最近の収束によって生まれたという仮説をさらに支持している。このタンパク質は、動物が独立してSTINGとTIRドメインを融合させ、細菌のTIR-STINGに似たタンパク質を作ったというもので、以前の報告と一致している[19]。全体として、私たちが構築した系統樹(図3C)は、細菌と真核生物のSTINGの間にドメインレベルの相同性があることを示唆しているが、数が少なく適切なアウトグループがないため、この樹はSTINGドメインの真核生物起源を明確に説明するものではない。しかしながら、このデータは、真核生物と細菌における収束的ドメインシャッフリングが、TM-STINGタンパク質とTIR-STINGタンパク質を独立に生成したというモデルを明確に支持している。興味深いことに、Stramenopiles、Haptista、Rhizaria、Choanoflagellates、Amoebozoaに見られる非メタゾアのblSTINGs(図3C)は、動物のSTINGsに似たTM-STINGドメイン構造を持つが、細菌のSTINGsにより近いSTINGドメインを持つ。

バイペリンは古くから広く存在する免疫ファミリー
バイペリンは、ヌクレオチドを3′-デオキシ-3′,4′-ジデヒドロ(ddh)ヌクレオチドに変換することにより、多様なウイルスの複製を制限する自然免疫タンパク質である[4,15-17]。これらのddhヌクレオチドが新生RNA分子に組み込まれると、鎖が終結し、RNA合成が阻害され、ウイルスの複製が阻害される[15,18]。メタゾアのバイペリンは、CTPからddhCTPへの変換を特異的に触媒するが [15]、古細菌やバクテリアのホモログは、ddhCTP、ddhGTP、ddhUTPを生成することができる [4,60]。これまでの構造解析と系統解析から、真核生物のバイペリンは配列レベルでも構造レベルでも高度に保存されていることが示され、系統学的には、動物や真菌のバイペリンは細菌のバイペリンと比較して明確な単系統クレードを形成していることが示された[4,16,60]。

バイペリンタンパク質は単一のRadical SAMタンパク質ドメインから構成されているため、ドメインPF04055(Radical_SAM)から始まるEukProtを繰り返し検索した。その結果、真核生物の多様性を網羅する158の生物種から、194個のバイペリン様タンパク質が見つかった。この中には、真核生物の主要なスーパーグループに属する生物から、分類学的に未解決のオーファン分類群(図1、Ancyromonadida、Hemimastigophora、Malawimonadida)まで含まれている。これらの配列から系統樹を作成したところ、真核生物の毒蛇の大部分は、細菌や古細菌の毒蛇とは別の、単一の単系統のクレードにまとまっていることがわかった(図4)。真核生物のバイペリン・クレードの中では、より近縁の真核生物の配列がしばしば一緒になっている(図4、色分けされたブロック)。これは、バイペリンが真核生物内に長期間存在し、垂直的に遺伝していた場合に予想されることである。膨大な種の多様性とツリーのトポロジーの両方が、バイペリンが真に古代の免疫モジュールであり、おそらくLECAまでさかのぼる真核生物の系統に存在していたという推論を強く支持している。

拡大サムネイル
図4. バイペリンは深く保存された自然免疫モジュールである。
真核生物、細菌、古細菌のバイペリンをIQtreeで作成した最尤系統樹。すべての主要な真核生物のスーパーグループには、バイペリンホモログをコードする少なくとも2つの生物種が存在する(色のついたスーパーグループ)。真核生物の配列は、図1Bのように真核生物のグループに従って色分けされている。細菌のバイペリン配列は灰色で、古細菌の配列は濃い灰色で示した。細菌クレード内で強固に分岐する(超高速ブートストラップ値80以上)葉緑体(古細菌のグループ)配列が2クレードある。IQtreeによって決定された超高速ブートストラップを主要ノードに示す。ツリーは主要な真核生物クレードと細菌クレードの間で任意にルートされている。完全な注釈付きバイペリン系統樹はS6図を参照。根拠となるNewickファイルは、Supporting informationのS8 Fileに含まれている。

doi:10.1371/journal.pbio.3002436.g004

詳細 "
この深い真核生物の祖先に加え、われわれはバクテリア-真核生物のHGTの2つの例を発見した。最初の例は、クロロクラドス・アウストラリカス(Chloroclados australicus)やネメリス・デュメトーサ(Nemeris dumetosa)などの海藻からなるアルカプラスチダの小さなクレード(クレードA)である。これらの藻類の毒蛇は、海洋性シアノバクテリアのAnabaena cylindricaやPlankthriodiesと密接にクラスターを形成している(図4とS6)。2番目のクレード(クレードB)には、Archaeplastida属の緑藻類4種が含まれ、そのほとんどがクラミドモナス属である。いくつかのツリーでは、クレードBのバイペリンは、他の真核生物スーパーグループの真核生物配列の近くで分岐していた。しかし、隣接する真核生物配列の配置は、使用したアルゴリズムによって異なり、Archaeplastidaの配置だけが一貫していた(図4、S3A、S6)。これらを総合すると、バイペリンはLECA時代から真核生物に存在していた可能性が高い、古代の免疫タンパク質の一群であると結論づけられる。しかし、真核生物の間でも、真核生物とバクテリアの間でも、HGTを介したバイペリンの進化的革新が進行中であることもわかった。

考察
バクテリアと哺乳類が自然免疫のメカニズムを共有しているという最近の発見は驚くべきものであった。しかし、なぜこのような類似性が存在するようになったのだろうか?ここでは、動物とバクテリアが相同な免疫タンパク質を共有するようになった進化の軌跡をいくつか明らかにする(図5に要約)。その結果、バイペリンの起源は少なくともLECAまでさかのぼり、さらにさかのぼる可能性が高いことがわかった。この発見は、バイペリンの歴史を古細菌まで延長した2つの研究によって最近確認された[61,62]。また、STINGのように、古代のドメインがシャッフルされることによって、動物と細菌がそれぞれ独立に類似したタンパク質構造にたどり着いた収束の例も発見された。最後に、バクテリアと真核生物のHGTによって、免疫タンパク質ファミリーが誕生した例を複数発見した。これらの発見をするために不可欠だったのは、1,000近くの多様な真核生物分類群から得られたデータの解析であった。これらの生物のおかげで、真核生物全体に見られるタンパク質と動物特有の革新的なタンパク質を区別することができ、真核生物の免疫タンパク質ファミリーを生み出したバクテリアからのHGT事象を最近と古代の両方で記録することができた(図2と4)。また、真核生物のドメイン構造を持ちながら、よりバクテリアに似たドメインを持つSTINGタンパク質(blSTING、図3)を同定することができた。これらの分岐した真核生物のSTINGは、通常CD-NTアーゼタンパク質が見つからない生物で見つかったことから、blSTINGは、病原体によって生成されるような外因性の環状ヌクレオチドを検出し、それに応答しているのではないかという仮説を立てた。STINGsとは対照的に、真核生物のCD-NTアーゼは、複数の主要なCD-NTアーゼスーパーファミリーがそれぞれより大きな細菌クレードの中から出現し、実質的に異なる進化の歴史を持っていた。これらの解析では、CD-NTアーゼが真核生物にどのような方向性で移行したかを決定することはできないが、我々は、これらの構成要素が細菌起源から真核生物の系統に入ったという、最も穏当な説明を支持する。

拡大サムネイル
図5. CD-NTase、STING、viperinの進化史の提案モデル。
それぞれの自然免疫遺伝子ファミリーの進化史のまとめ。(A)我々は、細菌-真核生物のHGTから生じたと思われるCD-NTaseの2つの異なるスーパーファミリー、eSMODSとcGLRを定義した。cGLRスーパーファミリー(cGASを含む)内では、動物特異的な重複により多数のパラログが生まれた。CD-NTaseのOASスーパーファミリーは、多様な真核生物分類群にわたって豊富であり、LECAにも存在した可能性が高い。(B)STING、TIR、膜貫通(TM)ドメインを含む、古くから共有されてきたタンパク質ドメインのレパートリーを利用して、細菌と真核生物はドメインシャッフリングによって、類似したSTINGタンパク質を収束的に進化させてきた。(C)バイペリンは真核生物の樹木全体に広く分布しており、LECAにも存在した可能性が高い。さらに、バクテリアからの最近の2つのHGTイベントによって、藻類は新しいバイペリンを持つようになった。CD-NTase, cGAS-DncV-like nucleotidyltransferase; HGT, horizontal gene transfer; LECA, last eukaryotic common ancestor; STING, Stimulator of Interferon Genes.

doi:10.1371/journal.pbio.3002436.g005

詳細 "
細菌ほど一般的ではないが、真核生物におけるHGTは、特に単細胞種にとって、進化における重要な力となっている[63-66]。この研究では、HGT事象を「呼び出す」基準は比較的厳密であったため、HGT事象の推定値はほぼ間違いなく過小評価である。重要なことは、このパターンから、細菌汎ゲノムが、真核生物が新規の自然免疫成分を獲得するために繰り返しサンプリングしてきた豊富な貯蔵庫であることが示唆されることである。このようなHGTの中には、真核生物の新しいスーパーファミリー(例えば、eSMODS)を生み出したものもあり、これらのスーパーファミリーは真核生物の新しいタイプの免疫タンパク質である可能性がある。我々は、eSMODSスーパーファミリーのCD-NTaseとblSTINGsは、細菌のホモログと似た働きをし、様々な環状ジ-またはトリ-ヌクレオチドを産生し、それに応答する可能性があると推測している[11]。同様に、細菌のバイペリンはddhCTP、ddhGTP、ddhUTPを生成することが示されているが、動物のバイペリンはddhCTPしか生成しない[4,15,60]。従って、HGTによって生じた2つの藻類バイペリンクレードは、機能的能力も拡大している可能性がある。この研究の注意点は、このような厳密なバイオインフォマティクスの研究は、タンパク質の生化学的機能を明らかにするには不十分であり、また、多様なホモログが免疫以外の機能に利用されているかどうかを決定することもできないということである。従って、今後の機能的研究では、(1)CD-NTaseが存在しない場合、blSTINGはどのように機能するのか、(2)藻類バイペリンとeSMODSの機能は、バクテリアから獲得した後、どのように変化したのか、(3)ホモログは本当に免疫防御に機能するのか、という疑問を解決するために、これらのタンパク質に焦点を当てることを強く要望する。

このような遺伝子の獲得例に加えて、真核生物の遺伝子レパートリーは損失によって劇的に形成されてきた。おそらく真核生物の最後の共通祖先までさかのぼると思われるバイペリンでさえ、これらのタンパク質は真核生物全体にまばらに分布しており、我々が調査した種の大部分には存在しなかった。この発見の一部は、データセットが不完全であったり、HMMが遠くのホモログを復元できなかったりといった技術的な限界によるものかもしれないが、植物、真菌、アメーバ動物種の多くが、これらのタンパク質が確実に存在しない、よく組み合わされたゲノムで表現されているため、この説明ではまばらさを完全に説明するには不十分であると我々は考えている(S2図)。むしろ、真核生物の「生命の樹」[28,30-32]全体の他の遺伝子ファミリーについて以前に記録されているように、この疎な分布は、進行中の反復的な遺伝子消失から生じている可能性が高い。

全体として、我々の結果は、真核生物全体における免疫タンパク質の進化を非常にダイナミックに描き出した。興味深いことに、このパターンは、細菌[67-69]間でこれらの免疫ホモログの多くがまばらに分布していることを反映している。真核生物、特にHGTの頻度が高い単細胞真核生物において、免疫遺伝子が同じようにダイナミックなアイランドで進化しているかどうかを調べることは興味深い[72]。

CD-NTase、STING、そしてバイペリンに関する今回の研究は、真核生物の自然免疫の進化に関しては、氷山の一角に過ぎないと期待される。細菌と動物免疫の新たなつながりは発見され続けており、アルゴノート、ガスダーミン、NACHTドメイン、CARDドメイン、TIRドメイン、SamHD1などの他の免疫ファミリーやドメインが細菌をルーツとしていることが示されている[2,6,7,9,10]。現在までのところ、研究の大半は、後生動物と細菌の間で共有されているタンパク質に焦点を当てている。われわれは、動物以外のバクテリアと真核生物の間にも、おそらく多くの免疫成分が共有されていると推測している。微小真核生物における免疫防御のさらなる研究は、細胞防御の新たなメカニズムを明らかにし、真核生物の自然免疫の起源と進化をよりよく説明するものと思われる。

材料と方法
反復HMM探索
この研究の目的は、EukProt v3から、CD-NTase、STING、viperinファミリーから、メタゾアンとバクテリアの免疫のギャップにまたがる免疫タンパク質を検索することであった。全体的な戦略としては、まず真核生物だけで検索を行った(主にメタゾアからスタート)。その後、バクテリアの配列を追加し、バクテリアと真核生物の混合HMM検索で、新しいヒットがなくなるか、アウトグループの遺伝子ファミリーからヒットが出始めるまで検索した。アウトグループ配列として、CD-NTaseにはポリ(A)RNAポリメラーゼ(PAP)配列を、viperinにはモリブデン補酵素生合成酵素(MoaA)を用いた。STINGドメインに適したアウトグループはなく、分岐したアウトグループも検索で出てこなかった。細菌と真核生物のタンパク質の多様性にまたがる検索と並行して、できるだけ多くのホモログが見つかるように、細菌のみ、真核生物のみの検索も行った(図1A、さらにS1A Figに図示)。

第1段階:真核生物の検索。
はじめに、PfamからのHMMプロファイル(CD-NTaseとviperinについて)、または多重配列アラインメントから生成されたHMMプロファイル(STINGについて)を用いて、多様な真核生物の配列についてEukProt V3[25]を検索した。CD-NTaseとviperinについては、それぞれPfams PF03281とPF04055のHMMプロファイルを使用した。

STINGについては、PfamプロファイルがSTINGドメイン以外のタンパク質の領域を含んでいるため、最初の検索のために新しいHMMを作成した。まず、HsSTING (6NT5)、Flavobacteriaceae sp. STING (6WT4)、および Crassostrea gigas STING (6WT7)の結晶構造を、jFATCAT (rigid)オプション付きのRCSB PDB "Pairwise Structure Alignment "ツールで整列させた[73,74]。我々は、6WT7と6WT4(6NT5の残基G152-V329)と整列する6NT5のギャップされていない領域をコア "STING "ドメインと定義した。次に、PF15009の15個の真核生物配列(InterPro上の "Reviewed "配列の15個すべて)をMAFFT(v7.4.71)[75]でデフォルトのパラメーターでアライメントし、結晶アライメントで定義された境界(6NT5の残基145-353)まで配列を手動でトリミングした。次に、TrimAI (v1.2) [76]を用い、オプション -gt 0.2でアラインメントをトリミングした。トリミングされたMSAは、hmmer (v3.2.1)パッケージ(hmmer.org)のhmmbuildでHMMプロファイルをデフォルト設定で生成するのに使われた。EukProtV3のこれらのHMM検索を、EukProtの個々の生物種ファイルを検索し、結果を結合するスクリプト "wrap_hmmscan.pl "で実行した。このコードはDan Richterによるもので、https://github.com/MBL-Physiology-Bioinformatics/2021-Bioinformatics-Tutorial-Materials/tree/master/phylogenetics。

HMMプロファイルは、hmmsearch(hmmer v3.2.1)により、統計的カットオフ値を1e-3、-hitパラメータを10に設定してEukProtを検索した(すなわち、出力リストへの単一生物種の寄与は10配列が上限)。EukProt v3には同じ遺伝子の複数のスプライスアイソフォームを持つde novoトランスクリプトームアセンブリが含まれており、1つの生物種がツリー全体に与える影響を制限したかったため、出力リストに上限を設ける必要があった。STINGやviperinのホモログ検索では10種の上限に達することはなく、MetazoaのCD-NTaseのみがこの検索上限でヒットが制限された。この検索で得られた配列は、hmmalign(hmmerに含まれる)で"-outformat afa-trim [Protein.hmm]"の設定を使ってアラインメントされた。このHMMアライメントを用いて、hmmbuildで新しいHMMプロファイルを生成した。このプロファイルを使ってEukProt v3を再度検索し、新しい配列が見つからないか、他の遺伝子ファミリーの配列が見つかるまでこのプロセスを繰り返した。

フェーズ2:真核生物とバクテリアの配列をHMMに結合する。
真核生物の検索が飽和に達した後(すなわち、追加の検索を行っても追加の真核生物の配列が回収されなかった)、バクテリアの配列が過去の文献から取得された([4]のviperins、[11]のCD-NTase、[3,8,21]のSTINGs)。結合されたHMMが細菌配列または真核生物配列のどちらかが過剰に表現されていないことを確認するために、細菌配列と真核生物配列をダウンサンプリングして、それぞれ50の系統学的に多様な配列を取得し、2つのダウンサンプリングされたリストを結合した。これを行うために、真核生物とバクテリアの配列をそれぞれ別々にMAFFT(デフォルトパラメータ)でアラインメントし、FastTree(v2.1.10)[77]で系統樹を構築し、Phylogenetic Diversity Analyzer(pda/1.0.3)[78]ソフトウェアを-k 50または-k 500オプション、それ以外はデフォルトパラメータでFastTreeファイルを実行し、残りの配列多様性を最大にしながら配列をダウンサンプリングした。

次に、バクテリアと真核生物の配列リストをhmmalign("-outformat afa-trim [Protein.hmm]"設定)でアライメントし、hmmbuild(デフォルトパラメータ)で新しいHMMプロファイルを構築するために使用した。このHMMプロファイルを用いて、-evalue 1e-3、-hit 10の設定でEukProt v3を検索した。この検索でヒットした真核生物の配列をMAFFT(デフォルトパラメータ)でアライメントし、FastTree(デフォルトパラメータ)でツリーを構築した。このツリーから、配列はPDA (-k 50)でダウンサンプリングされ、再びバクテリアリストと組み合わされ、アラインメントされ、新しいHMMの生成に使用され、新しい検索が行われた。このプロセスは、飽和するまで、あるいは得られた配列ヒットが、メタゾアンとバクテリアのホモログによって定義された配列多様性の外側で分岐する他の遺伝子ファミリーを含むまで、3〜5回繰り返された。CD-NTase、STING、viperinそれぞれの最終的なHMMについては、Supporting informationのS26、S27、S28ファイルを参照。

フェーズ3:バクテリアのみの配列または既存のHMMプロファイルで検索する。
各タンパク質ファミリーのバクテリアオンリーHMMでEukProt v3を検索するために、公開されているバクテリア配列の全セットをMAFFT(デフォルトパラメータ)でアラインメントし、TrimAI(-gt 0.2)でトリミングし、hmmbuild(デフォルトパラメータ)を使用してHMMプロファイルを生成し、EukProt v3の検索に使用した。比較のポイントとして、CD-NTase (PF03281)、STING (PF15009)、viperin (PF04055)については、事前に構築したPfam HMMのみでデータベースを検索した。

フェーズ4:すべてのヒットを1つのリストにまとめ、ドメインをスキャンする。
すべての反復検索からの配列を組み合わせて、STING、CD-NTase、viperinの総ヒットFASTAファイルを作成した。まず、重複配列を除去し、次にhmmscan (hmmer v3.2.1)を用いてPfamデータベース(Pfam-A.hmm)に対して"-domtblout-domE 1e-3 "の設定でファスタファイルをスキャンし、E値<1e-3の予測ドメインをすべて考慮した。次に、系統樹を作成し(最初にMAFFT(デフォルトパラメータ)で整列し、次にFastTreeで樹を作成)、これらの樹とhmmscanドメインを用いてグループ内配列とグループ外配列を決定した。アウトグループ配列はファスタファイルから手動で削除した。アウトグループ配列は以下の基準で決定した: (1)配列が既知のアウトグループ配列(例えば、CD-NTaseのPAP配列、viperinのモリブデン補酵素生合成酵素(MoaA))の外にクラスター化している場合、または(2)配列が関連するドメイン(CD-NTaseのMab21/OAS1-C/SMODS、STINGのTMEM173/Prok_STING、viperinのRadical_SAM)を少なくとも1つ持っていない場合。これらの3つのFASTAファイルを最終的なアラインメントと系統樹に使用した。各配列のタンパク質ドメインを同定するために、FASTAファイルをPfamデータベース(Pfam-A.hmm)に対してhmmscan(同じくhmmer v3.2.1)を用いてスキャンし、E値<1e-3の予測ドメインをすべて考慮した。全てのホモログのhmmscanの結果はS25ファイルを参照。

最終的なアラインメントとツリー構築
最終的な系統樹を作成するために、全ての真核生物の検索ヒットとバクテリアの配列をMAFFT(デフォルトパラメーター)を用いてアライメントした。CD-NTaseバクテリア配列は、MAFFT(デフォルトパラメーター)ツリー上に構築されたFastTree(デフォルト設定)ツリー上でPDAソフトウェア(オプション -k 500)を用いて約6,000から500までダウンサンプリングし、アラインメントとツリー構築の計算時間をより管理しやすくした。STINGおよびviperinツリーでは、すべての細菌配列を含めた。これらの初期アラインメントは、まずGeneious (v2023.1.2)で手動でトリミングし、未アラインメントのN末端およびC末端領域を除去した後、MAFFT (default parameters)またはMUSCLE (v5.1) [79]で再アラインメントし、TrimAI (v1.2) [76]でトリミングした。MUSCLEは"-super5 "オプションとそれ以外のデフォルトパラメータで使用された。MUSCLEは、最終的なツリートポロジーが可能な限りロバストであることを保証するために、これらの最終的なアラインメントを生成するためにMAFFTと並行して配置された。MUSCLEは若干正確であるが、より計算量の多いアラインメントソフトウェアである[79]。これらの最終的なアラインメントの長さは、CD-NTase、STING、viperinについて、それぞれ232、175、346アミノ酸長であった。これらのアラインメントは、それぞれのPFAMドメイン(CD-NTaseについてはPF3281(Mab-21タンパク質ヌクレオチジルトランスフェラーゼドメイン)、STINGについてはPF20300(原核生物STINGドメイン)、viperinについてはPF404055(Radical SAMファミリー))のアラインメントの長さの75%以上に相当する。これらのアラインメントは、3つの樹形推論ソフトウェアを用いて系統樹を作成するために使用された: FastTree (v2.1.10) [77]、IQtree (2.2.2.7) [80]、RaxML-ng (v0.9.0) [81]。FastTree はデフォルト設定で使用した。IQtreeは適切な進化モデルを決定するために使用され、1,000の超高速ブートストラップで実行された(IQtreeの設定:-s, -bb 1000, -m TEST, -nt AUTO)。RaxML-ng樹はIQtree解析で指定された分子モデルを用いて100ブートストラップで作成した(Raxml-ng settings:-all,-model [specified by IQtree],-tree pars{10}-bs-trees 100)。系統樹はiTOL [82]で可視化した。S3B FigのRobinson-Foulds距離をVisual TreeCmp (settings: -RFWeighted -Prune trees -include summary -zero weights allowed) [83]で計算した。

TIRドメインのアラインメントとツリー
InterProの203のTIRドメイン含有配列リスト(IPR000157 (Toll/interleukin-1 receptor homology (TIR) domain as of 2023-04-04)のキュレーションされた "Reviewed "セレクションの全203タンパク質)と104の細菌性TIR-STINGタンパク質(図3で使用したのと同じTIR-STINGタンパク質)のTIRドメインの座標を同定するためにhmmscanを使用した[3]。次に、hmmscanで同定されたTIR座標まで配列を切り詰め、MUSCLE (-super5)でTIRドメインをアライメントした。TrimALでアラインメントをトリミングし、IQtree (-s, -bb 1000, -m TEST, -nt AUTO)で系統樹を作成した。

ベン図
これらのタンパク質の少なくとも1つをコードする各真核生物種から、cGLR、OAS、STINGの存在/非存在情報を用いて、DeepVenn [84]によりベン図を作成した。

タンパク質構造モデリング
結晶構造が公表されていないSTINGホモログの3Dタンパク質構造をモデル化するために、AlphaFold(v2.1.1)を実行した[85,86]。Flavobacteriaceae (IMG ID: 2624319773)、Nitzschia sp. (EukProt ID: P007051)、Caveostelium apophsatum (EukProt ID: P019191)のSTINGについて、5つのランク付けされたモデルを作成した。図2Cは、最高ランクのモデルのみを示している。これらの最高ランクモデルは、Nitzschia、Caveostelium、Flavobacteriaceaeについて、それぞれSupporting informationのS5、S6、S7ファイルとして提供されている。

参考情報
S1 図:コレクター曲線と完全な検索戦略。

(A)反復HMM探索戦略の詳細な概略図。青いボックスと青い網掛け領域は、汎真核HMMを作成するための真核生物のみの検索を示し、黄色はユニバーサルHMMを作成するための真核生物と細菌の検索を示す。細菌と真核生物の複合検索(黄色のボックス)では、細菌と真核生物の配列からの寄与が等しくなるように、細菌と真核生物の配列をそれぞれ50配列にダウンサンプリングした(PDAでダウンサンプリングした系統樹)。これとは別に、バクテリアの配列はアラインメントされ、HMMを作成するために使用された。このHMMは「バクテリアのみの検索」としてEukProtを検索するために使用され、STINGについては同等のEukaryotic PFAM検索のためにPF15009で検索した(フローチャートには示されていない)。PF15009は真核生物のSTING膜貫通ドメインの一部を含んでいるため、STINGの最初の検索はSTINGドメインのみのHMMで行った(Materials and methods参照)。ピンク(MUSCLE)とオレンジ(MAFFT)のボックスは、最終的に構築されたアラインメントと系統樹を示す。(B)STING、CD-NTase、viperinのコレクター曲線は、各反復検索後に見つかったタンパク質配列の累積数を示す。真核生物の検索結果を青で、複合検索結果を黄色で示す。黒実線は開始Pfam HMMのみからのヒット数、グレー点線はバクテリアのみのHMMからのヒット数を示す。なお、いくつかの検索で、より遠いタンパク質ファミリーのメンバーであるヒットが得られたが、それらは後で解析から取り除いたので、ここではカウントしていない。個々のデータはS1ファイルにある。

doi:10.1371/journal.pbio.3002436.s001

(TIF)

S2 図. EukProt生物種のデータタイプ別データ品質。

ゲノム(A)またはトランスクリプトーム(B)としてEukProt v3に含まれる生物を表す種ツリー。スーパーグループは図1Bのように色分けされている。色のついた棒グラフは、HMM検索でSTING、CD-NTase、Viperinのホモログ配列が見つかった各真核生物種を示す。黒い棒グラフは各ゲノム/トランスクリプトームのBUSCO完全性スコアを示し、棒グラフが大きいほどデータセットの完全性が高いことを示す。BUSCOスコアはEukProt v3 (https://evocellbio.com/SAGdb/images/EukProtv3.busco.output.txt)でも見ることができる。個々のデータはS1 Fileに含まれている。

doi:10.1371/journal.pbio.3002436.s002

(TIF)

S3 図. 異なるアラインメントと樹形構築法から得られた系統樹は、頑健なトポロジーを示す。

(A) 2種類のアラインメント(MUSCLEとMAFFT)と2種類の樹形推論プログラム(IQtreeとRaxML-ng)から作成された根なし最尤系統樹。各木の下に示された1のスケールバーは、基礎となるアラインメントにおける位置ごとのアミノ酸置換数を表す。色の付いた枝は図1Bと同じ配色で真核生物の配列を示し、灰色の線は細菌の配列である。ここで議論した関係の大部分について、使用したアラインメントや樹形再構築アルゴリズムにかかわらず、主要なノードで同じ樹形トポロジーを回復した。(B)4つのツリータイプ(IQTREE/RAXML-ngで構築されたMAFFT/MUSCLEアラインメント)間のすべてのペアワイズ比較の重み付けロビンソン-フールズ距離。距離はCD-NTaseツリーでより高かったが(この高度に多様な遺伝子ファミリーで予想されるように)、cGLR、OAS、eSMODSスーパーファミリー、およびそれらの最も近い細菌近縁種を定義する主要なノードはすべてよくサポートされていた(>70超高速ブートストラップ値)。アラインメントとNewickファイルが含まれている(Alignments: S9、S10、S11、S12、S13、S14ファイル。Newickファイル: S2, S4, S8, S15, S16, S17, S18, S19, S20, S21, S22, S23 Files)。加重ロビンソン-フールズ距離計算のためのすべての一対比較は、S1ファイルに含まれている。

doi:10.1371/journal.pbio.3002436.s003

(TIF)

S4 図. CD-NTase系統樹。

多様な真核生物のCD-NTaseについてHMM検索を繰り返してヒットしたものをIQtreeで作成した最尤系統樹。ツリーはバクテリアCD-NTaseクレードの間に任意に根を張っている。スケールバーはMUSCLEアラインメントにおける位置ごとのアミノ酸置換数を表す。真核生物の配列は図1Bのように色分けされている。70以上の支持を持つすべてのノードでIQtreeによって計算された超高速ブートストラップ値を示す。サポート値<70の枝はポリトミーに折りたたまれた。基礎となるNewickファイルはSupporting informationのS2 Fileに含まれている。

doi:10.1371/journal.pbio.3002436.s004

(TIF)

S5 図. STING系統樹。

多様な真核生物のSTINGドメインに対する反復HMM検索でヒットした遺伝子の最尤系統樹。樹は真核生物からバクテリアの配列を分離する枝に任意に根を張っている。スケールバーはMUSCLEアラインメントにおける位置ごとのアミノ酸置換数を表す。真核生物の配列は図1Bのように色分けされている。70以上の支持を持つすべてのノードでIQtreeによって計算された超高速ブートストラップ値を示す。サポート値<70の枝はポリトミーに折りたたまれた。基礎となるNewickファイルはSupporting informationのS4 Fileに含まれている。

doi:10.1371/journal.pbio.3002436.s005

(TIF)。

S6 図. バイペリンの系統樹。

真核生物の多様なバイペリンについてHMM検索を繰り返し、ヒットした系統樹をIQtreeで作成した最尤系統樹。ツリーは真核生物からバクテリアの配列を分離する枝に任意に根を張っている。スケールバーはMUSCLEアラインメントにおける位置ごとのアミノ酸置換数を表す。真核生物の配列は図1Bのように色分けされている。70以上の支持を持つすべてのノードでIQtreeによって計算された超高速ブートストラップ値を示す。サポート値<70の枝はポリトミーに折りたたまれた。基礎となるNewickファイルはSupporting informationのS8 Fileに含まれている。

doi:10.1371/journal.pbio.3002436.s006

(TIF)

S7 図. Crassostrea gigasのTIR-STINGのTIRドメインは、後生動物のTIRドメインと密接に関連している。

多様なTIRドメインの根なし最尤樹。系統樹上のスケールバーはMUSCLEアラインメントにおける位置ごとのアミノ酸置換数を表す。真核生物の配列は図1Bのように色分けされている。主要なノードでIQtreeによって計算された超高速ブートストラップ値を示す。基礎となるNewickファイルはSupporting informationのS24 Fileに含まれている。

doi:10.1371/journal.pbio.3002436.s007

(TIF)

S1ファイル。A. 3つのタブを持つxlsxファイル: Catalogs, Collectors Curves, Venn Diagram, Robinson-Fouldsの3つのタブがあるxlsxファイル。

Catalogsタブには、各タンパク質ファミリーのEukProt Species IDとホモログが見つかったかどうか(1 = ホモログが見つかった、0 = ホモログが見つからなかった)が記載されている。このタブは、Fig. 1B と S2 が作成された生データを構成する。Collectors Curvesタブには、S1B Fig.のグラフを作成するための生データがあり、各タンパク質ファミリーについて、指定された検索での検索ヒット数が列挙されている。実施しなかった検索は空白。Venn Diagramタブには、EukProt Species IDと、Metazoaおよび非Metazoansにおける所定のホモログの有無(1 = homologが見つかった、0 = homologが見つからなかった)が表示されている。Robinson-Fouldsタブには、様々な系統樹間のペアワイズ比較の生データがある。

doi:10.1371/journal.pbio.3002436.s008

(XLSX)

S2ファイル IQtree (2.2.2.7)を用いたMUSCLE (v5.1) (S10ファイル)アライメントから作成したCD-NTaseの最尤系統樹のNewickファイル。

図2、S3A、S4ではNewickファイルを使用。ノードサポート値は超高速ブートストラップから計算。

doi:10.1371/journal.pbio.3002436.s009

(TREE)

S3ファイル。IQtree (2.2.2.7)を用いたMUSCLE (v5.1)アライメントから作成したSTINGドメインの最尤系統樹のNewickファイル。

図3BではNewickファイルを使用。

doi:10.1371/journal.pbio.3002436.s010

(TREE)

S4ファイル。IQtree (2.2.2.7)を用いたMUSCLE (v5.1) (S12ファイル)アライメントから作成したSTINGドメインの最尤系統樹のNewickファイル。

図3C、S3A、S5ではNewickファイルを使用。ノードサポート値は超高速ブートストラップから計算。

doi:10.1371/journal.pbio.3002436.s011

(TREE)

S5ファイル。EP00394_Nitzschia_sp_Nitz4_P007501のAlphaFoldによって予測されたタンパク質構造。

この.pdb構造は二量体として予測され、図3Cで使用されている。

doi:10.1371/journal.pbio.3002436.s012

(PDB)

S6ファイル。EP01114_Cavostelium_apophysatum_P019191のAlphaFoldによって予測されたタンパク質構造。

この.pdb構造は二量体として予測され、図3Cで使用されている。

doi:10.1371/journal.pbio.3002436.s013

(PDB)

S7ファイル。フラボバクテリウム科STINGのAlphaFoldによって予測されたタンパク質構造(IMG ID: 2624319773)。

この.pdb構造は二量体として予測され、図3Cで使用されている。

doi:10.1371/journal.pbio.3002436.s014

(PDB)

S8ファイル。IQtree (2.2.2.7)を用いたMUSCLE (v5.1) (S14ファイル)アライメントから作成したバイペリンの最尤系統樹のNewickファイル。

図4、S3、S6ではNewickファイルを使用。ノードサポート値は超高速ブートストラップから計算。

doi:10.1371/journal.pbio.3002436.s015

(TREE)

S9 ファイル。CD-NTaseのMAFFT(v7.4.71)アライメントのFASTAファイル。

このMAFFTアラインメントは、S3 Fig.の系統樹を構築するために使用した。

doi:10.1371/journal.pbio.3002436.s016

(FASTA)

S10ファイル。CD-NTaseのMUSCLE(v5.1)アライメントのFASTAファイル。

このMUSCLEアラインメントは、図2、S3、S4の系統樹を構築するために使用した。

doi:10.1371/journal.pbio.3002436.s017

(FASTA)

S11ファイル。STINGのMAFFT(v7.4.71)アライメントのFASTAファイル。

このMAFFTアラインメントは、S3 Fig.の系統樹を構築するために使用した。

doi:10.1371/journal.pbio.3002436.s018

(FASTA)

S12ファイル。STINGのMUSCLE(v5.1)アライメントのFASTAファイル。

このMUSCLEアラインメントは、図3、S3、S5の系統樹を構築するために使用した。

doi:10.1371/journal.pbio.3002436.s019

(FASTA)

S13ファイル。viperinのMAFFT(v7.4.71)アライメントのFASTAファイル。

このMAFFTアラインメントは、S3 Fig.の系統樹を構築するために使用した。

doi:10.1371/journal.pbio.3002436.s020

(FASTA)

S14ファイル。viperinのMUSCLE(v5.1)アライメントのFASTAファイル。

このMUSCLEアラインメントは、図4、S3、S6の系統樹を構築するために使用した。

doi:10.1371/journal.pbio.3002436.s021

(FASTA)

S15ファイル。MAFFTアライメント(S9ファイル)からIQtree(2.2.2.7)を用いて作成したCD-NTaseの最尤系統樹のNewickファイル。

超高速ブートストラップから計算したノードサポート値。

doi:10.1371/journal.pbio.3002436.s022

(TREE)

S16 ファイル。MAFFTアライメント(S9ファイル)からRaxML-ng(v0.9.0)で作成したCD-NTaseの最尤系統樹のNewickファイル。

Newick ファイルはS3 Fig.

doi:10.1371/journal.pbio.3002436.s023

(ツリー)

S17 ファイル。MUSCLEアライメント(S10ファイル)からRaxML-ng(v0.9.0)で作成したCD-NTaseの最尤系統樹のNewickファイル。

Newick ファイルはS3 Fig.

doi:10.1371/journal.pbio.3002436.s024

(ツリー)

S18 ファイル。IQtree(2.2.2.7)を用いたMAFFTアライメント(S11ファイル)から作成したSTINGドメインの最尤系統樹のNewickファイル。

超高速ブートストラップから計算されたノードサポート値。

doi:10.1371/journal.pbio.3002436.s025

(TREE)

S19 ファイル。RaxML-ng(v0.9.0)を用いてMAFFTアライメント(S11ファイル)から作成したSTINGドメインの最尤系統樹のNewickファイル。

超高速ブートストラップから計算したノードサポート値。

doi:10.1371/journal.pbio.3002436.s026

(TREE)

S20ファイル。MUSCLEアライメント(S12ファイル)からRaxML-ng(v0.9.0)を用いて作成したSTINGドメインの最尤系統樹のNewickファイル。

超高速ブートストラップから計算したノードサポート値。

doi:10.1371/journal.pbio.3002436.s027

(TREE)

S21ファイル。MAFFTアライメント(S13ファイル)からIQtree(2.2.2.7)を用いて作成した毒蛇類の最尤系統樹のNewickファイル。

超高速ブートストラップから計算したノードサポート値。

doi:10.1371/journal.pbio.3002436.s028

(TREE)

S22 ファイル。MAFFTアライメント(S13ファイル)からRaxML-ng(v0.9.0)を用いて作成した毒蛇類の最尤系統樹のNewickファイル。

超高速ブートストラップから計算したノードサポート値。

doi:10.1371/journal.pbio.3002436.s029

(TREE)

S23ファイル。MUSCLEアライメント(S14ファイル)からRaxML-ng(v0.9.0)を用いて作成した毒蛇類の最尤系統樹のNewickファイル。

超高速ブートストラップから計算したノードサポート値。

doi:10.1371/journal.pbio.3002436.s030

(TREE)

S24 ファイル。MUSCLEアライメント(S29ファイル)からIQtree(2.2.2.7)を用いて作成したTIRドメインの最尤系統樹のNewickファイル。

超高速ブートストラップから計算されたノードサポート値。

doi:10.1371/journal.pbio.3002436.s031

(TREE)

S25 ファイル。図2A、3C、4でそれぞれ見つかった各CD-NTase、STING、viperinタンパク質配列のHmmscanデータを含む.xlsxファイル。

各タンパク質ファミリーは異なるタブにある。テーブルヘッダーには、クエリー名、ターゲット名、ターゲットの長さ、E-値、スコア、バイアス、Alignment Coordinate from:、Alignment Coordinate to:、およびDescriptionが含まれます。これらのテーブルヘッダーはHmmscanの標準的なもので、PFAMのドメイン("Target")がリストのタンパク質("Query")にどの程度マッチするかを定義する。

doi:10.1371/journal.pbio.3002436.s032

(XLSX)

S26ファイル。CD-NTaseの最終HMMファイル。

doi:10.1371/journal.pbio.3002436.s033

(HMM)

S27 ファイル。STINGの最終HMMファイル。

doi:10.1371/journal.pbio.3002436.s034

(HMM)

S28ファイル。viperinの最終HMMファイル。

doi:10.1371/journal.pbio.3002436.s035

(HMM)

S29 ファイル。TIRドメインのMUSCLE(v5.1)アライメントのFASTAファイル。

このMUSCLEアラインメントは、S7 Fig.の系統樹を構築するために使用した。

doi:10.1371/journal.pbio.3002436.s036

(FASTA)

S30ファイル。解析した全てのCD-NTaseアミノ酸配列のFastaファイル。

このリストは、Fig 2Aを構成するすべての全長配列(細菌および真核生物の両方)で構成されている。

doi:10.1371/journal.pbio.3002436.s037

(FASTA)

S31ファイル。STINGの全アミノ酸配列を解析したFastaファイル。

このリストは、Fig 3Cを構成するすべての全長配列(細菌および真核生物の両方)で構成されている。

doi:10.1371/journal.pbio.3002436.s038

(FASTA)

S32ファイル。解析したすべてのバイペリンアミノ酸配列のFastaファイル。

このリストは、Fig 4を構成するすべての全長配列(細菌および真核生物の両方)で構成されている。

doi:10.1371/journal.pbio.3002436.s039

(FASTA)

謝辞
参考文献
1.Litman GW, Cannon JP, Dishaw LJ. 免疫系統学の再構築:新たな展望。Nat Rev Immunol. 2005;5:866-879. doi: 10.1038/nri1712.
2.Johnson AG, Wein T, Mayer ML, Duncan-Lowey B, Yirmiya E, Oppenheimer-Shaanan Y, et al. Bacterial gasdermins reveal an ancient mechanism of cell death. 2021.06.07.447441. doi: 10.1101/2021.06.07.447441.
3.Morehouse BR, Govande AA, Millman A, Keszei AFA, Lowey B, Ofir G, et al. STING cyclic dinucleotide sensing originated in bacteria. Nature. doi: 10.1038/s41586-020-2719-5. pmid:32877915.
4.Bernheim A, Millman A, Ofir G, Meitav G, Avraham C, Shomar H, et al. 原核生物の毒蛇は多様な抗ウイルス分子を産生する。Nature. 2021;589:120-124. doi: 10.1038/s41586-020-2762-2. pmid:32937646
5.Wein T, Sorek R. ヒト細胞自律的自然免疫機構の細菌起源。Nat Rev Immunol. 2022. doi: 10.1038/s41577-022-00705-4.
6.Kibby EM, Conte AN, Burroughs AM, Nagy TA, Vargas JA, Whalen LA, et al. 細菌NLR関連タンパク質はファージから身を守る。細胞。2023. doi: 10.1016/j.cell.2023.04.015.
7.Swarts DC, Makarova K, Wang Y, Nakanishi K, Ketting RF, Koonin EV, et al. The evolutionary journey of Argonaute proteins. Nat Struct Mol Biol. 2014;21:743-753. doi: 10.1038/nsmb.2879.
8.Cohen D, Melamed S, Millman A, Shulman G, Oppenheimer-Shaanan Y, Kacen A, et al. サイクリックGMP-AMPシグナルは細菌をウイルス感染から守る。Nature. 2019;574:691-695. doi: 10.1038/s41586-019-1605-5. pmid:31533127.
9.Ofir G, Herbst E, Baroz M, Cohen D, Millman A, Doron S, et al. 免疫シグナル分子を介した細菌TIRドメインの抗ウイルス活性。Nature. 2021;600:116-120. doi: 10.1038/s41586-021-04098-7.
10.Tal N, Millman A, Stokar-Avihail A, Fedorenko T, Leavitt A, Melamed S, et al. バクテリアはバクテリオファージ感染を防御するためにデオキシヌクレオチドを枯渇させる。Nat Microbiol. doi: 10.1038/s41564-022-01158-0. pmid:35817891.
11.Whiteley AT, Eaglesham JB, de Oliveira Mann CC, Morehouse BR, Lowey B, Nieminen EA, et al. 細菌cGAS様酵素は多様なヌクレオチドシグナルを合成する。Nature. 2019;567:194-199. doi: 10.1038/s41586-019-0953-5. pmid:30787435.
12.Kaur G, Burroughs AM, Iyer LM, Aravind L. Highly regulated, diversifying NTP-dependent biological conflict systems with implications for the emergence of multicellularity. Elife. 2020:9. doi: 10.7554/eLife.52696.
13.Wein T, Johnson AG, Millman A, Lange K, Yirmiya E, Hadary R, et al. CARD-like domains mediate anti-phage defense in bacterial gasdermin systems. BioRxiv. 2023.05.28.542683. doi: 10.1101/2023.05.28.542683.
14.Govande AA, Duncan-Lowey B, Eaglesham JB, Whiteley AT, Kranzusch PJ. CBASS抗ファージ防御におけるCD-NTaseヌクレオチド選択の分子基盤。セル・リップ(Cell Rep);2021;35:109206。
15.Gizzi AS, Grove TL, Arnold JJ, Jose J, Jangra RK, Garforth SJ, et al. ヒトゲノムがコードする天然由来の抗ウイルスリボヌクレオチド。Nature. 2018;558:610-614. doi: 10.1038/s41586-018-0238-4. pmid:29925952.
16.Fenwick MK, Li Y, Cresswell P, Modis Y, Ealick SE. 抗ウイルスラジカルSAM酵素バイペリンの構造研究。Proc Natl Acad Sci U S A. 2017;114:6806-6811. doi: 10.1073/pnas.1705402114. pmid:28607080.
17.Rivera-Serrano EE, Gizzi AS, Arnold JJ, Grove TL, Almo SC, Cameron CE. Viperin Reveals Its True Function. Annu Rev Virol. 2020;7:421-446. doi: 10.1146/annurev-virology-011720-095930.
18.Seifert M, Bera SC, van Nies P, Kirchdoerfer RN, Shannon A, Le T-T-N, et al. ヌクレオチドアナログによるSARS-CoV-2ポリメラーゼの阻害を1分子の観点から解析。Elife. 2021:10. doi: 10.7554/eLife.70968.
19.Burroughs AM, Aravind L. 原核生物免疫系の未特性成分の同定とその多様な真核生物再形成。J Bacteriol. 2020:202. doi: 10.1128/JB.00365-20.
20.Shaw AE, Hughes J, Gu Q, Behdenna A, Singer JB, Dennis T, et al. 哺乳類自然免疫系の基本的特性は、I型インターフェロン応答の多種比較によって明らかになった。PLoS Biol. 2017;15:e2004086. doi: 10.1371/journal.pbio.2004086. pmid:29253856.
21.Millman A, Melamed S, Amitai G, Sorek R. Diversity and classification of cyclic-oligonucleotide-based anti-phage signalling systems. Nat Microbiol. 2020;5:1608-1615。doi: 10.1038/s41564-020-0777-y. pmid:32839535
22.Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, et al. Pfam: the protein families database. Nucleic Acids Res. 2014;42:D222-D230. doi: 10.1093/nar/gkt1223.
23.Eddy SR. 高速プロファイルHMM検索。PLoS Comput Biol. 2011;7:e1002195. doi: 10.1371/journal.pcbi.1002195.
24.Eddy SR. プロファイル隠れマルコフモデル。Bioinformatics. 1998;14:755-763. doi: 10.1093/bioinformatics/14.9.755.
25.Richter DJ, Berney C, Strassert JFH, Poh Y- P, Herman EK, Muñoz-Gómez SA, et al. EukProt: a database of genome-scale predicted proteins across the diversity of eukaryotes.
26.del Campo J, Sieracki ME, Molestina R, Keeling P, Massana R, Ruiz-Trillo I. The others: Our biased perspective of eukaryotic genomes. トレンド・エコル・エボル. 2014;29:252-259. doi: 10.1016/j.tree.2014.03.006.
27.Demuth JP, De Bie T, Stajich JE, Cristianini N, Hahn MW. 哺乳類遺伝子ファミリーの進化。PLoS ONE. 2006;1:e85. doi: 10.1371/journal.pone.0000085.
28.Albalat R, Cañestro C. Evolution by gene loss. Nat Rev Genet. 2016;17:379-391. doi: 10.1038/nrg.2016.39. pmid:27087500.
29.Wang X, Grus WE, Zhang J. Gene losses during human origins. PLoS Biol. 2006;4:e52. doi: 10.1371/journal.pbio.0040052. pmid:16464126
30.Koumandou VL, Wickstead B, Ginger ML, van der Giezen M, Dacks JB, Field MC. 最後の真核生物共通祖先における分子古生物学と複雑性。Crit Rev Biochem Mol Biol. 2013;48:373-396. doi: 10.3109/10409238.2013.821444.
31.Prokopchuk G, Butenko A, Dacks JB, Speijer D, Field MC, Lukeš J. Lessons from the deep: Mechanism behind diversification of eukaryotic protein complexes. 生物多様性条約(Biol Rev Camb Philos Soc.
32.Farkas Z, Kovács K, Sarkadi Z, Kalapis D, Fekete G, Birtyik F, et al. 遺伝子欠損と代償進化は、出芽酵母における形態学的新奇性の出現を促進する。このような進化は、出芽酵母の形態学的新奇性の出現を促進する。
33.Keating SE, Baran M, Bowie AG. I型インターフェロン誘導を制御する細胞質DNAセンサー。Trends Immunol. 2011;32:574-581. doi: 10.1016/j.it.2011.08.004.
34.Hornung V, Latz E. 細胞内DNA認識。Nat Rev Immunol. 2010;10:123-130. doi: 10.1038/nri2690.
35.Ablasser A, Goldeck M, Cavlar T, Deimling T, Witte G, Röhl I, et al. cGASは、STINGを活性化する2'-5'-結合環状ジヌクレオチドセカンドメッセンジャーを産生する。Nature. 2013;498:380-384. doi: 10.1038/nature12306.
36.Gao P, Ascano M, Wu Y, Barchet W, Gaffney BL, Zillinger T, et al. Cyclic [G(2′,5′)pA(3′,5′)p] Is the Metazoan Second Messenger Produced by DNA-Activated Cyclic GMP-AMP Synthase. Cell. 2013:1094-1107. doi: 10.1016/j.cell.2013.04.046.
37.Sun L, Wu J, Du F, Chen X, Chen ZJ. サイクリックGMP-AMP合成酵素は、I型インターフェロン経路を活性化する細胞質DNAセンサーである。Science. 2013;339:786-791. doi: 10.1126/science.1232458.
38.Burdette DL, Monroe KM, Sotelo-Troha K, Iwig JS, Eckert B, Hyodo M, et al. STINGは環状ジGMPの直接的な自然免疫センサーである。Nature. 2011;478:515-518. doi: 10.1038/nature10429.
39.Gui X, Yang H, Li T, Tan X, Shi P, Li M, et al. STING輸送を介したオートファジー誘導は、cGAS経路の根源的機能である。Nature. 2019;567:262-266. doi: 10.1038/s41586-019-1006-9. pmid:30842662.
40.Dong B, Silverman RH. 2-5A 依存性 RNase L の二分割モデル。1997;272:22236-22242. doi: 10.1074/jbc.272.35.22236.
41.Silverman RH. インターフェロン抗ウイルス反応における2',5'-オリゴアデニル酸シンテターゼおよびRNase Lとウイルスとの出会い。J Virol. 2007;81:12720-12729. doi: 10.1128/JVI.01471-07.
42.Kristiansen H, Gad HH, Eskildsen-Larsen S, Despres P, Hartmann R. The oligoadenylate synthetase family: an ancient protein family with multiple antiviral activities. J Interferon Cytokine Res. 2011;31:41-47. doi: 10.1089/jir.2010.0107. pmid:21142819
43.Severin GB, Ramliden MS, Hawver LA, Wang K, Pell ME, Kieninger A-K, et al. El Tor Vibrio choleraeにおける環状GMP-AMPによるホスホリパーゼの直接活性化。Proc Natl Acad Sci U S A. 2018;115:E6048-E6055. doi: 10.1073/pnas.1801233115. pmid:29891656.
44.Kranzusch PJ. cGASとCD-NTase酵素:構造、機構、進化。Curr Opin Struct Biol. 2019;59:178-187. doi: 10.1016/j.sbi.2019.08.003. pmid:31593902.
45.Li Y, Slavik KM, Toyoda HC, Morehouse BR, de Oliveira Mann CC, Elek A, et al. cGLRは自然免疫におけるパターン認識受容体の多様なファミリーである。細胞。2023. doi: 10.1016/j.cell.2023.05.038.
46.de Oliveira Mann CC, Kiefersauer R, Witte G, Hopfner K-P. 細胞運命を決定するヌクレオチジルトランスフェラーゼ折りたたみタンパク質MAB21L1の構造と生化学的特性評価。Sci Rep. 2016;6:27498. doi: 10.1038/srep27498.
47.Chow KL, Hall DH, Emmons SW. 線虫のmab-21遺伝子は交互細胞運命の選択に必要な新規タンパク質をコードする。Development. 1995;121:3615-3626. doi: 10.1242/dev.121.11.3615.
48.Yamada R, Mizutani-Koseki Y, Hasegawa T, Osumi N, Koseki H, Takahashi N. Mab21l1の細胞自律的関与は水晶体プラコードの発生に必須である。Development. 2003;130:1759-1770. doi: 10.1242/dev.00399.
49.Tsang WH, Shek KF, Lee TY, Chow KL. 進化的に保存されたネスト化遺伝子ペア-後生動物におけるMab21とLrba/Nbea。Genomics. 2009;94:177-187. doi: 10.1016/j.ygeno.2009.05.009.
50.Wu X, Wu F-H, Wang X, Wang L, Siedow JN, Zhang W, et al. 細胞質DNAセンサーcGASとSTINGの分子進化と構造解析。Nucleic Acids Res. 2014;42:8243-8257. doi: 10.1093/nar/gku569.
51.Margolis SR, Wilson SC, Vance RE. cGAS-STING シグナル伝達の進化的起源。Trends Immunol. 2017;38:733-743. doi: 10.1016/j.it.2017.03.004. pmid:28416447.
52.Woznica A, Kumar A, Sturge CR, Xing C, King N, Pfeiffer JK. STINGは動物の近縁種における免疫応答を媒介する。Elife. 2021:10. doi: 10.7554/eLife.70436.
HORMA Domain Proteins and a Trip13-like ATPase Regulate Bacterial cGAS-like Enzymes to Mediate Bacteriophage Immunity. Mol Cell. 2020:709-722.e7.doi:10.1016/j.molcel.2019.12.009.pmid:31932165
54.Hogrel G, Guild A, Graham S, Rickman H, Grüschow S, Bertrand Q, et al. Cyclic nucleotide-induced helical structure activates a TIR immune effector. Nature. 2022;608:808-812. doi: 10.1038/s41586-022-05070-9. pmid:35948638
55.Du Y, Hu Z, Luo Y, Wang HY, Yu X, Wang R-F. 感染症におけるcGAS-STINGシグナルの機能と制御。Front Immunol. 2023;14:1130423. doi: 10.3389/fimmu.2023.1130423.
56.Ishikawa H, Barber GN. STINGは、自然免疫シグナル伝達を促進する小胞体アダプターである。Nature. 2008;455:674-678. doi: 10.1038/nature07317.
57.西村MT. 植物免疫受容体のTIRドメインは、細胞死を促進するNADプラス消費酵素である。分子植物-微生物相互作用。AMER PHYTOPATHOLOGICAL SOC 3340 PILOT KNOB ROAD, ST PAUL, MN 55121 USA; 2019. p. 217-218.
58.Horsefield S, Burdett H, Zhang X, Manik MK, Shi Y, Chen J, et al. 細胞死経路における動物と植物のTIRドメインによるNAD+切断活性。Science. 2019;365:793-799. doi: 10.1126/science.aax1911.
59.Zhang G, Fang X, Guo X, Li L, Luo R, Xu F, et al. The oyster genome reveal stress adaptation and complexity of shell formation. Nature. 2012;490:49-54. doi: 10.1038/nature11413.
60.Lachowicz JC, Gizzi AS, Almo SC, Grove TL. Viperin and Viperin-like Enzymes from Three Domains of Life. Biochemistry. 2021;60:2116-2129. doi: 10.1021/acs.biochem.0c00958.
61.Leão P, Little ME, Appler KE, Sahaya D, Aguilar-Pine E, Currie K, et al. アスガルド古細菌の防御システムと真核生物における免疫の起源におけるその役割。doi: 10.1101/2023.09.13.557551.
62.Shomar H, Georjon H, Feng Y, Olympio B, Tesson F, Cury J, et al. バイペリン免疫は、保存された足場上での連続的な技術革新により、生命樹全体で進化した。2023.09.13.557418. doi: 10.1101/2023.09.13.557418.
63.Eme L, Gentekaki E, Curtis B, Archibald JM, Roger AJ. Lateral Gene Transfer in the Adaptation of the Anaerobic Parasite Blastocystis to the Gut. Curr Biol. 2017;27:807-820. doi: 10.1016/j.cub.2017.02.003. pmid:28262486.
64.Richards TA, Soanes DM, Jones MDM, Vasieva O, Leonard G, Paszkiewicz K, et al. Horizontal gene transfer facilitated the evolution of plant parasitic mechanisms in the oomycetes. 2011;108:15258-15263.doi:10.1073/pnas.1105100108.pmid:21878562.Proc Natl Acad Sci U S A.
65.Gabaldón T. 真核生物における非垂直進化のパターンと影響:パラダイムシフト。真核生物における非垂直進化のパターンと影響:パラダイムシフト。
66.Leger MM, Eme L, Stairs CW, Roger AJ. Demystifying Eukaryote Lateral Gene Transfer (Response to Martin 2017. Bioessays. 2018;40:e1700242.
67.Bernheim A, Sorek R. The pan-immune system of bacteria: Antiviral defense as a community resource. Nat Rev Microbiol. 2020;18:113-119.doi:10.1038/s41579-019-0278-2.pmid:31695182。
68.Koonin EV, Makarova KS, Wolf YI. ア ル カ エ ア と 細 菌 に お け る 防御システムの進化ゲノミクス。Annu Rev Microbiol. 2017;71:233-261.doi:10.1146/annurev-micro-090816-093830.pmid:28657885.
69.van Houte S, Buckling A, Westra ER. 原核生物免疫機構の進化生態学。Microbiol Mol Biol Rev. 2016;80:745-763. doi: 10.1128/MMBR.00011-16. pmid:27412881
70.Hochhauser D, Millman A, Sorek R. The defense island repertoire of the Escherichia coli pan-genome. PLoS Genet. 2023;19:e1010694.doi:10.1371/journal.pgen.1010694.pmid:37023146.
71.LeGault KN, Hays SG, Angermeyer A, McKitterick AC, Johura F-T, Sultana M, et al. 抗生物質耐性エレメントの時間的シフトがファージと病原体の衝突を支配している。Science. 2021:373. doi: 10.1126/science.abg2166.
72.Keeling PJ, Palmer JD. 真核生物の進化における遺伝子の水平移動。Nat Rev Genet. 2008;9:605-618. doi: 10.1038/nrg2386.
73.Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, et al. The Protein Data Bank. Nucleic Acids Res. 2000;28:235-242. doi: 10.1093/nar/28.1.235.
74.Burley SK, Bhikadiya C, Bi C, Bittrich S, Chao H, Chen L, et al. RCSB Protein Data Bank (RCSB.org): Experimental-determined PDB structures alongside 100 million computed structure models of proteins from artificial intelligence/machine learning. Nucleic Acids Res. 2023;51:D488-D508. doi: 10.1093/nar/gkac1077.
75.Katoh K, Standley DM. MAFFTマルチプルシーケンスアライメントソフトウェアバージョン7:パフォーマンスとユーザビリティの向上。この論文では、Mol Biol Evol.2013;30:772-780.doi: 10.1093/molbev/mst010.pmid:23329690.
76.Capella-Gutiérrez S, Silla-Martínez JM, Gabaldón T. trimAl: a tool for automated alignment trimming in large-scale phylogenetic analyses. Bioinformatics. 2009;25:1972-1973. doi: 10.1093/bioinformatics/btp348. pmid:19505945.
77.Price MN, Dehal PS, Arkin AP. FastTree 2-approximately maximum-likelihood trees for large alignments. PLoS ONE. 2010;5:e9490. doi: 10.1371/journal.pone.0009490. pmid:20224823.
78.Chernomor O, Minh BQ, Forest F, Klaere S, Ingram T, Henzinger M, et al. Split diversity in constrained conservation prioritization using integer linear programming. Doi: 10.1111/2041-210X.12299. pmid:25893087.
79.Edgar RC. MUSCLE v5 は、アンサンブルブートストラップによる系統樹信頼度の推定を改善した。doi: 10.1101/2021.06.20.449169.
80.Minh BQ, Schmidt HA, Chernomor O, Schrempf D, Woodhams MD, von Haeseler A, et al. IQ-TREE 2: New Models and Efficient Methods for Phylogenetic Inference in the Genomic Era. このような研究は、生物学的な見地から、遺伝学的な見地から、遺伝学的な見地から、遺伝学的な見地から、遺伝学的な見地から、遺伝学的な見地から、遺伝学的な見地から、遺伝学的な見地から、遺伝学的な見地から行われている。
このような背景のもとで、ゲノム生物学は、「ゲノム時代におけるゲノム生物学」と呼ばれるようになった。Bioinformatics. 2019;35:4453-4455. doi: 10.1093/bioinformatics/btz305. pmid:31070718.
82.Letunic I, Bork P. Interactive Tree Of Life (iTOL) v5: a online tool for phylogenetic tree display and annotation.

このような研究成果により、生物多様性の保全に貢献することが期待される。このような研究は、生物多様性の保全に貢献するものである。
84.Hulsen T. DeepVenn-a web application for the creation of area-proportional Venn diagrams using the deep learning framework Tensorflow.js. arXiv [cs.HC]. 2022. Available from: http://arxiv.org/abs/2210.04597.
85.Jumper J, Evans R, Pritzel A, Green T, Figurnov M, Ronneberger O, et al. AlphaFoldによる高精度タンパク質構造予測。Nature. 2021;596:583-589. doi: 10.1038/s41586-021-03819-2.
このデータベースは、タンパク質配列空間の構造カバレッジを高精度モデルで大規模に拡張するものである。このデータベースは、タンパク質配列空間の構造カバレッジを高精度モデルで大量に拡張する。
87.Shang G, Zhang C, Chen ZJ, Bai X-C, Zhang X. STINGの低温電子顕微鏡構造から、環状GMP-AMPによる活性化のメカニズムが明らかになった。Nature. 2019;567:389-393. doi: 10.1038/s41586-019-0998-5.
図を見る(5)
読者コメントを見る
著者について
指標を見る
メディア掲載
ピアレビューを見る
記事をダウンロード(pdf)
引用のダウンロード
この記事をメールで送る
PLOSジャーナル
PLOSブログ
トップに戻る
トップに戻る
PLOS
PLOSについて
フルサイト
フィードバック
連絡先
プライバシーポリシー
利用規約
メディアお問い合わせ
PLOSは非営利の501(c)(3)法人(#C2354500)で、米国カリフォルニア州サンフランシスコを拠点としています。

この記事が気に入ったらサポートをしてみませんか?