aMeta:正確でメモリ効率のよい古代メタゲノム解析ワークフロー

本文へスキップ
BMC

検索
メニュー
ゲノムバイオロジー
ゲノムバイオロジーのロゴ
ホーム
ゲノム生物学について
論文紹介
投稿ガイドライン
原稿の投稿
PDFダウンロード
方法
オープンアクセス
公開: 2023年10月23日
aMeta:正確でメモリ効率のよい古代メタゲノム解析ワークフロー

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-03083-9


Zoé Pochon, Nora Bergfeldt, ...Nikolay Oskolkov 著者一覧を見る
ゲノムバイオロジー 24巻 記事番号:242 (2023) この記事を引用する

1795 アクセス

55 Altmetric

指標詳細

概要
考古学的サンプルから得られる微生物データの解析は、古代の環境、生活様式、疾病を理解する上で大きな可能性を秘めた成長分野である。しかし、古代のメタゲノミクスでは高いエラー率が課題であり、この分野の要求を満たす計算フレームワークの利用可能性は限られている。ここでは、古代DNAの正確なメタゲノムプロファイリングワークフローであるaMetaを提案する。シミュレーションデータを用いて、aMetaを現在の最先端のワークフローに対してベンチマークし、微生物の検出と認証における優位性、およびコンピュータメモリの使用量を大幅に削減できることを実証する。

背景
歴史的に、古代DNA(aDNA)研究は、主に真核生物のaDNAを抽出・分析し、ヒトや動物の進化と人口動態に焦点を当ててきた[1,2,3]。次世代シーケンシング(NGS)技術の発展により、これまでシーケンシングの副産物として扱われていた真核生物の遺体から宿主に関連する微生物のaDNAを抽出することで、古代のパンデミックや生活様式、過去の人口移動に関する貴重な情報が得られることが実証された[4,5,6]。現代の技術により、真核生物宿主に生息する古代のマイクロバイオームだけでなく、堆積古代DNA(sedaDNA)の研究も可能になった。これは古遺伝学の一分野として急速に独立し、歴史的な骨や歯を分析することなく、ヒトや動物の進化に関する前例のない情報を提供するようになった[7,8,9,10,11,12]。これまで微生物生態学で利用されてきたメタバーコード法は、検証や認証に不十分であったため、ショットガンメタゲノミクスが古代マイクロバイオーム研究のデファクトスタンダードとなっている[13]。しかし、古代のメタゲノムサンプルにおける微生物生物の正確な検出、存在量の定量、および認証分析は、依然として困難である[14]。これは、微生物のaDNAの量が限られていること、また、古代のサンプルに生息している宿主に関連した微生物群集と侵入微生物群集の両方が、生きているときと死後とで非常に多様であることが原因である。特に、現代の汚染の存在は、aDNAデータの解析にバイアスをもたらす可能性がある。こうした技術的・生物学的要因のすべてが、古代のメタゲノム研究における偽陽性・偽陰性の微生物同定率の高さにつながる可能性がある[15]。

参照ゲノムが利用可能な微生物生物の存在をスクリーニングする場合、各aDNA配列に分類学的ラベルを付与することを目的とする。この目的のためには、2つの主要なアプローチがある:コンポジション、別名k-mer分類学的分類と、アライメントに基づく方法である。前者については、Krakenファミリーのツール[16, 17]が古代のメタゲノミクスにおいて最も一般的なツールの一つであり、後者については、BWA[18]やBowtie2[19]などの汎用アライナーや、MALT[20]などのメタゲノミクスデータの解析のために特別に設計されたアライナーが最も一般的に使用されている。

各aDNA配列が参照ゲノムとの類似性に基づいて参照ゲノムに沿って配置されるアラインメントアプローチとは異なり、k-mer分類学的分類では、参照ゲノムが利用可能なすべての生物について、k-merと最小公倍数祖先(LCA)情報を含むルックアップデータベースを使用する。DNA配列は、配列中の各k-merについてデータベースを検索することにより分類され、次にLCA情報を用いて配列の最も特異的な分類レベルを決定する。分類に基づくアプローチの利点は、高速であること、候補の範囲が広いこと(データベースサイズ)であるが、欠点は、検証や認証が困難であることであり、分類に基づくアプローチではエラー率が高くなることが多い。対照的に、例えばMALTを用いるアラインメントベースのアプローチは、検証および認証の手段を提供するが、比較的遅く、より多くのリソースを必要とし、データベースに含まれる参照配列の選択に大きく依存する。コンピュータのメモリ(RAM)などの技術的な制限により、データベースに大量の参照配列を含めることがしばしば妨げられ、微生物検出の偽陰性率が高くなる可能性がある。実際には、使用する解析や参照データベースの性質が大きく異なるため、分類アプローチとアラインメントアプローチの出力がしばしば矛盾し、古代のメタゲノミクス研究コミュニティにさらなる混乱をもたらす。実際、どちらのアプローチにも長所があるが、同時に深い弱点もあり、適切に考慮されなければ、重大な解析エラーにつながる可能性がある。

ここでは、古代メタゲノミクスに共通する2種類のエラー、(1)検出エラーと(2)認証エラーを定義する。検出エラーは、古代の状態に関係なく、微生物の有無を正しく識別することの難しさから生じる。これは、フィルタリングが緩すぎる、あるいは保守的すぎるなど、さまざまな理由で起こりうる。このエラーは古代のメタゲノミクスに特有のものではなく、現代のメタゲノミクスの分野でも有効な一般的な課題である。対照的に、我々の場合の認証エラーは、主に検出された生物の古代の状態に関連しており、考古学的サンプルに一般的に存在する現代の汚染によって引き起こされる。しばしば、不正確なデータ処理と取り扱いによって、現代の汚染物質が古代起源であると誤って発見されたり、逆に古代の微生物が現代起源であると誤って発見されたりすることがある。従って、古代マイクロバイオームの再構成の主な目標は、微生物が(a)サンプル中に本当に存在し、(b)古代起源であるという正確な証拠を確立することである。

ここでは、分類ベースのアプローチとアライメントベースのアプローチの両方の長所を組み合わせることで、検出エラーや認証エラーが少ない古代メタゲノムプロファイリングワークフローaMetaを開発することを目指す。この目的のために、低メモリの計算環境での作業に適したKrakenUniq [21, 22]を用いて、メタゲノムサンプルの最初の分類学的プロファイリングとMALT参照データベースの構築を行い、その後、LCAベースのMALTアラインメントを行い、アラインメントに基づく包括的な検証と認証分析を行う。MALTデータベースに含める微生物候補のKrakenUniqベースの選択は、MALT単独でのメタゲノムプロファイリングと比較して、aMetaのリソース使用量を劇的に削減することを報告します。我々は、シミュレートされた古代のメタゲノミックデータを使用して、我々のワークフローを評価し、おそらく現在最も一般的でデファクトスタンダードの古代のメタゲノミックパイプラインであるHeuristic Operations for Pathogen Screening (HOPS) [23]に対してベンチマークを行いました。その結果、KrakenUniqとMALTを組み合わせたワークフローでは、カバレッジフィルタリングの幅が広がり、データベースサイズが大きくなり、柔軟な認証スコアリングシステムにより、利用可能なコンピュータメモリが同じであれば、HOPSと比較して、古代微生物の検出と認証の感度と特異度のバランスが高くなることが実証された。重要なことは、ベンチマークでシミュレートした古代のメタゲノミックデータセットにおいて、aMetaはHOPSの約半分のコンピュータメモリを消費したことである。

結果
aMetaワークフローの概要を図1に示す。これは、Snakemake [24]で実装されたエンドツーエンドの処理と解析のフレームワークであり、生のシーケンスデータを、通常は共通のプロジェクトに属する一連のファイルとして受け入れ、検出された古代の微生物種のランク付けされたリストと、各サンプルにおけるそれらの存在量、および各サンプルで同定された各微生物に関する多数の検証および認証プロットを出力する。言い換えれば、このワークフローは、検出された微生物をその存在と古代の状態の証拠に基づいて評価する、いくつかの認証および検証メトリクスの便利な高レベルの要約を活用しています。

図1
図1
aMeta:古代メタゲノム解析ワークフローの概要。このワークフローは、KrakenUniqによる分類学的分類とフィルタリングのステップを組み合わせたもので、MALTデータベースをさらにダイナミックに構築するための微生物候補のリストを確立し、データベースに対してMALTによるLCAベースのアラインメントを実行し、アラインメントに基づいて検証および認証分析を実行します。

フルサイズ画像
ここでは、aMetaに実装されている各ステップの詳細な説明を提供します。ワークフローは、配列決定されたDNAリードを含む標準的なfastq形式のメタゲノム生データを受け入れ、Cutadapt [25]を用いて配列決定アダプターを除去し、分類学的特異性の高い31 bp以上の長さのリードを選択する。次に、ワークフローはKrakenUniq[21, 22]を実行する(このステップを "pre-screening "と呼ぶ)。KrakenUniqは高速で正確なk-merベースのツールで、低メモリの計算環境でも動作することができる[22]。KrakenUniqはaDNA配列の分類学的分類を行い、各分類群の参照ゲノム内でユニークなk-merの数を報告する: 図S1を参照。実際、ユニークなk-merの数が多いほど、リードがより多くのユニークな領域にまたがり、参照ゲノム全体に分布し、参照ゲノムのより多くの塩基対を包含するため、カバレッジの幅が広いことを意味する。ユニークk-mersの数は、aMetaの精度を大幅に向上させる必須のフィルターである(デフォルト:1000ユニークk-mers、ユーザーが設定可能)。したがって、KrakenUniqの利点は、明示的なアラインメントを必要とせずに、k-merベースのリード分類によってカバレッジの広さの推定値を提供できることです。

図2は、カバレッジの深さ(文献では「カバレッジ」と呼ばれることもある)のみに基づいて微生物生物を検出すると、偽陽性の同定につながる可能性がある理由を模式的に示しています。カバレッジの深さは、参照ゲノムの長さで正規化された、マップされたリードの総数に相当する。長さ
長さ
が参照ゲノムにマッピングされているとする。微生物が本当に検出された場合、リードは均等にマップされるはずである。つまり、参照ゲノム全体にランダムに、つまり比較的均等に分布するはずである。この場合、マップされたリードは、カバレッジの広さ(リファレンスヌクレオチドをカバーする割合)とカバレッジの均一性(配列決定されたリードがリファレンスゲノム全体に分布する均一性または一貫性)を満足する。図2Bのおもちゃの例では、4つのリードはすべてユニークな位置にマップされ、このようなアラインメントでは100%の完全なカバレッジが得られます。対照的に、種A由来のリードが種Bの参照ゲノムに誤ってマッピングされたミスアラインメントリードの場合、配列保存性の高い領域でリードのスタッキングが観察されるのが一般的で、図2Aでは4つのリードがすべて同じ位置にアラインメントしている(未知の微生物由来のリードを意図的にYersinia pestis参照ゲノムにのみマッピングさせた実際のデータ例については、Additional file 1, 図S2も参照)。図2Aのおもちゃの例では、リードアラインメントのカバレッジは25%とかなり低い。図2Bの非重複リードは、図2Aのスタックリードに比べて(kが十分大きければ)より多くのユニークなk-merをカバーする可能性が高いことに注意してください。したがって、KrakenUniqが提供するユニークなk-merの数に概念的に関連するカバレッジの広さは、私たちのワークフローでロバストなフィルタリングを行うために非常に重要であると考えています。

図2
図2
カバレッジの深さと広さ/均一性の概念の違いを模式的に示す。2つのリードアライメントシナリオ、AとBは、Nreads* Lread / Lgenome = 4 * Lread / 4 * Lread = 1Xという同一のカバレッジの深さを持つ。しかし、リードはケースAでは不均等に広がり、ケースBでは均等に広がっている。後者の方がカバレッジの幅が広く(前者が25%であるのに対して100%)、カバレッジも均等である。シナリオBは真陽性ヒットに相当し、シナリオAは典型的な偽陽性微生物検出である。

フルサイズ画像
カバレッジの広さによるフィルタリングに加えて、aMetaではカバレッジの深さに基づいて低存在微生物が除去される。カバレッジの深さによるフィルタリングは、その後のバリデーションや認証ステップにおいても重要である。そのため、aMetaはかなり保守的なアプローチを採用し、サンプル中に実際に存在する可能性が高い、カバレッジが均一で適度に豊富な生物種に焦点を当てている(図3)。

図3
図3
メタゲノムサンプル中の微生物分類群についてKrakenUniqが報告したカバレッジの深さ(分類群に特異的なリードの数)と広さ(ユニークなk-merの数)。不均一にマッピングされたリードが多く、したがってカバレッジの幅が低い分類群は、偽陽性同定とみなされます(左上隅)。赤い実線の水平線と垂直線は、KrakenUniqの出力に適用されたオプションのカバレッジの深さ(~100リード)と広さ(~1000ユニークk-mers)を示しています。

フルサイズ画像
KrakenUniqによるプレスクリーニングのために、2つの異なる参照配列データベースを構築した: (1)現在BLASTN[26]でデフォルトで使用されている完全なNCBI非冗長NTデータベース(full NCBI NTと呼ぶ)で、2020年12月現在NCBIで利用可能なすべての真核生物および原核生物ゲノムを含む; (2) NCBIの全ゲノム配列(細菌、ウイルス、古細菌、真菌、原虫、寄生虫)、ヒトゲノム、全真核生物ゲノムを含む微生物版NCBI NTデータベース(Microbial NCBI NTと呼ぶ)。前者は真核生物(哺乳類、植物など)と微生物両方の包括的スクリーニングに利用でき、後者は半分以上のサイズで、微生物プロファイリングのみに十分である。両データベースは、SciLifeLab Figshare(https://doi.org/10.17044/scilifelab.20205504、https://doi.org/10.17044/scilifelab.20518251)を通じて、広く科学コミュニティに公開されている。

さまざまなKrakenUniqデータベースを比較したところ、データベースのサイズが確実な微生物同定において重要な役割を果たすことがわかりました。具体的には、データベースが小さいほど偽陽性率および偽陰性率が高くなる傾向がありましたが、これには2つの理由がありました。第一に、参照ゲノムがKrakenUniqデータベースに含まれていないサンプルに存在する微生物は、明らかに同定できず、それゆえ小さいデータベースの偽陰性率が高くなる。第二に、データベース内の微生物がサンプル内の微生物と遺伝的に類似している場合、誤って同定されることが多く、これが小規模データベースの偽陽性率の高さの一因となっているようである。詳細については、「結果」セクションのサブセクション「データベース・サイズの影響」を参照のこと。

KrakenUniqの出力をカバレッジの深さと広さでフィルタリングする技術は、サンプル中の生物の存在を確認するためには信頼できるものですが、KrakenUniqの発見は認証されなければなりません、すなわち、その古代の状態を確認する必要がありますが、これは分類学的分類アプローチだけでは不可能です。実際、KrakenUniqの検出誤差がかなり低いとしても(「背景」のセクションを参照)、検出された微生物の古代の状態に関する情報を提供することはできない。さらに、カバレッジの均等性や編集距離のようなアライメントの要約統計に基づく追加の検証は、KrakenUniqの出力に適用されるカバレッジの広さと深さの主要なハード閾値を超えて、aMetaの検出精度を向上させることができる。

KrakenUniqのプリスクリーニングステップからの結果を検証し、潜在的な偽陽性の微生物同定をさらに排除するために、aMetaはMALTアライナー[20]でアライメントを実行します。MALTの主な利点とaMetaで使用する動機は、MALTがBWA [18]やBowtie2 [19]のような他の伝統的なゲノムアライナーとは対照的に、LCA(Lowest Common Ancestor)アルゴリズムを適用するメタゲノムに特化したアライナーであることでした。LCAアルゴリズムは、異種メタゲノムシーケンスデータを扱う際に特に重要である。具体的には、複数のリファレンスゲノムに競合マッピングを行う場合、複数のリファレンスに同じ親和性でマッピングされたリード(マルチマッピングリード)を正しく処理することが重要です。従来のゲノムアライナーでは、マルチマッピングリードは曖昧で情報量が少ないとして無視されていました。これに対して、MALTのLCAアルゴリズムは、マルチマッピングリードを近縁生物の分類樹内に保持し、樹の下位祖先ノードにリードを割り当てます。例えば、あるリードが2つの生物種に同じミスマッチ数でマッピングされた場合、そのリードはそれらの共通の属に割り当てられ、下流の解析のために保持される。また、aMetaのユーザーは、より高速でメモリ効率の高いアラインメントを行うためにBowtie2を選択することもできる; Additional file 2: S1を参照。実際、MALTは非常にリソースを必要とするため、Bowtie2がユーザーに好まれるかもしれない。しかし、Bowtie2にはマルチマッピングリードのLCA処理がないため、メタゲノム解析にはMALTの方が適しています。

実際には、MALTで解析を行う場合、限られたサイズの参照データベースしか利用できないため、微生物の検出精度が低下する可能性がある。その結果、我々はKrakenUniqの大規模データベースを扱うユニークな能力と、LCAアライメントを介した結果の検証のためのMALTの利点を結びつけることを目的としています。この目的のために、aMetaはKrakenUniqによって同定された微生物種のフィルタリングされたリストに基づいて、プロジェクト固有のMALTデータベースを動的に構築します。言い換えれば、KrakenUniqの出力のカバレッジの深さと幅のフィルタリング後に残った、サンプル全体の微生物の組み合わせが、MALTデータベースを構築するために使用され、現実的な計算リソースを使用してLCAベースのMALTアラインメントの実行を可能にします。

aMetaワークフローで適用される解析戦略は2段階である。第一に、KrakenUniqを使用して、aDNAサンプル中の微生物生物を、完全なNTデータベースまたは微生物NTデータベースに対して事前にスクリーニングし、分類する。第二に、KrakenUniqによって第一段階で同定された微生物種からなるプロジェクト固有のデータベースに対して、MALT LCAベースのアラインメントを実行することによって、発見を検証する。この2段階戦略は、aDNAメタゲノムサンプルにおける微生物の検出と認証の感度および特異性の両方において、大きな計算資源負担を強いることなく、良好なバランスを提供する。一方では、KrakenUniqステップは、そうでなければMALTが扱うことが技術的に不可能である可能性が高い大規模データベースを使用することにより、微生物検出の感度を最適化します。一方、MALTステップは、様々な品質メトリクスの計算に適したLCAベースのアラインメントを実行することで、微生物検出と認証の特異性を最適化します。aMetaの2ステップ設計は、参照データベースの一貫した使用を保証することにより、分類(KrakenUniq)とアライメント(MALT)アプローチ間の潜在的な競合を最小限に抑えることに留意されたい。

先に強調したように、メタゲノムサンプル中のKrakenUniqおよびMALTによって同定された微生物生物は、その古代の状態をチェックする必要がある。すなわち、真に古代の生物と現代の汚染物質を識別するためには、認証解析が必要である。メタゲノムaDNAサンプルから見つかった微生物生物の認証のために、MaltExtractツール[23]をMALTによって生成されたLCAベースのアラインメントに適用し、脱アミノ化パターン[27, 28]、リード長分布、参照との同一性パーセントを介した平均ヌクレオチド同一性(ANI)、編集距離(ミスマッチ量)[23]のメトリックスを計算した。次に、SAMtools [29]を用いて、各微生物参照ゲノムにアライメントされたリードのカバレッジの広さと均一性を作成した。さらに、ワークフローは、各サンプルで同定された各微生物のアラインメントと対応する参照ゲノム配列を自動的に抽出し、ユーザーは、例えば、aMetaによって報告された品質メトリクスの直感的な解釈を提供するIntegrative Genomics Viewer(IGV)[30]で、アラインメントを視覚的に検査することができます。最後に、PMDtools [31]を用いて死後損傷スコア(PMD)のヒストグラムを計算する。これらの品質評価指標はすべて補完的なものであり、メタゲノミックサンプル中の微生物の存在や古代の状態について、より多くの情報に基づいた判断を下すのに役立つ。aMetaの典型的なグラフィカル出力は図4に示されており、ペストの原因である病原体Yersinia pestisの認証と検証情報を要約している: Gökhem4(Gok4)個体については、図S3も参照のこと[5]。

図4
図4
aMetaの認証出力。左から右へ、上から下へ:a 割り当てられた全リードに対して計算されたedit distance、b 損傷したリードに対して計算されたedit distance、c 偶数性/カバレッジの広さ、d 脱アミドパターン、e リードの長さの分布、f PMDスコアの分布、g 同一性のあるリファレンスに割り当てられたリードの数、h マップされたリードのパーセンテージを持つリファレンス候補配列、i MaltExtractの統計情報。

フルサイズ画像
品質メトリクスのグラフサマリーに加え、aMetaは、MALTから入手可能なrma6およびSAM-アラインメントの両方から定量された微生物量の表を提供します。rma6フォーマットのアラインメントは、MEGANツール[32]のrma2infoラッパースクリプトを使用して定量化され、一方、SAM-アラインメントからの微生物存在量の定量化にはカスタムawkスクリプトが使用される。主要なMALTアライメントフォーマットであるrma6の欠点は、SAMtoolsのような典型的なバイオインフォマティクスソフトウェアで簡単に扱えないことである。しかしながら、MALTが提供するSAM形式の代替アラインメントはLCA情報を欠くため、本質的にBowtie2アラインメントに似ており、最適ではないことがわかった。とはいえ、存在量を定量する2つの方法は互いに補完的であると考えている。MALTのrma6出力からのLCAに基づく定量は、真の種ごとの微生物量を過小評価する可能性がある。なぜなら、ある種に由来する多くの短い保存aDNA配列は、より高い分類学的レベル、例えば属レベルに割り当てられるため、種の存在量に寄与しないからである。対照的に、MALTのSAM出力からのLCAを意識しない定量化は、非特異的なマルチマッピングリード、すなわち、複数の相同微生物に対して同じ親和性でマッピングするリードを含む、種に割り当てられたすべてのリードを絶対的にカウントするため、真の種ごとの微生物量を過大評価するようである。

aMetaワークフローの中で、潜在的に存在する古代微生物の概要を素早くユーザーフレンドリーに把握することを容易にする特別な認証スコアリングシステムを構築し、実装した。詳細については、"Methods "セクションおよびAdditional file 2: S5を参照。スコアはサンプルごとに微生物ごとに計算され、Fig. 具体的には、(1)脱アミノ化プロファイル、(2)カバレッジの均一性、(3)全リードの編集距離(ミスマッチの量)、(4)損傷したリードの編集距離(ミスマッチの量)、(5)リード長分布、(6)PMDスコア分布、(7)割り当てられたリード数(カバレッジの深さ)、(8)参照に対する同一性パーセントによる平均ヌクレオチド同一性(ANI)。このスコアリングシステムでは、微生物の真の存在を示す究極の基準としてカバレッジの均一性を、また古代の起源を示す最も重要な証拠として脱アミノ化プロファイルを重視している。

aMetaは主な出力の1つとして、各サンプルで検出された微生物の認証スコアのヒートマップサマリーを提供する(追加ファイル1:図S4)。スコアのヒートマップは、0(存在しないか、現代の汚染物質)から10(存在し、古代のもの)の範囲で、ユーザーが古代のメタゲノム解析の結果を要約し、フォローアップするヒットについて、より多くの情報に基づいた決定を下すための迅速かつ簡単な方法を提供します。

シミュレーションデータによるaMetaのベンチマーク
古代メタゲノミクスの分野で最も広く使われているパイプラインの一つであるHOPS [23]に対してaMetaのベンチマークを行った。したがって、我々のワークフローとnf-core/eager[33]は特に比較せず、計算リソースと精度の観点からaMetaとHOPSの違いに集中した。

2つのアプローチを強固に比較するために、gargammelツール[34]でシミュレートされた様々な微生物組成を持つ10個の古代のヒトメタゲノミックサンプルを表すグランドトゥルースデータセットを構築した。潜在的な汚染シナリオを模倣するために、宿主関連(古代)と汚染物質(古代と現代)の両方のリードをシミュレートした。私たちのaDNAプロジェクトで一般的に見られる35の微生物種を選択し[35, 36]、断片化および損傷したリードをシミュレートしました。さらに、典型的な古代DNAの生ゲノムシーケンスデータを模倣するために、イルミナアダプターとシーケンスエラーを追加しました。古代のメタゲノム研究[35, 36]における典型的な状況に近づけるため、現代と古代の両方の細菌リードをシミュレートしました。例えば、古代の歯石[35]を研究する場合、宿主に関連するStreptococcus pyogenesやParvimonas micraが観察されることがよくありますが、ここでは古代由来としてシミュレートしました。また、Mycobacterium aviumやRalstonia solanacearumのような環境由来の古代の外因性細菌を見つけることもできる。合計で、35種の微生物のうち18種が古代としてシミュレートされた。また、私たちのaDNAラボで(ブランクの)ネガティブコントロールに通常見られるBurkholderia属やPseudomonas属の数種類など、現代の細菌汚染物質も追加した。汚染物質は中程度の断片化レベルでシミュレートされ、明確な脱アミドや損傷パターンは見られなかった。合計で、35種の微生物のうち17種が現代のものとしてシミュレートされた。まとめると、シミュレートされたグランドトゥルースデータセットには、古代および現代起源のヒトと微生物のDNAリードが含まれ、さまざまな比率で存在し、損傷や断片化のレベルもさまざまであった。これは、様々なaDNAメタゲノミクスプロジェクトで観察される典型的なメタゲノム構成シナリオを忠実に模倣していると考えられる[35, 36]。

このシミュレートされたグランドトゥルースデータセットを用いて、まずaMetaとHOPSが必要とするコンピューターメモリリソースを比較することを目的とした。この目的のために、デフォルト設定と、構築済みデータベースの中で2番目に大きいMicrobial NCBI NTデータベースを使用して、シミュレートされたデータに対してaMetaを実行した。比較のために、最小のデータベースである微生物ゲノムの完全な NCBI RefSeq データベースでもデフォルトの設定パラメータで HOPS を実行しました。コンピュータリソースのベンチマークでは、図5に示すように、aMetaの設計(KrakenUniqによる事前スクリーニングに続いてMALTデータベースを動的に構築する)により、HOPSパイプラインでMALTデータベースを収容するのに必要なリソースと比較して、コンピュータのメモリ負荷(RAM)が約2倍削減されることがわかりました。具体的には、aMetaは20スレッドで最大353GBのRAMを使用したのに対し、HOPSは1スレッドで最大685GB、20スレッドで720GBのRAMを必要とした。aMetaにおけるこのメモリ削減は、2つの要因によって可能となった: (1)KrakenUniqの最近の低メモリ開発[22]、(2)KrakenUniqによる事前スクリーニング後のMALTデータベースの動的構築。さらに、aMetaのピークメモリ負荷は、我々のベンチマークデータセットに対して、353GBから約140~150GB(HOPSと比較して約5倍のメモリ削減)にさらに削減することができます。これは、aMetaを実行した場合、MALTの削減不可能なメモリ消費量はわずか138GBであったのに対し、353GBのメモリピークがKrakenUniqステップで観測され、実際にはさらに少ない利用可能メモリで実行可能であったためです[22]。しかし、この場合、計算時間が長くなる。とはいえ、我々のテスト(追加ファイル1:図S16)によると、新しいKrakenUniq開発は、128GBのRAMを搭載したコンピュータ・クラスタ・ノード上でさえ、従来は少なくとも512GBのRAMを搭載したノードがなければ不可能であった、450GBの参照データベースを使用した分類を、以前のバージョンよりも最大10倍高速化することができます。

図5
図5
aMetaとHOPSコンピュータのメモリ(RAM)使用量の比較。ベンチマークデータセットにおけるaMetaのピークメモリ負荷は、HOPSのピークメモリ負荷に比べて約2倍低い。

フルサイズ画像
aMetaはHOPSと比較して、よりメモリ効率の高い古代メタゲノム解析ワークフローであると結論づけられる。しかし、この優れた計算効率の代償として、メタゲノム解析の精度が低下することが懸念される。この問題に対処するため、我々は、上述の既知のグランドトゥルースを用いてシミュレートした古代のメタゲノミックデータセットを用いて、微生物の検出エラーと認証エラーを計算した。

まず、aMetaとHOPSの検出エラー、すなわち、古代の状態に関係なく、メタゲノムサンプル中の微生物の有無を誤って報告する場合のエラーを定量化しようとした。この目的のため、デフォルト設定のaMetaをシミュレートデータセット上で実行し、微生物NCBI NTデータベースを使用してカバレッジの幅をフィルタリングした後、KrakenUniqによって微生物存在量マトリックスを計算した。比較のために、デフォルトの設定パラメータを用いたHOPSを、微生物ゲノム完全NCBI RefSeqデータベースを用いて実行しました。このデータベースは、1 TBのRAMコンピュータクラスターノード上でHOPSに使用可能な最大のデータベースでした。MEGAN[32]を使用して、HOPSによって検出された微生物生物の存在量を定量化した。次に、KrakenUniqとHOPSの微生物存在量マトリックスの両方を、割り当てられたリード数に対して徐々に増加する閾値を使用してフィルタリングした。存在量マトリックスに適用されたカバレッジの深さの閾値ごとに、KrakenUniqとHOPSによって同定された微生物生物を、gargammelによってシミュレートされた生物の真のリストと比較した。予測と地上真実の重なりの基準として、2つのメトリクスを使用した: これは、KrakenUniqとHOPSによる微生物検出の感度と特異性のバランスを定量化するものです(図6)。図6の実線で示すように、KrakenUniqとHOPSの微生物量マトリックスに適用されるカバレッジの深さの閾値が異なると、Jaccard類似度とF1スコアがどのように変化するかを示しています。図6の破線の水平線は、aMetaにデフォルトで設定されているカバレッジの深さと広さの閾値を使用して計算されたJaccard類似度とF1スコアに対応する。より具体的には、デフォルトでは、aMetaは1000のユニークなk-merと、分類群に割り当てられた200のリード(taxReads)を、それぞれ深さとカバレッジの広さによるフィルタリングに使用する。デフォルトのaMetaのフィルタリングの閾値は、以前に1200以上の古代のメタゲノムライブラリーの解析から経験的に決定された[35, 36]。とはいえ、ユーザーは、シーケンスの深さや生物の関心に応じて、割り当てられたリード数を100~300リードの範囲で、ユニークk-mersの閾値を500~1500k-mersの範囲で、特定のプロジェクト用に実験することが推奨される。図6が示すように、aMetaのデフォルト設定では、KrakenUniqアバンダンスマトリックスのフィルタリングから得られるJaccard類似度とF1スコアの値がほぼ最適になります。重要なことは、図6において、KrakenUniqとHOPSのアバンダンス・マトリックスに適用されるカバレッジの深さの閾値に関係なく、HOPSのJaccard類似度とF1スコアは、KrakenUniqとaMetaによって提供される感度対特異度レベルを常に下回っていることが観察できます。この結論は、リード数の閾値を変えて、微生物組成再構築の精度、偽陽性および偽陰性のカウント数を検査することによっても確認された(追加ファイル1:図S10)。

図6
図6
KrakenUniq、HOPS、aMeta(デフォルト設定)の微生物検出感度と特異度の比較: A Jaccard類似度とB F1スコアは、シミュレートされた微生物量のグランドトゥルースに対して計算されている。

フルサイズ画像
aMetaの検出精度が高いのは、2つの要因によるものである。第一に、KrakenUniq、したがってaMetaでは、分類学的プロファイリングに非常に大規模で系統学的に多様なデータベースを使用することが計算上可能であるため、HOPSデータベースに存在しない可能性があるためにHOPSでは見逃される可能性のある微生物生物を検出することができます(aMetaで可能なほど大規模で多様なHOPSデータベースを構築して使用することは技術的に不可能であったため)。したがって、KrakenUniqとaMetaは微生物検出の感度が高い。この結論は、Additional file 1で確認された: 図S5-S10では、サンプルごとの微生物の有無に関するグランドトゥルースを、aMetaとHOPSによって再構築されたものと比較しています。例えば、Campylobacter rectus、Fusarium fujikuroi、Methylobacterium bullatum、Micromonas commoda、Micromonospora echinospora、Mycobacterium riyadhense、Nonomuraea gerenzanensis、Pseudomonas psychrophila、Pseudomonas thivervalensisなどの模擬種は、aMetaではデータセットに存在すると正しく同定されたが、HOPSではどの模擬サンプルでも検出されなかった。興味深いことに、カンピロバクター・レクタスの代わりにカンピロバクター・シャワエがHOPSによって検出されました。これは、限られたデータベースサイズが、微生物検出の感度(見逃された微生物)だけでなく、特異性(誤って同定された微生物)にも影響することを示している。合計すると、HOPSは全サンプルで35種のシミュレーション微生物のうち16種を見逃したのに対し、aMetaは35種の微生物のうち9種しか完全に見逃さなかった。

aMetaによる微生物検出の精度が向上した2つ目の要因は、HOPSの微生物量マトリックスがカバレッジの深さによってのみフィルタリングできるのに対し(HOPSによって報告されたreadDisはフィルタリングに使用されず、カバレッジの広さの最適なプロキシとして考慮することはできません)、KrakenUniqでは追加のカバレッジの広さフィルタが利用可能であり、aMetaによって適用されるため、微生物検出のロバスト性が向上するという事実に由来します。したがって、KrakenUniqとaMetaは、微生物検出の特異性が全体的に高くなる傾向があります。例えば、Mycobacterium avium、Nocardia brasiliensis、Rhodopseudomonas palustris、Sorangium cellulosum、Streptosporangium roseumなどの微生物種は、HOPSでは少なくとも1つのシミュレーションメタゲノムサンプルに存在すると誤って同定されましたが、aMetaのフィルタリングを通過せず、これらのサンプルの結果出力から正しく除外されました。

さらに、各サンプルの各微生物のグランドトゥルースと再構築されたリード数を比較することで、リードレベルでaMetaとHOPSの性能を評価した(Additional file 1: Fig. HOPSは脱落率が高く(偽陽性、偽陰性が多い)、そのためリード数の閾値に敏感である(〜100〜300リードの閾値を下げると偽陽性が多くなる)のとは対照的に、aMetaは、脱落の影響を低減するカバレッジフィルターが追加されているため、幅広いリード数の閾値でより頑健である。言い換えると、100-300リードの検出しきい値を10-50リードまで下げると、偽陽性のヒットをあまり増やすことなく、aMetaのグランドトゥルースとの一致度がわずかに向上する: 図S11を参照。しかし、mapDamage[27]やMaltExtract[23]のような現在のゴールドスタンダード認証ツールは、より多くのリード数(我々の経験では少なくとも200リード)に対してのみ信頼性の高い操作が可能であるため、~10-50リード(さらに高くても~100リード)しかない微生物ヒットは認証するのに問題があることを覚えておくことが重要である。したがって、aMetaでより寛容な検出しきい値を指定することは、偽陰性率を下げるために有益かもしれないが、潜在的な認証の問題のために推奨されない。しかし、ユーザーの意図が、より多くのデータをシーケンスする前に、まず潜在的な生物を検出することであれば、HOPSと比較してaMetaのドロップアウト効果の減少を利用することができる。全体として、aMetaはHOPSに比べて検出エラーが少ないと結論づけました: 詳細については、Additional file 1: Figure S5-S11およびAdditional file 2: S4を参照。

さらに、aMetaとHOPSの認証エラー、つまり、例えば、あるツールが、実際には古代であるとシミュレーションされていない微生物を誤って古代であると報告した場合のエラーに対処した。この目的のために、aMetaとHOPSに実装されている認証スコアリングシステムを使用した。両ツールのスコアリング・システムは、微生物生物の有用なランキングを提供するだけでなく、ベンチマークを目的とした微生物検証と認証の感度と特異度の計算にも使用できる。我々は、シミュレートされたグランドトゥルースのデータセット上でaMetaとHOPSをデフォルト設定で実行し、aMetaとHOPSのスコアリングシステムによってランク付けされた微生物生物のリストを得た。HOPSによって生成されたネイティブヒートマップ出力を視覚的に調べたところ、その認証性能が最適でないことが明らかになった(Additional file 1: Fig.) 具体的には、Rhodopseudomonas palustris、Rhodococcus hoagii、Lactococcus lactis、Brevibacterium aurantiacum、Burkholderia malleiのような数種類の細菌が、シミュレーションの設計によれば現代の細菌であるはずなのに、HOPSによって誤って古代細菌であると報告された(最高得点を得たため)。HOPSのネイティブスコアリングシステムは、3つの指標(全リードと損傷リードの編集距離+脱アミノ化プロファイル)のみに基づいている。より定量的な比較のために、aMetaのスコアリングシステムと一致するように慎重に一般化した(Additional file 2: S5参照)。

さらに、aMetaとHOPSのスコアリングシステムを用いて、両ツールの微生物検証と認証の感度対特異性を反映した受信者動作特性(ROC)曲線を計算した。図7に、シミュレーションした古代のメタゲノミックデータセットを用いて計算した、aMetaとHOPSのROC曲線の比較を示す。シミュレートされたグランドトゥルースデータセットに対して、aMetaはHOPSと比較して、古代微生物同定の感度対特異度が全体的に高いことが観察できる。これは主に、aMetaが微生物の存在と古代の状態について、より多くの情報に基づいた判断を下すのに役立つ、追加的なカバレッジメトリックの均等性(図4)と、より良くチューニングされた脱アミノプロフィールスコアの寄与によるものである。例えば、Burkholderia mallei、Brevibacterium aurantiacum、およびLactococcus lactisは、現代の微生物としてシミュレートされましたが、いくつかのサンプルでHOPSから高い認証スコアが得られ、存在し、古代の微生物であると予測されました。しかし、これらはaMetaによって、現代の汚染物質として正しく低くランク付けされた。対照的に、古代のSalmonella Entericaゲノムのシミュレートは、HOPSではリードのミスアライメントにより低いランクにランク付けされましたが(Additional file 1: Fig: 図S14参照。全体として、aMetaはHOPSに比べて認証エラーが少ないと結論づけられる。詳細はAdditional file 2: S5を参照。

図7
図7
シミュレーションデータセットにおけるaMetaとHOPSの認証スコアのROC曲線比較。

フルサイズ画像
データベースサイズの効果
他のヌクレオチドデータベースと比較した場合のNCBI NTの利点は、生命樹全体にわたる生物(原核生物と真核生物の両方)のおそらく最も多様な表現を提供していることである。しかし、サイズが大きいため、この参照データベースを使用するメタゲノムワークフローにはメモリが必要になることがある。そこで我々は、メタゲノムサンプル中の生物検出の精度を損なうことなく、NCBI NTのフルサイズをどの程度まで縮小できるかを調べることを目的とした。この目的のために、まずKrakenUniq参照データベース(k-mer長31)をサイズを変えていくつか構築し、次に微生物組成が既知の古代のメタゲノミックデータセットをシミュレートして使用し、データベースサイズに応じてKrakenUniqがどの程度グランドトゥルースを再構築できるかを評価しました。

その結果、KrakenUniqデータベースのサイズが微生物検出の頑健性に強く影響することがわかりました(図8)。具体的には、KrakenUniqでシミュレートした古代のメタゲノミックサンプルをプロファイリングした後、aMetaのデフォルトの閾値(割り当てられた200リードと1000ユニークk-mers)を使用して、カバレッジの深さと広さで結果をフィルタリングしました。次に、各データベースでKrakenUniqによって検出された生物種とグランドトゥルースの生物種との間のJaccard類似度(和よりも交差)を計算しました。使用したデータベースは、サイズと内容の異なる合計4つ。最も小さいデータベースはNCBI RefSeq complete microbial genomesで、約700億塩基からなる43,767の参照配列(9155のウイルス配列、440の古細菌配列、34,172の細菌配列)が含まれています。このデータベースはhttps://doi.org/10.17044/scilifelab.21299541。最も大きなデータベースはNCBI NTで、約2300億塩基文字を含む60,179,710の参照配列を含む。このデータベースはhttps://doi.org/10.17044/scilifelab.20205504。中間のサイズのデータベースには、Standard Krakenデータベース(Kraken1[16]とKraken2[17]のデフォルト)、および完全なNCBI NTの微生物サブセット、すなわちMicrobial NCBI NTが含まれる。標準Krakenデータベースには53,693の参照配列(ウィルス11,956、古細菌553、バクテリア41,184)が含まれ、合わせて約800億文字を含む、 840,243の参照配列(ウイルス2,465,945、古細菌17,519、細菌1,737,968、真菌4,530,716、原虫1,689,877、寄生虫1,398,218配列)が含まれ、1,100億文字からなる。

図8
図8
KrakenUniqによる微生物同定におけるデータベースサイズの影響: Jaccard similarity (intersection over union) メトリックは、シミュレートされたグランドトゥルースに対して計算された。データベースが大きいほど、グランドトゥルースとの重なりがよくなる傾向がある。

フルサイズ画像
最小のNCBI RefSeq complete genomesデータベースは、シミュレーションしたグランドトゥルースとのJaccard類似度が0.2以下と最も低く、このデータベースは微生物の検出感度が低く、メタゲノムサンプルの分類学的プロファイリングに偏りが生じる可能性があることを示唆している。データベースのサイズを大きくすると、Jaccard類似度が徐々に大きくなり、検出された微生物種とグランドトゥルースの微生物種がよりよく重なることがわかった。約1,100億文字からなる微生物NCBI NTデータベースから開始すると、Jaccard類似度は約0.75でプラトーに達した。原核生物と真核生物の両方の参照ゲノムを含む完全なNCBI NTは、Jaccard類似度メトリックをさらに増加させることができたが、その効果はむしろわずかであった(図8)。しかし、このデータベースはより大きなRAMリソースを必要とする。したがって、微生物プロファイリングを行う場合、Microbial NCBI NTは十分な精度を提供する、すなわち、真核生物をデータベースに含めても(完全なNCBI NTの場合のように)微生物検出の精度に大きな影響は与えないと結論した。図8のJaccard類似度の大きなばらつきは、サンプル間の平均によって計算された大きなエラーバーによって示されているにもかかわらず、データベースサイズの関数としてJaccard類似度の増加プロファイルは非常に明確である。したがって、シミュレーションの結果、データベースが大きいほど微生物検出の精度が高くなる一方、データベースが小さいと感度が低くなり、メタゲノム試料中の微生物同定にバイアスが生じる可能性があると結論づけた。

さらに、小さな参照データベースを使用した場合に、どのようにスプリアスのミスアラインメントが発生するかを実証するために、DIABIMMUNEメタゲノムデータベースであるThree Country Cohort [37]から、現代の乳児のランダムなメタゲノム便サンプルG69146を使用し、Yersinia pestis (Y. pestis) CO92参照ゲノムのみにアラインメントしました。その結果、22,000近くのリードが一意に、すなわちマッピング品質MAPQ > 0でマッピングされていることがわかった(図9)。このサンプルはペストに罹患した可能性の低い現代の乳児のものであったため、マッピングされたリードは、その乳児の便サンプルにY. pestisが存在する証拠としては使用できない。さらに、Integrative Genomics Viewer(IGV)[30]でアラインメントを目視検査したところ、リードのアラインメントが不均一であることが確認され、Y. pestisがリードの参照ゲノムとして適切でないことを示唆する、多数の重複一塩基多型(SNPs)が確認された: 図S2参照。アラインメントされたリードの大部分は細菌由来ではなくヒト由来であり、参照ゲノムデータベースにヒト参照ゲノムがないためにY. pestis参照ゲノムとミスアラインメントしている可能性があると考え、hg38ヒト参照ゲノムをY. pestis参照ゲノムに連結し、競合マッピングを行った。しかし、ヒト参照ゲノムをデータベースに追加しても、Y. pestis参照ゲノムに一意にマップされるリードの数は変わらないことがわかった。次に、約22,000のミスアラインメントリードは、ヒトよりもY. pestisに系統学的に近い、Y. pestis以外の微生物に由来すると仮定した。そこで、(a)NCBI RefSeqデータベースからランダムな10個の細菌参照ゲノム、(b)ランダムな100個の細菌参照ゲノム、(c)ランダムな1000個の細菌参照ゲノム、(d)ランダムな10000個の細菌参照ゲノム、そして最後に(e)2022年9月にNCBI RefSeqから入手可能な全28,898個の細菌ゲノムを順次使用し、それらをY. pestis + hg38と連結し、この連結参照に対してBowtie2によるアラインメントを行った。その結果、Y. pestisに特異的にアライメントされたリードの数は徐々に減少し、10個のランダムなバクテリアで約8500リードだったものが、28,898個のバクテリアでわずか11リードにまで減少した(図9)。しかし、Y. pestis参照ゲノムに一意にアライメントするリードはほぼゼロに近いと予想していたにもかかわらず、ミスアライメントリードがまだいくつかあった。しかし、それでも数個のミスアラインメントリードがあり、Y. pestis参照ゲノムとのアラインメントはほぼゼロに近いと予想された。このように、データベースサイズ、すなわちデータベース内の参照ゲノム数が増加したことで、現代の乳児便サンプルにY. pestisが存在しないことを正しく確認することができた。

図9
図9
Yersinia pestis CO92参照ゲノムに一意にマップされた現代のメタゲノムリード数に対するデータベースサイズの影響。Y.pestisだけから始めると、〜22,000リードが一意にマップされる。この数は、ヒトhg38参照ゲノムを追加し、10, 100, 1000, 10,000のランダム細菌を追加し、最後にNCBI RefSeqデータベースから入手可能な28898の細菌を追加すると、データベースの成長とともに徐々に減少し、わずか数リードになる。プロットの軸はlog10スケール。

フルサイズ画像
さらに、Microbial NCBI NTデータベースから細菌ゲノムをランダムにサンプリングし、Y. pestisに一意にマップされた(ミスアラインされた)リードの数の減少プロファイルを再現した(今回はhg38ヒトリファレンスゲノムを用いず、より多くの数、すなわち最大117,000個のランダムリファレンスゲノムについて)(Additional file 1: Fig. 微生物NCBI NTデータベースから参照ゲノムをサンプリングしたところ、図9のNCBI RefSeqからのゲノムの場合と非常によく似た定性的挙動、すなわち、データベースが大きいほどミスアラインメントリード数が少なくなることが観察されただけでなく、量的にも図9と非常によく似た、しかしわずかに多い数値が観察された。NCBI RefSeqと比較してMicrobial NCBI NTでミスアラインメントリードの数がわずかに多いのは、2つのデータベースの参照ゲノムの質の違いに関係していると考えられる。つまり、NCBI RefSeqの参照ゲノムは同じ数で質が良いため、より多くの非エルシニアリードを「引き寄せる」ことができ、その結果Y. pestis参照ゲノムにミスアラインメントされるリードが少なくなる。

全体として、メタゲノム解析における微生物同定の頑健性には、データベースのサイズが大きな役割を果たすという結論に達した。データベースが十分に小さいと、計算上は処理しやすいが、メタゲノム解析の精度が損なわれ、微生物種の検出において高い偽陽性率や偽陰性率につながる可能性がある。

病原体が濃縮されたシミュレートデータセットと実データセットでの再現性
古代メタゲノミクスの分野では病原体の検出に大きな関心が寄せられていることから、aMetaとHOPSの比較を、病原体が濃縮された別のシミュレーションデータセットと、微生物病原体の存在が以前に報告された実際の古代メタゲノミクスサンプルで再現することを目指した[38]。

まず、これまでインシリコデータセットに含まれていなかった5つの病原性細菌(Brucella melitensis、Mycobacterium leprae、Mycobacterium tuberculosis、Treponema pallidum、Vibrio cholerae)を含む10サンプルを新たにシミュレートした。さらに、B型肝炎ウイルス、ヒトパルボウイルスB19、バリオラ・ウイルスの3種類の病原性ウイルスと、真核病原体であるマラリア原虫1種類が加わった。9つの病原体はすべてaDNA研究[38]で発見されており、「方法」のセクションに記述したのと同じ手順に従って、古代の病原体としてシミュレートした(Additional file 2: S7も参照)。典型的な汚染シナリオを模倣するため、Burkholderi属とPseudomonas属から4種の現代微生物種も追加した。さらに、微生物のリード数を100,000から300,000リード(比較のため、本解析では300,000から700,000リード)に大幅に制限することで、病原体の存在量が非常に低いという制限に特に対処した(Additional file 2: S7参照)。病原微生物種を濃縮したシミュレーションデータセットは、https://doi.org/10.17044/scilifelab.24211584。追加ファイル1: 図S18は、複製病原体が濃縮されたデータセットのグランドトゥルースデザインを示し、その後、aMetaとHOPSをデフォルト設定で使用した。aMetaとHOPSによる検出と認証の結果は、Additional file 1に示されている: それぞれFig. aMetaは、9種の病原体が存在するとシミュレートされたほとんどのサンプルで、すべての病原体を正しく検出し、認証することができましたが(追加ファイル1:図S19)、HOPSは、すべてのシミュレートされたサンプルで、Plasmodium vivaxを完全に見逃し、B型肝炎ウイルスとTreponema pallidumを認証できませんでした(追加ファイル1:図S20)。サンプル6で正しく検出され認証されたPlasmodium vivaxについて、aMetaが生成した認証プロットの例を、Additional file 1: 図S21に示す。さらに、aMetaとHOPSによって計算された認証スコアはほぼ同等であったが、主解析と同様にHOPSはサンプルをより容易に古代と指定する傾向があった。例えば、現代の汚染物質であるBurkholderia malleiは、aMetaスコアリングシステムでは正しく低ランクであったにもかかわらず、HOPSでは誤って最高ランクの認証スコアを得た。興味深いことに、バリオラ・ウイルスは、その脱アミノ化プロファイルがかなり不確定であるにもかかわらず、いくつかのサンプルでHOPSによって高いランク付けがなされた: 図S22参照。対照的に、aMetaは、メタゲノム・リードの末端にC/T多型が明確に濃縮されていないため、すべてのサンプルでVariolaウイルスに比較的低い認証スコアを割り当てた。古代のVariolaウイルス病原体の脱アミノ化プロファイルが一貫して納得のいくものでなかったのは、参照ゲノムの質の低さに関係していると考えられる。最後に、aMetaとHOPSが非常に低いカバレッジのデータに対してどの程度の感度を持つかを確認するために、サンプルあたりの模擬病原体あたりの検出リード数をシーケンス深度の関数として比較した(Additional file 1: Fig.) どちらのワークフローも、シーケンス深度が高いほどミスリードが少なくなる傾向がありました。言い換えると、aMetaは微生物リードの総数が10万と20万で4つの病原体、30万で1つの病原体を見逃したのに対し、HOPSは微生物リードの総数が10万で4つの病原体、20万で6つの病原体、30万で3つの病原体を見逃した。それにもかかわらず、aMetaはHOPSと比較して病原体の見逃しが少ないことが示された。すなわち、HOPSが13個の病原体を見逃したのに対し、aMetaは9個の病原体を見逃した。全体として、aMetaは、病原体の存在量が少ない場合でも、病原体の検出と認証において満足のいく性能を発揮すると結論づけることができる。

シミュレートした病原体濃縮データセットに加えて、4つの古代のメタゲノム研究から得られた実際の微生物病原体に対してaMetaの性能をテストした: Helicobacter pylori [39]、Borrelia recurrentis [40]、Brucella melitensis [41]、Tannerella forsythia [42]である。合計36ライブラリーのメタゲノミックシーケンスデータが検査された。aMetaは4つのライブラリ(Additional file 3: Table S1およびAdditional file 1: Fig. S24)を除いて、報告されている病原体を検出することに成功したが、これらはaMetaのデフォルトの閾値(200リードおよび1000ユニークk-mers)をクリアしていなかった。それにもかかわらず、そのうちの2つ、すなわちライブラリERR1094778とERR1094779[39]は、シーケンス深度が極めて低く、一般的でない、すなわち約50万リードであったこと、同じ研究からのライブラリERR1094791とERR1094792は、筋肉組織に対応しており、実際には、元の研究[39]ではヘリコバクター・ピロリの証拠は見つかっていなかった。さらに、Borrelia recurrentisは、この研究のすべてのライブラリでaMetaによって発見されました[40]。実際、大半のリードはBorrelia recurrentis A1、完全ゲノム、GeneBankアクセッション番号CP000993.1に割り当てられた。このことは、aMetaのランクフィルターは、配列と、場合によってはランクなしのカテゴリーを追加することで改善できることを示唆している。一方、これはaMetaが使用する大規模で多様なデータベースの重要性も示しており、利用可能なすべての微生物株を含めることが、希少な病原体の検出には不可欠である可能性がある。重要なことは、Additional file 1: 図S24に示されているように、aMetaのカバレッジの深さと広さに関するデフォルトの閾値は、広範囲のライブラリーサイズにおいて、病原体発見の公正な感度を提供する。より具体的には、aMetaは8百万リードと低い深さでシーケンスされたライブラリーでも病原体を回収することができ、さらに低い可能性もある。全体として、aMetaは4つの異なるショットガンメタゲノム研究[39,40,41,42]から得られた36の解析ライブラリーのうち34において、対応する病原体の存在と非存在を確認することに成功したと結論づけられる。

考察
伝統的な古代ゲノム解析の方法論は少し前に成熟に達したが、古代マイクロバイオーム解析のための解析ツールはまだ豊富にあるとは思われない。現在利用可能なMALT [20]、HOPS [23]、nf-core/eager [33]などの古代メタゲノム解析ワークフロー(後者はHOPSを内部的に使用している)は、参照データベースの選択に敏感であるため、微生物検出の感度対特異性のバランスの点で、必ずしも最適ではない。さらに、リファレンスベースのマイクロバイオームプロファイリングを実施する場合、リファレンスデータベースのサイズが重要な要素となる。参照データベースの規模が十分でない場合、第一に、データベースに存在しない微生物が同定されない危険性があり(図8)、第二に、サンプルに本当に存在するがデータベースに含まれていない別の微生物と系統学的に近い微生物が、たまたまデータベースに誤って同定される危険性がある(図9の例を参照)。しかし、MALT[20]、HOPS[23]、nf-core/eager[33]などの現在の解析ツールは、限られたサイズの参照データベースでしか実行できない。したがって、大規模な参照データベースに対してメタゲノムサンプルをクエリできる、より正確でメモリ効率の高い代替の古代メタゲノミクスプロファイリングワークフローが現在必要とされている。

本研究では、この分野の他の分析フレームワークと比較して多くの利点を持つ、新しい古代メタゲノミクスワークフローaMetaを提案した。このワークフローは、メタゲノミクス分野における最近の進歩に基づいており、ユーザーからの干渉を最小限に抑えながら、複数の品質メトリクスに基づいてロバストに検出・認証された古代微生物のリストを提供する。単に異種バイオインフォマティクスツールを組み合わせただけの他の典型的なワークフローとは異なり、aMetaは、検出と認証の最適な感度と特異性で古代の微生物生物をロバストに同定するという特定の研究課題に答えるために設計された。したがって、我々のワークフローは一見すると、KrakenUniqによる微生物DNA断片のk-merベースの分類と、MALTによるLCAベースのアライメントの組み合わせと見ることができるが、実際には、(1)KrakenUniqとMALTの出力を調和させ、首尾一貫して動作させる、(2)手作業による後処理作業の量を最小化する、(3)メモリ使用量を最適化する、(4)クエリーサンプルの微生物組成の把握が容易で高精度な概要を確実にユーザーに提供する、といった多くの追加機能を実装している。

より具体的には、aMetaは大規模な参照データベースに対するKrakenUniqによる分類学的な事前スクリーニングを使用して、MALTによるLCAベースのアライメント解析に情報を提供します。KrakenUniq[22]の最近の低メモリ開発のおかげで、大規模なデータベースに対する初期の偏りのない事前スクリーニングが計算上実現可能になりました。つまり、参照データベースがすでに構築されており、妥当なサイズであれば、分類学的分類は、データベースのサイズに関係なく、ラップトップであっても、事実上すべてのコンピュータで実行できます。この新しい開発により、KrakenUniqによる真に偏りのない事前スクリーニングと、それに続くMALTによるアライメント、検証、認証という、我々のワークフローで実装されているようなエキサイティングな機会が開かれます。このアプローチでは、最初のプレスクリーニング・ステップでKrakenUniqによって検出された微生物が存在する可能性が高いものを選択することによって、MALTのメモリ使用量を最小限に抑えることができるため、フォローアップ・ステップ中のMALTのメモリ要件を削減できます。これにより、MALTのメモリ消費量が大幅に削減されます。

事実上、我々のコンピューターメモリベンチマークによると、10個のシミュレーションされた古代のメタゲノミックサンプルを処理する際、aMetaはHOPSに比べてRAMをほとんど消費しなかった(図5)。このメモリ増加は、2つの要因によって説明できる。第一に、aMetaはHOPS(NCBI RefSeqデータベースからの完全な微生物ゲノム、参照配列は60GBのディスクスペースを占有)よりも大きなデータベース(NCBI NTの微生物バージョン+ヒト+完全な真核生物ゲノム、参照配列は〜300GBのディスクスペースを占有)を使用しているにもかかわらず、KrakenUniq [22]の最近の高速かつ低メモリの開発は、HOPSの暗黙のエンジンであるMALTに比べて、より大きなデータベースをより効率的に処理し、より少ないメモリを使用することができました。第二に、KrakenUniqによる事前スクリーニングの結果、動的に構築されたMALTデータベースは、HOPSに使用されたMALTデータベースと比較してサイズが縮小された。言い換えれば、aMetaのMALTステップはスクリーニングそのものではなく、KrakenUniqによる事前スクリーニング後のフォローアップである。HOPSは設計上スクリーニングパイプラインであり、偏りのない微生物検出を得るためには、図5に示すように、計算資源に大きな負担を強いる大規模なMALTデータベースを使用しなければなりません。具体的には、最小のデータベース(NCBI RefSeq complete microbial genomes)を用いてHOPSを実行できたのは、少なくとも1 TBのRAMを搭載したコンピュータノードのみでした。対照的に、aMetaは、はるかに大きな(微生物NCBI NT)参照データベースを使用しているにもかかわらず、512GB、さらには256GBのノードで実行することができました。このように、aMetaはメモリ負荷の大幅な削減を示した。

重要なことは、我々のワークフローのメモリ増加は、微生物の検出と認証の精度を損なわないということである。むしろ、図6と図7に示すように、aMetaはHOPSと比較して、幅広いターゲットリードの閾値において、微生物検出と認証の両方において、感度対特異度のバランスが優れている。一方、aMetaの感度が優れているのは、HOPSで使用されるデータベースと比較して、KrakenUniqで使用される参照データベースが大きいためです。要するに、より多くの微生物が参照データベースに含まれることで、クエリーサンプルから微生物を発見することができる。一方、aMetaの優れた特異性は、主に候補微生物に適用されるカバレッジの均等性に基づくロバストなフィルタリングによるものである。言い換えれば、aMetaは本質的にHOPSのように微生物候補の参照ゲノムにマッピングされたリードの数だけに依存するのではなく、微生物の存在の最終的な基準として参照ゲノム全体にわたるアラインメントされたリードの広がりを考慮する。カバレッジの均一性は極めて重要な指標であるが、aMetaはその他にも、脱アミノパターン、編集距離、PMDスコア、リード長分布、平均ヌクレオチド同一性(ANI)、カバレッジの深さなど、いくつかの品質指標を生成し(図4参照)、それらを組み合わせて微生物候補のランク付けに使用できるスコアを作成することで、古代のマイクロバイオームの概要をしっかりと把握することができる。サンプルごと、および微生物候補ごとのスコアをグラフ化した概要(Additional file 1: Fig. S4)により、ユーザーはクエリーサンプルの古代微生物組成を迅速に理解し、さらなるシーケンスや標的濃縮戦略について十分な情報に基づいた決定を下すことができる。

さらに、HOPSとは異なり、aMetaは病原体のスクリーニングのみを目的として設計されたものではなく、一般的な古代微生物群のプロファイリングフレームワークとして、すなわち、より広範な微生物群をカバーすることができる。しかし、考古学的遺物中の病原体DNAのスクリーニングは、aMetaの応用の可能性の一つであり、この目的のために、文献に基づいてカスタム構築された微生物病原体の包括的リストを利用している。微生物病原体のスクリーニングは通常、非常に限られた数のターゲットリードに対して実行されるため、aMetaの結果は適用されるフィルタリングのしきい値に敏感に反応する可能性がある。aMetaの主要なフィルターはカバレッジの広さであり、これはユニークなk-merの数で近似される(Additional file 1: Fig.) デフォルトでは、aMetaは検出のために分類群あたり少なくとも1000個のユニークk-merを必要とする。この桁の数は、オリジナルのKrakenUniqの出版物[21]で推奨されており、タクソンリファレンスにマッピングされた約50の非オーバーラップリードに相当します。実際、KrakenUniqデータベースはk-merの長さをk = 31として構築されており、断片化したaDNAの典型的な長さがL〜50 bpであるとすると、L - k + 1 = 50 - 31 + 1 = 20 k-merとなる。すべてのk-merがユニーク、すなわち重複していないリードに対応するとすれば、重複していないリードは最大でも50個のはずで、50×20=1000個のユニークなk-merが得られることになる。したがって、広義には、1000個のユニークなk-merをカバーするためには、典型的なaDNA断片に対して、少なくとも50個のリードを割り当てたカバレッジの深さが必要である。しかし、50-100の割り当てられた(重複していない)リードがあれば検出には十分であるが、このような少ないリード数では、例えばmapDamage [27]で認証するには問題があることを覚えておくことが重要である。この制限を考慮し、aMetaのカバレッジ深度のデフォルトの閾値として、分類群に固有の200の割り当てリードを使用することにした。デフォルトとして200リードと1000ユニークk-mersを選択したのは、(1)シミュレーションベンチマーク(図6、Additional file 1: 図S10、Additional file 1: 図S11)、(2)病原体を報告した4つの異なる研究から得られた36の実際の古代ショットガンメタゲノムライブラリー(Additional file 1: 図S24)、(3)1200以上の古代メタゲノムライブラリーからなる大規模データセットでの徹底的な経験的テスト[35, 36]によって、さまざまな角度から正当化された。とはいえ、aMetaではカバレッジの深さと広さの閾値は任意であり、プロジェクトの目標やデータの質に応じて調整できることを強調しておくことが重要である。aMetaのユーザーには、カバレッジの深さと広さのフィルターを試して、それぞれのプロジェクトに合わせて調整することをお勧めします。

aMetaは、古代のメタゲノム解析を実行するためのメモリ効率が高いにもかかわらず、解析の前にKrakenUniqデータベースとBowtie2インデックスが構築されていることを前提としており、これはコンピュータのメモリを必要とするプロセスです。例えば、2020年12月に完全なNCBI NT、KrakenUniqデータベース(k-mer長31)を構築するには、最大4 TBのRAMが必要でした。そのため、aMetaのリリースでは、いくつかの大規模な構築済みKrakenUniqデータベースとBowtie2インデックスをコミュニティ向けに公開しています。現在、aMetaのユーザーは、時間とメモリを消費するプロセスであるデータベースとインデックスを自分で構築する必要はなく、事前に構築された大規模なデータベースを自由にダウンロードして分析に使用することができます。

最後に、我々のワークフローは、ワークフロー管理システムであるSnakemake [24]を介して、再現可能なデータ解析の標準に従っていることに言及することが重要である。aMetaのSnakemake実装は、データ解析の再現性と拡張性を容易にするだけでなく、ハイパフォーマンスコンピュータ(HPC)クラスタやクラウド環境でのシームレスな統合を可能にする。

aMetaの限界と拡張計画
aMetaは、精度とリソース使用量の点で利点があるにもかかわらず、言及に値するいくつかの制限がある。

第一に、aMetaはメタゲノムサンプル中の微生物の発見に、リファレンスベースのアプローチを使用している。これは、リファレンス・データベースに含まれる生物のみがサンプルから発見されることを意味する。したがって、aMetaの現在の欠点は、参照ゲノムがまだ作成されていない未知の微生物生物を発見できないことである。しかし、この問題はaMetaに特有の問題ではなく、MALT [20]、HOPS [23]、nf-core/eager [33]など、参照ゲノムに基づいた戦略をとる他のツールにも当てはまるため、aMetaのアプローチに特有の問題である。

現代のメタゲノミクス[43,44,45,46]で広く使用され、古代のメタゲノミクス[47]でも成熟しつつある別のアプローチは、微生物コンティグのde novoアセンブリである。この方法では、候補となる微生物についての事前情報は必要なく、サンプル中に存在するあらゆる微生物について、事実上参照ゲノムを再構築することができる。しかし、このプロセスには通常、高いカバレッジ、すなわち深い塩基配列のサンプルが必要であり、通常、考古学的遺物から抽出できる古代のDNAの量は非常に限られているため、古遺伝学にとっては問題となる可能性がある。もう一つの困難は、シーケンスエラーに加えて、de novoアセンブリープロセスを複雑にし、下流の解析に大きな影響を与えるキメラコンティグ[48]の形成につながる可能性のある古代DNAの損傷[28]に起因する。

Snakemakeで書かれたde novoアセンブリーモジュール(この記事では紹介されていない)は、現在我々の研究室でテスト中であり、aMetaの将来のリリースでワークフローに追加する予定である。こうすることで、aMetaは分類、アライメント、de novoアセンブリーの力を活用し、お互いを補完し、古代のメタゲノミクスサンプルにおける微生物組成のより有益な概要を提供することができる。

aMetaワークフローのもう一つの拡張計画は、古環境および堆積物DNAを扱うための特別なモードである。ここで克服すべき課題の一つは、植物や動物のゲノムのような大規模な真核生物の参照ゲノムを扱うためのaMetaワークフローの微調整である。この目的のためには、冗長性のないNCBI NTデータベースを使用することは最適ではないかもしれない。なぜなら、NCBI NTデータベースには真核生物の参照ゲノムが含まれており、それらは一般的に質が低く、完全とは言い難いからである。我々の予備的なテストによると、NCBI NTデータベースに含まれる真核生物間の参照ゲノムの品質に大きなばらつきがあるため、メタゲノムリードの分類学的割り当てに深刻な偏りが生じる可能性があり、サンプルに実際に存在する相同な分類群と比較して、参照ゲノムの品質が高い(より完全である)という理由だけで偽の分類群が検出される可能性がある。

さらに、aMetaで使用されている内部デフォルトフィルターはよく調整されており、大多数のaDNAサンプルに対して良好な性能を示しているように見えるが[35, 36]、aDNAサンプルの性質や質に応じてフィルターを自己調整する戦略の開発に取り組んでいる。例えば、ウイルスは一般的に参照ゲノムが小さいため、それにアライメントされたaDNAリードは非常に少ない。そのため、現在aMetaに実装されているハードフィルターしきい値では、微生物コミュニティの稀なメンバーを見逃してしまう可能性があり、さらなるチューニングが必要である。

次に、aMetaに実装されているKrakenUniqによる事前スクリーニングステップは、MALTアラインメントの実行に必要なメモリ量を大幅に削減しますが、深く配列決定されたサンプルからの大規模な入力fastqファイル(> 5億配列決定されたリード)、または代わりに、多数の(> 1000)中程度のサイズの入力fastqファイルは、KrakenUniqが入力ファイルサイズに対してかなり敏感であるにもかかわらず、MALTステップのための深刻なメモリ負担をもたらし、1 TBのRAMを消費する可能性があることがわかりました。したがって、現在のところ、ゲノムプロジェクトでよく行われるように、同じサンプルに対応する異なるシーケンスライブラリーのfastqファイルをマージすることは推奨していません。

最後に、広範なマルチスレッド処理が可能な場合、aMetaはHOPSほど高速ではないかもしれない。実際、我々のベンチマーク(図5)では、HOPSはaMetaよりも2倍近く高速であった(つまり、両方とも20スレッドを使用した場合、250分対500分)。ただし、HOPSは1スレッドでは650分と遅かった。HOPSのスピードが優れているのは、あらかじめ構築されたMALTデータベース(NCBI RefSeq完全微生物ゲノムに基づく)を使用しているためであり、一方、時間のかかるMALTデータベースの動的構築はaMetaの実行の一部であるためである。さらに、KrakenUniq、Bowtie2、mapDamageのようなaMetaの他のいくつかの必須だが時間のかかるモジュールはHOPSパイプラインの一部ではない。とはいえ、我々は現在、将来のリリースでaMetaの速度を改善できる可能性のあるいくつかの最適化スキームを開発しています。我々はまた、nf-core開発者チームと連絡を取り合い、aMetaをnf-core/eagerに統合し、より優れた汎用性、保守性、効率性を実現することを計画している。

とはいえ、現状では、aMetaワークフローは、最先端のHOPSと比較して、精度とコンピュータのメモリ使用量の点で明確な利点を与えており、これは古代メタゲノミクス分野における計算解析の質を向上させる可能性があり、古代DNA研究コミュニティから高く評価されることを期待している。

結論
aMetaは、解析精度の向上と計算資源の最適化を目的とした、古代メタゲノミクスのための新しい計算ワークフローである。aMetaは、微生物の発見と認証の特異性において、k-merベースの分類学的分類アプローチの感度とLCA(Lowest Common Ancestor)アライメントアプローチの利点を兼ね備えている。我々のシミュレーションベンチマークにおいて、aMetaは、現在古代メタゲノミクスの分野でゴールドスタンダードのアプローチであるHOPSと比較して、精度とメモリ負荷の点で優れた性能を示しました。また、いくつかの古代のショットガン・メタゲノミクス研究からのデータでaMetaを評価しました。また、私たちの研究室の複数のaDNAプロジェクトでも、aMetaは一貫して正確で計算可能な性能を示しました。したがって、aMetaは古代のメタゲノミクス分野やaDNA研究コミュニティにとって、幅広く有用であると考えられる。

メソッド
aMetaのSnakemake実装
aMetaは、ワークフロー管理用のSnakemake言語[24]を用いて記述されており、aMetaによって実行される古代メタゲノム解析の再現性を保証している。aMetaは、Snakemakeのベストプラクティス(https://snakemake.readthedocs.io/en/stable/snakefiles/best_practices.html#snakefiles-best-practices)とワークフローテンプレート(https://github.com/snakemake-workflows/snakemake-workflow-template)に従って、Snakefileに記述されたSnakemakeルールのコレクションとして開発された。Snakemakeは、自動的に並列化できるジョブのDAG(Directed Acyclic Graph)に従って、ルールの実行順序を自動的に決定する(追加ファイル1:図S17)。ワークフローと各ルールは、パッケージマネージャであるcondaを介してインストールすることができます(https://conda.pydata.org/)。aMetaの主な設定オプション(例えばKrakenUniqのフィルタリングしきい値)は、configディレクトリ内にあるconfig.yamlファイルで特定のデータセットに対して指定することができる。aMetaのSnakemakeコンフィギュレーションは、ローカルコンピュータとハイパフォーマンスコンピュータ(HPC)の両方に簡単に適応できます。

aMetaの認証スコアによる認証情報の定量化
aMetaのスコアリングシステムは、各メタゲノミックサンプルに存在する古代の微生物種の概要を素早く視覚的に把握できるように、ユーザーの利便性を考慮して開発されました。各サンプルと検出された微生物について、図4に示された品質メトリクスをすべて視覚的に検査するのは時間がかかり、時には実行不可能な場合もあるため、aMetaは認証と検証のメトリクスを定量化する特別なスコアリングシステムを実装しています。aMetaの採点システムは、MALTによって提供されたLCAアラインメントに対して計算された8つの検証および認証メトリクスの合計を表している:(1)脱アミノ化プロファイル、(2)カバレッジの均等性、(3)すべてのリードの編集距離、(4)損傷したリードの編集距離、(5)リード長分布、(6)PMDスコア分布、(7)割り当てリード数(カバレッジの深さに関する情報を提供する)、および(8)平均ヌクレオチド同一性(ANI)。各指標は、aMetaが微生物の存在を検証するために最も重要であると考えているため、合計に+1を加えることができるカバレッジの均等性を除いて、+2を加えることができる脱アミノ化プロファイルと、微生物の古代のステータスの究極の基準であると想定しているため、+2(5′末端と3′末端の両方が独立してカウントされる)まで加えることができる脱アミノ化プロファイルを除く。したがって、微生物が獲得できる認証スコアの範囲は、最小値0から最大値10まで様々である。

古代メタゲノムデータのシミュレーション
gargammelツール[34]を用いて、ヒトと微生物の組成が異なる10個のメタゲノムサンプルをシミュレーションした。シミュレートしたサンプルには、宿主関連リードと汚染リードの両方が存在した。合計35の微生物種(細菌31、アメーバ2、真菌1、藻類1)が、私たちの古代のメタゲノムプロジェクト[35, 36]で一般的に見つかっており、サンプル間で存在量が変化するようにシミュレートされた。メタゲノミックサンプル中の各微生物の存在量はランダムに設定し、宿主関連分画とコンタミ分画の合計はサンプルあたり1つまでとした。18種類の古代微生物と17種類の現代微生物に属するリードをシミュレートした。シミュレートした微生物のリストを以下に示す:

古代: Campylobacter rectus、Clostridium botulinum、Enterococcus faecalis、Fusarium fujikuroi、Mycobacterium avium、Mycolicibacterium aurum、Neisseria meningitidis、Nocardia brasiliensis、Parvimonas micra、 Prosthecobacter vanneervenii, Ralstonia solanacearum, Rothia dentocariosa, Salmonella Enterica, Sorangium cellulosum, Streptococcus pyogenes, Streptosporangium roseum, Yersinia pestis, Bradyrhizobium erythrophlei。

現代の Acanthamoeba castellanii、Aspergillus flavus、Brevibacterium aurantiacum、Burkholderia mallei、Lactococcus lactis、Methylobacterium bullatum、Micromonas commoda、Micromonospora echinospora、 Pseudomonas caeni, Pseudomonas psychrophila, Pseudomonas thivervalensis, Vermamoeba vermiformis, Rhodococcus hoagii, Rhodopseudomonas palustris, Mycobacterium riyadhense, Planobispora rosea。

古代の微生物リードについては、以下のBriggsパラメータ[27, 28]で脱アミド/損傷パターンをgargammelに実装した: -damage 0.03,0.4,0.01,0.3. シミュレートされた古代リードは断片化され、次のパラメータを持つ対数正規分布に従った -loc 3.7424069808 -scale 0.2795148843。イルミナシーケンスエラーは、gargammelのARTモジュールで最新リードと古代リードの両方に追加しました。最後に、イルミナのユニバーサルシーケンスアダプターを使用し、125 bp長のペアエンドリードを得ました。各シミュレーションメタゲノムサンプルには、50万個の古代および50万個の現代のDNA断片が含まれていた。微生物DNAの割合は、サンプル1~10間で0.7、0.7、0.5、0.5、0.4、0.3、0.3、0.3、0.3、0.3、0.7、0.7、0.5、0.4、0.3、0.3、0.3、0.3と変化した。グランドトゥルースの微生物量の生成と古代のメタゲノムリードのシミュレーションに使用したコードはGitHubで公開されている。https://github.com/NikolayOskolkov/aMeta via Zenodo https://doi.org/10.5281/zenodo.8130819.

カバレッジの均等性の計算
図4のカバレッジの均等性プロットは、MALTまたはBowtie2によって生成されたBAMアラインメントからaMetaによって計算されます。これは、参照ゲノムを100ビンに分割し、各ビン内で少なくとも1つのアラインメントリードによってカバーされた参照位置の数をカウントし、各ビン内のゲノム位置の総数でこのカウントを正規化します。技術的には、この手順はSAMtoolsのsamtools depthコマンドに-aフラグを付けて実行します[29]。このコマンドは、参照ゲノムのすべての位置をカバーするリードの数を報告するファイルを生成します。定義によると、少なくとも1回カバーされたゲノム位置の数をゲノム位置の総数で正規化したものが、カバレッジの広さを表します。したがって、図4のaMetaが生成するevenness of coverageプロットは、参照ゲノム全体の各ビンで計算された局所的なカバレッジの広さと考えることができる。良好な均等カバレッジは、値がゼロのビンがほとんどないことが予想される。したがって、ショットガンによる古代のメタゲノム研究では、全体的にシーケンス深度が低いため、ゲノム全体の平均カバレッジ幅は非常に低くなる可能性がありますが、リードの均等な分布は、サンプル中の微生物の存在を示す良いヒントを提供し、より深いシーケンスやターゲット濃縮(捕捉)実験によって追跡することができます。詳細はAdditional file 2: S3を参照。

データおよび資料の入手可能性
ワークフローはhttps://github.com/NBISweden/aMeta[50]で公開されており、Zenodoリポジトリhttps://zenodo.org/record/8354933[51]にも寄託されている。非冗長NCBI NT KrakenUniqデータベースは、SciLifeLab Figshareのアドレス: https://doi.org/10.17044/scilifelab.20205504、ヒトおよび完全な真核生物の参照ゲノムと組み合わせたNCBI NTの微生物バージョンは、SciLifeLab Figshareのアドレス: https://doi.org/10.17044/scilifelab.20518251。次に、本研究で使用した最小のKrakenUniqデータベース、すなわち微生物NCBI RefSeqの完全ゲノムに基づいたKrakenUniqデータベースは、https://doi.org/10.17044/scilifelab.21299541。さらに、NCBI NTのBowtie2インデックスは、SciLifeLab Figshare (https://doi.org/10.17044/scilifelab.21070063)で一般公開されており、このインデックスの病原微生物のサブセットは、SciLifeLab Figshare (https://doi.org/10.17044/scilifelab.21185887)でアクセスできる。この論文で使用したコンピュータ・シミュレーションやその他のスクリプトのコードは、https://github.com/NikolayOskolkov/aMeta、Zenodo https://doi.org/10.5281/zenodo.8130819。最後に、HOPSに対するaMetaのベンチマークに使用した、グラウンドトゥルース既知のシミュレーションメタゲノムデータセットは、SciLifeLab Figshareリンク(https://doi.org/10.17044/scilifelab.21261405)からアクセス可能であり、病原微生物種を濃縮したシミュレーションデータセットは、https://doi.org/10.17044/scilifelab.24211584。

参考文献
Allentoft M, Sikora M, Sjögren KG, et al. 青銅器時代ユーラシアの集団ゲノム。Nature. 2015;522:167-72.

論文

論文

PubMed

Google Scholar

van der Valk T, Pečnerová P, Díez-del-Molino D, et al. 百万年前のDNAがマンモスのゲノムの歴史に光を当てる。Nature. 2021;591:265-9.

論文

PubMed

パブメドセントラル

Google Scholar

古代オオカミのゲノムから、家畜犬の祖先の早期分岐と高緯度品種への混血が明らかになった。Curr Biol. 2015;25(11):1515-9. https://doi.org/10.1016/j.cub.2015.04.019. Epub 2015 May 21 PMID: 26004765.

論文

CAS

PubMed

Google Scholar

Rasmussen S, Allentoft ME, Nielsen K, Orlando L, Sikora M, Sjögren KG, Pedersen AG, Schubert M, Van Dam A, Kapel CM, Nielsen HB, Brunak S, Avetisyan P, Epimakhov A, Khalyapin MV、 Gnuni A, Kriiska A, Lasak I, Metspalu M, Moiseyev V, Gromov A, Pokutta D, Saag L, Varul L, Yepiskoposyan L, Sicheritz-Pontén T, Foley RA, Lahr MM, Nielsen R, Kristiansen K, Willerslev E. 5,000年前のユーラシア大陸におけるエルシニア・ペスティスの初期分岐株。Cell. 2015;163(3):571–82. https://doi.org/10.1016/j.cell.2015.10.009. Epub 2015 Oct 22. PMID: 26496604; PMCID: PMC4644222.

論文

CAS

PubMed

パブメドセントラル

Google Scholar

新石器時代におけるYersinia pestisの基本系統の出現と伝播。Cell. 2019;176(1–2):295-305.e10. https://doi.org/10.1016/j.cell.2018.11.005. Epub 2018 Dec 6 PMID: 30528431.

論文

CAS

PubMed

Google Scholar

Mühlemann B, Jones TC, Damgaard P, et al. 青銅器時代から中世にかけての古代のB型肝炎ウイルス。Nature. 2018;557:418-23.

論文

PubMed

グーグル奨学生

スロンV、ホプフェC、ヴァイスCL、マフェッソーニF、デ・ラ・ラシーリャM、ラルエザ・フォックスC、ロザスA、ソレッシM、クヌルMV、ミラーR、スチュワートJR、デレビアンコAP、ジェイコブズZ、リーB、ロバーツRG、 Shunkov MV, de Lumley H, Perrenoud C, Gušić I, Kućan Ž, Rudan P, Aximu-Petri A, Essel E, Nagel S, Nickel B, Schmidt A, Prüfer K, Kelso J, Burbano HA, Pääbo S, Meyer M. 更新世堆積物からのネアンデルタール人とデニソワ人のDNA。Science. 2017;356(6338):605–8.

論文

CAS

PubMed

Google Scholar

Zavala EI, Jacobs Z, Vernot B, Shunkov MV, Kozlikin MB, Derevianko AP, Essel E, de Fillipo C, Nagel S, Richter J, Romagné F, Schmidt A, Li B, O'Gorman K, Slon V, Kelso J, Pääbo S, Roberts RG, Meyer M. 更新世の堆積物DNAからデニソワ洞窟におけるヒトと動物の交替が明らかになった。Nature. 2021;595(7867):399–403.

論文

論文

PubMed

パブメドセントラル

グーグル奨学生

Vernot B, Zavala EI, Gómez-Olivencia A, Jacobs Z, Slon V, Mafessoni F, Romagné F, Pearson A, Petr M, Sala N, Pablos A, Aranburu A, de Castro JMB, Carbonell E, Li B, Krajcarz MT, Krivoshapkin AI、 Kolobova KA, Kozlikin MB, Shunkov MV, Derevianko AP, Viola B, Grote S, Essel E, Herráez DL, Nagel S, Nickel B, Richter J, Schmidt A, Peter B, Kelso J, Roberts RG, Arsuaga JL, Meyer M. 洞窟堆積物から核およびミトコンドリアDNAを用いてネアンデルタール人の集団史を解明。Science. 2021;372(6542):eabf1667.

論文

論文

パブコメ

グーグル

日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員、日本学術振興会特別研究員。Curr Biol. 2021;31(12):2728-2736.e8. https://doi.org/10.1016/j.cub.2021.04.027. Epub 2021 Apr 19 PMID: 33878301.

論文

論文

パブコメ

Google Scholar

ヒト、オオカミ、バイソンのDNAを25,000年前の堆積物からゲノム規模でシークエンシングし、解析した。25,000年前の堆積物から採取したヒト、オオカミ、バイソンのDNAのゲノムスケール配列決定と解析。Curr Biol. 2021;31(16):3564-3574.e9. https://doi.org/10.1016/j.cub.2021.06.023. Epub 2021 Jul 12.

論文

論文

PubMed

パブメドセントラル

Google Scholar

Wang Y, Pedersen MW, Alsos IG, De Sanctis B, Racimo F, Prohaska A, Coissac E, Owens HL, Merkel MKF, Fernandez-Guerra A, Rouillard A, Lammers Y, Alberti A, Denoeud F, Money D, Ruter AH, McColl H, Larsen NK, Cherezova AA, Edwards ME, Fedorov GB, Haile J, Orlando L, Vinner L, Korneliussen TS、 Beilman DW, Bjørk AA, Cao J, Dockter C, Esdale J, Gusarova G, Kjeldsen KK, Mangerud J, Rasic JT, Skadhauge B, Svendsen JI, Tikhonov A, Wincker P, Xing Y, Zhang Y, Froese DG, Rahbek C, Bravo DN, Holden PB, Edwards NR, Durbin R, Meltzer DJ, Kjær KH, Möller P, Willerslev E. 北極圏生物相の第四紀後期動態を古代環境ゲノムから解明。Nature. 2021;600(7887):86–92. https://doi.org/10.1038/s41586-021-04016-x. Epub 2021 Oct 20. で正誤表: Nature. 2022 Mar;603(7903):E31. pmid: 34671161; pmcid: pmc8636272.

論文

論文

パブコメ

パブメドセントラル

Google Scholar

Orlando L, Allaby R, Skoglund P, et al. Nat Rev Methods Primers. 2021;1:14. https://doi.org/10.1038/s43586-020-00011-0.

論文

CAS

グーグル・スカラー

Der Sarkissian C, Velsko IM, Fotakis AK, Vågene AJ, Hübner A, Fellows Yates JA. 古代のメタゲノム研究:より広範な科学コミュニティにとっての考察。MSystems. 2021;6(6):e01315-21.

Google Scholar

高スループットショットガンシークエンシングによる古代病原体の同定を複雑化する偽陽性。BMC Res Notes. 2014;25(7):111. https://doi.org/10.1186/1756-0500-7-111. PMID:24568097;PMCID:PMC3938818.

論文

CAS

Google Scholar

Wood DE, Salzberg SL. Kraken: 正確なアラインメントを用いた超高速メタゲノム配列分類。Genome Biol. 2014;15:R46. https://doi.org/10.1186/gb-2014-15-3-r46.

論文

論文

パブメドセントラル

Google Scholar

Wood DE, Lu J, Langmead B. Kraken 2によるメタゲノム解析の改善。Genome Biol. 2019;20:257. https://doi.org/10.1186/s13059-019-1891-0.

論文

論文

PubMed

パブメドセントラル

Google Scholar

Burrows-Wheeler変換を用いた高速で正確なショートリードのアライメント。Bioinformatics. 2009;25(14):1754–60. https://doi.org/10.1093/bioinformatics/btp324.

論文

論文

パブコメ

パブメドセントラル

Google Scholar

Bowtie2による高速ギャップドリードアライメント。Nat Methods. 2012;9:357–9. https://doi.org/10.1038/nmeth.1923.

論文

論文

パブコメ

パブメドセントラル

Google Scholar

Alexander Herbig, Frank Maixner, Kirsten I. Bos, Albert Zink, Johannes Krause, Daniel H. Huson, MALT: Fast alignment and analysis of metagenomic DNA sequence data applied to the Tyrolean Iceman, https://doi.org/10.1101/050559v1。

Breitwieser FP, Baker DN, Salzberg SL. KrakenUniq: unique k-mer countsを用いた確信のある高速メタゲノム分類。Genome Biol. 2018;19(1):1-10 (http://www.ec.gc.ca/education/default.asp?lang=En&n=44E5E9BB-1).

論文

グーグル・スカラー

C. Pockrandt, A. V. Zimin, S. L. Salzberg. 低メモリコンピューター上のKrakenUniqによるメタゲノム分類。https://doi.org/10.1101/2022.06.01.494344v1.

Hübler R, Key FM, Warinner C, et al. HOPS: automated detection and authentication of pathogen DNA in archaeological remains. Genome Biol. 2019;20:280. https://doi.org/10.1186/s13059-019-1903-0.

論文

CAS

PubMed

パブメドセントラル

グーグル・スカラー

Mölder F, Jablonski KP, Letcher B, Hall MB, Tomkins-Tinch CH, Sochat V, Forster J, Lee S, Twardziok SO, Kanitz A, Wilm A, Holtgrewe M, Rahmann S, Nahnsen S, Köster J. Snakemakeによる持続可能なデータ解析。F1000Res.

論文

PubMed

パブメドセントラル

Google Scholar

Cutadaptは高スループットシーケンスリードからアダプター配列を除去する。EMBnet.journal. 2011;17(1):10–2. https://doi.org/10.14806/ej.17.1.200.

論文

Google Scholar

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. 基本的なローカルアライメント検索ツール。J Mol Biol. 1990;215(3):403-10. https://doi.org/10.1016/S0022-2836(05)80360-2. PMID: 2231712.

論文

論文

パブコメ

Google Scholar

Jónsson H, Ginolhac A, Schubert M, Johnson PLF, Orlando L. mapDamage2.0:古代のDNA損傷パラメータの高速近似ベイズ推定。Bioinformatics. 2013;9(13):682–1684. https://doi.org/10.1093/bioinformatics/btt193.

論文

CAS

Google Scholar

このようなDNA配列の損傷は、DNA配列の損傷に起因するものであり、DNA配列の損傷は、DNA配列の損傷に起因するものである。Proc Natl Acad Sci U S A. 2007;104(37):14616-21. https://doi.org/10.1073/pnas.0704665104. Epub 2007 Aug 21. pmid: 17715061; pmcid: pmc1976210.

論文

CAS

パブコメ

パブメッドセントラル

Google Scholar

1000 Genome Project Data Processing Subgroup, The Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009;25(16):2078–9. https://doi.org/10.1093/bioinformatics/btp352.

論文

論文

パブコメ

パブメドセントラル

Google Scholar

ゲノム解析のためのデータ解析ツール。ゲノム解析のためのデータベース。Brief Bioinform. 2013;14(2):178–92. https://doi.org/10.1093/bib/bbs017.

論文

論文

パブコメ

グーグル

シベリアに生息するネアンデルタール人において、内因性の古代DNAと現代のコンタミネーションを分離した。Proc Natl Acad Sci U S A. 2014;111(6):2229-34. https://doi.org/10.1073/pnas.1318934111. Epub 2014 Jan 27. pmid: 24469802; pmcid: pmc3926038.

論文

CAS

PubMed

パブメドセントラル

Google Scholar

Huson DH, Auch AF, Qi J, Schuster SC. メタゲノムデータのMEGAN解析。Genome Res. 2007;17(3):377-86. https://doi.org/10.1101/gr.5969107.

論文

論文

パブコメ

パブメドセントラル

Google Scholar

ゲノム解析に必要な遺伝子数、遺伝子発現、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度、遺伝子発現頻度。PeerJ. 2021;9: e10947. https://doi.org/10.7717/peerj.10947.

論文

論文

パブメドセントラル

Google Scholar

Renaud G, Hanghøj K, Willerslev E, Orlando L. gargammel: 古代DNAの配列シミュレーター。Bioinformatics. 2017;33(4):577–9. https://doi.org/10.1093/bioinformatics/btw670. PMID:27794556;PMCID:PMC5408798.

論文

CAS

パブコメ

Google Scholar

ノラB、エムラーK、ニコライO、クラウディオM、パーU、ヘレナM、他。新石器時代のスカンジナビアの人類における微生物病原体の同定;2023年。

ゾエ・P、ニコライ・O、エムラー・K、マーヤ・K、アンナ・K、クラウディオ・M、他 バイキング時代後期から中世にかけての町シグトゥナにおける感染症; 2023年。

Vatanen T, Kostic A, d'Hennezel E, et al. Microbiome LPS Immunogenicity Variation in Humans, Cell. 2016. https://doi.org/10.1016/j.cell.2016.04.007

Spyrou MA, Bos KI, Herbig A, Krause J. Ancient pathogen genomics as an emerging tool for infectious disease research. Nat Rev Genet. 2019;20(6):323–40. https://doi.org/10.1038/s41576-019-0119-1.PMID:30953039;PMCID:PMC7097038.

論文

CAS

PubMed

パブメドセントラル

グーグル奨学生

アイスマンの5300年前のヘリコバクター・ピロリゲノム。Science. 2016;351(6269):162–5. https://doi.org/10.1126/science.aad2545. PMID:26744403;PMCID:PMC4775254.

論文

CAS

PubMed

パブメドセントラル

グーグル奨学生

Guellil M, Kersten O, Namouchi A, Bauer EL, Derrick M, Jensen AØ, Stenseth NC, Bramanti B. Genomic blueprint of a relapsing fever pathogen in 15th century Scandinavia. Proc Natl Acad Sci U S A. 2018;115(41):10422-7. https://doi.org/10.1073/pnas.1807266115. Epub 2018 Sep 24. PMID: 30249639; PMCID: PMC6187149.

論文

CAS

PubMed

パブメドセントラル

Google Scholar

(1)中世のブルセラ・メリテンシスゲノムをショットガン・メタゲノミクスで復元した。ショットガンメタゲノミクスを用いた中世Brucella melitensisゲノムの復元。2014;5(4):e01337-14. https://doi.org/10.1128/mBio.01337-14. pmid: 25028426; pmcid: pmc4161259.

論文

論文

PubMed

パブメドセントラル

Google Scholar

Warinner C, Rodrigues JF, Vyas R, Trachsel C, Shved N, Grossmann J, Radini A, Hancock Y, Tito RY, Fiddyment S, Speller C, Hendy J, Charlton S, Luder HU, Salazar-García DC, Eppler E, Seiler R、 Hansen LH, Castruita JA, Barkow-Oesterreicher S, Teoh KY, Kelstrup CD, Olsen JV, Nanni P, Kawai T, Willerslev E, von Mering C, Lewis CM Jr, Collins MJ, Gilbert MT, Rühli F, Cappellini E. 古代のヒト口腔における病原体と宿主免疫。Nat Genet. 2014;46(4):336–44. https://doi.org/10.1038/ng.2906. Epub 2014 Feb 23. pmid: 24562188; pmcid: pmc3969750.

論文

CAS

パブコメ

パブメドセントラル

Google Scholar

メタゲノムのハイブリッドアセンブリとビニングのためのベストプラクティスパイプライン。NAR Genom Bioinform. 2022;4(1):lqac007. https://doi.org/10.1093/nargab/lqac007.

論文

論文

パブメドセントラル

Google Scholar

ゲノム分解メタゲノム解析のための柔軟なパイプラインMetaWRAP。Microbiome. 2018;6(1):158. https://doi.org/10.1186/s40168-018-0541-1.PMID:30219103;PMCID:PMC6138922.

論文

PubMed

パブメドセントラル

Google Scholar

Mirdita M, et al. メタゲノムコンティグへの高速かつ高感度な分類学的割り当て。バイオインフォマティクス。2021;37(18):3029–31. https://doi.org/10.1093/bioinformatics/btab184.

論文

論文

パブコメ

パブメドセントラル

Google Scholar

MEGAHIT: 巨大で複雑なメタゲノム解析のための超高速シングルノードソリューション。Bioinformatics. 2015;31(10):674–1676. https://doi.org/10.1093/bioinformatics/btv033.

論文

CAS

グーグル・スカラー

Klapper M, Hübner A, Ibrahim A, Wasmuth I, Borry M, Haensch VG, Zhang S, Al-Jammal WK, Suma H, Fellows Yates JA, Frangenberg J, Velsko IM, Chowdhury S, Herbst R, Bratovanov EV, Dahse HM, Horch T, Hertweck C, González Morales MR, Straus LG, Vilotijevic I, Warinner C, Stallforth P. 中・上旧石器時代の復元細菌ゲノムから得られた天然物。サイエンス。2023;380(6645):619–24. https://doi.org/10.1126/science.adf5300. Epub 2023年5月4日PMID:37141315。

論文

論文

パブコメ

Google Scholar

Bionanoオプティカルマップによるキメラコンティグの正確な検出。Bioinformatics. 2019;35(10):1760–2. https://doi.org/10.1093/bioinformatics/bty850. pmid: 30295726.

論文

CAS

パブコメ

Google Scholar

環境古微生物学:水生堆積物に保存されたDNAの可能性を最大限に利用する。Environ Microbiol. 2022;24(5):2201–9. https://doi.org/10.1111/1462-2920.15913. Epub 2022 Feb 7 PMID: 35049133.

論文

論文

パブコメ

パブメドセントラル

Google Scholar

このような研究は、日本におけるメタゲノム研究の発展に大きく寄与している。2023. Github. https://github.com/NBISweden/aMeta .

Pochon, Zoé; Bergfeldt, Nora; Kırdök, Emrah; Vicente, Mário; Naidoo, Thijessen; van der Valk, Tom; Altınışık, N. Ezgi; Krzewińska, Maja; Dalen, Love; Götherström, Anders; Mirabello, Claudio; Unneberg, Per; Oskolkov, Nikolay. NBISweden / aMeta Version 1.0.0. Zenodo. https://zenodo.org/record/8354933 .

Borry M, et al. sam2lca: SAM/BAM/CRAMアライメントファイルの最小公倍数。J Open Source Softw. 2022;7(74):4360. https://doi.org/10.21105/joss.04360.

記事

Google Scholar

原核生物の種定義のためのゲノムゴールドスタンダードをシフトする。Proc Natl Acad Sci U S A. 2009;106(45):19126-31. https://doi.org/10.1073/pnas.0906412106. Epub 2009 Oct 23. pmid: 19855009; pmcid: pmc2776425.

論文

パブコメ

パブメドセントラル

Google Scholar

GitHub. "Snakemake-Profiles". 2022年1月22日アクセス。https://github.com/snakemake-profiles

James A. Fellows Yates, rma-tabuliser 0.1.1, https://doi.org/10.5281/zenodo.5018140 and https://github.com/jfy133/rma-tabuliser

O. Tange (2018): GNU Parallel 2018, March 2018, https://doi.org/10.5281/zenodo.1146014.

参考文献のダウンロード

謝辞
James A. Fellows Yates、Alexander Herbig、Felix Key、Nicolás Rascovan、Maxime Borry、Alexander Hübner、Irina M. Velsko、Alina Hiss、Gunnar Neumann、Christina Warinnerには、ワークフローの設計と技術的な詳細について貴重なフィードバックを提供していただき、多大な謝意を表します。SNICのÅke Sandgrenには、SNICが提供するアプリケーションサポートにより実現したクラスタ実装面での支援に感謝する。また、Stephan NylinderとSciLifeLab Data Centreには、パブリックリポジトリへのデータとコードの寄託にご協力いただいた。

レビュー履歴
査読履歴はAdditional file 4に掲載されている。

査読情報
Kevin Pangは本論文の主編集者であり、他の編集チームと協力して編集過程と査読を管理した。

資金提供
ルンド大学からのオープンアクセス資金提供。NO、PU、CMは、SciLifeLabのNational Bioinformatics Infrastructure Swedenの一環として、Knut and Alice Wallenberg Foundationから資金援助を受けている。計算は、Swedish National Infrastructure for Computing (SNIC)から提供されたリソースにより可能となった: SNIC 2021/5-335、SNIC 2021/6-260、SNIC 2022/5-100、SNIC 2022/6-46、SNIC 2022/22-507、SNIC 2022/23-275、およびメルシン大学BAPプロジェクト2019-3-AP3-3729。AGはスウェーデン研究評議会(VR; 2019-00849)から資金援助を受けている。

著者情報
著者情報
Zoé Pochon、Nora Bergfeldt、Anders Götherström、Claudio Mirabello、Per Unneberg、Nikolay Oskolkovが分担執筆した。

著者および所属
スウェーデン、ストックホルム、古遺伝学センター

ゾエ・ポション、ノラ・ベルグフェルト、マーリオ・ヴィセンテ、ティジェセン・ナイドゥー、トム・ファン・デル・ヴァルク、マーヤ・クルジェヴィンスカ、ラブ・ダレン&アンダース・ゲーテルストレム

ストックホルム大学考古学・古典学科(スウェーデン、ストックホルム

ゾエ・ポション、マーリオ・ヴィセンテ、ティジェセン・ナイドゥー、マーヤ・クルジェヴィンスカ&アンダース・ゲーテルストレム

スウェーデン、ストックホルム、ストックホルム大学動物学部

ノラ・ベルグフェルト&ラブ・ダレン

スウェーデン自然史博物館バイオインフォマティクス・遺伝学部門(スウェーデン・ストックホルム

ノラ・ベルグフェルト&トム・ファン・デル・ファルク

トルコ、メルシン、メルシン大学理学部バイオテクノロジー学科

エムラ・クルドック

スウェーデン、ストックホルム、生命の科学研究所、古代DNAユニット

ティジェセン・ナイドゥー

スウェーデン、ウプサラ生命科学研究所、古代DNAユニット

ティジェセン・ナイドゥー

トルコ、アンカラ、ベイテペ、06800、ハセッテペ大学人類学部、Human-G研究所

N. エジ・アルトゥヌシュク

スウェーデン、リンショーピン大学、物理・化学・生物学部、サイエンス・フォー・ライフ・ラボラトリー、ナショナル・バイオインフォマティクス・インフラストラクチャー・スウェーデン

クラウディオ・ミラベロ

ウプサラ大学、スウェーデン、ウプサラ国立バイオインフォマティクス基盤、生命科学研究所、細胞分子生物学部門

ペール・ウネベリ

スウェーデン、ルンド大学、国立バイオインフォマティクス基盤、サイエンス・フォー・ライフ・ラボラトリー、生物学科

ニコライ・オスコルコフ

貢献
NO、PU、CM、ZPがワークフローの設計と開発を行った。TN、EK、NB、MV、MK、EAはワークフローを広範囲にテストし、改善点を提案した。TvdV、LD、AGは結果について議論した。NO、NB、ZPが原稿を執筆した。著者全員が最終原稿を読み、承認した。

著者のTwitterハンドルネーム
ツイッターハンドル ZoePochon(Zoé Pochon)、@nora_bergfeldt(Nora Bergfeldt)、@emrahkirdok(Emrah Kırdök)、@T_vd_Valk(Tom van der Valk)、@ezgimou(Ezgi Altınışık)、 love_dalen(ラブ・ダレン)、@AndersGother(アンダース・ゴーサーストレム)、@clamirabello(クラウディオ・ミラベロ)、@unnebe(ペール・ウンネベリ)、@NikolayOskolkov(ニコライ・オスコルコフ)。

コレスポンディング・オーサー
ニコライ・オスコルコフ(Nikolay Oskolkov)宛。

倫理宣言
倫理承認および参加同意
該当なし。

出版に関する同意
該当なし

競合利益
著者らは、競合する利害関係がないことを宣言する。

その他の情報
出版社ノート
シュプリンガー・ネイチャーは、出版された地図の管轄権の主張および所属機関に関して中立を保つ。

補足情報
追加ファイル1:
補足図S1-24、本文に含まれていない技術的情報を含む追加図。

補足ファイル 2:
補足情報 S1-S7、本文および方法のセクションに含まれていないその他の技術的詳細[52,53,54,55,56]。

追加ファイル3:補足表S1。
4つの実データセットにおけるaMetaによる病原体検出の要約統計量。

追加ファイル4.
レビュー履歴。

権利と許可
オープンアクセス 本論文はクリエイティブ・コモンズ表示4.0国際ライセンスの下でライセンスされており、原著者および出典に適切なクレジットを与え、クリエイティブ・コモンズ・ライセンスへのリンクを提供し、変更が加えられた場合を示す限り、いかなる媒体または形式においても使用、共有、翻案、配布、複製を許可する。この記事に掲載されている画像やその他の第三者の素材は、その素材へのクレジット表記に別段の記載がない限り、記事のクリエイティブ・コモンズ・ライセンスに含まれています。この記事のクリエイティブ・コモンズ・ライセンスに含まれていない素材で、あなたの意図する利用が法的規制によって許可されていない場合、あるいは許可された利用を超える場合は、著作権者から直接許可を得る必要があります。このライセンスのコピーを閲覧するには、http://creativecommons.org/licenses/by/4.0/。クリエイティブ・コモンズ・パブリック・ドメインの権利放棄(http://creativecommons.org/publicdomain/zero/1.0/)は、データへのクレジット表記に別段の記載がない限り、この記事で利用可能となったデータに適用されます。

転載と許可

この記事について
アップデートを確認する。CrossMarkで最新性と真正性を確認する。
この記事の引用
Pochon, Z., Bergfeldt, N., Kırdök, E. et al. aMeta: an accurate and memory-efficient ancient metagenomic profiling workflow. Genome Biol 24, 242 (2023). https://doi.org/10.1186/s13059-023-03083-9

引用文献のダウンロード

受領
2022年10月05日

受理
2023年10月06日

発行
2023年10月23日

DOI
https://doi.org/10.1186/s13059-023-03083-9

この記事を共有する
以下のリンクを共有すると、誰でもこのコンテンツを読むことができます:

共有可能なリンクを取得
コンテンツ共有イニシアチブSpringer Nature SharedItにより提供されています。

キーワード
古代メタゲノミクス
病原体検出
マイクロバイオームプロファイリング
古代DNA
ゲノム生物学
ISSN: 1474-760X

お問い合わせ
投稿に関するお問い合わせ: editorial@genomebiology.com
一般的なお問い合わせ: info@biomedcentral.com
ブログを読む
BMCニュースレターを受け取る
記事アラートの管理
言語校正
著者のための科学的校正
ポリシー
アクセシビリティ
プレスセンター
サポートとお問い合わせ
フィードバックを残す
採用情報
BMCをフォローする
BMCツイッターページ
BMC Facebookページ
BMC微博ページ
このウェブサイトを使用することで、当社の利用規約、お客様の米国におけるプライバシー権、プライバシーステートメント、およびクッキーポリシーに同意したものとみなされます。プライバシーに関する選択/プリファレンスセンターで弊社が使用するCookieを管理する。

シュプリンガー・ネイチャー
別段の記載がない限り、© 2023 BioMed Central Ltd. シュプリンガー・ネイチャーの一部です。

この記事が気に入ったらサポートをしてみませんか?