MarineMetagenomeDB：海洋メタゲノムのキュレーションと標準化されたメタデータの公開

2022年11月23日 09:41

オープンアクセス
公開日：2022年11月18日
MarineMetagenomeDB：海洋メタゲノムのキュレーションと標準化されたメタデータの公開リポジトリ
Muhammad Kabiru Nata'ala, Anderson P. Avila Santos, ...Ulisses Nunes da Rocha 著者名を表示する
環境マイクロバイオーム17巻、記事番号：57（2022）この記事を引用する

314 アクセス数

20 Altmetric

指標詳細

概要
背景
メタゲノム解析は、微生物生態学、微生物学、およびその関連分野の中で拡大しつつある分野である。Sequence Read Archive (SRA) やMetagenomic Rapid Annotations using Subsystems Technology (MG-RAST) などの主要なパブリックリポジトリに登録されたメタゲノム数は飛躍的に増加しています。しかし、誤ったアノテーションや誤解を招くようなメタデータエントリーのために、データマイニングや解釈は困難な場合がある。本研究では、研究者が再解析やメタ解析のために興味のある海洋メタゲノムを特定するのに役立つ海洋メタゲノムメタデータベース（MarineMetagenomeDB）について説明します。この目的のために、現在SRAとMG-RASTに寄託されている数千の微生物メタゲノムについて、関連するメタデータを手作業でキュレーションした。

結果
合計125の用語が17の異なるクラス（例：バイオーム、物質、海洋帯、地理的特徴、海洋現象）に従ってキュレーションされました。その他、サンプル属性（塩分、水深など）、サンプル位置（緯度、経度など）、シーケンス特徴（シーケンスプラットフォーム、シーケンス数など）が標準化されています。MarineMetagenomeDB version 1.0には、全海洋およびいくつかの海域に分布するSRAおよびMG-RASTから得られた11,449個のマリンメタゲノムが収録されています。ほとんどのサンプルはIlluminaシーケンス技術で配列決定されています（84.33％）。55%以上のサンプルは太平洋と大西洋から収集されました。約40%のサンプルは、バイオームが「海洋」として割り当てられていました。Quick Search' と 'Advanced Search' タブにより、ユーザーは異なるフィルターを使用して、ウェブアプリ内で関心のあるサンプルを動的に選択することができます。インタラクティブマップでは、世界地図上の位置に基づいてサンプルを視覚化することができます。また、ウェブアプリには、選択したサンプルの生シーケンスデータをそれぞれのリポジトリから簡単にダウンロードできる、新しいダウンロードツール（WindowsとLinuxの両方のオペレーティングシステムで使用可能）が装備されています。使用例として、MarineMetagenomeDBウェブアプリを使用して、大規模な微生物生物地理学の研究のために河口域のメタゲノムを選択する方法を示しました。

まとめ
MarineMetagenomeDBは、バイオインフォマティシャンでなくても、海洋メタゲノム・サンプルをキュレーションされたメタデータとともに検索し、海洋マイクロバイオームを含むメタ研究を刺激することができる強力なリソースである。この使いやすいウェブアプリは、https://webapp.ufz.de/marmdb/ で公開されている。

背景
メタゲノム解析は、環境中の微生物群集の構造や機能動態を研究する機会を提供する、高スループットシーケンスベースの手法である。この培養に依存しない手法は、微生物生態学やその関連分野において、微生物の遺伝的多様性や機能的潜在能力を研究するために標準的に採用されています[1]。ハイスループットなシーケンサーコストの低下により、利用可能なメタゲノムデータは指数関数的に増加しています[2]。しかし、メタゲノムデータを永続的に保存し、一般に公開しているリポジトリはごくわずかです。その代表的なリポジトリがSequence Read Archive (SRA)[3]です。SRAは、米国国立生物工学研究所（NCBI）[5]、日本DNAデータバンク（DDBJ）[6]、欧州ヌクレオチドアーカイブ（ENA）[7]による国際塩基配列データベース連携（INSDC）[4]に含まれるもので、SRAはその一部です。また、SRAと同様のリポジトリとして、Metagenomics Rapid Annotation using Subsystems Technology (MG-RAST) [8], MGnify [9], gcMeta [10]が存在する。

これらのデータベースは、寄託された配列データを再解析やメタ解析に再利用することを可能にするものである。計算技術の進歩と新規バイオインフォマティクスツールやパイプラインの開発により、ビッグデータセットの取り扱いや処理、大規模比較メタ研究の運用が可能となり、新規の知見や発見がもたらされる。これは、複数の地理的地域や長期にわたる分析が必要な問題に対処し、通常限られた数のサンプルから構成される1つの研究グループの単一データセットでは不可能か非常に困難な新しい仮説を検証するのに役立つ。例えば、Nayfachらによる最近の研究[11]では、異なる陸上・海洋環境と宿主から得られた10,000以上の公開メタゲノムからメタゲノム集合ゲノム（MAG）を復元した。彼らのゲノムカタログは、バクテリアとアーキアの既知の多様性を44%拡大した。Parksらによる同様の研究[12]では、1500以上の公開メタゲノムから、細菌と古細菌のゲノムツリーの系統的多様性を30%以上拡大した。しかし、メタデータが利用できない、誤解を招く、あるいは不完全であるなどの理由により、公開されているリポジトリからメタゲノムをマイニングすることは困難です[13]。この事実は、科学界が公開されたメタゲノムを十分に活用できていないことの大きな要因となっている。

公開リポジトリを容易に利用するための取り組みとして、Genomics Standard Consortium [14], BioProject, BioSample project [15] などのイニシアチブがあり、それぞれメタゲノムサンプルに必要な最低限の情報を定義し、メタデータの取得と整理を容易にしました [16]。これらの取り組みにより、メタデータのアノテーションとアクセシビリティが向上した。最近では、分野別の標準化も始まっている。例えば、HumanMetagenomeDB リリース1.0には、およそ70,000のヒトメタゲノムの標準化されたメタデータが含まれています[17]。

TerrestrialMetagenomeDB release 2.0には、20,000以上の陸上メタゲノムがキュレーションされ、標準化されたメタデータが収録されています[18]。海洋メタゲノムサンプルについては、Planet Microbe社がWebベースのポータルを提供しており、サンプリング環境の生物学的・物理化学的パラメータとともに、海洋シーケンスデータに関連する標準的なメタデータにアクセスできるようになっている[19]。ただし、Hawaii Ocean Time-series (HOT) [20], Global Ocean Sampling Expedition (GOS) [21], Ocean Sampling Day (OSD) [22], TARA Oceans [23] and Global Oceans Viromes 2.0 [24] などの大規模海洋イニシアチブなど、海洋学の協調的シーケンス作業によるシーケンスデータのみを収録しています。

Planet Microbeでは、サンプルをポータルに追加するために、最低7つの属性（すなわち、収集日、緯度、経度、深度、生物群、環境特徴、材料）を含む必要があります。この要件は、サンプルレベルでの最小限のメタデータ基準をエンコードするためにMIxS (Minimum Information about any (x) Sequence) とMIMARKSを適応したSRAなどのパブリックリポジトリと比較すると、メタゲノム数が少なくなる結果となる[16]。

さらに最近では、吉武ら[25]が時系列メタゲノミクスデータのためのOcean Monitoring Databaseを開発した。しかし、このデータベースは、日本の東北太平洋沿岸で行われた単一の研究から収集されたサンプルに限定されています。

我々は、標準化されていない曖昧なメタデータが海洋微生物メタゲノムの検索性、文脈性、生態学的解釈に対する限界に対処するために、MarineMetagenomeDBを作成した。このメタデータデータベースは、SRAとMG-RASTに存在する海洋メタゲノムに焦点を当てています。海洋環境を研究する科学者が、新規データセットとの比較やメタアナリシス研究に利用できるよう、興味のあるメタゲノムを見つけることを主な目的としています。また、生物試料やシーケンスデータの技術的側面に関するメタデータを記述しています。標準化されたメタデータを持つことで、マイクロバイオーム研究におけるFAIR（Findable, Accessible, Interoperable, Reusable）原則を推進しています。MarineMetagenomeDBは、Planet Microbe [19]のような最近の取り組みを補完し、ユーザーフレンドリーなインターフェースで一般公開されている海洋メタゲノムの探索と比較を促進することを意図しています。

実装
データベースの構築
MarineMetagenomeDBは、以下の手順で構築した（図1）。まず、メタゲノムとメタデータをソースデータベースから取得し、非海洋メタゲノムを削除した。次に、海産サンプルの属性を解析し、標準化した。次に、海洋生物に関する用語を特定し、グループ化した。最後に、2つのソースデータベース（SRAとMG-RAST）から海洋メタゲノムを結合し、ウェブアプリケーションを実装した。以下、データベース構築の主なステップを詳述する。

図1
図1
MarineMetagenomeDB構築のワークフローの概要。SRAおよびMG-RASTサンプルのメタデータ検索は、本文中で説明するように、異なるパイプラインを使用して実現されました。その後、非WGSおよび非海産サンプルの削除を実施。B属性の標準化。日付'、'場所'、'深さ'を含むサンプル属性を標準化した（C）海洋用語の同定。海洋用語は、環境オントロジー（ENVO）のMarine Biome、Environmental Material、Geographic Featureから引用した。構築された構造物」としてグループ化された用語の例（ダブルアスタリスクでラベル付け）は、追加ファイル（追加ファイル3：表S3参照）（'MarMDB_constructed_structures'）にあります (D) SRAとMG-RASTデータセットのマージ。MG-RASTの属性はSRAのメタデータ規格に適合させた。E MarineMetagenomeDBは、shiny webの実装によりオンラインで利用できるようになっている。17, 18]より引用

フルサイズ画像
メタデータ検索
TerrestrialMetagenomeDB [18]と同様に、一般に公開されているメタゲノムから2大リポジトリ（SRAとMG-RAST）を選択しました。SRAのメタデータは、以下を用いて検索した。(i) 全ゲノムシーケンス（WGS）、またはアンプリコンシーケンスとラベル付けされたサンプル識別子（SRAランID）のリストは、PARTIE [13] からダウンロードした（https://github.com/linsalrob/partie）。PARTIEは、教師あり・教師なし分類に基づくMachine Learningモデルで、シーケンスリードデータをWGSとアンプリコンシーケンスのデータセットに区別するように最適化されています。このパッケージは、SRAで利用可能なサンプルのメタデータへのアクセスを提供する。(iv) MG-RAST リポジトリのメタデータは、そのアプリケーションプログラムインタフェース (API) を用いて取得した。(v) さらに、SRA-Tinder (https://github.com/NCBI-Hackathons/SRA_Tinder) と Entrez Direct (https://www.ncbi.nlm.nih.gov/books/NBK179288) を用いて、SRA ライブラリの品質スコアと作成日をそれぞれ検索した。(vi) 最後に、rentrez (https://github.com/ropensci/rentrez) を用いて、PubMedとBioProjectのIDを回収した。

非全ゲノム配列決定（非WGS）サンプルの除去
SRA と MG-RAST から回収した非全ゲノムシーケンス（non-WGS）試料を除去した。SRAでは、'library_strategy' に 'AMPLICON' または 'RNA' が含まれるサンプルを削除して、非WGSサンプルを除去しました。library_selection'に'PCR'と記載されたサンプルも除去しました。最後に、「library_source」に「METAGENOMIC」または「GENOMIC」以外が記載されているサンプルはすべて削除しました。MG-RASTでは、「investigation_type」と「seq_meth」に「WGS」以外のテキストが記載されたサンプルは全て削除された。

メタデータに基づく海洋環境由来メタゲノムの同定
海洋メタゲノムの選定は、以下の戦略で行った。(i)ツールis-sea（https://github. com/simonepri/is-sea）を用いて、サンプルの座標を海洋（海洋座標を持つもの）、非海洋（海洋ではない座標を持つもの）、未定義（座標を持たないもの）に分類し、（ii）海洋、ヒト、非海洋植物、非海洋動物、陸上の用語の辞書をそれぞれ手動で作成し（追加ファイル1：表S1参照）、（iii）「センター_プロジェクト_名」「サンプル_属性」「スタディ_タイトル」欄を抜き出しました。(iv)各カラムについて、「keep」、「remove」、「NA」のラベルを含む3次元ベクトルを作成した（追加ファイル2: 表S2参照）。3つの列のそれぞれについて、サンプルが海洋用語を含む場合は「keep」、非海洋用語のみ、または海洋用語と非海洋用語の両方を含む場合は「remove」、辞書の用語を全く含まない場合は「NA」とラベル付けした。(vi) 'keep' のみ、または 'keep' と 'NA' のいずれかでマークされたサンプルは保持された；(vii) 'keep' と 'remove' の両方を含むサンプルは 'check' として分類された；(viii) 'NA' のみでマークされたサンプルは 'undefined' とラベルされた；(ix) さらに 'check' と 'undefined' として分類されたサンプルが海洋であるかどうかケースごとに調べるために study_abstract' 列を抜き出しました．すべての出力は、その後、手作業で検査した。

サンプル属性の標準化
SRAdbでは、すべてのサンプルの特徴は、'sample_attributes'という単一のフィールドで見つかります。そのため、「sample attributes」フィールドにあるサンプルの特徴量名（ターム）と値は、正確でよく定義されたメタデータカテゴリに首尾一貫して整理されていない。そこで、フィールドの属性名を解析し、その出現頻度を求めました。出現回数が10回未満の属性名を削除しました。次に、同義語の属性名をグループ化した（Additional file 3: Table S3参照）。さらに、サンプル採取日、サンプル塩分、サンプル緯度、サンプル経度、サンプル深度、サンプルpH、サンプル温度、サンプル位置（国、海/海洋）の8種類の属性値を抽出し、標準化した。日付は国際標準化機構（ISO）8601（YYYY-MM-DD）を用いて標準化した。場所（国）はISO 3166-1の規格に従って手動でラベル付けした。サンプルの緯度・経度は10進法で統一した。海洋生物群」、「環境物質」、「地理的特徴」に関連する用語は、The Environment Ontology (ENVO) [26]から採用した。ENVOに適合した用語群に、建造された海洋構造物に関連する用語（我々のチームが手作業で精査したもの）を追加した。この用語群をメタデータに照会し、メタデータに含まれる関連する海洋用語を取得した。得られた関連用語は、16の海洋グループに分類された（Additional file 4: Table S4参照）。これらの用語はさらにメタデータと照合され、それぞれの海洋グループにサンプルが割り当てられた。標準化された属性のセットは、追加ファイルに記載されている（追加ファイル5: 表S5を参照）。

SRA と MG-RAST メタデータのマージ
SRA のメタデータと MG-RAST のメタデータを比較して、同等・比較可能な属性を特定した（追加ファイル 6: 表 S6 参照）。さらに、2つのメタデータテーブルを統合した。5つの属性（3つはライブラリーの配列品質に関連し、2つはサンプル属性に関連する）は、それぞれSRAとMG-RASTに固有であり、ユニークであった。SRAでは「quality_above_SRA」、「mean_quality_SRA」、「sample_pH」、「sample_salinity」、MG-RASTでは「drisee_score_raw_MGRAST」である。

MarineMetagenomeDB Webアプリの実装
MarineMetagenomeDBのWebアプリケーションは、インタラクティブなWebアプリケーションを容易に構築するためのRパッケージであるShiny（バージョン1.5.0）を用いて実装しました（Rバージョン3.6.3）。このアプリは、タブレイアウトで設計されています。タブには、「ホーム」、「クイック検索」、「詳細検索」、「インタラクティブ・マップ」、「ヘルプ」、「コンタクト」があります。ホーム」タブは、アプリケーションの中でユーザーを誘導します。クイック検索」と「詳細検索」タブには、ユーザーが興味のあるサンプルを選択するのに役立つフィルターオプションがあります。インタラクティブ・マップ」タブでは、位置情報に基づいてサンプルを選択することができます。インタラクティブマップの機能は、リーフレットパッケージ（バージョン2.0.3）を使用して実装されています。地図上のエリアを選択するための選択ツールボックスは、geoshaperパッケージ（バージョン0.1.0）およびspパッケージ（バージョン1.4-2）を使って実装されました。残りのパッケージとそのバージョンは追加ファイルに記載されている（追加ファイル7: 表S7参照）。ウェブアプリケーションは、https://webapp.ufz.de/marmdb/ で入手できます。

結果
データベースの内容
MarineMetagenomeDBの現在のリリース1.0には、11,449個の海洋メタゲノムのメタデータが含まれています。このうち、9202 (80.37%) のサンプルはSRAに由来し、残りの2247 (19.63%) はMG-RASTから取得したものです。データベースには、13年間（2007年から2020年まで）に提出された実験が含まれています。最も頻繁に使用されたシーケンス技術9655サンプル（84.33％）はIlluminaであり、962サンプル（8.40％）で使用されたLS454、216サンプル（1.87％）で使用されたion torrentがそれに続いた（Fig. 2A）。サンプル数が最も多い水域は、太平洋の3406サンプル（29.75%）と大西洋の3020サンプル（26.38%）である。その他の水域では、インド洋が872件（7.62%）、地中海が681件（5.95%）となっている（図2B）。また、国境内の水域から採取したサンプルについては、アメリカ合衆国が891個（7.78%）と最も多く、イスラエル、オーストラリア、ブラジルがそれぞれ253個（2.21%）、189個（1.65%）、187個（1.63%）で続いています（図2C）。驚くべきことに、約50%のサンプルは関連するバイオームに関する情報を持っていなかった。バイオーム情報を持つサンプルでは、"ocean "という用語が最も多く、4624件（40.39%）に上った。一方、"estuarine "と "marine benthic "は2番目と3番目に多いバイオームで、出現頻度はそれぞれ308 (2.69%) と290 (2.53%) でした (Fig. 2D). また、図3Aに示したバイオームと水域の共起ネットワークは、サンプルが採取されたバイオームを示している。このネットワークは、海洋や海域の未探査部分と探査部分を示すものであり、サンプリング探査の設計の指針となる可能性があります。

図2
図2
(出典データベース)。B メタゲノム試料の原産国上位10カ国の分布の棒グラフ（試料の場所）。C メタゲノムサンプルが採取された水域（海/海）のシークエンス上位10カ所の分布を示す棒グラフ。D メタゲノムサンプルが採取された上位10バイオーム（生物圏）の分布を示す棒グラフ。

MarineMetagenomeDBコンテンツの記述統計。A 発生データベースごとのシーケンス技術（Sequencing platform）の分布の棒グラフ

フルサイズ画像
図3
図3
MarineMetagenomeDBの属性の共起性。A バイオームと水域（海/海洋）の頻度をネットワークで表現したもの。B 海洋属性の頻度のネットワーク表現。すべてのネットワークグラフにおいて、not assigned (NA) 値は省略されている。

フルサイズ画像
MarineMetagenomeDBの属性で最も多く存在するのは「MarMDB_geographic_feature」で、8125（70.97%）の存在値がメタデータにアノテーションされている。また、MarMDB_biome, MarMDB_water_type, MarMDB_sediment, MarMDB_oceanic_zone, MarMDB_marine_ecosystem, MarMDB_other_material は10%以上の値がメタデータに登録されている属性である。また、メタデータで特定された海洋用語の中には、同じメタゲノムに対して共起しているものがありました。すべてのMarineMetagenomeDB海洋属性の頻度と共起を図3Bに可視化しました。本研究で定義したMarineMetagenomeDB属性の残りの10カテゴリーは出現頻度が低く、最も出現頻度が低いのは73 (0.64%) の 'MarMDB_anthropogenic_phenomenon' と78 (0.68%) の 'MarMDB_man_made_structures' であることが分かりました。追加ファイル8：図S1は、現在のMarineMetafgenomeDBデータにおける属性ごとの欠損値の割合を示したものである。

ウェブアプリの使用方法と機能
MarineMetagenomeDBのユーザーインターフェースは、関心のあるサンプルの選択とダウンロードを支援するさまざまな機能への容易なアクセスを提供します。ユーザーインターフェースには、'Quick Search', 'Advanced Search', 'Interactive Map'の3つの主要セクションがあり、ユーザーが選択することができます。Quick Search'セクションは、現在のデータベースの全コンテンツを保持しています。また、Biome、Environmental Material、Geographic featuresなどの主な特性によってサンプルをフィルタリングするオプションが用意されています。Advanced search' セクションでは、データセットの全属性をフィルタリングし、'MarMDB Material', 'Collection_date', 'Assembled' などの特定の属性を動的に検索することが可能です。Interactive Map」は、世界地図から直接、場所によってサンプルを選択するグラフィカルな方法を提供します。ただし、有効な地理的座標を持つサンプルに限定されます。サンプルの識別情報（'sample_id', 'project_id' and 'library_id', 'PubMed ID' and 'BioProject ID'）は、ソースデータベース（利用できる場合）にハイパーリンクされています。すべてのタブに、選択したデータの分布を可視化する機能があります。Visualize」ボタンの下には、完全なデータセットから選択されたデータの割合を示す円グラフが表示されます。選択したデータの分布をよりよく理解するために、利用可能なすべての属性の対話型ヒストグラムが生成されます。選択した属性のサマリー表も用意されており、属性における選択したデータの分布をより理解しやすくなっています。図4は、MarineMetagenomeDBのユーザーインターフェースの概要を示しています。MarineMetagenomeDBの使用方法については、リンク先（https://www.youtube.com/channel/UCZlcoI8xiWno0mD9V954qRA）でビデオチュートリアルをご覧いただけます。

図4
図4
MarineMetagenomeDBユーザーインターフェースの概要。A 「Interactive Map」では、地図上の地理的位置に応じてサンプルを選択することができる。 B 「Advanced search」タブでは、ユーザーが好きなだけフィルターを選択でき、フィルターオプションの下にメタデータが表示される。

フルサイズ画像
クイック検索
Quick search' タブでは、MarineMetagenomeDB の全コンテンツにアクセスすることができます。ここでは、主な属性に基づいてデータセットのフィルタリングを行うことができます。座標が有効でないものも含め、すべてのメタゲノムが表示されます。30種類のフィルター、または表上部（右）にある検索ボックスに入力することで、エントリーを絞り込むことができます。選択されたエントリーのメタデータは、カンマ区切り値（.csv）ファイルとしてダウンロードすることができます。また、フィルタを適用しない場合は、データセット全体のメタデータをダウンロードすることができます。生シーケンスデータを取得するために必要な手順は、「選択したメタゲノムから生データをダウンロードする」のセクションで説明されています。

高度な検索
Advanced search」タブでは、データセットに含まれる全ての属性について、ダイナミックフィーチャーを生成することができます。選択した属性に欠損値があるサンプルを除外するためのチェックボックスが実装されています。ユーザーは、'Search and add filters' ボタンをクリックし、ウィンドウを開くことができます。属性の検索は名前で行うことができますが、次のカテゴリを使用して整理されています：「サンプル属性」、「環境材料」、「地理的特徴」、「サンプル位置」、「配列特徴」。フィルターと関連する値を選択した後、選択したエントリーのメタデータをカンマ区切り値（.csv）ファイルとしてダウンロードすることができます。

インタラクティブマップ
インタラクティブ・マップでは、世界地図上の関心のある場所からサンプルを特定することができます。地図には、有効な座標を持つサンプルのみが表示されます。地図上のサンプルを選択するために、描画ツール（長方形または多角形）を実装しました。なお、同じ座標位置から複数のサンプルが得られるため、地図上の個々の点は複数のサンプルを表している可能性があります。地図上でサンプルを選択すると、そのメタデータが地図下のデータセットテーブルに表示されます。クイック検索」タブにあるフィルター、またはテーブルの上部にある検索ボックスに入力することで、さらにエントリーを制限することができます。フィルタリング後のメタデータ表は、カンマ区切り値（.csv）ファイルとしてダウンロードすることができます。

厳選されたメタゲノムから生データをダウンロードする
SRAから生データを取得するために、簡単なダウンロード手順を開発しました。残念ながら、MG-RASTでは一般向けのダウンロードはできなくなっています。SRAtoolkit (https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software) をインストールし、カンマ区切り値 (CSV) でエクスポートされたメタゲノムを2つのユーザーフレンドリーなコマンドを使用してダウンロードできるようにした。また、経験の浅いユーザーをサポートするために、グラフィカルユーザーインターフェイス（GUI）を備えたスクリプトも用意されています。多くのユーザーはLinuxシステムで操作していると思いますが、インストールせずにすぐに実行できるように、Windowsの実行ファイルを提供しています。ダウンロードスクリプトは、TerrestrialMetagenomeDB [18] と HumanMetagenomeDB [17] の CSV エクスポートに対応した [AB1] で、 https://github.com/mdsufz/downloadtool で提供されている。

使用例
各国の河口生物圏のメタゲノムに違いを見出したい科学者は、MarineMetagenomeDBを利用して、この質問に答えるために必要なサンプルを見つけることができます。Quick search タブの 'Quick filters' で、'MarMDB Biome' の estuarine を検索すると、266 サンプルがリストアップされます。ユーザーは、「More filters」タブを使用して、「Sample Location Country」フィルタの下で関心のある国からサンプルを選択することができます。その後、例えば「United States of America」や「Australia」などのサンプルを選択し、サンプル数を66に減らすことができます。この段階で、ユーザーは'Visualize'をクリックして、選択内容を調べることができます。メタデータを簡単に調べると、サンプルが採取された「水の種類」が、「汽水」、「塩水」、「海水」、「NA」のいずれかに決定されていることが分かります。最後に、ユーザーは選択したメタデータデータセットをCSVファイルとしてダウンロードし、さらなる解析を行うことができます。また、提供されるツールを使って選択したサンプルの生のシーケンスデータをダウンロードすることができます。

データベース更新計画
SRAなどのパブリックリポジトリに投稿されたメタゲノム実験の数は増え続けているため、毎年1回、2月に新しく投稿されたサンプルでデータベースを更新する予定です。さらに、正当な理由があれば、いつでも新しい機能を追加したり、既存の機能を修正したりすることができます。新しいユニークなエントリーとメタデータのタイプは、適切に分析され、分類されます。ウェブサイトサーバーは、ドイツ国立研究データ基盤（https://www.nfdi.de/?lang=en）、より具体的には、NFDI4Microbiotaコンソーシアム（https://nfdi4microbiota.de/）の支援を受ける予定です。NFDI4Microbiotaコンソーシアムのビジョンは、微生物学（細菌学、ウイルス学、原生生物学、真菌学、寄生虫学を含む）の研究者が、研究データを簡単に変換して、分子レベルでの微生物種とその相互作用を深く理解することができるようになることです。NFDI4Microbiotaコンソーシアムの支援を受け、MarineMetagenomeDBは毎年（例：2月）更新され、ユーザーが海洋関連サンプルのメタデータと生データを容易に検索・ダウンロードできるようになります。

グッドプラクティスへの提案
本研究の目的の一つは、最大の公開リポジトリ（SRAとMG-RAST）に存在する海洋メタゲノムを使ってメタアナリシスを促進する可能性のあるオントロジーを提供することであった。この目標を達成するために、ENVOの既知のオントロジー用語と手動でキュレーションした用語を組み合わせ、関連する用語のグループに分類した。さらに、NFDI4Microbiotaに統合し、MarineMetagenomeDBのために開発された辞書を海洋オントロジーの国際的な参考文献として使用する可能性があります。また、新規のメタゲノム試料を公共リポジトリに投稿する際に、科学者コミュニティがメタデータをより適切にアノテーションできるようなガイドも用意しました。推奨されるオントロジーは、MarineMetagenomeDBウェブサイトの「Help」タブ内の「What should I do to include my metagenomes in MarineMetagenomeDB?」というタイトルのポイント7に記載されています。

まとめ
MarineMetagenomeDBは、Sequence Read Archive (SRA) とMG-RASTで公開されている海洋メタゲノム試料とその関連メタデータの一元化と標準化を試みています。海洋生物、環境物質、地理的特徴に関連する用語をEnvironment Ontology (ENVO)に基づいて整理し、海洋研究分野の科学者の協力を得て作成した。構築された海洋環境に関連する用語を手作業でキュレーションし、SRAとMG-RASTの両方で用語（ENVO由来の用語を含む）を同定しました。MarineMetagenomeDBは1.0.0リリースである。公開リポジトリに投稿された新規メタゲノムが急速に増加しているため、我々のチームはMarineMetagenomeDBを1年ごとに更新する予定です。このデータベースは、海洋メタゲノム・メタデータのアノテーションを改善し、海洋メタゲノム・サンプルのクエリや解釈を容易にするための基礎を築くものである。将来的には、MarineMetagenomeDB WebAppを改善するために、さまざまな機能を実装することが可能です。例えば、(i) WebAppを使用してユーザーがメタデータを入力・送信する際の支援方法、(ii) 選択したメタデータについてホームページ上でより有益なグラフィックの開発、(iii) データベース内のサンプルの生データとメタデータのダウンロードを容易にするAPIの作成などがあります。

利用可能な条件
プロジェクト名：MarineMetagenomeDB.

プロジェクトホームページ：https://webapp.ufz.de/marmdb/

オペレーティングシステム（複数可）。プラットフォーム非依存

プログラミング言語 R、Python。

その他必要なもの Python3。

ライセンス GNU GPL v3。

非学会員による使用には何らかの制限がある。ライセンス参照。

データ・資料の利用可能性
本研究で使用したデータセットは、SRA [http://www.ncbi.nlm.nih.gov/Traces/sra] およびMG-RAST [http://metagenomics.anl.gov/] リポジトリで利用可能である。

略語
SRA:
Sequence Read archive（シーケンスリード・アーカイブ

MG-RAST:
Metagenomic rapid annotations using subsystems technology（サブシステム技術を用いたメタゲノム迅速アノテーション）。

MarineMEtagenomeDB:
海洋メタゲノムデータベース

INSDC:
国際塩基配列データベース共同研究

ENA:
ヨーロッパヌクレオチドアーカイブ

DDBJ
日本DNAデータバンク

MAGs:
メタゲノム解析されたゲノム

HOT:
ハワイ海洋時系列データ

GOS
グローバルオーシャンサンプリングエクスペディション

OSD:
オーシャンサンプリングデー

MIxS:
任意の(x)配列に関する最小限の情報

MIMARKS:
マーカー遺伝子配列に関する最小限の情報

ENVO:
環境オントロジー

WGS:
全ゲノムシークエンス

API:
アプリケーション・プログラム・インターフェース

ISO:
国際標準化機構

NA:
割り当てられていない

GUI。
グラフィカルユーザーインターフェイス

参考文献
Johnson J, Jain K, Madamwar D. Functional Metagenomics. Curr Dev Biotechnol Bioeng [Internet]. Elsevier; 2017 [cited 2021 Jun 21]. p. 27-43. 利用可能な場所： https://linkinghub.elsevier.com/retrieve/pii/B978044463667600002X

Qiang-long Z, Shi L, Peng G, Fei-shi L. High-throughput sequencing technology and its application. J Northeast Agric Univ Engl Ed. 2014;21:84-96.

Google Scholar

Kodama Y, Shumway M, Leinonen R, On behalf of the International Nucleotide Sequence Database Collaboration. The sequence read archive: Explosive growth of sequencing data. Nucleic Acids Res.

論文

CAS

PubMed

Google Scholar

Karsch-Mizrachi I, Takagi T, Cochrane G, On behalf of the International Nucleotide Sequence Database Collaboration（国際塩基配列データベース共同体）. 国際ヌクレオチド配列データベース共同研究. Nucleic Acids Res. 2018;46:D48-51.

掲載記事

キャス

PubMed

グーグルスカラー

NCBIリソースコーディネータ. 米国国立生物工学情報センターのデータベースリソース。Nucleic Acids Res.

記事

PubMed Central

Google Scholar

真島淳一、児玉陽一、小菅崇、藤澤俊哉、片山俊哉、長崎博、他. DNA data bank of Japan (DDBJ) 経過報告. Nucleic Acids Res. 2016;44:D51-7.

論文紹介

キャス

PubMed

グーグルスカラー

Harrison PW, Alako B, Amid C, Cerdeño-Tárraga A, Cleland I, Holt S, et al. The European nucleotide archive in 2018.（2018年のヨーロッパヌクレオチドアーカイブ）。Nucleic Acids Res. 2019;47:D84-8.

掲載記事

キャス

PubMed

グーグル・スカラー

Wilke A, Bischof J, Gerlach W, Glass E, Harrison T, Keegan KP, et al. 2015年のMG-RASTメタゲノミクスデータベースとポータル. Nucleic Acids Res. 2016;44:D590-4.

掲載記事

キャス

PubMed

Google Scholar

Mitchell AL, Scheremetjew M, Denise H, Potter S, Tarkowska A, Qureshi M, et al. EBI Metagenomics in 2017: Enriching the analysis of microbial communities, from sequence reads to assemblies. Nucleic Acids Res. 2018;46:D726-35.

掲載記事

キャス

PubMed

グーグルスカラー

Shi W, Qi H, Sun Q, Fan G, Liu S, Wang J, et al. gcMeta: a Global Catalogue of Metagenomics platform to support the archiving, standardization, and analysis of microbiome data.マイクロバイオームデータのアーカイブ、標準化、解析を支援するグローバルカタログ。Nucleic Acids Res. 2019;47:D637-48.

掲載記事

キャス

PubMed

グーグル・スカラー

Nayfach S, Roux S, Seshadri R, Udwary D, Varghese N, Schulz F, et al. A genomic catalog of Earth's microbiomes.（地球のマイクロバイオームのゲノムカタログ）。Nat Biotechnol. 2021;39:499-509.

論文

CAS

PubMed

Google Scholar

この論文では、メタゲノムから得られた約8,000のゲノムが生命の木を大幅に拡張することを明らかにした。Nat Microbiol. 2017;2:1533-42.

論文

キャス

PubMed

グーグルスカラー

トレスPJ、エドワーズRA、マクネアKA. このような場合、「PARTIE: a partition engine to separate metagenomic and amplicon project in the sequence read archive. バイオインフォマティクス. 2017;33:2389-91.

論文

キャス

PubMed

パブメッドセントラル

Google Scholar

ゲノム配列に関する最小限の情報(MIGS)仕様。Nat Biotechnol. 2008;26:541-7.

論文

CAS

パブメド

パブメドセントラル

Google Scholar

NCBIのBioProjectデータベースとBioSampleデータベース：メタデータの取得と整理を容易にする。Nucleic Acids Res.

論文

CAS

PubMed

Google Scholar

Yilmaz P, Kottmann R, Field D, Knight R, Cole JR, Amaral-Zettler L, et al. マーカー遺伝子配列に関する最小情報（MIMARKS）および任意の（x）配列に関する最小情報（MIxS）仕様書. Nat Biotechnol. 2011;29:415-20.

論文

CAS

パブメド

パブメドセントラル

Google Scholar

Kasmanas JC, Bartholomäus A, Corrêa FB, Tal T, Jehmlich N, Herberth G, et al. HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes.ヒトメタゲノムの標準化されたメタデータの公開リポジトリ。Nucleic Acids Res.2021;49:D743-50。

論文

CAS

PubMed

Google Scholar

コレーアFB、サライバJP、スタドラーPF、ダ・ローシャUN. TerrestrialMetagenomeDB: a public repository of curated and standardized metadata for terrestrial metagenomes(テレストリアルメタゲノムデータ：テレストリアルメタゲノムのキュレーションと標準化されたメタデータのパブリックリポジトリ)。Nucleic Acids Res. 2019. https://doi.org/10.1093/nar/gkz994.

論文

PubMed Central

グーグル・スカラー

Ponsero AJ, Bomhoff M, Blumberg K, Youens-Clark K, Herz NM, Wood-Charlson EM, et al. Planet Microbe: a platform for marine microbiology to discover and analyze interconnected 'omics and environmental data.海洋微生物学が相互に関連したデータを発見し、分析するためのプラットフォーム。Nucleic Acids Res.2021;49:D792-802。

論文

キャス

PubMed

Google Scholar

カールDM、チャーチMJ. 微生物海洋学とハワイ海洋時系列プログラム。Nat Rev Microbiol. 2014;12:699-713.

論文

キャス

パブコメ

グーグル・スカラー

Rusch DB, Halpern AL, Sutton G, Heidelberg KB, Williamson S, Yooseph S, et al. sorcerer II global ocean sampling expedition: northwest atlantic through eastern tropical pacific. PLoS Biol.2007;5:e77。

論文

PubMed

PubMed Central

Google Scholar

Kopf A, Bicak M, Kottmann R, Schnetzer J, Kostadinov I, Lehmann K, etc. The Ocean Sampling Day Consortium（海洋試料採取日コンソーシアム）。GigaScience. 2015;4:27.

論文

PubMed

PubMed Central

Google Scholar

Sunagawa S, Acinas SG, Bork P, Bowler C, Tara Oceans Coordinators, Acinas SG, et al. Tara oceans: towards global ocean ecosystems biology.（タラ海洋：グローバル海洋生態系生物学を目指して）。Nat Rev Microbiol. 2020;18:428-45.

論文

CAS

パブコメ

Google Scholar

Gregory AC, Zayed AA, Conceição-Neto N, Temperton B, Bolduc B, Alberti A, et al. Marine DNA viral macro- and microdiversity from pole to pole.（海洋DNAウイルスの極から極への多様性）。Cell. 2019;177:1109-1123.e14.

論文

キャス

PubMed

PubMed Central

Google Scholar

吉武紘一、木村剛、坂見俊哉、渡辺恒夫、谷内義人、筧秀和、他日本太平洋岸における微生物群集モニタリングのための時系列ショットガン・メタゲノミクス・データベースの構築. Sci Rep. 2021;11:12222.

論文

CAS

パブメド

PubMed Central

Google Scholar

Buttigieg PL, Pafilis E, Lewis SE, Schildhauer MP, Walls RL, Mungall CJ. The environment ontology in 2016: Bridging domains with increased scope, semantic density, and interoperation. J Biomed Semant. 2016;7:57.

論文

Google Scholar

参考文献のダウンロード

謝辞
標準化に使用した予備スクリプトの一部を提供してくださったFelipe Borim Corrêaに感謝します。また、Sebastian Canzler博士、Andreas Schuttler博士、Mathias Bernt博士、Sven Petruschkeには、shinyアプリの展開をサポートしていただき、感謝しています。

資金提供
Projekt DEALによるオープンアクセスの資金援助が実現し、組織された。この研究は、Helmholtz Young Investigator Grant VH-NG-1248 Micro 'Big Data' と Deutsche Forschungsgemeinschaft (DFG, German Research Foundation) - Project Number 460129525 によって資金提供されました。MKNは、石油信託開発基金（PTDF）、ドイツ学術交流会（DAAD）(#91759074)の支援を受けています。TKCは研究者契約（CEECIND/00788/2017）、SGSはポルトガル科学技術財団（FCT）から授与された博士号奨学金（PD/BD/143029/2018）の受領者である。

著者情報
著者ノート
Muhammad Kabiru Nata'alaとAnderson Paulo Avila Santosは、原稿に等しく貢献しています。

著者と所属
ヘルムホルツ環境研究センター環境微生物学部門 - UFZ GmbH, 04318, Leipzig, Saxony, Germany

Muhammad Kabiru Nata'ala、Anderson P. Avila Santos、Jonas Coelho Kasmanas、João Pedro Saraiva & Ulisses Nunes da Rocha

ライプツィヒ大学コンピューターサイエンス学部およびバイオインフォマティクス学際センター（04107, Leipzig, Saxony, Germany

ムハマド・カビル・ナタアラ、ジョナス・コエーリョ・カスマナス、ピーター・F・シュタドラー

サンパウロ大学数学・コンピュータサイエンス研究所（ブラジル、サン・カルロス市

Anderson P. Avila Santos, Jonas Coelho Kasmanas & André Carlos Ponce de Leon Ferreira de Carvalho.

ドイツ・ポツダム市テレグラフンベルク14473、GFZドイツ地球科学研究センター、セクション3.7ジオミクロバイオロジー

Alexander Bartholomäus

ポルトガル・リスボン大学高等理工学部バイオエンジニアリング学科およびバイオエンジニアリング・バイオサイエンス研究所, 1049-001, Lisbon, Portugal

サンドラ・ゴディーニョ・シルバ、ティナ・ケラー＝コスタ、ロドリゴ・コスタ

アヴェイロ大学生物学部および環境・海洋研究センター（CESAM）、3810-193, Aveiro, Portugal

ニュートン C. M. ゴメス

パラナ連邦工科大学（UTFPR）（ブラジル、コルネリオ・プロコピオ

ダニーロ・シポリ・サンチェス

寄稿
UNRとDSSが本研究のコンセプト立案と指導を行った。UNR、DSS、MKN、APAS、JPSはデータフレームを作成し、原稿を執筆した。APASはウェブアプリを作成し、図表を作成した。SGSはデータのフィルタリングと標準化で協力した。JCKは、プロジェクト期間中、コードのチェックとデバッグに協力した。JCKとABはダウンロードツールの開発を行った。TKC、RC、NCMG、DSSは、属性の標準化について専門家の指導を受け、ウェブアプリのベータテストを行い、投稿前に原稿を確認した。最終原稿は全著者が読み，承認した。

執筆者一覧
Danilo Sipoli Sanches または Ulisses Nunes da Rocha に連絡すること。

倫理に関する宣言
倫理的承認と参加への同意
該当なし

出版への同意
該当なし

競合する利益
著者らは、競合する利害関係を有しないことを宣言する。

追加情報
出版社からのコメント
Springer Natureは、出版された地図の管轄権の主張および所属機関に関して、中立的な立場をとっています。

補足情報
追加ファイル1
. 表S1：非海産サンプルのフィルタリングに使用した用語の辞書。

追加ファイル2
. 表S2: 抽出したカラムとそのラベルを持ついくつかのサンプル。

追加ファイル 3
. 表S3: SRAdb の 'sample_attribute' から、異なる同義語を表すために選択された属性。

追加ファイル 4
. 表S4: 海産物の'MarMDB'属性グループとそれぞれの値。

追加ファイル 5
. 表S5：MarineMetagenomeDBの属性の完全なリスト。MarMDB属性カテゴリ」列は、各属性の手動で作成したカテゴリを示す。

追加ファイル6
. 表S6: SRAとMG-RASTの同等・比較可能な属性。

追加ファイル 7
. 表S7: WebAppに使用したパッケージとそのバージョン。

追加ファイル 8
. 図S1: MarineMetagenomeDBの各属性の欠損値の割合をソースデータベース別に示したグラフ。

権利と許可
この記事は、原著者と出典に適切なクレジットを与え、クリエイティブ・コモンズ・ライセンスへのリンクを提供し、変更を加えたかどうかを示す限り、あらゆる媒体や形式での使用、共有、適応、配布、複製を許可するクリエイティブ・コモンズ表示 4.0 国際ライセンスの下に提供されています。この記事に掲載されている画像やその他の第三者の素材は、素材へのクレジット表示で別段の指示がない限り、記事のクリエイティブ・コモンズ・ライセンスに含まれます。もし素材が記事のクリエイティブ・コモンズ・ライセンスに含まれておらず、あなたの意図する利用が法的規制によって許可されていない場合、あるいは許可された利用を超える場合には、著作権者から直接許諾を得る必要があります。このライセンスのコピーを見るには、http://creativecommons.org/licenses/by/4.0/。クリエイティブ・コモンズ・パブリック・ドメインの献呈放棄（http://creativecommons.org/publicdomain/zero/1.0/）は、データへのクレジットラインに特に記載がない限り、この記事で利用可能になったデータに適用されます。

転載と許可

この記事について
CrossMarkで通貨と真偽を確認する
この記事の引用
Nata'ala, M.K., Avila Santos, A., Coelho Kasmanas, J. et al. MarineMetagenomeDB: a public repository for curated and standardized metadata for marine metagenomes.（海洋メタゲノムに関する標準的メタデータの公開リポジトリ）。Environmental Microbiome 17, 57 (2022). https://doi.org/10.1186/s40793-022-00449-7

引用文献のダウンロード

受領日
2022年3月8日

受理済
2022年9月15日

公開
2022年11月18日

DOI
https://doi.org/10.1186/s40793-022-00449-7

MarineMetagenomeDB：海洋メタゲノムのキュレーションと標準化されたメタデータの公開

いいなと思ったら応援しよう！