重大なデータ解析ミスが癌マイクロバイオームの知見を無効にしている

mBioロゴ
ジャーナルホーム
著者紹介
論文紹介
ジャーナルについて
購読者の方へ
ジャーナル
ログイン
戻る
抗菌薬と化学療法
応用・環境微生物学
臨床・ワクチン免疫学
臨床微生物学レビュー
エコサル・プラス
真核細胞
感染と免疫
細菌学ジャーナル
臨床微生物学ジャーナル
微生物学・生物学教育ジャーナル
ウイルス学ジャーナル
mバイオ
微生物学・分子生物学レビュー
微生物学リソース
微生物学スペクトラム
mSphere
mシステム
オープンアクセス
ヒトマイクロバイオーム
研究論文
2023年10月9日
重大なデータ解析ミスが癌マイクロバイオームの知見を無効にしている

https://journals.asm.org/doi/10.1128/mbio.01607-23

著者 Abraham Gihawi, Yuchen Ge, Jennifer Lu, Daniela Puiu, Amanda Xu, Colin S. Cooper, Daniel S. Brewer, Mihaela Pertea, Steven L. Salzberg https://orcid.org/0000-0002-8859-7432 salzberg@jhu.eduAUTHORS INFO & AFFILIATIONS
DOI: https://doi.org/10.1128/mbio.01607-23
引用
PDF/EPUB

mBio
第14巻 第5号
31 2023年10月
概要
はじめに
結果
考察
材料と方法
謝辞
補足資料
参考文献
情報&貢献者
指標と引用
参考文献
図表とメディア

シェア
要旨
我々は、微生物由来のDNAシグネチャーと33の異なるがん種との間に強い相関関係があることを報告し、がんをほぼ完璧に区別できる機械学習による予測因子を作成した最近の大規模研究のデータを再分析した。すなわち、(i)ゲノムデータベースとそれに関連する計算手法に誤りがあったため、全サンプルにわたって数百万もの細菌リードの偽陽性が検出されたこと、(ii)生データの変換に誤りがあったため、リードが検出されなかった微生物についても人工的なシグネチャーが作成され、各腫瘍タイプに明確なシグナルが付与され、機械学習プログラムがそれを用いて見かけ上正確な分類器を作成したこと、である。このような問題の一つひとつが結果を無効にしており、この研究で発表されたがんを特定するための微生物ベースの分類法は完全に間違っているという結論に至っている。これらの欠陥は、同じデータを使用した十数件の追加研究にも影響を及ぼしており、その結果も同様に無効である可能性が高い。
重要性
ヒトのがんには特徴的なマイクロバイオームが存在することを示す最近の報告により、さまざまながん種の微生物シグネチャーを記述した論文が次々と発表されている。これらの報告の多くは、欠陥のあるデータに基づいており、再分析すると当初の知見が完全に覆される。今回行われた再分析により、当初がんに関連すると報告された微生物のほとんどは、サンプル中に全く存在しなかったことが明らかになった。したがって、がんマイクロバイオームに関する当初の報告や十数件の追跡研究は無効である可能性が高い。
はじめに
子宮頸がんにはヒトパピローマウイルス(1)、胃がんにはヘリコバクター・ピロリ(2)、大腸がんにはフソバクテリウム・ヌクレアタム(3)など、細菌やウイルスが複数の種類のがんの原因として関与している。しかし、数年前までは、様々な細菌やウイルスの混合物である複合微生物叢が、他のがん種の病因に影響を及ぼす可能性を示す証拠はほとんどなかった。がんゲノム・アトラス(TCGA)の17,625サンプルを対象とした大規模解析で、33種類のがんの配列データから、32種類のがんに特徴的な微生物シグネチャーが存在することが報告されると、この状況は一変した(4)。これらのシグネチャーは、各腫瘍型とそれ以外のすべてのがんを識別する上で極めて正確であった。15のがん種については、腫瘍と正常組織を区別できるシグネチャーが作成され、20のがん種については、患者の血液中に検出された微生物DNAに基づいて腫瘍を識別するシグネチャーが開発された。この研究で作成された機械学習モデルは驚くほど精度が高く、ほとんどのモデルの精度は95~100%であった。
しかし、Pooreらは汚染種を除去し、バッチ効果のような一般的なバイアスを回避する努力を行ったにもかかわらず、この研究で報告された機械学習モデルの多くが、ヒト疾患の文脈では意味をなさない属に基づいていたため、われわれは懸念を抱いた。そのモデルには、ヒトで報告されたことのない種や、極限環境、海洋棲息種、植物、その他ヒト以外の環境にのみ関連する種が含まれていた。
過去10年間に行われた複数の研究により、コンタミネーションの問題は物理的なサンプルそのものに限ったことではないことが報告されている。ある研究(5)で報告されているように、最大の問題は、ヒトのDNAが数千の細菌の組み立てられたゲノムを汚染していることである。さらに大規模な研究では、誤った生物種との交差汚染がいたるところで起こっており、GenBankデータベースの200万以上のエントリーに影響を与えていることが示された(6)。このような汚染現象はドラフトゲノムに多く見られ、ヒトや他の非微生物種に由来する配列(「コンティグ」)の一部が、細菌、真菌、または他の微生物種の名前で誤って表示されている。データベースの汚染は、汚染された非ヒトゲノムに一致するヒトのリードの誤分類につながる可能性がある。
この汚染問題は、メタゲノム解析法を用いて、ヒトサンプル由来で微生物リードが比較的少ないリードを分類する場合に特に懸念される(7 - 9)。ヒト胎盤マイクロバイオーム(10)や血液マイクロバイオーム(11)の知見を覆した最近の研究は、バイオマスの少ないサンプルを扱うことの危険性を示している。まさに、がんマイクロバイオーム研究(4)で遭遇したシナリオがそれであり、元のサンプルはヒト腫瘍と正常組織から採取され、配列決定されたリードの大部分がヒトであった。Pooreら(4)は、生リードの7.2%が非ヒトと分類されたと報告しており、我々はこれらのリードのかなりの部分が実際にはヒトであることを懸念していた。以下の結果は、この懸念が正当であったことを確認するものである。
結果
Pooreらの研究(4)の生データと正規化された分類データをすべて再分析した。これには、17,625サンプルのそれぞれについて、1,993属のカウントが含まれていた。この生のカウント行列は、我々の研究室で独自に開発されたメタゲノミクス分類法であるKrakenでデータを処理して作成された(12, 13)。さらに、膀胱尿路上皮がん(BLCA)、頭頸部扁平上皮がん(HNSC)、乳房浸潤がん(BRCA)の3種類のがんから、オリジナルのTCGAサンプルのうち1,255サンプルをダウンロードして再解析した(表1)。
表1
表1 TCGAから再解析のためにダウンロードされたがんデータセット数(BLCA、HNSC、BRCAaから
がんの種類 ダウンロードされたサンプル数 合計リード数 当初マッピングされていなかったリード数
WGS RNA-seq 合計
BLCA 277 406 683 207,716,524,420 5,025,973,203 (2.4%)
HNC 334 0 334 258,961,253,944 3,573,898,240 (1.4%)
238 0 238 324,824,097,837 1,532,210,153 (0.5%)
a
最後の列は、TCGAの生BAMファイルにおいてヒトゲノムにアライメントしなかったリードの数を示す。WGS:全ゲノムショットガンシーケンス。
フィルタリングされた「非ヒト」リードには数百万のヒトリードが含まれる
Pooreら(4)が記述しているように、彼らの解析は、TCGAの生BAMファイルのマッピング情報に基づいて、既知のヒト参照ゲノムにアライメントしなかったリードから開始した。これらのBAMファイルは、bwa(14)やBowtie2(15, 16)などのプログラムを用いて、サンプルを処理した日付に応じてGRCh37(hg19)またはGRCh38のいずれかのヒト参照ゲノムに対してリードをアライメントした結果である。このアライメントプロセスは不完全であり、多くのヒトリードは典型的なサンプルからのアライメントに失敗する可能性がある。したがって、Pooreらが行ったように、ヒトゲノムとアライメントしないリードを単純にダウンロードしても、この方法で取得されたリードの多くはヒトのままである。
説明のために、表1の最後の列に示した1,255のBLCA、HNSC、BRCAサンプルから、最初にマップされなかったリードをすべて再アラインメントした。元のデータセットでは、ヒトゲノムにマップされなかったリードの割合は、それぞれ2.4%、1.4%、2.7%であった。Bowtie2(16)を用いて、これらのマッピングされていないリードをCHM13ヒトゲノム(17)に再アラインメントしたところ、ヒトに一致するリードが981,451,972本(19.5%)、519,222,095本(14.5%)、785,947,157本(51%)追加された。これは、BLCA、HNSC、BRCAの各データセットにおいて、サンプルあたりのヒトリードの平均数がそれぞれ139万、155万、330万に相当する。
したがって、これらの各データセットでは、Pooreらが行ったように生のBAMファイルのマッピング情報に依存する戦略では、各サンプルに平均140万~330万のヒトリードが残る。
細菌のリード数は何桁も膨れ上がった
サンプル中に数百万のヒトリードが存在するということは、Pooreらの一次解析ステップでは、これらのリードをすべて微生物データベースとマッチングさせるため、ヒト配列の短い領域を含む微生物ゲノムがあれば、大量の偽陽性マッチが発生する可能性があるということである。前述したように、何千ものドラフトゲノムには、細菌と誤って表示される少量のヒトDNA配列が実際に含まれている(5)。
TCGAのリードデータは、31塩基対(bp)以上の完全一致を用いてリードを分類群に割り当てる非常に高速なアルゴリズムであるKrakenプログラム(13)を用いて解析した。Krakenプログラムの精度は高いが、各リードを比較するゲノムのデータベースに大きく依存する。Pooreらは、59,974の微生物ゲノムを含むデータベースを使用し、そのうち5,503がウイルス、54,471が細菌または古細菌であった。注目すべきは、彼らのKrakenデータベースにはヒトゲノムが含まれておらず、一般的なベクター配列も含まれていなかったことである。このため、TCGAリードに存在するヒトDNA配列が微生物ゲノムと一致すると誤って報告される確率が劇的に高くなった。この問題は、Krakenデータベースにヒトゲノムを含め、完全な細菌ゲノムのみを使用することで軽減できる。
膀胱がんサンプルの再解析
我々は、156の膀胱がんサンプル(すべてBLCAからの全ゲノムショットガン[WGS]原発腫瘍および正常組織サンプル)を、ウイルス、真核病原体、ヒトゲノム、および一般的に使用される実験室ベクターと同様に、完成した細菌ゲノムのみを含む、キュレーションされた一般公開のKrakenデータベース(18)と照合することによって再解析した(材料と方法を参照)。このデータベースに含まれる細菌ゲノムはいずれもドラフトゲノムではなかった。まず、マッピングされていないリードをヒトCHM13参照ゲノムにアライメントして再フィルターし、この2回目のフィルターステップの後に残ったリードのみを解析した(Materials and Methodsを参照)。ヒトゲノムとのアライメントを2回行っても、各サンプル中の多くのリード(平均174,883本、5%)は、我々のデータベースを用いたKrakenプログラムによってヒトと分類された。
図1; 表S1は、Pooreらの研究で報告された、BLCAに最も多く含まれる微生物属の上位20位と、我々の解析で見つかったリード数を比較したものである。
図1

図1 Pooreらの研究(左)で報告された、膀胱がん(BLCA)において最も多く存在する上位20属のサンプルあたりの平均リード数(全ゲノムシーケンス156サンプルで平均)。右側は、我々の再解析で計算された、同じサンプル、同じ属、同じ順番の数である。y軸のスケールは2,000倍違うことに注意。x軸は属名を示す。
図に示すように、Pooreらの解析では、Streptococcus属、Mycobacterium属、Staphylococcus属が上位を占め、サンプルあたりの平均リード数はそれぞれ560,000、411,000、241,000であった。同じサンプルの再解析では、これらの属のリード数ははるかに少なく、それぞれ平均36、6、266リードで、16,000、67,000、900分の1の値であった。表S2は、我々の解析で見つかった上位20属を示したもので、サンプルあたりのリード数は10から447の範囲であった。
後述するように、Pooreらの研究で過剰にカウントされた大部分は、明らかに細菌と誤ってラベル付けされたフィルターデータ中のヒトリードによるものであった。生のリードをGRCh37またはGRCh38に対してのみフィルタリングしても、ヒトのリードはすべて除去されなかったため、彼らのメタゲノミクスパイプラインへの入力には、サンプルあたり140万から330万のヒトのリードが含まれており、これらのリードによって、図1の左側に示した劇的な過剰カウントが説明される。
表S3と表S4は、膀胱がん腫瘍対他の腫瘍タイプ、腫瘍対正常組織を分類したモデルにおける、重み付け上位20属の平均リードカウントを示している。我々の解析では、これらの属のカウントはほぼすべて平均0から1の間で、最大値はわずか18リード(カンピロバクター)であった。上位の属の半数近くは、Pooreらのデータでも平均リードカウントが10以下であったが、数千カウントの属もあった。以下に、生カウントがゼロに近い属が、機械学習モデルによってどのように選択されたかを説明する。
頭頸部がんと乳がんサンプルの再解析
334のHNSCサンプルと238のBRCAサンプルについて同様の再解析を行った(材料と方法を参照)。BLCAサンプルと同様に、CHM13ヒトゲノムに一致するリードをフィルターで除去した後、Krakenプログラムを用いて、微生物、一般的なベクター、ヒトゲノムのキュレーションデータベースとすべてのリードを照合した。ヒトゲノムとのアライメントによるフィルタリングを行った後でも、HNSCとBRCAサンプルのリードのうち、それぞれ平均227,272(5%)と34,806(1%)がKrakenによってヒトと分類された。
図S1、S2、表S5、S6は、Pooreらが計算したHNSCデータ(図S1)およびBRCAデータ(図S2)における最も多い20属のリードカウントを、同じサンプルにおける同じ属のリードカウントと対比して示している。図1に示した膀胱がんの結果と同様に、Pooreらが報告した両がん種の平均リード数は、一貫して我々の解析結果の数百倍から数千倍であった。3つのがん種すべてにおいて、これらの推定される豊富な属のほとんどについて、我々は平均リードカウントがゼロに近いことを発見したが、Pooreらは数万から100万を超えるリードカウントを報告した。以下に示すように、これらの過剰カウントの大部分は、細菌に誤って割り当てられたヒトのリードである。
Pooreらの研究の生数値のほぼすべてが不正確であり、高すぎる。
次に、BLCA、HNSC、BRCA全ゲノムサンプルの全属のリードカウントを、Pooreらによって報告されたゼロ以外のカウントを中心に、より広範囲に調べた。行列の各セルは、サンプル/属のペア、すなわち、与えられた属に割り当てられた与えられたサンプルからのリードの数のカウントを表す。
表2に比較をまとめた。各サンプルのゼロでない属ごとに、Pooreらによって報告されたリード数と、我々の解析で見つかったリード数を比較した。この表では、リード数が少なくとも10であったサンプル/属のペアに焦点を当てている。
表2
表2 Pooreら(4)が3つのがん種について発見した微生物リード総数と、完全な細菌ゲノムのみを含むデータベースを用いた再解析で計算された総数との比較。
がんの種類 Pooreらで報告されたリード数 サンプル/属のペア Pooreらの値
≥10倍以上 高すぎる 再推定の50%以内
BLCAサンプル(合計156)≥10リード 37,258 36,714 (98.5%) 90 (0.2%)
≥100リード以上 16,969 16,869 (99.4%) 5 (0.03%)
HNSCサンプル(合計334)≥10リード 114,640 106,544 (92.9%) 1,190 (1.0%)
≥100リード以上 55,259 52,689 (95.3%) 274 (0.5%)
BRCAサンプル(合計238)≥10リード 83,476 81,736 (97.9%) 172 (0.2%)
≥100リード以上 46,025 45,686 (99.3%) 11 (0.02%)
a
BLCA:膀胱がん、HNSC:頭頸部がん、BRCA:乳がん。
表に示すように、BLCAサンプルでは、Pooreらが報告したリード数は、データエントリーの98.5%で我々の結果の少なくとも10倍以上であった。Pooreらが100以上のリードを発見したサンプルと属に限ってみると、その値は99.4%のケースで10倍以上大きかった。この結果はHNSCでも同様で、92.9%の値が10倍以上、BRCAでは97.9%のリードカウントが10倍以上に膨れ上がっていた。
また、ゼロでないリードカウントのうち、再解析で決定された値と少なくともほぼ同じ値がいくつあったかを計算した。BLCAサンプルでは、37,258個中90個(0.2%)だけが、我々が同じサンプルで検出したカウントの50%以内であった。同様に、膀胱癌のデータでゼロでない値が再解析で見つかった値の50%以内であったのは、400件中1件以下であった。HNSCとBRCAのリードカウントはわずかに良く、それぞれ1.0%と0.2%が正しい値の50%以内であった。このように、Pooreらの元のデータマトリックス(彼らのすべての結果のベースとなったデータ)に含まれる非ゼロデータの大部分は、非常に大きな誤りであるように見える。
人間の読み取りがバクテリアの虚偽の外観をどのように作り出すか
Pooreらによってヒトのリードが誤って細菌と分類されたことが、このような膨大な過剰カウントの原因である可能性が高い。細菌と一致するヒトのリードの数は、腫瘍サンプル中の実際の細菌の存在とは無関係であり、その代わりに、多くのドラフト細菌ゲノムに誤ったラベルのヒト配列が含まれているデータベース自体によって決定された。
細菌属からのリードがほとんど、あるいは全く存在しない場合に、このような高いリードカウントが現れることを説明するために、BLCAデータから、ある原発性腫瘍サンプルs2707(症例ID TCGA-DK-A1AB)において、Streptococcus属とWaddlia属の2つの属について詳細な解析を行った。これらの属を選んだのは、図1;図S1およびS2に示すように、Pooreらで最も豊富であると報告されていたからである。サンプルs2707は、Pooreらにより327,985のStreptococcusリードと20,673のWaddliaリードを持つことが報告されている。完全な細菌ゲノムのみを含むKrakenデータベースにs2707をアラインメントしたところ、Streptococcusとラベルされたリードは1本だけで、Waddliaとラベルされたリードは1本も見つからなかった。
次に、s2707からヒトゲノムと一致しないリードをすべて抽出したところ、11,997,726個の未マッピングリードが得られた。次に、2016年時点でGenBankに存在する10,270のStreptococcusゲノム(ドラフトゲノムを含む)をすべて含むカスタムKrakenデータベースを構築した。(2016年を選んだのは、Pooreらが2016年6月にデータベース用の全細菌をダウンロードしたからである[4])。私たちは、公開されている4つのWaddliaゲノム(うち3つはドラフトゲノム)をすべて含む第2のKrakenデータベースを構築しました。そして、KrakenUniq(13)を実行して、s2707から得られた約1200万本のアラインメントされていないリードを両方のデータベースにマッピングしたところ、それぞれ1,434,287リードペアがStreptococcusに、197,811リードペアがWaddliaに分類された。この結果は、癌サンプル(s2707)から得られた未アラインメントリードから、細菌ゲノムのみで構築されたデータベースに対してアラインメントを行った場合、ヒトゲノムを含まない限り、これらの属からそれぞれ大量のリードを見つけることが実際に可能であることを示している。
過剰カウントが細菌と誤って一致したヒトリードによるものであることを確認するため、上記のKraken解析でStreptococcus属またはWaddlia属とラベル付けされたすべてのリードを抽出し、Bowtie2を用いてCHM13ヒトゲノムにアライメントした(16)。このステップで、98.1%と98.9%のリード(それぞれ)がヒトDNAと一致した。このように、Krakenのマッチはほぼすべて偽陽性であり、ヒトの配列を誤って含む細菌ゲノムがデータベースに存在することが原因であった。
最後に、Pooreらが行ったように、Krakenデータベースからヒトゲノムを省いた場合の影響を強調するために、さらに2つのデータベースを作成した。1つは10,270のStreptococcusゲノムとヒトゲノムを加えたもの、もう1つは4つのWaddliaゲノムとヒトゲノムを加えたもので、いずれもCHM13ヒトゲノムを使用した。次に、サンプルs2707の全リードを再度分類した。最初のデータベースで分類した場合、Streptococcusのリード数は1,434,287から10,792に減少し、132倍減少した。2番目のデータベースを使用した場合、Waddliaのリード数は197,811から174に減少し、1100倍以上減少した。
リードの正規化により、がんごとに異なるシグネチャーが誤って作成された
Pooreらの研究における2つ目の大きな誤りは、生のリード数を正規化する際に生じた。Pooreらは、バッチ効果を除去するために、すべての機械学習分類法を構築するのに、生のデータではなく正規化したデータを使用した(4)。生カウントを正規化値に変換する過程で、多くの癌タイプ(例えば、ある癌タイプでは全腫瘍サンプル、別の癌タイプでは全健常サンプルなど)に誤ったタグ付けが行われ、生値が有益でない場合でも癌サンプルがマークされた。機械学習プログラムは、これらの人工タグを使用して、ほぼ完璧な分類器を作成することができた。これらの分類器の多くで使用されている上位の属を調べたところ、このような誤ったマーキングの例が数多く見つかった。
まず、副腎皮質がん(ACC)におけるヘパンデンソウイルスの値を考えてみよう。すべてのACCがんサンプルは、このウイルスの生リードカウントがゼロであったが、正規化時に79サンプル中71サンプル(90%)にPooreらによる値3.078874655が割り当てられた。すべてのがん種にわたる全17,625サンプル(13,883の原発腫瘍サンプルを含む)のうち、正規化データでこの値と等しいか小さい値を持つサンプルは他に77サンプルしかなかった。しかし、生データでは、17,624サンプルでHepandensovirusリードがゼロであり、1サンプルで2リードであった。
図2に示されているように、正規化された値の極めて非ランダムな分布は、1つを除いてすべて生の値がゼロから始まっているため、機械学習分類器によってACCサンプルを他のがんから分離することが容易である。正規化されたHepandensovirusの値をH Nと呼ぶとすると、モデルが単純なルールH N > 3.078874655を用いてサンプルを分割した場合、陽性サンプルの71/79(90%)を正しくラベル付けし、77/17,625(0.4%)のエラーしか犯さない(図2)。これは、最も厳格な除染(MSD)データセットにおいて、ACCと他のがんを区別する機械学習モデルで、このウイルスに一致するリードが1/17,624サンプルしかなかったにもかかわらず、Hepandensovirusが最も高い重み付けをされた特徴であった理由を説明するものである。
図2

図2 副腎皮質がん(青)とその他のサンプル(オレンジ)に対するHepandensovirusの正規化カウントの分布。挿入図は小さな値の分布を拡大したもの。生の値はすべてゼロであった。
腎臓クロム血症(KICH)腫瘍サンプルの別の属、チオホドスピラの正規化値でも同様のパターンが観察された(図3)。Thiorhodospiraは、いくつかの異なるモデル(Fullデータセット、"proikely contaminants removed "データセット、および "all putative contaminants removed"(APCR)データセットを含む)において、KICHを正常組織と区別する機械学習分類器で最も高い重み付けをした特徴量であった。TCGA-KICHデータには、51の腫瘍サンプルと41の正常組織サンプルが含まれており、生データでは、85のサンプルでリードカウントがゼロであり、7サンプル(4つの癌、3つの正常)でチオホドスピラのカウントが1であった。正規化されたデータでは、図3に示すように、がんサンプルは正常組織からほぼ完全に切り離された値が割り当てられた。このように、正規化処理によって、腫瘍と正常組織を分離する人工的な信号が再び作り出された。
図3

図3 KICHがん(青)および正常(オレンジ)サンプルにおけるThiorhodospiraリードの正規化カウントの分布。生カウントが1であった7サンプルを除き、ほぼすべての生カウントが0であった。
もう一つの例はNitrospiraで、これはPooreらの13の異なるがん種における機械学習モデルで高いウェイトを占めた属であり、その中には肺扁平上皮がん(LUSC)も含まれ、この属はトップランクであった。図4は、Voom-SNM正規化後のLUSCサンプルにおけるNitrospiraリードの正規化カウントを、他のすべてのがん種と比較して示している。この図では、LUSCにおけるNitrospiraの頻度が右にシフトしている、すなわち、他のがんに比べて平均値が大きい。これは、機械学習モデルがニトロスピラに最も高いウェイトを与えた理由を説明するものであるが、生データではこのような右へのシフトは見られない。このように、Voom-SNM正規化処理により、元のリードカウントにはそのようなシグネチャーがなかったにもかかわらず、肺がんのシグネチャーが作成された。
図4

図4 肺扁平上皮がん(青)とその他のがん種(オレンジ)で見つかったNitrospiraリードのAPCRデータセットにおける正規化リード数の分布。わかりやすくするため、Y軸は500で切り捨ててあるが、他のがん種の分布のピークは1,389である。
この現象はHNSCでも観察され、MSDデータセットで最も高いウェイトを持つ属はMulikevirusであった。この属は、腫瘍を正常組織と区別する際にも、HNSCを他のすべてのがんと区別する際にも、最も高い重みを持っていた。腫瘍、血液、正常組織を含む906のHNSCサンプルはすべて、Mulikevirusのリードがゼロであったため、このウイルスは腫瘍と正常サンプルの識別に役立たなかった。
しかし、Voom-SNMで正規化したデータでは、図5に示すように、70の正常サンプルの値は、どの腫瘍サンプルよりも低い値に設定されていた。特に、38検体の正規化値は同じ3.07584214、他の18検体の正規化値は3.07585718、5検体の正規化値は3.076237397であった。図に示すように、693の腫瘍サンプルの大部分はより大きな値を示した。したがって、この属だけを使った機械学習モデルは非常に高い精度を持つことになる。これは、生のリードカウントがすべてゼロであったにもかかわらず、モデルによってMulikevirusに与えられたウェイトが非常に高いことを説明するものである。
図5

図5 頭頸部扁平上皮がん(オレンジ)と正常(青)サンプルにおけるMulikevirusリードの正規化カウントの分布。生の値はすべてゼロであった。
情報のない生データで高精度な分類を再現すると、正規化プロセスの欠陥が明らかになる
Hepandensovirus(ヘパンデンソウイルス)のような個々の属が誤って腫瘍型特異的な値でタグ付けされたことを考慮し、このタグ付けが、より多くの腫瘍型と分類群の選択において、機械学習分類法の性能にどのような影響を与えるかを調べたいと考えた。この疑問を調査するため、Pooreらの研究で提供されたKraken分類の生データから、完全に空の微生物サンプル行列(すべてゼロ)を抽出した。空の行列を得るために、50未満のサンプルに存在する属のみを保持するようにデータをフィルタリングし、次にどの属についてもゼロ以外の値を持つサンプルを削除した。この結果、16,567のサンプルと170の属を含む行列が生成され、すべての値がゼロであった。このようなデータを用いて機械学習による分類を行うことはできない。なぜなら、行列のすべてのエントリーが同一だからである。
次に、空の行列の各セルに、Voom-SNM正規化データから対応する値を入力した。この実験では、"MSD "データセットのVoom-SNMデータを使用しました。このデータセットには、最初の空の行列の170分類群のうち66分類群のみが含まれていました。次に、原発性腫瘍サンプル(N = 12,803)だけを残すようにフィルタリングを行い、各がん種を他のすべてのがん種から識別する分類器の構築を試みた。
次に、Pooreら(4)によって提供されたオリジナルのコードを適用して、1つの腫瘍タイプを他のすべての腫瘍タイプから分類し、この12,803×66の行列を用いて32のすべてのがんタイプの分類器を作成した。これらの分類器の精度を図6に示す。ほぼすべてのモデルが、感度中央値0.94、特異度中央値0.9、陰性的中率中央値1.0など、非常に高い精度を得た。胃腺がん(PPV=0.65)、卵巣漿液性嚢胞腺がん(PPV=0.91)、多形性膠芽腫(PPV=0.92)など、いくつかのモデルでは高い陽性適中率(PPV)も得られた。これらのモデルとPooreらで報告されたモデルの性能を比較すると、感度特異度曲線下面積で測定した場合、32モデル中14モデルの精度が同等または向上していた。
図6

図6 正規化前に分類されたリードがゼロであったサンプルと属の選択から得られた、1対全腫瘍分類モデルの精度。各行は、表中の1つのがん種と他のすべてのがん種を区別する分類器の精度を示す。AUC: 感度特異性曲線下面積の最大測定値。PPV: 陽性予測値。NPV:陰性的中率。
したがって、これらの再作成されたモデルにおけるシグナルはすべて人工的なものであり、純粋にVoom-SNM正規化プロセスから生じたものであるに違いない。
Voom-SNM正規化は、少なくともPooreらによって採用された方法では、正規化されたデータに腫瘍のタイプに関する事前情報を不注意に付加したと結論づけられる。Pooreらが正規化コードを適用する際にどこで間違ったのか正確にはわからないが、元のリードカウントデータと正規化された結果のデータがあるので、この変換がここで述べるような人工的なシグナルを作り出したことがわかる。
この結果は、微生物シグネチャーに基づいて腫瘍の種類を区別できるという主張に疑問を投げかけるだけでなく、腫瘍と正常組織を区別する機械学習モデルや、血液検体で検出された微生物リードに基づくモデルにも懸念を抱かせる。
他の複数の研究も同じ欠陥データに依存している
Pooreらによる研究が発表されて以来、十数件の研究がPooreらのデータをダウンロードして使用し、がんマイクロバイオームとのさらなる関連を発見している。これらには以下の研究が含まれる。
Hermidaら(19)は、PooreらのVoom-SNM正規化データを用いて、複数のがん種のがん予後予測モデルを構築し、これを基礎として機械学習モデルを作成し、異なるがん種の全生存期間と無増悪生存期間を予測した。上に示したように、Voom-SNMデータには欠陥があり、元のリードカウントがすべてゼロであっても、各癌種に特徴的なシグネチャーが導入された。したがって、このデータに基づく分類法は有効とは言えない。
Paridaらによる2023年の研究(20)では、Pooreらからダウンロードした生のデータマトリックスに基づいて、アジア人、黒人、白人女性の乳房腫瘍にそれぞれ異なる微生物群集を発見したと報告している。この研究で重要であると強調された分類群の多くは極限環境生物(例えばHalonatronumやSalinarchaeum)であり、ヒトのサンプルに存在する可能性は低い。
Maoら(21)は、PooreらのVoom-SNM正規化マイクロバイオームデータを用いて、94属の存在量から乳がんの生存予測モデルを作成した。この研究では、15種類の微生物シグネチャーで全生存期間と無増悪生存期間を予測できると主張しているが、このモデルにはヒトに存在することが知られていない属も含まれている。例えば、深海の熱水噴出孔に生息する極限好気性古細菌であるMethanothermus属がある。この属がヒトの乳がんに存在する可能性は極めて低く、実際、我々の再解析でもこの属からのリードは見つからなかった。
Luoら(22)、Zhuら(23)、Chenら(24)、Chenら(25)、Limら(26)、Benthamら(27)、Kimら(28)、Xuら(29)、Liら(30)など、他の複数の研究もPooreらのVoom-SNMdataを利用して、腫瘍マイクロバイオームの様々な側面とがんとの潜在的関連性を探っている。しかしながら、Voom-SNMデータには前述のような欠陥や不正確さがあるため、これらの研究結果を解釈する際には注意が必要である。
考察
微生物種と33の異なるがん種との間に強い関連があるという当初の知見は、ヒトのがんおよびそれに一致する正常組織から採取されたDNAおよびRNA配列決定サンプルの大規模なコレクションに基づくものであり、そのサンプルは高度な機械学習法によって処理され、腫瘍の種類を区別し、腫瘍と正常組織とを区別できる高精度の分類子が作成された(4)。これらの分類法の多くは、ヒトに存在することが知られていない細菌やウイルスの属を用いていたため、その妥当性に疑問が生じた(31)。しかし、この観察だけでは致命的な欠陥とは言えなかった。しかし、この観察がきっかけとなり、我々は機械学習モデルをより詳細に調査することになった。なぜ、ヒト以外の極限環境微生物のような生物が分類における重要な特徴として現れたのかを明らかにするためである。
すべての生データと変換データを再分析し、1,200以上の腫瘍サンプルと正常サンプルからオリジナルのリードをダウンロードして再分析した結果、2つの大きな誤りがあることが判明した。第一に、生のリードカウントは、ほぼすべての細菌種について、しばしば1,000倍以上の大幅な過大評価となっていた。このような過大評価の原因として考えられるのは、メタゲノミクスデータベースに、ヒトの配列が混入していることが知られているドラフトゲノムが何千も含まれていたことである。その結果、上記で示したように、何百万ものヒトのリードが誤って細菌や古細菌の属に割り当てられてしまった。第二に、生のリード数を正規化した値に変換する過程で、多くの属に特定のがん種に特有の値が誤って付与された。この情報漏えいは、教師あり正規化の際に発生した可能性がある。これらの値が機械学習分類器に与えられたとき、アルゴリズムはこれらの人工タグを発見し、高精度の分類器を構築した。このエラーは、ヒトの全サンプルにおいてリードカウントがゼロかゼロに近い腫瘍の種類と多くの属に関与しているようである。
これら2つのエラーのどちらかがあれば、Pooreらの研究および同じデータに依拠した他の研究の結論を無効にするのに十分である。生のリードカウントの元のデータマトリックスには、何百万という不正確な値が含まれており、正規化されたデータは、癌のタイプに特徴的な正規化値でタグ付けすることによって、このエラーをさらに悪化させた。再解析後の我々の結論は、この研究で報告された微生物とがん種とのほぼ完全な関連は、簡単に言えば虚構であるということである。
材料と方法
米国国立がん研究所(gdc.cancer.gov)のゲノムデータコモンズ(Genome Data Commons)から、TCGAプロジェクトから膀胱がん、頭頸部がん、乳がんの3種類のがんの生リードをダウンロードした。これらは、Poore et al.の15種類のがんの中から、がんと正常組織の両方のサンプルが得られたものを無作為に選んだ。TCGA-BLCAでは、277のWGSサンプルと406のRNA-seqサンプルを含む683サンプルからリードデータをダウンロードした(表1)。我々は、129の原発性腫瘍サンプルと27の固形組織正常サンプルを含むWGSサンプルに焦点を当てて再解析を行った。すべてのリードは、TCGAプロジェクトにより、bwaを用いてGRCh38またはGRCh37/hg19のいずれかに事前にアライメントされていた(14)。マッピングされていないリードをすべて抽出し、Bowtie2 (16)を用いてCHM13ヒトゲノムに対して再アラインメントを行い、ヒトの追加リードを除去し、さらに下流の解析用に新しいファイルを作成した。なお、サンプルs2707の詳細解析では、Pooreらの研究と同様に、hg19にアライメントした後のマッピングされていないリードを使用した。
TCGA-HNSCについては、固形組織正常サンプル24件、血液由来正常サンプル140件、原発腫瘍サンプル170件を含む334件のWGSサンプルから生リードをダウンロードした。BLCAと同様に、WGSサンプルに絞って解析を行った。TCGA-BRCAについては、TCGAで利用可能な238のWGSサンプルすべてからマッピングされていないリードをダウンロードし(表2)、これには114の原発性腫瘍、106の血液由来正常検体、16の固形組織正常検体、および2つの転移検体が含まれていた。HNSCとBRCAの両方について、BLCAサンプルと同じ2パスフィルタリングを実行し、すべてのマッピングされていないリードをCHM13に対して再アラインメントした。ここで用いたWGSサンプルのBLCA、HNSC、BRCAサンプルの平均リード長は、それぞれ67、83、98 bpであった。
BLCA、HNSC、BRCAデータの全サンプルについて、これらの2パスフィルターされたファイルを用いて、RefSeqのバクテリアとウイルスの全完全ゲノムから構築された、46,711のバクテリアゲノム(5,981種)、13,011のウイルスゲノム(9,905種)、604の古細菌ゲノム(295種)を含むカスタマイズされたデータベースに対してKrakenUniq(13)を実行した。また、EuPathDB (32)の246の真核生物病原体のコレクション、NCBI (https://www.ncbi.nlm.nih.gov/tools/vecscreen/univec/)の標準実験用ベクターのUniVecセット、GRCh38ヒトゲノムも含まれている。この384 GBのKrakenUniqデータベースは、https://benlangmead.github.io/aws-indexes/k2 からダウンロードできる。このデータベース内のすべての種、属、NCBIアクセッション番号のリストを含むファイルは、データファイル1~3として入手可能である。この研究のすべての補足ファイルおよび表は、https://github.com/yge15/Cancer_Microbiome_Reanalyzed。
表S8からS10には、BLCA、HNSC、BRCAデータの再解析で見つかった、すべての非ゼロ細菌、古細菌、ウイルスの属レベルでのリードカウントが含まれており、表2に要約されている。これらの数はPoore et al.で報告された数よりはるかに少ないが、それでも偽陽性を含んでいる可能性が高く、各属からの実際のリード数の上限とみなすべきであることに注意されたい。表S11に、Pooreらの研究で作成された機械学習分類法によって同定された上位25属を示す(http://cancermicrobiome.ucsd.edu/CancerMicrobiome_DataBrowser からダウンロード)。これらのデータセットには、APCRとMSDのデータセットのすべての分類子が含まれ(各データセットについて別々の分類子が作成された)、これらのデータセットについて、1つのがん種と他のすべてのがん種の分類、および腫瘍と正常組織の区別に使用された上位の属が表に含まれている。
謝辞
S.L.S.、Y.G.、J.L.、D.P.、およびM.P.は、R01 HG006677およびR35-GM130151の助成金による米国NIHからの支援に謝意を表する。A.G.、C.S.C.、D.S.B.は、Prostate Cancer UK(MA-ETNA19-003)、Big C Cancer Charity(ref 16-09R)、The Bob Champion Cancer Trust、Cancer Research UKの支援を受けた。
A.G.、Y.G.、J.L.、D.P.、A.X.、S.L.S.がデータを解析した。A.G.は、空のデータマトリックスで分類子を作成する再現研究を行った。D.P.はTCGAから生データをダウンロードし、再アラインメントを行った。Y.G.およびJ.L.は、がんの生データについてメタゲノム解析を行った。S.L.S.は研究全体の構想を練り、最初の原稿を執筆した。A.G.は、情報のないデータの解析に関するセクションを構想・執筆し、図6を作成するための実験を行った。D.S.B.、C.S.C.、M.P.、S.L.S.は本研究の構想と設計に関与した。A.G.、S.L.S.、C.S.C.、D.S.B.、Y.G.、M.P.は原稿の編集と修正を行い、重要な知的内容について批評した。
C.S.C.、D.S.B.、A.G.は、前立腺がんにおけるバイオマーカー細菌の属の応用に関するイースト・アングリア大学/UEA Enterprises Limitedからの特許出願(英国特許出願第2200682.9号)の共同発明者である。他のすべての著者は、競合がないことを宣言している。
補足資料
データファイル S1 - mbio.01607-23-s0001.txt
本研究で使用したKrakenデータベースの全菌種。
ダウンロード
419.31 KB
データファイル S2 - mbio.01607-23-s0002.txt
本研究で使用したKrakenデータベースの全属。
ダウンロード
41.93 KB
補足表および図 - mbio.01607-23-s0003.docx
表S1~S7、図S1、S2、表S8~S10のキャプション、データファイルS1、S2の凡例。
ダウンロード
99.17 KB
表S8 - mbio.01607-23-s0004.xlsx
膀胱がん156検体のリードカウント。
ダウンロード
484.00 KB
表S9 - mbio.01607-23-s0005.xlsx
頭頸部がん334検体についてのリードカウント。
ダウンロード
1.65 MB
表S10 - mbio.01607-23-s0006.xlsx
乳がん238検体についてのリードカウント。
ダウンロード
892.59 KB
表S11 - mbio.01607-23-s0007.xlsx
がん分類のための機械学習モデルで上位にランクされた特徴量。
ダウンロード
101.50 KB
ASMは、論文にリンクされている、または論文を通じてアクセスできる補足資料の著作権を所有しません。著者はASMに対し、補足資料ファイルを公開するための非独占的かつ世界的なライセンスを付与しています。再利用を希望される場合は、対応する著者に直接ご連絡ください。
参考文献
1.
Bosch FX, Lorincz A, Muñoz N, Meijer C, Shah KV. 2002. ヒトパピローマウイルスと子宮頸癌の因果関係。J Clin Pathol 55:244-265.
引用文献へ
相互参照
パブコメ
国際放射線学会
Google Scholar
2.
Warren JR, Marshall B. 1983年。活動性慢性胃炎における胃上皮上の正体不明の曲がった桿菌。Lancet 1:1273-1275.
引用文献へ
相互参照
PubMed
グーグル
3.
Castellarin M, Warren RL, Freeman JD, Dreolini L, Krzywinski M, Strauss J, Barnes R, Watson P, Allen-Vercoe E, Moore RA, Holt RA. 2012. Fusobacterium nucleatum感染はヒト大腸癌に多い。Genome Res 22:299-306.
引用文献へ
引用文献
パブコメ
ISI研究所
グーグル
4.
Poore GD, Kopylova E, Zhu Q, Carpenter C, Fraraccio S, Wandro S, Kosciolek T, Janssen S, Metcalf J, Song SJ, Kanbar J, Miller-Montgomery S, Heaton R, Mckay R, Patel SP, Swafford AD, Knight R. 2020年。血液と組織のマイクロバイオーム解析は、がん診断のアプローチを示唆している。Nat 579:567-574.

クロスリファレンス
Google Scholar
5.
Breitwieser FP, Pertea M, Zimin AV, Salzberg SL. 2019. 細菌ゲノムにおけるヒトの汚染が、何千もの偽タンパク質を生み出した。Genome Res 29:954-960.

クロスレフ
PubMed
国際標準化機構
Google Scholar
6.
Steinegger M, Salzberg SL. 2020. コンタミネーションの終結:大規模検索により、genbankで2,000,000件を超えるコンタミネーションエントリーが特定された。Genome Biol 21:115.
引用文献へ
クロスレフ
パブコメ
国際標準化機構
Google Scholar
7.
Wilson MR, Naccache SN, Samayoa E, Biagtan M, Bashir H, Yu G, Salamat SM, Somasekar S, Federman S, Miller S, Sokolic R, Garabedian E, Candotti F, Buckley RH, Reed KD, Meyer TL, Seroogy CM, Galloway R, Henderson SL, Gern JE, DeRisi JL, Chiu CY. 2014. 次世代シーケンサーによる神経レプトスピラ症の実用的診断。N Engl J Med 370:2408-2417.
引用文献へ
引用文献
パブコメ
ISI研究所
グーグル
8.
Salzberg SL, Breitwieser FP, Kumar A, Hao H, Burger P, Rodriguez FJ, Lim M, Quiñones-Hinojosa A, Gallia GL, Tornheim JA, Melia MT, Sears CL, Pardo CA. 2016. 神経系の感染症の神経病理学的診断における次世代シーケンサー。Neurol Neuroimmunol Neuroinflamm 3:e251.
引用文献へ
Crossref
PubMed
グーグル奨学生
9.
Li Z, Breitwieser FP, Lu J, Jun AS, Asnaghi L, Salzberg SL, Eberhart CG. 2018. 次世代シーケンサーを用いたホルマリン固定標本における角膜感染症の同定。Invest Ophthalmol Vis Sci 59:280-288.
引用文献へ
相互参照
パブコメ
国際医療福祉大学
Google Scholar
10.
Kennedy KM, de Goffau MC, Perez-Muñoz ME, Arrieta M-C, Bäckhed F, Bork P, Braun T, Bushman FD, Dore J, de Vos WM, Earl AM, Eisen JA, Elovitz MA, Ganal-Vonarburg SC, Gänzle MG, Garrett WS, Hall LJ, Hornef MW, Huttenhower C, Konnikova L, Lebeer S, Macpherson AJ、 Massey RC, McHardy AC, Koren O, Lawley TD, Ley RE, O'Mahony L, O'Toole PW, Pamer EG, Parkhill J, Raes J, Rattei T, Salonen A, Segal E, Segata N, Shanahan F, Sloboda DM, Smith GCS, Sokol H, Spector TD, Surette MG, Tannock GW, Walker AW, Yassour M, Walter J. 2023. 胎児マイクロバイオームへの疑問は、低バイオマス微生物研究の落とし穴を示す。Nat 613:639-649.
引用文献へ
クロスリファレンス
Google Scholar
11.
Tan CCS, Ko KKK, Chen H, Liu J, Loh M, Consortium SGKH, Chia M, Nagarajan N. 2023. 健康なヒト9,770人を対象とした集団研究に基づく共通の血液マイクロバイオームの証拠はない。Nat Microbiol 8:973-985.
引用文献へ
相互参照
パブコメ
Google Scholar
12.
ウッドDE、サルツバーグSL。2014. Kraken: 正確なアラインメントを用いた超高速メタゲノム配列分類。Genome Biol 15:R46.
引用文献へ
論文
パブコメ
筑波大学
Google Scholar
13.
Breitwieser FP, Baker DN, Salzberg SL. 2018. KrakenUniq: 固有のk-merカウントを用いた確信の持てる高速メタゲノム分類。Genome Biol 19:198.

Crossref
PubMed
ISI社
Google Scholar
14.
Li H, Durbin R. 2009. Burrows-Wheeler変換による高速で正確なショートリードのアライメント。Bioinf 25:1754-1760.

Crossref
PubMed
ISIについて
Google Scholar
15.
Langmead B, Trapnell C, Pop M, Salzberg SL. 2009. ヒトゲノムに対する短いDNA配列の超高速かつ記憶効率の良いアラインメント。Genome Biol 10:R25.
引用文献へ
クロスリファレンス
パブコメ
ISI研究所
Google Scholar
16.
Langmead B, Salzberg SL. 2012. Bowtie 2による高速ギャップドリードアライメント。Nat Methods 9:357-359.

Crossref
パブコメ
ISIについて
Google Scholar
17.
Nurk S, Koren S, Rhie A, Rautiainen M, Bzikadze AV, Mikheenko A, Vollger MR, Altemose N, Uralsky L, Gershman A, Aganezov S, Hoyt SJ, Diekhans M, Logsdon GA, Alonge M, Antonarakis SE, Borchers M, Bouffard GG, Brooks SY, Caldas GV, Chen N-C, Cheng H, Chin C-S, Chow W, de Lima LG、 Dishuck PC, Durbin R, Dvorkina T, Fiddes IT, Formenti G, Fulton RS, Fungtammasan A, Garrison E, Grady PGS, Graves-Lindsay TA, Hall IM, Hansen NF, Hartley GA, Haukness M, Howe K, Hunkapiller MW, Jain C, Jain M, Jarvis ED, Kerpedjiev P, Kirsche M, Kolmogorov M, Korlach J, Kremitzki M, Li H. 2022. ヒトゲノムの全塩基配列。Sci 376:44-53.
引用文献へ
相互参照
パブコメ
国際標準化機構
グーグル
18.
Lu J, Salzberg SL. 2018. ドラフトゲノムのデータベースから汚染物質を除去する。PLoS Comput Biol 14:e1006277.
引用文献へ
引用文献
パブコメ
ISI(国際標準化機構
Google Scholar
19.
Hermida LC, Gertz EM, Ruppin E. 2022年。腫瘍マイクロバイオームから癌の予後と薬剤反応を予測する。Nat Commun 13:2896.
引用文献へ
相互参照
PubMed
グーグル奨学生
20.
Parida S, Siddharth S, Xia Y, Sharma D. 2023. 腫瘍内細菌叢とゲノムの特徴の同時解析により、乳癌における明確な人種差が明らかになった。NPJ Breast Cancer 9:4.
引用文献へ
相互参照
PubMed
Google Scholar
21.
Mao AW, Barck H, Young J, Paley A, Mao JH, Chang H. 2022. ヒト乳がん患者の予後を予測するための新規がんマイクロバイオームシグネチャーの同定。Clin Transl Oncol 24:597-604.
引用文献へ
相互参照
パブコメ
ISI社
Google Scholar
22.
Luo M, Liu Y, Hermida LC, Gertz EM, Zhang Z, Li Q, Diao L, Ruppin E, Han L. 2022. 人種はヒト腫瘍内マイクロバイオームの重要な決定因子である。Cancer Cell 40:901-902.
引用文献へ
相互参照
パブコメ
ISI研究所
Google Scholar
23.
Zhu G, Su H, Johnson CH, Khan SA, Kluger H, Lu L. 2021年。皮膚黒色腫における細胞傷害性CD8+T細胞の浸潤と患者生存に関連する腫瘍内マイクロバイオーム。Eur J Cancer 151:25-34.
引用文献へ
相互参照
パブコメ
ISI社
Google Scholar
24.
Chen F, Yang J, Guo Y, Su D, Sheng Y, Wu Y. 2023. 乳がんにおける腫瘍内マイクロバイオームシグネチャーと宿主代謝異質性の関係を、バルクおよびシングルセルのRNAシーケンスデータを統合して明らかにした。Front Immunol 14:1140995.
引用文献へ
引用文献
パブコメ
ISI社
グーグル
25.
蔡C, 蔡Y, 劉Y, 陳S, 李Y, 張F, 張M, 陸Z, 英P, 黄J, 范L, 蔡X, 寧C, 王W, 江Y, 張H, 楊S, 王Z, 王X, 張S, 黄C, 徐B, 傅Z, 宋Q, 金M, 陳K, 陳H, 戴M, 苗X, 楊X, 朱Y, 田J. 2022. マイクロバイオーム量的形質遺伝子座の汎がん解析。Cancer Res 82:3449-3456.
引用文献へ
引用文献
PubMed
グーグル奨学生
26.
Lim DM, Lee H, Eom K, Kim YH, Kim S. 2023年。TCGAコホートを用いた大腸癌における肥満パラドックスと関連因子の可能性に関するバイオインフォマティクス解析。J Cancer 14:322-335.
引用文献へ
相互参照
PubMed
Google Scholar
27.
Bentham R, Litchfield K, Watkins TBK, Lim EL, Rosenthal R, Martínez-Ruiz C, Hiley CT, Bakir MA, Salgado R, Moore DA, Jamal-Hanjani M, Consortium TR, Swanton C, McGranahan N. 2021年。DNAシーケンスデータを用いてT細胞分画と治療反応を定量化する。Nat 597:555-560.
引用文献へ
クロスリファレンス
Google Scholar
28.
Kim YK, Kwon EJ, Yu Y, Kim J, Woo S-Y, Choi H-S, Kwon M, Jung K, Kim H-S, Park HR, Lee D, Kim YH. 2022. 頭頸部癌の部位による微生物および分子の違い。Cancer Cell Int 22:135.
引用文献へ
相互参照
パブコメ
ISI研究所
Google Scholar
29.
Xu Y, Zhao J, Ma Y, Liu J, Cui Y, Yuan Y, Xiang C, Ma D, Liu H. 2023. 大腸組織のマイクロバイオームタイプは、大腸がん患者の予後と関連する可能性がある。Front Microbiol 14:1100873.
引用文献へ
クロスレフ
パブコメ
ISI社
Google Scholar
30.
Li Y, Zhang D, Wang M, Jiang H, Feng C, Li Y-X. 2023. 副腎皮質がん患者における腫瘍内細菌叢は予後と関連する。
引用文献へ
Crossref
Google Scholar
31.
Gihawi A, Cooper CS, Brewer DS. 2023. 汎癌微生物構造の特異性に関する注意。Microb Genom 9.
引用文献へ
相互参照
パブコメ
Google Scholar
32.
Warrenfeltz S, Basenko EY, Crouch K, Harb OS, Kissinger JC, Roos DS, Shanmugasundram A, Silva-Franco F. 2018. EuPathDB:真核病原体ゲノムデータベースリソース。Methods Mol Biol 1757:69-113.
引用文献へ
Crossref
PubMed
Google Scholar
全文を見る|PDFをダウンロード
推奨
HPV Induced Cancer Resource (THInCR):HPV依存性ヒト発がん研究のためのツール群
mSphere, 2022
癌ゲノムアトラスにおけるHeLa核酸汚染はヒトパピローマウイルス18の誤同定につながる
J Virol, 2015
ヒトパピローマウイルス関連癌の予後遺伝子シグネチャーの同定と完全な検証: 異なる解剖学的部位をカバーする統合的アプローチ
J Virol, 2020
汎癌におけるPD-L1遺伝子の予後価値と免疫学的役割
Yongfeng Wangら、BMC Cancer、2024年
SNX29の予後と免疫学的役割に関する汎癌解析:生存と免疫療法の潜在的標的
Chengfei Xuら、BMC Medical Genomics誌、2023年
CCNE1はUCECを含む様々な癌における予後予測および免疫療法の指標である:汎癌解析
Xingyu Zhengら, Hereditas, 2023
提供
米国微生物学会ロゴ
ASMジャーナルロゴ
ジャーナル
抗菌薬と化学療法
応用・環境微生物学
臨床およびワクチン免疫学
臨床微生物学レビュー
エコサル・プラス
真核細胞
感染と免疫
細菌学ジャーナル
臨床微生物学ジャーナル
微生物学・生物学教育ジャーナル
ウイルス学ジャーナル
mバイオ
微生物学・分子生物学レビュー
微生物学リソース
微生物学スペクトラム
mSphere
mシステム
リソース
微生物学について
編集委員会
著者センター
アクセス許可
ASMジャーナルコレクション
出版倫理
移行情報
広告
ASMメンバーシップ
プライバシーポリシー
会員規約
所有権に関する通知
非商用TDMライセンス
いつでもつながる
アラート
RSSフィード
お問い合わせ
ASMコミュニティ
ニュース
プレスリリース
ポリシーステートメント
著作権 © 2024 米国微生物学会
PDF
ヘルプ

この記事が気に入ったらサポートをしてみませんか?