Swarm learningが切り開くヒト免疫学研究

2022年9月16日 17:54

何十年もの間、免疫学研究は主に動物モデルを使って行われてきた。しかしながら動物の免疫学での知見が人の免疫学に当てはまるとは限らない (Science 2020)。近年の1細胞レベルでのゲノミクス解析技術の進歩、バイオメディカル領域への人工知能（AI）の導入、オルガノイドやlab-on-chipといったヒト疾患モデルへの新しいアプローチは、ヒト免疫学を含む医学に革命をもたらそうとしている (Nature 2020)。シングルセルRNA配列解析（scRNA-seq）やマスサイトメトリーなどの手法は重要な新しい知見を提供してくれるが、特に大規模・多施設臨床研究を行う場合にはこれまでなかった新しい分析アプローチが必要となる。機械学習はその手助けをしてくれる可能性を秘めているが、その可能性を最大限に活用するためには、地域の年齢・性別・遺伝的背景・民族性などの要因による潜在的な偏りを考慮し、何百人もの患者さんを集める必要があるという欠点がある (PNAS 2020)。データの収集はそれ自体手間のかかる作業であり、この種の研究を自前で実施できる施設は多くない。また、毎年多数の患者さんの血液や生体組織のサンプルが採取されているが、これらのサンプルのデータを他施設に共有することは個人情報保護法のために非常に制限されている。

このような限界を克服するために、データプライバシー規制を十分に考慮した上で、複数施設のデータの統合を容易にする完全分散型機械学習原理として、Swarm Learning（SL）が開発された (Nature 2021)。SLは、患者さんの個人情報を各施設が保護しながら、他施設とは (データを共有するのではなく) 機械学習モデルのパラメータ-を共有することで共同で機械学習モデルを訓練する分散型アプローチである。

参加施設はすべてSwarmネットワークのノードとなり、ローカルデータを用いてモデルの学習に参加する。データの安全性、機密性は、ブロックチェーン技術によって確保される。新しいノード (参加施設) は、ブロックチェーンのスマートコントラクトを介してSwarmネットワークに入ることができ、共同研究の条件に同意したあと、モデルを入手し研究に加わるというわけだ。このアプローチは、複数の研究拠点が簡単に力を合わせて同じ研究課題に取り組むことができ、しかも拠点間で一次データ (患者データ) を共有することなく、はるかに大きな数のデータを解析に利用できるため、臨床研究に潜む限界を克服しうるものとなる。

もちろん、多施設でこのように共同でプロジェクトを遂行するためには、データセット (検体サンプルの取り扱いなども含む) とその前処理から始まって種々の点について合意する必要がある。ゲノミクス研究においては正確な遺伝子アノテーションが施されたヒトリファレンスゲノムがあり、例えばRNA-seqデータをアラインメントする方法の差異はあるにせよ比較的小さい。しかし例えばフローサイトメトリーやマスサイトメトリー、CITE-seqといった抗体ベースの測定が必要なのであれば、どのようなマーカーをどの会社のどの抗体を使って検出するのかを注意深くディスカッションし施設間で合意をとっておくことが求められる。異なる医療施設から提供されたデータが、同じ疾患の患者でも大きくことなる測定法だった場合にはこれらの統合は極めて難しい。SLをより広く応用するための鍵となるのは、パネルと抗体濃度の標準化であろう。例えば白血病の臨床診断薬は、EuroFlowコンソーシアム(Leukemia 2012) によって標準化に成功し、その後製品化された経緯がある。このように、より高度な標準化ができればより優れた最適化も可能だろう。また、フローサイトメトリーに機械学習を適用する場合、データの前処理を標準化することも必要である。例えば、フローサイトメトリーのデータ前処理では、蛍光スペクトルの漏れ込みを防ぐ微調整 (compensationと呼ばれる) をほとんど研究者の手作業によって行われているが、ここも統一させておく必要がある。

scRNA-seqは一度に1万近い遺伝子数を調べられるが、同時に調べられる細胞数は1万程度である。一方でフローサイトメトリーは100万もの細胞を調べることができるが、同時に見ることができるのはせいぜい10色 (=10マーカー) 程度にとどまる。それぞれ得意不得意がある。

SLは様々な種類のモデルや幅広いアプリケーションをサポートしている。SLがサポートする例えば深層学習モデル、特に変分オートエンコーダー (VAE) は、ハイスループットで高次元の単一細胞データを扱う際の例えばデータ統合タスクにおいて優れた性能を発揮することが知られている (Nat. Methods 2022)。また、深層学習を使えばある医療機関でレファレンスアトラスを構築し、それを共有して別の医療機関で新しいデータの統合をすることもできる (Nat. Biotechnol. 2022)。

これまで見たように、SLは臨床研究に新たな展開をもたらす可能性を秘めている。十分に大規模なSwarmネットワークでは、ワクチン接種や感染症に対する反応など、ヒトで観察されたあらゆる種類の摂動、膨大なデータからヒトの免疫システムの因果関係を推測することができるだろう。医療機関の協調的なシステム免疫学の取り組みにより、世界的な規模でヒトのサンプルを容易に収集し、ヒト疾患の分子メカニズムを研究するのに十分な大規模コホートにつながるのも夢ではない。このような大規模コホートは、機械学習を用いた疾病分類からバイアスのないバイオマーカー探索まで、臨床応用を成功させるための鍵となる。例えば、ドイツでは多くの医療機関が共同でGerman COVID-19 Omics Initiative (DeCOI) を構築しそこで見られた報告をトップジャーナルに報告している (Cell 2020) が、このようなことをSLによって可能になる可能性があるということである。

SL にアクセスできるようなプラットフォームが開発されれば、アプローチはさらに容易になる。ヒト免疫学研究の真の統合的な時代の幕開けは、今や目の前だろう。

この記事が気に入ったらサポートをしてみませんか？