A mini-review on perturbation modelling across single-cell omic modalities

2024年5月2日 09:01

https://www.sciencedirect.com/science/article/pii/S2001037024001417

S2001037024001417.txt
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

Q1 何に関する論文か、詳しく説明してください。

これらの論文は、シングルセルデータ解析、特に遺伝子摂動の影響を予測する方法に関するものです。

まず、Liuらによる論文（[70]）は、「scELMo: Embeddings from Language Models Are Good Learners for Single-Cell Data Analysis」と題されており、自然言語処理で用いられる言語モデル（ELMo）を応用して、シングルセルRNAシークエンスデータから有用な表現（embedding）を学習し、それを用いて細胞の状態や遺伝子発現パターンを解析する新しい手法を提案しています。

次に、YuとWelchによる論文（[64]）は、「PerturbNet Predicts Single-Cell Responses to Unseen Chemical and Genetic Perturbations」というタイトルで、化学的または遺伝的摂動に対するシングルセルの反応を予測するためのネットワークモデル「PerturbNet」を紹介しています。このモデルは未知の摂動に対する細胞の応答を予測する能力を持っているとされています。

最後に、C. Bravo González-Blasらによる論文（[49]）は、「SCENIC+: single-cell multiomic inference of enhancers and gene regulatory networks」と題され、シングルセルのマルチオミクスデータからエンハンサーや遺伝子調節ネットワークを推測する改良された手法「SCENIC+」を提案しています。この手法は、細胞ごとの遺伝子発現の多様性を理解し、個々の細胞の遺伝子調節メカニズムを解明するために役立ちます。

これらの論文はいずれも、シングルセルデータから複雑な生物学的情報を抽出し、遺伝子発現の調節メカニズムを理解し、特定の摂動に対する細胞の反応を予測するための新しいコンピュータベースのアプローチに焦点を当てています。これらの研究は、個々の細胞の挙動を解析し、新しい治療薬の開発や疾患理解の進展に貢献する可能性があります。

Q2 研究目的とその背景について、詳しく説明してください。

A. Subramanianらによる論文「A next generation connectivity map: L1000 platform and the first 1,000,000 profiles」は、L1000プラットフォームを使用して、100万個の遺伝子発現プロファイルを作成し、これらを解析するための新しいコネクティビティマップ（CMap）を構築することを目的としています。この研究は、薬剤や遺伝子摂動が細胞の遺伝子発現にどのように影響を与えるかを理解することを目指しており、新しい治療薬の発見や疾患のメカニズムの解明に貢献することが期待されます。科学的および技術的背景としては、高スループットな遺伝子発現プロファイリング技術の進歩が挙げられます。この技術の発展により、大規模なデータセットを生成し、それらを解析することが可能になりました。この研究は重要であり、膨大な量の遺伝子発現データを活用して、薬剤の作用機序や疾患の生物学的基盤を解明するための基礎を築くことができるからです。

Consens, M.E.らによるプレプリント「To Transformers and Beyond: Large Language Models for the Genome」では、大規模な言語モデル、特にトランスフォーマーを遺伝子配列解析に応用することを探求しています。この研究は、自然言語処理（NLP）で成功を収めたトランスフォーマーというアーキテクチャを、遺伝子配列のパターン認識に適用することを目的としています。科学的および技術的背景には、NLP分野での大規模な言語モデルの成功と、これらのモデルが非常に複雑なデータパターンを捉える能力があります。この研究の重要性は、遺伝子配列の理解を深め、遺伝子の機能予測や変異の影響の解析、さらには個別化医療への応用につながる可能性があることにあります。

Ghandeharioun, A.らによるプレプリント「Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models」では、言語モデルの隠れた表現を検査するための統一的なフレームワークであるPatchscopesを提案しています。この研究は、言語モデルがどのように情報をエンコードし、処理するかを理解することを目的としており、モデルの透明性と解釈可能性の向上を目指しています。科学的および技術的背景としては、ディープラーニングにおける言語モデルの複雑さとブラックボックス性が問題となっていることがあります。この研究の重要性は、言語モデルの内部動作をよりよく理解することで、より信頼性の高い人工知能システムの開発に寄与することです。

Q3 本研究で用いた手法について、詳しく説明してください。

各研究で用いられている手法について詳しく説明します。特に、シングルセルデータの解析、細胞応答の予測、遺伝子調節ネットワークの理解に使用される技術とアプローチに焦点を当てます。

Geneformerは、約3000万のヒト単一細胞トランスクリプトームに事前学習を行い、多様な組織や細胞タイプにわたる知識を蓄積します。これにより、限られたタスク固有のデータでファインチューニングを行い、バッチ統合、細胞タイプの注釈付け、ゲノム要素の予測、コアネットワークと下流ターゲットの予測、インシリコ摂動を用いた表現型予測と疾患シフトのモデリングなど、様々なタスクを達成します。

scGPTは、1000万以上の細胞に事前学習を行ったシングルセル基盤モデルであり、遺伝子次元にわたる自己注意機構を用いて、摂動された遺伝子と他の遺伝子間の複雑な相互作用を符号化します。これにより、少数ショット学習を通じて既存の実験データ（例えば、Perturb-seqデータ）から学習し、未知の実験に対する遺伝子発現の正確な予測を行います。

scELMoは、大規模言語モデル（LLM）と専用データベース（例えば、NCBI）の利点を活用して、シングルセルデータの解析を行う基盤モデルを体系的に確立します。scELMoは、シーケンスデータ空間からLLM埋め込み空間へ各細胞の情報を移行することに基づいています。scELMoは、特定の遺伝子の除去に対応する埋め込みの変化を観察することにより、関心のある状態の潜在的な「薬剤標的」を予測することができます。

scFoundationは、19564遺伝子にわたる巨大なデータセットに事前学習し、1億パラメーターを持ち、5000万以上のscRNA-seqデータを使用しています。scFoundationは、DeepCDRやSCADモデルと組み合わせることで、IC50推定やシングルセル薬剤感受性予測におけるベースライン性能を向上させます。

CellOTは、最適輸送（OT）を用いて、細胞（遺伝子発現、細胞シグナリング）の分子プロファイルを徐々に変化させることが可能です。CellOTは、入力凸ニューラルネットワークを介して完全にパラメータ化され、高度にスケーラブルな方法で各摂動に対する最適輸送マップを生成し、制御状態と摂動状態間の全体的な輸送コストを最小限にする関数（Tk）を見つけ出します。

PRESCIENTは、拡散マップに基づく生成モデリングフレームワークであり、長期のシングルセルデータセットに適合するように設計されています。PRESCIENTは、ドリフト項（ポテンシャル関数によって導かれる）とノイズ項を組み合わせ、PCA変換された遺伝子発現データに基づいてドリフト関数をニューラルネットワークでパラメータ化します。確率的シミュレーションにより、将来の時間ステップでの集団状態を予測し、シミュレーションされたデータポイントと観測されたデータポイント間の差異を最小限にすることでモデルパラメーターを最適化します。

Q4 本研究の成果と限界について、詳しく説明してください。

この研究論文では、単一細胞オミクスデータセットの解析における様々な計算モデルの使用に関する最新の進歩が紹介されています。

まず、GenKIという手法が紹介されています。これは教師なしの変分グラフオートエンコーダー（VGAE）モデルを使用し、野生型（WT）サンプルの遺伝子の潜在表現を学習し、仮想的なノックアウト（KO）対応物を構築して類似性を識別します。GenKIはまず、PC回帰法を用いて遺伝子調節ネットワーク（GRN）モデルを作成し、潜在的に偽の転写因子（TF）-遺伝子接続を削除するために閾値技術を適用します。その後、GRNをVGAEの入力として提供します。GenKIはKO遺伝子に関連する全てのエッジをGRNモデルから計算上除去することにより、遺伝子発現を仮想的に抑制します。次に、訓練されたVGAEモデルから得られたWTと仮想KOデータの潜在パラメータを比較することにより、クルバック・ライブラー（KL）分散を用いて違いを識別します（KL分散値が高いほど、KOが特定の遺伝子に与える影響が大きいことを示します）。そして、バギングベースの方法を使用して、KOによって大きく変動する遺伝子を同定し、これらの変動遺伝子（KO応答遺伝子）の機能を分析し、影響を受ける経路や生物学的プロセスの類似性を活用してKO遺伝子の機能を予測します。

次に、単一細胞オミクスデータセットにおける膨大な細胞数（数万に及ぶことが多い）を扱うために、深層学習（DL）や関連する生成モデルが重要な役割を果たしていることが述べられています。これらのデータセットは、非線形分布モデルを実装するために使用できる大量のデータスペースを生成します。

計算手法の現在のトレンドは、古典的な統計推論や潜在空間学習を行うモデルから、浅い学習モデルや深層学習モデルを含むより複雑な手法に移行しています。これらは様々な数学定理や生物学的事前情報を用いたGRNを取り入れています。特に、数百万の単一細胞に基づいて訓練された大規模な基礎モデル、例えばLLM（Large Language Models）の出現によって形作られています。これらのモデルは、摂動モデリングにおける科学的な取り組みが大幅に増加することが予想されますが、バッチ補正や細胞タイプのクラスタリングなどの基本的な単一細胞解析タスクにおけるゼロショット学習の顕著な弱点が特定されているため、注意が必要です。また、HyenaレイヤーやDiffusionモデルなどの新しいLLMアーキテクチャ、またはマルチオミックスおよびマルチモーダルな単一細胞データセットを可能にする代替アーキテクチャの実装も期待されています。さらに、PatchscopesのようなLLMフレームワークの実装が、単一細胞の摂動モデリングにおいて期待されています。Patchscopesは、その表現の情報を人間に「翻訳」するための人間のようなテキストを生成することができ、LLMの解釈可能性における新時代の幕開けを告げています。

さらに、モデルの解釈可能性は多くの努力の焦点となっており、この論文でレビューされているVAEの様々な反復によって概説されています。この目標を達成するための一つのアプローチは、因果関係のある機械学習を拡張することです。この技術は、遺伝子を因果変数として符号化するグラフベースのモデルと、摂動を表す介入モデルから構成される因果摂動モデルを構築することを含みます。より生物学的に妥当な洞察を生物医学科学者に提供するために、最近提案されたcellSCMプロトタイプを因果動力学モデル、因果表現学習（CRL）、生物学的事前情報の統合と組み合わせることができます。

4.1節では、いくつかの古典的な統計推論モデルが最初のツール群として紹介されています。これらのモデルは頻度主義統計の原則に基づいており、ランダムサンプリングや明確に定義された確率分布などの仮定に依存しています。さらに、このグループには、複雑な計算アーキテクチャを含まない特定の浅い、解釈可能なMLツール（分類器、回帰器）も含まれています。

MUSICは単一細胞CRISPRスクリーニングデータ解析のための分析ツールです。MUSICは、離散的なクラスターの代わりにトピック確率プロファイルを割り当て、摂動の影響を定量的に評価し、摂動解析のための理想的なトピック数を自動的に選択し、サンプルの不均衡などの問題を取り扱います。MUSICでは、摂動を持つ単一細胞をドキュメントと見なし、遺伝子発現をドキュメント内の単語頻度と見なします。

VEGAは、遺伝子アノテーションデータベース（例えば、Gene Ontology、PANTHER、MolSigDB、Reactomeなど）に記録された遺伝子モジュールのメンバーシップによって導かれる生物ネットワークによってガイドされるスパース線形デコーダーを特徴とするVAEです。VEGAは細胞タイプと状態の解明を支援するとともに、分布外の予測において堅牢に機能します。後者に関しては、scGENと比較して、VEGAは潜在空間の生物学的解釈可能性と引き換えに予測性能を犠牲にしています。

scVIDRは、細胞タイプ固有の方法で（scGENとは対照的に、潜在空間で細胞タイプ固有ではない方法でベクトル算術を計算する）異なる細胞タイプに特有の遺伝子の発現差を計算し、未知の細胞タイプや薬物用量への摂動効果を外挿するために、線形および対数線形補間を適用します。デコーダーの機能を近似するために、scVIDRはリッジ回帰を使用し、VAEアーキテクチャの潜在空間に「説明可能性」のフレーバーを提供します。これにより、「遺伝子スコア」を生成し、これらのスコアは潜在空間の次元の変化がデコードされた転写応答にどの程度影響を与えるかを示します（つまり、高い遺伝子スコアを持つ遺伝子は予測される摂動介入によって大きく影響を受けます）。scVIDRはまた、「擬似用量」軌跡の概念を導入しています。同じタイプの細胞であっても、同じ摂動に対する感受性が異なるため、「擬似用量」軌跡は各単一細胞に対する摂動効果のスカラー係数を提供し、基礎となる摂動生物学のより良い表現を可能にします。

これらのモデルの限界としては、ゼロショット学習の弱点や、新しいアーキテクチャの実装がまだ初期段階にあることが挙げられます。また、解釈可能性の向上への取り組みが続けられているものの、それが完全に達成されているわけではありません。因果関係のある機械学習の展開は、より生物学的に妥当な洞察を提供する可能性がありますが、これもまだ開発の初期段階です。

Q5 本研究で何を明らかにしたか、詳しく説明してください。

この質問に対して、提供されたコンテキストだけでは、研究がどのような新しい知見や理解を提供したかについて具体的な詳細を提供することはできません。しかし、一般的な知識として、題名「Predicting transcriptional outcomes of novel multigene perturbations with GEARS」という論文が取り扱っているであろうトピックについて説明します。

GEARSは、新しい多遺伝子摂動（perturbations）が転写結果（transcriptional outcomes）にどのように影響するかを予測するツールであると推測されます。多遺伝子摂動とは、複数の遺伝子の発現が同時に変化することを指し、これにより発現プロファイルや細胞の挙動に大きな影響を与える可能性があります。

このような摂動をモデリングすることは、薬剤開発や遺伝子治療などの分野で重要です。特に、単一細胞レベルでの摂動の影響を理解することは、細胞集団内の異質性を考慮したより精密な治療戦略を開発する上での鍵となります。

GEARSを用いて、これまで見られなかった化学的または遺伝的摂動に対する単一細胞の応答を予測することができるとしたら、それは次のような新しい知見や理解を提供する可能性があります：

細胞の応答予測: 異なる遺伝子摂動が特定の細胞タイプにどのように影響するかを予測できるため、標的となる細胞集団に最適な治療法を選択する際のガイダンスを提供することができます。
薬剤開発: 新しい薬剤の候補がどのように細胞の遺伝子発現に影響を与えるかを予測し、その効果や副作用の可能性を早期に評価することができます。
遺伝子ネットワークの理解: 複数の遺伝子が相互作用している複雑なネットワークを解析し、それらがどのように協調して細胞の運命を決定するのかを理解することができます。
個別化医療: 患者特有の遺伝子プロファイルに基づいて、最も効果的な治療法を予測し、パーソナライズされた治療計画を立てることが可能になります。

これらのポイントは、一般的な知識に基づいた推測であり、実際の論文の内容とは異なる可能性があります。具体的な研究結果や新しい知見については、論文の全文を参照する必要があります。

Q6 本研究で用いたデータセットを網羅的に列挙し、名前やURLなどがあればそれらも含めて詳しく説明してください。

申し訳ありませんが、提示された文脈からは、本研究で使用された具体的なデータセットについての情報を得ることはできません。しかしながら、一般的にシングルセルRNAシークエンス（scRNA-seq）データの研究においては、以下のような情報が含まれるデータセットが利用されることが多いです。

シングルセルの遺伝子発現プロファイル
細胞の種類や状態に関するメタデータ
実験条件や扱われたサンプルに関する情報
細胞や遺伝子に関するアノテーション

これらのデータセットは、以下のような公共データベースやリポジトリから入手することができます。

Gene Expression Omnibus (GEO) - https://www.ncbi.nlm.nih.gov/geo/
GEOは、高スループット遺伝子発現データを保存し、利用可能にするデータベースです。シングルセルデータを含む多様な実験データがアクセス可能です。
ArrayExpress - https://www.ebi.ac.uk/arrayexpress/
ArrayExpressは、遺伝子発現データを含む様々なバイオインフォマティクスデータを収集、保存し、提供するデータベースです。
Single Cell Portal - https://singlecell.broadinstitute.org/single_cell
ブロード研究所が提供するこのポータルは、シングルセル研究に特化したデータベースで、様々なシングルセルデータセットにアクセスできます。
Human Cell Atlas - https://www.humancellatlas.org/
Human Cell Atlasは、人間のすべての細胞タイプの参照地図を作成するプロジェクトであり、関連するシングルセルデータも提供しています。
NCBI SRA (Sequence Read Archive) - https://www.ncbi.nlm.nih.gov/sra
SRAは、シーケンスデータを保存し、公開するデータベースで、シングルセルシーケンスデータも含まれています。

研究で使用されるデータセットの詳細については、対象となる論文やその補足資料、または関連するデータベースのアクセス情報に基づいて確認する必要があります。論文には通常、使用されたデータセットに関する情報や、それをどのように入手したかについての説明が含まれています。また、論文が参照している他の研究やメソッドに関する情報も、データセットの選択や分析に関連している可能性があります。

7 本研究を特徴づけるキーワードを日本語で提案し、ハッシュタグとして列挙してください。（５個程度）

#トランスクリプション予測 #多遺伝子摂動 #GEARS #シングルセルトランスクリプトミクス #機械学習 #因果関係モデリング #セルタイプ優先順位付け

この記事が気に入ったらサポートをしてみませんか？