ゲノムワイド関連研究 (GWAS) とネットワーク解析を組み合わせて疾患・創薬に迫る

2022年9月15日 16:02

過去数十年にわたり、ゲノムワイド関連研究（GWAS）により、ヒトの形質や疾患と関連する遺伝子変異が飛躍的に拡大した。しかし、GWASからヒト疾患の原因遺伝子やその細胞生物学を同定することは、依然として困難である。この記事では、GWASデータを解析するためのタンパク質相互作用ネットワークに基づく手法について概説する。これらの方法を使えば、GWASで見出した遺伝子座について創薬ターゲット候補をランク付けすることができる。また、発現データと組み合わせることで、疾患の原因となる組織や細胞の種類を特定することも可能である。

Chapter 1

30年以上前に行われたヒトゲノムの最初の配列決定により、ヒトの病気の遺伝的基盤の解明が期待されるようになった。この理解は治療法の開発に直接必要なものではないが、薬剤開発や患者の層別化に関連する多くの科学的進歩を支えるものである。その後の研究により、ヒト集団のどの遺伝子変異がさまざまな疾患と関係があるのかが明らかにされてきた。ゲノムワイド関連研究（genome-wide association studies, GWAS）は、そのような研究を行う代表的な手法の一つであり、SNPアレイを通じて患者と対照者の大規模コホートの遺伝的特徴を明らかにしてきた。

ヒトの疾病の遺伝的特性は、様々な形で治療に関連している。原因となる遺伝子やメカニズムを特定することで薬剤の標的を直接特定することができるし、疾患と関連する遺伝子は創薬ターゲットとして有望であることがいくつかのレトロスペクティブな研究によって示されている (Nat. Genet. 2015; Nat. Genet. 2021)。例えばクローン病の治療薬候補としてIL-23Rが考えられたのは、IL-23受容体タンパク質のミスセンス変異が同定されたためであった (Science 2006)。その結果、IL-23受容体のp40サブユニットを標的とする抗体であるウステキヌマブ (ustekinumab) の開発につながり (Gastroenterology 2008)、現在、治療薬として承認されている。最近ではGWASにRNAやタンパクレベルでの遺伝子発現量を組み合わせることも増えてきた (Nat Genet. 2020; Nat Rev Genet. 2021)。

創薬ターゲットの優先順位付けということだけではなく、ヒト疾患遺伝子を研究することで、疾患の遺伝子ベースの診断を容易にし、患者を層別化するための遺伝子マーカーを同定することにも使える。特に診断までの道のりが険しいような希少疾患において、エキソーム解析あるいは全ゲノム解析による遺伝子診断は特に注目されている (Nature 2020; N Engl J Med. 2021)。また、層別化の例としてはがんで最も成功していて、例えば各群で異なる治療をすることで有益な結果をもたらすことなどが報告されている (JAMA Oncol. 2016)。

このようにヒト疾患の遺伝的基盤の研究は大きく進展しているが、まだ多くの課題も残されている。GWASでは連鎖不平衡（LD）のために多くの変異遺伝子のうちどれが本当に原因となる遺伝子かを特定することが依然として困難である。この問題は特に全ゲノム解析のような場合にさらに深刻になり、なぜなら関連するSNPの多くがゲノムの非コード領域に存在し、ゲノムの制御への影響があまり理解されていないからである。逆にエクソームシーケンス研究の場合には、コーディングバリアントの影響を予測・研究することが困難でないことから、同定された変異の解釈は全ゲノム解析に比べて一般的に容易である。

Chapter 2

GWASの登場以来、GWASの限界を打破しようという取り組みから多くの進歩があった。これらの進歩には例えばRNA/タンパクレベルの遺伝子発現を使ってSNPと遺伝子のマッピングを改善したことなどがあるが、この記事ではタンパク質相互作用に基づくGWAS改良アプローチ（以下、ネットワークベースのアプローチ）に焦点を当てたい。

ネットワークベースのアプローチのアイデアは、相互作用するタンパク質はともに同じ生物学的プロセスに関与する傾向があり、したがってその機能は同じ生物学的形質に影響を与えるという観察 (一例としてCurr Opin Genet 2013)に基づいている。これに基づいて、タンパク質ネットワークは、guilt-by-associationの原理 (GWASの結果見出したgene Aと相互作用するタンパクB, C, Dはいずれもその疾患の関連遺伝子であるという考え方)によって長らく疾患関連遺伝子を予測するために使用されてきた (PLoS Comput Biol 2010; Genome Res. 2011)。これらのタンパクネットワークは、物理的または機能的な相互作用を形成することが知られている (or 予測されている) タンパク質で構成されている。相互作用しているタンパク質は、相互作用していないタンパク質よりも、同じ生物学的プロセスに関与している可能性が高いというのがこのネットワークを使用する根拠になっている。大まかに言えば、疾患と関連するタンパク質のグループ（シードタンパク質seed proteinと呼ばれる）を選択し、シードタンパク質との相互作用のプロファイルによって疾患と関連する可能性が高い他のタンパク質をランク付けするという考え方である。この後、疾患タンパク質モジュール（疾患予測スコアの高い相互作用タンパク質のグループ）を同定することもできる。

ネットワーク内のタンパク質のランク付けやクラスタリングに使用するアルゴリズムや、使用するタンパク相互作用ネットワークは様々である。最もシンプルには、タンパクネットワークにおけるランダムウォークを考慮するものだ。つまり、GWASで見つかった遺伝子に少ない数の経路で接続しているタンパク質は、より高いスコアが与えられる。様々なネットワークやアプローチが比較され、包括的なタンパクネットワークを用いることが重要であることが分かってきた (Nat. Methods 2019; Cell Syst. 2018)。近年、ヒトのタンパク質間相互作用が大規模に実験的に決定されるようになり (Nature 2020; Cell 2021; Mol. Syst. Biol. 2021)、GWASのネットワークベースの解析力はさらに高まっていくことが期待される。

ネットワークベースの手法はSNPを対応する遺伝子にマッピングする際にも使われることがある (Nat. Genet. 2021)。キュレーションされた疾患遺伝子セットや、あるいは最も信頼性の高いGWAS関連遺伝子をシード遺伝子として、SNPがマッピングする可能性のある遺伝子候補を同様にネットワークベースの手法でランク付けする。スコアが高くついた遺伝子候補は、最初のシード遺伝子と機能を共有する可能性が高い。がん感受性遺伝子の研究 (Cell 2014; Nat. Methods 2015) 等に応用事例がある。

候補遺伝子の優先順位付けに加え、ネットワークベースのランキング手法はGWASからそれほど強い関連性を示せなかった他の遺伝子にも適用可能だ。むしろ、創薬ターゲットとしてより適応性のあるGWAS関連遺伝子のモジュレータを同定することができるため、創薬開発にとっては興味深いといえるだろう。実際、この手法で創薬ターゲットを濃縮できるという証拠がいくつも得られている (Nat. Genet. 2019)。

また、これまでに紹介してきた考え方は、遺伝子発現データなどの他のデータタイプと比較する際の出発点としても有用である。このような解析は、疾患の発症原因となる組織や細胞の種類を特定するのに役立つかもしれない。例えば、ネットワークベースのアプローチにより見出した遺伝子 (モジュール) がどの組織/細胞に多く発現しているのかを単純に調べるだけでも興味深い情報が得られる。Parkison病やアルツハイマー病、網膜症、高コレステロール血症についてこのアプローチを実証した論文も最近プリプリントに報告された (bioRxiv 2021)。

Chapter 3

ネットワークベースの手法は、研究対象に適した相互作用ネットワークを使用することに依存している。相互作用するタンパク質は同じ生物学的プロセスに寄与する可能性が高いが、2つのタンパク質が同じ機能に寄与するのは、例えばある種の細胞タイプにおいてのみ、あるいは特定の刺激の後だけかもしれない（以下、context-dependent相互作用と称する）。これまでに得られているヒトの最も包括的な相互作用ネットワークでさえ、その大部分がこのような文脈特異性に対して弱点があり、異なる文脈での大規模スケールでの実測はまだ実行不可能である。最近になって、酵母における条件依存的な相互作用の研究 (Mol. Syst. Biol. 2017)、異なるマウス組織におけるタンパク質共分画研究 (Cell 2021)など、context-dependentな条件でハイスループットに調べたという報告が増え始めた。その結果、異なるcontextで相互作用が大きく変化することを示している。将来的には、熱プロテオームプロファイリング (Science 2018)や近接ライゲーション (Nature 2021)などのadvancedなプロテオーム手法との融合により、異なるcontextにおけるタンパク質相互作用の迅速かつ完全なプロテオームスケールの同定も可能になると期待したい。

とはいえ、現状のところこのようなcontext-dependentな条件に大規模に適用できる実験的アプローチがないため、様々な予測ツールが開発されてきた。最も単純なアプローチは、まずレファレンスとなる全タンパクでの相互作用ネットワークを構築し、次にその組織 (or 細胞) で発現していないタンパク質を除外したものをとりあえずのネットワークとすること、または与えられたcontextにおける相互作用タンパク両方の発現の程度によって相互作用に重みを付けるというアプローチである (Nucleic Acids Res. 2017)。機能的に関連する2つのタンパク質は、mRNAレベルでの相関が見られる傾向にある (Nature 2002) という観察結果から、発現量の相関もタンパク質相互作用の予測によく用いられ、組織特異的な (Nat. Genet. 2015) 、より最近は細胞特異的な (Cell Syst. 2019)タンパクネットワークの予測にも応用されている。より最近では、大規模なタンパク質測定の結果、タンパク質レベルでの発現量の相関の方が、mRNAレベルでの発現量の相関よりもタンパク質間相互作用の予測因子として優れていることが明らかになっている (Mol. Cell. Proteomics 2017; Mol. Cell. Proteomics 2019)。タンパク質レベルでの発現量の相関は、今のところ大腸がん特有のネットワークの予測 (Cell Rep. 2017)にしか適用されていないが、プロテオミクスの継続的な進歩により、これらのアプローチの使用はどんどん登場するだろう。

このようにして得られた予測上のcontext-dependent相互作用はどの程度優れているのだろうか？これはまだ検証段階だが、自閉症関連遺伝子 (Nat. Neurosci. 2016)や骨密度関連遺伝子 (Cell Syst. 2017)など、GWAS関連遺伝子の研究に既に使用されている。また、適切な組織から予測された組織ネットワークにおいて、疾患遺伝子のより顕著な濃縮が見られることがあり(Nat. Genet. 2015)、組織特異的ネットワークの有用性を示唆している。

この記事が気に入ったらサポートをしてみませんか？