【とっても簡単に医科学トピック紹介5】WGCNAによる遺伝子共発現ネットワーク解析
概要- WGCNAとは
WGCNA(加重遺伝子共発現ネットワーク解析)は、遺伝子同士の関係を調べるための方法です。これを使うと、似たような動きをする遺伝子のグループ(モジュール)を見つけることができます。また、これらのグループと病気の状態などの外部の特徴との関係も調べられます。
例えば、同じモジュールに属する遺伝子は、同じような働きをしているかもしれません。これにより、新しいバイオマーカーや治療のターゲットを見つける手助けになります。WGCNAは主に遺伝子発現データに使われますが、他のデータにも応用できます。
WGCNAの手順は、データを入力し、遺伝子の相関に基づいてネットワークを作り、モジュールを見つけ、それらと外部の特徴を関連付け、最後に結果を可視化するという流れです。
ただし、大量のデータを扱うためには多くの計算が必要で、見つかった相関が因果関係を示すわけではないので、追加の実験が必要です。それでも、WGCNAは遺伝子の関係を明らかにする強力なツールです。
WGCNAは、以下の4つのステップに分かれています。
遺伝子の相関ネットワークを作る
似たような動きをする遺伝子のグループ(モジュール)を見つける
遺伝子とサンプルの特徴(例えば病気の状態)を関連付ける
モジュール内で重要な遺伝子を見つける
WGCNAは、遺伝子やモジュール間の相関を調べることで、これらの結果を導き出します。これは、ネットワーク内の近くにある遺伝子から情報を得る方法です。しかし、オプションや出力が多く、バイオインフォマティクスの知識が少ない生物学者にとっては難しく感じるかもしれません。
以降で、WGCNAの方法やプロット、その解釈をわかりやすく説明します。
WGCNAの4つの主要なステップ
1. 遺伝子の加重相関ネットワークの構築
まず、各サンプルの遺伝子発現データの行列から始めます。サンプル間の遺伝子同士のペアワイズ相関を測定します。各遺伝子ペアの相関スコアは、発現パターンの類似性を示し、潜在的な機能的関係を示唆することがあります。
WGCNAの「加重」部分は、強い相関と弱い相関の違いを強調します。高い相関は遺伝子が強く結びついていることを示し、低い相関は弱い結びつきを示します。
これらの加重相関値を強調することで、次のステップで、似た行動を示す遺伝子のグループを特定しやすくなります。
次に、ユーザーは必要なネットワークの種類を選択します。結果として、遺伝子が円(ノード)で表され、2つの遺伝子を結ぶ線(エッジ)の太さで加重相関係数の強さが示されるネットワークプロットが得られます。
例えば、以下のプロットでは、太い緑の線が強い相関を示し、これらの遺伝子間の潜在的な関連性を示しています(図1)。
2. ネットワークをモジュールに分割する
次に、WGCNAはネットワークの加重相関係数情報を使用して、非常に似た発現プロファイルを示す遺伝子をモジュールと呼ばれるグループに分類します。
遺伝子がネットワーク内で多くの共通の隣接遺伝子と似た相関を持っている場合、または隣接遺伝子の大部分が重なっている場合、その遺伝子は似た発現パターンを持っている可能性が高く、同じモジュールにグループ化されます。
モジュールを決定するために、遺伝子相関ネットワークデータに対して階層的クラスタリングが行われます。これにより、各枝が特定のモジュールを識別するデンドログラム(樹形図)が生成されます(図2)。デンドログラムは、遺伝子の関係を木のような形で表した図です。各枝(ブランチ)は遺伝子のグループを示し、枝の分かれ方で遺伝子同士の関係の強さがわかります。
動的ツリーカットのような方法を使用して、類似した発現パターンを持つ遺伝子を含む個別のモジュールを決定することができます。各モジュールには、固有のIDと色が割り当てられます。デンドログラムを「カット」する際には注意が必要で、不適切な使用はクラスタリング結果を歪める可能性があります。これらのクラスターは、次の解析ステップでサンプルの異なる表現型特性との関連を特定するために使用されます。
このようにして、WGCNAは遺伝子のグループを特定し、それらのグループと外部特性との関係を明らかにします。
3. 表現型特性と異なる遺伝子モジュールの相関
デンドログラムを使ってモジュールを定義した後、各モジュールを1つの値に簡略化する必要があります。これをモジュール固有遺伝子と呼びます。モジュール固有遺伝子は、モジュール全体の発現パターンを代表する値です。
モジュール固有遺伝子は、主成分分析という方法で計算されます。これは、モジュール内のすべての遺伝子の発現データをまとめて、1つの代表的な発現パターンを作り出すものです。この代表的なパターンを使うことで、モジュール同士の相関を調べたり、モジュールと表現型(例えば病気の状態)との関係を調べることができます。
例えば、以下の例では、ME1とME4のモジュール固有遺伝子が高い相関を示しており、これらのモジュールが似た生物学的機能を持っている可能性を示しています(図3A)。
次に、これらのモジュールが本当に似た生物学的役割を持っているかどうかを確認するために、各モジュールの固有遺伝子が異なる患者特性やサンプルタイプ、疾患結果とどの程度相関するかを測定します。これにより、どのモジュールが特定の病気や状態に関連しているかを特定することができます。
例えば、ME1とME4は健康なサンプルと高い相関を示しており、ME2とME3は膠芽腫サンプルと高い相関を示しています(図3B)。これは、これらのモジュールに含まれる遺伝子が膠芽腫に関与している可能性を示唆しています。
4. 潜在的なドライバー遺伝子の特定
最後に、興味のあるモジュールを特定したら、そのモジュール内の遺伝子を詳しく調べて、特定の特性に関与する可能性のある重要な遺伝子や、他の遺伝子に影響を与える可能性のある遺伝子を見つけます。各モジュールには多くの遺伝子が含まれているため、さらなる研究のための理想的な候補となる「ハブ遺伝子」を特定することが重要です。
ハブ遺伝子は、モジュール内で最も多くの接続を持つ遺伝子として特定され、期待通り、関心のある表現型と最も強く相関しています。遺伝子の発現は「モジュールメンバーシップ」を計算するためにも使用されます。これは、遺伝子の発現プロファイルが発現ネットワーク内の特定のモジュールとどの程度一致しているかを測定するものです。モジュールメンバーシップは、さらなる研究のために遺伝子を優先順位付けするための有用なツールです。
相関が高い場合、その遺伝子はモジュール全体の発現を代表しており、ネットワーク内でよく接続されている可能性があります。同様に、この遺伝子が関心のある特性と高い相関を持つことは、そのモジュール内で重要なドライバーである可能性をさらに強めます。
このようにして、WGCNAは遺伝子モジュール内の重要な遺伝子を特定し、病気の理解や治療のターゲットを見つける手助けをします。
WGCNAの注意点
WGCNAは強力なアプローチですが、正しく適用しないと多くのパラメータが問題を引き起こす可能性があります。
例えば、相関ネットワークを生成する前に、ユーザーはネットワークの種類(サイン付き、サインなし)、相関方法(ピアソン、スピアマン)、相関の重み付けのためのべき乗値、相関のカットオフ値など、多くのオプションから選択する必要があります。
これらの多くのオプションとパラメータを使ってWGCNAを一貫して実行することは、解析を非常にエラーが発生しやすいものにする可能性があります。実際に、データの種類や分布に対して不適切な方法、パラメータ、または閾値を選択すると、外れ値が正しく処理されず、ネットワークが生物学的に現実的でないものになり、最終的には将来の研究を妨げる可能性のある不正確な結論に至る可能性があります。
このように、WGCNAを使用する際には、各パラメータの選択に注意を払い、データの特性に適した方法を選ぶことが重要です。
今回は以上です。WGCNAについて今後も追加していきます。