見出し画像

RでWGCNA解析~Soft Thresholdの選択~

WGCNAで用いられる類似度

 WGCNA解析において、ノード間の類似性を相関係数などを用いて評価します。しかし相関係数をそのまま使うのではなく、目的に応じて数値の足切りをしたり、冪乗して調節を行います。たとえば

$$
a_{i,j}=\left\{
\begin{array}{l}
1 (s_{i,j}≧0.75)\\
0 (s_{i,j}<0.75)
\end{array}
\right.
$$

 というように0.75以上の相関係数を持つものを1、それ以下を0として足切りを行ってノードの類似性を決定することもあります。
 しかし、これでは0.749の相関係数を持つノード同士の関連性を0としてしまうため、重要な生物学的情報を見落とす可能性があります。なので、ある程度連続性を持った指標を準備する必要があります。そこで、WGCNA解析では以下のような計算に基づいて類似度を算出しています。

$$
a_{i,j}=s^β_{i,j}
$$

 この式は相関係数$${s_{i,j}}$$を$${β}$$乗しているもので、先ほど例に挙げたような"足切り"と異なりある程度連続性があるものになっています。特に、$${β=1}$$の場合はそのまま相関係数を採用することになります。このようにノード間のつながりが連続値の重みをもつものを「Weighted Network」と呼び、0 or 1で表現する「Unweighted Network」と対比されます。WGCNA解析では前者が採用されているわけです。

βの値の意味

 さきほど登場させた$${β}$$の値を変化させると類似度$${a_{i,j}}$$はどう変化するかを考えます。ここで、$${s_{1,2}=0.9 s_{1,3}=0.3}$$として具体的に考えます。

 $${β=1}$$の場合、1と2の類似度は1と3の類似度の3倍になりますが、$${β}$$の値を大きくするとこの比率はどうなると予想されるでしょう?
 実際に$${β=3}$$にすると$${s_{1,2}=0.729  s_{1,3}=0.027}$$になり、類似度の差が27倍になります。要するに、$${β}$$を大きくすればするほど、似ているものとそうでないものの差がより際立つことになります。しかし、大きくしすぎるとデータの性質が失われてしまうので、この値をどう定めるかを考察する必要があるわけです。この$${β}$$をSoft Thresholdと呼びます。

Scale Free Topology

 さて、ここからSoft Thresholdの値を決定するわけですが、どのような値にするのが一番良いのでしょう?結論から言えば、「構築したネットワークがScale Free Topologyを持つことが出来るSoft Thresholdの中で最小のもの」を選べば良いことになります。大事なのが「スケールフリー性」とはどういうものなのか理解することで、ここさえ理解してしまえばあとは計算だけです。
 まず「スケールフリーなネットワーク」とは、「一部のノードが他のたくさんのノードと辺で繋がっており、大きな次数を持っている一方で、その他の大部分はわずかなノードとしか繋がっておらず、次数は小さくなっているネットワーク」のことです。「次数」とは、あるノードと繋がっている他のノードの和にあたり、これが大きいほどより多くのものと相関があると言えます。
 ある都市における鉄道網を想像してもらうとイメージがよりつかみやすくなります。各駅をノード、路線を辺とすれば、たくさんの駅と繋がっているいわゆる「ハブ」の駅は大きな次数を持ち、各駅停車しか止まらないような小さな駅は次数が小さいと言えます。さらにこの鉄道網において、ごく一部の駅が他のたくさんの駅と繋がっており、その他大部分の駅はほとんど繋がっていないとするならば、この鉄道網は「スケールフリーな鉄道網」であると言えます。
 人間関係で考えるなら、物凄く社交的なごく一部の人がたくさんの友達を持ち(次数が大きい)、大部分の人が数人しか友達がいない(次数が小さい)ような状況ならば「スケールフリーなネットワーク」と言えるわけです。
 このような「スケールフリー性」はタンパク質の相互作用など生物化学でも頻繁に登場するモデルであり、システム生物学的にはかなり重要なものになります。

 ここから数学的な理解に入ります。ネットワーク上の各ノードがどれだけの次数を持っているかをプロットすると、スケールフリーなネットワークの場合以下のようなグラフになります。

下記サイトより引用


 横軸は各ノードの次数を、縦軸はその数を表しています。少数のノードが大きい次数をもち、大部分は次数が小さいことをはっきりと認識しましょう。

 これを冪分布パレート分布と呼びますが、基本的には以下のような式になります。

$$
P(k)~k^{-γ}
$$

 ここで$${k}$$は次数を表し、確率分布$${P(k)}$$が$${k}$$の指数関数に従うことを表します。勉強不足でこの指数関数がスケールフリー性を表すのに最適かどうかを吟味できないのですが、直感的に目的のものに近い関数であるかなぁと思っておきます。

 先ほど「構築したネットワークがScale Free Topologyを持つことが出来るSoft Thresholdの中で最小のもの」を探せば良いと言いました。実は$${β}$$を大きくすれば基本的にはスケールフリー性を持つネットワークになりますが、それでは生物学的に意味のある要素を消しかねないので、スケールフリー性を持ちうる中で最小のものを探そうということになるわけです。

スケールフリー性を評価する方法

 では数学的にどうやってスケールフリー性を評価するのでしょう。先ほど、スケールフリー性な確率分布は指数関数に従うと説明しました。ならば両対数をとって、それが$${-γ}$$に比例した直線と近似できれば、つまり$${R^2}$$値を評価すれば良いことになります。$${R^2}$$値とは、相関係数を二乗したものであり、それが1に近ければ直線とよく似ていることになります。例えば基準値を$${R^2=0.9}$$と定め、それを越えたもののうち最小のものを選ぶといったことをやるわけです。
 結果やることはSoft Thresholdを1から順に試して$${R^2}$$を計算していけばいいのですが、当然ここはRの出番です。次回の記事で実際にRを使って解析するワークフローを示します。

以下参考にしたサイト等

次回の記事

前回のWGCNA関連の記事


この記事が気に入ったらサポートをしてみませんか?