見出し画像

生物クイズ#8【遺伝子発現変動解析】


問題

あなたはがん細胞とコントロールの正常な細胞で異なる発現をする遺伝子(DEG)を特定したい。次世代シークエンサーを用いてそれぞれの細胞集団から30000遺伝子のトランスクリプトーム情報を取得し、あなたが開発した100%の確率で異なる発現をする遺伝子を異なる発現と判別し、99%の確率で同じ発現をする遺伝子を同じ発現と判別できるアルゴリズムでDEGの特定を行った。がん細胞と正常な細胞で真のDEGが10個あるとすると、このアルゴリズムでDEGと判定された遺伝子のうち、真のDEGは何%だろうか。

DALL-Eにより生成

答え

3.2 %

解説

アルゴリズムがDEGと判定する中で真のDEGを遺伝子集団をA(真陽性)、アルゴリズムがDEGと判定する中で本当はDEGでない遺伝子集団をB(偽陽性)とする。
この時、ベイズの定理より、$${(事後確率) = \frac{(事前確率) (尤度) } {(周辺確率)}}$$なので、アルゴリズムでDEGと判定された遺伝子のうち、真のDEGの割合は、

$$
\begin{array}{} P(A|A+B) &=& \frac{P(A) P(A+B|A)} {P(A+B)} \times100 \\\ &=& \frac{(\frac{10}{30000} \times1)} {(\frac{10}{30000} \times1) + (\frac{29990}{30000} \times {\frac{1}{100}})} \times 100 \\\ &\risingdotseq& 3.2\end{array}
$$

真陽性の確率が低い場合に条件付確率が直感から外れたものになるという現象を、生命科学研究におけるビックデータ解析を例に出題した。研究においてこれらの結果を解析する際には適切な統計的手法を用いる必要がある。健康診断のスクリーニング検査などにおいても、確率の低い疾患は精度の高い検査であっても偽陽性が多くなることが知られている。このような場面でも、数学的な背景知識があれば、冷静に対応することができる。

がん細胞と正常細胞の遺伝子発現差を解析する研究で、真の差異遺伝子(DEG)発見率は3.2%。精度高い分析が必要で、偽陽性リスクも示唆。

ChatGPTを用いて要約
サムネイル画像はDALL-Eにより生成

この記事が参加している募集

#生物がすき

1,392件