【RでNGS】RNA-seqデータ解析の流れ〜Rでできることとできないこと

eiko_programming

2020年8月25日 05:22

前回の記事で、次世代シークエンサーで出力される配列情報はFASTQファイルであることがわかりました。

では、このFASTQファイルからどのような流れで解析をしていけば良いのでしょうか？

とりあえずは、2つのサンプルを比較して変動遺伝子を同定するまでの流れを確認しましょう。2つのサンプルとは、薬剤投与あり・なし、や疾患あり・なしなどとにかく実験する時って何かと何かを比べて違いを言うと思うので...

東京大学の門田先生の資料を参考に勉強していきます。

—————

◇ トランスクリプトーム解析の流れ

大きな流れはこんな感じ↓

1. 次世代シークエンサーでのFASTQファイルの取得

2. リファレンス配列の作成

3. マッピング

4. データ解析

取得したFASTQ配列は50〜250塩基程度の短い配列情報です。それをリファレンス配列に並べていくことで、どの遺伝子が多く発現しているのか数えていきます。

2. のリファレンス配列の作成と 3. のマッピングはかなり大きな計算になるのにLinuxマシンを使う方が良いそうです。

でも、普通人はMacとかWindowsとかで本格的なLinuxマシンは持っていませんよね。解決策としては、Linuxサーバーを持っているバイオインフォ系に強い人にお願いする、もしくはDDBJ（国立遺伝学研究所が運営するDNA Data Bank of Japan）のRead Annotation Pipelineを利用することが挙げられています。

4. のデータ解析からはRでできるようです。

とりあえずは、2, 3はDDBJのPipelineでやることにしてみましょう（後日追加記事を掲載予定）。マッピングについてもう少し詳しく知っておく必要がありそうなことを下にまとめておきます。

◇ トランスクリプトーム解析の目的は？

実験者によってトランスクリプトーム解析でしたいことは様々です。

例えば、
・トランスクリプトームの塩基配列自体を知りたい

・遺伝子やisoformごとの発現量の違いを知りたい

・比較するサンプル間で変動している遺伝子やisoformを同定したい

などなど...

特にisoformレベルの定量化は難しいので工夫が必要。

ALEXA-seqではある特定のisoformだけにマッピングされたリード数をカウントします。（unique exonがないisoformは定量化ができないという問題があります）

CufflinksやMISOでは、複数のisoformにマップされるリードについてマップされたリードの長さなどを考慮して割り当てる。（図示したいのですが、ちょっとよくわからないのでもう少し考えます...）

要はどのexsonの情報をどの遺伝子やisoformに分配するかが、その後の解析結果に大きく影響するのです。ということを知っておくとマッピングへの意識が変わるかもですね。

マッピングされた各遺伝子のカウント数はBED形式ファイルで保存されるのが一般的。（BED：Browser Extensible Data format）他にもSAM（Sequence Alignment/Map format）などがあります。

データ解析について軽くまとめておきます。

◇トランスクリプトームデータ解析をする前に知っておきたいこと

2つのサンプルを比較するとき、変動遺伝子（DEG：Differentially expressed genes）を調べたい場合、知っておきたいことは下の3つ。

1. sequence depthが違う
2. 組成が違う
3. 正規化方法の違い

1. sequence depthが違う

サンプルによって総リード数がx倍違うと全体でx倍変動してしまう...

これを補正するための正規化方法がいくつかあります。（TMM正規化、TbT正規化、iDEGES正規化など...）3. の正規化方法の違いでもう少し詳しくみてみましょう。

2. 組成が違う

サンプル特異的に高い発現を示す遺伝子があると比較が難しくなる。これも補正するためには正規化。

3. 正規化方法の違い

2群比較するためにはTMM正規化、TbT正規化、iDEGES正規化などがあります。

・TMM正規化（Trimmed Mean of M value）
発現変動遺伝子のデータ正規化時の悪影響を排除するためM-A plot上で周辺部にあるデータを使わずに正規化係数を決定する方法。

・TbT正規化（TMMの改良版、TMM-baySeq-TMM）
3つのステップで正規化を行う。
①TMM正規化→②正規化係数を用いてbay SeqでDEGを同定→③DEGを排除した残りのデータでTMM正規化
non-DEGデータを用いて強固な正規化係数（DEG elimination strategy）を決める。

・iDEGES正規化
DEG Elimination Strategy (DEGES)をより一般化して、より高速に頑健にしたもの。TbTは「複製あり」のデータのみの対応だったが、iDEGESは「複製なし」のデータにも対応。

文字だけでは伝わらないことが多いので、図示できたら良いのですが、時間切れ...

RNA-seq解析でRでできること、できないことがあること、知っておかなければいけないこと、気をつけなければいけないことが少しずつ分かってきました。

それでは、また！

最後までお読みいただきありがとうございます。よろしければ「スキ」していただけると嬉しいです。いただいたサポートはNGS解析をするための個人用Macを買うのに使いたいと思います。これからもRの勉強過程やワーママ研究者目線のリアルな現実を発信していきます。