見出し画像

初心者の菌叢解析 Qiime2で解析(3) ファイルの準備編 ~fastqファイル~

これまでに自分のPCで菌叢解析を行うことを目指して、いくつかnoteを投稿しております。興味がある方はそちらもご確認ください。

1. Qiime2を動かすのに必要なファイル

上記の記事の通りインストールを行い、Qiime2をPCで動かせるようになりましたら、次には解析用の各ファイルを準備します。
必要なファイルは、基本的には以下の4ファイルになります。(拡張子)

1. Sequenceファイル(.fastqもしくは.fastq.gz)
2. manifestファイル(.csv)
3. sample-metadataファイル(.txt)
4. classifierファイル(.qza)

2.配列ファイル(.fastqもしくは.fastq.gz)

Sequenceファイルは拡張子が.fastq というファイルで、次世代シーケンサーから取得できるファイルです。外注した場合、こちらのファイルが納品されると思います。また、必要に応じてオンラインのデータベース(SRA, DRA等)からダウンロードすることも可能です。

.fastqファイルは圧縮された状態で.fastq.gzというようになっている場合もあります。圧縮したままで解析可能なので、問題ありません。

今回はDRAから大阪湾の.fastqデータを拝借したものと、自前のネズミの糞便データの.fastq.gzデータを用いて解析してみようと思います。

3.fastqファイルとは

fastqファイルとはDNAの配列決定の解析を行った際に得られるファイルです。データの中身としては決定した塩基配列の情報(ATGCの配列)とその配列のクオリティスコアになります。

クオリティスコアが高ければ決定した塩基配列の確からしさが高いということになります。

多くの場合、シーケンスの読み始めは正確に配列決定を行えず、クオリティスコアが低くなります。段々と配列決定の精度が上がっていき、最後の方にはまた低くなる傾向にあります。

実際のfastqファイルの中身は以下の画像の通りです。テキスト系のソフトで見られます。私は「サクラエディタ」もしくは「mi」で開いています。

図1

fastqファイルは4行で1セットとなっています。
まず、「@」から始まる配列の名前が表示されています。
任意の通し番号ですので、名前に大きな意味はありません。

ここでは1つめの配列に「@DRR099585.1 1 length=301」という名前が当てられています。

2行目には決定した配列が表示されています。
まさにここのアルファベットが我々の知りたい配列になります。

3行目は「+」から始まる行で、こちらにも1行目と同じ名前が当てられています。3行目が「+」だけの場合もあります。

4行目はクオリティスコアを示す暗号「ASCIIコード」になります。例えば2行目の一番最初の配列は「C」ですが、この配列のクオリティスコアは4行目の「C」ということになります。また、丁度1行目の「301」という数字の下にある配列は「AAT」ですが、こちらのクオリティスコアは「G:F」となります。

4.fastqファイルのクオリティスコア

それぞれのASCIIコードには数字が割り振られており、(その数字ー33)の値がクオリティスコアになります。

ASCIIコードとクオリティスコアの対応表は以下のサイトが良かったので、参考にしてください。

例えば最初の「C」という配列のクオリティスコアは「C」ですが、ASCIIコードの対応表を見ますと、「C」は67を示しています。ですので、実際のクオリティスコアは(67−33=34)となります。同様に考え、上記に挙げました「AAT」のクオリティスコアは「G:F」ですので、実際のスコアは「33、25、37」となります。

これらのクオリティスコアはシーケンシングの確からしさを示しています。

クオリティスコアが10の時は90%、20の時は99%、30の時は99.9%、40の時は99.99%というように配列の正確性を示しています。

よって、例としてあげた塩基配列は全て99%以上の確率で正確であるということになりますので、なかなか良いデータなのではという感じです。

これらのクオリティスコアは様々なソフトウェアで可視化することが出来ます。無料のツールですと「Snap Gene Viewer」がいいでしょうか。

ただ、次世代シーケンサーから取得されたfastqファイルに収められている配列数は膨大な為、開けるのに時間がかかると思います。

また、実際にQiime2を動かす際に、ここで述べたような知識はあまり重要ではない気もします。興味のある方はfastqファイルを開いてみてください。

次回は最も重要で且つ苦労した「manifestファイル(.csv)」について書きます。

ここまで見ていただきありがとうございました。
不備等あると思いますが、よろしくお願いいたします。

この記事が気に入ったらサポートをしてみませんか?