見出し画像

AliView で遊んでみた

ゲノムシークエンスから得られた結果(ATGCで構成された列)からどうやって、系統樹を作ってるのだろうと長年不思議に思っていました。コロナで色々な系統が出てきていますが、系統樹についても理解を深めたいと思っていたところ、色々なソフトウェアが自由に使えることを知り、折角なので少し勉強してみました。

色々勉強していくうちにまずは、ゲノムシーケンスから得られた結果をもとに、系統樹を作るためには、まず複数のサンプルの配列の結果を整列させる必要があります。この作業はアライメントと言い、ATGCの要素を対応させて配列を整列させることを意味しています。以前は、ソフトウェアに結果を入力すれば、自動的に整列してくれると思っていましたが、そうは問屋が卸さない。基本的なところから勉強し、デモデータでアライメントまでをやって見たので紹介します。

系統樹そのものに対する理解

まず系統樹について、CDCが無料で提供しているビデオ講習を数モジュール分を視聴しました。

モジュール1.3は系統樹を解釈する上で非常に役立つ回でした。このクオリティの動画を無料で用意できるアメリカは純粋にすごいなと思いました。

ソフトウェア紹介:AliView

今回はAliViewという、アライメントをしてくれるソフトウェアを使いました。下のページからダウンロードしました。

サンプルデータとして、下のリンクから "2000_seq_full_selection_SSURef_108_full_align_tax_silva_trunc_larger.selection"を選択して見ました。ファイルは、fastaという形式です。

AliViewの使い方

下の動画のリンクから、使い方を調べてみました。

とりあえず、ビデオに従いデモデータを読み込みました。デモのデータですら配列作業を開始すると、解析にかなり時間がかかります。そのため、サンプル数を20個に減らして、Alignタブ > realign everythingを選択したところ、数十秒で計算結果が出ました。

realignした結果

後は、欠損領域の補正を行い、自分の利用目的に応じたファイル形式等に変換しエクスポートすれば、アライメントの作業は終わりです。

実際に使う際におそらく課題になるところ

知識に関する課題

  • なぜ特定の遺伝子領域に注目するのかという問い立て。

  • そして、その遺伝子領域の基本的な特徴の理解。

テクニカルな課題

  • 特定の遺伝子領域を見る場合、配列の最初と最後に開始コドン及び終始コドンがあることを確認しないといけません。自分はそれを理解しつつも、それをAliviewで確認する方法について理解していないこと。

  • アライメント作業前のシークエンス結果がエクセルファイル等のソフトウェアで対応してない形式のファイルに格納されている場合、どうやって解析可能なファイルに変換できるのだろうかということ。

  • 塩基が欠損している箇所を補正する方法の理解が足りないこと。どの関数をどのように使うかの判断ができないこと。

終わりに

これはあくまでアライメントという作業であり、この次にリファレンスとなるゲノムシークエンスをNCBL等のデータベースから引っ張ってきて、更に系統樹にするソフトにデータを入れる必要があるようです。初心者にはかなり大変な作業だと思いました。
次にステップに進むことがあれば、ぜひ紹介したいと思います。


この記事が気に入ったらサポートをしてみませんか?