見出し画像

Web上で系統解析

はじめに

系統解析とは、生物の進化の歴史(系統)を推定することです。系統解析の結果を視覚的に表現したものが系統樹になります。系統樹を構築することで、正体不明の生き物が何の仲間かを明らかにしたり、ある時点での祖先の形態を予想したりすることができます。20世紀後半に急激に発達した研究手法である分子系統解析はDNAの情報を利用して系統解析を行う手法で、生物学の世界に大きなインパクトを与えました。

現在、様々な系統解析関連ツールが研究で用いられています。中にはWeb上で利用できるのものがあるので、今回はそれらを活用してWeb上で系統解析を行います。ソフトをインストールする必要は全くありません。

Web上で系統解析することのメリットは、パソコンの性能に左右されない点です。系統解析ではしばしば膨大な量のデータを扱うのですが、パソコンの性能が低いと解析が難航します。一方、デメリットはサーバーの状況に解析の進行が左右されることです。稀に、サーバーが混雑しているため解析を行えないことがあります。

分子系統解析についての日本語の参考資料としては以下の総説があります。

※この記事は学部4年で勉強中の身が趣味で書いていることに注意してください。

配列の取得

今回は簡単に数種の動物の配列を用いて系統解析をしてみます。使用する配列はNCBIの「National Library of Medicine」から取得します。検索ボックスの横で「Nucleotide」を選択し学名や配列名で検索すると、適合した結果が表示されます。

解析に使用する動物はミズクラゲ(Aurelia aurita)、ヒト(Homo sapiens)、アカヒトデ(Certonardoa semiregularis)、キイロショウジョウバエ(Drosophila melanogaster)、線形動物のCaenorhabditis elegans、ムラサキイガイ(Mytilus galloprovincialis)、タシマキゴカイ(Arenicola brasiliensis)にしました。解析に使用する配列は18S rRNAにします。

この系統解析では左右相称動物の系統関係を解析しようとしています。左右相称動物とはその名の通り左右対照の体制を持っている動物のことで、上で挙げたのもではミズクラゲ以外が該当します。ミズクラゲは系統樹の根を決定するための外群として解析に加えています。この意味については結果の項で詳しく説明します。

「学名 18S」と入力して配列長が長めのものを適当に選んでいきます。18S rRNAは完全長が1800bpほどです。選んだ配列をFASTA形式でテキストドキュメントにコピペします。「>」の後の配列名はこのまま表示されるので、アセッション番号(例:HM194813.1)と学名のみにして見やすくしておきます。後に用いるツールで配列名にスペースが入っているとエラーになった気がするので、スペースはアンダースコアに変換しておきます。

こんな感じになります。

アライメント

続いてアライメントを行います。取得した配列は同じ遺伝子をコードしているものですが、配列を決定する実験(シークエンス)の条件や変異によって配列の位置はずれてしまいます。これらを対応付けて並べ、変異の起こった場所が分かるようにする工程をアライメントといいます。

アライメントには「MAFFT」のオンラインバージョンを用います。「ファイルを選択」から先ほど編集したテキストファイルをアップロードします。色々設定がありますが、私は普段「Direction of nucleotide sequences」で「Adjust direction according to the first sequence (accurate enough for most cases)」(2番目)を選択して、それ以外はデフォルトで行っています。データベース上には時々逆方向の配列が混じっているのですが、これを選択することで修正してくれます。

アライメントが完了したら「View」で結果を確認します。全く揃っていないところがありますが、綺麗に保存されているところが上手くアライメント出来ていれば成功でしょう。結果は「Fasta format」からダウンロードしておきます。訳のわからないファイル名になっているのでわかりやすいように直すことをオススメします。

変異が激しい。
よく保存されている。

系統樹の構築

系統樹の構築のためのツールは多岐にわたりますが、HIV Sequence Databaseの「IQ-TREE」はWeb上で扱えます。

これもオプションが色々ありますが、ここでは「Substitution Model」を「GTR」「Gamma model」に設定し、「Branch Support」で「Ultrafast」を選択します。また、今回はミズクラゲを外群としているため、「Root tree」で「Specify outgroups」を選択しておきます。

実行した次の画面でミズクラゲを選択し、タイトルとメールアドレスの入力を求められるので入力します。このくらいのデータ量なら結果のメールが届くまでに1分もかかりません。リンクを開くと画面上に結果が表示されるので、「Download all files」して解凍します。「treefile.phylogram」というファイルが目的のファイルです。

こちらが結果です。設定した通りミズクラゲが一番外側に出ています。ブートストラップサポートもちゃんと表示されています。

考察

左右相称動物は3つのクレードに分かれることが明らかになっており、ヒトとアカヒトデは後口動物、ムラサキイガイとタシマキゴカイは冠輪動物、キイロショウジョウバエとC. elegansは脱皮動物に属します。今回の結果は後口動物と冠輪動物の再現に成功しましたが、脱皮動物の再現に失敗しています。理由として考えられることはC. elegansの枝が長いことで、このような生物種が系統解析に混入すると系統解析の結果が乱れることが知られています(Long Branch Attraction)。C. elegansを他の脱皮動物に置き換えることで脱皮動物も再現できるかもしれません。

左右相称動物ではないミズクラゲはこの系統樹の根を決定する役割を果たしています。左右相称動物が単一の祖先から分岐した生物群であることを認めると、左右相称動物でない動物と左右相称動物は進化の歴史の中のどこかのタイミングで分岐したことになります。このため、左右相称動物でないミズクラゲとその他の左右相称動物の間が系統樹の根となります。

おわりに

Web上で系統解析を行うことができましたが、モデルの選択やベイズ事後確率の算出、系統樹の描画はソフトをインストールして行うべきでしょう。「Ultrafast」についても議論があるようです。私が学部2,3年の頃は読んでいる論文の系統樹を再現して遊んでいたので(MEGA11を使っていましたが)、そういった用途で気軽に解析する分には十分だと思います。私のノートPCではアライメントと系統樹構築の際にパソコンが固まって困っていたので、やはりサーバーに投げておけば勝手に解析してくれることが一番のメリットです。

この記事が気に入ったらサポートをしてみませんか?