見出し画像

オレ流系統解析 ベイズ法

みなさんは、「統計学的に正しいです」と言われてどれくらい信用できますか?一部を見ただけでなぜ全部わかるのか疑問に思いませんか?数学者の秋山仁博士も言っていましたが、統計は味噌汁の味見みたいなものです。味見と同じように、統計は一部をみて全体を把握しなければならない時に使います。もし、統計の結果が信用ができない、1回目の味見が信用できないのであればどうしますか?まあ、もう一回味見しますよね。系統解析も同じです。

2回目の味見

前回紹介したIQ treeというのは、最尤法という方法です。これは、得られた結果から数学的に「最も尤もらしい」答えを導き出す方法です。詳しく説明するには、私の数学の能力では力不足なので、詳しくは以下のリンクを参考にしてください。さらに、最近の分類学の研究ではベイズ法を併用することが多いので、ここではベイズ法の解析方法を紹介します。ちなみに、このベイズ法は標本を必要としない、データが不十分でもなんとかして確率を導く特別な統計学です。

今回の系統解析では、アライメントした塩基配列リストをnexusファイルにするところからはじまります。Clustal Omegaというサイトで、変換することができます。

この図にあるようにDNA, アライメントした塩基配列リスト, NEXUSファイルへの変換を指定します。最後は、巻末にあるSubmitを押してください。

ただ、MAFFTやGblocksとは異なり、最終的にファイルをダウンロードするのではなく、TeraPadにコピー&ペーストで貼り付けます。
注意として、巻頭と巻尾は解析のモデル設定などを行うので、コピーではいけません。また、ファイル名を“Gene1.bay”としてください。

結果画面の、Download Aligment Fileをクリックすると全画面が塩基配列になります。
このような形でTeraPadに貼り付けてください。あと、巻頭と巻末は赤の囲いの中にあるように設定してください。ntaxにはリストの塩基配列のリスト数, nchar=に塩基配列数を入れてください。
Prset, Lset nst=, rates=には解析モデルを入れますが、ここでは述べません。

Mrbayesをダウンロードしてください。必要なファイルがドキュメントなどにインストールされます。そこから計算用フォルダ“Gene1”(私はデスクトップに用意します。)に “mb.3.2.7.-win64””mrbayes_x86
hmsbeagle32.dll”と“Gene1.bay(アライメントした塩基配列リスト)” “mcmc.bay”を入れてください。

こんな感じで計算用フォルダを用意してください。

このmcmcとは、マルコフ連鎖モンテカルロ法のことで、これにより、ベイズの事後確率を求めることができます。下図のようなものを、TeraPadで作成してください。簡単に言えば、何世代分計算するのかを決めています。

これをTeraPadで作ってください。ngen=の後の数字を覚えておいてください。とても重要です。

Gene1フォルダに必要なものが入れられたら、”mrbayes_x86”をダブルクリックして始めます。IQ treeの時と同じく、コマンドを入力するのですが、まずは“exe Gene1.bay”で、“Gene1.bay(アライメントした塩基配列リスト)”を実行してください。

赤で囲った感じでコマンドを入力してください。

次に、“exe mcmc.bay”でマルコフ連鎖モンテカルロ法の実行します。

Gene1にある生物のリストがずらっと出てきた後にコマンドを入力します。

解析が終わると、「分析を続けるか?」と聞かれるので、Yesと答えてください。
sump burnin=******”と入力します。****には、mcmcファイルで指定した世代数の4分の1を入力してください。私は、いつも100万世代で行っていることから、250000を入れます。

赤線が「解析続ける?」で。下に世代数の4分の1を入力してください。

計算が終わったら、”sumt burnin=*****”を入力します。(****には、mcmcファイルで指定した世代数の4分の1)

ここにも、世代数の4分の1を入力してください。

全てが終わるとGene1フォルダにいくつものファイルができています。Gene1.conとなっているTre fileをFigtreeで開くと系統樹を編集することができます。

計算が終わるとこんな感じになります。

結構説明を飛ばしました。足りないことに気づいたら、補足しようと思います。

この記事が気に入ったらサポートをしてみませんか?