FRACTAL　勉強中

2024年4月19日 20:58

大量のDNA配列から高速に巨大な系統樹を推定する「深層分散コンピューティング」FRACTAL手法
本手法は、さまざまな系統樹推定ソフトウェアが取り扱えるDNA配列数を飛躍的に拡張させ、最低でも2億の配列から成る巨大な系統樹の推定に利用できることが示された。

従来不可能だった大規模の系譜推定を可能にし、微生物・ウイルスなどの進化過程や動物の発生過程の解明など、幅広い生物学分野における基幹手法になることが見込まれる。

染色体上の部分的な人工DNA配列に高速に変異を蓄積するような仕掛けを施した受精卵から動物個体を得て、そのような動物から得た細胞一つひとつのDNAの変異情報から全身の発生過程を再構築しようというプロジェクトが世界的に進んでいる。

一方で、既存の系譜推定手法は計算時間とメモリ消費量が大きく、対象とできる配列数は100万程度に限られていた。

染色体に導入された短い人工DNA配列に細胞分裂とともに変異が導入されるような仕掛けが準備される。これを搭載した受精卵から動物個体を得て、そこから一つひとつの子孫細胞のもつDNAの変異情報を解析すると、進化系統樹推定と同じように、受精卵から細胞分裂がどのように進んでその動物個体を形成したのかという系譜情報を手に入れることができる。

しかし、一般にDNA配列から系統樹を推定する手法は計算時間とメモリ消費量が大きく、これまで系譜推定が可能な配列数は最大で100万程度に限られていた。地球上に生息する種数は真核生物だけで870万種と見積もられており、また昨今ゲノム、メタゲノム解析によって次々に同定の進む微生物・ウイルスなども考慮すると、今後進化生物学が取り扱う必要があるDNAの配列数はこの計算限界を大きく超えると考えられている。また動物の発生過程における細胞系譜トレーシングにおいても、脊椎動物が数百億個〜数兆個の細胞から成ることを考えると、今後計算機的な限界に直面することが予想されていた。

FRACTALではまず、入力された大量のDNA配列の一部のみをランダムにサンプリングして、それらの小さな系譜の木を再構築する（小さな計算量）（図1）。

次に、全ての入力DNA配列のそれぞれが、その小さな木の上のどの位置に一番近いのかを推定する（小さな計算量）。その結果、もしその小さな木において入力配列がマッピングされない上流部分が現れた場合には、この上流部分については「解けていた」と判断する。このとき、上流部分の木の枝にぶら下がる形で残りの入力配列がマッピングされているので、それぞれの枝にぶら下がった配列群についてはその下流の木を独立に推定すれば良いことになる。従って、この分割された配列群に対して独立した異なる計算機を用いて同じプロセスを繰り返すことができる（もしそのような「空」の上流部分が現れなかった場合は、この結果から学んだバイアスを掛けたサンプリングを上流部分が「空」になる小さな木が得られるまで繰り返す）。

このように、FRACTALでは計算機が小さなタスクをこなした後に、残りのタスクを他の計算機に振り分け、タスクを振り分けられた計算機もまた別の大量の計算機にタスクを振り分けるという形を採用することで、巨大な系譜の推定を可能にした。

例えば、シミュレーションによって2億3500万本を超える変異が導入されたDNA配列を生成し、300ノードの計算機を用いてFRACTALを実行した。その結果、32時間以内に99.8%以上の精度でシミュレーションの配列生成プロセスを再現できることを示した（図2）。

図2：FRACTALによる2.35億配列の系統樹の再構築。多階層の分散コンピューティング生成トラジェクトリーでは、一つの円が一つの計算ジョブを示し、それが生成した分散コンピューティングタスクは次の階層の円群で示される。巨大な系譜全体の精度は直接測ることができないため、部分的な系譜の精度値から精度の推定を行った。

千葉大片山なつさんとの共同研究:カワゴケソウ科のトランスクリプトーム解析から、進化速度の変化と正の選択を受けているサイトを検出した論文です。

岩崎渉@iwasakiw さんとこのSonicParanoid利用https://t.co/8Q7IZKApNm
— Tomoaki Nishiyama (@NishiyamT) January 20, 2022

この記事が気に入ったらサポートをしてみませんか？

FRACTAL 勉強中

FRACTAL　勉強中