ショートリードでトランスポゾンをさくっと調べる方法(網羅的ではない)
使うプログラムとサイト
1. tantan
condaで一撃で入った。
2. GeneMiner
チュートリアル通りに入れた。
エラーが出たけど、ファイルの中身の名前を修正して、
python setup.py install としたら問題なく動いてくれた。
3. BBtools
conda install -c bioconda -y bbmapで一撃で入った。
4. FishTEDB 2.0 OnlineやDfam
FishTEDBならSpeciesから適当な種のトランスポゾンとかfasta形式のファイルを取得する。
手順
① あとのプログラムで単純反復配列があるとエラーが出るのでNに修正する。
tantan -x N Danio_rerio.fa > Danio_rerio_masked.fa みたいにやる。
② マルチFASTAファイルの場合、grepを使ってFASTA数を調べる。
grep -n ">" Danio_rerio_masked.fa |wc -l みたいな感じで調べられる。
③ マルチFASTAファイルの場合で分割するなら、以下のようにコマンドを打つ。
partition.sh in=Danio_rerio_masked.fa out=TP_list/Number%.fasta ways=2279
in= のあとに対象のファイル名、 out= のあとには分割後のファイルを入れるフォルダと分割後の名前を入れる。ways= のあとは②で調べた数を打ち込む。下のようにNumber%.fastaとしておくと分割後の名前がNumber1.fasta、Number2.fasta、…と出力される。
④ geneminerを動かす。オプションなどは適宜設定する。
geneminer.py -1 DRR172175_1.fastq.gz -2 DRR172175_2.fastq.gz -rtfa TP_list -o refDanio_rerio_masked_genemine_out -b 10000 --thread 10
-1 、-2のあとにはペアエンドのショートリードを記入。-rtfa のあとにはFASTAファイルかそれらが入ってるフォルダを指定し、-o のあとは出力されるファイルの名前を打ち込む。
あとは出力されたデータを見てトランスポゾンが拾えてるか確認する。
トランスポゾンのDBに参照するとかblastしてみるとかリピートマスカーに当てるとか試せば良い。
参照配列と近い配列をショートリードから検出しているはずなのでその配列が結構違うと拾えてこない。近い系統で軽くトランスポゾンを見てみる感じ。
あとはDNAトランスポゾンとかをさくっと探したいときに良い感じがする。さくっと水平伝播とか調べるのに良いかも。
A new repeat-masking method enables specific detection of homologous sequences", MC Frith, Nucleic Acids Research 2011 39(4):e23
https://gitlab.com/mcfrith/tantan
GeneMiner : a tool for extracting phylogenetic markers from next-generation sequencing data
https://github.com/happywithxpl/GeneMiner
BBTools
https://sourceforge.net/projects/bbmap/
https://jgi.doe.gov/data-and-tools/software-tools/bbtools/
https://kazumaxneo.hatenablog.com/entry/2017/12/27/122431
FishTEDB
https://www.fishtedb.org/project/index?n=fishtedb
https://www.fishtedb.org/project/species-detail?species=Acipenser+ruthenus