バイオインフォマティクスのすすめ(1)
この第1回目から配列比較(配列アライメント)について行っていきます.
今回は配列アライメントのための準備(配列の取得)について記します.
目次
0.始めに
1.配列情報の取得
2.ファイル名の付け方
3.ファイルの中身(FASTA形式について)
4.まとめ
0.始めに
この回では実際に配列アライメントをしてみます.DNA配列とアミノ酸配列の両方とも行います.
最初に手順を示します.
① 配列情報の取得(KEGG GENES DATABASE)
⬇️
② 配列アライメント(NPS@)
1.配列情報の取得
最終目標は配列アライメントですが,当然比較したい配列が必要です.そこで,まずは配列を検索して取り出します.配列検索はKEGG GENES DATABASEを用います.もちろん,配列検索データベースは他に幾つもあるので使い慣れているデータベースがあればそちらをお使いください.
GoogleでKEGGと検索する,もしくは以下のURLを打ち込みます.
https://www.genome.jp/kegg/genes.html
KEGG: Kyoto Encyclopedia of Genes and Genomes
生物種を特定しないでGENEを検索することもできますが,生物種(Organism)を指定してGENEを検索することができます.
ここでは,生物種およびGENE両方とも指定します.GENE枠にはタンパク質名(慣用名・正式名)を入力することもできます.
Search Organism( "bsu" )for ( "ftsz" ) と入力し,Goを押します.
※ ""は除く
Bacillus subtilis (Bsu) のftszは1項目しか出ないはずなので,そのままリンクをクリックすると,以下のページに飛びます.
このページを下までスクロールすると,以下のようにDNA配列とアミノ酸配列情報が記されています.
これらの配列情報をユーザーが使用しているPCのOSに標準装備されているテキストエディタやTerminalに上図のように選択しコピペして保存します.保存形式は ".txt" や ".rtf" でも良いですが,今後の事を考えると拡張子変更をして ".seq" で保存するのが良いのかな?とも思います.
次に,Bsuのftszと比較するために,Staphylococcus aureus (Sau) のftszを用います.
Bsuのftszと同様の方法で検索します.
Search Organism( "sau" )for ( "ftsz" ) と入力し,Goを押します.
※ ""は除く
Staphylococcus aureusのftszも1項目しか出ないはずなので,そのままリンクをクリックすると,以下のページに飛びます.
同様に,このページを下までスクロールするとDNA配列とアミノ酸配列情報が記されているので,それぞれを別々のテキストエディタにコピペします.
2.配列の保存方法(FASTA形式について)
DNA配列やアミノ酸配列ともに,配列(DNAの場合4種類,アミノ酸の場合20+α種類のアルファベット文字列)だけをテキストエディタに記して保存する方法と,これから説明するFASTA形式(FASTAフォーマットともいう)という記述式を用いて保存する方法があります.
記述方法に強制力は無いのでどちらでも構いません.しかしながら,特に複数の配列を同じファイルに保存する場合など,配列のみを記すと後で見返したときに不都合になりかねない,というのは想像に難くないと思います.
ですので,FASTA形式でまとめる方ことをお勧めします.様々なサーバー,特にシーケンスアライメントのソフトウェアの多くでは,FASTA形式が好まれ,世界標準化しているので,FASTA形式を覚えておく必要があります.
そもそもFASTAとは,シーケンスアライメントのソフトウェアパッケージの一つです.現在は,FASTAはほとんど使われず,後述するBLASTの方がメジャーです.
では,FASTA形式とは何かについて簡潔に解説していきます.簡単に言えば下のコラムの通りですが…
FASTA形式の例
(1番目はbsu_ftszのアミノ酸配列,2番目はsau_ftszのアミノ酸配列)
>bsu_ftsz_aa
MLEFETNIDGLASIKVIGVGGGGNNAVNRMIENEVQGVEYIAVNTDAQALNLSKAEVKMQIGAKLTRGLGAGANPEVGKKAAEESKEQIEEALKGADMVFVTAGMGGGTGTGAAPVIAQIAKDLGALTVGVVTRPFTFEGRKRQLQAAGGISAMKEAVDTLIVIPNDRILEIVDKNTPMLEAFREADNVLRQGVQGISDLIATPGLINLDFADVKTIMSNKGSALMGIGIATGENRAAEAAKKAISSPLLEAAIDGAQGVLMNITGGTNLSLYEVQEAADIVASASDQDVNMIFGSVINENLKDEIVVTVIATGFIEQEKDVTKPQRPSLNQSIKTHNQSVPKREPKREEPQQQNTVSRHTSQPADDTLDIPTFLRNRNKRG
>sau_ftsz_aa
MLEFEQGFNHLATLKVIGVGGGGNNAVNRMIDHGMNNVEFIAINTDGQALNLSKAESKIQIGEKLTRGLGAGANPEIGKKAAEESREQIEDAIQGADMVFVTSGMGGGTGTGAAPVVAKIAKEMGALTVGVVTRPFSFEGRKRQTQAAAGVEAMKAAVDTLIVIPNDRLLDIVDKSTPMMEAFKEADNVLRQGVQGISDLIAVSGEVNLDFADVKTIMSNQGSALMGIGVSSGENRAVEAAKKAISSPLLETSIVGAQGVLMNITGGESLSLFEAQEAADIVQDAADEDVNMIFGTVINPELQDEIVVTVIATGFDDKPTSHGRKSGSTGFGTSVNTSSNATSKDESFTSNSSNAQATDSVSERTHTTKEDDIPSFIRNREERRSRRTRR
FASTA形式は,1つのシーケンスデータ(アルファベット文字の羅列)をプレーンテキスト(文字コードのみで構成されるテキストデータ)を用いて記述する方法です.難しくありません.
① 1行目の先頭に ">" を記述し,ヘッダ行とします.
ヘッダ行は1行目のみで,>以降,スペースをあけずにヘッダを入力
(正)>bsu_ftsz_aa (誤)> bsu_ftsz_aa
② 2行目以降は,実際のシーケンスデータが記されます.
このシーケンスデータは改行を認識しません.
③ 複数種類の配列を羅列する場合,次に ">" で始まるヘッダ行の登場で
シーケンスデータが区切られます.
つまり,2番目以降の配列の前行に ">"行を置かないと,2番目の配列
も1番目の配列に含まれると認識されてしまいます.
3.ファイル名の付け方
最後に,ファイル名の付け方について,言及しておきます.
これはバイオインフォマティクスに限らず,どの場面でも重要になってくることですが,もし今後,この作成したファイルを自分以外の誰かに見せる・引き継ぐことが一切無いと断言できるなら,その人の好きなように扱って構いません.しかし,少しでも他人の目に触れる機会があるなら,一般化する方が好ましいと思います.
以下の例はあくまで例なので参考までに.
Bacillus subtilis の ftsz では,"bsu_ftsz"
Staphylococcus aureus の ftsz では "sau_ftsz" と名付けることにします.
今回はDNA配列とアミノ酸配列の両方とも必要なので,ファイル名の末尾に "NT" (DNA) や "AA" (アミノ酸) を付けると良いでしょう.
先述の通り,配列を保存する場合の拡張子は ".seq" をお勧めします.拡張子変更が難しければ,rtfでもtxtでも良いです.
もし日付を付けておきたければ,頭に "181128_" などと付けるのも良いかもしれません.
bsu_ftsz_nt.seq (bsu_ftszのDNA配列)
bsu_ftsz_aa.seq (bsu_ftszのアミノ酸配列)
sau_ftsz_nt.seq (sau_ftszのDNA配列)
sau_ftsz_aa.seq (sau_ftszのアミノ酸配列)
181128_sau_ftsz_aa.seq (日付ありの例)
4.まとめ
今回は配列情報の取得について解説しました.
自分は配列アライメントを行うときは必ずこのルートで行っているので,迷ってる方はこの流れに身を置いてみるのも一つと思います.
(この流れは実際に自分が学部生の頃に学生実験で習った方法です)
次回は,今回取得した配列を用いて配列アライメントを行います.
そのうえで配列アライメントとは何ぞや,と突っ込んで説明していこうかなと考えています.
今後ともどうぞよろしくお願いいたします.
この記事が気に入ったらサポートをしてみませんか?