見出し画像

ギャップペナルティ / アライメントのプログラムに関連して

こんにちは。早雲です。

この記事はすこし専門的な内容になっており、『生物学に特化した短編小説とエッセイ』とは別のマガジンに組み込まれています。

先日アライメントの仕組みを知るためのプログラムを記事に載せました。

それに関連して、今回はアライメントで必要な引数(パラメータ)、ギャップペナルティの話をしたいと思います。この記事は個人的に勉強した際のメモを改変しています。すこしわかりづらいかも……。

・ギャップペナルティとは?

塩基配列のアライメントは、すこし乱暴に言えば、ギャップを入れることで複数の配列を比較できるようにする、という操作と言えます。

つまり、核酸やアミノ酸配列のアライメントを行う際に欠損や挿入が起こっている箇所をデータ的に補完するためにギャップが入れられるんですね。

ですが、ギャップを制限なくギャップを入れてしまっては、最適なアライメント結果が得られません。

まあ、当然ではあります。ギャップをいくら入れてもよいのであれば、たとえ全く違う祖先をもつ塩基配列であっても、比べることができてしまいます。

なのでアライメントの際にギャップを入れるときには減点を行わなければなりません。

その減点する際の点数が、ギャップペナルティです。それによって、むやみやたらにギャップが入るのを防ぐことができます。

まとめると、ギャップペナルティーはアライメントを適正におこなうために設定されていると言えそうです。

・オープンペナルティと延長ペナルティ

ギャップが挿入されるパターンは二種類に分けられます。ギャップオープンペナルティとギャップ延長ペナルティーです。

ギャップオープンペナルティはギャップがない箇所にギャップを挿入することであり、一方ギャップ延長ペナルティーはギャップが挿入されている箇所にさらにギャップを追加することです。

ギャップオープンペナルティとギャップ延長ペナルティを比べると、前者のほうが減点数が高い傾向にあります。その理由は、欠損や挿入がいくつもの残基に同時に起こることが多いと考えられているからです。

つまり、ある配列の特定の箇所に

①1残基のみの欠損もしくは挿入が起こる
②数残基の欠損、もしくは挿入が起こる

という場合を仮定すると、①より②のほうが可能性が高いということです。そのためギャップ延長ペナルティはギャップオープンペナルティよりも減点数が低いのです。

・ちょっとメモ過ぎた…

あまりわかりやすくなかったかもしれませんね…。ただ、情報を眠らせておくのはもったいないなと思っていたので、駄文ですが、ここに公開いたします。
それと、『生物学に特化した短編小説とエッセイ』では生物学を題材にした小説やエッセイを書いています。

興味がある方はぜひ、読んでください。
ではまた。

この記事が気に入ったらサポートをしてみませんか?