de novo assembly解析の評価方法と結果の解釈
こんにちは、バイオインフォマティシャンの竹本です。
プラチナバイオ株式会社では、バイオインフォマティクスを利用した標的遺伝子の特定、ゲノム編集、ゲノム編集後の解析までを一気通貫で行い、顧客の目的の表現型を構築する研究開発を進めています。
以前の記事で、de novo assembly解析とは、DNAシーケンサーで読み取ったATGCの連続的な配列情報を、パズルのピースをつなぐように組み立てて、できるだけ長い配列情報を構築する解析手法であることを解説しました。
本記事では、実際に構築されたゲノム配列(以下、アセンブルゲノム)の良し悪しを判断する5つのポイントについて、解析によって出力される数値データの意味と併せて解説します。
注目すべき5つのポイント
アセンブリ長とコンティグ数
N50スコア、L50スコア
BUSCOスコア
エラー率
冗長性
それぞれのポイントが、アセンブルゲノムの評価とどのような関連があるのか、一つずつ説明します。
1. アセンブリ長とコンティグ数
アセンブリ長とは、アセンブルゲノムに含まれる塩基(ATGC)の合計数です。
生物種によってゲノムの長さはおおよそ決まっており、例えばヒトは約30億塩基対、マウスは約28億塩基対、カイコは約5億塩基対、ニワトリは約1億塩基対、新型コロナウイルスは3万塩基程度であることが知られています。
アセンブルゲノムの長さを既知のゲノム情報や予想されるゲノム長と比較し、大きなズレがないかを確認します。ズレが少ないほど、予想通りのアセンブルゲノムが得られたと判断できます。もしも大きなズレがある場合には、解析手法を変更して再解析する場合もあります。
コンティグ数とは、アセンブルゲノムの中にコンティグ(一部だけ繋がれたパズルのピース)が何本あるかということを表しています。コンティグ数が少ないほど、アセンブリの連続性が高く、完成されたゲノムに近いことを表します。
2. N50スコア、L50スコア
N50スコアとは、アセンブルゲノムの連続性を評価する指標です。全てのコンティグを長い順に並べて、その和がゲノム長の半分に達した際のコンティグ長を指します。この値が大きいほどより長いコンティグが多く得られた=アセンブリの連続性が高いことを表します。
L50スコアとは、ゲノムアセンブリの連続性を示す指標で、全コンティグの長さを合計した際に、N50値に達するまでに必要な最小のコンティグ数を指します。L50が小さいほどアセンブリの連続性が高いことを示します。
下図は合計ゲノム長が1000bpである場合を例にした概要図です。
合計ゲノム長の半分である500bpに到達した際のコンティグ長が90bp(オレンジ矢印)であることからN50スコアは90bp、そのコンティグは4番目に長いコンティグであることからL50スコアは4となります。
3. BUSCOスコア
BUSCO(Benchmarking Universal Single-Copy Orthologs)スコアとは、アセンブルゲノムの完全性を評価する指標です。進化的に保存され単一コピーの遺伝子(オルソログといいます)がどれだけ含まれているかを検証し、評価します。生物種によってデータセットを適切に選択することが可能で、さまざまな種のアセンブリ評価に有用な指標です。
数値は%で表示され、完全なオルソログ(Complete)の割合が多いほど完全性が高いことを示します。
4. エラー率
同種または近縁種のゲノム情報(参照ゲノム配列)が高品質で利用可能な場合には、参照ゲノム配列とアセンブルゲノムを比較して、ミスマッチや配列に誤りのある領域を特定し、その割合を算出します。
高品質な参照ゲノムを利用するため、精密なエラー率の検証が可能となります。
一方、参照ゲノム配列が利用できない新規ゲノム配列の構築の場合には、ロングリードシーケンサーによって出力された配列データ(シーケンスデータ)との比較により、アセンブルゲノムのエラーを特定します。
いずれの評価においても、エラー率が低いほど高精度なアセンブルゲノムであると判断できます。
5. 冗長性
冗長性が高いアセンブルゲノムでは、本来不要な配列や重複する配列が含まれるため、アセンブルゲノム全体の精度が低下することが考えられます。また、冗長なコンティグや配列が重複している領域では、ゲノムの構造を誤って解釈する可能性があり、後続の解析である遺伝子機能アノテーション(遺伝子情報が含まれる領域を決定し、遺伝子名を付加すること)が困難になる場合もあります。
(注: 遺伝子機能アノテーションについては、別記事で解説予定です。)
アセンブルゲノムの冗長性を確認するために、参照ゲノム配列やアセンブルゲノムそのものと配列比較を行い、作図(ドットプロット)によって可視化することで、本来不要な配列や重複配列がないかを確認します。
下図はドットプロットによる可視化の例です。
灰色の枠の長さはそれぞれ、参照ゲノム配列とアセンブルゲノム配列の長さを表しています。左の冗長性なしのプロットでは、3本の独立した直線が角から角まで一直線に表示されていることによって、参照ゲノムとアセンブルゲノムの配列がほぼ一致していることを表しています。一方、冗長性ありのプロットでは、中央にオレンジ色の線が出現しており、これは重複している領域である可能性を表しています。また、直線が角からずれた位置にあることから、水色部分が参照ゲノムにはなく、アセンブルゲノムにだけある配列であることが示されています。
上記のような解析の結果、多くの冗長性が確認された場合には、追加で冗長性を減らすための解析を実行し、より質の高いアセンブルゲノムの構築を目指します。
おわりに
弊社では、上記の評価方法を活用し、de novo assembly解析によって得られたアセンブルゲノムを評価しています。解析結果であるテキストデータや作図データはレポートとともにお客様へ納品しております。解析を受注いただいたお客様へは、必要に応じて解析レポートのご説明をさせていただきますので、解析結果をより深くご理解いただく一助となれば幸いです。
また、de novo assembly解析についてお客様よりよくいただくご質問についてはこちらの記事にてまとめていますので、ぜひご一読ください。