次世代シーケンス(NGS)解析を始めたばかりの方は、NGSが大量のデータを生み出すこと、その大量のデータに含まれる意味を見出すことに大変な苦労があると聞いたことがあるかもしれません。でも、バイオインフォマティクスを怖がる必要はありません。NGSの力を用いれば、一度のシーケンスランで数百、数千の遺伝子、それどころか全ゲノムの配列を扱うことができるのです。スループットやスピードは遺伝学研究を加速させるのに理想的である一方、得られるデータの量は圧倒的です。探しているものを見つけようとするとそれはまるで干し草の中の一本の針を探すように困難に感じられるときもあるでしょう。幸運にも、多くのNGS用のバイオインフォマティクスツールはデータの解析と解釈を行いやすくします。
そこで今回は、一般的なNGSデータ解析のワークフローをご紹介します。こちらを読んでいただければ、NGS解析がそれほど怖くないことをわかっていただけるでしょう。
▼こんな方におすすめです!
・次世代シーケンシング解析未経験の方
・次世代シーケンシング解析を始めたばかりの方
NGSは大量のA、T、G、Cを生み出しますが、どうやってそこから生物学的な意味を見出すのでしょうか?シーケンスリードの集まりはリファレンスゲノムに従って並べる(アラインメント)ことができ、これをBAM(Binary Alignment Mapping file)ファイルという形式のファイルに出力することができます。BAMファイルは多くのNGS用ソフトウェアのインプットファイルとして標準的なファイル形式で、たとえば変異解析のような多くのアプリケーションで用いられます。なお、リファレンスゲノムがなくても問題ありません。シーケンスリードの集まりを使って、特別なNGS用ソフトウェアを用いることによりリファレンスゲノム自体を作ることができます。これをde novo assemblyと呼びます。リードがリファレンスゲノムにマッピングされたbamファイルを得たら、次に何をしましょうか。変異検出の例をもちいて「干し草の中から針を見つける」方法についてより詳しく見ていきましょう。
バイオインフォマティクスのツールを使えば、リファレンスゲノムと比較して異なる部分(Variant:変異)の情報を特定できます。変異には、一塩基多型(Single nucleotide polymorphisms, SNP)、挿入・欠失(insertions/ deletions)、構造変異(Structural variants)があります。これらの変異検出(Variant call)の結果はVCF(Variant Call Format)というファイル形式で出力されます。このファイルは変異検出を行うソフトウェアで検出されたすべての変異のリストを含んでいます。
これらの違いにはどんな生物学的な意味があるのでしょうか?これこそがNGSバイオインフォマティクス解析の本当に面白いところです。VCFファイルをインプットファイルとして用いるソフトウェアがあります。このツールは変異の情報と、アノテーションデータベースを比較します。アノテーションデータベースは変異と、機能のタイプ、プロセス、パスウェイや疾患とを関連づけています。あなたのデータをこれらのアノテーション情報に基づいてしぼりこむことで、あなたの研究に関連する変異にフォーカスし「針」により近づく助けとなります。
NGSはゲノミクスに革命を起こし、かつてないほどの速さでデータを提供します。利用可能なすべてのNGS解析ツールによって、重要な遺伝学的な関連や傾向を明らかにしたり、新しいリファレンスゲノムを作成したりすることがこれまでほど困難ではなくなりました。NGSと発展したバイオインフォマティクスツールの組み合わせにより、データを迅速に得られるだけでなく、重要な答えをより迅速に取得し、より健康な未来に導くことができます。
NGSデータ解析でさらにご質問がある場合はこちらからお問い合わせください。サービスも提供しています。
次世代シーケンサ(NGS)入門
次世代シーケンスの原理や何ができるかがよくわからない、または自分の研究領域にどのように活用できるかわからないという方向けに、次世代シーケンスの基本や各研究領域に特化したアプリケーションをまとめました。リンク先から、それぞれの領域に応じたページをご覧いただけます。
次世代シーケンス データ解析オンライン個別相談
IonTorrentユーザでデータ解析に関する具体的な課題をお持ちの方には、無料の個別相談の時間を開設しています。
研究用にのみ使用できます。診断用には使用いただけません。