今回は、古き良き手法であるサンガーシーケンスを使用した、次世代シーケンスのデータ検証についてです。もしかすると「一体、なぜそんなことをする必要があるのか?おかしな話ではないか!」と、思われる方もいらっしゃるかもしれません。しかし、アメリカ大統領の有名な格言にあるように、「信頼せよ、されど確認せよ」なのです。
ただし、必ずしも全てのNGSデータを検証する必要があると言っているわけではありません。
ここは誤解しないでいただきたいのですが、NGSはここ数年で進化し、使用されるアプリケーションに関係なく、確固たる技術となっています。
多くの研究者の方々は、おそらく特定のバリアントが、疾患感受性、疾患の進行、あるいは表現型の変化に果たす役割を特定しようとしているのではないでしょうか。そのため、正確なバリアントを特定することは、研究成果に関わる極めて重要なことなのです。
それでは、なぜ検証が必要なのか、早速見ていきましょう。
※ブログ本文でYouTube動画内容をお伝えしていますので、合わせてご覧ください。
▼こんな方におすすめです!
- NGSデータで得られたバリアントの検証が必要な方。
- NGSで取得したデータを用いて論文投稿を予定されている方。
▼もくじ
バリアントの検出精度低下につながる要因
NGSの技術で使用されているケミストリーは、低頻度変異の高感度検出を可能にしていますが、時に混乱を招いたり、誤った解釈につながる低頻度のシーケンスエラーを引き起こしたりすることがあります。
全ての配列が、同じ効率で結果を得られるわけではないため、NGSデータにおいてはリード数にばらつきが生じ、不確実性を招きます。二次構造や、反復配列、またその他の要因により、ポリメラーゼによる伸長反応が難しい配列の場合は、データのクオリティーが低下します。
加えて、いくつかのNGSターゲットシーケンスのアプローチでは、ライブラリー調製前のハイブリダイゼーションによるキャプチャ効率にも依存します。このハイブリダイゼーションは、配列に大きく依存するため、最終的にライブラリーの構成に影響を与える可能性があります。結果の信頼性は、検出された配列数に依存するため、最終的に出力されたデータ内のクオリティーが低い領域は信頼性が低く、故にこれらのバリアントは本物なのだろうか?と悩むことになります。
また、使用しているプラットホーム特有のシーケンスバイアスもあるでしょう。例えば、GCリッチの領域は、特に配列を読むのが難しい領域です。そのため、読み取りエラーが発生する可能性があり、使用している装置に関係なく、特定のタイプのエラーが発生する可能性があります。長いホモポリマー配列を読む場合も、同様に読み取りエラーが発生する可能性があります。しかし、ありがたいことに、最新のIon Torrentシーケンス技術により、これらの問題は減少しています。
最後になりますが、NGSデータのアライメントや、変異解析のソフトウエアが異なると結果が異なることがあります。システムが異なるため、異なるエラーが発生し、またそれぞれ発生率や様式も異なります。従って、同じプラットホームで、再解析を行っただけでは、これらのエラーが解決される可能性は低いです。そのためバリアントの検証は、システム由来のバイアスを持たないように、異なるプラットホームを用いて再解析をする必要があります。
繰り返しになりますが、これは全てのNGSシステムに言えることです。
検証用ツールとしてサンガーシーケンスが最適な理由
これで、NGSデータ検証の必要性について、ご理解いただけたのではないでしょうか。
では、なぜサンガーシーケンスが、確認方法として最適な方法なのでしょうか。長年シーケンスに携わっている方であれば、既にこのシンプルなワークフローをご存じかもしれませんが、サンガーシーケンスは、一度に一本鎖DNAを99.99%の精度でシーケンスでき、検証用ツールとして非常に信頼性が高く、いまだゴールドスタンダードとされています。また、サンプルが少量で済むため、サンガーシーケンスは最も費用対効果がある塩基配列決定法、と言われているからです。
まとめ
- シーケンス効率、キャプチャ効率などが、バリアントの検出精度に起因する
- 再解析をする場合は、異なるプラットホームで実施する
- NGSデータのバリアント検証には、費用対効果の高いサンガーシーケンスが最適
Ion Torrent次世代シーケンサ テクニカルハンドブック
サンガーシーケンスの基礎 ハンドブック
研究用にのみ使用できます。診断用には使用いただけません。



