こんにちは、Natalieです。
サンガーシーケンスのデータ解析時に使用される用語について、Kuwait 大学のPhilipから質問を受けました。皆さんもこのトピックについて、もっと知りたいのではないかと思い、テクニカルサポートグループのMikeと話をし、サンガーシーケンスにおけるデータ解析の用語について、ここで簡単に説明することにしました。
▼こんな方におすすめです!
・サンガーシーケンス データ解析時の用語について、より理解を深めたい方
▼もくじ [非表示]
用語について
Philipからの質問:
こんにちは!キャピラリー電気泳動で得られる生データの、「Trace」という用語と、QCを推定する必要性を理解するのに苦労しています。シグナル強度とは何ですか?また、QV20 +、Trace score、Offscale、Median PUP、の意味についても教えてください。
回答:
こんにちは!キャピラリー電気泳動のデータを、より簡単に理解できるよう、まず用語のいくつかを定義してみまししょう:
Trace
1本のキャピラリーから得られたデータファイルで、Sequencing Analysis、Variant Reporter、SeqScape、Variant Analysisモジュール(クラウド)、Quality Checkモジュール(クラウド)などの分析ソフトウェアにインポートされるファイル。
QV20 +
Trace全体の塩基の総数のうち、Basecaller(解析ソフトで塩基を決定する際のアルゴリズム)で算出されたQuality Value>=20の数。
Quality Value
Basecall(塩基の決定)、およびConsensus callingアルゴリズム(低頻度のアルゴリズムエラーに応じた、高信頼度の値)の信頼性の尺度。
Trace quality valueは、Traceにおける1塩基ごとの信頼性の値、Consensus quality valuesは、コンセンサス配列ごとのVariantAnalysisモジュール、およびVariantReporterで使用される信頼性の値。
Trace score
Clear rangeにおける、塩基のQuality Valueの平均。トリミングをオンにした場合のClear rangeは、低品質領域や、エラーが発生しやすい5’末端と3’末端の配列を除外した後に、残った領域を指す。
Offscale
検出限界値を超えたデータ。解析範囲内の、少なくとも1つのデータポイントが、CCDカメラの検出限界値を超えている状態を示している。これは、蛍光シグナルが非常に高いため、カメラが正確な明るさを判断できず、その結果Trace内のピークには、蛍光強度の度合いは反映されない。このような場合、スプリットピーク(先割れ)や、上部が平坦なピークで表示されることがある。
Median PUP
ノイズの測定値。Clear range内において、塩基を決定しているメインピークのシグナル値と、2番目に高いピークのシグナル値の比、の中央値。
シグナル強度について
では、ここからはシグナル強度について説明します。
動画「How Does Sanger Sequencing Work」の1分30秒付近から、ddNTPの取り込みと蛍光の関係性についての説明があります。
特定の塩基位置でのddNTPの取り込みが多いほど、DNA断片がキャピラリー内を移動するにつれて蛍光シグナルが高くなります。装置の感度は、シグナル強度に依存します。より感度の高い装置は、通常はベースラインノイズと重なり、検出が困難な低いシグナルも検出できることがあります。ただし、より感度の高い装置であっても、検出限界を超える場合(解析範囲内に、CCDカメラの検出限界を超えたデータポイントが、1つでもある場合)もあります。
よって、最適な実験系を確立するために、DNAの定量には注意を払う必要があります。
まとめ
その他の用語についての定義と、各項目の値の変更方法については、Thermo Fisher CloudのQuality Checkモジュール内、Actionメニューから、「Quality Frag Settings」を確認してください。
今回の情報がお役に立ちましたら幸いです。その他、サンガーシーケンスのデータ解析について、ご不明点がありましたら、jptech@thermofihser.comまでぜひご質問をお寄せください。
【無料公開中】サンガーシーケンスの基礎
このケミストリーガイドでは、ワークフローからアプリケーションまでサンガーシーケンスの基本原理を学べます。
研究用にのみ使用できます。診断用には使用いただけません。