新しいベースコーラーを活用した、Indelを含むシーケンス解析の効率化

ダイレクトシーケンス法とは、大腸菌を用いたクローニングなどのステップを介さず、PCR産物を直接鋳型として塩基配列を決定する方法です。クローニングする方法に比べ、短時間で簡便にシーケンス解析結果を取得できるため、広く利用されています。一方、ヘテロ接合で挿入や欠損(Indel)を含むサンプルをダイレクトシーケンス法で解析した場合、Indel以降が二重波形になり、塩基配列の解読が困難になる課題があります。本ブログでは、この課題を解消するためのアプローチをご紹介いたします。

新しいベースコーラー“SDB”

ジェネティックアナライザでシーケンス反応産物を泳動し、取得された蛍光シグナルの情報は、ベースコーラーと呼ばれるアルゴリズムで解析することで、塩基配列の情報に変換されます。当社が提供するシーケンス解析ソフトウエアの多くは、Applied Biosystems™ KB™ Basecallerを採用していますが、新しいベースコーラーとして、Applied Biosystems™ Smart Deep™ Basecaller(SDB)をご利用いただけるようになりました。SDBは、Applied Biosystems™ Sequencing Analysisソフトウエア v8で使用できます※1
※1 SDBの使用には有料の年間ライセンスの取得が必要です。

KB Basecallerを用いた解析では、ヘテロ接合性Indelを含む塩基配列を正しく解析できない課題がありましたが、SDBでは、より高精度のベースコールが行えます。Sequencing Analysisソフトウエア v8を用い、ヘテロ接合性Indelのサンプルを、KB BasecallerとSDBで解析した結果を図1に示します。赤矢印で示す箇所から波形が二重になっており、この箇所にIndelが存在することがわかります。エレクトロフェログラムの各ピークの上部には、ピーク情報に基づいて解析(ベースコール)された塩基が表示されます。図1は、同一箇所に2つのピークが検出された場合、混合塩基(AとGはR、CとTはY、など)と表示する設定で解析した結果です。Sequencing Analysisソフトウエアでは、塩基情報はIUPAC/IUBコードにのっとって表示されます。KB Basecallerで解析した結果では、ピークが重なっているにも関わらず、単一塩基表示(A、T、G、またはC)されているエラー箇所が複数見られます(図1 赤枠部)。これに対し、SDBで解析した結果は、ピークが重なっている箇所が混合塩基として正しくベースコールされました。

図1. ヘテロ接合性Indelサンプルのシーケンス解析結果
a) KB Basecaller、b) SDBを用いベースコールを実行。混合塩基としてベースコールされた箇所を、黄色でハイライト表示。 赤矢印:Indelが存在すると推定される箇所。 赤枠:ベースコールエラー箇所。

この結果から、SDBがより精度の高いベースコーラーであることをご理解いただけると思います。

混合塩基表示された塩基配列からのIndelの判定

図1に示すように、ヘテロ接合性Indelサンプルは、Indel以降の波形が二重になるため、塩基配列の解読が困難です。SDBでベースコールされた塩基配列を活用することで、この課題を解決できるのではないかと考えました。
解析方法の概念図を図2に示します。SDBでは、Indel以降の二重波形の領域を、正確に混合塩基としてベースコールできます。この解析方法ではまず、SDBでベースコールされた塩基配列中の混合塩基を、単一塩基に変換します。次に、単一塩基に変換された塩基の情報を、リファレンス配列と比較し、リファレンスと異なる塩基を抽出した配列情報を取得します(図2 抽出配列)。リファレンス配列と抽出配列を比較することで、Indelを判定できます。図2の場合、リファレンス配列には存在するC(赤枠部)が、抽出配列では欠損していることがわかります。

図2. Indel解析方法の概念図

専用ツールを用いたIndel解析の効率化

上述した方法で、実際にヘテロ接合性Indelサンプルを解析できるか検証するために、Applied Biosystems™ 3730xl DNAアナライザで取得されたランデータを解析しました。
まず、Sequencing Analysisソフトウエア v8を使用し、ランデータをSDBで再解析しました。再解析したエレクトロフェログラムの一部を図3に示します。a)はヘテロ接合性Indelサンプル、b)はIndelを含まないコントロールサンプルです。SDBで再解析して得られた塩基配列情報(表1)は、テキストファイル(.seqファイル)として出力しました。

図3. シーケンス解析結果
a)ヘテロ接合性Indelサンプル、b)コントロールサンプル。
混合塩基としてベースコールされた箇所を、黄色でハイライト表示。

表1. SDBでベースコールされた塩基配列

図2の「混合塩基から単一塩基への変換」、「リファレンス配列と比較し、異なる塩基を抽出」の工程を効率化するために、Microsoft™ Excel™のマクロを使用してツールを作成しました。
作成したツールに、ヘテロ接合性Indelサンプルの.seqファイルを読み込むと、自動的に、混合塩基が単一塩基に変換されます。次にリファレンスとして使用するファイルを読み込みます。今回は、コントロールサンプルをリファレンスとして用いました。リファレンスファイルを読み込むと、ヘテロ接合性Indelサンプルとリファレンスの塩基配列を比較し、抽出配列が自動的に作成されます。ツールでの解析結果の一部を図4に示します。リファレンスと抽出配列を比較することで、Cの欠損と判定できました。

ツールを用いたIndel解析結果

図4. ツールを用いたIndel解析結果

相補鎖側のシーケンス解析データに対しても同じ解析を実施した結果、Gの欠損と分かり、本解析方法で、Indelを判定できることが確認されました。また、SDBと作成したツールを活用することで、今回のサンプルについては、1サンプルあたり5~10分程度でIndelを判定できました。以上の検証結果から、本方法で、ヘテロ接合性Indelサンプルの塩基配列を解析し、効率的にIndelを判定できることがわかりました。

まとめ

ダイレクトシーケンス法は、簡便に塩基配列を解析できる手法として汎用されていますが、ヘテロ接合性Indelサンプルの解析が困難である課題がありました。そこで今回は、この課題を克服するアプローチとして、新しいベースコーラーであるSDBと、専用のツールを用いた解析方法をご紹介しました。Indelをはじめとする変異解析にお困りの方、本解析方法にご興味をお持ちの方は、ぜひテクニカルサポートjptech@thermofisher.comへお問い合わせください。

キャピラリー電気泳動によるシーケンス解析について、より詳しく知りたい方は、こちらからサンガーシーケンスの基本原則を学べる資料をダウンロードしていただけます。また、変異解析用ソフトウエアのセミナーやハンズオントレーニングもございますので、ぜひご活用ください。
サンガーシーケンスを用いた変異解析 ~ソフトウエアを利用した効率化~
完全マスター!ハンズオントレーニングコース キャピラリーシーケンサ(3)データ解析 ~変異解析編~

研究用にのみ使用できます。診断用には使用いただけません。
Microsoft and Excel are trademarks of Microsoft Corporation.

記事へのご意見・ご感想お待ちしています

  • サーモフィッシャーサイエンティフィックジャパングループ各社は取得した個人情報を弊社の個人情報保護方針に従い利用し、安全かつ適切に管理します。取得した個人情報は、グループ各社が実施するセミナーに関するご連絡、および製品/サービス情報等のご案内のために利用させていただき、その他の目的では利用しません。詳細は個人情報の取扱いについてをご確認ください。
  • 送信の際には、このページに記載のすべての注意事項に同意いただいたものとみなされます。