
図1.Applied Biosystems UK Biobank Axiomアレイのコンテンツ
この記事は、遺伝子型と表現型の間の複雑な関係の分析と解釈に焦点を当てた、予測ゲノミクス教育シリーズの一部です。さまざまな遺伝子型決定戦略に関する洞察を得られるように、本シリーズを確認ください。遺伝子型解析の選択肢については、弊社までお問い合わせいただくか、弊社のマイクロアレイソリューションをご覧ください。
マイクロアレイとシーケンシング技術が、より迅速な遺伝子型決定を可能にするように進化するにつれて、遺伝子型解析を実施される個人の人数が加速しています。2018年3月の時点で、US National Center for Biotechnology Information (NCBI)の一塩基多型データベース(dbSNP)には6億以上の既知変異が登録されています[1]。さらに研究が続くにつれて、その数は驚異的な率で増え続けています。
登録数増加のペースは刺激的な可能性をもたらす反面、このような膨大な遺伝子型資源の活用は複雑な実験的挑戦を意味します。バイオマーカーの発見が精密医療のための日常的な臨床応用をもたらすためには、科学者は遺伝子マーカーと医学的状態との間の関連について、強力な統計的証拠を築き上げなければならないからです。サンプルサイズが大きいということは、臨床および消費者への応用だけでなく、研究の進歩を可能にする統計的厳密さを持つ変異(一般的な変異とまれな変異の両方)を同定する鍵となります。
▼もくじ
バイオバンクは数の上で力を与える
大規模なバイオバンクで遺伝情報は、科学者が広範な研究応用のために利用できる、数十億の豊富な遺伝子型のデータセットとして保持されています。各バイオバンクは、それぞれ独自の用途、遺伝子型決定戦略、およびボランティアからのサンプルとデータ、というリソースを持っています。
たとえば、UK Biobankは、英国国民保健サービス(NHS)内で同意が得られた50万人の遺伝子型、各参加者の血液および尿サンプルならびに完全な医療記録が収集されています。UK Biobankは、世界のどこよりも最大の人々を対象とし、各参加者の出生から死亡までの詳細な記録をNHSが保持しているため、非常に貴重なリソースであるといえます。参加者の医療記録はシステム全体からアクセス可能であり、UK Biobankがカバーする広範囲の疾患や特性に関心のある研究者なら誰でもデータを利用できます。
他のバイオバンクもまた、特定の集団およびワールドワイドな疾患の原因を調査するための豊富なリソースです。独自のバイオバンクを構築し始めている国や組織の数は増えています。たとえば、2018年10月に発足したFinnGenプロジェクトでは、フィンランド全土に張り巡らされたバイオバンクの広範なネットワークから、遺伝情報とデジタルの健康記録を収集し、より優れた診断法や新しい治療法などの医療革新を可能にしようとしています。
東北大学東北メディカル・メガバンク機構(ToMMo)では、2011年より岩手医科大学と共同で、15万人規模の日本人一般集団を対象としたゲノムコホート調査を実施しています。甚大な被害をもたらした東日本大震災後の健康への影響を理解するとともに、多因子疾患の発症リスク予測モデルを開発し、個別化医療・個別化予防を実現することを目的として、ゲノム情報や長期間に渡る健康調査情報を収集、評価しています。
China Kadoorie Biobank(CKB)は、中国の非常に大きな人口を活用して、中国人集団における一般的な慢性疾患の主要な遺伝的および環境的要因を調査しています。このバイオバンクには、中国の10の地理的地域に住む51万人以上の成人の遺伝的データ、表現型測定値、血液サンプルが含まれています。
米国退役軍人省は米軍の退役軍人に焦点を当てています。彼らはミリオン·べテラン·プログラム(MVP)を開始し、軍事関連および他の病気を研究するために、遺伝的データと健康情報のデータベースを構築しています。
アレイ設計のためのインピュテーション
既知のSNPおよび他の変異の数が非常に多くなったため、タギングを用いる従来のSNP選択方法では、もはやゲノム全体に解析するために十分な範囲を提供できません。たとえば、Kaiser Permanenteとカリフォルニア大学サンフランシスコ校(UCSF)は、2007年に10万名のKaiser Permanente参加者を対象としたゲノムワイド関連解析(GWAS)の共同研究を開始しました。チームは、以前の集団コホートよりも遺伝的多様性が高く、変異頻度が低い大規模な多民族および多民族コホートの遺伝子型を調べました。初期の研究では、ほとんどのヒト集団でもっとも一般的な変異を捕捉するために従来のSNPタグを用いました。また、インピュテーション遺伝子型決定アルゴリズムを活用して、関連解析の精密なマッピングを改善するとともに、異なる研究の結果を統合することを容易にしました。

図2.急速に拡大するApplied Biosystems Axiomバイオバンクと精密医療ネットワーク
しかしながら当時、より大きな多様性、よりまれな対立遺伝子に対してゲノムワイドにカバーするために、単一アレイで利用可能であったものよりも高密度のSNPを必要としました。SNPタグ付けとインピュテーションを組み合わせても、このように非常に大規模なプロジェクト用のアレイを設計、作成するための実用的な、あるいはコスト・パフォーマンスの高いアプローチとは言えませんでした。より少ないSNPから可能な限り多くのインピュテーションを可能にすることで、アレイ設計をより効率的にする必要があったのです。
UCSF、Kaiser PermanenteおよびAffymetrix(現在はサーモフィッシャーサイエンティフィック)は、アレイ設計に対するまったく新しいアプローチを用いてこの問題を解決するために協力しました。これらの新しいアレイを開発する理論的根拠は、
(1)ゲノム全体をカバーするために高品質のSNPおよび低頻度変異の数を最大にすること。
(2)疾患、形質、転機に関連することが知られている領域を完全かつ 重複してカバーすること。
(3)1000人ゲノムプロジェクトや国際HapMapプロジェクトなどの成果のデータを活用して、一般的な変異と一般的でない変異の両方の網羅性を向上させること
でした。
研究チームは、Applied Biostems™ Axiom™アレイのSNPを選択するための独自のアルゴリズムを開発しました。このアルゴリズムは、HapMapのレファレンスサンプルにおける、はるかに少数の既知ハプロタイプから数百万のマーカーを推測するためにインピュテーションを使用します。インピュテーションを考慮したアレイ設計により、同じ固定数から、低頻度から高頻度のもの まで広範囲にわたる対立遺伝子のゲノムワイドな網羅性を高めることが可能になりました。これは、ペアワイズタギングよりはるかに効率的な方法です。効率的なマーカー選択は、低頻度の対立遺伝子の網羅、より多くのマーカー、より大きいアレイ のスペースを必要とするような、多民族研究にとって特に重要です。
この共同研究では、インピュテーションを考慮したアレイ設計により、統計的検出力が全体で最大10%増加しました[2]。この成功の結果として、チームは特にヨーロッパ、アフリカ系アメリカ人、ラテン系または東アジアの民族集団の研究のために設計された、一般的変異およびまれな変異の両方を完全にゲノムワイドにカバーする4つの高密度Axiomアレイを開発できました。
現在では、Kaiser Permanente Research Bank、UK Biobank、FinnGen、ToMMo、MVPなどのバイオバンクの遺伝子型解析に、この方法を使用して独自のニーズに合わせたコンテンツが含まれたAxiomアレイを作成しています。

図3.HOXB13 G84E突然変異キャリアの状態による前立腺がんの年齢特異的リスク この図は、さまざまな疾患にわたる重要な研究を実施する上でKaiser biobank (RPGEH)のような大型バイオバンクの価値と、一般的な変異とまれな変異の両方を評価するためのAxiomのようなインピュテーションを基にしたアレイの能力とを際立たせている。
大規模ゲノムワイド関連解析(GWAS)はヒト医療のためのポリジェニックリスクスコアリング(PRS)を可能に
バイオバンクで利用可能な膨大な遺伝子型データと、インピュテーションに基づくアレイ設計とを組み合わせた力が、世界中の人類集団から価値あるGWASデータを生み出すことは明らかです。現在の最終的な目標は、データを適用して精密医療(precision medicine)の兆しを前進させるような、臨床的に実行可能な結果を生成することです。GWASは、ヒト疾患の原因の特定、診断、予後予測、治療反応を決めるために、どのように使用できるでしょうか?
過去10年ほどの遺伝学的研究により、ある種の心疾患、糖尿病、脳疾患など、多くの一般的な疾患では、ゲノム全体にある複数の一般的変異が、まれな単一遺伝子変異よりも大きな役割を果たしている可能性があることが明らかになっています。つまり、1つの形質が何千もの変異に影響を受けている可能性を示しています。疾患と形質について遺伝的変異の複雑な役割を理解する上で重要な課題は、個々のSNPの寄与が非常に小さい可能性が高いため、個々の変異やハプロタイプは疾患の予測因子としては個別では不十分であるということです。
個々のSNPそれ自体は、複雑な形質の予測にはあまり有用ではないかもしれないのですが、非常に多数の変異の、累積的影響を定量化することはこの課題を克服する可能性があります。このような多遺伝子スコアリングは、作物および家畜の遺伝学において形質を予測するために広く用いられています。変異を特定の形質に関連付けるには、各試料の遺伝子型データと適切な表現型データの両方が必要です。また、統計的に有意な関連を発見するには、多くのサンプルからのデータが必要です。農業の現場では、非常に多数の試料が容易に入手でき、関心のある形質を容易に測定することができます。
人間の特性を予測することは、まったく異なる状況です。しかしながら、6億を超える既知のSNPおよび他の構造的変異、非常に高密度のインピュテーションに基づくアレイ、およびバイオバンクで利用可能な膨大な量の遺伝的および表現型データへアクセスすることにより、研究者らは遺伝的突然変異に基づいて、患者を疾患リスクカテゴリーに層別化するためのポリジェニックリスクスコアリング(PRS)の方法論を開発し始めています。
まとめ
バイオバンクに保存された膨大な量の遺伝的、表現型データ、およびプロジェクトの成果のデータは、まったく新しい研究パラダイムの機会を提供します。研究者は、コホート、遺伝学的データ、表現型情報を集めて、研究を行う大きな機会があります。利用可能な多数の試料は、関連解析結果を支持するのに十分な統計学的検出力で、まれな変異を同定する可能性を増加させます。より費用対効果の高い、インピュテーションを想定したアレイ設計と組み合わせることで、現在利用可能な遺伝的変異データは、患者および臨床医に貴重な情報をもたらす可能性のあるポリジェニックリスクスコアリング(PRS)に基づく試験を、研究者が設計することを可能にしています。人間の疾患の診断と予後を可能にするためにゲノムワイド関連解析(GWAS)を使用する可能性が見えてきています。
【無料Webinar】予測ゲノミクスに関するエキスパートからの新しい知見
近年、包括的な遺伝子型判定情報を集積、階層化することにより個別化医療へ役立てようとする研究開発が行われています。このような中で、各地域毎の民族性や特定疾患へのなりやすさ、薬理ゲノミクス特性などが特に研究されています。今回は、American Society on Human Genetics(ASHG) 2020で公開、議論されたさまざまなトピックを限定公開します。
Reference
1. NCBI dbSNP Build 151. https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi
2. Hoffman TJ et al. (2011) Genomics 98(6):422–430. doi: 10.1016/j.ygeno.2011.08.007
研究用にのみ使用できます。診断用には使用いただけません。