Genome-wide trans-ancestry meta-analysis provides insight into the genetic architecture of type 2 diabetes susceptibility.
DIAbetes Genetics Replication And Meta-analysis (DIAGRAM) Consortium.
Nat Genet. 2014 Mar;46(3):234-44.
【用語集】
Single nucleotide polymorphism; SNP (一塩基多型):ゲノムDNA上の一塩基の置換。塩基の置換のうち、頻度が非常に少ないものを変異(mutation)、人口の0.5%以上に見られるようなある程度の頻度で見られるものを多型(polymorphism)と呼ぶ。SNPの中でも置換の頻度の多い(人口の5%以上に見られる)ものをコモンSNP(common SNP)と呼ぶ。2003年から始まったInternational HapMap Projectによってcommon SNPの大部分が明らかにされた。
Locus, Loci (座位):ゲノム上の位置のこと。1つの座位に対し、1つの遺伝型(genotype)が対応する。ある1つの塩基の場所を「座位」とよび、それが何の塩基であるかを「遺伝型」と呼んでもよい。
(これらの語は、遺伝子が発見される前に作られた用語なので、「遺伝子」の場所や型というわけでもない。したがって、「遺伝子座」「遺伝子型」というより「座位」「遺伝型」という訳が適しているとされる。)
Trait (形質):形質は、一つの座位に可能な表現型をまとめたもの。
「エンドウマメの形」という形質(trait)に対し、「丸い」「しわがある」という表現型(phenotype)がある、などと考える。
Allele(アレル):ある個体では、1つの座位に父母由来の2つの遺伝型が存在し、この関係をアレルと呼ぶ。1つの塩基の座位にある、2つの塩基をアレルと呼んでもよい。「アレル」も遺伝子発見以前からの用語であり、しかも実体ではなく関係を表す語なので、「対立遺伝子」と訳すより、「アレル」のまま用いるのがよい。
アレルの人口の中での頻度を調べて、頻度の高いものを「メジャーアレル」、低いものを「マイナーアレル」と呼ぶ。マイナーアレルは「多型」であり、疾患と関連することが多い。
Allele Frequency (アレル頻度):マイナーアレルの頻度が5%以上のSNPはコモンSNP、0.5~5%のSNPはレアSNP、0.5%未満のものは変異(mutation)と呼ばれる。SNPの多型の頻度(アレル頻度)を横軸に取り、その多型が表現型にどう影響するか(疾患となるオッズ比)を縦軸に取ったグラフが非常に有名である(
Manolio TA et al. Finding the missing heritability of complex diseases.
Nature. 2009 Oct 8;461(7265):747-53.)
左上は非常にまれなSNP変異だがその影響は大きいもの(その変異があるとほぼ必ずその疾患となる)、右下は頻度の多いSNP多型だがその一つ一つのSNPが疾患に及ぼす影響が少ないもの(疾患発症のオッズ比が1.1-1.5程度のもの)である。前者はメンデル型遺伝性疾患、後者はよくみられる、コモンな疾患と考えられている。このようにコモンな疾患とは、頻度は多いがその影響は少ないSNP多型が積み重なってできているとする仮説がある。これが「コモンな疾患はコモンな多型によって起こる」(common disease-common variants; CDCV)仮説であり、CDCV仮説に基づいてGWASを用いたコモンな疾患の原因検索が行われてきた。GWASは、頻度の多いSNP多型を検出することにより、疾患とSNPの関連を調べる方法である(後述)。
上図の中間(水色)の疾患はアレル頻度のやや低い(0.5~5%)のレアSNP多型が、それぞれ疾患に対しやや大きい影響をもたらすというものである。稀少疾患(rare disease)がこれに当たると考えられる。また、コモンな疾患の一部にはこのようなレアなSNP多型が関与しているかもしれない(common disease-rare variant; CDRV仮説)。この集団は従来のGWASではとらえることが困難であり、今後、密度の非常に高いSNPアレイ、次世代シークエンサーを用いた全ゲノムシークエンスやエキソン全体のエキソームシークエンスなど(深度が高い=ディープシークエンスと呼ぶ)の発達によって解析が可能になると考えられる。
Linkage disequilibrium; LD(連鎖不均衡):染色体が子孫に受け継がれるとき、遺伝子の相同組み換えが起きる。その際、相同組み換えが起こりやすい場所(ホットスポット)がある。これらのホットスポット間のSNPは、高い確率で挙動を共にするが、この挙動を共にするSNPsを「連鎖不均衡の関係にある」という。これらのホットスポット間の1区画をブロックと考え、ハプロブロック(haploblock)という。HapMap Projectによってこの「ハプロブロック構造」が明らかになったため、ある数種類のSNPs(タグSNPs)の変化のみ調べればSNP全体の多様性が分かるようになった。
Haplotype(ハプロタイプ):一般には、一緒に(haplo-)遺伝する傾向のあるDNA変異または多型のことをいうが、ゲノム上に見られるSNPのセットまたはアレルの組み合わせのこともハプロタイプと呼ぶ。
Genome-wide association study; GWAS (ゲノムワイド関連解析):ある疾患(disease)や形質(trait)と関連があると考えられるSNPを、全ゲノムを対象に網羅的に検索し抽出する方法。疾患群(cases)と対照群(controls)からそれぞれDNAを抽出し、SNPチップ(SNP array)とハイブリダイズさせることにより、その疾患と有意に関連するSNPを検出する。ある座位のSNPの一方(アレル)が疾患群で有意に多く見られるとき、そのSNPが疾患と関連する(associated)と考える。
ここで用いるSNPは、全SNPである必要はなく、挙動を共にするSNP(連鎖不均衡の関係にあるSNP)があるため、ある種のタグSNP(lead SNP)について調べるだけでよい。全SNPの中でも、マイナーアレル頻度が5%以上のcommon SNPの1/10程度について調べれば、どのようなSNPのパターン(ハプロタイプ)に属するかが分かるとされている。したがって、現在明らかな1,000万のcommon SNPsから大体1/10の100万のタグSNPsを調べるため、1,000K SNPチップなどが用いられる。
通常、群間の差は、群間の違いが偶然である確率が5%未満(P<0.05)で「有意な差がある」と考える。しかし群の数が多い場合の群間の比較ではBoferroniの補正が用いられる。これは有意水準を決めるのに5%を群数で割ったものであり、100万SNPsで調べた(1,000KのSNPチップを用いた)場合は、0.05÷1,000,000=5x 10 -8、すなわちP<5x10 -8を有意水準とする。P値をlog変換し、-log10 P が8以上で有意に「疾患と関連する」などとされるのはこのため。
以下に
GWASおよびそのメタアナリシスの概略図を示す(
Manolio TA. Genomewide association studies and assessment of the risk of disease. N Engl J Med. 2010 Jul 8;363(2):166-76.より引用)
上の
図1Aでは、3人(Person 1, 2, 3)のゲノムにおける、染色体9番上のある小さい座位を示している。SNP1はPerson 1ではGGであるところが、Person 2ではGT、Person 3ではTTとなっている(同様にSNP2は、Person 1ではAAであるところが、Person 2ではAG、Person3ではGG)。ここではそれぞれ、最初が①頻度の多い「野生型の」ホモ型(common homozygote)、二番目が②ヘテロ型(heterozygote)、三番目が③頻度の少ない「多型」ホモ型(variant homozygote)とする。SNP1ではGがメジャーアレルでTがマイナーアレル、SNP2ではAがメジャーアレルでGがマイナーアレルである。
図1Bでは、疾患群(Cases)と対照群(Controls)の全DNAをSNPアレイで解析し、SNPsをゲノム全体で比較したところ、SNP1はP=1x10 -12、SNP2はP=1x10 -8の有意水準で「マイナーアレルが有意に関連している」ことが明らかになったことを示している。なお、ここで上記の①と(②+③)を比較するか(優性遺伝形式)、(①+②)と③を比較するか(劣性遺伝形式)、さらには①と②と③を比較するかは有意差が大きいものを取るとされている。
図1Cは、横軸に順番に染色体(番号ごとに色が変えてある)を並べ、その上のSNPを点で表している。縦軸はそれぞれの点(SNP)が疾患と関連する有意水準Pをlog変換で表している。このグラフ(signal plot)は、ニューヨークのマンハッタンにある高層ビル群をイメージさせることから「マンハッタンプロット」のニックネームで呼ばれる。この例では、SNP1が10の12乗、SNP2が10の8乗で有意に疾患に関連があることを示す(左のプロットでは同一線上にあるように見えるが、これを大きく拡大すると実際には右プロットのように染色体9番の上のずれた位置にある)。
このようにして明らかになったSNPを疾患の「感受性座位」(susceptibility loci)と呼ぶこれは、SNPの多型「だけ」で疾患が起こるわけではないが、そのSNPを含む多くのSNPsの多型の蓄積によって疾患が「起きやすくなる」、疾患発症が「影響される」=susceptibleと考えられるため。
なお、このようなシグナルが認められるハプロタイプブロックのすべてのSNP(タグSNPだけでなく分かりうるすべてのSNP)が疾患に関連するかを調べ、より強く関連するSNPを絞っていくことを
ファインマッピング(fine mapping; 微細地図作成)と呼ぶ。この
微細地図(fine map)の解像度(fine-mapping resolution)を上げていくことが、GWASの精度を高めるには重要とされる。
なお、GWASで最終的に分かるのは、あくまでも「どのSNPが」疾患に関連しているかであり、「どの遺伝子(gene)」が関連しているかまでは分からない。しかし、特定されたSNPが近傍の遺伝子にどう影響しているかはexpression quantitative trait loci; eQTL(量的形質座位)解析の結果明らかになることがある。
図1は疾患に関連のあるSNPsを検出するための集団(initial discovery set)を対象にしたものであった。上の
図2はそこで明らかになったSNPsを確認し、偽陽性の結果を除外するために別の集団(replication set)を対象とした検討である。図2の例では3つの集団をreplication setとしており、一つ一つの検討では、このSNPが疾患に有意に関連していることは示されていない。しかし、これらのメタアナリシスを行うとこのSNPが強いシグナルとなって認められ、有意に疾患に関連していることが示されている。
【論文内容】
2型糖尿病(T2D)の疾患感受性に対するGWASは、大部分がヨーロッパ白人を祖先とした集団(European ancestry)を対象としたものである。近年は、東アジア人、南アジア人、メキシコ人およびメキシコ系アメリカ人、アフリカ系アメリカ人など他の祖先集団でも検討が行われ、ヨーロッパ白人とオーバーラップする結果が得られている。そこでこの研究では、多くの祖先集団のGWASの結果を組み合わせた「複数の祖先集団にわたる(trans-ancestry)」メタアナリシスを行った。これにより、より大きいサンプルサイズで解析ができ、また連鎖不均衡(LD)構造の異なる集団を対象とすることによって、T2D感受性座位の微細地図の解像度(fine-mapping resolution、感受性座位をいかに絞り込めるか)が強化されると考えられる。
研究の概要
現在までに報告されている4つの人種集団、すなわちDIAGRAM(ヨーロッパ人)、AGEN-T2D(東アジア人)、ST2D(南アジア人)、MAT2D(メキシコおよびメキシコ系アメリカ人)の各コンソーシアムの、合計26,488名の疾患群(case)と83,964名の対象群(control)を対象とした。遺伝的多様性を統一して検討するために、HapMap Projectによる250万のcommon SNPを用いてメタアナリシスを行った。
複数の祖先集団メタアナリシスによる新たな感受性座位の発見
現在までにT2D感受性座位として確立しているものは69個あり、それらのアレル効果(その座位のアレルが疾患発症に関与する影響度)の多様性を、祖先集団間で検討した。その結果、下記の3つの座位のSNPで大きな違いがあることが示された。すなわち、TCF7L2 (SNP番号:rs7903146)はどの集団でもT2Dと大きな関連があったが、その関連(疾患に関連するオッズ比)はヨーロッパ人集団で最も大きかった。一方、PEPD (rs3786897)とKLF14 (rs13233731)は、それぞれ東アジア人とヨーロッパ人でT2Dと大きな関連があった。今回、これら69個の確立したT2D感受性座位を除いた後に、複数の祖先集団で共通してT2D感受性座位(リスクアレル)と考えられるSNPの発見を試みた。
その結果、まず33個のSNPが同定された。これらに対し、ヨーロッパ人の疾患群21,491名と対照群55,647名を対象として、T2Dおよび他の代謝形質および心血管形質との関連を調べるreplication studyを行った。その結果、全ゲノムにおいて有意に(P<5x10 -8)T2Dと関連する7つの座位が新たに同定された(TMEM154、FAF1、POU5F1-TCF19、SSR1-RREB1、MPHOSPH9、LPP、ARL15)。これらの座位は、すべての祖先集団において比較的頻度の高いコモンなSNPで、T2Dへの効果は中等度のものであり、その点で上記のような集団間の多様性は見られなかった。
・これらの新しいT2D感受性座位の一つは、免疫に必要なMHC(major histocompatibility complex; 主要組織適合遺伝子複合体)内のPOU5F1-TCF19の近傍にあるSNPである。MHCにある1型糖尿病(T1D)のリスク座位がlatent autoimmune diabetes of adulthood (LADA)に関連があることが分かっており、これは臨床的にはT2Dと誤って診断されていることがある。
・また、新しい座位にはARL15およびSSR1-RREB1近傍のSNPsが含まれ、これらはそれぞれ空腹時インスリンと血中アディポネクチン値(さらにHOMA-IRで示されるインスリン抵抗性)および空腹時血糖(さらにHOMA-βで示されるインスリン分泌低下)と関連がある。
・新たなT2D感受性座位についていくつかの組織でeQTL解析を行ったところ、SSR1-RREB1座位が膵β細胞においてSSR1の、MPHOSPH9座位が肝においてABCB9および肺においてSETD8の、POU5F1-TCF19座位が単球においてHCG27の発現に強く影響していた。
・また、これらの新たな座位がどのようにT2D感受性に影響しているかも検討した。その結果、POU5F1-TCF19座位はTCF19のミスセンス変異(p.Val211Met)となっている、MPHOSPH9座位はABCB9、OFGOD2、PITPNM2のUTRの変異となっている、FAF1座位はインスリン転写調節に関わるELAVL4発現に関与するオープンクロマチン部位に存在することなどが明らかになった。
複数の祖先集団メタアナリシスによる感受性座位の微細地図解像度(fine-mapping resolution)の上昇
複数の祖先集団のGWASの結果のメタアナリシスにおいて、ベイズ統計学の手法であるMANTRA
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3460225/
(Meta-ANalysis of Transethnic Association studies)ソフトウェアを用いた各集団データの統合を行った。その結果として、T2D感受性座位の微細地図解像度が上昇するか(SNPsの数が増加するか、SNPsの99%信頼セットのゲノム上間隔が短縮するか=感受性座位をいかに絞り込めるか)を検討した。
方法として、すでに確立した10のT2D感受性座位(
JAZF1、SLC30A8、CDKAL1、HHEX/IDE、TCF7L2、IGF2BP2、FTO、CDKN2A/B、PPARG、MTNR1B)を対象に、ヨーロッパ人におけるメタアナリシス(疾患群12,171名と対照群56,862名)よりも複数祖先集団を統合したメタアナリシス(疾患群26,488名と対照群83,964名)の方がSNPsの99%信頼セットのゲノム上の間隔が短縮するかどうかを検討した。その結果、
MTNR1Bを除いて、複数の集団を統合したメタアナリシスを用いてT2D感受性座位のSNP数が増加、または、感受性座位の微細地図解像度が上昇した。
図3は
SLC30A8(rs13266634)のsignal plotsであり、上がヨーロッパ人でのGWAS、下が複数祖先集団を統合したGWASの結果を示している。下の方が微細地図の解像度(fine-mapping resolution)が上昇している。
【結論】
複数の祖先集団におけるT2D感受性座位のGWASでメタアナリシスをおこなうことにより、①新たなT2D感受性座位が明らかになり、また、②すでに知られているT2D感受性座位の微細地図の解像度が上昇した。このことは、従来のGWAS、特にヨーロッパ人の祖先集団のみのGWASでは関連が有意でなかったT2D感受性座位がまだ存在することを意味しており、これらの座位はサンプルサイズの大きい複数祖先集団のGWASメタアナリシスで検出できる可能性がある。