一人抄読会

syodokukai.exblog.jp
ブログトップ

<   2015年 11月 ( 1 )   > この月の画像一覧

2型糖尿病患者は3つのサブタイプに分けられる―トポロジカルデータ解析に基づくprecision medicineの試み

Identification of type 2 diabetes subgroups through topological analysis of patient similarity.

Li L, Cheng WY, Glicksberg BS, Gottesman O, Tamler R, Chen R, Bottinger EP, Dudley JT.

Sci Transl Med. 2015 Oct 28;7(311):311ra174.

【まとめ】
2型糖尿病は臨床的にも遺伝的にも複雑多様であり、さまざまなサブタイプから成ると考えられている。本研究ではトポロジカルデータ解析という手法を用いて、2型糖尿病患者集団が、臨床的なデータの類似性に基づいて「どのような形の」ネットワークを形成しているかを検討した。その結果明らかになったネットワークの形から、2型糖尿病患者は3つのサブタイプに区別されることが示された。サブタイプ1は糖尿病合併症(糖尿病腎症と網膜症)と関連があり、サブタイプ2はがんと心血管疾患、サブタイプ3は心血管疾患、神経疾患、アレルギー、HIV感染症と関連があった。次に、これらの患者サブタイプの臨床的な表現型とSNPsの関連のデータを解析したところ、各サブタイプに特有の「表現型と遺伝型の関連」が区別して認められた。このように複雑な疾患の新たなサブタイプを見出す本研究の方法は、現在進行しつつあるPrecision Medicine(注1)を推進するものであると考えられる。

トポロジカルデータ解析 (topological data analysis; TDA):
「トポロジカル」という語は、古代ギリシアで普通名詞として使われた「トポス(場所)」に由来する。18世紀以後、トポロジーは数学の一分野として発展した。トポロジカルデータ解析は、一つ一つのデータがネットワーク全体の中で占める「場所」を明らかにし、ネットワークの「形」すなわち「幾何学的な構造」を描き出す解析手法である。大量の複雑なデータから的確な洞察(insight)を得る(意味のあるサブグループを発見する)方法として、Ayasdi(注2)によって開発された。詳しくは、Lum PY, et al. Sci rep 2013を参照。

【論文内容】
2型糖尿病は、その臨床像も遺伝的構造も非常に複雑かつ多様であり、本質的にはさまざまなサブタイプから成ることが想定されている。本研究では、電子診療録(electronic medical records; EMRs)に記録された臨床データを用いて、2型糖尿病の患者集団のネットワークを幾何学的な「形」として表し、そこから臨床的・遺伝的特徴に基づいた2型糖尿病の新しいサブグループを同定することを試みた。対象は、ニューヨークにあるマウントサイナイ病院(Mount Sinai Medical Center)のBiobankに登録された11,210名の患者で、それらの患者のEMRs上の臨床データと、臨床データと遺伝型のデータを結合させたデータセットを用いた。11,210名の患者の内訳は、人種は46%がヒスパニック、32%がアフリカ系アメリカ人、20%がヨーロッパ白人、2%がその他。 性別は61%女性、39%が男性で全体の平均年齢は55.5歳であった。

2型糖尿病の「患者-患者ネットワーク」の作成
まず、EMRの臨床データを用いて、患者の類似性に基づいて患者集団のネットワークを類推する方法を開発した。このネットワークは、患者をグラフ理論でいう「頂点(node)」とし、多種類の臨床指標における類似性に基づいて「辺(edge)」で結んだものである。(臨床指標の種類のことを、ここでは次元(dimension)と呼ぶ。このネットワークでは、非常に多次元の臨床指標に基づいて高度な類似性を示す患者の集団が単一の頂点として示される。) このようにして患者-患者ネットワークを作成したところ、11,210名の患者は図1Aのような2つのクラスターに区別できることが明らかになった。図1Aで左側のクラスター(n=3889)は内分泌代謝異常、免疫異常、感染症、精神障害、循環器系および下部尿路系疾患を有意に多く含んでおり、右側のクラスター(n=7321)は妊娠合併症、呼吸器疾患を多く含んでいた。図1Aの患者-患者ネットワーク上で、2型糖尿病患者がどの場所に多く存在するか(topological enrichment)を調べるため、2型糖尿病患者の多さを色で示した。図1Aでは青→緑色→黄色→赤になるにしたがって2型糖尿病患者が多い頂点であることを表している。これによると2型糖尿病患者はある特定の部位に多く見られたため、2型糖尿病患者集団は複数のクラスターからなることが予想された。そこで次に、2型糖尿病患者2551名を対象として、「2型糖尿病患者のネットワーク」の形を検討した。

その結果、2型糖尿病の患者集団は73の臨床指標をもとに図1Bのようなネットワークの形をしており、3つのクラスターに完全に分離されることが明らかになった。これらをサブタイプ1(n=762)、サブタイプ2 (n=617)、サブタイプ3 (n=1096)と名づけた。なお、図1Bの色分けは頂点の色が赤→黄色→緑色→青になるにしたがって、女性が多い集団から男性が多い集団としている。図1Bを見て分かるように、3つのクラスターは性別には関連がなかった。
d0194774_21452442.jpg

図1A 対象患者全体のネットワークの形(上図)
マウントサイナイ病院のBiobankに登録された11,210名の患者の、臨床指標の類似性に基づくネットワークを示す。ネットワークの頂点(node)は類似性の高い患者の集団を表し、それらを類似性に基づいて辺(edge)で結んでいる。これによると、患者は2つのサブグループに分かれることが分かる。色分けは、青→緑色→黄色→赤となるにしたがって2型糖尿病患者が多い頂点を表しており、2型糖尿病患者はいくつかのサブグループに分けられる可能性があることが分かる。

図1B 2型糖尿病患者のネットワークの形(下図)
次に、上記の患者のうち2551名の2型糖尿病患者について、臨床指標の類似性に基づくネットワークの形を検討した。その結果、2型糖尿病患者集団は3つのサブタイプに分けられることが明らかになった。頂点は類似性の高い患者の集団を表すが、その色分けは赤→黄色→緑色→青となるにしたがって女性が多い集団から男性が多い集団になることを表している。これによると3つのサブタイプで性別の偏りは見られない。


以上で明らかになった3つのクラスターの再現性を検証するため、確認のための訓練事例集合(training set)とテスト事例集合(testing set)のランダム抽出を行った。2型糖尿病患者集団2551名をランダムに2/3をtraining setに、1/3をtest setにと振り分け、上記と同じ73の臨床的指標によって、患者-患者ネットワークを再構築した。このステップを10回繰り返し、10回の検証の適合率と再現率(positive prediction valueとsensitivity)の平均値を求めたところ、training setでの適合率の平均はサブタイプ1、2、3で100%、91%、98%、再現率の平均は99%、96%、94%、同じくtest setでの平均適合率は100%、90%、97%、平均再現率は99%、96%、93%であり、このネットワークのクラスターの高い正確性が確認された。

2型糖尿病患者の各サブタイプに特徴的な臨床指標
この3つのサブタイプにおいて、サブタイプ1に特有な臨床指標は29種、サブタイプ2に特有な臨床指標は3種とサブタイプ3に特有な臨床指標は11種存在した。
サブタイプ1の患者は、最も年齢が低く(59.76±0.45歳)、BMI が高値で(33.07±0.29 kg/㎡)、診察時の血糖が高値(193.69±11.45 mM)であった。そのほかにも、白血球数・好中球数・好酸球数・平均血小板容積が低値で、血小板数は患者の約半数が正常参照値より低値という興味深い特徴が見られた。さらに、診察時のプロトロンビン時間延長、血清アルブミン高値、クレアチニン低値が認められた(なお、サブタイプ1患者の推定GFRは正常参照値よりは低値であった)。さらに、サブタイプ1の患者は血中CO2分圧が高値、1分当たりの呼吸数が少なく、処方ではカルシウム拮抗薬、アンジオテンシン受容体拮抗薬(ARB)/アルドステロン変換酵素阻害剤(ACEI)、DPP4阻害剤、メトフォルミンの投与が少なかった。サブタイプ2 の患者は他のサブタイプに比べて体重が少なく(85.17±1.14 kg)、サブタイプ3の患者は収縮期血圧が高値(135.7±0.7 mmHg)、血清Cl値およびトロポニンI値が高値で、ARB/ACEIとスタチンの投与が多かった。

2型糖尿病患者の各サブタイプに特徴的な併存疾患
次に、ICD-9-CM (国際疾病、傷害および死因統計分類)に基づいた疾患分類ソフトウェアClinical Classification Softwareを用いて、サブタイプごとの併存疾患について検討した。その際、7000以上あるICD-9-CMの詳細な疾患コードを、281の単一疾患または18の広いカテゴリーとして用いることとした。
その結果、サブタイプ1は他のサブタイプと比較して、ICD-9-CMの「その他の上気道呼吸器感染症」、「感染症の予防接種およびスクリーニング」、「合併症のある糖尿病」、「その他の皮膚異常」、「失明および視覚障害」と有意に強い関連があった。サブタイプ2は「気管支および肺の癌」、「部位を特定しない場合の悪性新生物」、「結核」、「冠動脈硬化およびその他の心疾患」、「その他の循環器疾患」と関連があり、サブタイプ3は「HIV感染症」、「外的原因による傷害」、「大動脈および末梢動脈の血栓塞栓症」、「合併症を伴う高血圧および二次性高血圧」、「冠動脈硬化およびその他の心疾患」、「アレルギー反応」、「貧血」、「物質乱用および精神疾患の既往」と関連があった。

2型糖尿病患者の各サブタイプに特徴的な「遺伝子-疾患関連」
次に、3つのサブタイプがそれぞれどのような遺伝的多様体(genetic variant)、すなわち遺伝子上の一塩基多型(SNPs)と関連しているかを検討した。図1Bの「患者-患者ネットワーク」は臨床的な表現型(phenotype)に基づいて決定したものであるため、このサブタイプ分類にはSNPsについての情報は含まれていない。しかし、各サブタイプに特異的なSNPsが明らかになれば、各サブタイプの遺伝的マーカーの同定につながるかもしれない。検討の結果、サブタイプ1、2、3に特有のSNPsが1279、1227、1338認められた。これを遺伝子領域にマッピングすると、各サブタイプで有意に関連のある遺伝子がそれぞれ425、322、437同定された。ここで、ヒトの疾患とSNPの関連についてのデータベースであるVarDiを用いて、サブタイプごとに特徴的な遺伝子-表現型関連(gene-phenotype association)を明らかにした(図2)。なお、ここでの表現型とは、「糖尿病腎症」などの診断に基づくものと「血清クレアチニン値」などの検査結果に基づくものを含んでいる。

・サブタイプ1に特有の遺伝的多様体は27の遺伝子-表現型関連に認められた。これらの多くは2型糖尿病に関係することが知られているものであり、血清レチノール値の増加 (関連する遺伝子はFFAR4)、B細胞数の増加(LAMB4)、アルブミン・クレアチニン比の増加(ACE)、ALTの増加(ZNF827)、レプチン受容体の増加(LEPR)、血清マンノース結合レクチン(MBL2)の増加、血清ビタミンD濃度の増加(GC)、および呼吸機能における1秒率の増加(ZSCAN31TNS1)、さらには表現型としての「糖尿病」(BTN2A1)、「糖尿病腎症」(ACE)などの遺伝子-表現型関連が認められた。
・サブタイプ2に特有の遺伝子-表現型関連は25あり、そのうち4つはがんおよびがん治療に関連するものであった。それらは、bleomycin感受性(関連遺伝子はSAMD12)、epirubicinによる薬物副反応(MCPH1)、幹細胞移植(NLRP3)、濾胞性リンパ腫(SV2B)であった。サブタイプ2に多く関連する表現型は、サブタイプ2の患者の併存疾患と合致しており、併存疾患とその遺伝的特徴の関連が示唆された。
・サブタイプ3に特有の遺伝子-表現型関連は28あり、そのうち10は精神疾患及び神経学的疾患と関連があった。それらは、脊髄小脳失調症1型(関連する遺伝子はATXN1)、心室中隔肥厚(EXT1、CERS6)、不安障害(SDK2、FHT)、認知欠損(CNTND2)、認知症(ABCA1)、遊びスキルの障害(DCC)、知能(CNTN4)、抑うつ(FHIT、BICC1)、脳波におけるθ波のパワー(ST6GALNAC3)、HIV関連神経認知障害(SLC8A1)である。さらに、3つは心血管系と関連があるものであり、心電図RR間隔(GPR133)、周産期心筋症(AKAP13)、心房細動(C9orf3、FNDC3B)であった。最近2型糖尿病の危険因子と考えられるようになってきた血清ビタミンD濃度の増加(関連する遺伝子はGC)は、サブタイプ1でも3でも関連が認められた。アレルギー(FHIT)およびスタチンへの反応(ASB18)の2つの表現型は、サブタイプ3に特有の併存疾患と合致するものであった。
d0194774_21413310.jpg

図2 2型糖尿病の3つのサブタイプにおける「遺伝子-表現型の関連」ネットワーク
サブタイプ1が青、サブタイプ2がオレンジ、サブタイプ3がピンクで、内側の楕円形の頂点はそれぞれ表現型、外側の菱型の頂点はそれぞれ多様なSNPsが認められた遺伝子名を表している。表現型と遺伝子名の関連を、関連の有意水準(P値)によって太さを変えた辺で結んでいる。楕円形や菱型の大きさは、関連している表現型や遺伝子の種類の多さを表す。緑色の楕円(「ビタミンD濃度」など)は、複数のサブタイプに共通して関連のある表現型を示している。このような視覚化によって、3つのサブタイプによって関連する表現型と遺伝子の関連が、ほぼはっきりと区別されることが分かる。


2型糖尿病患者の各サブタイプに特有なシグナル伝達と毒性関連のパスウェイ
さらに、各サブタイプに特有なシグナル伝達パスウェイと毒性関連のパスウェイについてIngenuity Pathway Analysisソフトウェアを用いて検討した。その結果、サブタイプ1、2、3に特有な古典的な(canonical)パスウェイが、それぞれ5種類、2種類、6種類同定された。
サブタイプ1で亢進していたパスウェイは、fatty acid β-oxidation III(糖尿病に伴う肝疾患で亢進する)、acetateからacetyl CoAへの変換(糖代謝で重要)、cAMPを介するシグナル伝達(インスリン分泌に関連)であり、さらにnetrinシグナル伝達(糖尿病腎症に対する保護作用が知られる)、GABA受容体シグナル伝達(糖尿病網膜症の早期に認められる)の2つは、サブタイプ1の併存疾患とも関連があるものであった。サブタイプ2で亢進していたパスウェイには、細菌やウイルスの認識における「パターン認識受容体」のシグナル伝達(これは2型糖尿病における結核の有病率高値に関連している可能性がある)、およびトロンボポイエチンシグナル伝達(細胞生存や増殖分化の活性化に関与し、これはサブタイプ2における冠動脈疾患の増加に関連があるのかもしれない)があった。サブタイプ3で亢進しているパスウェイは、αアドレナリン受容体シグナル伝達、シナプスの長期抑圧、ニューロンにおけるCREBシグナル伝達(神経の可塑性、脳の長期記憶形成、アルツハイマー病の治療との関連が示唆されている)、グルタミン酸受容体シグナル伝達(脳神経疾患、肝線維症、肝星細胞活性化および精子運動能に関連するとされる)であった。

毒性関連のパスウェイとは、肝毒性、腎毒性、心血管毒性および臨床的な病理学的エンドポイントなどを指す。これには、サブタイプ1、2、3に特有なパスウェイが、それぞれ9種類、3種類、3種類同定された。サブタイプ1で亢進している毒性関連パスウェイのうち4種類が腎障害に関するものであり(糸球体障害、腎の肥大、腎の増殖、腎の変性)、これらはサブタイプ1に糖尿病性腎症が多いことと関連があると考えられる。他の5つの毒性関連パスウェイは肝機能障害に関連しており、サブタイプ1における肝酵素の増加と一致していた。なお、サブタイプ2と3は関連する遺伝子は異なるのに、どちらも心血管毒性のパスウェイが亢進していた。EMRsからの併存疾患の情報とVarDiによる遺伝的多様体の情報も含めて考えると、サブタイプ2と3はいずれも心血管疾患のリスクが大きい可能性が示唆された。

トポロジカルデータ解析の特長
本研究には、(1) サンプルサイズが中程度であること、(2)疾患の発症や診断からの時間経過が深く考慮されないこと、(3)疾患の診断がICD-9-CM診断コードに基づくことなどの限界がある。しかし本研究は、遺伝的なマーカーが分からなくても、臨床的な表現型のみから患者のネットワークの形を発見できるトポロジカルデータ解析の方法が有効であることを示している。従来言われてきた「オーダーメイド医療」や「個別化医療」の方法では、疾患分類に重要な分子のような表現型の情報やSNPsのような遺伝的多様性の情報が先に分かっていて、それに基づいて患者集団を層別化する必要があった。しかし、本研究のトポロジカルデータ解析では、臨床データのみから、データに駆動される方式で(data-driven)、機械学習における教師なし(unsupervised)の方法によって、患者集団のネットワークの形が自動的に発見できる。本研究は、多因子疾患の新たなサブグループを同定し、それらに対する新たなバイオマーカーの発見や治療の選択を可能にするPrecision Medicineの有効な方法を提示するものと言える。

注1: Precision Medicine
個々の患者を生物学的にまたは疾患の経過によってサブグループに分類し、それぞれにふさわしい的確な予防や治療を考える医療を指す。以前は「個別化医療」(personalized medicine)という用語が類似の考えを表していたが、個別化医療という用語には「遺伝的情報をもとに患者個々人に対して特有の治療をデザインする」というようなイメージがあった。しかし実際の個別化医療の実現は、次世代シーケンサー技術によって個人の複雑な遺伝的背景が明らかになるにつれ非常な困難を伴うことが分かり、かつ高度な医療資源の投入が必要となるため医療コストの高騰につながるという二つの点が問題になっていた。それに代わる「Precision Medicine」という用語は、患者の臨床データや遺伝的データに基づいて、特定の疾患の患者をより細かい「サブグループ」に分類することによって的確な予防と治療を目指すという意味合いがある。

この用語は、2015年1月にオバマ大統領が発表したPrecision Medicine Initiativeへの予算の大幅増額によって一般に広まった。オバマ大統領はこの演説で、「これまでにも各人の血液型を合わせることで、輸血が可能となったのです。これからは、各人にふさわしいがんの治療法や薬の投与量が、体温を測るのと同じくらい簡単に決められたらどんなに良いでしょう」と呼びかけ、従来型の平均的な患者をもとにデザインする「one-size-fits-all」医療から新しい医療への脱却を目指した。

Precision Medicineの日本語訳としては「精密医療」、「的確医療」、「高精度医療」などいくつかの訳が試みられている。中国語でも「精准医疗(jīngzhǔn yīliáo)」、または「精确(jīngquè) 医疗」(いずれも「精密で正確な」医療)と訳される。

注2: Ayasdi社は、スタンフォード大学数学科の博士課程の学生だったGurjeet Singhと指導教官のGunnar Carlsson、ソフトウェア開発者Harlan Sextonの3人によって2008年に設立されたベンチャー企業である。トポロジカルデータ解析を用いて大量のデータから意味のある洞察(insight)を見出すAyasdi Coreの他、臨床的に最適なクリニカルパスウェイを作成するAyasdi Care、ドラッグディスカバリーを行うAyasdi Cure を開発している。なお、ayasdi (アイヤズディー)とは、アメリカ先住民族チェロキーの言葉で「探す」という意味とのこと。
[PR]
by md345797 | 2015-11-09 21:48 | その他