The human disease network.
Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabási AL.
Proc Natl Acad Sci U S A. 2007 May 22;104(21):8685-90
【まとめ】
ヒトの疾患と疾患遺伝子のデータベースである
OMIMを基に、
ヒト疾患ネットワーク(HDN)と
疾患遺伝子ネットワーク(DGN)を作成した。さらにこれらの2つのネットワークを連結させることにより、「
疾患と疾患遺伝子の関連」の全体像である"diseasome"を作成した。また、DGNには機能的モジュールがあることを示した。最後に、疾患遺伝子がコードする蛋白は他の蛋白との相互作用が特に多いのか、すなわちネットワーク上でハブを形成しているかを検討した。その結果、ヒト疾患遺伝子のうち生存に必須な(マウスで欠損すると致死になる)遺伝子がコードする蛋白だけがハブを形成しており(中心的であり)、非必須の遺伝子はハブにはなっていなかった(末梢的であった)。ただし、体細胞変異によって疾患が起きる遺伝子(多くのがん遺伝子)はハブを形成する傾向があった。このようなネットワークに基づく検討は、疾患と疾患遺伝子の関連に関する新たなプラットフォームを我々に与えてくれるものである。
【論文内容】
疾患遺伝子(遺伝子に占める疾患の座位)は、従来からのさまざまな遺伝学的方法、最近のポジショナルクローニング法、ゲノムワイド関連解析などによって明らかにされてきた。さらには、蛋白-蛋白相互作用マップ
蛋白-蛋白相互作用マップ(interactome)や
ヒト代謝ネットワークを基にして、疾患遺伝子の詳細なマップも作られている。さらに、ネットワーク手法を用いて
疾患と蛋白-蛋白相互作用の関連を解明しようとする試みもある。そもそも疾患と疾患遺伝子の関連は、「単一の疾患遺伝子が単一の疾患と関連している」というようなものではない。異なる複数の遺伝子変異が同じ疾患につながることがあり、例えばZellweger症候群はペルオキシソーム生合成に関する少なくとも11遺伝子のいずれに変異が起きても出現する。また、1つの遺伝子の中の別の変異が異なる疾患形質を惹き起こすこともあり、例えば
TP53の変異は11の異なるがん関連異常に関与している。そこで本研究は、「単一遺伝子-単一疾患」的アプローチではなく、現時点で知られるすべての遺伝的疾患(disease phoenome)と疾患遺伝子のセット(disease genome)とをネットワークとして連結することによって、疾患と疾患遺伝子の組み合わせの全体像、すなわち“diseasome”を把握することを目標とした。
Diseasomeの構築
まず、今までに知られたすべての遺伝的疾患のグループとすべての疾患遺伝子のグループを結びつけた2部グラフを作成した(図1a中央) (2部グラフ(bipartite graph)とは、グラフ理論において2つのグループに含まれる頂点どうしが連結しているグラフであり、これらの頂点は同じグループ内では連結していないものを指す)。
左の疾患が右の疾患遺伝子の変異と関連があることが示されているとき、それら2つの頂点を枝で連結した。これらの疾患、疾患遺伝子、それらの関連は、ヒトの疾患遺伝子とその形質についてのデータベースである
Online Mendelian Inheritance in Man(OMIM)から得たものである(2005年12月の時点で、1,284種の疾患と1,777種の疾患遺伝子が登録されていた)。OMIMに含まれる内容は、当初は単一疾患につながる単一疾患遺伝子が主だったが、最近は共通の疾患に関連する遺伝子変異や同じ遺伝子変異に伴う複数の疾患が多く登録されている。このような登録にはいくつもバイアスがあるだろうし、このデータベース自体、当然完成したものではない。しかしOMIMは現時点で知られる遺伝的疾患と疾患遺伝子についての最も完全なデータベースである。なお当研究では、ここに含まれる全疾患を22の疾患クラスに分類して以下の作業を行った。
図1 “Diseasome”の作成
中央:ヒトの疾患ネットワーク(左のHuman Disease Networkに基づくDisease phenome)と疾患遺伝子ネットワーク(右のDisease Gene Networkに基づくDisease genome)に含まれるそれぞれの頂点を枝で結んだ2部グラフ(DISEASOME)。頂点の○は疾患、□は疾患遺伝子を表し、ある疾患遺伝子が疾患に関連しているときに枝で連結している。○の大きさは、その疾患に関与する遺伝子の数を表す。
左:ヒトの疾患のネットワーク(Human Disease Netwotk)で、以後HDNと呼ぶ。左図の2頂点間の枝は、それらに関与している同じ疾患遺伝子があることを示す。また枝の太さは2頂点の疾患に関与する共通する疾患遺伝子の数を表す。例えば、乳がんと前立腺癌は両方に共通して関連する遺伝子が3つあるので、枝の幅も他の3倍になっている。
右:疾患遺伝子のネットワーク(Disease Gene Networkで、以後DGNと呼ぶ。2頂点間の枝は2つの疾患遺伝子が同じ疾患に関連していることを表す。枝の太さは2つの疾患遺伝子が共通して関連する疾患の数を表している。このdiseaseomeは縮小版だが、完全なものはSupporting Information(SI)の図13を参照。

図2 ヒト疾患ネットワーク (HDN)と疾患遺伝子ネットワーク (DGN)
(a) HDNでは各頂点が一つ一つの疾患を表し、2頂点間の枝は、それらの2つの疾患に共通する疾患遺伝子があることを表す(詳しくは下記参照)。ここでは、関連する疾患遺伝子が10個より多い疾患のみ疾患名を書きそれ以外は省略しているが、完全な図はSupporting Information(SI)の図13を参照。
(b) DGNでは、各頂点が疾患遺伝子であり、2つの遺伝子が共通して同じ疾患に関連しているときに枝で連結してある(詳しくは下記参照)。
HDNの特性
HDN(図2a)では
各頂点が一つ一つの疾患を表し、頂点の色は22の疾患クラスを、頂点の大きさはその疾患に関連する疾患遺伝子の数を表す。
2頂点間の枝は、それらの2つの疾患に共通する疾患遺伝子があることを表す。枝の幅は共通する疾患遺伝子の数を、枝の色は同じクラスの疾患どうしならその色、別のクラスの疾患どうしなら灰色としている。
もし疾患がそれぞれ特有の遺伝的原因を持ち、共通する疾患遺伝子が少なければ、HDNの多くの頂点が連結していないか、またはごく少数の疾患ごとの小さいクラスターを形成するだろう。しかし実際のHDNでは、頂点(疾患)は多くの枝(共通の疾患遺伝子の存在を示す)で連結されている。OMINに含まれる1,284種の疾患のうち、867種は少なくとも1本の枝を持ち、516種が多数の枝を持つハブを形成していた。疾患に関連する疾患遺伝子の数s (頂点の大きさで表示)は疾患によって大きく異なり、広い分布を示していた(SI 図6a)。大多数の疾患はsが少ないが、いくつかの疾患はsが非常に大きく、例えば難聴はs=41、白血病はs=37、大腸がんはs=34というようにかなり多くの疾患遺伝子と関連していた。また、各頂点の枝の数kも広い分布を示しており(SI 図6b)、大多数の疾患はごく少数の疾患にしか関連していないが、いくつかの疾患は例えば大腸がんはk=50、乳がんはk=30という多数の疾患に関連していた。
HDNは明らかなクラスターを形成し、これらは22の疾患クラスに対応するものであった。最も大きいがんのクラスターには密な相互連結が見られ、これは多くの共通した疾患遺伝子(
TP53、KRAS、ERBB2、NF1など)との関連を介して互いに連結しているためと考えられた。がんのクラスターにはがんになりやすいいくつかの疾患(Fanconi貧血、毛細血管拡張性運動失調症 Ataxia Telangiectasiaなど)も含まれている。その一方で、代謝性疾患の多くはがんのように大きなクラスターを形成しておらず、小さい連結した頂点群を形成していた。がんでは異なる疾患遺伝子の変異が同じ疾患につながること(遺伝子座異質性)が多いが、代謝性疾患はそのようなことが少ないためと考えられる。
DGNの特性
DGN(図2b)では
各頂点が疾患遺伝子であり、
2つの遺伝子が共通して同じ疾患に関連しているときに枝で連結してある。頂点の大きさは、その疾患遺伝子が関連している疾患の数を表す。疾患遺伝子が1つのクラスの疾患に関連していれば頂点はそのクラスの色にしてあるが、1つのクラスより多い疾患に関連していれば灰色にしてある。5つ以上の疾患に関与している遺伝子や本文で言及している遺伝子について、遺伝子名を付記している。DGNでは、OMIMに含まれる1,777疾患遺伝子のうち1,377遺伝子が共通して同じ疾患に関連していることを表す枝を持ち、903遺伝子(特に
TP53や
PAX6)は多数の枝を持つハブを形成していた。
HDNとDGNにおけるクラスター形成
HDN(疾患)とDGN(疾患遺伝子)のグラフの枝の数は同じままで、それぞれの連結をランダムにシャッフルしたグラフ(ランダムコントロール)も作成した。その結果、ランダムにつなぎかえた疾患ネットワークにおける連結した頂点の集まりの平均サイズ(頂点数643±16)は、実際のHDNにおける平均サイズ(516)より有意に大きかった(SI図6c)。同様に、ランダムにつなぎかえた疾患遺伝子ネットワークにおける連結した頂点の集まりの平均サイズ(頂点数1,087±20)は、実際のDGNにおけるサイズ(903)より有意に大きかった(いずれもP<10^-4、SI図6cとe)。これらの結果は、HDNもDGNも実際のネットワークはランダムコントロールに比べ、クラスター形成が大きいことを示している。また、実際の疾患(または疾患遺伝子)は、同じクラスの疾患(または疾患遺伝子)により連結しやすい。例えば、実際のHDNでは同じクラスの疾患の間に812の枝があり、これは同じクラスの疾患をランダムに連結させた場合の枝の数107±10に比べ8倍も多かった。
DGNにおけるモジュール形成
ある疾患に関連する複数の疾患遺伝子の蛋白産物は、同じ細胞内パスウェイや分子複合体などの同一の機能的モジュールに属していることが多い(実例として分かっている疾患はほとんどないのだが、Fanconi貧血はDNA修復という機能的モジュールに含まれる蛋白をコードする遺伝子の変異による)。実際の疾患遺伝子にモジュール形成があるかを検討するため、まず疾患遺伝子の相互作用(すなわちDGN)と既報の
蛋白-蛋白相互作用マッピング(interactome)の結果を重ねてみた。その結果、DGNと蛋白相互作用マップの間で290の相互作用が重なっていた。これはランダムコントロールで予想される相互作用数(平均30程度)の10倍と大きいものであった(P<10^-6)(図3a)。
図3:DGNのモジュール形成
a :疾患遺伝子の蛋白産物間に見られる相互作用(赤矢印↓)は、ランダムコントロール(青)で予想される相互作用の数の分布に比べ非常に多い。
b:共通の疾患に関連する疾患遺伝子は組織均質性(赤)が高い(同じ遺伝子数のランダムコントロール(青)を比較のために示している)。
c:同じ疾患に対応する2つの疾患遺伝子ペアの発現プロファイルの相関係数(赤)のPCCの分布は、コントロール(青)に比べて高い方にシフトしている (P<10^-6)。
d:同じ疾患に関連するすべての遺伝子の発現プロファイル間の平均PCCは、コントロールに比べ、高値にシフトしている(P<10^-6)。
同じ疾患に関連する疾患遺伝子は、共通の機能的な特徴、すなわち共通の遺伝子オントロジー(Gene Ontology; GO)を共有していると思われる。実際、同一疾患においてGOの均質性はランダムコントロールに比べて大きかった(SI図8)。
疾患遺伝子の蛋白産物が共通の機能的モジュールに含まれるとき、同じ組織内に発現する傾向が強いはずである。実際、疾患の組織均質性係数という指標(マイクロアレイデータにある36組織の10,594遺伝子のデータセットの中で、特定の組織に発現している共通の疾患に属する遺伝子の最大の割合)を考えると(図3b)、疾患の68%が組織均質性を持っており、これはランダムコントロールで予想される51%に比べ有意に大きかった(P<10^-5)。
共通の機能的モジュールに含まれる疾患遺伝子は共発現する傾向があると思われる。図3cに示すように、同じ疾患に関連する2つの遺伝子の共発現プロファイルの相関係数(Pearson correlation coefficients, PCC)の分布は、ランダムコントロールのPCCに比べ高値にシフトしていた(P < 10^−6)。また図3dに示すように、全体の疾患に関与する2つの遺伝子ペアのPCCの平均もランダムコントロールに比べ高値にシフトしていた。図4dではPCCが約0.75を明らかなピークとする小さい分布の山を伴っていた。このピークは平均PCCが大きい約33疾患によるもので、Heinz体貧血(PCC=0.935)、Bethlem筋症(PCC=0.835)、球状赤血球症(PCC=0.656)などを含んでいた。
以上より、共通の疾患に関連する疾患遺伝子は、それらの蛋白産物が互いに相互作用し、同じ組織に共通して発現し、共発現のレベルが高く、同じGO用語に含まれる傾向がある。すなわち、疾患遺伝子にはモジュール構造が認められると考えられる。
疾患遺伝子のうち一部の「必須遺伝子」だけがネットワークの中心となっている
ヒトの疾患遺伝子がコードする蛋白は、他の蛋白との相互作用が特に多い、すなわちネットワーク上でハブを形成するものだろうか?この問題は、
がんにおける蛋白-蛋白相互作用ネットワーク(interactome)において検討されてきたが、ヒト疾患全体においてはまだ明らかになっていない。図4aでは、疾患遺伝子はinteractomeの中でハブとなる蛋白をコードしている傾向があることを示している。疾患遺伝子がコードする蛋白は他の疾患関連でない蛋白に比べると、他の蛋白との相互作用が32%大きい、すなわちネットワーク内では頂点としての枝の数〈k〉が多かった。また、枝の数〈k〉の多い蛋白は少ない蛋白に比べると、疾患に関連する遺伝子によってコードされている傾向があった(P=1.6x10^-17)。
図4 「必須遺伝子」(出生に必須で欠損すると致死になる遺伝子)のトポロジーにおける機能的役割
a:遺伝子がコードする蛋白が他の蛋白と相互作用する数(枝の数)〈k〉と、その中で疾患遺伝子が占める割合f。これによると、枝が多いすなわちハブであることと疾患遺伝子であることは相関があると「一見」思われる。
b:ヒト遺伝子のうち「必須遺伝子」(これが欠損すると致死、マウスで検討された遺伝子のヒトにおけるホモログ)と疾患遺伝子の重なりをベン図で表している。疾患遺伝子のうち、重なっている部分は「必須」である疾患遺伝子、緑の部分は「非必須疾患遺伝子」。
c:枝の数〈k〉の多い蛋白は少ない蛋白に比べると「必須遺伝子」によってコードされている傾向がある。
d:しかし、枝の数〈k〉と「非必須疾患遺伝子」のあいだには相関がない。すなわち、疾患遺伝子であっても、「必須遺伝子」でなければそれがコードする蛋白がハブを形成する傾向はない。
e:他の蛋白との共発現〈ρ〉が多いと、その蛋白が「必須遺伝子」によってコードされている傾向が強いが、
f:「非必須疾患遺伝子」によってコードされている傾向は多くない。
g:蛋白が発現している組織の数nTが多いと、その蛋白が「必須遺伝子」によってコードされている傾向が強いが、
h:「非必須疾患遺伝子」によってコードされている傾向は多くない。
ところがこの検討では、本当に重要な蛋白は発生に必須であり、もしその蛋白に変化があれば妊娠第一期に自然流産(または出生後すぐの死亡)を起こしてしまうという重要なことを無視しているのである。この問題は、マウスにおいて欠損すると胚性致死(または出生後致死)を示す遺伝子のヒトにおける相同な遺伝子(オルソログ)を調べることで乗り越えられる(マウスの致死性遺伝子は
Mouse Genome Informaticsに基づく)。この検討により、そのようにマウスで欠損させると致死になる遺伝子のヒトにおけるオルソログは1,267遺伝子あり、そのうち398遺伝子がヒト疾患関連遺伝子に含まれるものであった。ここでは、この1,267遺伝子を「必須遺伝子(essential gene=出生してくるのに必須という意味)」と呼び、OMIMにあった1,777の疾患遺伝子全体から「必須遺伝子」に含まれる398遺伝子を除いた1,379遺伝子を「非必須疾患遺伝子(non-essential disease gene)」と呼ぶことにする(図4bのベン図参照)。
疾患遺伝子のうち、「必須遺伝子」(図4bの重なり部分)と「非必須遺伝子」(図4bの緑色部分)はヒトのinteractomeにおいて非常に異なる役割を示していることが分かった。まず、疾患遺伝子のうちの「必須遺伝子」がコードする蛋白は、すべての疾患遺伝子がコードする蛋白に比べると、ハブを形成する傾向があった(図4c、P=1.3x10^-17)。そうすると、図4aで見られた「疾患遺伝子がコードする蛋白はハブを形成する」という傾向は、単に疾患遺伝子の22%(1,267遺伝子中396遺伝子)が「必須遺伝子でもある」ということによって起きているのか?驚いたことに、疾患遺伝子の多く(78%)を占める「非必須」遺伝子がコードする蛋白は全くハブを形成していなかった(図4d:非必須疾患遺伝子がコードする蛋白の枝の数〈k〉と、その蛋白が疾患遺伝子によってコードされているということの間に相関はない)。したがって、図4aに見られた疾患遺伝子がコードする蛋白がハブを形成するという傾向は、疾患遺伝子の中の少数の「必須遺伝子」によるものであった。
また、遺伝子発現パターンの同調(シンクロナイズ)について検討した。細胞の円滑な機能発揮のためには、いくつもの機能的モジュール活性を協調させて維持する必要がある。そのため、重要な遺伝子の発現パターンは同調していると考えられる。疾患遺伝子のうち「必須遺伝子」である遺伝子の発現パターンも多くの他の遺伝子の発現と同調しているだろう。このことを検討するため、平均遺伝子共発現係数〈ρ〉という測定値を考えた。これは、正常ヒト組織マイクロアレイの結果から、「必須遺伝子」(または「非必須疾患遺伝子」)iと細胞内の他のすべての遺伝子との間のPCCijを求め、合計して平均したもの〈ρ〉i=Σj PCCijである。予想どおり、他の遺伝子との高い平均共発現係数〈ρ〉を示す遺伝子は、低い〈ρ〉やマイナスの〈ρ〉を示す遺伝子よりも「必須遺伝子」であることが多かった(図4e、P=1.7x10^-4)。しかし、「非必須疾患遺伝子」は逆の傾向を示し、発現パターンが他の遺伝子と逆相関を示すか相関がない遺伝子と関連していた。図4fに示すように、発現が高度に同調した遺伝子(〈ρ〉 > 0.2)の中で「非必須疾患遺伝子」が占める割合は少なかった (P = 2.6 × 10^−8)。このように、「必須遺伝子」の発現は他の遺伝子の発現と同調しているが、「非必須疾患遺伝子」の発現は、他のすべての遺伝子の発現パターンから大きく外れているという傾向が見られた。
最後に、すべての組織で常に発現しているハウスキーピング遺伝子が疾患遺伝子になっている傾向があるかを検討した。図4gに見るように、遺伝子が発現している多くの組織が多いほど、その遺伝子が「必須遺伝子」である傾向があった(P=2.8x10^-16)。「非必須疾患遺伝子」においては図4hのようにその逆であり、少ない組織に発現している傾向が見られた(P=1.4x10^-6)。ハウスキーピング遺伝子のうちたった9.9%しか疾患遺伝子ではなく、これは非ハウスキーピング遺伝子の13.5%が疾患遺伝子ということに比べて有意に少ない(P=3.6x10^-6)。それに対し、マウスのハウスキーピング遺伝子の59.8%は「必須遺伝子」であり、これは非ハウスキーピング遺伝子で40.5%が「必須遺伝子」であったのに対し有意に多いP<10^-4)。
以上より、「非必須疾患遺伝子」はハブに関係しておらず、他の遺伝子の発現との同調が少なく、発現している組織も少ないという傾向が認められる。すなわち、「
非必須疾患遺伝子」の多くはトポロジーにおいては機能的に「末梢を占めている」と言える。そしてそれとは対照的に、「必須遺伝子」はハブとなる蛋白をコードしていて、他の残りの遺伝子と強く同調して発現する。また、多くの組織で発現し、ハウスキーピング遺伝子の中で多くの比率を占めている
。「必須遺伝子」はトポロジーにおいて機能的に「中心的」であると言える。
多くの疾患遺伝子が「末梢性」しか示さないという結果は意外であったが、これは進化の過程を考えに入れるとうまく説明できるだろう。もしトポロジカルに「中心的」な遺伝子に変異が起きると、それは広く発現しているため、正常の発生や生理的機能に強い障害を与え、その個体は発生早期に致死となってしまい集団からは除かれる。そのため、このような「中心的」な遺伝子の変異ではなく、生殖年齢まで生存できる変異だけが集団内で維持されるわけである。したがって、トポロジカルに「末梢にある」疾患関連の変異の方が生存のチャンスは大きくなる。
疾患遺伝子の変異が(遺伝的なものでなく)体細胞突然変異であれば、上記のような選択圧は受けないだろう。本当にそうかどうかを検討するため、
Cancer Genome Censusに登録されているがんを起こす体細胞変異の特徴を検討した。その結果、がんで体細胞変異を起こしていたがん遺伝子はハブをコードしており、他の遺伝子と高い共発現を示し、ハウスキーピング遺伝子の中の多くの割合を占めていた(SI図10)。すなわち、体細胞変異を起こすがん遺伝子はトポロジカルに「中心的」であり、これは「多くのがん遺伝子は細胞の発生と成長に重要な役割を果たす」という我々の理解(例えばp53が細胞の生存や死に重要であるなどの知見)に合致するものである。