人気ブログランキング | 話題のタグを見る

一人抄読会

syodokukai.exblog.jp
ブログトップ

Points of significanceコラム2:統計における推定と検定 (2)

前項(1)からの続き

【第3段階:母平均µが分かっていない正規母集団から、標本サイズn (x1、x2・・・、xn)、標本平均¯xの標本を取り出した。このとき、まだ分かっていない母分散σ2を95%の信頼区間で区間推定する】
→統計量Wと自由度(n-1)のカイ二乗分布を用いる

まずここでの標本の分散を考える。標本分散s2は定義上、(各観測値-標本平均)の二乗を合計して標本サイズnで割ったものなので、

標本分散s2


ここで、

統計量W


というものを考える。これらの式を比較すると、s2とWは分子が同じで

n×s2σ2×W


すなわち、

W


であり、Wは標本分散s2に比例する統計量である。そして、この統計量Wは、自由度(n-1)のカイ二乗分布に従うことが証明されている(証明は省略)。

標本(標本サイズn、標本平均¯x)から標本分散s2を計算して、それをn/σ2倍すると統計量Wができる。Wは自由度n-1でカイ二乗分布し、Wが95%の頻度で含まれる区間a’-b’はカイ二乗分布の数値表から分かるため、

a’b’


この式をσ2について変形すれば、母平均µを用いずに母分散σ2が95%の信頼区間で区間推定できる。


【第4段階:正規母集団で母標準偏差σが分からない場合、標本サイズn、標本平均¯xの標本を取り出し、分かっていない母平均µを95%の信頼区間で区間推定する】
→統計量Tと自由度(n-1)のt分布を用いる

今までの方法から考えて、「求めたい母平均µを含み、標本から計算でき、しかもそれが従う分布が分かっている統計量」を作る必要がある。そうすればその分布を用いて95%信頼区間でµが区間推定できる。

この統計量を作ったのがウィリアム・ゴセット(1876-1937, ペンネームStudent、注2)であった。ゴセットは、

統計量T= (sは標本の標準偏差)


を作った(注3)。そして、この統計量Tが「自由度n-1のt分布」に従うことを発見した。
Points of significanceコラム2:統計における推定と検定 (2)_d0194774_23371531.png
図3: t分布 (自由度=1、2、5)と標準正規分布

「Studentのt分布」と呼ばれるこの分布は0を中心として正規分布によく似た形をとるが、正規分布に比べると頂上が低く裾野が広い形をしている(図3)。nが非常に大きい値をとる大標本であればt分布は正規分布で近似できるが、nが小さい小標本の場合は独自の分布になる。t分布を用いることにより、標本サイズが小さい場合でも正確にµが区間推定できるようになった(注4)。

Tを95%の確率で予言できる区間は、t分布上で-αから+αの間というように分かるので、


となり、これにより母平均µが95%信頼区間で区間推定できる。

注2:ギネスビール社の醸造技術者であったゴセットは、ギネス社の職務外の研究として秘密裡に論文を書き匿名で発表した。その際「自分は、先生である統計学者カール・ピアソンのstudent(生徒)である」という意味を込めて「Student」というペンネームを用いたようである。(『推測統計のはなし』蓑谷千鳳彦著、東京図書より)

注3:多くの本やWikipediaの記載では、この式の√n-1の部分が√nになっている。一方、『完全独習 統計学入門』(小島寛之著)や『入門 統計学-検定から多変量解析・実験計画法まで-』(栗原伸一著、オーム社)では√n-1であり、本稿もこれに従っている。多くの本では、標本標準偏差として通常の「標本の標準偏差s」の代わりに、母分散を偏りが出ないよう推定するために自由度で調整した標準偏差「不偏標準偏差」を用いているためこの違いがある。標本標準偏差不偏標準偏差との関係は以下通りである(詳しい説明は省略)。

不偏標準偏差 x 標本標準偏差(s)


多くの本では、標本標準偏差sを√n/(n-1)倍した不偏標準偏差のことを単に「標本標準偏差」と表記しているために、統計量Tの式

統計量T=


で√n-1が√nとなっているので注意が必要である。本によって記号がまちまちであることも理解を面倒にしており、「不偏標準偏差をσ ̂、標本標準偏差をs」とちゃんと区別して書いてある本、「前者を小文字のs、後者を大文字のS」と分けている本、不偏標準偏差の意味で「標本標準偏差s」という用語を用いている本などいろいろである。それぞれsが何を意味しているかはっきりさせて、その上で√n-1か√nかを読者が理解している必要があるだろう。

注4:ゴセット以前には、母集団で母標準偏差σが分からない場合に、

統計量


という統計量を作って、これが正規分布に従うということにして母平均µを区間推定していた。本当は、

(=統計量U)


が正規分布に従うのだが、母標準偏差σが分かっていないので標本標準偏差sで代用してよいことにしていた。これではnが非常に大きいときは誤差が少ないが、nが小さいときには結果に無視できないずれが生じていた。

そこでゴセットが考案した統計量Tは、

T=


というものであった。これは、

U=、 W=


であることから、

T(σが消える)


となり、母標準偏差σが分かっていない場合でも母平均µの区間推定ができる。これは母集団について何もわかっていなくても、母平均が区間推定できる画期的な方法であった。


Points of significanceコラム2:統計における推定と検定 (2)_d0194774_22533886.png

休憩コーナー(2): 正規分布(左)とt-分布(右)のぬいぐるみも発見!
形から言うと、左の方がt-分布っぽいが・・・。(http://nausicaadistribution.blogspot.jp/より)

次項(3)に続く。

# by md345797 | 2014-06-28 01:26

Points of significanceコラム2:統計における推定と検定 (3)

前項(2)からの続き

4. Nature Methods総説(Krzywinski M, Altman N. 2013 Nov)
最後に、Nature Methods総説にある有意性と統計的検定の例を確認する。

(1) 1回の観測値が有意かどうかの検定
ある蛋白の発現量が10であるとき(これは過去の繰り返しの実験から明らかになっているとする)、今回の実験では発現量12と観測された。観測値12は妥当なものだろうか?

図4aで、ある現象の数値として分かっている値(Reference、ここでは10)は母集団平均に当たるのでµ
、観測値(observed、ここでは12)は標本データに当たるのでxとしてある。

観測値xはランダムなばらつきを示すので、取りうるすべての値の母集団から取り出した一つの標本であると考える。無数に観測を繰り返したときの観測値とその度数の関係を表したグラフは図4bのような正規分布になると思われる(正規分布と考えられない場合については別の回で述べる)。今回の観測値x=12は実際のところ、ありえないような外れ値である。それを示すため、まず、帰無仮説H0「今回の観測値は図4bのようなμを平均とするような母集団から得られたものである」を立て、最終的にこれを棄却するという方法を取る。帰無仮説H0を表した母集団(図4b)を帰無分布と呼ぶ。

このとき、x=12以上に外れた観測値が出る確率は、網掛けの部分の面積で計算される部分である。これがP値である。P値の大小によって今回の観測値の妥当性を判断する。ここでP値が小さい(通常P=0.05)ということは、帰無仮説の下でほとんどありえないことが起こったと考える。この帰無仮説H0の下でほとんどありえないことが起きているとすると、おおもとの状況(H0)自体が間違っているのだろうと棄却する。そこで、その対立仮説H1「今回観測された標本は、平均がµではない母集団から得られたものである」が有意に支持されることになる。
(なお厳密に言えば、このような対立仮説H1は「よく用いられる対立仮説」に過ぎず、他の対立仮説もいろいろ考えられる。だからこの対立仮説H1が「必ず正しい」とは限らない。)
Points of significanceコラム2:統計における推定と検定 (3)_d0194774_120204.jpg

図4 1個の観測値の有意性の判断

なお、P値は「帰無仮説の下でほとんどありえないことが起こった」確率であって、「帰無仮説が正しい確率である」ということではないので注意(注5)。この点はしばしば誤って解釈される。また、P値は統計的に有意であることを表すが、単に「統計的に」であって、それ以上の意味付けはできないことにも注意が必要である(注6)。

注5:これは「訴追者の誤謬」(prosecutor's fallacy)と同じ原理で間違っている。訴追者の誤謬についてはここでは述べないが『リスク・リテラシーが身につく統計的思考法―初歩からベイズ推定まで』(ゲルト・ギーゲレンツァー著、吉田 利子訳、ハヤカワ文庫NF)に詳しい解説がある。

注6:統計的有意性が示されても、それ以上の価値判断は加えられないことに注意する。さらにはその観測値自体にも何か「意味がある」とすら言えない。特に「統計的に有意差がある」とつい「一方が優れている」などと価値判断しがちだが、それは厳に慎むべき態度である。有意性(significance)という言葉は「重要な」とか「意味がある」という内容も含むため、significantly differentという言葉は誤解を招きやすいのかもしれない。統計的に有意な結果が「何を意味するか」は、統計学以外の根拠に基づいて決定されるべきなのである。なお、有意水準がp=0.05というのは単なる慣習的な線引きなので、0.049なら有意で0.051なら有意でないなどと判断するのはおかしい。差があるか否かはP=0.05という数字で区切るのではなく、そこでもやはり統計学以外の判断が必要であろう。
この注6の部分は、『涙なしの統計学』(D. ロウントリー著、加納悟訳、新世社) の記載を参考にさせていただいた。

(2) n個の観測値の平均が有意かどうかの検定
次に、1つのデータだけでなくさらに4つのデータを観測したとする。そうすると、n=5の標本を取ったことになる(図5a)。このときの標本平均は¯x=10.85、標本標準偏差s=0.96であった。この標本標準偏差s=0.96は母集団の標準偏差σと同じ考えてよいと仮定する(この仮定が成り立たない場合については別の回で述べる)。 ここで標本平均¯xの分布は正規分布であり、その平均はµ、標準偏差はs/√nである(図5b)。(注7)
Points of significanceコラム2:統計における推定と検定 (3)_d0194774_1164361.jpg

図5 n個の観測値の有意性の判断

注7:Nature Methodsの総説にはこう書いてあるが、正しくは前項(2)の注4のように標本分布の標準偏差はσ/√nである。ここではs=σと仮定しているのでこれでよいことにしている。また、これも前項(2)の注3のようにここでのsは単なる標本の標準偏差のことだから、

不偏標準偏差 x 標本標準偏差s


で不偏標準偏差を計算して、

統計量T=


とするべきだろう。これらのことは、この総説では省略されてしまっている

上記のTが取りうる値のt-分布から、図5cのような¯xの分布が分かる。1つの観測データのときと同じく、P値が求められ、これにより5個の観測データの平均が有意かどうかが判断できる。

(3) t-検定を用いた有意性の判断
上の例でn個のデータを観測したときに、

統計量t


はデータ数nを自由度とした図6aのようなt-分布に従う(注8)。

注8:このNature Methodsの総説にはこう書いてあるものの、正しくは上の注7の統計量Tの式が正しい。この総説ではsを不偏標準偏差としているのだろうが、混同しやすい記載である。
Points of significanceコラム2:統計における推定と検定 (3)_d0194774_1141037.jpg

図6 t-分布とそのP値

ここで、nが大きければ統計量tの値のP値も正規分布に近いが、nが小さい小標本の場合は同じtでもP値は非常に小さくなり、有意性を無視できないくらい過大評価してしまう。そのため、小標本の場合は正規分布ではなくt-分布で考える必要がある。例として、n=5の場合t=1.98であるP値はP=0.119であるはずなのに、正規分布で考えていると、P=0.048と有意であることになってしまう。
# by md345797 | 2014-06-28 01:23

複雑ネットワークの理論(6):ヒトの疾患と疾患遺伝子のネットワーク “Diseasome”

The human disease network.

Goh KI, Cusick ME, Valle D, Childs B, Vidal M, Barabási AL.

Proc Natl Acad Sci U S A. 2007 May 22;104(21):8685-90

【まとめ】
ヒトの疾患と疾患遺伝子のデータベースであるOMIMを基に、ヒト疾患ネットワーク(HDN)疾患遺伝子ネットワーク(DGN)を作成した。さらにこれらの2つのネットワークを連結させることにより、「疾患と疾患遺伝子の関連」の全体像である"diseasome"を作成した。また、DGNには機能的モジュールがあることを示した。最後に、疾患遺伝子がコードする蛋白は他の蛋白との相互作用が特に多いのか、すなわちネットワーク上でハブを形成しているかを検討した。その結果、ヒト疾患遺伝子のうち生存に必須な(マウスで欠損すると致死になる)遺伝子がコードする蛋白だけがハブを形成しており(中心的であり)、非必須の遺伝子はハブにはなっていなかった(末梢的であった)。ただし、体細胞変異によって疾患が起きる遺伝子(多くのがん遺伝子)はハブを形成する傾向があった。このようなネットワークに基づく検討は、疾患と疾患遺伝子の関連に関する新たなプラットフォームを我々に与えてくれるものである。

【論文内容】
疾患遺伝子(遺伝子に占める疾患の座位)は、従来からのさまざまな遺伝学的方法、最近のポジショナルクローニング法、ゲノムワイド関連解析などによって明らかにされてきた。さらには、蛋白-蛋白相互作用マップ蛋白-蛋白相互作用マップ(interactome)ヒト代謝ネットワークを基にして、疾患遺伝子の詳細なマップも作られている。さらに、ネットワーク手法を用いて疾患と蛋白-蛋白相互作用の関連を解明しようとする試みもある。そもそも疾患と疾患遺伝子の関連は、「単一の疾患遺伝子が単一の疾患と関連している」というようなものではない。異なる複数の遺伝子変異が同じ疾患につながることがあり、例えばZellweger症候群はペルオキシソーム生合成に関する少なくとも11遺伝子のいずれに変異が起きても出現する。また、1つの遺伝子の中の別の変異が異なる疾患形質を惹き起こすこともあり、例えばTP53の変異は11の異なるがん関連異常に関与している。そこで本研究は、「単一遺伝子-単一疾患」的アプローチではなく、現時点で知られるすべての遺伝的疾患(disease phoenome)と疾患遺伝子のセット(disease genome)とをネットワークとして連結することによって、疾患と疾患遺伝子の組み合わせの全体像、すなわち“diseasome”を把握することを目標とした。

Diseasomeの構築
まず、今までに知られたすべての遺伝的疾患のグループとすべての疾患遺伝子のグループを結びつけた2部グラフを作成した(図1a中央) (2部グラフ(bipartite graph)とは、グラフ理論において2つのグループに含まれる頂点どうしが連結しているグラフであり、これらの頂点は同じグループ内では連結していないものを指す)。左の疾患が右の疾患遺伝子の変異と関連があることが示されているとき、それら2つの頂点を枝で連結した。これらの疾患、疾患遺伝子、それらの関連は、ヒトの疾患遺伝子とその形質についてのデータベースであるOnline Mendelian Inheritance in Man(OMIM)から得たものである(2005年12月の時点で、1,284種の疾患と1,777種の疾患遺伝子が登録されていた)。OMIMに含まれる内容は、当初は単一疾患につながる単一疾患遺伝子が主だったが、最近は共通の疾患に関連する遺伝子変異や同じ遺伝子変異に伴う複数の疾患が多く登録されている。このような登録にはいくつもバイアスがあるだろうし、このデータベース自体、当然完成したものではない。しかしOMIMは現時点で知られる遺伝的疾患と疾患遺伝子についての最も完全なデータベースである。なお当研究では、ここに含まれる全疾患を22の疾患クラスに分類して以下の作業を行った。
複雑ネットワークの理論(6):ヒトの疾患と疾患遺伝子のネットワーク “Diseasome” _d0194774_12462785.jpg

図1 “Diseasome”の作成
中央:ヒトの疾患ネットワーク(左のHuman Disease Networkに基づくDisease phenome)と疾患遺伝子ネットワーク(右のDisease Gene Networkに基づくDisease genome)に含まれるそれぞれの頂点を枝で結んだ2部グラフ(DISEASOME)。頂点の○は疾患、□は疾患遺伝子を表し、ある疾患遺伝子が疾患に関連しているときに枝で連結している。○の大きさは、その疾患に関与する遺伝子の数を表す。
左:ヒトの疾患のネットワーク(Human Disease Netwotk)で、以後HDNと呼ぶ。左図の2頂点間の枝は、それらに関与している同じ疾患遺伝子があることを示す。また枝の太さは2頂点の疾患に関与する共通する疾患遺伝子の数を表す。例えば、乳がんと前立腺癌は両方に共通して関連する遺伝子が3つあるので、枝の幅も他の3倍になっている。
右:疾患遺伝子のネットワーク(Disease Gene Networkで、以後DGNと呼ぶ。2頂点間の枝は2つの疾患遺伝子が同じ疾患に関連していることを表す。枝の太さは2つの疾患遺伝子が共通して関連する疾患の数を表している。このdiseaseomeは縮小版だが、完全なものはSupporting Information(SI)の図13を参照。
複雑ネットワークの理論(6):ヒトの疾患と疾患遺伝子のネットワーク “Diseasome” _d0194774_1248951.jpg

図2 ヒト疾患ネットワーク (HDN)と疾患遺伝子ネットワーク (DGN)
(a) HDNでは各頂点が一つ一つの疾患を表し、2頂点間の枝は、それらの2つの疾患に共通する疾患遺伝子があることを表す(詳しくは下記参照)。ここでは、関連する疾患遺伝子が10個より多い疾患のみ疾患名を書きそれ以外は省略しているが、完全な図はSupporting Information(SI)の図13を参照。
(b) DGNでは、各頂点が疾患遺伝子であり、2つの遺伝子が共通して同じ疾患に関連しているときに枝で連結してある(詳しくは下記参照)。


HDNの特性
HDN(図2a)では各頂点が一つ一つの疾患を表し、頂点の色は22の疾患クラスを、頂点の大きさはその疾患に関連する疾患遺伝子の数を表す。2頂点間の枝は、それらの2つの疾患に共通する疾患遺伝子があることを表す。枝の幅は共通する疾患遺伝子の数を、枝の色は同じクラスの疾患どうしならその色、別のクラスの疾患どうしなら灰色としている。

もし疾患がそれぞれ特有の遺伝的原因を持ち、共通する疾患遺伝子が少なければ、HDNの多くの頂点が連結していないか、またはごく少数の疾患ごとの小さいクラスターを形成するだろう。しかし実際のHDNでは、頂点(疾患)は多くの枝(共通の疾患遺伝子の存在を示す)で連結されている。OMINに含まれる1,284種の疾患のうち、867種は少なくとも1本の枝を持ち、516種が多数の枝を持つハブを形成していた。疾患に関連する疾患遺伝子の数s (頂点の大きさで表示)は疾患によって大きく異なり、広い分布を示していた(SI 図6a)。大多数の疾患はsが少ないが、いくつかの疾患はsが非常に大きく、例えば難聴はs=41、白血病はs=37、大腸がんはs=34というようにかなり多くの疾患遺伝子と関連していた。また、各頂点の枝の数kも広い分布を示しており(SI 図6b)、大多数の疾患はごく少数の疾患にしか関連していないが、いくつかの疾患は例えば大腸がんはk=50、乳がんはk=30という多数の疾患に関連していた。

HDNは明らかなクラスターを形成し、これらは22の疾患クラスに対応するものであった。最も大きいがんのクラスターには密な相互連結が見られ、これは多くの共通した疾患遺伝子(TP53、KRAS、ERBB2、NF1など)との関連を介して互いに連結しているためと考えられた。がんのクラスターにはがんになりやすいいくつかの疾患(Fanconi貧血、毛細血管拡張性運動失調症 Ataxia Telangiectasiaなど)も含まれている。その一方で、代謝性疾患の多くはがんのように大きなクラスターを形成しておらず、小さい連結した頂点群を形成していた。がんでは異なる疾患遺伝子の変異が同じ疾患につながること(遺伝子座異質性)が多いが、代謝性疾患はそのようなことが少ないためと考えられる。

DGNの特性
DGN(図2b)では各頂点が疾患遺伝子であり、2つの遺伝子が共通して同じ疾患に関連しているときに枝で連結してある。頂点の大きさは、その疾患遺伝子が関連している疾患の数を表す。疾患遺伝子が1つのクラスの疾患に関連していれば頂点はそのクラスの色にしてあるが、1つのクラスより多い疾患に関連していれば灰色にしてある。5つ以上の疾患に関与している遺伝子や本文で言及している遺伝子について、遺伝子名を付記している。DGNでは、OMIMに含まれる1,777疾患遺伝子のうち1,377遺伝子が共通して同じ疾患に関連していることを表す枝を持ち、903遺伝子(特にTP53PAX6)は多数の枝を持つハブを形成していた。

HDNとDGNにおけるクラスター形成
HDN(疾患)とDGN(疾患遺伝子)のグラフの枝の数は同じままで、それぞれの連結をランダムにシャッフルしたグラフ(ランダムコントロール)も作成した。その結果、ランダムにつなぎかえた疾患ネットワークにおける連結した頂点の集まりの平均サイズ(頂点数643±16)は、実際のHDNにおける平均サイズ(516)より有意に大きかった(SI図6c)。同様に、ランダムにつなぎかえた疾患遺伝子ネットワークにおける連結した頂点の集まりの平均サイズ(頂点数1,087±20)は、実際のDGNにおけるサイズ(903)より有意に大きかった(いずれもP<10^-4、SI図6cとe)。これらの結果は、HDNもDGNも実際のネットワークはランダムコントロールに比べ、クラスター形成が大きいことを示している。また、実際の疾患(または疾患遺伝子)は、同じクラスの疾患(または疾患遺伝子)により連結しやすい。例えば、実際のHDNでは同じクラスの疾患の間に812の枝があり、これは同じクラスの疾患をランダムに連結させた場合の枝の数107±10に比べ8倍も多かった。

DGNにおけるモジュール形成
ある疾患に関連する複数の疾患遺伝子の蛋白産物は、同じ細胞内パスウェイや分子複合体などの同一の機能的モジュールに属していることが多い(実例として分かっている疾患はほとんどないのだが、Fanconi貧血はDNA修復という機能的モジュールに含まれる蛋白をコードする遺伝子の変異による)。実際の疾患遺伝子にモジュール形成があるかを検討するため、まず疾患遺伝子の相互作用(すなわちDGN)と既報の蛋白-蛋白相互作用マッピング(interactome)の結果を重ねてみた。その結果、DGNと蛋白相互作用マップの間で290の相互作用が重なっていた。これはランダムコントロールで予想される相互作用数(平均30程度)の10倍と大きいものであった(P<10^-6)(図3a)。
複雑ネットワークの理論(6):ヒトの疾患と疾患遺伝子のネットワーク “Diseasome” _d0194774_12522545.gif

図3:DGNのモジュール形成
a :疾患遺伝子の蛋白産物間に見られる相互作用(赤矢印↓)は、ランダムコントロール(青)で予想される相互作用の数の分布に比べ非常に多い。
b:共通の疾患に関連する疾患遺伝子は組織均質性(赤)が高い(同じ遺伝子数のランダムコントロール(青)を比較のために示している)。
c:同じ疾患に対応する2つの疾患遺伝子ペアの発現プロファイルの相関係数(赤)のPCCの分布は、コントロール(青)に比べて高い方にシフトしている (P<10^-6)。
d:同じ疾患に関連するすべての遺伝子の発現プロファイル間の平均PCCは、コントロールに比べ、高値にシフトしている(P<10^-6)。


同じ疾患に関連する疾患遺伝子は、共通の機能的な特徴、すなわち共通の遺伝子オントロジー(Gene Ontology; GO)を共有していると思われる。実際、同一疾患においてGOの均質性はランダムコントロールに比べて大きかった(SI図8)。

疾患遺伝子の蛋白産物が共通の機能的モジュールに含まれるとき、同じ組織内に発現する傾向が強いはずである。実際、疾患の組織均質性係数という指標(マイクロアレイデータにある36組織の10,594遺伝子のデータセットの中で、特定の組織に発現している共通の疾患に属する遺伝子の最大の割合)を考えると(図3b)、疾患の68%が組織均質性を持っており、これはランダムコントロールで予想される51%に比べ有意に大きかった(P<10^-5)。

共通の機能的モジュールに含まれる疾患遺伝子は共発現する傾向があると思われる。図3cに示すように、同じ疾患に関連する2つの遺伝子の共発現プロファイルの相関係数(Pearson correlation coefficients, PCC)の分布は、ランダムコントロールのPCCに比べ高値にシフトしていた(P < 10^−6)。また図3dに示すように、全体の疾患に関与する2つの遺伝子ペアのPCCの平均もランダムコントロールに比べ高値にシフトしていた。図4dではPCCが約0.75を明らかなピークとする小さい分布の山を伴っていた。このピークは平均PCCが大きい約33疾患によるもので、Heinz体貧血(PCC=0.935)、Bethlem筋症(PCC=0.835)、球状赤血球症(PCC=0.656)などを含んでいた。

以上より、共通の疾患に関連する疾患遺伝子は、それらの蛋白産物が互いに相互作用し、同じ組織に共通して発現し、共発現のレベルが高く、同じGO用語に含まれる傾向がある。すなわち、疾患遺伝子にはモジュール構造が認められると考えられる。

疾患遺伝子のうち一部の「必須遺伝子」だけがネットワークの中心となっている
ヒトの疾患遺伝子がコードする蛋白は、他の蛋白との相互作用が特に多い、すなわちネットワーク上でハブを形成するものだろうか?この問題は、がんにおける蛋白-蛋白相互作用ネットワーク(interactome)において検討されてきたが、ヒト疾患全体においてはまだ明らかになっていない。図4aでは、疾患遺伝子はinteractomeの中でハブとなる蛋白をコードしている傾向があることを示している。疾患遺伝子がコードする蛋白は他の疾患関連でない蛋白に比べると、他の蛋白との相互作用が32%大きい、すなわちネットワーク内では頂点としての枝の数〈k〉が多かった。また、枝の数〈k〉の多い蛋白は少ない蛋白に比べると、疾患に関連する遺伝子によってコードされている傾向があった(P=1.6x10^-17)。
複雑ネットワークの理論(6):ヒトの疾患と疾患遺伝子のネットワーク “Diseasome” _d0194774_12541357.jpg

図4 「必須遺伝子」(出生に必須で欠損すると致死になる遺伝子)のトポロジーにおける機能的役割
a:遺伝子がコードする蛋白が他の蛋白と相互作用する数(枝の数)〈k〉と、その中で疾患遺伝子が占める割合f。これによると、枝が多いすなわちハブであることと疾患遺伝子であることは相関があると「一見」思われる。
b:ヒト遺伝子のうち「必須遺伝子」(これが欠損すると致死、マウスで検討された遺伝子のヒトにおけるホモログ)と疾患遺伝子の重なりをベン図で表している。疾患遺伝子のうち、重なっている部分は「必須」である疾患遺伝子、緑の部分は「非必須疾患遺伝子」。
c:枝の数〈k〉の多い蛋白は少ない蛋白に比べると「必須遺伝子」によってコードされている傾向がある。
d:しかし、枝の数〈k〉と「非必須疾患遺伝子」のあいだには相関がない。すなわち、疾患遺伝子であっても、「必須遺伝子」でなければそれがコードする蛋白がハブを形成する傾向はない。
e:他の蛋白との共発現〈ρ〉が多いと、その蛋白が「必須遺伝子」によってコードされている傾向が強いが、
f:「非必須疾患遺伝子」によってコードされている傾向は多くない。
g:蛋白が発現している組織の数nTが多いと、その蛋白が「必須遺伝子」によってコードされている傾向が強いが、
h:「非必須疾患遺伝子」によってコードされている傾向は多くない。


ところがこの検討では、本当に重要な蛋白は発生に必須であり、もしその蛋白に変化があれば妊娠第一期に自然流産(または出生後すぐの死亡)を起こしてしまうという重要なことを無視しているのである。この問題は、マウスにおいて欠損すると胚性致死(または出生後致死)を示す遺伝子のヒトにおける相同な遺伝子(オルソログ)を調べることで乗り越えられる(マウスの致死性遺伝子はMouse Genome Informaticsに基づく)。この検討により、そのようにマウスで欠損させると致死になる遺伝子のヒトにおけるオルソログは1,267遺伝子あり、そのうち398遺伝子がヒト疾患関連遺伝子に含まれるものであった。ここでは、この1,267遺伝子を「必須遺伝子(essential gene=出生してくるのに必須という意味)」と呼び、OMIMにあった1,777の疾患遺伝子全体から「必須遺伝子」に含まれる398遺伝子を除いた1,379遺伝子を「非必須疾患遺伝子(non-essential disease gene)」と呼ぶことにする(図4bのベン図参照)。

疾患遺伝子のうち、「必須遺伝子」(図4bの重なり部分)と「非必須遺伝子」(図4bの緑色部分)はヒトのinteractomeにおいて非常に異なる役割を示していることが分かった。まず、疾患遺伝子のうちの「必須遺伝子」がコードする蛋白は、すべての疾患遺伝子がコードする蛋白に比べると、ハブを形成する傾向があった(図4c、P=1.3x10^-17)。そうすると、図4aで見られた「疾患遺伝子がコードする蛋白はハブを形成する」という傾向は、単に疾患遺伝子の22%(1,267遺伝子中396遺伝子)が「必須遺伝子でもある」ということによって起きているのか?驚いたことに、疾患遺伝子の多く(78%)を占める「非必須」遺伝子がコードする蛋白は全くハブを形成していなかった(図4d:非必須疾患遺伝子がコードする蛋白の枝の数〈k〉と、その蛋白が疾患遺伝子によってコードされているということの間に相関はない)。したがって、図4aに見られた疾患遺伝子がコードする蛋白がハブを形成するという傾向は、疾患遺伝子の中の少数の「必須遺伝子」によるものであった。

また、遺伝子発現パターンの同調(シンクロナイズ)について検討した。細胞の円滑な機能発揮のためには、いくつもの機能的モジュール活性を協調させて維持する必要がある。そのため、重要な遺伝子の発現パターンは同調していると考えられる。疾患遺伝子のうち「必須遺伝子」である遺伝子の発現パターンも多くの他の遺伝子の発現と同調しているだろう。このことを検討するため、平均遺伝子共発現係数〈ρ〉という測定値を考えた。これは、正常ヒト組織マイクロアレイの結果から、「必須遺伝子」(または「非必須疾患遺伝子」)iと細胞内の他のすべての遺伝子との間のPCCijを求め、合計して平均したもの〈ρ〉i=Σj PCCijである。予想どおり、他の遺伝子との高い平均共発現係数〈ρ〉を示す遺伝子は、低い〈ρ〉やマイナスの〈ρ〉を示す遺伝子よりも「必須遺伝子」であることが多かった(図4e、P=1.7x10^-4)。しかし、「非必須疾患遺伝子」は逆の傾向を示し、発現パターンが他の遺伝子と逆相関を示すか相関がない遺伝子と関連していた。図4fに示すように、発現が高度に同調した遺伝子(〈ρ〉 > 0.2)の中で「非必須疾患遺伝子」が占める割合は少なかった (P = 2.6 × 10^−8)。このように、「必須遺伝子」の発現は他の遺伝子の発現と同調しているが、「非必須疾患遺伝子」の発現は、他のすべての遺伝子の発現パターンから大きく外れているという傾向が見られた。

最後に、すべての組織で常に発現しているハウスキーピング遺伝子が疾患遺伝子になっている傾向があるかを検討した。図4gに見るように、遺伝子が発現している多くの組織が多いほど、その遺伝子が「必須遺伝子」である傾向があった(P=2.8x10^-16)。「非必須疾患遺伝子」においては図4hのようにその逆であり、少ない組織に発現している傾向が見られた(P=1.4x10^-6)。ハウスキーピング遺伝子のうちたった9.9%しか疾患遺伝子ではなく、これは非ハウスキーピング遺伝子の13.5%が疾患遺伝子ということに比べて有意に少ない(P=3.6x10^-6)。それに対し、マウスのハウスキーピング遺伝子の59.8%は「必須遺伝子」であり、これは非ハウスキーピング遺伝子で40.5%が「必須遺伝子」であったのに対し有意に多いP<10^-4)。
以上より、「非必須疾患遺伝子」はハブに関係しておらず、他の遺伝子の発現との同調が少なく、発現している組織も少ないという傾向が認められる。すなわち、「非必須疾患遺伝子」の多くはトポロジーにおいては機能的に「末梢を占めている」と言える。そしてそれとは対照的に、「必須遺伝子」はハブとなる蛋白をコードしていて、他の残りの遺伝子と強く同調して発現する。また、多くの組織で発現し、ハウスキーピング遺伝子の中で多くの比率を占めている。「必須遺伝子」はトポロジーにおいて機能的に「中心的」であると言える。

多くの疾患遺伝子が「末梢性」しか示さないという結果は意外であったが、これは進化の過程を考えに入れるとうまく説明できるだろう。もしトポロジカルに「中心的」な遺伝子に変異が起きると、それは広く発現しているため、正常の発生や生理的機能に強い障害を与え、その個体は発生早期に致死となってしまい集団からは除かれる。そのため、このような「中心的」な遺伝子の変異ではなく、生殖年齢まで生存できる変異だけが集団内で維持されるわけである。したがって、トポロジカルに「末梢にある」疾患関連の変異の方が生存のチャンスは大きくなる。

疾患遺伝子の変異が(遺伝的なものでなく)体細胞突然変異であれば、上記のような選択圧は受けないだろう。本当にそうかどうかを検討するため、Cancer Genome Censusに登録されているがんを起こす体細胞変異の特徴を検討した。その結果、がんで体細胞変異を起こしていたがん遺伝子はハブをコードしており、他の遺伝子と高い共発現を示し、ハウスキーピング遺伝子の中の多くの割合を占めていた(SI図10)。すなわち、体細胞変異を起こすがん遺伝子はトポロジカルに「中心的」であり、これは「多くのがん遺伝子は細胞の発生と成長に重要な役割を果たす」という我々の理解(例えばp53が細胞の生存や死に重要であるなどの知見)に合致するものである。
# by md345797 | 2014-06-16 12:57

複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク

Hierarchical organization of modularity in metabolic networks.

Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabási AL.

Science. 2002 Aug 30;297(5586):1551-5.

【論文内容】
ネットワークにおけるモジュール

モジュールは、システムの構成因子がある区別される領域にまとまって機能するものである。ネットワークはいくつかのモジュールに分けられることがあり、特に社会的なネットワークではモジュールはコミュニティと呼ばれる。このコミュニティの検出方法についてはさまざまな方法が考えられている。なお、ネットワークのモジュールは、単なるクラスター(頂点が三角形を作る構造)とは違うことに注意する。

スケールフリー性とモジュール性
生物における代謝ネットワークはスケールフリー・ネットワークであると考えられ、多数の反応に関わるハブとなる基質が少数存在するトポロジーを示している。このような従来のスケールフリー・ネットワーク(図1A)ではその定義上、分けて考えられるようなモジュールは存在しない。しかし、現実の代謝ネットワークでは生化学的にまとまって分けて考えられるような機能的モジュールが存在している。また、代謝ネットワークは、クラスター係数が高いネットワークであり、モジュールの存在を示唆するものである。したがって、いくつかのモジュールどうしが連結しているネットワーク(図1B)が想定できる。しかし逆に、このような明らかなモジュール性を持っていると頂点がほぼ同数の枝を持つようになり、ハブが出現せずスケールフリーにならなくなってしまう。
複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク_d0194774_21165818.jpg

図1:複雑ネットワークの3種類のモデル。いずれも左にシェーマ、右に256個の頂点を持つ典型的なネットワークの形態を示す。
A: スケールフリー・ネットワーク。新しい頂点は、もともと多くの枝を持つ頂点に連結するため、非常に多くの枝を持つ頂点(ハブ)ができる。モジュール性は少ない。B: モジュールが相互に連結したネットワーク。どの頂点もほぼ同じ数の枝を持ち、ハブは存在しない。C: 階層的ネットワーク。なお、図1C左側のグラフには元論文の間違いがある(後述赤字の注2参照)



代謝ネットワークは高い平均クラスター係数を持つ
では、実際の代謝ネットワークの性質はスケールフリーなのか、モジュール性なのか。この問題を検討するため、まず実際の43種類の生物の代謝ネットワークの平均クラスター係数を計算した。

◇クラスター係数とは:
ある頂点が作りうる範囲でどのくらいクラスター(その頂点を含む三角形の構造)を作っているかの割合である。図2A左の赤の頂点に連結している青の頂点の間がすべて直接連結されているときは、赤の頂点のクラスター係数をC=1(すべてクラスター化している)。右のように赤の頂点に連結している青の頂点どうしが直接連結していないときをC=0(クラスター構造はない。赤の頂点を介して連結しているだけ)とする。真ん中のように、青の頂点の間に実際ある枝(3本)を連結しうる枝の数(6本)で割ったものC=1/2が赤の頂点のクラスター係数になる。

一般的には、頂点iが枝をki本持つ、すなわちki個の頂点に隣接するとする。そうすると、それらのki個の頂点から2つ選んで連結してできうる枝の総数はki(ki-1)/2本である。ここで実際にはki個の頂点がn本の枝で連結されているとすると、頂点iを含むクラスター(頂点iを含む三角形)がn個あることになり、頂点iのクラスター係数Ciをn/[ ki(ki-1)/2]で定義する。頂点iのCiは、頂点iが作りうるクラスターのうち、どのくらいの割合で実際のクラスターができているかを表す。全部の頂点のクラスター係数の平均値を平均クラスター係数とする(注1)。平均クラスター係数は、ネットワーク全体でどのくらいクラスターが形成されているか、すなわち「ネットワークのモジュール化」の指標になる。

注1:グラフ理論では、上記の「頂点のクラスター係数Ci」を「クラスター度」といい、ネットワークの全部の頂点のクラスター度の平均のことを「クラスター係数」ということがあるので注意。

ここで、43種類の生物の代謝ネットワークにおける、頂点数Nと平均クラスター係数C(N)の関係を図2Bに示した。紫は古細菌、緑は細菌、青は真核生物を表し、頂点数Nのスケールフリー・ネットワークの平均クラスター係数にを白い◇で示した。同じNのスケールフリー・ネットワークと比べると、生物の代謝ネットワークは平均クラスター係数C(N)が大きい。したがって、現実の代謝ネットワークは、理論的なスケールフリー・ネットワークより高いモジュール性を持っていることが分かる。また、スケールフリー・ネットワークはその頂点数Nが大きくなるとN^-0.75にしたがって平均クラスター係数C(N)は小さくなる(頂点が増えるとクラスターを形成しにくくなる)が、生物の代謝ネットワークでは、その生物における頂点数(代謝産物の数)に関わらず平均クラスター係数C(N)は一定であった(モジュール化の程度はどの生物の代謝ネットワークも同じ)。
複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク_d0194774_2103799.jpg

図2 代謝ネットワークにおける階層的モジュール性
A: ある頂点(赤●)のクラスター係数Cの説明。左のように連結している頂点(青●)の間がすべて直接連結されているときはC=1(すべてクラスター化している)。右のように連結している頂点の間で直接連結していないときはC=0(クラスター化なし)。真ん中は、青●の間に実際ある枝(3本)を連結しうる枝の数(6本)で割ってC=1/2である。
B: 43種類の生物の代謝ネットワークの頂点数Nと平均クラスター係数C(N)の関係。古細菌(紫)、細菌(緑)、真核生物(青)のすべてでNの数に関わらず平均クラスター係数は同じ。頂点数と枝数が上記の生物と同じでフリースケール・ネットワークの場合のC(N)を◇、理論的な値を線で示したが、実際の生物でのC(N)はそれらより常に高い。
C-E: 古細菌A. aeolicus、細菌E. coli、真核生物S. cerevisiaeの代謝ネットワークの頂点における枝の数kとクラスター係数C(k)の関係は、いずれもベキ法則C(k)~k~^-1に従うという特徴がある。Fは43種類の生物全体での平均(小さい表示は合計)したものを表す。同じ頂点数・枝数の単なるフリースケール・ネットワークでは◇のようになり、ベキ法則には従わない。


「階層的ネットワーク」の提唱

生物の代謝ネットワークは、前に見たようにスケールフリー・ネットワークであると同時に、その頂点数に関係しない高い平均クラスター係数を持つモジュール性を示すことが分かった。しかし、この2つは明らかに矛盾することであり、これらの条件を満たす、代謝ネットワークの新しいモデルが必要になった。これが階層的モデル(hierarchical model)と呼ぶものである(図1c)。

例としてN個の頂点、ここでは4個の頂点がすべて互いに連結した小さい連結グラフをまず作る。これを1つのモジュールと考え、この周りに(N-1)つ、ここでは3つの同じものを複製し、それら複製グラフで外側にある3個の頂点を古いグラフの真ん中の頂点とそれぞれ連結する。これにより新しく4+4x3=16個の頂点を持つ連結グラフができたことになる。次に、この16個の頂点を1つのモジュールと考えて、周りに3つ同じものを複製し、外側の頂点をまた古いグラフの真ん中の頂点と連結する。これを繰り返すと頂点の数は4倍ずつ増加する(注2)。

注2: 図1Cの左図は、上記の説明では連結がないはずの周囲の3つの連結グラフの中心どうしが連結しており、元論文の間違いではないか?正しい図が『複雑ネットワーク 基礎から応用まで』(増田直紀、今野紀雄・近代科学社)の「図6.11ラヴァスの階層的モデル」に掲載されていたため、以下に引用させていただいた。
複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク_d0194774_2111384.jpg

これは、スケールフリー・ネットワークであり(ハブがあり、新しい頂点が選択的にハブに連結する)、かつモジュール構造を持つネットワークになる。スケールフリー性のベキ指数はγ=1+(ln 4)/(ln 3)=2.26、クラスター係数は頂点数に関わらずC≃0.6となり、いずれも実際の代謝ネットワークに近い。また、このネットワークは繰り返し4倍になっていくことから、階層的である。このような階層では、頂点がk本の枝を持つとき、頂点のクラスター係数はベキ法則C(k)~k^-1に従って減少することが分かっている(Drogovtsev, 2002)。

実際、43種の生物の代謝ネットワークのC(k)が、上のような1/k法則に従うかを検討した。図2C-Fに示すようにC(k)~k^-1であり、これらの代謝ネットワークは階層的ネットワークの特徴を示すことが示された。このように階層的ネットワークは、スケールフリー性のあるトポロジー、頂点数によらない高いクラスター係数、C(k)がベキ法則に従うという性質を併せ持っている。

ネットワークの中にあるモジュールを発見する
ここから、E. coliのネットワークをグラフ理論に基づいて検討することとした。先にネットワークのトポロジカル・オーバーラップ行列O_T(i, j)を求めることにより、モジュールを発見する方法について述べる。

◇トポロジカル・オーバーラップとは:
頂点iと頂点jがあるとき、トポロジカル・オーバーラップO_T(I, j)とは、「iとjのどちらも連結している頂点の数」を「iとjの枝の本数の少ない方」で割ったもの。この数が多い方と、頂点iと頂点jが同じモジュールにある度合いが高いと言える(図3A)。

頂点iとjの間でトポロジカル・オーバーラップが1というのはiとjがすべて同じ頂点に連結していることを表し、0はiとjが共通の頂点に連結していないことを表す。2つの頂点からの連結が共通の頂点を通じてオーバーラップしているかどうかということである。高度に連結したモジュールに含まれる頂点は、隣接する頂点とトポロジカル・オーバーラップが大きい。代謝ネットワークにおいては2つの基質のトポロジカル・オーバーラップが大きいほど、同じモジュールに属する可能性が高いと言える。そのため、この2頂点を行列表示したトポロジカル・オーバーラップ行列はモジュールの発見に有用である。
複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク_d0194774_19364968.jpg

図3:トポロジカル・オーバーラップを求めることによりモジュールを発見する
A. 小さいネットワークの例を示す。2つの頂点iとjにおいて、トポロジカル・オーバーラップは次のように定義される。
複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク_d0194774_3575750.gif

ここで、J_n(i, j)はiとjが連結している頂点の数を表す(もしiとjの間に直接連結があれば1を加える)。[min (ki, kj)]は頂点iの枝の数kiと頂点jの枝の数kjのうち小さい方を表す。すべての枝の上の赤字は連結された2頂点のトポロジカル・オーバーラップを表し、頂点の横にあるカッコはその頂点のクラスター係数を表している。なお、原論文の図ではCのクラスター係数が(3)となっておりミスプリントであったので、引用の際(1/3)に改変した。

B: Aで示したネットワークのトポロジカル・オーバーラップ行列。行と列は階層的クラスタリングアルゴリズム(Eisen MB, et al. PNAS, 1998)を用いて頂点を並べ替え、連結のオーバーラップが大きい頂点どうしを近くに配置するようにした。色は、頂点間のオーバーラップの度合いを表示したもの。これにより、赤~茶色にかけてのモジュールが3個あることが分かる。
また、上と右につけた樹状図は3つのモジュールを表しており、EFGとHIJKは、ABCよりもトポロジー的にお互い近いことを表す。なお、図3Aの頂点ABCDの赤色とHIJKの青色が図3Bでは原論文のミスで逆になっているので注意。


実際の代謝ネットワークにおけるモジュールの同定
図4Aは、E. coliの代謝ネットワークのトポロジーを、図3Bと同様のトポロジカル・オーバーラップ行列で表したものである。これによると、強固に相互連結したモジュール(行列の赤色の部分)がいくつも形成されているのが分かる。これを拡大して見るとサイズが大きく相互連結が少ない入れ子になった(nested=フラクタルのように拡大しても自己相似形がある)モジュールの階層が認められた。

ここで明らかになったネットワークにおけるモジュールと、代謝産物の生化学的特性との間の関係を視覚化するために、行列の上と右に代謝産物の階層木(hierarchical tree)を表示した。これらは生化学的分類を用いて色分けしている。その結果、小分子の種類ごと(代謝パスウェイごと)にだいたい同じ木の枝に分布しており、これを圧縮して三次元表示した図4Bでは代謝ネットワークの区切られた領域に対応して分布していた。以上よりE. coli代謝ネットワークにおいて、今回階層的モデルから得られたトポロジカルな構成は、実際の代謝産物の生化学的分類と強い相関があることが分かる。
複雑ネットワークの理論(5): 代謝ネットワークはスケールフリーかつモジュール性を持つ階層的ネットワーク_d0194774_2144257.jpg

図4:E. coliの代謝ネットワークにおけるモジュールの同定
A:E. coliの代謝ネットワークに対応するトポロジカル・オーバーラップ行列(中央)、モジュール間の関係を表す階層木(行列の上と右)。階層木の色は行列の下にあるように、炭水化物(青)、核酸代謝(赤)、蛋白・アミノ酸代謝(緑)、脂質代謝(水色)、芳香族代謝(濃いピンク)、モノカルボニル化合物代謝(黄色)、コエンザイム代謝(薄いオレンジ色)で色分けしている。
B:代謝ネットワークの3次元構成。各頂点の色はAで示した通り。薄い青で囲んだ部分はピリミジン代謝に関わるモジュール。
C:ピリミジン代謝のモジュールを拡大し階層木にしたもの。全体が3段階のモジュールの入れ子構造になっており、1段階目を水色、2段階目を薄いオレンジ色で表している。
D:ピリミジン代謝モジュールとその周囲の代謝産物のグラフ。赤はCで示されたピリミジン代謝のモジュールに含まれる代謝産物。緑はピリミジン代謝パスウェイにあるが、非分岐点や分岐の経路の終末点にあたるためCには表示されていない代謝産物。青と黒はピリミジン代謝から他の代謝経路に連結する代謝産物で、黒は他の代謝経路の枝に属する主要な代謝産物、青は分岐しない代謝産物。矢印は反応方向、番号はその反応を触媒する酵素を表す。


上記のようにグラフ理論を用いて、実際の生化学的パスウェイにおけるモジュールを見出しうるかを、ピリミジン代謝パスウェイに絞って検討することにした。代謝ネットワークを階層的ネットワークと考えると、ピリミジン代謝は図4Bの薄い青色で囲んだ領域にトポロジカルに限定され、図4Cに示すような4つのモジュールから構成されていた(4つのモジュールもさらに小さいモジュールからなるという、入れ子構造になっている)。また、実際の代謝経路は図4Dのグラフで示したものである。ここから、赤い四角で囲まれた代謝産物によって構成されたモジュールを発見するのが上記の方法である。

なお、階層的ネットワークにおけるモジュールの境界は直観的に分かる生化学に基づく境界と常に一致するとは限らない。例えば、L-glutamineからのuridine 5’-monophosphate (UMP)の合成は直線的な生化学反応のモジュールに含まれるが、UMPからのuridine 5’-diphosphateの合成はモジュールの境界を越えていた。このようにまだ明らかなモジュールとして分からないところもあり、代謝ネットワークにおけるモジュールの理解のためには、さらなる実験的および理論的解析が必要なのだろう。

まとめと今後の展望
以上のように代謝ネットワークの構造は、階層的ネットワークモデルとつなぎ目なく埋め込まれたモジュールによって表されることが明らかになった。代謝ネットワークは、従来の直観的に分かるようなモジュール性(図1B)、すなわちいくつかの隔離したモジュールが少ない枝を介して連結しているモデルではなく、小さいモジュールがグループを形成して大きなモジュールを形成し、それが集まってさらに大きなモジュールになるというモデルで表される。この構造は図4Aにある階層的木によっても視覚的に理解でき、逆向きに代謝ネットワークをいくつかの大きい統合のゆるいモジュールに分け、それをさらに小さい統合の強いサブモジュールに分けていくことが可能になる。

なお、上記の階層的ネットワークとモジュール性によるネットワークの理解は、代謝ネットワークのみならず、他の細胞内ネットワーク(遺伝子ネットワーク、蛋白相互作用ネットワーク)や社会的ネットワーク(WWW、インターネットのネットワーク)にも応用可能だろう。また、生態系は複数のレベルで進化が同時に起きる現象があるが、これも生態系ネットワークのモジュール性で説明可能かもしれない。ある局所的な変化が起きると高度に統合された小さいモジュールがまず変化し、それがゆるく統合した大きいモジュールにゆっくり影響を与えることによるのだろう(そもそもモジュールとは、局所的な構成要素の変化が起きても、その変化が他の構成要素に及ぼす影響が最小限ですむように、小規模のグループを構成していることでもある)。また、階層的トポロジーはすでにあるモジュールをコピーしたり再利用したりして創発する(図1C)。そのため、ネットワークに最初にモジュールが現れるメカニズムやその後に階層的およびスケールフリーのトポロジーが同時に出現する進化的メカニズムの理解が、今後のネットワーク理論の重要な課題となるだろう。
# by md345797 | 2014-06-10 21:07

複雑ネットワークの理論(4) 細胞内代謝パスウェイはスケールフリー・ネットワークである

The large-scale organization of metabolic networks.

Jeong H, Tombor B, Albert R, Oltvai ZN, Barabási AL.

Nature. 2000 Oct 5;407(6804):651-4.

【まとめ】
43種類の生物(古細菌、細菌、真核生物)の細胞内代謝ネットワークを、酵素反応の基質を「頂点」、反応を「枝」で表したネットワークと考えたところ、これらの代謝ネットワークは、生物種によらずスケールフリー・ネットワークの特徴を示したことを報告する。これにより、細胞の代謝ネットワークが示す頑健でエラー耐性があるという特徴は、それがスケールフリー・ネットワークであることに基づくと考えられる。

【論文内容】
生命現象の過程に見られる頑健性(robustness)は、蛋白、DNA、RNA、小分子などといった構成要素の動的な相互作用による。この相互作用は極めて複雑なネットワークであるが、それを複雑系(complex system)としてとらえることが可能になりつつある。複雑系は以前より、古典的なランダムネットワーク理論(Erdös–Rényiモデル)で考えられてきた。これは、構成要素を頂点とし、それらがある確率pをもってランダムに連結されたグラフである。このネットワークは図1aのようなものであるが、その結合性は図1bで表されるような均一なポアソン分布となる。すなわち、頂点から出る枝の数kは平均値〈k〉をピークとして、その確率分布P(k)は指数関数的に減少する。

一方、World-Wide Webやインターネットなどが示す現実のネットワーク(図1c)は、このようなランダムな構造ではなく、P(k)がベキ法則(power-law)で減少するスケールフリー・ネットワークである。スケールフリー・ネットワークは、非常に多い数の枝を持つ少数の頂点(ハブ)と枝の数が少ない大多数の頂点からなるという、極めて不均一なトポロジーを示すネットワークである。これは、少しずつ頂点が加わっていくというネットワークの「成長」と、新しい頂点がハブに優先的に結合するという「優先的選択」によって形成されることが分かっている。
複雑ネットワークの理論(4) 細胞内代謝パスウェイはスケールフリー・ネットワークである_d0194774_17205150.jpg

図1 2種類のネットワーク構造の特徴
a, 指数関数的(Exponential)ネットワーク。ランダムネットワーク、Erdös–Rényi モデルとも呼ばれる。b, ネットワークの頂点がk本の枝を持つ確率はP(k)は平均値〈k〉をピークに指数関数的に減少する。そのため、枝の数が極端に大きい頂点は存在しない。c, フリースケール(Scale-free)ネットワーク。「ハブ」と呼ばれる、枝の数が極端に大きい頂点(灰色の●)が少数存在する。d, スケールフリー・ネットワークでは、P(k)はピークを持たず、ベキ法則に従って減少する。P(k) ≈ K^-γであり、これは両対数グラフで傾きが-γの直線で表される。e, E. coliの代謝反応の一部をグラフ理論で表示したもの。このグラフにおいて頂点(四角で囲まれた部分)は酵素反応における基質である。いくつかの基質(educt)が複合体を作り、酵素によって反応を起こし、産物(products)となる。productはさらなる酵素反応のeductになっている。酵素反応はこれらの頂点を結ぶ枝であり、その反応をつかさどる酵素はEC番号で表示されている。


細胞ネットワークの大規模構造を理解する手始めとして、43種の生物の主要代謝ネットワークのトポロジー特性を検討した。ここでは、代謝パスウェイとゲノムの統合データベースであるWIT databaseを用いた。代謝ネットワークにおける反応は、図1eのようなグラフで表した。ここでは酵素反応の基質が頂点で、酵素反応が枝、代謝をつかさどる酵素がEC番号で表示されている。さまざまな代謝ネットワークをこのようなグラフで表すことにより、グラフ理論と統計学を用いてそのトポロジー特性を検討したり定量化したりすることが可能になる。

代謝ネットワークは、ランダムで均質な指数関数的モデルと、非均質なスケールフリーモデルのどちらで表されるのだろうか?結果は図2に示すように、酵素の基質(頂点)がk個の酵素反応(枝の本数がk本)である確率はベキ法則P(k) ≈ K^-γに従っていた(図2のa、b、cはそれぞれ古細菌、細菌、真核生物の代表例、dは43種すべての平均)。すなわち、代謝ネットワークはスケールフリー・ネットワークであった。頂点あたりの枝の数kは、頂点に入ってくる枝と出ていく枝でそれぞれk_inとk_outと表わされ、それぞれのベキ指数γ_inとγ_outはいずれも2.2であった。
複雑ネットワークの理論(4) 細胞内代謝パスウェイはスケールフリー・ネットワークである_d0194774_1718994.jpg

図2 さまざまな生物の代謝ネットワークの結合性分布
a: 古細菌(Archaeoglobus fulgidus)、b: 細菌(E. coli)、c: 真核生物(C. elegans)。代謝における酵素反応の基質を頂点とし、酵素反応を枝としたとき、頂点あたりの枝の数kと、その枝数をもつ確率P(k)の関係を両対数グラフで表したもの。Inは頂点に入ってくる枝、Outは頂点から出ていく枝についてkの確率分布を表している。a、b、cのいずれも、両対数グラフでマイナスの傾きを持つ直線で表されるため、P(k)がベキ法則に従っていることが分かる。dは、検討した43生物のすべての結合性分布の平均を表す。


多くの複雑ネットワークでは、2つの頂点は比較的短い距離(=少数の枝の数)で連結されている。このようなネットワークをスモールワールドであるという。図3aはE. coliの代謝ネットワークがスモールワールドであることを表すヒストグラムである。図3aの横軸は、E. coli代謝ネットワークの2頂点間の距離(2つの頂点が最短でいくつの枝で連結されているか、lはpathway length)、縦軸は任意の頂点間の距離の頻度Π(l)を示す。これによると頂点間の距離は3であることが最も多く、代謝ネットワークはスモールワールドであることが分かる。

また、2頂点の最短距離を全部の頂点間で平均したもの(グラフ理論における平均距離)を、ここではネットワークの直径(diameter)と呼ぶ。直径が小さい方が、ネットワーク内の伝達が速いことになる。単純な細菌(例えばMycoplasma genitalium)に比べるとより複雑な細菌(E. coli)は酵素や基質が多い(頂点や枝が多い)のだから、代謝ネットワークの直径は大きくなるように思われる。ところが図3bに示したように、43種類の生物すべてで代謝ネットワークの直径は同じであった(大体3程度)。この結果は予想外であったが、生物が複雑になり頂点数が増加しても、その分連結も増加するのであれば、2頂点間の経路は増大せず、ネットワークの直径は一定になりうる(頂点数が増えてもその分経路も増えれば、頂点から頂点への行きやすさは全体的にあまり変わらないということ)。実際、図3cとdで見るように、生物が複雑になって酵素反応の基質の種類(頂点の数 N)が増加すると、基質あたりの反応数(頂点あたりの枝の数 L/N)が増加していることが分かる。なお、cは入ってくる枝、dは出ていく枝であり、赤が古細菌、緑が細菌、青が真核生物での結果を示している。
複雑ネットワークの理論(4) 細胞内代謝パスウェイはスケールフリー・ネットワークである_d0194774_17163969.jpg

図3 生物種によらず、代謝ネットワークの直径は一定である
a, E. coliの代謝ネットワークで、代謝産物を頂点としたときの2頂点間の距離(最短経路、pathway lengthのl)のヒストグラム。縦軸のΠ(l)は、任意の2つの頂点がlの距離を取る頻度を表す。これによると頂点間の距離は3であることが最も多く、代謝ネットワークはスモールワールドであることが分かる。 b, 43種類の生物の代謝ネットワークの平均距離 (直径)。エラーバーは標準偏差σであり、aの説明にあるΠ(l)により求められたlを用いて〈l^2〉-〈l〉^2で近似される。ネットワークの頂点数Nが大きくなっても、ネットワークの直径dは変わらない。c, d,生物が複雑になって酵素反応の基質の種類(頂点の数 N)が増加すると、基質あたりの反応数の平均(頂点あたりの枝の数の平均 L/N)が増加することが分かる。cは入ってくる枝、dは出ていく枝についてであり、赤は古細菌、緑は細菌、青は真核生物。e, E. coliの代謝ネットワークから基質を除外した場合の直径に及ぼす影響。赤は枝の多い頂点(関わる酵素反応が多い基質)から順に除外した場合、緑はランダムに頂点を除外した場合。除外する頂点数M=60で、代謝に見られる基質の約8%を除外したことに相当する。f, 43種の生物の代謝ネットワークにある基質のうち、平均のランク順〈r〉とその標準偏差σの関係。ランクが高い(横軸で数値が小さい)基質は、普遍的に多くの生物で用いられており、その基質のランクは生物間のばらつきが少ない。


スケールフリー・ネットワークは、少数のハブによってネットワーク全体の結合が保たれているので、ハブが外部から攻撃されたときはネットワークは脆弱である。枝の数が多い頂点(大きなハブ)から順番に取り除いていくと、ネットワークの直径が急速に増加し(=結合性が弱くなり)、非連結のクラスターに分解されてしまう。しかしその一方で、スケールフリー・ネットワークにはハブが存在するそのことにより、ランダムに起きるネットワークのエラーには予想外の頑健性を示す。

そこで、E. coliの代謝ネットワークにも、このような「攻撃に対する脆弱性とエラーに対する耐性」が見られるかをコンピュータ・シミュレーションで検討した。図3eの赤い△のように、最も多く連結している頂点(基質)から順に除外していくと、代謝ネットワークの直径は急速に増加した(Mは除外する基質数、横軸右に行くにしたがい徐々にはハブを除外)。しかし、緑の□のようにランダムに基質を除外していっても、ネットワークの直径は変わらない。仮にランダムな酵素の変異が起きていくつかの基質ができなくなったとしても、これによってネットワークの連結性はほとんど影響を受けないことが分かる。なお、ここでハブとなる基質はごく少数なので、ランダムに起きる酵素の変異によってハブが消失する確率は非常に低いのだろう。このようなE. coli代謝ネットワークの変異に対する耐性は、in silicoin vivoで変異を起こす研究で詳細に検討されている (Edwards JS, PNAS 2000)。なお本研究では、43種類の生物すべてに同様のエラー耐性が認められた。

代謝ネットワークの大規模構造の特性はネットワークがハブを持つことによると考えられるが、全生物で同じ基質がハブとして働いているのか、それともハブは生物ごとに違いがあるのか?これを検討したところ、43の生物でハブとして働く基質のランキングは事実上同じ(論文のsupplementary Table 1)であった。43の生物で認められる全種類の基質の中で、ハブとなる基質は4%のみである。すなわち、生物はごく少数の基質を普遍的に利用していることが分かる。一方、生物に特異的な違いの見られる基質は、反応の枝の数が少ない。これを定量的に表すために、43の生物で認められた基質ランキングr の標準偏差σ(r)を図3fに示した。ハブとなる基質のランク順の平均〈r〉が大きくなるほど、σ(r)が大きくなっており、これは基質としての利用ランクが高いもの(〈r〉が小さいもの)ほど生物間のばらつきが少ない(σが小さい)ことを表している。以上より、43の生物種の代謝ネットワークにおいて、多くの枝を持つ頂点は生物間で普遍的に用いられており、枝の少ない頂点は生物によってばらつきがある。

生物が現在示す代謝ネットワークのトポロジーは、内部からのエラーと外部からの攪乱に対する頑健性や、ある特定の生物が環境のニッチに占めるための特性を得るために長い進化の過程において獲得してきたものと思われる。その結果、このようなネットワークはランダムなものではなく、頑健性とエラー耐性を持つスケールフリー・ネットワークになったのだろう。また、ここで検討したすべての生物でネットワークの直径は同じであり、これも進化の過程で保存されたものなのだろう。もし直径がもっと大きいと内的エラーや外的変化に効率よく対応できず、生存に不利だったのかもしれない。また、スケールフリー・ネットワークは他の細胞内ネットワーク(例えば、アポトーシスや細胞周期ネットワーク)に普遍的に存在するものだろうか?現時点では代謝以外のネットワークは分かっている頂点数や枝の数がまだ小さいので、本研究のように数学的ツールで統計学的に解析するのは難しい。しかし、代謝経路以外の細胞内ネットワークでも結合性の分布がベキ法則に従うことが予想され、上記のようなスケールフリー・ネットワークになっている可能性を今後検討したい。
# by md345797 | 2014-06-08 17:23