Hierarchical organization of modularity in metabolic networks.
Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabási AL.
Science. 2002 Aug 30;297(5586):1551-5.
【論文内容】
ネットワークにおけるモジュール
モジュールは、システムの構成因子がある区別される領域にまとまって機能するものである。ネットワークはいくつかのモジュールに分けられることがあり、特に社会的なネットワークではモジュールはコミュニティと呼ばれる。このコミュニティの検出方法についてはさまざまな方法が考えられている。なお、ネットワークのモジュールは、単なるクラスター(頂点が三角形を作る構造)とは違うことに注意する。
スケールフリー性とモジュール性
生物における
代謝ネットワークはスケールフリー・ネットワークであると考えられ、多数の反応に関わるハブとなる基質が少数存在するトポロジーを示している。このような
従来のスケールフリー・ネットワーク(図1A)ではその定義上、分けて考えられるようなモジュールは存在しない。しかし、現実の代謝ネットワークでは生化学的にまとまって分けて考えられるような機能的モジュールが存在している。また、代謝ネットワークは、クラスター係数が高いネットワークであり、モジュールの存在を示唆するものである。したがって、いくつかのモジュールどうしが連結しているネットワーク(図1B)が想定できる。しかし逆に、このような明らかなモジュール性を持っていると頂点がほぼ同数の枝を持つようになり、ハブが出現せずスケールフリーにならなくなってしまう。
図1:複雑ネットワークの3種類のモデル。いずれも左にシェーマ、右に256個の頂点を持つ典型的なネットワークの形態を示す。
A: スケールフリー・ネットワーク。新しい頂点は、もともと多くの枝を持つ頂点に連結するため、非常に多くの枝を持つ頂点(ハブ)ができる。モジュール性は少ない。B: モジュールが相互に連結したネットワーク。どの頂点もほぼ同じ数の枝を持ち、ハブは存在しない。C: 階層的ネットワーク。なお、図1C左側のグラフには元論文の間違いがある(後述赤字の注2参照)
代謝ネットワークは高い平均クラスター係数を持つ
では、実際の代謝ネットワークの性質はスケールフリーなのか、モジュール性なのか。この問題を検討するため、まず
実際の43種類の生物の代謝ネットワークの平均クラスター係数を計算した。
◇クラスター係数とは:
ある頂点が作りうる範囲でどのくらいクラスター(その頂点を含む三角形の構造)を作っているかの割合である。図2A左の赤の頂点に連結している青の頂点の間がすべて直接連結されているときは、赤の頂点のクラスター係数をC=1(すべてクラスター化している)。右のように赤の頂点に連結している青の頂点どうしが直接連結していないときをC=0(クラスター構造はない。赤の頂点を介して連結しているだけ)とする。真ん中のように、青の頂点の間に実際ある枝(3本)を連結しうる枝の数(6本)で割ったものC=1/2が赤の頂点のクラスター係数になる。
一般的には、頂点iが枝をki本持つ、すなわちki個の頂点に隣接するとする。そうすると、それらのki個の頂点から2つ選んで連結してできうる枝の総数はki(ki-1)/2本である。ここで実際にはki個の頂点がn本の枝で連結されているとすると、頂点iを含むクラスター(頂点iを含む三角形)がn個あることになり、頂点iのクラスター係数Ciをn/[ ki(ki-1)/2]で定義する。頂点iのCiは、頂点iが作りうるクラスターのうち、どのくらいの割合で実際のクラスターができているかを表す。全部の頂点のクラスター係数の平均値を平均クラスター係数とする(注1)。平均クラスター係数は、ネットワーク全体でどのくらいクラスターが形成されているか、すなわち「ネットワークのモジュール化」の指標になる。
注1:グラフ理論では、上記の「頂点のクラスター係数Ci」を「クラスター度」といい、ネットワークの全部の頂点のクラスター度の平均のことを「クラスター係数」ということがあるので注意。
ここで、43種類の生物の代謝ネットワークにおける、頂点数Nと平均クラスター係数C(N)の関係を図2Bに示した。紫は古細菌、緑は細菌、青は真核生物を表し、頂点数Nのスケールフリー・ネットワークの平均クラスター係数にを白い◇で示した。同じNのスケールフリー・ネットワークと比べると、生物の代謝ネットワークは平均クラスター係数C(N)が大きい。したがって、現実の代謝ネットワークは、理論的なスケールフリー・ネットワークより高いモジュール性を持っていることが分かる。また、スケールフリー・ネットワークはその頂点数Nが大きくなるとN^-0.75にしたがって平均クラスター係数C(N)は小さくなる(頂点が増えるとクラスターを形成しにくくなる)が、生物の代謝ネットワークでは、その生物における頂点数(代謝産物の数)に関わらず平均クラスター係数C(N)は一定であった(モジュール化の程度はどの生物の代謝ネットワークも同じ)。
図2 代謝ネットワークにおける階層的モジュール性
A: ある頂点(赤●)のクラスター係数Cの説明。左のように連結している頂点(青●)の間がすべて直接連結されているときはC=1(すべてクラスター化している)。右のように連結している頂点の間で直接連結していないときはC=0(クラスター化なし)。真ん中は、青●の間に実際ある枝(3本)を連結しうる枝の数(6本)で割ってC=1/2である。
B: 43種類の生物の代謝ネットワークの頂点数Nと平均クラスター係数C(N)の関係。古細菌(紫)、細菌(緑)、真核生物(青)のすべてでNの数に関わらず平均クラスター係数は同じ。頂点数と枝数が上記の生物と同じでフリースケール・ネットワークの場合のC(N)を◇、理論的な値を線で示したが、実際の生物でのC(N)はそれらより常に高い。
C-E: 古細菌A. aeolicus、細菌E. coli、真核生物S. cerevisiaeの代謝ネットワークの頂点における枝の数kとクラスター係数C(k)の関係は、いずれもベキ法則C(k)~k~^-1に従うという特徴がある。Fは43種類の生物全体での平均(小さい表示は合計)したものを表す。同じ頂点数・枝数の単なるフリースケール・ネットワークでは◇のようになり、ベキ法則には従わない。
「階層的ネットワーク」の提唱
生物の代謝ネットワークは、前に見たようにスケールフリー・ネットワークであると同時に、その頂点数に関係しない高い平均クラスター係数を持つモジュール性を示すことが分かった。しかし、この2つは明らかに矛盾することであり、これらの条件を満たす、代謝ネットワークの新しいモデルが必要になった。これが階層的モデル(hierarchical model)と呼ぶものである(図1c)。
例としてN個の頂点、ここでは4個の頂点がすべて互いに連結した小さい連結グラフをまず作る。これを1つのモジュールと考え、この周りに(N-1)つ、ここでは3つの同じものを複製し、それら複製グラフで外側にある3個の頂点を古いグラフの真ん中の頂点とそれぞれ連結する。これにより新しく4+4x3=16個の頂点を持つ連結グラフができたことになる。次に、この16個の頂点を1つのモジュールと考えて、周りに3つ同じものを複製し、外側の頂点をまた古いグラフの真ん中の頂点と連結する。これを繰り返すと頂点の数は4倍ずつ増加する(注2)。
注2: 図1Cの左図は、上記の説明では連結がないはずの周囲の3つの連結グラフの中心どうしが連結しており、元論文の間違いではないか?正しい図が『複雑ネットワーク 基礎から応用まで』(増田直紀、今野紀雄・近代科学社)の「図6.11ラヴァスの階層的モデル」に掲載されていたため、以下に引用させていただいた。
これは、スケールフリー・ネットワークであり(ハブがあり、新しい頂点が選択的にハブに連結する)、かつモジュール構造を持つネットワークになる。スケールフリー性のベキ指数はγ=1+(ln 4)/(ln 3)=2.26、クラスター係数は頂点数に関わらずC≃0.6となり、いずれも実際の代謝ネットワークに近い。また、このネットワークは繰り返し4倍になっていくことから、階層的である。このような階層では、頂点がk本の枝を持つとき、頂点のクラスター係数はベキ法則C(k)~k^-1に従って減少することが分かっている(
Drogovtsev, 2002)。
実際、43種の生物の代謝ネットワークのC(k)が、上のような1/k法則に従うかを検討した。図2C-Fに示すようにC(k)~k^-1であり、これらの代謝ネットワークは階層的ネットワークの特徴を示すことが示された。このように階層的ネットワークは、スケールフリー性のあるトポロジー、頂点数によらない高いクラスター係数、C(k)がベキ法則に従うという性質を併せ持っている。
ネットワークの中にあるモジュールを発見する
ここから、E. coliのネットワークをグラフ理論に基づいて検討することとした。先にネットワークのトポロジカル・オーバーラップ行列O_T(i, j)を求めることにより、モジュールを発見する方法について述べる。
◇トポロジカル・オーバーラップとは:
頂点iと頂点jがあるとき、トポロジカル・オーバーラップO_T(I, j)とは、「iとjのどちらも連結している頂点の数」を「iとjの枝の本数の少ない方」で割ったもの。この数が多い方と、頂点iと頂点jが同じモジュールにある度合いが高いと言える(図3A)。
頂点iとjの間でトポロジカル・オーバーラップが1というのはiとjがすべて同じ頂点に連結していることを表し、0はiとjが共通の頂点に連結していないことを表す。2つの頂点からの連結が共通の頂点を通じてオーバーラップしているかどうかということである。高度に連結したモジュールに含まれる頂点は、隣接する頂点とトポロジカル・オーバーラップが大きい。代謝ネットワークにおいては2つの基質のトポロジカル・オーバーラップが大きいほど、同じモジュールに属する可能性が高いと言える。そのため、この2頂点を行列表示したトポロジカル・オーバーラップ行列はモジュールの発見に有用である。
図3:トポロジカル・オーバーラップを求めることによりモジュールを発見する
A. 小さいネットワークの例を示す。2つの頂点iとjにおいて、トポロジカル・オーバーラップは次のように定義される。
ここで、J_n(i, j)はiとjが連結している頂点の数を表す(もしiとjの間に直接連結があれば1を加える)。[min (ki, kj)]は頂点iの枝の数kiと頂点jの枝の数kjのうち小さい方を表す。すべての枝の上の赤字は連結された2頂点のトポロジカル・オーバーラップを表し、頂点の横にあるカッコはその頂点のクラスター係数を表している。なお、原論文の図ではCのクラスター係数が(3)となっておりミスプリントであったので、引用の際(1/3)に改変した。
B: Aで示したネットワークのトポロジカル・オーバーラップ行列。行と列は階層的クラスタリングアルゴリズム(Eisen MB, et al. PNAS, 1998)を用いて頂点を並べ替え、連結のオーバーラップが大きい頂点どうしを近くに配置するようにした。色は、頂点間のオーバーラップの度合いを表示したもの。これにより、赤~茶色にかけてのモジュールが3個あることが分かる。
また、上と右につけた樹状図は3つのモジュールを表しており、EFGとHIJKは、ABCよりもトポロジー的にお互い近いことを表す。なお、図3Aの頂点ABCDの赤色とHIJKの青色が図3Bでは原論文のミスで逆になっているので注意。
実際の代謝ネットワークにおけるモジュールの同定
図4Aは、E. coliの代謝ネットワークのトポロジーを、図3Bと同様のトポロジカル・オーバーラップ行列で表したものである。これによると、強固に相互連結したモジュール(行列の赤色の部分)がいくつも形成されているのが分かる。これを拡大して見るとサイズが大きく相互連結が少ない入れ子になった(nested=フラクタルのように拡大しても自己相似形がある)モジュールの階層が認められた。
ここで明らかになったネットワークにおけるモジュールと、代謝産物の生化学的特性との間の関係を視覚化するために、行列の上と右に代謝産物の階層木(hierarchical tree)を表示した。これらは生化学的分類を用いて色分けしている。その結果、小分子の種類ごと(代謝パスウェイごと)にだいたい同じ木の枝に分布しており、これを圧縮して三次元表示した図4Bでは代謝ネットワークの区切られた領域に対応して分布していた。以上よりE. coli代謝ネットワークにおいて、今回階層的モデルから得られたトポロジカルな構成は、実際の代謝産物の生化学的分類と強い相関があることが分かる。
図4:E. coliの代謝ネットワークにおけるモジュールの同定
A:E. coliの代謝ネットワークに対応するトポロジカル・オーバーラップ行列(中央)、モジュール間の関係を表す階層木(行列の上と右)。階層木の色は行列の下にあるように、炭水化物(青)、核酸代謝(赤)、蛋白・アミノ酸代謝(緑)、脂質代謝(水色)、芳香族代謝(濃いピンク)、モノカルボニル化合物代謝(黄色)、コエンザイム代謝(薄いオレンジ色)で色分けしている。
B:代謝ネットワークの3次元構成。各頂点の色はAで示した通り。薄い青で囲んだ部分はピリミジン代謝に関わるモジュール。
C:ピリミジン代謝のモジュールを拡大し階層木にしたもの。全体が3段階のモジュールの入れ子構造になっており、1段階目を水色、2段階目を薄いオレンジ色で表している。
D:ピリミジン代謝モジュールとその周囲の代謝産物のグラフ。赤はCで示されたピリミジン代謝のモジュールに含まれる代謝産物。緑はピリミジン代謝パスウェイにあるが、非分岐点や分岐の経路の終末点にあたるためCには表示されていない代謝産物。青と黒はピリミジン代謝から他の代謝経路に連結する代謝産物で、黒は他の代謝経路の枝に属する主要な代謝産物、青は分岐しない代謝産物。矢印は反応方向、番号はその反応を触媒する酵素を表す。
上記のようにグラフ理論を用いて、実際の生化学的パスウェイにおけるモジュールを見出しうるかを、ピリミジン代謝パスウェイに絞って検討することにした。代謝ネットワークを階層的ネットワークと考えると、ピリミジン代謝は図4Bの薄い青色で囲んだ領域にトポロジカルに限定され、図4Cに示すような4つのモジュールから構成されていた(4つのモジュールもさらに小さいモジュールからなるという、入れ子構造になっている)。また、実際の代謝経路は図4Dのグラフで示したものである。ここから、赤い四角で囲まれた代謝産物によって構成されたモジュールを発見するのが上記の方法である。
なお、階層的ネットワークにおけるモジュールの境界は直観的に分かる生化学に基づく境界と常に一致するとは限らない。例えば、L-glutamineからのuridine 5’-monophosphate (UMP)の合成は直線的な生化学反応のモジュールに含まれるが、UMPからのuridine 5’-diphosphateの合成はモジュールの境界を越えていた。このようにまだ明らかなモジュールとして分からないところもあり、代謝ネットワークにおけるモジュールの理解のためには、さらなる実験的および理論的解析が必要なのだろう。
まとめと今後の展望
以上のように代謝ネットワークの構造は、階層的ネットワークモデルとつなぎ目なく埋め込まれたモジュールによって表されることが明らかになった。代謝ネットワークは、従来の直観的に分かるようなモジュール性(図1B)、すなわちいくつかの隔離したモジュールが少ない枝を介して連結しているモデルではなく、小さいモジュールがグループを形成して大きなモジュールを形成し、それが集まってさらに大きなモジュールになるというモデルで表される。この構造は図4Aにある階層的木によっても視覚的に理解でき、逆向きに代謝ネットワークをいくつかの大きい統合のゆるいモジュールに分け、それをさらに小さい統合の強いサブモジュールに分けていくことが可能になる。
なお、上記の階層的ネットワークとモジュール性によるネットワークの理解は、代謝ネットワークのみならず、他の細胞内ネットワーク(遺伝子ネットワーク、蛋白相互作用ネットワーク)や社会的ネットワーク(WWW、インターネットのネットワーク)にも応用可能だろう。また、生態系は複数のレベルで進化が同時に起きる現象があるが、これも生態系ネットワークのモジュール性で説明可能かもしれない。ある局所的な変化が起きると高度に統合された小さいモジュールがまず変化し、それがゆるく統合した大きいモジュールにゆっくり影響を与えることによるのだろう(そもそもモジュールとは、局所的な構成要素の変化が起きても、その変化が他の構成要素に及ぼす影響が最小限ですむように、小規模のグループを構成していることでもある)。また、階層的トポロジーはすでにあるモジュールをコピーしたり再利用したりして創発する(図1C)。そのため、ネットワークに最初にモジュールが現れるメカニズムやその後に階層的およびスケールフリーのトポロジーが同時に出現する進化的メカニズムの理解が、今後のネットワーク理論の重要な課題となるだろう。