「ほっ」と。キャンペーン

一人抄読会

syodokukai.exblog.jp
ブログトップ

カテゴリ:その他( 90 )

2型糖尿病患者は3つのサブタイプに分けられる―トポロジカルデータ解析に基づくprecision medicineの試み

Identification of type 2 diabetes subgroups through topological analysis of patient similarity.

Li L, Cheng WY, Glicksberg BS, Gottesman O, Tamler R, Chen R, Bottinger EP, Dudley JT.

Sci Transl Med. 2015 Oct 28;7(311):311ra174.

【まとめ】
2型糖尿病は臨床的にも遺伝的にも複雑多様であり、さまざまなサブタイプから成ると考えられている。本研究ではトポロジカルデータ解析という手法を用いて、2型糖尿病患者集団が、臨床的なデータの類似性に基づいて「どのような形の」ネットワークを形成しているかを検討した。その結果明らかになったネットワークの形から、2型糖尿病患者は3つのサブタイプに区別されることが示された。サブタイプ1は糖尿病合併症(糖尿病腎症と網膜症)と関連があり、サブタイプ2はがんと心血管疾患、サブタイプ3は心血管疾患、神経疾患、アレルギー、HIV感染症と関連があった。次に、これらの患者サブタイプの臨床的な表現型とSNPsの関連のデータを解析したところ、各サブタイプに特有の「表現型と遺伝型の関連」が区別して認められた。このように複雑な疾患の新たなサブタイプを見出す本研究の方法は、現在進行しつつあるPrecision Medicine(注1)を推進するものであると考えられる。

トポロジカルデータ解析 (topological data analysis; TDA):
「トポロジカル」という語は、古代ギリシアで普通名詞として使われた「トポス(場所)」に由来する。18世紀以後、トポロジーは数学の一分野として発展した。トポロジカルデータ解析は、一つ一つのデータがネットワーク全体の中で占める「場所」を明らかにし、ネットワークの「形」すなわち「幾何学的な構造」を描き出す解析手法である。大量の複雑なデータから的確な洞察(insight)を得る(意味のあるサブグループを発見する)方法として、Ayasdi(注2)によって開発された。詳しくは、Lum PY, et al. Sci rep 2013を参照。

【論文内容】
2型糖尿病は、その臨床像も遺伝的構造も非常に複雑かつ多様であり、本質的にはさまざまなサブタイプから成ることが想定されている。本研究では、電子診療録(electronic medical records; EMRs)に記録された臨床データを用いて、2型糖尿病の患者集団のネットワークを幾何学的な「形」として表し、そこから臨床的・遺伝的特徴に基づいた2型糖尿病の新しいサブグループを同定することを試みた。対象は、ニューヨークにあるマウントサイナイ病院(Mount Sinai Medical Center)のBiobankに登録された11,210名の患者で、それらの患者のEMRs上の臨床データと、臨床データと遺伝型のデータを結合させたデータセットを用いた。11,210名の患者の内訳は、人種は46%がヒスパニック、32%がアフリカ系アメリカ人、20%がヨーロッパ白人、2%がその他。 性別は61%女性、39%が男性で全体の平均年齢は55.5歳であった。

2型糖尿病の「患者-患者ネットワーク」の作成
まず、EMRの臨床データを用いて、患者の類似性に基づいて患者集団のネットワークを類推する方法を開発した。このネットワークは、患者をグラフ理論でいう「頂点(node)」とし、多種類の臨床指標における類似性に基づいて「辺(edge)」で結んだものである。(臨床指標の種類のことを、ここでは次元(dimension)と呼ぶ。このネットワークでは、非常に多次元の臨床指標に基づいて高度な類似性を示す患者の集団が単一の頂点として示される。) このようにして患者-患者ネットワークを作成したところ、11,210名の患者は図1Aのような2つのクラスターに区別できることが明らかになった。図1Aで左側のクラスター(n=3889)は内分泌代謝異常、免疫異常、感染症、精神障害、循環器系および下部尿路系疾患を有意に多く含んでおり、右側のクラスター(n=7321)は妊娠合併症、呼吸器疾患を多く含んでいた。図1Aの患者-患者ネットワーク上で、2型糖尿病患者がどの場所に多く存在するか(topological enrichment)を調べるため、2型糖尿病患者の多さを色で示した。図1Aでは青→緑色→黄色→赤になるにしたがって2型糖尿病患者が多い頂点であることを表している。これによると2型糖尿病患者はある特定の部位に多く見られたため、2型糖尿病患者集団は複数のクラスターからなることが予想された。そこで次に、2型糖尿病患者2551名を対象として、「2型糖尿病患者のネットワーク」の形を検討した。

その結果、2型糖尿病の患者集団は73の臨床指標をもとに図1Bのようなネットワークの形をしており、3つのクラスターに完全に分離されることが明らかになった。これらをサブタイプ1(n=762)、サブタイプ2 (n=617)、サブタイプ3 (n=1096)と名づけた。なお、図1Bの色分けは頂点の色が赤→黄色→緑色→青になるにしたがって、女性が多い集団から男性が多い集団としている。図1Bを見て分かるように、3つのクラスターは性別には関連がなかった。
d0194774_21452442.jpg

図1A 対象患者全体のネットワークの形(上図)
マウントサイナイ病院のBiobankに登録された11,210名の患者の、臨床指標の類似性に基づくネットワークを示す。ネットワークの頂点(node)は類似性の高い患者の集団を表し、それらを類似性に基づいて辺(edge)で結んでいる。これによると、患者は2つのサブグループに分かれることが分かる。色分けは、青→緑色→黄色→赤となるにしたがって2型糖尿病患者が多い頂点を表しており、2型糖尿病患者はいくつかのサブグループに分けられる可能性があることが分かる。

図1B 2型糖尿病患者のネットワークの形(下図)
次に、上記の患者のうち2551名の2型糖尿病患者について、臨床指標の類似性に基づくネットワークの形を検討した。その結果、2型糖尿病患者集団は3つのサブタイプに分けられることが明らかになった。頂点は類似性の高い患者の集団を表すが、その色分けは赤→黄色→緑色→青となるにしたがって女性が多い集団から男性が多い集団になることを表している。これによると3つのサブタイプで性別の偏りは見られない。


以上で明らかになった3つのクラスターの再現性を検証するため、確認のための訓練事例集合(training set)とテスト事例集合(testing set)のランダム抽出を行った。2型糖尿病患者集団2551名をランダムに2/3をtraining setに、1/3をtest setにと振り分け、上記と同じ73の臨床的指標によって、患者-患者ネットワークを再構築した。このステップを10回繰り返し、10回の検証の適合率と再現率(positive prediction valueとsensitivity)の平均値を求めたところ、training setでの適合率の平均はサブタイプ1、2、3で100%、91%、98%、再現率の平均は99%、96%、94%、同じくtest setでの平均適合率は100%、90%、97%、平均再現率は99%、96%、93%であり、このネットワークのクラスターの高い正確性が確認された。

2型糖尿病患者の各サブタイプに特徴的な臨床指標
この3つのサブタイプにおいて、サブタイプ1に特有な臨床指標は29種、サブタイプ2に特有な臨床指標は3種とサブタイプ3に特有な臨床指標は11種存在した。
サブタイプ1の患者は、最も年齢が低く(59.76±0.45歳)、BMI が高値で(33.07±0.29 kg/㎡)、診察時の血糖が高値(193.69±11.45 mM)であった。そのほかにも、白血球数・好中球数・好酸球数・平均血小板容積が低値で、血小板数は患者の約半数が正常参照値より低値という興味深い特徴が見られた。さらに、診察時のプロトロンビン時間延長、血清アルブミン高値、クレアチニン低値が認められた(なお、サブタイプ1患者の推定GFRは正常参照値よりは低値であった)。さらに、サブタイプ1の患者は血中CO2分圧が高値、1分当たりの呼吸数が少なく、処方ではカルシウム拮抗薬、アンジオテンシン受容体拮抗薬(ARB)/アルドステロン変換酵素阻害剤(ACEI)、DPP4阻害剤、メトフォルミンの投与が少なかった。サブタイプ2 の患者は他のサブタイプに比べて体重が少なく(85.17±1.14 kg)、サブタイプ3の患者は収縮期血圧が高値(135.7±0.7 mmHg)、血清Cl値およびトロポニンI値が高値で、ARB/ACEIとスタチンの投与が多かった。

2型糖尿病患者の各サブタイプに特徴的な併存疾患
次に、ICD-9-CM (国際疾病、傷害および死因統計分類)に基づいた疾患分類ソフトウェアClinical Classification Softwareを用いて、サブタイプごとの併存疾患について検討した。その際、7000以上あるICD-9-CMの詳細な疾患コードを、281の単一疾患または18の広いカテゴリーとして用いることとした。
その結果、サブタイプ1は他のサブタイプと比較して、ICD-9-CMの「その他の上気道呼吸器感染症」、「感染症の予防接種およびスクリーニング」、「合併症のある糖尿病」、「その他の皮膚異常」、「失明および視覚障害」と有意に強い関連があった。サブタイプ2は「気管支および肺の癌」、「部位を特定しない場合の悪性新生物」、「結核」、「冠動脈硬化およびその他の心疾患」、「その他の循環器疾患」と関連があり、サブタイプ3は「HIV感染症」、「外的原因による傷害」、「大動脈および末梢動脈の血栓塞栓症」、「合併症を伴う高血圧および二次性高血圧」、「冠動脈硬化およびその他の心疾患」、「アレルギー反応」、「貧血」、「物質乱用および精神疾患の既往」と関連があった。

2型糖尿病患者の各サブタイプに特徴的な「遺伝子-疾患関連」
次に、3つのサブタイプがそれぞれどのような遺伝的多様体(genetic variant)、すなわち遺伝子上の一塩基多型(SNPs)と関連しているかを検討した。図1Bの「患者-患者ネットワーク」は臨床的な表現型(phenotype)に基づいて決定したものであるため、このサブタイプ分類にはSNPsについての情報は含まれていない。しかし、各サブタイプに特異的なSNPsが明らかになれば、各サブタイプの遺伝的マーカーの同定につながるかもしれない。検討の結果、サブタイプ1、2、3に特有のSNPsが1279、1227、1338認められた。これを遺伝子領域にマッピングすると、各サブタイプで有意に関連のある遺伝子がそれぞれ425、322、437同定された。ここで、ヒトの疾患とSNPの関連についてのデータベースであるVarDiを用いて、サブタイプごとに特徴的な遺伝子-表現型関連(gene-phenotype association)を明らかにした(図2)。なお、ここでの表現型とは、「糖尿病腎症」などの診断に基づくものと「血清クレアチニン値」などの検査結果に基づくものを含んでいる。

・サブタイプ1に特有の遺伝的多様体は27の遺伝子-表現型関連に認められた。これらの多くは2型糖尿病に関係することが知られているものであり、血清レチノール値の増加 (関連する遺伝子はFFAR4)、B細胞数の増加(LAMB4)、アルブミン・クレアチニン比の増加(ACE)、ALTの増加(ZNF827)、レプチン受容体の増加(LEPR)、血清マンノース結合レクチン(MBL2)の増加、血清ビタミンD濃度の増加(GC)、および呼吸機能における1秒率の増加(ZSCAN31TNS1)、さらには表現型としての「糖尿病」(BTN2A1)、「糖尿病腎症」(ACE)などの遺伝子-表現型関連が認められた。
・サブタイプ2に特有の遺伝子-表現型関連は25あり、そのうち4つはがんおよびがん治療に関連するものであった。それらは、bleomycin感受性(関連遺伝子はSAMD12)、epirubicinによる薬物副反応(MCPH1)、幹細胞移植(NLRP3)、濾胞性リンパ腫(SV2B)であった。サブタイプ2に多く関連する表現型は、サブタイプ2の患者の併存疾患と合致しており、併存疾患とその遺伝的特徴の関連が示唆された。
・サブタイプ3に特有の遺伝子-表現型関連は28あり、そのうち10は精神疾患及び神経学的疾患と関連があった。それらは、脊髄小脳失調症1型(関連する遺伝子はATXN1)、心室中隔肥厚(EXT1、CERS6)、不安障害(SDK2、FHT)、認知欠損(CNTND2)、認知症(ABCA1)、遊びスキルの障害(DCC)、知能(CNTN4)、抑うつ(FHIT、BICC1)、脳波におけるθ波のパワー(ST6GALNAC3)、HIV関連神経認知障害(SLC8A1)である。さらに、3つは心血管系と関連があるものであり、心電図RR間隔(GPR133)、周産期心筋症(AKAP13)、心房細動(C9orf3、FNDC3B)であった。最近2型糖尿病の危険因子と考えられるようになってきた血清ビタミンD濃度の増加(関連する遺伝子はGC)は、サブタイプ1でも3でも関連が認められた。アレルギー(FHIT)およびスタチンへの反応(ASB18)の2つの表現型は、サブタイプ3に特有の併存疾患と合致するものであった。
d0194774_21413310.jpg

図2 2型糖尿病の3つのサブタイプにおける「遺伝子-表現型の関連」ネットワーク
サブタイプ1が青、サブタイプ2がオレンジ、サブタイプ3がピンクで、内側の楕円形の頂点はそれぞれ表現型、外側の菱型の頂点はそれぞれ多様なSNPsが認められた遺伝子名を表している。表現型と遺伝子名の関連を、関連の有意水準(P値)によって太さを変えた辺で結んでいる。楕円形や菱型の大きさは、関連している表現型や遺伝子の種類の多さを表す。緑色の楕円(「ビタミンD濃度」など)は、複数のサブタイプに共通して関連のある表現型を示している。このような視覚化によって、3つのサブタイプによって関連する表現型と遺伝子の関連が、ほぼはっきりと区別されることが分かる。


2型糖尿病患者の各サブタイプに特有なシグナル伝達と毒性関連のパスウェイ
さらに、各サブタイプに特有なシグナル伝達パスウェイと毒性関連のパスウェイについてIngenuity Pathway Analysisソフトウェアを用いて検討した。その結果、サブタイプ1、2、3に特有な古典的な(canonical)パスウェイが、それぞれ5種類、2種類、6種類同定された。
サブタイプ1で亢進していたパスウェイは、fatty acid β-oxidation III(糖尿病に伴う肝疾患で亢進する)、acetateからacetyl CoAへの変換(糖代謝で重要)、cAMPを介するシグナル伝達(インスリン分泌に関連)であり、さらにnetrinシグナル伝達(糖尿病腎症に対する保護作用が知られる)、GABA受容体シグナル伝達(糖尿病網膜症の早期に認められる)の2つは、サブタイプ1の併存疾患とも関連があるものであった。サブタイプ2で亢進していたパスウェイには、細菌やウイルスの認識における「パターン認識受容体」のシグナル伝達(これは2型糖尿病における結核の有病率高値に関連している可能性がある)、およびトロンボポイエチンシグナル伝達(細胞生存や増殖分化の活性化に関与し、これはサブタイプ2における冠動脈疾患の増加に関連があるのかもしれない)があった。サブタイプ3で亢進しているパスウェイは、αアドレナリン受容体シグナル伝達、シナプスの長期抑圧、ニューロンにおけるCREBシグナル伝達(神経の可塑性、脳の長期記憶形成、アルツハイマー病の治療との関連が示唆されている)、グルタミン酸受容体シグナル伝達(脳神経疾患、肝線維症、肝星細胞活性化および精子運動能に関連するとされる)であった。

毒性関連のパスウェイとは、肝毒性、腎毒性、心血管毒性および臨床的な病理学的エンドポイントなどを指す。これには、サブタイプ1、2、3に特有なパスウェイが、それぞれ9種類、3種類、3種類同定された。サブタイプ1で亢進している毒性関連パスウェイのうち4種類が腎障害に関するものであり(糸球体障害、腎の肥大、腎の増殖、腎の変性)、これらはサブタイプ1に糖尿病性腎症が多いことと関連があると考えられる。他の5つの毒性関連パスウェイは肝機能障害に関連しており、サブタイプ1における肝酵素の増加と一致していた。なお、サブタイプ2と3は関連する遺伝子は異なるのに、どちらも心血管毒性のパスウェイが亢進していた。EMRsからの併存疾患の情報とVarDiによる遺伝的多様体の情報も含めて考えると、サブタイプ2と3はいずれも心血管疾患のリスクが大きい可能性が示唆された。

トポロジカルデータ解析の特長
本研究には、(1) サンプルサイズが中程度であること、(2)疾患の発症や診断からの時間経過が深く考慮されないこと、(3)疾患の診断がICD-9-CM診断コードに基づくことなどの限界がある。しかし本研究は、遺伝的なマーカーが分からなくても、臨床的な表現型のみから患者のネットワークの形を発見できるトポロジカルデータ解析の方法が有効であることを示している。従来言われてきた「オーダーメイド医療」や「個別化医療」の方法では、疾患分類に重要な分子のような表現型の情報やSNPsのような遺伝的多様性の情報が先に分かっていて、それに基づいて患者集団を層別化する必要があった。しかし、本研究のトポロジカルデータ解析では、臨床データのみから、データに駆動される方式で(data-driven)、機械学習における教師なし(unsupervised)の方法によって、患者集団のネットワークの形が自動的に発見できる。本研究は、多因子疾患の新たなサブグループを同定し、それらに対する新たなバイオマーカーの発見や治療の選択を可能にするPrecision Medicineの有効な方法を提示するものと言える。

注1: Precision Medicine
個々の患者を生物学的にまたは疾患の経過によってサブグループに分類し、それぞれにふさわしい的確な予防や治療を考える医療を指す。以前は「個別化医療」(personalized medicine)という用語が類似の考えを表していたが、個別化医療という用語には「遺伝的情報をもとに患者個々人に対して特有の治療をデザインする」というようなイメージがあった。しかし実際の個別化医療の実現は、次世代シーケンサー技術によって個人の複雑な遺伝的背景が明らかになるにつれ非常な困難を伴うことが分かり、かつ高度な医療資源の投入が必要となるため医療コストの高騰につながるという二つの点が問題になっていた。それに代わる「Precision Medicine」という用語は、患者の臨床データや遺伝的データに基づいて、特定の疾患の患者をより細かい「サブグループ」に分類することによって的確な予防と治療を目指すという意味合いがある。

この用語は、2015年1月にオバマ大統領が発表したPrecision Medicine Initiativeへの予算の大幅増額によって一般に広まった。オバマ大統領はこの演説で、「これまでにも各人の血液型を合わせることで、輸血が可能となったのです。これからは、各人にふさわしいがんの治療法や薬の投与量が、体温を測るのと同じくらい簡単に決められたらどんなに良いでしょう」と呼びかけ、従来型の平均的な患者をもとにデザインする「one-size-fits-all」医療から新しい医療への脱却を目指した。

Precision Medicineの日本語訳としては「精密医療」、「的確医療」、「高精度医療」などいくつかの訳が試みられている。中国語でも「精准医疗(jīngzhǔn yīliáo)」、または「精确(jīngquè) 医疗」(いずれも「精密で正確な」医療)と訳される。

注2: Ayasdi社は、スタンフォード大学数学科の博士課程の学生だったGurjeet Singhと指導教官のGunnar Carlsson、ソフトウェア開発者Harlan Sextonの3人によって2008年に設立されたベンチャー企業である。トポロジカルデータ解析を用いて大量のデータから意味のある洞察(insight)を見出すAyasdi Coreの他、臨床的に最適なクリニカルパスウェイを作成するAyasdi Care、ドラッグディスカバリーを行うAyasdi Cure を開発している。なお、ayasdi (アイヤズディー)とは、アメリカ先住民族チェロキーの言葉で「探す」という意味とのこと。
[PR]
by md345797 | 2015-11-09 21:48 | その他

Points of significanceコラム 3 :統計学における検出力、エフェクトサイズ、サンプルサイズ

Points of significance: Power and sample size.

Krzywinski M, Altman N.

Nat Methods. 2013 Nov;10: 1139–1140.

【総説内容】
科学研究では、ある現象が観測されたとき、それが偶然によるのか、ある作用によるのかを検討する必要があるだろう。その際、その観測値がもともと含まれる母集団からの標本なのか、それとも別の母集団からの標本なのかを判断するという統計学的手法を用いる(注1)。

注1:ここでの「母集団」は、何らかの実体をもった集団ではなく、抽象的な概念であり架空の存在である無限母集団を想定している。

その際、まず「これら2つの母集団の間には差がない」というnull hypothesis (帰無仮説)を立て、帰無仮説が起きる確率は非常に小さいことを示して帰無仮説を棄却し、alternative hypothesis (対立仮説)を採択するという方法を取る。対立仮説は、「2つの母集団間には差がある」(注2)というもので、これは結局「今回観測された現象は、ある作用によって起きたものであり、偶然のばらつきによるものではない」ことを示す。これをeffect (効果)があったと表現する。

注2:厳密には、2つの母集団間に「差がないとは言えない」というべきだが、以下では分かりやすくするため「差がある」とする。

研究においてeffectは必ず正しく検出されるわけではなく、effectが正しく検出される確率というものがあり、それが今回述べるstatistical power (統計学的パワー、検出力)である。この検出力は非常に重要な概念であるにもかかわらず、医学・生物学研究でしばしば見落されている。しかし、検出力が低い研究では重要なeffectが検出できない可能性がある。そのため、検出力不十分の研究は実験費用や人員の無駄になったり、結果的に有害な条件下に被験者を置く非倫理的な研究になったりする危険がある。そのため、Nature Pulishing Groupの投稿チェックリストでも、「事前に設定したエフェクトサイズ (後述)を検出するための十分な検出力を確保するサンプルサイズ(標本数)を選んでいるか」ということが記載されている。

(1) Sensitivityとspecificity
検出力について述べる前に、疾患と検査の関係でよく用いられるsensitivityとspecificityについて述べる。「実際に疾患があるかないか」と「検査で陽性になるか陰性になるか」の割合は、図1の4通りが考えられる。
d0194774_22276100.jpg

図1 疾患と検査におけるsensitivityとspecificity

この4通りとはTrue/False Positive/Negativeであり、これをもとに、

Sensitivity (感度)=a/(a+c) 疾患があるときに検査で正しく陽性になる率
Specificity (特異度)=d/(b+d) 疾患がないときに検査で正しく陰性になる率

と定義される。ここで、

False Positive率=疾患がないのに検査で誤って陽性になる率 α=b/(b+d)  
False Negative率=疾患があるのに検査で誤って陰性になる率 β=c/(a+c)

というものが考えられる。

(2) Type I errorとtype II error
最初の「観察された標本が、もともと想定される母集団からの標本なのか、それとは異なる母集団からの標本と考えられるのか」という問題についても同様の表ができる。ここでは、2つの母集団間で「実際に差があるか、ないか」と「差があると推測されるか、ないと推測されるか」で図2の4通りに分けられる。
d0194774_2228349.jpg

図2 母集団間の差の有無と推測による判断

ここでは、

False Positive率 α= 正しいH0を誤って棄却する割合
False Negative率 β= 正しくないH0を誤って採択する割合

となっている。このように、前者の本当は差がない (帰無仮説が正しい)のに、「差がない」という帰無仮説を誤って棄却することをType I errorといい、後者の本当は差がある (帰無仮説が誤りである)のに、「差がない」という帰無仮説を誤って採択することをType II errorという (それぞれの確率はαとβ)。

(3) Power (検出力)
図1疾患があるときに検査で正しく陽性になる確率をpower(検出力)といい、感度と同じa/(a+c) である。これは図2では、母集団間に実際に差があるときに、推測によって差があると正しく判断される確率が検出力(1-β)である。

図3では例として、ある蛋白の発現量の観測値がxであったとき、それが単なる偶然のばらつきの結果なのか、それとも何らかのeffectがあった結果なのかを考えている。これは統計学的には、観測値xがもともと想定される正規母集団(平均µ0=ここでは10)からの標本なのか、それともそれとは違う正規母集団(平均µA=12とする)からの標本なのかという問題である。このとき、2つの母集団間に差がないとする帰無仮説H0と、それに対する対立仮説HAを立て、H0が棄却できるかどうかを検討する(注3)。

注3:2つの母集団に差がない場合、平均µ0の母集団とそれと違う平均µAの母集団で、µ0とµAどちらが大きいかは決められていない。しかしここでは便宜上、図3のように後者の方が大きいとする片側検定 (one-tailed test)について考える。µ0とµAの大小が予測できないときは両側検定(two-tailed test)になるが、ここでは省略する。

図3aのように限界値x*を設定し、観測値xがそれより大きければH0は棄却できるとする。H0がx*より大きい確率はαであり、これは例えば0.05のように非常に小さいのでここに観測値が入ると帰無仮説H0は棄却するとする。このとき、帰無仮説が正しいのに棄却してしまう確率(本当は差がないのに、誤って差があると判断してしまう=Type I errorの確率)はα、正しい帰無仮説を正しく採択する確率(本当は差がなく、差がないと正しく判断する確率=specificity)は(1-α)である。
d0194774_22283821.jpg

図3 帰無仮説(a)と対立仮説(b)、推測のエラーと検出力(c)
 
ここでxが限界値x*より大きい時は、観測値xは対立仮説HA母集団からの標本と考えられるとすると、図3bのようにx*より小さいとき、本当は帰無仮説H0は正しくないのに、H0を採択してしまう。したがって、帰無仮説が正しくないのに採択してしまう(本当は差があるのに、誤って差がないと判断してしまう)Type II errorの確率はβ、帰無仮説を正しく棄却し対立仮説を採択する確率(本当は差があり、それを差があると正しく判断できる確率=sensitivityおよび検出力)は(1-β)である。

(4) Effect size
なお、H0の正規母集団とHAの正規母集団はどちらも標準偏差がσで同じとする。そのとき、d=(μA-µ0)/σをエフェクトサイズと呼ぶ。σ=1の標準正規分布のとき、dはμA-µ0である(図3c)。初めに対立仮説の分布を設定する時に、このd (effectがあるとき、どのくらいの差ができるはずなのかという量)を事前に決めておく必要がある。もしこれが医学研究なら、「医学的・生物学的に意味のある差dとはどれくらいなのか」を医学的観点からあらかじめ設定しておかなければならない。

注4:なお以上の議論で、母集団というのは全く未知のものであるはずなのに、その平均や標準偏差の数値があらかじめ分かっているというのはおかしな話だが、ここでは説明のため分かったことにして話を進めている。

(5) 陽性的中率(PPV)
ここで、やや本題からはずれてPPVについて述べる。図1のような疾患と検査において、「ある検査が陽性のとき、本当にその疾患がある割合」を陽性的中率(positive predictive value, PPV)という。「ある疾患が陰性のとき、本当にその疾患がない割合」は陰性的中率(negative predictive value, NPV)である。図1では、

陽性的中率(PPV)=a/(a+b)
陰性的中率(NPV)=d/(c+d)

である。図2の場合は、PPVは「母集団間に差があると推測されたとき、本当に差がある確率」、NPVは「母集団間に差がないと推測されたとき、本当に差がない確率」であり、図2に色で示した通りになる。
d0194774_22291986.jpg
図4 Effectがある割合(a)、検出力が上がると陽性的中率も増加する(b)

図4aでは、上段は50%effectがある(疾患と検査の関係で言うと、疾患がある割合=有病率が50%ということ)、下段は10% effectがある(有病率10%に相当する)場合を表している。青がeffectあり=母集団間に差がある、緑がeffectなし=差がないという帰無仮説を表す。

図4b上段で、検出率0.2で推測した場合(左上)、母集団間に本当に差があるとき、差があると正しく推測される確率が0.2だから、実際にeffectがある点線から右半分のうち、灰色(「差がない」と誤って推測される=false negative)ではなく水色(「差がある」と正しく推測される=true positive)の割合が0.2になっている。検出率0.5(中央上)や0.8(右上)の場合も、同じように青の部分の割合が0.5、0.8になっている。また、帰無仮説を5%の棄却域で棄却するとすると、帰無仮説(点線から左半分) のうち5%(赤い部分)は母集団間に差がないという帰無仮説が誤って棄却されてしまう。すなわち、緑(「差がない」と正しく推測される=true negative)ではなく、赤(「差がある」と誤って推測される=false positive)の部分が左半分の5%になっている(注5)。

注5:元論文のこの図では5%がちょっと大きめに描いてある。

このとき、陽性的中率は「差がある」と推測された場合の本当に差がある確率なので、図4bのようにtrue positive/(false+true positive)、青/(青+赤)で表されるので、検出力が0.2、0.5、0.8と上がると、PPVも0.80、0.91、0.94と上昇する。

実際の生物学実験では、図4下段のように10%しかeffectが見られないことも珍しくない。このときは、検出率0.2の実験では陽性的中率が0.31しかなく、通常求められる検出率0.8であってもその実験の陽性的中率は0.64である。これでは、実験で差があると認められてもその3割以上はfalse positiveである。

検出力の低い実験では、このように陽性的中率が低くなるので、研究の前に十分な検出力のある実験を行っているか注意が必要である。多くの研究では、統計学的に検出力不足(underpowered)であり、そのために再現性の低い結果しか得られていないことが報告されている。

(6) Specificityとsensitivity (検出力)の関係

次に(4)の例に戻って、specificityとsensitivity(検出力)の関係について述べる。

図5aでH0は平均µ0=10、σ=1の正規分布とし、その棄却域αを0.05に決めると、H0を棄却できる限界値x*は11.64になる。ここでHAの正規分布を見ると、観測値xがカットオフ値x*(11.64)より小さい時は、観測値は本当はHAの母集団からの標本なのに、誤ってH0が正しいという判断を下してしまう。これは実際は差(effect)があるのに、差がないとしてしまうtype II errorであり、その確率はβ=0.36)で表される。したがって、1-β=0.64が、差があるときにH0を正しく棄却する(差があると判断する)という検出力(およびsensitivity)である。

ここで、H0の棄却域αを0.05から0.12に引き上げると、観測値xのカットオフ値は11.17に下がり、検出力は上記の0.64から0.80に上がる。この検出力の増加は、αの低下すなわち、本当は母集団間の差(effect)がないのに誤って「差がある」と判断してしまうfalse positiveの増加を犠牲にしていることになる。

注6:なお、原文ではWe can increase power by decreasing sensitivity.と書いてあるが、原文のsensitivityはspecificityの誤植。

図5bでは、2つの母集団H0とHAはそのままで、観測値のカットオフ値が小さくなると ((x*-µ0)が小さくなると)、それにしたがってαが大きくなるが、そのとき検出力(1-β)はどのように変化するかを示している。
d0194774_22295563.jpg
図5:限界値x*が小さくなると検出力が上がる(a)。この関係を示すグラフ(b)。

x*-µ0を小さくすると、検出力 (1-β、図5aの青い部分の面積)はS字カーブを描いて大きくなる(図5bの赤い矢印)。しかしそれに伴って、α (false positive率、赤い部分の面積)も大きくなってしまう。なおそれはspecificity (1-α、緑の部分の面積)が小さくなることにもつながる。研究において真のpositiveを検出するために、検出力は大きくしたいが、しかしfalse positiveは減らしたい。この場合どうすればよいだろうか?

まず、図5aの分布が狭ければ2つの母集団のオーバーラップが減り、HAの分布においてx*より大きい部分(青い部分)が増えて検出力は上昇する。しかし、分布を狭くする、すなわち標準偏差σを小さくする、すなわち実験精度を上げてばらつきを減らすというのは難しいことも多い。より直接的な方法は標本をx一つだけでなく、数多く観察することである。それにより標本分布(標本平均x bar、標本標準偏差σ/√n) を得るようにする。

(7) サンプルサイズとエフェクトサイズが検出力に及ぼす影響
最後に上記のように、標本をn個取ったときの平均値の分布(標本分布)を考える。

図6aにおいて、左の正規分布曲線は標本分布を表している。H0は帰無仮説の母集団から得た標本n個の標本分布であり、HAは対立仮説から得た標本n個の標本分布である(図5のように母集団そのものではないことに注意)。

ここで、標本の大きさnが増えても、標本分布の平均は変わらない (nが大きくなると、それは母集団平均に等しくなるので、ここではいずれも10と12としている)。しかし、標本の大きさnが増えると、標本分布の標準偏差は(母集団の標準偏差σ)/√(標本の大きさn)の式にしたがって小さくなる

これらの分布において、帰無仮説を棄却する棄却域αが0.05になるように、標本分布の平均値のカットオフ値(点線)を決める。そうすると、nが大きくなるにしたがって分布は狭くなり、そのαが0.05になるためのカットオフ値は図6aのように小さくなり、検出力(1-β)は大きくなる。あらかじめ設定した エフェクトサイズd (2つの母集団間にこれ以上差があれば「母集団間に差があった、effectがあった」と考えてよいとする差)が1だったとする。標本の大きさ(サンプルサイズ) nが大きくなると、検出力は図6a右のグラフのように大きくなる。この例では、α=0.05、d=1のとき、有効な検出力0.8以上を確保するためにはサンプルサイズは7個以上必要ということになるだろう。なおグラフのようにαをもっと低く、すなわち棄却域を厳密にすると、同じ検出力を得るにはもっとサンプルサイズを増やす必要が出てくる。
d0194774_22303090.jpg
図6:サンプルサイズを大きくすると(a)、またはエフェクトサイズを大きく設定しておくと(b)、検出力は大きくなる

サンプルサイズがそれ以上増やせない場合に検出力を上げる方法は、エフェクトサイズdをあらかじめ大きく設定しておくことである。図6b左のように、nが一定で、dが大きくなると2つの標本分布の幅 (標本標準偏差)は変わらないが、2つの標本分布の平均の差が大きくなり、分布のオーバーラップは小さくなる (エフェクトサイズの定義のd=(μA-µ0)/σの式による)。図6左でdが大きくなってもαは0.05で変わらないとカットオフ値(11の点線)は変わらないので、検出力(1-β)は大きくなる。エフェクトサイズを大きくすると、検出力が大きくなるのは図6右のグラフの通りである。

逆に言えば、エフェクトサイズを小さく設定すると、同じ棄却域αでも検出力は小さくてよいことになる。しかし、あまりにエフェクトサイズを小さくすれば、医学的には無意味な差が統計学的には有意となるので注意が必要である。さらに詳しくは、『新版 医学への統計学』(古川俊之監修、丹後俊郎著)の第14章「医学的に意味ある差を積極的に評価する検定ーΔ検定」を参照。

(8) サンプルサイズ設定の注意点

なお、以上の議論ではH0とHAの母集団分布は未知のものであるので、本当はそれらの正確な標準偏差は分からない。そのため標本分布から母集団標準偏差σを推定するが、それでは検出力が小さくなるので、必要な検出力を確保するためにやや大きめのサンプルサイズnを設定する必要がある。

よい研究デザインのためには、サンプルサイズ、エフェクトサイズ、検出力の3つのバランスを取ることが非常に大切である。そのために、まずtype I errorの確率(帰無仮説の棄却域)αを0.05検出力(1-β)を0.8にすることが伝統的に行われる。次に、医学的・生物学的に望ましいエフェクトサイズdをあらかじめ設定しておく

これらのα、1-β、dの値を使って最低限必要なサンプルサイズnを求めてから、研究を開始する必要がある。もし必要なnがあまりに大きく計算された場合は、母集団のばらつきを減らすため、研究開始前に対象や実験条件を再検討する必要があるだろう。

注7:論文のSupplementary Table 1で、検出力などの計算やグラフ作成ができるExcelファイルが利用できる。

【参考】
このような仮説検定理論、帰無仮説を棄却するアイデア(ネイマン=ピアソンの公式)を構築したのは、イェジ・ネイマン(1894-1981)とエゴン・ピアソン(1895-1980)である。エゴン・ピアソンは記述統計学の大成者であるカール・ピアソン(1857-1936)の息子で、ワルシャワ(ポーランド)の数理学者であったネイマンは、ロンドンのエゴン・ピアソンと意気投合し、直接会えない時も郵便のやり取りを通じて1928-1938年にわたって推測統計学を作り上げた。『統計学を拓いた異才たち』(D. サルツブルグ著、竹内惠行・熊谷悦生訳)によると、ネイマンは親切で誰に対しても思いやりのある性格、エゴン・ピアソンは慎重な紳士であった。しかし、父カール・ピアソンの論敵であったやはり統計学の巨人ロナルド・フィッシャー(1890-1962)は彼らを嫌悪し激しく攻撃したという。

[PR]
by md345797 | 2014-09-30 21:56 | その他

サッカリン含有人工甘味料は腸内細菌叢を変化させ耐糖能異常を起こしうる

Artificial sweeteners induce glucose intolerance by altering the gut microbiota.

Suez J, Korem T, Zeevi D, Zilberman-Schapira G, Thaiss CA, Maza O, Israeli D, Zmora N, Gilad S, Weinberger A, Kuperman Y, Harmelin A, Kolodkin-Gal I, Shapiro H, Halpern Z, Segal E, Elinav E.

Nature. 2014 Oct 9;514(7521):181-6.

【まとめ】
ノンカロリー人工甘味料(Non-caloric artificial sweeteners, NAS)は、世界的に広く用いられている食品添加物の一つである。NASは低カロリーであるため肥満者や糖尿病患者に有用と考えられてきたが、その安全性については以前から議論が続いている。

本研究では、C57 Bl/6マウスに市販の「サッカリン含有人工甘味料(5%がサッカリン、95%がグルコースの混合物である)」を、ヒトにおけるFDAの1日許容最大摂取量(体重あたり)をマウスに換算して摂取させた。その結果、マウス腸内細菌叢の組成や機能が変化し、それに伴って耐糖能異常が起きた。このようなNAS摂取に伴う耐糖能異常は、これらのマウスに抗生剤を投与すると起こらなくなった。また、NAS投与マウスから採取した便の細菌叢やNASを加えてin vitroで培養した便細菌叢を無菌マウスに接種しただけで、レシピエントのマウスに耐糖能異常が起きた。NAS摂取後の腸内マイクロバイオームでは、グリカン分解パスウェイの遺伝子発現が亢進しており、それにより短鎖脂肪酸(SCFAs)の増加が惹き起こされるなどして、耐糖能異常が起きた可能性が示された。ヒトにおいても、長期的なNAS摂取者はメタボリックシンドロームを示す数値が高値を示しており、健常者ボランティア7名に6日間NASを摂取させた場合にも4名に腸内細菌叢の変化を伴う耐糖能異常が起きた。このようなNAS摂取に伴う耐糖能異常は、おそらくその個人の腸内細菌叢によって、起きやすい者とそうでない者(レスポンダーとノンレスポンダー)がいると考えられた。

以上より、NASの摂取は、腸内細菌叢を変化させて耐糖能異常を起こす可能性があることが示唆された。肥満者や2型糖尿病患者がNASを大量に摂取することについては、今後再考の必要があるだろう。

【論文内容】
ノンカロリー人工甘味料 (NAS)は、高カロリー食品である砂糖を用いずに食品に甘味を加える手段として100年以上前に開発された。NAS摂取によってカロリー摂取を減らすことにより、体重減少と血糖値の正常化という健康上の有用性がもたらされると考えられている。砂糖を使わないカロリーオフの清涼飲料水やシリアル、デザートなどでよく用いられ、肥満者および耐糖能障害、2型糖尿病患者には推奨されることもある。しかし、NASは血糖を上昇させないという有用性を示す研究結果がある一方で、NASは体重を増加させ2型糖尿病のリスクを増加させるという有害性を示す結果も報告されてきた。このように相反する結果が報告されてきたことには、すでにメタボリックシンドロームを持つ患者がNASを多く摂取しているという背景もある。このような議論があるにもかかわらず、アメリカ食品医薬品局 (FDA)は現在、アメリカ合衆国において6種類の人工甘味料製品の使用を承認している。

多くのNASは摂取後分解されることなく消化管を通過し、腸内細菌叢に直接作用する。腸内細菌叢は健常人と肥満者糖尿病患者では組成や機能が異なり、逆に腸内細菌叢の違いがメタボリックシンドロームに関連することが分かっている。そこで本研究では、NASが腸内細菌叢の組成や機能を変化させて宿主の耐糖能に影響するかを検討した。

長期のNAS摂取は耐糖能異常を起こす
NASの糖代謝に対する影響を検討するため、10週齢のC57 Bl/6マウスの飲み水にサッカリン、スクラロース、アスパルテームを含有する市販の人工甘味料を添加して摂取させる実験を行った。これら3種類のNASは、約5%の人工甘味料と約95%のグルコースからなるものである。対照群には水のみ、水にグルコース、水にショ糖(sucrose)を混ぜたものを摂取させた。人工甘味料の商品名はそれぞれ、「Sucrazit」 (5% サッカリンと95% グルコース)、「Sucralite」 (5% スクラロース含有)、「Sweet’n Low Gold」 (4% アスパルテーム含有)であり、いずれも10%溶液として水に混ぜたものを摂取させた。対照群には水、10%グルコースまたは10%ショ糖の溶液を摂取させた。

摂取開始11週目には、水、グルコース、ショ糖を摂取させたマウスは同様の耐糖能曲線を示したのに対し、上記3種類のNASを摂取したマウスは著明な耐糖能異常を示した。NASの中ではサッカリンが耐糖能障害を起こす作用が最も大きかったので、以後の人工甘味料の作用の検討では市販のサッカリンを用いることとした

また、肥満の状態でのNASの影響を調べるため、高脂肪食(HFD、脂肪が総カロリーの60%を占める)を負荷したC57 Bl/6マウスに、市販のサッカリン含有人工甘味料またはコントロールとしてグルコースを摂取させた。その結果HFD負荷マウスにおいても同様に、サッカリンは耐糖能異常を起こすことが明らかになった。次に、0.1 mg/mlの純粋なサッカリンを水に加え、HFDを負荷した10週齢マウスに摂取させ耐糖能への影響を検討した。サッカリン濃度は、ヒトにおいてFDAで認められている1日許容最大摂取量 (5 mg/kg体重)をマウスに換算して用いた。この濃度は市販のサッカリン含有人工甘味量よりもサッカリン濃度としては少ないが、それでも耐糖能異常を示した。この結果は、C57 Bl/6マウスの代わりにSwiss Websterマウスを用いた実験でも同様だった。

なお、以上のマウスで摂餌量、摂水量、酸素消費量、運動量、エネルギー消費などは正常食、HFDマウスにおいてNAS投与とコントロールで同様であった。また、空腹時血清インスリンとインスリン負荷試験による血糖低下も同様の結果であった (インスリン抵抗性の程度に差がないことを示唆する)。以上から、NASはヒトと同様の人工甘味料の組成または体重あたりの量において、マウスの種類や肥満かどうかによらず耐糖能異常を起こすことが示された。

以下、本論文では「サッカリン5%、グルコース95%からなる人工甘味料」を「市販サッカリン」と呼び、100%のサッカリンを「純粋サッカリン」と呼ぶことにする。

NAS摂取による耐糖能異常は腸内細菌叢を介して起こる
食事は腸内細菌叢の組成や機能を変化させ、腸内細菌叢の変化は宿主の代謝に大きく影響することが分かっているので、NASによる耐糖能異常も腸内細菌叢の変化を介しているのではないかと考えた。そこで、正常マウスまたはHFDマウスにまずグラム陰性菌を標的とした抗生剤 (シプロフロキサンとメトロニダゾール)を投与し、NASを含む水またはコントロールの水のみを摂取させた。その結果、抗生剤A投与4週後には両者の耐糖能障害の差は消失した。グラム陽性菌を標的とした抗生剤 (バンコマイシン)を投与した場合も、同様の効果が認められた。これらの結果からNASによる耐糖能障害は、腸内常在細菌叢しかも幅広い細菌群が関与していることが分かった。

次に、市販サッカリンまたはグルコース(コントロール群)を含む水を摂取させた正常食負荷マウスの便を正常食負荷無菌マウス(germ-free mice)に移植する実験を行い、腸内細菌叢が原因になっているかどうかを検討した。その結果、便移植6日後には、市販サッカリンを摂取させたマウスから便を移植されたレシピエントマウスは、コントロール群から便移植されたレシピエントマウスと比較して耐糖能異常を示した。この結果は、HFD負荷マウスに水または純粋サッカリンのみを摂取させた場合の便移植実験でも同様の結果であった。したがって、NAS摂取による耐糖能異常は、腸内細菌叢を介して起きていることが示唆された。

NASは腸内細菌叢の機能を変化させる
次に、上記のマウスにおける腸内細菌叢の組成の違いを16S ribosomal RNA遺伝子のシークエンシングの結果をもとに検討した。まず、市販サッカリン摂取マウスは、摂取開始11週目において当初の腸内細菌叢および他のコントロール群の腸内細菌叢とは異なる組成を示していた (下の図1g)。同様に、市販サッカリンを摂取させたドナーマウスから便移植を受けたレシピエントの無菌マウスの腸内細菌叢は、主座標分析(Principal Coordinate Analysis; PCoA)において、グルコース摂取ドナーマウスから便移植を受けたコントロールマウスの腸内細菌叢とは異なるクラスターを形成していた (図1h)。
d0194774_035860.png

市販サッカリンを摂取させたマウスは、40以上のoperational taxonomic units (OTUs)で細菌叢の変化を起こしていた。相対量が増加していた細菌群の多くはBacteroides属とClostridiales目に属していたが、Clostridialesと同じFirmicutes門に属する腸内常在菌量であるLactobacillus reuteriは減少していた。量が減少していた細菌群の多くも Clostridiales目に属するものであった。同様に、HFDに加え純粋サッカリンを摂取したマウスでも、腸内細菌叢の異常が起きていた。以上より、サッカリンはその形態、濃度、与えた食餌などが異なっても、おおむね同様の腸内細菌叢の異常をもたらすことが示された。

(注) Operational Taxonomic Units (OTUs、操作性分類単位):配列決定した16S遺伝子のうちある程度以上の類似度(97%以上など)を持つ配列を一つのまとまりと考え、「1菌種」として扱う単位とする。「形成されたOTU数」を「菌種数」と考え、細菌の多様性を把握するのに用いる。

次に、ショットガン・メタゲノムシークエンシングを用いて腸内細菌叢の比較を行った。16S rRNAによる検討と同様、市販サッカリンを11週間摂取させる前とさせた後の便の細菌叢を、グルコースまたは水のみを摂取させた場合のコントロールの便の細菌叢を比較した。相対的な細菌種の量を比較するために、シークエンス結果をヒトマイクロバイオームプロジェクト (HMP)のリファランスゲノムデータベース上で解析した。結果は16S rRNAを用いた解析と同様、市販サッカリンを摂取させた場合に細菌種の量の変化が最も大きかった。さらに、メタゲノム解析の結果を腸内細菌遺伝子カタログ上で解析し、グループ化した遺伝子をKEGG (Kyoto Encyclopedia of Genes and Genomes)上でどのパスウェイに当たるかを検討した。遺伝子発現の変化したパスウェイは、市販サッカリとグルコースを摂取させたマウスで変化が逆であった。市販サッカリンは95%グルコースを含むことを考えると、この違いはサッカリンによるものと考えられる。市販サッカリンを摂取させたマウスはグリカン分解パスウェイの遺伝子発現が大きく増加していた。

グリカンは発酵してさまざまな物質になるが、その中には短鎖脂肪酸(short-chain fatty acids, SCFAs)が含まれている。SCFAは宿主のグルコースおよび脂質のde novo合成の前駆体やシグナル伝達分子になるので、その増加は宿主のエネルギー吸収を増加させ肥満につながりうることがマウスおよびヒトで示されている。このパスウェイは、市販サッカリン摂取マウスの腸内細菌のうち5種類のグラム陰性および陽性細菌の増加によって起こることが分かった。そのうち2種は16S rRNA解析で示されたBacteroides属であった。さらに、市販サッカリン摂取マウスはコントロールのグルコース摂取マウスと比較して、便中のSCFAsであるプロピオン酸と酢酸が大きく増加していた。市販サッカリン摂取マウスの腸内マイクロバイオームでは、デンプン・ショ糖の代謝、フルクトース・マンニトース代謝、葉酸・グリセロリピド・脂肪酸生合成に関与する遺伝子発現が亢進し、糖輸送に関与する遺伝子発現が低下しているという、以前報告された2型糖尿病患者の変化と同様の変化が認められた。

その他にも、純粋サッカリンを摂取させたHFDマウスでは、ascorbate/aldarate代謝 (レプチン受容体欠損糖尿病マウスで増加)、LPD生合成 (代謝性エンドトキシン血症で増加)、細菌走性(肥満マウスで増加)に関与するパスウェイの遺伝子発現の増加が見られた。以上より、市販サッカリンの摂取は腸内細菌叢の機能的変化をもたらすこと、特にグリカン分解パスウェイの遺伝子発現が亢進し、エネルギー吸収の増加につながる便中SCFAsの増加が起きることが示された。

NASは腸内細菌叢を直接変化させ、耐糖能異常を促進する
次にNASの腸内細菌叢への直接の影響を検討するため、通常マウスの便をサッカリンを添加した培養液を用いてin vitroで嫌気性培養した。このサッカリン添加in vitro便培養で、培養9日目にはBacteroidetes門の増加とFirmicutesの減少が認められ、この培養産物を無菌マウスに胃管投与したところ、コントロール便投与群に比べて有意な耐糖能異常が認められた。サッカリン添加in vitro便培養を投与されたマウスの便でもBacteroides属の増加とある種のClostridialesの減少が見られた。ショットガンメガゲノムシークエンシングによっても、サッカリン添加in vitro便培養で、サッカリン摂取マウスの便と同様のグリカン分解パスウェイの遺伝子発現の増加が認められた。その他にはスフィンゴ脂質代謝に関与する遺伝子発現の増加(非肥満糖尿病マウスでの増加が報告されている)、糖輸送に関与する遺伝す発現の減少が認められた。以上より、サッカリンは腸内細菌叢の組成と機能を直接変化させ、耐糖能異常を起こしうる細菌叢の変化をもたらすことが示された。

ヒトにおいてNASは耐糖能異常に関連している
最後にヒトにおいて、長期的および短期的なNAS摂取の耐糖能にどのように影響するかを検討した。まず、長期のNAS摂取と臨床データの関連について381名の非糖尿病者 (男性44%、女性56%、年齢は43.3 ± 13.2歳)のコホートを対象に調べた。NASの摂取量 (食事質問票による)は、体重、ウエスト・ヒップ率(中心性肥満を表す)、空腹時血糖、HbA1c、ブドウ糖負荷試験 (GTT)の血糖値、ALT (肝機能障害を表す)の高値と関連があった。HbA1cは、NAS摂取が多い40名は、NASを摂取しない236名に比べて高値であった(BMIで補正しても高値だった)。さらに、これらの被験者のうち、ランダムに172名を選び出し、便の細菌叢を16S rRNA解析を用いて調べた。その結果、NASの摂取とEnterobacteriaceae科、Deltaproteobacteria綱、Actinobacteria門の量の増加とは有意な関連があった。なお、細菌叢のOTUの量とBMIの間には有意な関連は見られず、上記のNAS摂取と細菌叢の関連は肥満を介する関連ではないと考えられた。

ヒトにおいて短期的なNASの摂取が耐糖能異常をもたらすかを調べるため、普段NASを摂取しないか、ここ1週間NASを含む食物を摂取していない7名の健常ボランティア(5名が男性、2名が女性、年齢は28-36歳)にNASを摂取させて検討を行った。7日間の試験期間のうち2日目から7日目まで、FDAの1日許容最大摂取量の市販サッカリン(5 mg/体重kg)を1日3回に分け連日摂取させ、、連日GTTを行った。その結果、このような短期間でも7名中4名の被験者が1-4日目に比べ、5-7日目にGTTでの有意な血糖上昇をきたした(図4c)。また、残り3名は血糖上昇はなかった (有意な耐糖能改善もなかった) (図4d)。このように、被験者にはNASに反応して耐糖能悪化が見られた者と見られなかった者があり、反応があった者を「NASレスポンダー」、反応がなかった者を「NASノンレスポンダー」と呼ぶことにした。

NASレスポンダーの腸内マイクロバイオームは、ノンレスポンダーのNAS投与前後とは異なるクラスターを形成していた(図4e)。さらに、ノンレスポンダーのマイクロバイオームはこのNAS摂取期間を通じて変化がなかったのに対し、レスポンダーではNAS摂取によってマイクロバイオームの変化が見られた(図4f)。
d0194774_081343.jpg

レスポンダーとノンレスポンダーのNAS摂取前(1日目)と摂取後(7日目)の便サンプルを正常食負荷無菌マウスに移植した。その結果、NAS摂取後のレスポンダーの便を移植されたレシピエントマウスは有意な耐糖能異常を示したのに対し、レスポンダーのNAS摂取前およびノンレスポンダーのNAS摂取前後の便では耐糖能異常は起きなかった。レスポンダーのマイクロバイオームを移植された無菌マウスの便では、サッカリン摂取マウスの腸内細菌叢変化と同様の変化がいくつか認められ、Bacteroides fragilis (Bacteroidales目)とWeissella cibaria (Lactobacillales目)が20倍増加、Candidatus Arthromitus (Clostridiales目)が10分の1に減少していた。

【結論】
本研究では、NASの摂取が腸内細菌叢を変化させ、耐糖能異常を起こす可能性がマウスとヒトで示された。NAS摂取による主な細菌群の変化は、以前に2型糖尿病のヒトでも報告されたBacteroidesの増加とClostridialesの減少であった。また、NAS摂取は腸内マイクロバイオームのうち、グリカン分解パスウェイの遺伝子発現を変化させ、食物からのエネルギー吸収を増加させる可能性があることが分かった。その他にもNASはマウスやヒトで糖尿病や肥満への関連が報告されている代謝パスウェイ (スフィンゴ脂質代謝やLPS生合成など)を変化させることが明らかになった。本研究は、マウスだけでなく、ヒトにおいても長期的および短期的なNAS摂取が耐糖能異常を起こしうることを示した。ヒトにおいては、NASの摂取に反応して耐糖能異常を起こすレスポンダーと起こさないノンレスポンダーがいることが分かり、このような反応の違いは個人の腸内細菌叢の組成と機能の違いによる可能性が示唆された。一般に食事に対する代謝疾患の起こりやすさには個人差があるが、これは個人による腸内マイクロバイオームの違いによるものかも知れず、もしそうだとすれば将来はマイクロバイオームに基づいた「個別化栄養療法 (personalized nutrition)」が重要になるのかもしれない。

人工甘味料は、人間の甘味に対する欲求を妨げることなくカロリー摂取を減らし、糖尿病患者の血糖を正常化させるのに役立つと考えられてきた。近年、多くの食事の変化に並行して、人工甘味料の消費も増加している。もしかしたら人工甘味料の使用は、意図に反して肥満や糖尿病増加に寄与してきた可能性もある。さらには、人工甘味料の影響には個人差があることが示唆され、それが腸内マイクロバイオームに基づく可能性についても今後検討が必要になるだろう。
[PR]
by md345797 | 2014-09-23 23:58 | その他

Points of significanceコラム 1:標準偏差(SD)と標準誤差(SEM)を区別する

Points of significance :Importance of being uncertain.(統計学は不確実性を扱う)
Points of significance :Error bars.(エラーバーと有意差の解釈)

Krzywinski M, Altman N.

Nat Methods. 2013 Sep;10(9):809-10、Oct;10(10):921-2.

【総説内容】

1. 統計学は不確実性を扱う
われわれがまた自然現象について何かを調べるとき、毎回全く同一の値が得られることはまずない。われわれの観察や経験は常にいろいろな不確実性を伴い、決して完全ではありえない。しかも、その観察や経験が1回しか行われないことが多い。このような不確実性を伴う、たった1回の経験だけをもとに、一般化した本質を理解するには何らかの危険が伴う。われわれの経験を要約して一般化して理解する際に、「どのくらいの危険が伴うのか」「その一般化はどれくらい信頼できるのか」を扱うのが統計学である。ここでは、統計学の基本的な概念を、直観的に理解しにくい部分も含めて考察する。また、「医学雑誌に掲載された論文の約半分は統計を誤用している」とする報告もあり、よく見られる統計に対する認識の誤りについても考える。

統計学は、記述的な面(descriptive:経験をまとめ要約する部分)と推測的な面(inferential:たった1回の経験からそれが一般化できるかを推定する部分)からなる。推測を行うべき全体のデータは、母集団(population)と呼ばれる。母集団の分布は横軸に数値、縦軸に頻度を取った度数分布(frequency distribution)で表され、これは度数分布をある範囲の数値ごとに頻度をまとめて棒グラフにしたヒストグラムや、ヒストグラムの各棒の上端をなめらかな線で結んだ分布曲線で表されることが多い。
d0194774_1122315.jpg

上の図1aはこの母集団分布の位置を表す平均(μ)と広がりを表す標準偏差(SD、s.d.、σ)を表す。これは図1bのようにさまざまな値を取り、直接は分からないこれらの値を推測することが統計の主要な目的である。母集団は非常に大きく、その平均を直接求めることはできないので、母集団から標本(sample)を得ることによって推定することになる。

2. 標本から、母集団の平均を推定する
(1) 標本で観測される平均や標準偏差などの数値を統計量(statistics)、母集団の平均や標準偏差(これらは直接は知り得ない)を母集団パラメータ(population parameter)と呼ぶ。前者はローマ字(X barやs)、後者はギリシア文字(μ、σ)で書く。標本の統計量を用いて、母集団のパラメータを推定することが主要な目的である。

なお、ある分布が正規分布曲線に従うとき、平均±1SDの間、平均±2SDの間、平均±3SDの間には、それぞれ68%、95%、99.7%の面積が含まれる(これらは概数であり、正確には整数を正規分布曲線の式にあてはめた68.26…%、95.44…%、99.74…%のような数値である)。
d0194774_1125297.jpg

ここで、標本の抽出(sampling)にあたり、1つの母集団からランダムに何組も標本を取ることを想定する。例えば、図2aのような不規則な分布曲線で表される母集団から、標本の大きさ(標本のデータの数)が5個の標本(n=5)を3種類得たとする(図2b)。標本1はX_1(_は1が下付き文字であることを表す)、そして標本1の5個のデータの平均値はX_1 bar(図のようにX_1の上に横棒)と書く。

(2) ところで、母集団から組数の標本を取ると、それら多数の標本の平均(X_bar)の分布というものができる。これは標本分布(sampling distribution)と呼ばれる概念である(図2c)。図2cのように、標本分布の平均をμ_X bar (X barは下付き文字)、標本分布の標準偏差をσ_X bar (X barは下付き文字)で表す。

ここで、標本の大きさが大きくなればなるほど、母集団の形が何であれ、標本分布は正規分布に近づく(下の図3)。これは、中心極限定理(central limit theorem; CLT)という、統計学の最も基本的で重要な定理に基づいている(定義の詳細は省略)。
d0194774_1132129.jpg


(3) このとき、CLTに基づいて次のことが導かれる。nが十分に大きくなるとき、

標本分布の平均μ_X barは、母集団の平均μに等しくなる。
標本分布の標準偏差σ_X barは、(母集団の標準偏差σ)/√(標本の大きさn)に等しくなる。

②の方は混乱を招くことが多いが、σ_X barは「標本分布の」標準偏差σは「母集団の」標準偏差であり、後述の標準誤差(SEM=s/√n)は②のσ/√nの推定値(estimate)である。多くの本には「標本分布の標準偏差=標準誤差」と書かれていることが多いが、厳密には母集団標準偏差/√nの推定値である。

上記の①②は、nが無限大に大きくなった場合を想定しているのであって、現実にはnは有限個しか集められない。そのため、
①′ 母集団の平均μは、標本の統計量に基づいて、「ある区間にある確率で含まれる」というように区間で推定するほかない。
②′ 標本平均の標準偏差σ_X bar母集団の標準偏差σもいずれも仮想上のもので、直接には求めることはできない。標本の標準偏差sはnが十分に大きくなれば母集団の標準偏差σの代用にはなるが(下図4参照)、①′の推定に使うには不十分である*。そこで、後述の標準誤差(=s/√n)をσ/√nの推定値として用い(図4参照)、σ/√nはσ_X barと等しいことから、①′の標本分布の平均の区間推定に用いる。

(*ここでは、「標本の標準偏差と母集団の標準偏差に差がない」と仮定して、母集団の平均を推測する。実際は標本と母集団の標準偏差に差がある場合もあるだろうが、それはあまりに複雑になるので割愛し、上記のような仮定での説明を続ける。)

(4) 標本分布の標準偏差(の推定値)は、標準誤差(SEM、s.e.m.=standard error of the mean)と呼ばれる。標準誤差は、標本の「標準偏差(SD)と大きさ(n)」という既知の値から(標本のSD)/√(標本の大きさn)で求められる。

さて、前述のように標準分布の平均は、ある範囲で推定するしかない。標本分布において、標本平均±1SEMの範囲に標本分布の平均が含まれる確率は68%である。また、標本平均±3SEMの範囲であれば、標本分布の平均は99.7%の確率で含まれる。このように「信頼度を上げるためには推測の範囲を大きくする必要があり、逆に「推測の範囲を狭めれば信頼度は下がってしまう」というジレンマがある。そこで慣習上、標本平均±2SEMの範囲で95%程度の信頼度で、標本分布の平均(すなわち母集団平均)を推測することにしている。この標本分布の平均±2SEM範囲を、標本分布の平均の「95%信頼区間(confidence interval; CI)」と呼んでいる。

(5) 以上より、標準分布のSEMが分かり、標本分布の平均が95%の確率で標本の平均±2SEMの区間に入ることが示された。中心極限定理に基づくと、標準分布の平均母集団平均は等しいので、母集団平均標本平均±2SEMの範囲を95%信頼区間として求めることができた。

(6) 以上で見たように、SDとSEMはまったく異質のものである。SDは、ある標本の平均のまわりのデータのばらつきを表す。一方SEMは、「標本分布においてどのくらいのばらつき具合で標本平均がばらついているか、これにより標本平均の上下どのくらいの範囲で標本分布の平均が含まれる区間を絞れるか」というを表す。nが十分大きい時、標本分布の平均母集団平均と等しいので、SEMは得られた標本平均によってどのくらいの精度で、どのくらいの信頼性をもって母集団平均を予測できるかの指標になる。SDは標本のばらつきを表す「量」で、SEMは標本平均から母集団平均を推測するためのこの標本平均の「質」と言えるかもしれない。

(7) したがって、標本のばらつきを表すSDの代用として、SEMを用いてはならない。グラフではSEMの方がSDのエラーバーより小さくなるので、「ばらつきが少なく、実験の精度が高く見える」「エラーバーが小さいのでより有意差があるように表現できる」と、見栄えを考えてSDで書くべきエラーバーをSEMのエラーバーで代用する、といったSEMの誤用は論外である。そもそもSDも標本のデータがもともとばらついていることを表しているだけで、実験の精度とは関係がない。さらには、あなたが論文の読者で、著者がSEMのエラーバーを用いていたら、その長さを√n倍して標本のSDを求め、±2SDの間に95%の標本データが含まれる、というように考えよう。

d0194774_114123.jpg

上の図4は、図2aの母集団から3種類の標本(X_1, X_2, X_3)を取って、標本の大きさnを1から100まで増加させた場合の標本平均(X_bar)、標本の標準偏差(s)、標本分布の標準誤差(s.e.m.)の変化を点で示したものである(これらは標本から求められる)。赤い線は母集団の平均μ、母集団の標準偏差σ標本分布の標準偏差σ_X barを表している(これらは理論上の仮想で、現実には求められない)。上から1番目、2番目のように母集団の平均と母集団の標準偏差は取る標本の大きさに関わらず同一の値であるが、3番目のグラフのように標本分布の標準偏差σ_X barはnが大きくなるにつれて徐々に減少していって一定の値に収束する。標準誤差s.e.m.がいかに標本分布の標準偏差σ_X barの推定値になり、標本平均から母集団平均を推測するのに有用かが分かる。

3. エラーバーの解釈
次に、ここに2つの独立した標本があるとする。これらの標本は、同じ大きさで、同じ広がりをもつ正規分布に従っているとする。これら2つの標本の平均の間に有意差があるかどうか、2標本のt-検定(two-sample t-test)を用いてP値を計算した。

有意差について詳しくは次回以降述べるとして、ここではこの結果を3種類のエラーバー(すなわちSD、SEM、95%CI)を用いて表現したものを下の図5に示す。2つの標本の平均は0と1.0とする。
d0194774_1142488.jpg

図5aは、3種類のエラーバーでP値は異なるが、同じ長さで表現した場合である。2つの標本のエラーバーがちょうど接するとき、3種類でP値は全く異なることを示している。図5bでは、同じP=0.05になるようなエラーバーとしたところ、3種類の長さは異なり、オーバーラップまたはギャップがあることを示す。図5bで分かるように、「エラーバーどうしが重なり合っていない場合、2つの標本の平均の間には有意な差がある」とか「エラーバーが重なっているので、平均間に有意差はない」という思い込みは、どちらも全く誤りである

2012年にNature Methodsに掲載された論文の2/3の図でエラーバーが使われていた。しかしそのうち、エラーバーがSDを表すものは45%、SEMを表すものは49%、95%CIを表すものはある論文の1つの図のみだった。そのほか5%では何とエラーバーが何を示すのかが文中に述べられていなかった。

(1)エラーバーがSD
図5aではn=10の2つの標本のエラーバーどうしが接触しているが、P=0.0003と有意差がある。図5bではP=0.05で有意差があると言えるがエラーバーは重なっていない。エラーバーの重なりと有意差については一概に、直観的には判断できない。

(2) エラーバーがSEM
図5aではn=10の2つの標本のエラーバーどうしが接触しているが、P=0.17と有意差はなく、図5bでは有意差があってエラーバーが離れている。ここでも「2標本のエラーバーが重ならないからといって、標本間に有意差がある」と考えるのは間違いである。

(3)エラーバーがCI
95%CIがよく用いられるが、下の図6のように標本平均のエラーバーとしてCIが用いられると、95%の確率で母集団平均がエラーバー内にあることになる(同一の母集団から別の標本を取ったとき、その標本の平均が95%の確率でエラーバー内にある、というのはよくある間違い)。95%CIのエラーバーはn=3でおよそ4 x SEM、nが15以上でおよそ2 x SEMでSEMのエラーバーに比べて大きい(図6b)。
d0194774_1115316.jpg


現時点では不幸なことに、上記3種類のエラーバー(SDとSEMと95%CI)は理解不十分のまま混在している。したがって、論文を読む際には、このエラーバーは何であり、どう解釈するのが正しいのかを常に考える必要があるだろう。

付記:
上記のまとめでは、『新・涙なしの統計学』 (D. ロウントリー著・加納 悟訳:新世社、2001)の記述が大変分かりやすかったので参考にさせていただいた。


[PR]
by md345797 | 2014-05-07 01:04 | その他

複数祖先集団GWASのメタアナリシスは、新たな2型糖尿病感受性座位の発見と微細地図解像度の上昇に有用

Genome-wide trans-ancestry meta-analysis provides insight into the genetic architecture of type 2 diabetes susceptibility.

DIAbetes Genetics Replication And Meta-analysis (DIAGRAM) Consortium.

Nat Genet. 2014 Mar;46(3):234-44.

【用語集】
Single nucleotide polymorphism; SNP (一塩基多型):ゲノムDNA上の一塩基の置換。塩基の置換のうち、頻度が非常に少ないものを変異(mutation)、人口の0.5%以上に見られるようなある程度の頻度で見られるものを多型(polymorphism)と呼ぶ。SNPの中でも置換の頻度の多い(人口の5%以上に見られる)ものをコモンSNP(common SNP)と呼ぶ。2003年から始まったInternational HapMap Projectによってcommon SNPの大部分が明らかにされた。
Locus, Loci (座位):ゲノム上の位置のこと。1つの座位に対し、1つの遺伝型(genotype)が対応する。ある1つの塩基の場所を「座位」とよび、それが何の塩基であるかを「遺伝型」と呼んでもよい。
(これらの語は、遺伝子が発見される前に作られた用語なので、「遺伝子」の場所や型というわけでもない。したがって、「遺伝子座」「遺伝子型」というより「座位」「遺伝型」という訳が適しているとされる。)
Trait (形質):形質は、一つの座位に可能な表現型をまとめたもの。
「エンドウマメの形」という形質(trait)に対し、「丸い」「しわがある」という表現型(phenotype)がある、などと考える。
Allele(アレル):ある個体では、1つの座位に父母由来の2つの遺伝型が存在し、この関係をアレルと呼ぶ。1つの塩基の座位にある、2つの塩基をアレルと呼んでもよい。「アレル」も遺伝子発見以前からの用語であり、しかも実体ではなく関係を表す語なので、「対立遺伝子」と訳すより、「アレル」のまま用いるのがよい。
アレルの人口の中での頻度を調べて、頻度の高いものを「メジャーアレル」、低いものを「マイナーアレル」と呼ぶ。マイナーアレルは「多型」であり、疾患と関連することが多い。
Allele Frequency (アレル頻度):マイナーアレルの頻度が5%以上のSNPはコモンSNP、0.5~5%のSNPはレアSNP、0.5%未満のものは変異(mutation)と呼ばれる。SNPの多型の頻度(アレル頻度)を横軸に取り、その多型が表現型にどう影響するか(疾患となるオッズ比)を縦軸に取ったグラフが非常に有名である(Manolio TA et al. Finding the missing heritability of complex diseases.
Nature. 2009 Oct 8;461(7265):747-53.
)
d0194774_14534374.jpg

左上は非常にまれなSNP変異だがその影響は大きいもの(その変異があるとほぼ必ずその疾患となる)、右下は頻度の多いSNP多型だがその一つ一つのSNPが疾患に及ぼす影響が少ないもの(疾患発症のオッズ比が1.1-1.5程度のもの)である。前者はメンデル型遺伝性疾患、後者はよくみられる、コモンな疾患と考えられている。このようにコモンな疾患とは、頻度は多いがその影響は少ないSNP多型が積み重なってできているとする仮説がある。これが「コモンな疾患はコモンな多型によって起こる」(common disease-common variants; CDCV)仮説であり、CDCV仮説に基づいてGWASを用いたコモンな疾患の原因検索が行われてきた。GWASは、頻度の多いSNP多型を検出することにより、疾患とSNPの関連を調べる方法である(後述)。

上図の中間(水色)の疾患はアレル頻度のやや低い(0.5~5%)のレアSNP多型が、それぞれ疾患に対しやや大きい影響をもたらすというものである。稀少疾患(rare disease)がこれに当たると考えられる。また、コモンな疾患の一部にはこのようなレアなSNP多型が関与しているかもしれない(common disease-rare variant; CDRV仮説)。この集団は従来のGWASではとらえることが困難であり、今後、密度の非常に高いSNPアレイ、次世代シークエンサーを用いた全ゲノムシークエンスやエキソン全体のエキソームシークエンスなど(深度が高い=ディープシークエンスと呼ぶ)の発達によって解析が可能になると考えられる。

Linkage disequilibrium; LD(連鎖不均衡):染色体が子孫に受け継がれるとき、遺伝子の相同組み換えが起きる。その際、相同組み換えが起こりやすい場所(ホットスポット)がある。これらのホットスポット間のSNPは、高い確率で挙動を共にするが、この挙動を共にするSNPsを「連鎖不均衡の関係にある」という。これらのホットスポット間の1区画をブロックと考え、ハプロブロック(haploblock)という。HapMap Projectによってこの「ハプロブロック構造」が明らかになったため、ある数種類のSNPs(タグSNPs)の変化のみ調べればSNP全体の多様性が分かるようになった。

Haplotype(ハプロタイプ):一般には、一緒に(haplo-)遺伝する傾向のあるDNA変異または多型のことをいうが、ゲノム上に見られるSNPのセットまたはアレルの組み合わせのこともハプロタイプと呼ぶ。

Genome-wide association study; GWAS (ゲノムワイド関連解析):ある疾患(disease)や形質(trait)と関連があると考えられるSNPを、全ゲノムを対象に網羅的に検索し抽出する方法。疾患群(cases)と対照群(controls)からそれぞれDNAを抽出し、SNPチップ(SNP array)とハイブリダイズさせることにより、その疾患と有意に関連するSNPを検出する。ある座位のSNPの一方(アレル)が疾患群で有意に多く見られるとき、そのSNPが疾患と関連する(associated)と考える。

ここで用いるSNPは、全SNPである必要はなく、挙動を共にするSNP(連鎖不均衡の関係にあるSNP)があるため、ある種のタグSNP(lead SNP)について調べるだけでよい。全SNPの中でも、マイナーアレル頻度が5%以上のcommon SNPの1/10程度について調べれば、どのようなSNPのパターン(ハプロタイプ)に属するかが分かるとされている。したがって、現在明らかな1,000万のcommon SNPsから大体1/10の100万のタグSNPsを調べるため、1,000K SNPチップなどが用いられる。

通常、群間の差は、群間の違いが偶然である確率が5%未満(P<0.05)で「有意な差がある」と考える。しかし群の数が多い場合の群間の比較ではBoferroniの補正が用いられる。これは有意水準を決めるのに5%を群数で割ったものであり、100万SNPsで調べた(1,000KのSNPチップを用いた)場合は、0.05÷1,000,000=5x 10 -8、すなわちP<5x10 -8を有意水準とする。P値をlog変換し、-log10 P が8以上で有意に「疾患と関連する」などとされるのはこのため。

以下にGWASおよびそのメタアナリシスの概略図を示す(Manolio TA. Genomewide association studies and assessment of the risk of disease. N Engl J Med. 2010 Jul 8;363(2):166-76.より引用)
d0194774_1455385.jpg

上の図1Aでは、3人(Person 1, 2, 3)のゲノムにおける、染色体9番上のある小さい座位を示している。SNP1はPerson 1ではGGであるところが、Person 2ではGT、Person 3ではTTとなっている(同様にSNP2は、Person 1ではAAであるところが、Person 2ではAG、Person3ではGG)。ここではそれぞれ、最初が①頻度の多い「野生型の」ホモ型(common homozygote)、二番目が②ヘテロ型(heterozygote)、三番目が③頻度の少ない「多型」ホモ型(variant homozygote)とする。SNP1ではGがメジャーアレルでTがマイナーアレル、SNP2ではAがメジャーアレルでGがマイナーアレルである。
図1Bでは、疾患群(Cases)と対照群(Controls)の全DNAをSNPアレイで解析し、SNPsをゲノム全体で比較したところ、SNP1はP=1x10 -12、SNP2はP=1x10 -8の有意水準で「マイナーアレルが有意に関連している」ことが明らかになったことを示している。なお、ここで上記の①と(②+③)を比較するか(優性遺伝形式)、(①+②)と③を比較するか(劣性遺伝形式)、さらには①と②と③を比較するかは有意差が大きいものを取るとされている。
図1Cは、横軸に順番に染色体(番号ごとに色が変えてある)を並べ、その上のSNPを点で表している。縦軸はそれぞれの点(SNP)が疾患と関連する有意水準Pをlog変換で表している。このグラフ(signal plot)は、ニューヨークのマンハッタンにある高層ビル群をイメージさせることから「マンハッタンプロット」のニックネームで呼ばれる。この例では、SNP1が10の12乗、SNP2が10の8乗で有意に疾患に関連があることを示す(左のプロットでは同一線上にあるように見えるが、これを大きく拡大すると実際には右プロットのように染色体9番の上のずれた位置にある)。

このようにして明らかになったSNPを疾患の「感受性座位」(susceptibility loci)と呼ぶこれは、SNPの多型「だけ」で疾患が起こるわけではないが、そのSNPを含む多くのSNPsの多型の蓄積によって疾患が「起きやすくなる」、疾患発症が「影響される」=susceptibleと考えられるため。

なお、このようなシグナルが認められるハプロタイプブロックのすべてのSNP(タグSNPだけでなく分かりうるすべてのSNP)が疾患に関連するかを調べ、より強く関連するSNPを絞っていくことをファインマッピング(fine mapping; 微細地図作成)と呼ぶ。この微細地図(fine map)の解像度(fine-mapping resolution)を上げていくことが、GWASの精度を高めるには重要とされる。

なお、GWASで最終的に分かるのは、あくまでも「どのSNPが」疾患に関連しているかであり、「どの遺伝子(gene)」が関連しているかまでは分からない。しかし、特定されたSNPが近傍の遺伝子にどう影響しているかはexpression quantitative trait loci; eQTL(量的形質座位)解析の結果明らかになることがある。
d0194774_14564017.jpg

図1は疾患に関連のあるSNPsを検出するための集団(initial discovery set)を対象にしたものであった。上の図2はそこで明らかになったSNPsを確認し、偽陽性の結果を除外するために別の集団(replication set)を対象とした検討である。図2の例では3つの集団をreplication setとしており、一つ一つの検討では、このSNPが疾患に有意に関連していることは示されていない。しかし、これらのメタアナリシスを行うとこのSNPが強いシグナルとなって認められ、有意に疾患に関連していることが示されている。

【論文内容】
2型糖尿病(T2D)の疾患感受性に対するGWASは、大部分がヨーロッパ白人を祖先とした集団(European ancestry)を対象としたものである。近年は、東アジア人、南アジア人、メキシコ人およびメキシコ系アメリカ人、アフリカ系アメリカ人など他の祖先集団でも検討が行われ、ヨーロッパ白人とオーバーラップする結果が得られている。そこでこの研究では、多くの祖先集団のGWASの結果を組み合わせた「複数の祖先集団にわたる(trans-ancestry)」メタアナリシスを行った。これにより、より大きいサンプルサイズで解析ができ、また連鎖不均衡(LD)構造の異なる集団を対象とすることによって、T2D感受性座位の微細地図の解像度(fine-mapping resolution、感受性座位をいかに絞り込めるか)が強化されると考えられる。

研究の概要
現在までに報告されている4つの人種集団、すなわちDIAGRAM(ヨーロッパ人)、AGEN-T2D(東アジア人)、ST2D(南アジア人)、MAT2D(メキシコおよびメキシコ系アメリカ人)の各コンソーシアムの、合計26,488名の疾患群(case)と83,964名の対象群(control)を対象とした。遺伝的多様性を統一して検討するために、HapMap Projectによる250万のcommon SNPを用いてメタアナリシスを行った。

複数の祖先集団メタアナリシスによる新たな感受性座位の発見
現在までにT2D感受性座位として確立しているものは69個あり、それらのアレル効果(その座位のアレルが疾患発症に関与する影響度)の多様性を、祖先集団間で検討した。その結果、下記の3つの座位のSNPで大きな違いがあることが示された。すなわち、TCF7L2 (SNP番号:rs7903146)はどの集団でもT2Dと大きな関連があったが、その関連(疾患に関連するオッズ比)はヨーロッパ人集団で最も大きかった。一方、PEPD (rs3786897)とKLF14 (rs13233731)は、それぞれ東アジア人とヨーロッパ人でT2Dと大きな関連があった。今回、これら69個の確立したT2D感受性座位を除いた後に、複数の祖先集団で共通してT2D感受性座位(リスクアレル)と考えられるSNPの発見を試みた。

その結果、まず33個のSNPが同定された。これらに対し、ヨーロッパ人の疾患群21,491名と対照群55,647名を対象として、T2Dおよび他の代謝形質および心血管形質との関連を調べるreplication studyを行った。その結果、全ゲノムにおいて有意に(P<5x10 -8)T2Dと関連する7つの座位が新たに同定された(TMEM154、FAF1、POU5F1-TCF19、SSR1-RREB1、MPHOSPH9、LPP、ARL15)。これらの座位は、すべての祖先集団において比較的頻度の高いコモンなSNPで、T2Dへの効果は中等度のものであり、その点で上記のような集団間の多様性は見られなかった。

・これらの新しいT2D感受性座位の一つは、免疫に必要なMHC(major histocompatibility complex; 主要組織適合遺伝子複合体)内のPOU5F1-TCF19の近傍にあるSNPである。MHCにある1型糖尿病(T1D)のリスク座位がlatent autoimmune diabetes of adulthood (LADA)に関連があることが分かっており、これは臨床的にはT2Dと誤って診断されていることがある。
・また、新しい座位にはARL15およびSSR1-RREB1近傍のSNPsが含まれ、これらはそれぞれ空腹時インスリンと血中アディポネクチン値(さらにHOMA-IRで示されるインスリン抵抗性)および空腹時血糖(さらにHOMA-βで示されるインスリン分泌低下)と関連がある。
・新たなT2D感受性座位についていくつかの組織でeQTL解析を行ったところ、SSR1-RREB1座位が膵β細胞においてSSR1の、MPHOSPH9座位が肝においてABCB9および肺においてSETD8の、POU5F1-TCF19座位が単球においてHCG27の発現に強く影響していた。
・また、これらの新たな座位がどのようにT2D感受性に影響しているかも検討した。その結果、POU5F1-TCF19座位はTCF19のミスセンス変異(p.Val211Met)となっている、MPHOSPH9座位はABCB9、OFGOD2、PITPNM2のUTRの変異となっている、FAF1座位はインスリン転写調節に関わるELAVL4発現に関与するオープンクロマチン部位に存在することなどが明らかになった。

複数の祖先集団メタアナリシスによる感受性座位の微細地図解像度(fine-mapping resolution)の上昇
複数の祖先集団のGWASの結果のメタアナリシスにおいて、ベイズ統計学の手法であるMANTRA
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3460225/
(Meta-ANalysis of Transethnic Association studies)ソフトウェアを用いた各集団データの統合を行った。その結果として、T2D感受性座位の微細地図解像度が上昇するか(SNPsの数が増加するか、SNPsの99%信頼セットのゲノム上間隔が短縮するか=感受性座位をいかに絞り込めるか)を検討した。

方法として、すでに確立した10のT2D感受性座位(JAZF1、SLC30A8、CDKAL1、HHEX/IDE、TCF7L2、IGF2BP2、FTO、CDKN2A/B、PPARG、MTNR1B)を対象に、ヨーロッパ人におけるメタアナリシス(疾患群12,171名と対照群56,862名)よりも複数祖先集団を統合したメタアナリシス(疾患群26,488名と対照群83,964名)の方がSNPsの99%信頼セットのゲノム上の間隔が短縮するかどうかを検討した。その結果、MTNR1Bを除いて、複数の集団を統合したメタアナリシスを用いてT2D感受性座位のSNP数が増加、または、感受性座位の微細地図解像度が上昇した。
d0194774_14503950.jpg

図3SLC30A8(rs13266634)のsignal plotsであり、上がヨーロッパ人でのGWAS、下が複数祖先集団を統合したGWASの結果を示している。下の方が微細地図の解像度(fine-mapping resolution)が上昇している。

【結論】
複数の祖先集団におけるT2D感受性座位のGWASでメタアナリシスをおこなうことにより、①新たなT2D感受性座位が明らかになり、また、②すでに知られているT2D感受性座位の微細地図の解像度が上昇した。このことは、従来のGWAS、特にヨーロッパ人の祖先集団のみのGWASでは関連が有意でなかったT2D感受性座位がまだ存在することを意味しており、これらの座位はサンプルサイズの大きい複数祖先集団のGWASメタアナリシスで検出できる可能性がある。


[PR]
by md345797 | 2014-04-28 18:08 | その他

ボックスプロット(箱ひげ図)作成のためのオープンソースアプリケーション:BoxPlotR

BoxPlotR: a web tool for generation of box plots.

Spitzer M, Wildenhain J, Rappsilber J, Tyers M.

Nature Methods. 2014 Jan 30;11(2):121-2.

「棒グラフ」と「ボックスプロット(箱ひげ図)」
① 棒グラフ(Bar plot)は、平均(mean)を棒の高さで、標準偏差(sd)または標準誤差(standard error of the mean; sem)をエラーバーで示してデータを比較を表現する方法である。非常に多く用いられる方法だが、平均と標準偏差という単純な要約統計量(summary statistics)だけの比較であるため、元のデータの構造の違いを見落とし、結果的に間違った結論も導くことがありうる。一方、以下で述べるボックスプロット(Box plot、別名Box-and-whisker plot; 箱ひげ図)は、要約統計量と元のデータの分布の両方を表すことができ、棒グラフより情報量が多い。ここではそのボックスプロットの特徴と、ボックスプロット作成のためのオープンソースアプリケーションBoxPlotRについて述べる。

d0194774_12332494.png

図1 同じデータを棒グラフ(左)とボックスプロット(箱ひげ図、右)で示したもの。
棒グラフでは表現できないデータの分布が、ボックスプロットではよりよく表現できる。

② 棒グラフでは、元のデータの分布がよく分からないことを図2に示す。一番下のcは4種類のパターンの元データ、すなわち「uniform(連続一様分布)」「Normal(正規分布)」「Poisson(ポアソン分布、離散確率分布)」「Exponential(指数分布、連続確立分布)」のそれぞれの確率分布を示している(n=1,000)。これらをaのような棒グラフと標準偏差のエラーバーで表現すると、分布の中心や広がりなどが正しく伝わらなくなってしまう。しかし、これをbのようなボックスプロットにすれば、それぞれの分布に関する情報をより多く伝えることができる。

d0194774_12203093.jpg

図2 異なる分布パターン(c)を示すデータを、棒グラフ(a)とボックスプロット(b)で表した。

③ ボックスプロットは「箱ひげ図」(Box-and-whisker plots)と呼ばれるが、ここでいう「ひげ(whisker)」はネコなどの動物に見られる「ヒゲ(洞毛)」のことである。人間の顔の「髭」(あごひげbeardやくちひげmustache)ではないことに注意。
d0194774_1220093.jpg

図3 箱ひげ図(Box-and-whisker plots)のwhiskerは、ネコなどの動物のヒゲのこと。

ボックスプロットの表記方法
① データの分布に偏りがあまりない場合は、平均と標準偏差でデータの構造が大体表現できる。一方、データの分布が非対称で偏りがある場合や極端な外れ値がある場合は、四分位数(quartile:データを小さい方から順に並べて四分の一の個数になるデータの数値)と範囲(range:最小値と最大値)の表示が有用である。ボックスプロットは、データの第1四分位数(lower quartile; Q1)、中央値(median, m; 第2四分位数Q2でもある)、第3四分位数(upper quartile Q3)と四分位範囲interquartile range(IQR、Q3-Q1、データの中央50%を含む)およびデータの範囲(最小値と最大値)を視覚化するグラフである。

もし大きな外れ値がある場合、それに引っ張られて平均と標準偏差は大きく影響を受けてしまうが、四分位数と四分位範囲は少数の外れ値からの影響は受けず、データの中心とその広がりが持つ情報をより多く保存できる。

d0194774_1219023.gif

図4ボックスプロットの「箱」と「ひげ」が表すもの
「箱(Box)」は第1四分位数(Q1)と第3四分位数(Q3)の間の四分位範囲(IQR)を、箱の中の線は中央値(mean)を表す。データの範囲、すなわち最小値から最大値までは「ひげ(whiskers)」の広がりで表すが、一般的には「ひげ」の長さは箱の端からIQRの長さの1.5倍以内とし、その外側にある外れ値(outlier)があれば「ひげ」の外側の○で示す。

② ボックスプロットは、第1四分位数(Q1)と第3四分位数(Q3)の間の四分位範囲(IQR)を「箱(box)」で、中央値(mean)を箱の中の線で表す。最小値から最大値までは「ひげ(whiskers)」の広がりで表すが、一般的には「ひげ」の長さは、箱の端からIQRの長さの1.5倍以内とし、その外側にある外れ値(outlier)は「ひげ」の外側の○で示す。これが、箱ひげ図を開発したテューキーによる定義だが (John Wilder Tukeyはアメリカの数学・統計学者 1915-2000)が、ヒゲは「最大値から最小値まで」(Spearのスタイル)や「データの95%中央範囲」(Altmanのスタイル)とする場合もある。

(なお、IQRの1.5倍の範囲というのは、通常の分布であれば±2.7σ(シグマ、標準偏差)であり、データの99.3%を含むことになる。)

③ ボックスプロットのバリエーションとして、バイオリンプロット、ビーンプロット、ビー スォームなど、さらに多くのデータ分布の情報を表すことができるものもある(図5)。
バイオリンプロット:
中心の白丸が中央値、真ん中の黒い太い縦線がIQR、真ん中の細い縦線がIQRの±1.5倍以内のヒゲ。左右に広がる灰色の山はカーネル密度推定(サンプルからの母集団データ分布の推定)を表す。
ビーンプロット:
真ん中の黒い横線が中央値、複数の白い横線は、データが存在してする場所、左右に広がる山は密度推定(バイオリンプロットとはパラメーターが異なるので形は違うが)を表す。
ビー スウォーム(bee swarm=蜂の群れ):データを実際の点としてプロットしたグラフ。要約統計量が表現されていないが、データの分布を直接視覚化できる。ボックスプロットに重ねて表現することも可能(図6)。

d0194774_12173494.jpg

図5 (a)一様分布(uniform)、一峰性(unimordal)、二峰性(bimordal)のそれぞれの分布を、(b)棒グラフ、ボックスプロット、バイオリンプロット、ビーンプロットで表現している。棒グラフによる比較では平均値が同じのため似たようなグラフに見えるが、他のグラフでは分布の差がよりはっきり視覚化されている。
d0194774_1217411.png

図6 ビースウォーム(bee swarm; 蜂の群れ)とボックスプロットを重ね書きした例


④ 母集団(Population)から抽出されたサンプル(sample)の中央値から、もとの母集団の中央値を推定するには、中央値の95%信頼区間(confidence interval; CI)を示す。

図7の(a)は母集団の分布を表すグラフである。これは、平均μ=0(濃い点線)、標準偏差σ1(薄い点線)の歪んだ正規分布(skewed normal distribution)であり、非対称で偏った形の分布であるため、中央値(m=-0.19、縦の実線)とIQR(灰色部分)を示すのがよい。この母集団から20個のサンプルを抽出して(b)のボックスプロットを作成した

n=20のサンプルは図7(b)の図の一番上の○で表している。上の箱ひげ図は、中央値(m)とQ1-Q3(IQR)の間の箱、箱から1.5 x IQR以内の範囲のテューキースタイルの「ひげ」、およびそれらには含まれない外れ値(outliers)「ひげ」の外側(この図では右側)に示している。箱の幅(この図では高さ)は任意に決めてよいのだが、さらに下の箱ひげ図は箱の幅を√n(サンプルサイズの大きさを表す)に比例するようにしてある。これにより群のサンプルサイズを表すことができる。さらに、中央値の95%信頼区間をV字型の切れ目(ノッチ、notch)長さ(一番下の点線の長さ)で表している。(中央値の95%信頼区間はm±1.58xIQR√nで求められる)。
d0194774_12152930.jpg

図7 (a)母集団(population)の分布と、(b) そこから抽出したn=20のサンプルをボックスプロットで表現したグラフ。
(b)では中央値の95%信頼区間(サンプルの中央値から95%の確率で推定される母集団の中央値の範囲)を箱の切れ目(ノッチ:点線の長さ)で表している。

⑤ 箱ひげ図のノッチがオーバーラップしないことの意味:
一般的に2群の比較で、中央値の95%信頼区間(ノッチの長さ)がオーバーラップしないとき、2群の中央値は95%の確率で差がある(p<0.05)と判断できる(ただし、オーバーラップするから、といって有意差が「ない」とは言えないが)。
d0194774_1214129.png

図8 通常のテューキースタイルの箱ひげ図(上)に、中央値の95%信頼区間をノッチで示したもの。なお、中央にある十字は平均値(中央値とは少しずれているのに注意)、グレーの縦の長方形は平均値の83%信頼区間を示しているが、ここでは特に触れない。

サンプルサイズが少ないと、ノッチは箱より大きい間隔となることがある(図9)。
d0194774_12132551.jpg
図9 サンプルサイズ(n)が小さいとノッチが箱より大きくなる。、箱ひげ図ではあまりに小さいサンプルサイズ(n<5)は避けるべき。


ボックスプロット作成のためのオープンソースアプリケーション
今まで述べたような箱ひげ図の境界は、正確には、用いる統計ソフトウエアによって異なってしまう。これは、(1)四分位値を計算する統一され方法がない(単純平均か線形補間に基づく)、(2)Rなどいくつかのアプリケーションでは箱の境界を四分位の変わりに下側および上側ヒンジ(中央値以下/以上のデータの中央値)を用いており、これは四分位による境界とは微妙に異なることがある、などの理由による。

箱の幅、ヒゲの位置、ノッチの大きさや外れ値の表示などを一定にし、もっと多くボックスプロットが用いられることが望ましい。従来、ボックスプロットが多く用いられてこなかった理由の一つに便利なソフトウェアツールがなかったためという原因がある。近年有用なオープンソースアプリケーションとしてBoxPlotRが用いられるようになっている。

BoxPlotRはRおよびRパッケージであるShiny、beanplot、vioplot、beeswarm、RColorBrewer(Rの色彩指定)で書かれている。詳しくは、http://boxplot.tyerslab.com/を参照。

[PR]
by md345797 | 2014-02-23 12:23 | その他

CRISPR/Cas9による遺伝子修飾を1細胞期胚に用いて作製した遺伝子改変サル

Generation of Gene-Modified Cynomolgus Monkey via Cas9/RNA-Mediated Gene Targeting in One-Cell Embryos.

Niu Y, Shen B, Cui Y, Chen Y, Wang J, Wang L, Kang Y, Zhao X, Si W, Li W, Xiang AP, Zhou J, Guo X, Bi Y, Si C, Hu B, Dong G, Wang H, Zhou Z, Li T, Tan T, Pu X, Wang F, Ji S, Zhou Q, Huang X, Ji W, Sha J.

Cell. 156, 836-843, 13 February 2014.

【まとめ】
サルはヒトの疾患とその治療法の研究するために非常に重要なモデルであるが、目的の遺伝子を修飾することが困難であり、遺伝子改変サルを用いた検討は進んでいない。本研究では、CRISPR/Cas9システムをサルゲノムに応用し、サルの遺伝子編集を行った。カニクイザルの1細胞期胚にCas9 mRNAとsingle guide RNAs (SgRNAs)を同時に注入したところ、正確な遺伝子ターゲティングを行うことができた。この方法で、2つの標的遺伝子(ここではPpar-γRag1)をワンステップで同時に欠損させることが可能であった。これらの動物で、オフターゲット効果(標的部位以外で遺伝子に変異を起こしてしまうこと)は認められなかった。以上より、1細胞期胚にCas9 mRNAとsgRNAを同時注入する方法は、遺伝子改変カニクイザルを作製するための効率のよい安定した方法であることが示された。

【論文内容】
サルはヒトの疾患モデルとして非常に重要であるため、サルの遺伝子改変技術が求められていた。しかし、今までの遺伝子改変サルはレトロウイルスまたはレンチウイルスを用いて作製されており、正確な遺伝子ターゲティングが困難であった。最近開発されたCRISPR/Cas9システムは簡便で高度に特異的に、効率よく複数の遺伝子のゲノム編集ができる優れた方法である。現在までに、哺乳類の細胞およびマウス、ラットを含むさまざまな動物個体のゲノムターゲティングが行われてきたが、霊長類にCRISPR/Cas9が応用できるかは不明であった。このグループは、Cas9 mRNAとsingle guide RNAsを胚の1細胞の段階に同時に注入してマウスおよびラットで効率よい遺伝子ターゲティングを成功させており、今回それをサル胚の1細胞段階に応用することにより、複数遺伝子のターゲティングを試みた。

サルの細胞株においてCAS9/RNAは効率よく遺伝子欠損を起こす
本研究ではカニクイザル(cynomolgus monkey, Macaca fascicularis)モデルで、3つの遺伝子(Nr0b1、Ppar-γ、Rag1)の遺伝子ターゲティングを試みた。まず、Nr0b1の117 bpから2つのsgRNAを、Ppar-γの49 bpから2つのsgRNAを、Rag1から1つのsgRNAを作製した。これらをCOS-7細胞(アフリカミドリザル腎由来細胞株)に同時感染させた。感染72時間後の細胞からゲノムDNAを単離して、部位特異的遺伝子改変を標的遺伝子近傍の部位のPCR増幅とT7EN1切断アッセイ(T7EN1 cleavage assay)を行って、sgRNAsの効率を検討した。Cas9/RNA導入によって標的遺伝子周囲の切断とその後の挿入欠失(indels)によってさまざまなサイズの変異が起きたが、その効率は、Nr0b1-sgRNA1で22.2%、Nr0b1-sgRNA2で22.2%、Ppar-γ-sgRNA1で10%、Ppar-γ-sgRNA2で23.8%、Rag1-sgRNA1で23.8%と高効率であった。sgRNAとCas9を用いることにより、サルゲノムの効率のよい遺伝子ターゲティングができることが示された。

T7EN1 cleavage assay: 抽出したゲノムDNAから、sgRNAの標的部位の断片をPCRで増幅し、T7EN1 (T7 endonuclease I; 完全にマッチしていない、ミスマッチDNAを認識して切断するDNAエンドヌクレアーゼ)で切断する。これをアガロースゲル電気泳動によって検出し、変異導入を確認する。

Cas9/RNAによってサル胚に効率よく遺伝子ターゲティングを起こすことができる
次に、Cas9 mRNA(20 ng/μl)との上記の5種類のsgRNAsの等量混合物(25 ng/μl)を、カニクイザルの1細胞段階の受精卵22個にマイクロインジェクションした。それらのうち15個が桑実胚または胚盤胞期まで正常に発生した。これらでゲノムの部位特異的に遺伝子改変が起きたかを、PCR増幅およびT7EN1切断アッセイを用いて検討した。その結果、sgRNAの機能によって変異導入効率が異なっていた。サル胚の遺伝子ターゲティングのサイズは-30から+6 bpであり、Nr0b1で4/15、Ppar-γで9/15、Rag1で9/15の効率で起きていた。さらに、6/15の胚でPpar-γRag1の、2/15の胚でNr0b1Rag1の両方で同時に変異が起きていた。このように、サル胚においても、CRISPR/Cas9システムは効率よく機能することが示された。

Cas9/RNAはサルにおいてワンステップで複数の遺伝子の変異を起こすことができる
以上のようにサルの細胞株と胚での遺伝子ターゲティングが成功したので、次に遺伝子改変サルの作製を試みた。198のM II期卵母細胞に細胞質精子注入を行って受精させ、Cas9とsgRNA混合物を上記同様注入した。186個の注入した接合体のうち83個を29の代理母のメスに移植した。レシピエントの母親のうち10匹が妊娠し、1匹は流産した。妊娠継続を継続したメスのうち、3匹は双子、3匹が三つ子、残り4匹は単一妊娠だった。現在のところ、双子のメスが正常妊娠期間で帝王切開にて正常に出生している(この双子をファウンダ―サルAとBと呼ぶことにする)。(なお、他の代理メス8匹はまだ妊娠期間中である。)

ファウンダーである2匹の乳児サルの臍帯からゲノムDNAを採取し、Cas9/RNAによるゲノム修飾のスクリーニングを行った。まず、乳児BにおいてRag1標的領域のPCR増幅で小分子サイズのバンドが見られ、ゲノム修飾が起きていることが示唆された。次に、PCR産物でT7EN1切断アッセイを行ったところ、どちらの乳児のRag1およびPpar-γの2番目のsgRNA標的部位においても切断産物が見られ、複数のゲノム修飾が起きていることが示された。PCR産物のシークエンスにより、異なる種類の挿入欠失(Ppar-γに1か所、Rag1に4か所)が認められ、さらに複数のゲノム修飾の存在が確認された。なお、前述の胚での実験で変異効率が低かったNr0b1には切断が認められていなかった。
d0194774_6315871.jpg

写真:CRISPR/Cas9システムにより複数の遺伝子改変(Ppar-γRag1)を受けた双子のカニクイザル(ファウンダ―AとBと名付けられている。生後14日目。)

パンチした耳の組織と胎盤からのゲノムDNAを用いた解析によると、両方のサルのRag1Ppar-γ遺伝子に同じPCRバンドと切断バンドが認められ、ゲノム修飾が起きていることが分かった。CRISPR/Cas9により、遺伝子ターゲティングが行われ、サル胚の全ゲノムに修飾が起きることが確認された。ファウンダ―サルBの耳パンチからはwild-type Rag1シークエンスは見られず、ゲノム修飾は(生殖細胞系を含む)さまざまな組織全体に効率よく起きていると考えられた。

さらに、親サルの目印となる(tagging) SNPsによって、対立遺伝子のターゲティング効率を検討した。親の耳組織のゲノムDNAからRag1標的部位を含む3.8 kb断片をPCRで増幅しシークエンスし、親由来のtagging 4SNPsの2つの異なる組み合わせをRag1-sgRNA標的部位の下流に検出した。親と双子のtagging SNPの組み合わせをTAクローニングとシークエンスによりさらに決定した。その結果、2つのtagging SNAの組み合わせは、メンデルの法則に従って分離していた。ファウンダ―Bの耳の高い標的効率を示すRag1-sgRNA標的部位をさらにシークエンスした。その結果、tagging SNPsによって同定された両方の対立遺伝子ともに標的の修飾を受けており、両親のサルから受け継いだ両方の対立遺伝子がCas/RNAによるターゲティングによって修飾されうることが明らかになった。

なお、2匹のファウンダ―サルの異なる組織でPpar-γの1塩基挿入による単一遺伝子型(genotype)が認められた。この1塩基挿入が本当の変異ではなくSNPである可能性を除外するために、親と代理母の標的部位を増幅してT7EN1切断アッセイ後シークエンスを行った。その結果、同じ1塩基の存在は除外され、この挿入は実際にCRISPR/Cas9によるPpar-γ遺伝子の修飾であることが確認された。以上より、サルゲノムの1細胞胚へのマイクロインジェクションによってCas9/RNAによる部位特異的なゲノム修飾が可能であることが示された。

モザイシズム
培養胚とファウンダ―サルの両方のシークエンスデータが複数の遺伝子型を示したことは重要である。これは、CRISRP/Cas9による切断がサルの胚発生の異なる段階で複数回起き、他の種で見られてきたような修飾のモザイシズム(一つの個体で遺伝子修飾が細胞間で異なること)を起こすことを示唆している。
現在、ファウンダー乳児は施設で飼育され正常に育っている。ファウンダ―乳児の組織採取が限られていることから、ゲノム修飾と形質のより完全な解明は行えていない。ファウンダ―サルが生体に成長するまで、また他のファウンダ―が生まれてサンプルが多く得られるまでそれらの検討は待つ必要があるだろう。

オフターゲット解析
CRISPR/Cas9システムの重要な懸念はオフターゲット効果(標的部位以外で遺伝子に変異を起こしてしまうこと)である。マウスでは、遺伝するオフターゲットの変異が見られることがあり、これらの遺伝子改変サルでもそれが見られないか、84か所の予想されるオフターゲットサイト(OTS)について検討した。これらは、Nr0b1のsite1対する9か所、site 2に対する20か所、Ppar-γのsite 1に対する14か所、site 2に対する20か所、Rag1に対する21か所である。臍帯からのゲノムDNAを用いてこれらの部位のオフターゲット効果を調べた。これらのオフターゲット予測部位の周囲の断片をPCRで増幅してT7EN1切断アッセイを行った。17のPCR産物から切断バンドが得られ、TA シークエンスによって配列を調べたが、すべての切断はSNPかリピート配列によるものであり、オフターゲットによる変異によるものは認められなかった。すなわち、本研究ではCas9/RNAによるオフターゲット変異は認められなかった。今までに変異Cas9を用いてオフターゲット変異を最小限に減らす試みも報告されており、今後さらに、サルの遺伝子改変方法としてのCRISPR/Cas9は信頼性が高いものになるだろう。
d0194774_6321796.jpg

【結論】
カニクイザルの1細胞期の受精卵にCas9 mRNAとsgRNAsを同時注入することによって、効率よく部位特異的な遺伝子修飾ができた。本研究では、複数の遺伝的変異を一度に導入でき、しかもオフターゲット効果は認められなかった。このようにCRISPR/Cas9システムを用いてサルの遺伝子ターゲットが行うことができるようになったため、将来的には遺伝子改変霊長類を作製することが可能となるだろう。
[PR]
by md345797 | 2014-02-12 06:38 | その他

がんの抗体療法

Antibody therapy of cancer.

Scott AM, Wolchok JD, Old LJ.

Nat Rev Cancer. 2012 Mar 22;12(4):278-87.

【総説内容】
がんの抗体療法は15年以上も前に研究が始まり、今や血液悪性疾患と固形腫瘍の治療のための最も重要な治療法の一つになっている。腫瘍細胞では、細胞表面抗原の過剰発現や変異が見られたり、正常組織にはない特異的抗原が出現したりしている。そこで、1960年代にはすでに血清学的手法を用いて、それらの腫瘍細胞の表面抗原を標的とした抗体療法が試みられていた。これらは、抗体を用いた表面抗原や受容体機能、免疫系の変化を惹起したり、特異的薬剤を抗体に結合させて特異的抗原を発現する組織を標的としたりするなどといったさまざまな方法であった。このような治療においては、標的となる抗原の選択、抗体の抗原とのアフィニティ、何を標的とするか(腫瘍細胞の抗原、細胞内シグナル伝達、T細胞活性化などの免疫機能など)、抗体の薬物動態特性はどうか、などさまざまな重要な要因があり、それらを改善しつつ多くの臨床試験が行われてきた。

1. がんに対する血清学的治療の歴史
19世紀末に抗体が発見されると、すぐに抗体をがんの診断や治療の「魔法の弾丸」として用いることができるのではないかというアイデアが生まれた。そして、ヒトのがん細胞を用いて動物を免疫し、がん特異的な抗血清を作製する試みが行われた。このような試みはほとんどがうまくいかなかったが、CEAが大腸がんの、α-フェトプロテインが肝細胞がんのマーカー抗原として有用であるという発見がなされた。さらに近交系マウスの発達によって、同種抗体の反応性解析の強力な手段としての細胞毒性試験など、がんの血清学的治療の重要な方法が発達した。また、細胞表面は高度に分化した構造によって認識可能であることが分かってきた。当初、リンパ球サブセットの区別に用いられていた細胞表面分化抗原が同定された。さらに、ハイブリドーマ技術とセルソーター(FACS)を用いた解析技術の発達がそれに拍車をかけた。これらの進歩によって、ヒトがん特異的抗原の検索と、モノクローナル抗体を用いた細胞表面構造の解析が進展した。最近は、がん細胞の間質や血管細胞が発現する新たな抗原によって、がんと正常組織が区別できることも分かってきた。将来的にはバイオインフォ―マティクスの手法を用いて、がん細胞表面抗原の全体、すなわち「surface-ome」の構築が行わると考えられている。

2. 腫瘍細胞を死滅させるためのさまざまな戦略
腫瘍細胞を死滅させる攻撃(tumor cell killing)にはさまざまな方法がある(図1)。①抗体の直接作用を利用するもの。腫瘍細胞表面の受容体の阻害または活性化、アポトーシスの誘導、細胞傷害性薬剤の導入。②免疫系を介した腫瘍細胞攻撃。補体依存性の細胞毒性(complement-dependent cytotoxicity; CDC)、抗体依存性の細胞毒性(antibody-dependent cellular cytotoxicity; ADCC)、T細胞機能の修飾など。③細胞の血管構造や間質に対する抗体の特異的効果を利用したもの。これらはいずれも臨床応用され、それらの中でも、腫瘍細胞のシグナル伝達を障害するもの(cetuximab、trastuzumab)、ADCCを介するもの(rituximab)、T細胞機能を調節するもの(ipilimumab)は最も成功したものである。
d0194774_22125245.jpg

抗体を用いた腫瘍細胞死滅のための戦略
a(左上): 本文①の抗体による細胞表面受容体の直接刺激により、受容体の二量体化、受容体キナーゼ、下流のシグナル伝達などを阻害するものである。また、抗体に結合させた酵素や細胞傷害性薬剤、 siRNA 、アイソトープを用いた腫瘍細胞攻撃などがある。
b(右):免疫系を介して腫瘍細胞を攻撃する方法で、細胞貪食(phagocytosis)の誘導、補体(complement)活性化、抗体依存性の細胞毒性(ADCC)、単鎖抗体(single-chain variable fragment;scFv)によるT細胞機能の調節、抗体による樹状細胞への抗原提示、T細胞阻害受容体の(重要分子としてcytotoxic T lymphocyte-associated antigen 4; CTLA4)の阻害などである。
c(左下):抗体を血管構造の受容体に対するアンタゴニストや間質細胞の阻害として利用、抗体に血管を傷害する薬剤を結合させるなどして、血管や間質細胞を傷害する。

3. 抗体療法の標的となる腫瘍抗原
がんの抗体療法の効率と安全性は、標的となる抗原の性質にかかっている。理想的には、標的となる抗原は腫瘍細胞の表面に一様に発現し、豊富で到達しやすいなどの特徴が必要である。また、ADCCやCDCを利用するなら抗原抗体複合体は急速に細胞内に移行しない方がよいし、細胞傷害性薬剤を結合させた抗体を用いた治療の場合は逆に効率よく細胞内に移行するのが望ましい。モノクローナル抗体治療に利用される腫瘍関連抗原は、表1のようにさまざまなものがある。造血分化抗原はcluster of differentiation (CD)で表される糖蛋白で、これらに対する抗体が血液悪性疾患の治療に用いられる。また、成長因子や成長因子受容体が抗原になることもあり、EGFR(ERBB1)、ERBB2(HER2)、ERBB3、MET(HGFR)、IGF1R、ephrin receptor A3(EPHA3)、TNF-related apoptosis-inducing ligand receptor 1 (TRAILR1、TNFRSF10A), TRAILR2 (TNFRSF10B)、receptor activator of nuclear factor-κB ligand (RANKL、TNFSF11)などに対する抗体が作製されている。血管新生に関する蛋白で抗原となるものはvascular endothelial growth factor (VEGF)、VEGF receptor (VEGFR)、integrin αVβ3、integrin α5β1などである。がんの間質や細胞外マトリックスの抗原(fibroblast activation protein; FAP、tenascin)なども抗体の標的となる。
d0194774_22272462.jpg


4. 臨床で用いられる抗体の開発

これらを抗体療法として臨床で用いる場合には、抗体が腫瘍組織だけでなく正常組織に到達するか、すなわち毒性の問題が重要になる。本グループ(Ludwig Institute for Cancer Research)は、抗体の生体分布や薬物動態から毒性を解析する臨床試験のモデルを作成した(Scott AM, 2007)。この試験デザインは他の15以上のがんの抗体療法の臨床試験に応用されている。例として、cetuximabの開発につながったマウスEGFR特異モノクローナル抗体や、ERBB2を標的としたtrastuzumabの試験がある。非ホジキンリンパ腫に対するCD20を標的とした抗体にアイソトープを結合させた、tositumomabおよびibritumomab tiuxetanもその重要な例である。

5. 認可されたがん抗体療法
1997年以来、固形がんおよび血液悪性疾患に対する12の抗体療法がFDAに認可され (表2)、現在も多数の臨床試験が進行中である。
d0194774_22103227.jpg

また、複数のモノクローナル抗体すなわち異なる受容体に対する2種類の抗体や一つの受容体の異なるエピトープに対する2種類の抗体(trastuzumabとpertuzumabなど)を用いた組み合わせ治療(combination therapy)の臨床試験も進んでいる。血液悪性疾患に対するrituximabはCD 20陽性非ホジキンリンパ腫に対する治療として成功を収めているが、アイソトープ(131Iおよび90Y)でラベルしたCD20抗体が非ホジキンリンパ腫患者の生存率を改善することが示されている。抗体に治療薬および細胞毒性をもつ薬剤を結合させた抗体複合体(antibody conjugates)による治療も行われており、CD33陽性AMLに対するgemtuzumab ozogamicinやCD30陽性ホジキンリンパ腫に対するbrentuximab vedotinの臨床試験が行われた(ただし前者は化学療法と比較して効果不十分のため試験中止)。このような方法は固形がんに対しても行われ、ERBB2陽性乳がんに対するtrastuzumab emtansine (T-DM1)として現在第Ⅲ相臨床試験中である。抗体療法は米国にとどまらず、例えばCD3とEPCAMに対する二重の特異性を持つマウスモノクローナル抗体であるcatumaxomabはEUで認可され、EPCAM陽性腫瘍に伴う癌性腹水の患者に用いられるようになった。EGFRに対するヒト化IgG抗体であるnimotuzumabは頚部癌、グリオーマ、耳鼻科腫瘍に対してアジア、南アメリカ、アフリカの諸国で承認された。細胞内DNA関連抗原を標的とした、肺がんに対する131I-ラベルIgG1κキメラモノクローナル抗体Vivatuxinは中国で承認を受けている。

6. 抗体を用いた免疫調節療法
抗体は、上記以外にも、がんの監視に重要な免疫機能を活性化または阻害するという重要な働きがある。抗原特異的な免疫反応は、抗原提示細胞、T細胞、標的細胞間のダイナミックな相互作用の結果である。T細胞活性化のためには、主要組織適合遺伝子複合体(major histocompatibility complex, MHC)に結合した抗原ペプチドをT細胞受容体が認識するだけでは不十分で、T細胞活性化因子であるCD28が共刺激分子(CD80またはCD86)のB7ファミリーと結合することが必要である。これにより一連のシグナル伝達系が活性化され、最終的にIL-2のオートクリン産生とT細胞活性化が起きる。CTLA4は、細胞内から免疫シナプス(免疫細胞どうしが結合して情報伝達をしている部位)に移行し、B7分子に強力に結合してCD28によるT細胞活性化シグナルを止め、T細胞活性化を阻害する分子である。抗体を用いてCTLA4を阻害することにより、T細胞活性化が増強され、これを腫瘍細胞攻撃に応用することができることが明らかになっている(Leach DR, 1996)。これを利用して現在2種類のCTLA4阻害ヒトモノクローナル抗体(ipilimumabとtremelimumab)が開発され、ipilimumabは切除不能の転移性悪性黒色種(metastatic melanoma)患者の全生存を延長し(Hodi F, 2010)、これによりFDAやEMA(欧州医薬品庁)など多くの国で承認を受けた。T細胞活性化阻害分子であるCTLA4を阻害することによって、「T細胞活性化阻害」の抑制(dis-inhibition)が非特異的に起きるため、組織特異的な炎症反応すなわち「免疫関連有害事象(immune-related adverse events, irAEs)」が生じうる。これらが起きるのは主に皮膚と消化管で、そのほかには肝と内分泌腺にも起こるが、一般的にはコルチコステロイド投与でipilimumabの抗腫瘍効果を減弱させることなく管理できる。

CTLA4のような免疫チェックポイントを阻害する(抗体が直接腫瘍細胞を刺激するのではなく、T細胞機能を増強する)という方法の成功は、他の免疫調節抗体を用いた治療の扉を開くことになった。次に現れたのはprogrammed cell death protein 1 (PD1)を阻害する抗PD-1ヒトモノクローナル抗体である。PD1は、活性化または疲弊した(exhausted) T細胞のマーカーであり、そのリガンドであるPD1 ligand (PD-L1, B7H5)が結合すると、T細胞のアポトーシスが起きる。そして、このリガンドは抗原提示細胞表面だけではなく、多くの腫瘍細胞上にも認められる。PD1を阻害する治療法は、悪性黒色腫、腎細胞がん、非小細胞肺がん、直腸がんの早期臨床試験において、有効で副作用の少ない治療であることが示されている。

免疫調節療法としては、阻害抗体だけでなく活性化抗体(agonistic antibody)の利用も行われている。CD137(T細胞活性に働くTNF受容体スーパーファミリーの一つ、別名4-1BB)を活性化する2種類のヒトモノクローナル抗体がPfizerとBristol-Myers Squibbで作製されている。また、CD40活性化抗体は膵がんに対する効果が認められている(Beatty GL, 2011)。

7. 抗体療法の治療抵抗性発症のメカニズム
がんの抗体療法で期待した治療効果が得られない場合は、表3のようないくつかの理由が考えられる。
d0194774_228662.jpg



標的となる抗原や受容体の発現の変化(治療によって発現が変わってしまうこともある)、抗体の物理的特性や薬物動態の変化(腫瘍への到達度が変わってしまう)、腫瘍内の微小環境の変化により腫瘍内の抗体の濃度や受容体飽和度が変化し、シグナル伝達が変わったり免疫エスケープが起きたりすることもある。原発巣と転移巣の間で、または転移巣の間で抗原の発現が不均一なために、抗体の効率が変化することもある。さらに、trastuzumab反応性は受容体発現の量に関連しているが、かといって受容体の発現量で反応性が予測できるわけでもない。また、直腸がんはEGFR発現量ではcetuximabやpanitumumabの反応性が予測できない。すなわち腫瘍における標的受容体の発現量は、抗体治療の効率は部分的にしか予測できない。抗体と腫瘍の結合には複雑な相互作用が影響しているのだろう。

ADCCは抗体の治療効率に重要な役割を果たす。Fcγ受容体(FcγR)は、免疫細胞の表面に発現しており、抗体のFc部分に結合してこれらの細胞の細胞毒性や貪食能を活性化する作用を有している。FcγRIIa-131H遺伝子多型があると直腸がんに対するcetuximab、乳がんに対するtrastuzumab、濾胞性リンパ腫に対するrituximabの反応性が高くなることが分かっている。そのため、ADCC活性を高めるための方法として、抗体をフコシル化修飾するなどの方法が臨床的にも用いられるようになってきた。しかし、FcγR遺伝子型によって抗体の反応性を完全に予測できるわけでなく、抗体の腫瘍への反応には他の重要な因子がまだあるのだろう。さらに、腫瘍細胞におけるナチュラルキラー細胞阻害蛋白の発現(human leukocyte antigen E ;HLA-EやHLA-G)が抗体のADCC機能に影響しているかもしれない。また、抗体がT細胞の腫瘍抗原に対する反応を惹起する能力は、例えば樹状細胞による抗原のクロスプレゼンテーションや、抗原プロセッシングや、制御T細胞による免疫エスケープなどさまざまな要因が影響していると考えられている。

シグナル伝達経路の阻害は、抗体による腫瘍細胞攻撃の重要な戦略である。そのため、先天的・後天的なシグナル伝達の変化は抗体治療への抵抗性を起こす原因となる。先天的なシグナル伝達の変化とは、遺伝子変異(直腸がんにおけるKRAS変異など)や細胞表面受容体の相互作用(例えばEGFRとMETの間に見られるような)などによるものによる。後天的なシグナル伝達の変化(治療後の変化)には、受容体の内在化や分解の変化によるシグナル伝達の減弱がある。また、あるシグナル伝達経路を阻害しても、別の経路が過剰に活性化させることになっては抗体療法抵抗性が増強されてしまうこともある。しかし、腫瘍細胞ごとのシグナル伝達系の特徴が解明されれば、どのような患者にはどの抗体療法が適しているか、またどの抗体療法を組み合わせればよいかなどの選択に役立つだろう。

この10年間の医科学におけるもっとも大きな成功の一つが、癌の抗体療法である。この成功は、抗原抗体反応の解明、抗原の選択方法の進歩、抗体受容体機能、がんに対する免疫系の理解など多くの分野における長年の検討による。現在、認可された抗体療法のほか、いくつかの臨床試験が進められており、がん治療確立のための適切な戦略が打ち立てられつつある。

【参考1】WHOの国際一般名International nonproprietary names (INN)によるモノクローナル抗体製剤の命名法:

① 接頭語:自由に決めてよい。ただし他と区別できるように。

② 標的臓器、癌のある臓器
標的臓器:bacterial =ba(c)、bone=os-(presubstem)、cardiovascular=ci(r)、inflammatory lesion=le(s)、immunomodulator=li(m)、viral=vi(r)

腫瘍:colon=co(l)、testis=go(t)、ovary=go(v)、mammary=ma(r)、melanoma=me(l)、prostate=pr(o)、その他いろいろの癌(tumor)=tu(m)

③ 抗体の動物種
Human=u、hamster=e、mouse=o、primate=i、rat=a、chimeric=xi、humanized=zu、rat-murine hybrid=axo-(presubstem)

④ モノクローナル抗体を表す接尾語 monoclonal antibody=mab

例:
Trastuzumab(ハーセプチン® 、トラス-ツ-ズ-マブ)=①tras(接頭語)-②tu(いろいろな癌種)-③zu(ヒト化抗体)-④mab(モノクローナル抗体)
Rituximab(リツキサン®、リ-ツ-キシ-マブ)=①Ri(接頭語)-②tu(いろいろの癌種)-③xi(キメラ抗体)-④mab(モノクローナル抗体)
Bevacizumab(アバスチン®、ベバ-シ-ズ-マブ)=①Beva(接頭語)-②ci(血管)-③zu(ヒト化抗体) -④mab(モノクローナル抗体)
Ipilimumab(Yervoy® イピ-リム-マブ)=①Ipi(接頭語)-②lim(免疫系調節)-③u(ヒト抗体)-④mab(モノクローナル抗体)


【参考2】
2013年には、進行性の黒色腫(advanced melanoma)に対する抗PD-1抗体であるlambrolizumab (MK-3475) の有効性(Hamid O, NEJM 2013)、抗CTLA4抗体(ipilimumab)と抗PD-1抗体(Nivolumab)の併用療法の有効性(Walchok LD, NEJM 2013)が示された。これらの免疫チェックポイント阻害モノクローナル抗体ががん治療の画期的新薬として報告された2013年末には、NatureScienceの「2013年のブレイクスルー」としてcancer immunotherapyが挙げられている。


[PR]
by md345797 | 2014-01-14 22:15 | その他

代謝閉包(Metabolic closure)とは何か: 生命の理解のためのさまざまな理論(1)

From L'Homme Machine to metabolic closure: steps towards understanding life.

Letelier JC, Cárdenas ML, Cornish-Bowden A.

J Theor Biol. 2011 Oct 7;286(1):100-13.

【まとめ】
生命の本質を理解したい、と人間が思い始めたのはいつからだろうか?人間が生命を機械論的な用語で語るようになったのは、18世紀のラ・メトリ『人間機械論』(L'Homme Machine)からであった。1950年代から始まった分子生物学は、生命の細部のメカニズム解明に大きく貢献した。しかし、これによって他の研究者の研究内容がお互いにほとんど理解できないくらい、専門の細分化が進んでしまったとも言える。その間にも、生命の本質についてさまざまな取り組みがなされ、多くの理論が作られてきた。これらは、(M,R)システム、オートポイエーシス、ケモトン、ハイパーサイクル、シムビオーシス、自己触媒集合、Sysers、RAFセットなどである。これらの理論は全く同じ内容ではないが、そこには重要な共通概念が存在している。それは、「生体を維持する代謝に必要なすべての酵素は、生体そのものによって生産されなければならない」というような概念である。この概念は、システムが「閉じている」という意味でclosure (閉包)と呼ばれている(注1)。この代謝における閉包(metabolic closure)は生命の重要なモデルと思われるが、その概念をすべて含むような理想的な生命論はいまだ存在していない。

(注1) ここでは「closure」の訳語として、集合が閉じているというような意味を援用して、数学の位相空間論などで用いられている「閉包」を当てた。哲学の一分野である「心の哲学」で「causal closure of physics」が「物理的領域の因果的閉包性」、後述のオートポイエーシス用語で「operational closure」が「操作的閉包性」と訳されている例がある。なお、closureの他の訳語としては「閉域」「閉鎖」などが使われている。

【総説内容】
1. 「生命の理解」のための小史
(1) ラ・メトリの『人間機械論』

フランスの医師ジュリアン・オフレ・ド・ラ・メトリ(Julien Offray de La Mettrie)の著作『人間機械論』(L'Homme Machine, 1748)は、生命をからくり時計(clock automata)の比喩で説明した機械的、無機的生命論であった。当時の宗教では、生命の根底に何らかの霊的な存在があると考える生気論(vitalism)が一般的であったため、ラ・メトリの著作は大きな論争を巻き起こした。1760年代のハイテクノロジーであったギアやシャフトをモデルにしている、この『人間機械論』は、現代人から見ると大雑把なものに感じられるかもしれない。しかし、ラ・メトリの説には実は現代に通じる先見性があった。というのは、この機械論は後でも述べるように、「生命は、それを中心でコントロールする存在を想定することなく、局所で働く連動した要素によって全体の振る舞いが決まるシステムである」という考え方であり、これこそが、その後の分子や化学に基づく生命の理解と共通する重要な概念になっているからである。

(2) 酵素触媒の化学反応としての生命
1900年までに、生体は、熱力学に依存した酵素触媒の化学反応ネットワークである代謝(metabolism)に基づいて明快に説明できると考えられるようになった。そのため、生命は、医師ステファヌ・ルデュック(Leduc, 1912)によって浸透圧成長(珪酸ナトリウムの溶液に硫酸銅や硫酸鉄などを入れるとちょうど庭の木のような形に結晶を形成する反応。Chemical gardenとも呼ばれた)という無機的な反応に譬えられた。ここからルデュックは構成的生物学(synthetic biology)という用語を導入したが、これは生きていることのダイナミクスの理解よりも生体の形態形成に焦点を置いたものであった。
d0194774_5112118.gif

(3) ラシェフスキーと関係生物学
ウクライナ生まれの医師ニコラス・ラシェフスキー(Rashevsky)は、シカゴ大学に移って関係生物学(relational biology)の基礎を作った人物である。彼のグループの膨大な仕事のほとんどは現在残っていない。彼の計算による詳細なモデル化は実験的事実と合わず、例えば彼による「神経のインパルスの伝播」(1931)は、のちに膨大な実験に裏打ちされたシンプルな「神経軸索モデル」(Hodgikin and Hucley, 1952)によって完全に置き換えられている。しかし、ラシェフスキーは1954年になって、生物学的システムの原則について最初に報告し、計測に基づくのでははく、関係に基づく関係生物学的アプローチを確立した。すなわち、生体システムの詳細に重点を置いた半定量的なアプローチではなく、生体システムの組織化(organization)に目を向けた新しいアプローチの必要性に初めて気づいたのだった。ラシェフスキーは生体を物質としてではなく、システムとしての特性の観点からその組織化を考えたのであり、この議論は現在にも通用するものである。彼の投げた最初の石は、やがて彼の弟子であったロバート・ローゼン(Robert Rosen)によって独特な進化を遂げることになる。

(4) サイバネティックスと生体の組織化
1950年代、60年代を通して、ノーバート・ウィーナー(Wiener 1948)の創始したサイバネティックスが大きな興奮を持って受け入れられた。それは、一つはイリノイ大学アーバナ・シャンペーン校におけるBiological Computing Laboratory (BCL)の設立として結実した。サイバネティックスはのちの自己組織化(self-organization)の考えにも強く影響したため、当時BCLに在籍していたマトゥラーナが創始する後述のオートポイエーシスの用語にはサイバネティックスに由来するものが多い。サイバネティックスは今では、「自分自身と相互作用し自分自身から自分自身を創生するシステムと過程(systems and processes that interact with themselves and produce themselves from themselves)」についての研究である、というスチュアート・カウフマン(アメリカの複雑系研究者)の言葉によって理解されている。

(5) 分子生物学の始まりと、自己組織化への関心の衰退
これらとは別の流れとして、遺伝性を担う化学物質としてDNAが単離され、ジェームズ・ワトソンフランシス・クリック(Watson and Crick, 1953)によって、それが二重らせん構造を持つことが明らかになると、それは分子生物学として、爆発的な生命の理解につながった。分子生物学の始まりによって、生命の機械論的な理解が大きく進み、ひいては「DNAの複製こそが生命なのではないか」とまで考える説も現れた。しかし、分子生物学者が年々増加する一方で、「生命の自己組織化は単なる機械論では説明がつかないのではないか」などということに関心を持つ研究者は少なくなっていった。そこにはそれら少数の研究者たちを、「生命が機械でないなら、それではそこに何か霊的な存在でも考えるのか?」という生気論に追いやる空気があったことも一因であろう。

また、分子生物学によって生命は強力なコンピュータに喩えられるようになった。代謝ネットワークにおいて「コード」「オン/オフスイッチ」などの言葉が使われ、遺伝子は「プログラム」を持ち「情報」を担うものであるなど、すべてもとはコンピュータ用語である。これでは、冒頭でラ・メトリが考えたシャフトが回転しレバーが運動する鋼鉄の機械が、分子生物学では複雑な蛋白や核酸の協調運動によって置き換えられているに過ぎないとも言える。しかし実はラ・メトリは、以下のように書き遺している、「人体は自らのばねを自ら巻く機械である。これが死ぬまで運動を続ける生体のイメージである」と。ここには後述する自己組織化の萌芽が見られ、これがコンピュータの比喩ですべて説明がつくと考えている分子生物学的機械論に欠如している視点とは考えられないだろうか。

(6) シュレディンガーの『生命とは何か』
理論物理学者エルヴィン・シュレディンガー(Schrödinger, 1944)は、その著書What is Life?(邦訳は『 生命とは何か-物理的にみた生細胞』岡小天、 鎮目恭夫訳)で生命の3つの原則を短く表している。(1)生体は「負のエントロピーを食べている」、(2)子孫に伝えるべき情報が書かれた、「暗号による脚本(codescript)」がある、(3)生物学は物理学に比べより一般的な法則に従い、生物には物理では不要な法則が必要なのだろうと思われる。

これらうち、一番目は現在では生体は熱力学の法則に従うということ、二番目の暗号の概念はDNAの観点から完全に解明されたことといってよいだろう。しかし、三番目の「生物学は物理学より一般的」という発想は、その後は大方無視されてきた。ダイナモ理論で知られる物理学者ウォルター・エルサッサー(1964)と前述の理論生物学者ローゼン(1991)が真剣に検討したのみであり、そのエルサッサーもオペロン説で有名なジャック・モノーの『偶然と必然』(1971)で厳しく批判されている。確かに、現在までに「物理学に不要で生物学には必要な法則」は見つかっていないが、シュレディンガーが完全に間違っていたことが証明されたわけでもない。しかも、このようなことをその時代の生物学者ではなく、当代随一の物理学者であるシュレディンガーが書き残していることは興味深い。なお、「物理以外の法則を具体的に表現することはできない」と考えている今日の数学者ミハイル・グロモフがこのシュレディンガーの可能性を引用している例もある(Gromov, 2011)。もちろん物理法則は生物にとって「必要」条件ではあるだろう。しかし、「十分」条件と言えるだろうか。そして、物理学の法則の中でさえ「統一理論」ができていない現状を考えると、「物理学に当てはまらない生物の法則などあるはずがない」と断定するのは妥当ではないとも言える。

(7) システム生物学(Systems biology)
今でこそ21世紀のヒトゲノムプロジェクトの申し子のように考えられている「システム生物学」であるが、その語源は大分古く、1968年にユーゴスラビア出身の科学者ミハイロ・メサロビッチ(Mesarović, 1968)が初めて用いたものである。そもそも、システムの概念自体が、ルードヴィッヒ・フォン・ベルタランフィが提唱した「一般システム理論」(von Bertalanffy, 1969)に基づいている。この時期は、前述のラシェフスキーやサイバネティックスと同時代であり、代謝の酵素による動力学的な解明が続いた時期でもあった。しかし、この時代の酵素の反応速度論は、生命の理解とその後の代謝閉包(次節で詳述)の理解には直接結びつかなかった。

2. 生体の基礎となる代謝閉包(metabolic closure)の諸理論
生命はその代謝をつかさどる何千もの生化学反応からなるが、その本質は「代謝をつかさどる酵素は、それ自体が代謝による産物である」ということである。このように、代謝とは「円環状(circular)」なものなのであり、ラ・メトリによれば「自らばねを巻く機械」、ローゼンによれば「因果関係が閉じている組織」なのである。

(1) 無限後退(infinite regress)と閉包(closure)
ここでまず、自己組織化するシステムにはいくつもの特定の酵素が必要であることを考えよう(注2)。それら特有の酵素が生産されるためには、それぞれに対して他の酵素が必要である。それらの酵素にも同様に他の酵素が必要である、それらの酵素にも同様に他の酵素が必要である・・・。このような同じ型の説明が無限に続くことは、無限後退と呼ばれる。この問題を回避するために、「閉包」ということを考えよう。例えば、生体においては、それぞれの酵素はすべてリボソームが合成している (もちろんリボソーム自体もリボソームが合成している)。また、酵素の分解はすべてユビキチン-プロテアソームシステムにより処理されていることが発見された(ここではプロテアソーム自体もユビキチン-プロテアソーム自体により分解される)。このように閉じたシステムの概念が閉包であり、これにより説明の無限後退は回避される。次節以降では、このような閉包の概念を歴史を追ってより詳しく見てみていこう。

(注2) 上記の記述で酵素と書いているものは、原文でcatalysts(触媒)と書かれているものもある。しかし、原文の注釈でcatalystsは代謝に必要なenzymes(酵素)であるとの記述もあり、混同を避けるためここではどちらも「酵素」とした。

(2) (M,R)システム
(M,R)システムの概念は、アメリカの理論生物学者ロバート・ローゼンによって作られた(1598年から1975年に至って提唱され、1991年に『Life Itself』にまとめられた)。この名称は、metabolism-repair systemの略であるが、ローゼンのいうrepairとは、通常用いるDNA修復のような明確な意味ではなく、ローゼン理論の本質を考えると、補充(replacement)と呼ぶべきものである。システムが成長するにつれて分解または拡散によって失われてしまう酵素を持続的に補充する能力を持つのが(M,R)システムである。これは閉包と呼ぶことができるだろう。生体はこのような動力因(efficient cause:アリストテレス形而上学における「結果を生み出す働き」、木の椅子があるとするとそれを作った家具職人)を持ち、代謝に必要な酵素はすべて代謝それ自体の産物である、とする考え方である。生体システムは外部からの酵素活性によって維持されてはいない。もちろん生体は熱力学的には開かれたシステムであり、外界との化学エネルギーの流れは存在するだろう。それはアリストテレスの言う質量因(material cause:椅子にとっては原料である木)として分けて考える。生体そのものが動力因を産生するということは、目的因(final cause:椅子にとっては座るという目的)は不要ということも意味している。下の図1は、ローゼンの(M,R)システムが、酵素による触媒作用の閉包(catalytic closure)を形成していることを示したモデルである。
d0194774_18351446.jpg

(図1) ローゼンの(M,R)システム:実線矢印は代謝産物AがBに変換される化学反応による物質の変化(アリストテレスの言う「質量因」)を表す。酵素fから出る点線矢印はそれを触媒する酵素反応(ここではCatalysisをそう呼ぶ。アリストテレスの「動力因」)である。この酵素fはBによって(生体自体の働きで)持続的に「補充」されるが(Replacement)、その補充を支える酵素Φを作り出すのも酵素fの作用である。Φの「動力因」はもともとは代謝産物Bの特性であるβであるため、このシステムは閉じており「閉包」(Closure)を形成している。これは触媒作用の閉包(catalytic closure)と呼ぶことができる。

上図は「質量因」ではなく「動力因」として閉じており(=物質の出入りという観点ではなく、因果関係という観点から閉じたシステムであり)、外部からの「動力因」はなく、全体として「目的因」もない(=外部からの因果関係の作用はなく、外部に対する目的のようなものも見られない)。なお、点線矢印の栄養素(nutrients)からAへ、Bから廃棄物(waste)へは、生体は熱力学的にはオープンなシステムであり、「質量因」としては閉じていないことを示している。

次項は(2)に続く
[PR]
by md345797 | 2014-01-04 20:38 | その他

代謝閉包(Metabolic closure)とは何か: 生命の理解のためのさまざまな理論(2)

From L'Homme Machine to metabolic closure: steps towards understanding life.

Letelier JC, Cárdenas ML, Cornish-Bowden A.

J Theor Biol. 2011 Oct 7;286(1):100-13.

(前項からの続き)

(3) オートポイエーシス(Autopoiesis)
1960年代以来今日に至るまで、脳神経システムは次のような比喩で表されるものであった。すなわち、インプットされた感覚情報を解読し、分類し、観察された対象に対して正しい運動行動を選択する情報処理機器である。このような考え方は神経科学者の間でも自然に持たれる、一般に普及した概念だろう。すべての知覚は特定のニューロンによって解読されると考えられた。アメリカの認知科学者ジェローム・レトビンは、ちょうど孫娘がおばあさんを見たときにだけ発火する「おばあさん細胞」があるかのように考えている(Lettvin, 1959)。

しかし1963年、視覚に関する神経生理学の論文を書いていたチリの神経生理学者ウンベルト・マトゥラーナ(Humbert Maturana)はこの考えに疑問を持ち、「おばあさん細胞などというものを想定したら、知覚したそのもの(表象:perceptすなわち、おばあさん自体)ではなく、その表象を知覚する細胞が必要だろう。そしてさらにそれを知覚する細胞が必要となり・・・」と組み合わせ爆発(combinatorial explosion)を起こしてしまう、したがってそのような表象主義的な(representationist)視点はおかしいと考えた。多くの人が、前項でローゼンが克服した無限後退ときわめてよく似た無限の連鎖に陥りかけていたのである。

その後、イリノイ州のBiological Computing Laboratoryへ1年間の研究休暇に赴いたマトゥラーナは、連日のシステムや人工知能についての議論の成果を報告書に(Maturana, 1970)に書いたが、その中で「脳をコンピューターとして理解しようとするのは根本的に誤っている。なぜなら、神経系は外を見ているのではなく、内を見ているからである(the nerve system does not look out but in.)」と述べている。すなわち彼は、神経系とは「外界の現実を解読する機械である」と考える代わりに、「生体が現在置かれている状況に一致した動きを作り出す特性をもったシステムである」と考える、新しい比喩を提案したことになる。言い方を変えれば、従来の「外界を知覚して解読し、解読した知覚を内部で表現する」という神経系のモデルから、新たに「常に感覚と運動が協調した特殊な状態にある」というモデルを考えた。これは、図2のように、いかなる瞬間も知覚入力のすべてが非知覚部分(運動)の内部状態を変化させ、それが再び知覚の変化を起こす、という無限ループであり、このようなある感覚-運動協調状態(state of senso-motor coordination)が次の感覚-運動状態に遷移していくだけであると考えた。
d0194774_184484.jpg

(図2) マトゥラーナによる脳神経系の考え方:彼は、従来の「現実を知覚し、解読し、分類して、表現する」という認識の概念を否定した。神経系の機能は、「『外界の現実』を解読すること」ではなく、「生体が直面している時々刻々変化する状況に一致した行動を作り出すこと」であるとした。図のように、神経系は、知覚入力が運動出力を決め、同時にそれがその逆をも引き起こすという終わりなき「感覚-運動ループ」に、常に没頭している(immersed)状態と言える。彼の神経系の認識を、術語を用いて表現すれば、「構成主義的」な理解(constructivist theory)と言えるだろう。

そして、「神経系は現実を計算するために用いられるのではない(not to compute reality)」「そこに意味は生じない」と考えた。したがって、神経生理学の目的は、「脳がどのように現実を解読しているのか」を明らかにすることではなく、「脳がどのように、生体の状況に一致した感覚-運動状態を創り出しているのか」を明らかにすることであろう。マトゥラーナはこれを「認知生物学」(biology of cognition)と呼び、その理解が生命の理解にとって本質的な問題であるとした。また、一般的に、円環型の因果関係のことをclosure(閉包)と名付け、生体理解の基本概念と考えた。これらの考えは、共同研究者であるフランシスコ・ヴァレラ(Francisco Varela)との共著『Autopoiesis and Cognition』(Maturana and Varela, 1980. 邦訳は『オートポイエーシス―生命システムとは何か』河本英夫訳, 1991)で明らかにされた。マトゥラーナのアプローチにより、無限後退の問題は解決したわけではない。しかし、もはや問題解決法としての意味をなさなくなったといってよいだろう。

さらに、彼の当初の報告の脚注には、この感覚-運動ループの考え方は、代謝ネットワーク(すべての構成要素がそれ自体の産生に関与しているシステムである)の理解にも同様に使えるのではないかと書かれている。この脚注を拡張して書いたスペイン語の小本が『De máquinas y seres vivos (機械と生体について)』(Maturana and Varela, 1973.邦訳なし)である(このタイトル名は、ラ・メトリの『人間機械論』やウィーナーの『サイバネティクス:動物と機械における制御と通信』を念頭に置いたものであろう)。ここでは、生体の中心概念であるオートポイエティックシステム(autopoietic system)の定義が述べられている。

すなわち、オートポイエティックな機械とは、「構成素(component)の産生・変換・分解といったプロセスのネットワーク」として構成(organized)されているものである。そして、ここでいう「構成素」とは、
1.自らを相互作用や変換によって創り出す「プロセス(関係)のネットワーク」を、持続的に再生し、実現しているものである。
2.また、オートポイエティックな機械は、ある空間内に具体的な一貫性を持って存在するが、それらの構成素もまたその空間の中で、ネットワークを実現するために特定の部位(topological domain)に存在する。
このように、オートポイエティックシステムによって定義される空間とは、システム自らを含み、かつ、他の空間を定義する次元を用いては表せないものである。とは言っても、われわれが具体的なオートポイエティックシステムに言及する際には、そのシステムをいったん操作することにより、その操作し具合を記述することになる。上の定義が示すように、オートポイエティックシステムは図3に示すような、包まれたシステムである。そこでは、「プロセスのネットワーク」は、さらなる「プロセスのネットワーク」を産出する構成素を産出している。

オートポイエーシスは、下の図3のように、構造的な閉包(structural closure)を形成しているという点が、触媒作用の閉包(catalytic closure)を特徴とする(M,R)システムと異なる。
d0194774_18431081.jpg

(図3)オートポイエーシスを表すモデル:AからSへの実線矢印は、代謝の化学反応を表す。点線矢印は食物取り込みなどの動きを表す。この図は『Emergence of Life- From chemical origins to synthetic biology』(Luisi, 2006、邦訳は、『創発する生命―化学的起源から構成的生物学へ』ピエル・ルイジ・ルイージ著、白川智弘・郡司ペギオ-幸夫訳)の第8章Autopoiesisに描かれた図に基づいている。(ただし、この図ではマトゥラーナのオートポイエーシスの中心概念である、「プロセスのネットワーク」という考えが明確には表現されていない。)

オートポイエーシスは発表後、大変関心をもたれるようになった。ただし、生物学者の間でではほとんど関心を持たれず、ある時は法体系が、ある時は音楽が、そしてある時は廃棄物管理がオートポイエティックだと考えられた。「生命の理解」などという問題はもはや、専門化が進んだ実験生物学者たちによって、あまりに断片化されてしまっていたのである。

(4) ケモトン(Chemoton)
「ケモトン」とは、理論生物学者ティボール・ガンティによりハンガリー語で書かれた論文を英文で出版した著書『The Principle of Life』(Gánti, 2003, 邦訳なし)で述べられた生体のモデルである。ケモトンの本質的な構造は、下の図4のようなものであり、代謝サイクルA、情報サイクルVおよび構造サイクルTから構成される。食物分子XAが変換されることにより駆動力が生じるが、それは環境から得られる。廃棄物はYとして環境に放出される。すなわちケモトンは熱力学的にはオープンなシステムである。代謝サイクルは中間産物A1と他の分子V’およびTを再生し、V’は情報サイクルに入って、T’からTを産生する分子ためのRを産生する。Tは閉じた膜という構造的な閉包(structural closure)をつくるため重合または自己会合する。
d0194774_18445878.jpg

(図4)ケモトンのモデル:すべての矢印は化学反応を表す。両方向矢印は可逆的、一方向矢印は不可逆的な反応を示す。この図は上記の『The Principle of Life』(Gánti, 2003)に基づいている。

ケモトンはその名の通りもっとも化学(chemistry)に基づいた生命の理論と言えよう。しかも、前述のシュレディンガーの「codescript」も情報サイクルVとして取り込まれている。ここで分子pVnは情報を担う多量体で、Tを産生するテンプレート(鋳型)になっている。pVn分子の長さはケモトンの種類によってさまざまで、VとZの2タイプがあり、pVnZmと表され、nやmの数は遺伝すると考えた。このサイクルは代謝のための構成要素を再生することができ、システム自身を産出できる。すなわち、因果関係が閉じている(前述の動力因として閉じている)と言える。

(5) ハイパーサイクル(Hypercycle)
イギリスの生物学者、ジョン・メイナード=スミスとエオルシュ・サトマーリは、その著書『The Major Transitions in Evolution』(Maynard Smith and Szathmáry, 1995. 邦訳『進化する階層―生命の発生から言語の誕生まで』 長野敬訳)の中で、酵素の構造を決定するには大きなゲノムが必要だが、大きなゲノムを産生し正確に複製するためには酵素が必要であるということに言及するのに、「アイゲン(Eigen)のパラドックス」という呼び名を用いている。現代の進化した生物は酵素と大きなゲノムを持っているためこの問題は回避されるが、原初生命体はおそらくもっと単純なものしかもっておらず、この問題を両方とも満たすのは不可能だっただろう。そして、原始的な生命は大きなエラーを起こしやすく、このエラー・カタストロフィによって死滅してしまうと考えられる。そこで、ドイツの生物化学者マンフレート・アイゲンと理論化学者ペーター・シュスターは、このパラドックスを回避するためハイパーサイクルという概念を提案した(Eigen and Schuster, 1977)。「2度のハイパーサイクルの現実的なモデル」というのは図5のようなものである。情報を担うRNA分子であるIiが酵素Eiの構造を決定する、Eiのそれぞれが異なる酵素を作る情報分子の複製を触媒する。詳細な確率計算を行うと、この種のシステムはエラー・カタストロフィを起こさないで生存できることが示されている。
d0194774_18455141.jpg

(図5) 2度のハイパーサイクル:システムは4つの酵素E1-E4と、情報を担う4つのRNA分子I1-I4からなる。情報分子Iiは対応する酵素Eiの構造を決定し、さらに、それらの酵素が次の情報分子Ii+1の複製を触媒する。ここには明らかな「化学反応」がなく、「代謝はない」ということに注意。

(6) 生命の始まりにおける自己触媒(Autocatalysis)
さらに、生命の始まりにはこのような自己触媒のサイクルが不可欠であることがキングによって提唱された(King GAM, 1977, 1982)。「さまざまな自己触媒サイクルの相互作用により、大きなシステムが形成される」ことは、シムビオーシス(symbiosis)と呼ばれ、生命の初期段階における進化のプロセスと考えられた(ここでのsymbiosisは、現代における異種生物間の「共生」とは全く別の意味で用いられていることに注意)。単一の自己触媒サイクルのみでは、そのサイクルの基質が突然消失してしまうような危機的状況が起こると、システムは死滅してしまうが、シムビオーシスによりそれが回避され長期の安定性を保つことができる。現代でも、分子のリサイクルによって自己触媒サイクルの安定したシムビオーシスが保たれることを正確に示した例がある(Fernando, 2005)。Kingのこの相互依存する自己触媒サイクルという考え方は、今まで述べてきた閉包の概念と同じものであろう。

(7) 自己触媒セット(Autocatalytic set)
多くの研究者が「生体システムにはどんな特性が必要になるだろう」と考えたのに対し、フリーマン・ダイソン(Dyson, 1982)とスチュアート・カウフマン(Kauffman, 1986, 1993)は「偶然集まった分子の集合から自己組織化が生まれる条件とは何か」ということを考えた。アメリカの理論生物学者・複雑系研究者であるカウフマンは、自己触媒集合(autocatalytic set)として以下のようなものを定義している。触媒作用の閉包(catalytic closure)が維持されていて、この状態のすべての構成素が他の何らかの構成素による反応の最終ステップになっている。このような状態が維持されるために、外部から取り入れる物質(food set、食物集合)の酵素反応の結果得られた化学エネルギーが必要である。この定義は図6のように表される。
d0194774_18461231.jpg

(図6)カウフマンの自己触媒集合:前駆体である丸で囲んだA、B、Cは環境から得られ、灰色の薄い文字で表示される多量体以外のすべての多量体は、集合の構成素による反応(実線矢印で表示、これは質量因にあたる)と触媒反応(点線矢印、動力因にあたる)によって作られる。触媒されない反応は灰色矢印で表されている。この図は、自己触媒集合が、分子の偶然の作用によって自発的に形成される秩序であることを意図的に強調するために、一見乱雑に書かれている。

図6で、分子ABCCは以下の反応で産生されるとする。
     ABC        AABABCB       ABCBABCC
A+B → AB; AB+C    →     ABC; ABC+C     →     ABCC

上段(斜字体のアルファベット)が酵素であり、下段のアルファベットが反応物を示す。
しかし、ABCCが産生される過程はこれだけでなく、下記の反応でも産生されうる。

      ABC      ABCC   
A+B → AB; C+C    →   CC; AB+CC → ABCC
上記の最後のステップは酵素なしで自発的に進行する反応である。このように酵素なしで進むステップがあってもよい。また、AABABCAAAABが形成される反応はない(薄い灰色で書かれている)ため、この分子はこの自己触媒集合の構成素ではない。ABCBは触媒する作用を持たないが、この集合の構成素と考える。カウフマンは、このような模式図で表されうる集合が自発的に形成されるのが生命と考えた。

(8)Sysers (Systems of self-reproduction; 自己再産生システム)
White(1980)、RatnerとShamin(1980)、Feistel(1983)によって独立に提唱された理論で、ハイパーサイクルをより現実的に突き詰めたものとなっている。ウラジミール・レチコ(Red’ko, 1986, 1990)によって図7のようなモデルが作られている。
d0194774_18505349.gif

(図7) Syserのモデル:マトリックス分子は2つの酵素(マトリックスを複製する複製酵素E1と2つの酵素の合成を行う翻訳酵素E2)の合成に必要な情報を含んでいる。この2つ(黒字部分)が最小限のsyserであり、適応syseは灰色部分の要素と過程を含んでいる。それらは、適応酵素の合成のスイッチをon/offする調節酵素E3、環境にある物質から利用可能な基質を産生する適応酵素E4である。

このようなsyserは図7に見るように、すべての要素がシステムそれ自体によって作られるため、因果関係が閉じていると言える。しかし、このシステムが成長し、自身を維持するために、さらに環境物質から利用可能な分子を産生する適応酵素E4を含む「適応syser」が想定されている。E2は2つの異なる過程を触媒する多機能蛋白(moonlighting protein)であり、これは閉包を形成するためには必要である。もしE2がマトリックスをE1に翻訳する過程のみを触媒するのであれば、E2への翻訳を触媒する他の酵素が必要ということなり、さらにそれが産生させる過程を説明しなければならなくなる。これでは、またその次の酵素を想定するという無限後退に陥ってしまう。

(9) RAFセット
カウフマンの自己触媒セットをコンピュータによって記述するための形式として、HordijkとSteel(2004)によって提唱された(Reflexive Autocatalytic systems generated by a Food setの略である)。RAFセットでは、すべての反応物はシステムが産生するか、環境から取り入れたもの(必ずしもすべてが内部のみで産生されるとはしていない)である。したがって、このシステムは因果関係で閉じてはいるものの、(M,R)システムよりは生命の定義としては弱いものである。すなわち、すべての(M,R)システムはRAFセットと言えるが、逆は言えない。RAFセットの概念をもとにして(M,R)システムを解析するための強力なアルゴリズムが作成されている。

【結論】
上記で見た閉包に関する諸理論はお互い重なるところが多いが、それらの間のコミュニケーションや相互参照と言ったものはほとんど見られない。例えば、ローゼンが提唱する触媒の閉包(catalytic closure)はマトゥラーナとヴァレラには見られないし、マトゥラーナとヴァレラが提唱する構造的な閉包(structural closure)はローゼンには見られないものである。さらには、各理論間で同じことを違う言葉で言ったり、違うことを同じ言葉で言ったりしていることがある。

上記の諸理論の生命のモデルを、表のような項目を満たしているかということをもとに比較した。項目は①熱力学的な開放系か、②酵素による触媒作用があるか、③触媒作用の閉包になっているか、④構造的な閉包になっているか、という点である。表にあるように、今までの諸理論はいくつかの項目を満たすものの、すべてを満たす「理想的」理論というものはまだ存在していない。

(表1) 生命に関する諸理論の特徴:理想的な理論にとって必要と思われる4項目を満たしているか? (①熱力学的な開放系か、②酵素による触媒作用があるか、③触媒作用の閉包になっているか、④構造的な閉包になっているか)
    理論         ①       ②       ③      ④          
(M,R) systems      Yes      Yes     Yes    No
Autopoiesis        Yes      No     No    Yes 
Chemoton         Yes         No     No   Yes
Hypercycle       Implied       Yes    Yes     No
Symbiosis        Unclear      Yes    Yes     No
Autocatalytic sets    Implied    Yes    Yes   No
Syser            Implied    Yes    Yes   No
RAF sets           Yes    Yes    No   No
"Ideal theory’’      Yes     Yes     Yes    Yes

RNAワールド仮説や16S rRNAを用いた原核生物の系統分類を考案したアメリカの微生物学者カール・ウーズ(Woese, 2004)はこう述べている。「十分な技術の進展がなければ、進歩の道は閉ざされてしまう。しかし、その技術を導く視点(guiding vision)がなければ、道はなく、先に進めないだろう」。生命理解のための技術革新は不可欠だが、この総説で見たような「導く視点」も同時に必要であろう。
[PR]
by md345797 | 2014-01-04 18:39 | その他