「ほっ」と。キャンペーン

一人抄読会

syodokukai.exblog.jp
ブログトップ

<   2014年 02月 ( 2 )   > この月の画像一覧

ボックスプロット(箱ひげ図)作成のためのオープンソースアプリケーション:BoxPlotR

BoxPlotR: a web tool for generation of box plots.

Spitzer M, Wildenhain J, Rappsilber J, Tyers M.

Nature Methods. 2014 Jan 30;11(2):121-2.

「棒グラフ」と「ボックスプロット(箱ひげ図)」
① 棒グラフ(Bar plot)は、平均(mean)を棒の高さで、標準偏差(sd)または標準誤差(standard error of the mean; sem)をエラーバーで示してデータを比較を表現する方法である。非常に多く用いられる方法だが、平均と標準偏差という単純な要約統計量(summary statistics)だけの比較であるため、元のデータの構造の違いを見落とし、結果的に間違った結論も導くことがありうる。一方、以下で述べるボックスプロット(Box plot、別名Box-and-whisker plot; 箱ひげ図)は、要約統計量と元のデータの分布の両方を表すことができ、棒グラフより情報量が多い。ここではそのボックスプロットの特徴と、ボックスプロット作成のためのオープンソースアプリケーションBoxPlotRについて述べる。

d0194774_12332494.png

図1 同じデータを棒グラフ(左)とボックスプロット(箱ひげ図、右)で示したもの。
棒グラフでは表現できないデータの分布が、ボックスプロットではよりよく表現できる。

② 棒グラフでは、元のデータの分布がよく分からないことを図2に示す。一番下のcは4種類のパターンの元データ、すなわち「uniform(連続一様分布)」「Normal(正規分布)」「Poisson(ポアソン分布、離散確率分布)」「Exponential(指数分布、連続確立分布)」のそれぞれの確率分布を示している(n=1,000)。これらをaのような棒グラフと標準偏差のエラーバーで表現すると、分布の中心や広がりなどが正しく伝わらなくなってしまう。しかし、これをbのようなボックスプロットにすれば、それぞれの分布に関する情報をより多く伝えることができる。

d0194774_12203093.jpg

図2 異なる分布パターン(c)を示すデータを、棒グラフ(a)とボックスプロット(b)で表した。

③ ボックスプロットは「箱ひげ図」(Box-and-whisker plots)と呼ばれるが、ここでいう「ひげ(whisker)」はネコなどの動物に見られる「ヒゲ(洞毛)」のことである。人間の顔の「髭」(あごひげbeardやくちひげmustache)ではないことに注意。
d0194774_1220093.jpg

図3 箱ひげ図(Box-and-whisker plots)のwhiskerは、ネコなどの動物のヒゲのこと。

ボックスプロットの表記方法
① データの分布に偏りがあまりない場合は、平均と標準偏差でデータの構造が大体表現できる。一方、データの分布が非対称で偏りがある場合や極端な外れ値がある場合は、四分位数(quartile:データを小さい方から順に並べて四分の一の個数になるデータの数値)と範囲(range:最小値と最大値)の表示が有用である。ボックスプロットは、データの第1四分位数(lower quartile; Q1)、中央値(median, m; 第2四分位数Q2でもある)、第3四分位数(upper quartile Q3)と四分位範囲interquartile range(IQR、Q3-Q1、データの中央50%を含む)およびデータの範囲(最小値と最大値)を視覚化するグラフである。

もし大きな外れ値がある場合、それに引っ張られて平均と標準偏差は大きく影響を受けてしまうが、四分位数と四分位範囲は少数の外れ値からの影響は受けず、データの中心とその広がりが持つ情報をより多く保存できる。

d0194774_1219023.gif

図4ボックスプロットの「箱」と「ひげ」が表すもの
「箱(Box)」は第1四分位数(Q1)と第3四分位数(Q3)の間の四分位範囲(IQR)を、箱の中の線は中央値(mean)を表す。データの範囲、すなわち最小値から最大値までは「ひげ(whiskers)」の広がりで表すが、一般的には「ひげ」の長さは箱の端からIQRの長さの1.5倍以内とし、その外側にある外れ値(outlier)があれば「ひげ」の外側の○で示す。

② ボックスプロットは、第1四分位数(Q1)と第3四分位数(Q3)の間の四分位範囲(IQR)を「箱(box)」で、中央値(mean)を箱の中の線で表す。最小値から最大値までは「ひげ(whiskers)」の広がりで表すが、一般的には「ひげ」の長さは、箱の端からIQRの長さの1.5倍以内とし、その外側にある外れ値(outlier)は「ひげ」の外側の○で示す。これが、箱ひげ図を開発したテューキーによる定義だが (John Wilder Tukeyはアメリカの数学・統計学者 1915-2000)が、ヒゲは「最大値から最小値まで」(Spearのスタイル)や「データの95%中央範囲」(Altmanのスタイル)とする場合もある。

(なお、IQRの1.5倍の範囲というのは、通常の分布であれば±2.7σ(シグマ、標準偏差)であり、データの99.3%を含むことになる。)

③ ボックスプロットのバリエーションとして、バイオリンプロット、ビーンプロット、ビー スォームなど、さらに多くのデータ分布の情報を表すことができるものもある(図5)。
バイオリンプロット:
中心の白丸が中央値、真ん中の黒い太い縦線がIQR、真ん中の細い縦線がIQRの±1.5倍以内のヒゲ。左右に広がる灰色の山はカーネル密度推定(サンプルからの母集団データ分布の推定)を表す。
ビーンプロット:
真ん中の黒い横線が中央値、複数の白い横線は、データが存在してする場所、左右に広がる山は密度推定(バイオリンプロットとはパラメーターが異なるので形は違うが)を表す。
ビー スウォーム(bee swarm=蜂の群れ):データを実際の点としてプロットしたグラフ。要約統計量が表現されていないが、データの分布を直接視覚化できる。ボックスプロットに重ねて表現することも可能(図6)。

d0194774_12173494.jpg

図5 (a)一様分布(uniform)、一峰性(unimordal)、二峰性(bimordal)のそれぞれの分布を、(b)棒グラフ、ボックスプロット、バイオリンプロット、ビーンプロットで表現している。棒グラフによる比較では平均値が同じのため似たようなグラフに見えるが、他のグラフでは分布の差がよりはっきり視覚化されている。
d0194774_1217411.png

図6 ビースウォーム(bee swarm; 蜂の群れ)とボックスプロットを重ね書きした例


④ 母集団(Population)から抽出されたサンプル(sample)の中央値から、もとの母集団の中央値を推定するには、中央値の95%信頼区間(confidence interval; CI)を示す。

図7の(a)は母集団の分布を表すグラフである。これは、平均μ=0(濃い点線)、標準偏差σ1(薄い点線)の歪んだ正規分布(skewed normal distribution)であり、非対称で偏った形の分布であるため、中央値(m=-0.19、縦の実線)とIQR(灰色部分)を示すのがよい。この母集団から20個のサンプルを抽出して(b)のボックスプロットを作成した

n=20のサンプルは図7(b)の図の一番上の○で表している。上の箱ひげ図は、中央値(m)とQ1-Q3(IQR)の間の箱、箱から1.5 x IQR以内の範囲のテューキースタイルの「ひげ」、およびそれらには含まれない外れ値(outliers)「ひげ」の外側(この図では右側)に示している。箱の幅(この図では高さ)は任意に決めてよいのだが、さらに下の箱ひげ図は箱の幅を√n(サンプルサイズの大きさを表す)に比例するようにしてある。これにより群のサンプルサイズを表すことができる。さらに、中央値の95%信頼区間をV字型の切れ目(ノッチ、notch)長さ(一番下の点線の長さ)で表している。(中央値の95%信頼区間はm±1.58xIQR√nで求められる)。
d0194774_12152930.jpg

図7 (a)母集団(population)の分布と、(b) そこから抽出したn=20のサンプルをボックスプロットで表現したグラフ。
(b)では中央値の95%信頼区間(サンプルの中央値から95%の確率で推定される母集団の中央値の範囲)を箱の切れ目(ノッチ:点線の長さ)で表している。

⑤ 箱ひげ図のノッチがオーバーラップしないことの意味:
一般的に2群の比較で、中央値の95%信頼区間(ノッチの長さ)がオーバーラップしないとき、2群の中央値は95%の確率で差がある(p<0.05)と判断できる(ただし、オーバーラップするから、といって有意差が「ない」とは言えないが)。
d0194774_1214129.png

図8 通常のテューキースタイルの箱ひげ図(上)に、中央値の95%信頼区間をノッチで示したもの。なお、中央にある十字は平均値(中央値とは少しずれているのに注意)、グレーの縦の長方形は平均値の83%信頼区間を示しているが、ここでは特に触れない。

サンプルサイズが少ないと、ノッチは箱より大きい間隔となることがある(図9)。
d0194774_12132551.jpg
図9 サンプルサイズ(n)が小さいとノッチが箱より大きくなる。、箱ひげ図ではあまりに小さいサンプルサイズ(n<5)は避けるべき。


ボックスプロット作成のためのオープンソースアプリケーション
今まで述べたような箱ひげ図の境界は、正確には、用いる統計ソフトウエアによって異なってしまう。これは、(1)四分位値を計算する統一され方法がない(単純平均か線形補間に基づく)、(2)Rなどいくつかのアプリケーションでは箱の境界を四分位の変わりに下側および上側ヒンジ(中央値以下/以上のデータの中央値)を用いており、これは四分位による境界とは微妙に異なることがある、などの理由による。

箱の幅、ヒゲの位置、ノッチの大きさや外れ値の表示などを一定にし、もっと多くボックスプロットが用いられることが望ましい。従来、ボックスプロットが多く用いられてこなかった理由の一つに便利なソフトウェアツールがなかったためという原因がある。近年有用なオープンソースアプリケーションとしてBoxPlotRが用いられるようになっている。

BoxPlotRはRおよびRパッケージであるShiny、beanplot、vioplot、beeswarm、RColorBrewer(Rの色彩指定)で書かれている。詳しくは、http://boxplot.tyerslab.com/を参照。

[PR]
by md345797 | 2014-02-23 12:23 | その他

CRISPR/Cas9による遺伝子修飾を1細胞期胚に用いて作製した遺伝子改変サル

Generation of Gene-Modified Cynomolgus Monkey via Cas9/RNA-Mediated Gene Targeting in One-Cell Embryos.

Niu Y, Shen B, Cui Y, Chen Y, Wang J, Wang L, Kang Y, Zhao X, Si W, Li W, Xiang AP, Zhou J, Guo X, Bi Y, Si C, Hu B, Dong G, Wang H, Zhou Z, Li T, Tan T, Pu X, Wang F, Ji S, Zhou Q, Huang X, Ji W, Sha J.

Cell. 156, 836-843, 13 February 2014.

【まとめ】
サルはヒトの疾患とその治療法の研究するために非常に重要なモデルであるが、目的の遺伝子を修飾することが困難であり、遺伝子改変サルを用いた検討は進んでいない。本研究では、CRISPR/Cas9システムをサルゲノムに応用し、サルの遺伝子編集を行った。カニクイザルの1細胞期胚にCas9 mRNAとsingle guide RNAs (SgRNAs)を同時に注入したところ、正確な遺伝子ターゲティングを行うことができた。この方法で、2つの標的遺伝子(ここではPpar-γRag1)をワンステップで同時に欠損させることが可能であった。これらの動物で、オフターゲット効果(標的部位以外で遺伝子に変異を起こしてしまうこと)は認められなかった。以上より、1細胞期胚にCas9 mRNAとsgRNAを同時注入する方法は、遺伝子改変カニクイザルを作製するための効率のよい安定した方法であることが示された。

【論文内容】
サルはヒトの疾患モデルとして非常に重要であるため、サルの遺伝子改変技術が求められていた。しかし、今までの遺伝子改変サルはレトロウイルスまたはレンチウイルスを用いて作製されており、正確な遺伝子ターゲティングが困難であった。最近開発されたCRISPR/Cas9システムは簡便で高度に特異的に、効率よく複数の遺伝子のゲノム編集ができる優れた方法である。現在までに、哺乳類の細胞およびマウス、ラットを含むさまざまな動物個体のゲノムターゲティングが行われてきたが、霊長類にCRISPR/Cas9が応用できるかは不明であった。このグループは、Cas9 mRNAとsingle guide RNAsを胚の1細胞の段階に同時に注入してマウスおよびラットで効率よい遺伝子ターゲティングを成功させており、今回それをサル胚の1細胞段階に応用することにより、複数遺伝子のターゲティングを試みた。

サルの細胞株においてCAS9/RNAは効率よく遺伝子欠損を起こす
本研究ではカニクイザル(cynomolgus monkey, Macaca fascicularis)モデルで、3つの遺伝子(Nr0b1、Ppar-γ、Rag1)の遺伝子ターゲティングを試みた。まず、Nr0b1の117 bpから2つのsgRNAを、Ppar-γの49 bpから2つのsgRNAを、Rag1から1つのsgRNAを作製した。これらをCOS-7細胞(アフリカミドリザル腎由来細胞株)に同時感染させた。感染72時間後の細胞からゲノムDNAを単離して、部位特異的遺伝子改変を標的遺伝子近傍の部位のPCR増幅とT7EN1切断アッセイ(T7EN1 cleavage assay)を行って、sgRNAsの効率を検討した。Cas9/RNA導入によって標的遺伝子周囲の切断とその後の挿入欠失(indels)によってさまざまなサイズの変異が起きたが、その効率は、Nr0b1-sgRNA1で22.2%、Nr0b1-sgRNA2で22.2%、Ppar-γ-sgRNA1で10%、Ppar-γ-sgRNA2で23.8%、Rag1-sgRNA1で23.8%と高効率であった。sgRNAとCas9を用いることにより、サルゲノムの効率のよい遺伝子ターゲティングができることが示された。

T7EN1 cleavage assay: 抽出したゲノムDNAから、sgRNAの標的部位の断片をPCRで増幅し、T7EN1 (T7 endonuclease I; 完全にマッチしていない、ミスマッチDNAを認識して切断するDNAエンドヌクレアーゼ)で切断する。これをアガロースゲル電気泳動によって検出し、変異導入を確認する。

Cas9/RNAによってサル胚に効率よく遺伝子ターゲティングを起こすことができる
次に、Cas9 mRNA(20 ng/μl)との上記の5種類のsgRNAsの等量混合物(25 ng/μl)を、カニクイザルの1細胞段階の受精卵22個にマイクロインジェクションした。それらのうち15個が桑実胚または胚盤胞期まで正常に発生した。これらでゲノムの部位特異的に遺伝子改変が起きたかを、PCR増幅およびT7EN1切断アッセイを用いて検討した。その結果、sgRNAの機能によって変異導入効率が異なっていた。サル胚の遺伝子ターゲティングのサイズは-30から+6 bpであり、Nr0b1で4/15、Ppar-γで9/15、Rag1で9/15の効率で起きていた。さらに、6/15の胚でPpar-γRag1の、2/15の胚でNr0b1Rag1の両方で同時に変異が起きていた。このように、サル胚においても、CRISPR/Cas9システムは効率よく機能することが示された。

Cas9/RNAはサルにおいてワンステップで複数の遺伝子の変異を起こすことができる
以上のようにサルの細胞株と胚での遺伝子ターゲティングが成功したので、次に遺伝子改変サルの作製を試みた。198のM II期卵母細胞に細胞質精子注入を行って受精させ、Cas9とsgRNA混合物を上記同様注入した。186個の注入した接合体のうち83個を29の代理母のメスに移植した。レシピエントの母親のうち10匹が妊娠し、1匹は流産した。妊娠継続を継続したメスのうち、3匹は双子、3匹が三つ子、残り4匹は単一妊娠だった。現在のところ、双子のメスが正常妊娠期間で帝王切開にて正常に出生している(この双子をファウンダ―サルAとBと呼ぶことにする)。(なお、他の代理メス8匹はまだ妊娠期間中である。)

ファウンダーである2匹の乳児サルの臍帯からゲノムDNAを採取し、Cas9/RNAによるゲノム修飾のスクリーニングを行った。まず、乳児BにおいてRag1標的領域のPCR増幅で小分子サイズのバンドが見られ、ゲノム修飾が起きていることが示唆された。次に、PCR産物でT7EN1切断アッセイを行ったところ、どちらの乳児のRag1およびPpar-γの2番目のsgRNA標的部位においても切断産物が見られ、複数のゲノム修飾が起きていることが示された。PCR産物のシークエンスにより、異なる種類の挿入欠失(Ppar-γに1か所、Rag1に4か所)が認められ、さらに複数のゲノム修飾の存在が確認された。なお、前述の胚での実験で変異効率が低かったNr0b1には切断が認められていなかった。
d0194774_6315871.jpg

写真:CRISPR/Cas9システムにより複数の遺伝子改変(Ppar-γRag1)を受けた双子のカニクイザル(ファウンダ―AとBと名付けられている。生後14日目。)

パンチした耳の組織と胎盤からのゲノムDNAを用いた解析によると、両方のサルのRag1Ppar-γ遺伝子に同じPCRバンドと切断バンドが認められ、ゲノム修飾が起きていることが分かった。CRISPR/Cas9により、遺伝子ターゲティングが行われ、サル胚の全ゲノムに修飾が起きることが確認された。ファウンダ―サルBの耳パンチからはwild-type Rag1シークエンスは見られず、ゲノム修飾は(生殖細胞系を含む)さまざまな組織全体に効率よく起きていると考えられた。

さらに、親サルの目印となる(tagging) SNPsによって、対立遺伝子のターゲティング効率を検討した。親の耳組織のゲノムDNAからRag1標的部位を含む3.8 kb断片をPCRで増幅しシークエンスし、親由来のtagging 4SNPsの2つの異なる組み合わせをRag1-sgRNA標的部位の下流に検出した。親と双子のtagging SNPの組み合わせをTAクローニングとシークエンスによりさらに決定した。その結果、2つのtagging SNAの組み合わせは、メンデルの法則に従って分離していた。ファウンダ―Bの耳の高い標的効率を示すRag1-sgRNA標的部位をさらにシークエンスした。その結果、tagging SNPsによって同定された両方の対立遺伝子ともに標的の修飾を受けており、両親のサルから受け継いだ両方の対立遺伝子がCas/RNAによるターゲティングによって修飾されうることが明らかになった。

なお、2匹のファウンダ―サルの異なる組織でPpar-γの1塩基挿入による単一遺伝子型(genotype)が認められた。この1塩基挿入が本当の変異ではなくSNPである可能性を除外するために、親と代理母の標的部位を増幅してT7EN1切断アッセイ後シークエンスを行った。その結果、同じ1塩基の存在は除外され、この挿入は実際にCRISPR/Cas9によるPpar-γ遺伝子の修飾であることが確認された。以上より、サルゲノムの1細胞胚へのマイクロインジェクションによってCas9/RNAによる部位特異的なゲノム修飾が可能であることが示された。

モザイシズム
培養胚とファウンダ―サルの両方のシークエンスデータが複数の遺伝子型を示したことは重要である。これは、CRISRP/Cas9による切断がサルの胚発生の異なる段階で複数回起き、他の種で見られてきたような修飾のモザイシズム(一つの個体で遺伝子修飾が細胞間で異なること)を起こすことを示唆している。
現在、ファウンダー乳児は施設で飼育され正常に育っている。ファウンダ―乳児の組織採取が限られていることから、ゲノム修飾と形質のより完全な解明は行えていない。ファウンダ―サルが生体に成長するまで、また他のファウンダ―が生まれてサンプルが多く得られるまでそれらの検討は待つ必要があるだろう。

オフターゲット解析
CRISPR/Cas9システムの重要な懸念はオフターゲット効果(標的部位以外で遺伝子に変異を起こしてしまうこと)である。マウスでは、遺伝するオフターゲットの変異が見られることがあり、これらの遺伝子改変サルでもそれが見られないか、84か所の予想されるオフターゲットサイト(OTS)について検討した。これらは、Nr0b1のsite1対する9か所、site 2に対する20か所、Ppar-γのsite 1に対する14か所、site 2に対する20か所、Rag1に対する21か所である。臍帯からのゲノムDNAを用いてこれらの部位のオフターゲット効果を調べた。これらのオフターゲット予測部位の周囲の断片をPCRで増幅してT7EN1切断アッセイを行った。17のPCR産物から切断バンドが得られ、TA シークエンスによって配列を調べたが、すべての切断はSNPかリピート配列によるものであり、オフターゲットによる変異によるものは認められなかった。すなわち、本研究ではCas9/RNAによるオフターゲット変異は認められなかった。今までに変異Cas9を用いてオフターゲット変異を最小限に減らす試みも報告されており、今後さらに、サルの遺伝子改変方法としてのCRISPR/Cas9は信頼性が高いものになるだろう。
d0194774_6321796.jpg

【結論】
カニクイザルの1細胞期の受精卵にCas9 mRNAとsgRNAsを同時注入することによって、効率よく部位特異的な遺伝子修飾ができた。本研究では、複数の遺伝的変異を一度に導入でき、しかもオフターゲット効果は認められなかった。このようにCRISPR/Cas9システムを用いてサルの遺伝子ターゲットが行うことができるようになったため、将来的には遺伝子改変霊長類を作製することが可能となるだろう。
[PR]
by md345797 | 2014-02-12 06:38 | その他