「ほっ」と。キャンペーン

一人抄読会

syodokukai.exblog.jp
ブログトップ

Points of significanceコラム 1:標準偏差(SD)と標準誤差(SEM)を区別する

Points of significance :Importance of being uncertain.(統計学は不確実性を扱う)
Points of significance :Error bars.(エラーバーと有意差の解釈)

Krzywinski M, Altman N.

Nat Methods. 2013 Sep;10(9):809-10、Oct;10(10):921-2.

【総説内容】

1. 統計学は不確実性を扱う
われわれがまた自然現象について何かを調べるとき、毎回全く同一の値が得られることはまずない。われわれの観察や経験は常にいろいろな不確実性を伴い、決して完全ではありえない。しかも、その観察や経験が1回しか行われないことが多い。このような不確実性を伴う、たった1回の経験だけをもとに、一般化した本質を理解するには何らかの危険が伴う。われわれの経験を要約して一般化して理解する際に、「どのくらいの危険が伴うのか」「その一般化はどれくらい信頼できるのか」を扱うのが統計学である。ここでは、統計学の基本的な概念を、直観的に理解しにくい部分も含めて考察する。また、「医学雑誌に掲載された論文の約半分は統計を誤用している」とする報告もあり、よく見られる統計に対する認識の誤りについても考える。

統計学は、記述的な面(descriptive:経験をまとめ要約する部分)と推測的な面(inferential:たった1回の経験からそれが一般化できるかを推定する部分)からなる。推測を行うべき全体のデータは、母集団(population)と呼ばれる。母集団の分布は横軸に数値、縦軸に頻度を取った度数分布(frequency distribution)で表され、これは度数分布をある範囲の数値ごとに頻度をまとめて棒グラフにしたヒストグラムや、ヒストグラムの各棒の上端をなめらかな線で結んだ分布曲線で表されることが多い。
d0194774_1122315.jpg

上の図1aはこの母集団分布の位置を表す平均(μ)と広がりを表す標準偏差(SD、s.d.、σ)を表す。これは図1bのようにさまざまな値を取り、直接は分からないこれらの値を推測することが統計の主要な目的である。母集団は非常に大きく、その平均を直接求めることはできないので、母集団から標本(sample)を得ることによって推定することになる。

2. 標本から、母集団の平均を推定する
(1) 標本で観測される平均や標準偏差などの数値を統計量(statistics)、母集団の平均や標準偏差(これらは直接は知り得ない)を母集団パラメータ(population parameter)と呼ぶ。前者はローマ字(X barやs)、後者はギリシア文字(μ、σ)で書く。標本の統計量を用いて、母集団のパラメータを推定することが主要な目的である。

なお、ある分布が正規分布曲線に従うとき、平均±1SDの間、平均±2SDの間、平均±3SDの間には、それぞれ68%、95%、99.7%の面積が含まれる(これらは概数であり、正確には整数を正規分布曲線の式にあてはめた68.26…%、95.44…%、99.74…%のような数値である)。
d0194774_1125297.jpg

ここで、標本の抽出(sampling)にあたり、1つの母集団からランダムに何組も標本を取ることを想定する。例えば、図2aのような不規則な分布曲線で表される母集団から、標本の大きさ(標本のデータの数)が5個の標本(n=5)を3種類得たとする(図2b)。標本1はX_1(_は1が下付き文字であることを表す)、そして標本1の5個のデータの平均値はX_1 bar(図のようにX_1の上に横棒)と書く。

(2) ところで、母集団から組数の標本を取ると、それら多数の標本の平均(X_bar)の分布というものができる。これは標本分布(sampling distribution)と呼ばれる概念である(図2c)。図2cのように、標本分布の平均をμ_X bar (X barは下付き文字)、標本分布の標準偏差をσ_X bar (X barは下付き文字)で表す。

ここで、標本の大きさが大きくなればなるほど、母集団の形が何であれ、標本分布は正規分布に近づく(下の図3)。これは、中心極限定理(central limit theorem; CLT)という、統計学の最も基本的で重要な定理に基づいている(定義の詳細は省略)。
d0194774_1132129.jpg


(3) このとき、CLTに基づいて次のことが導かれる。nが十分に大きくなるとき、

標本分布の平均μ_X barは、母集団の平均μに等しくなる。
標本分布の標準偏差σ_X barは、(母集団の標準偏差σ)/√(標本の大きさn)に等しくなる。

②の方は混乱を招くことが多いが、σ_X barは「標本分布の」標準偏差σは「母集団の」標準偏差であり、後述の標準誤差(SEM=s/√n)は②のσ/√nの推定値(estimate)である。多くの本には「標本分布の標準偏差=標準誤差」と書かれていることが多いが、厳密には母集団標準偏差/√nの推定値である。

上記の①②は、nが無限大に大きくなった場合を想定しているのであって、現実にはnは有限個しか集められない。そのため、
①′ 母集団の平均μは、標本の統計量に基づいて、「ある区間にある確率で含まれる」というように区間で推定するほかない。
②′ 標本平均の標準偏差σ_X bar母集団の標準偏差σもいずれも仮想上のもので、直接には求めることはできない。標本の標準偏差sはnが十分に大きくなれば母集団の標準偏差σの代用にはなるが(下図4参照)、①′の推定に使うには不十分である*。そこで、後述の標準誤差(=s/√n)をσ/√nの推定値として用い(図4参照)、σ/√nはσ_X barと等しいことから、①′の標本分布の平均の区間推定に用いる。

(*ここでは、「標本の標準偏差と母集団の標準偏差に差がない」と仮定して、母集団の平均を推測する。実際は標本と母集団の標準偏差に差がある場合もあるだろうが、それはあまりに複雑になるので割愛し、上記のような仮定での説明を続ける。)

(4) 標本分布の標準偏差(の推定値)は、標準誤差(SEM、s.e.m.=standard error of the mean)と呼ばれる。標準誤差は、標本の「標準偏差(SD)と大きさ(n)」という既知の値から(標本のSD)/√(標本の大きさn)で求められる。

さて、前述のように標準分布の平均は、ある範囲で推定するしかない。標本分布において、標本平均±1SEMの範囲に標本分布の平均が含まれる確率は68%である。また、標本平均±3SEMの範囲であれば、標本分布の平均は99.7%の確率で含まれる。このように「信頼度を上げるためには推測の範囲を大きくする必要があり、逆に「推測の範囲を狭めれば信頼度は下がってしまう」というジレンマがある。そこで慣習上、標本平均±2SEMの範囲で95%程度の信頼度で、標本分布の平均(すなわち母集団平均)を推測することにしている。この標本分布の平均±2SEM範囲を、標本分布の平均の「95%信頼区間(confidence interval; CI)」と呼んでいる。

(5) 以上より、標準分布のSEMが分かり、標本分布の平均が95%の確率で標本の平均±2SEMの区間に入ることが示された。中心極限定理に基づくと、標準分布の平均母集団平均は等しいので、母集団平均標本平均±2SEMの範囲を95%信頼区間として求めることができた。

(6) 以上で見たように、SDとSEMはまったく異質のものである。SDは、ある標本の平均のまわりのデータのばらつきを表す。一方SEMは、「標本分布においてどのくらいのばらつき具合で標本平均がばらついているか、これにより標本平均の上下どのくらいの範囲で標本分布の平均が含まれる区間を絞れるか」というを表す。nが十分大きい時、標本分布の平均母集団平均と等しいので、SEMは得られた標本平均によってどのくらいの精度で、どのくらいの信頼性をもって母集団平均を予測できるかの指標になる。SDは標本のばらつきを表す「量」で、SEMは標本平均から母集団平均を推測するためのこの標本平均の「質」と言えるかもしれない。

(7) したがって、標本のばらつきを表すSDの代用として、SEMを用いてはならない。グラフではSEMの方がSDのエラーバーより小さくなるので、「ばらつきが少なく、実験の精度が高く見える」「エラーバーが小さいのでより有意差があるように表現できる」と、見栄えを考えてSDで書くべきエラーバーをSEMのエラーバーで代用する、といったSEMの誤用は論外である。そもそもSDも標本のデータがもともとばらついていることを表しているだけで、実験の精度とは関係がない。さらには、あなたが論文の読者で、著者がSEMのエラーバーを用いていたら、その長さを√n倍して標本のSDを求め、±2SDの間に95%の標本データが含まれる、というように考えよう。

d0194774_114123.jpg

上の図4は、図2aの母集団から3種類の標本(X_1, X_2, X_3)を取って、標本の大きさnを1から100まで増加させた場合の標本平均(X_bar)、標本の標準偏差(s)、標本分布の標準誤差(s.e.m.)の変化を点で示したものである(これらは標本から求められる)。赤い線は母集団の平均μ、母集団の標準偏差σ標本分布の標準偏差σ_X barを表している(これらは理論上の仮想で、現実には求められない)。上から1番目、2番目のように母集団の平均と母集団の標準偏差は取る標本の大きさに関わらず同一の値であるが、3番目のグラフのように標本分布の標準偏差σ_X barはnが大きくなるにつれて徐々に減少していって一定の値に収束する。標準誤差s.e.m.がいかに標本分布の標準偏差σ_X barの推定値になり、標本平均から母集団平均を推測するのに有用かが分かる。

3. エラーバーの解釈
次に、ここに2つの独立した標本があるとする。これらの標本は、同じ大きさで、同じ広がりをもつ正規分布に従っているとする。これら2つの標本の平均の間に有意差があるかどうか、2標本のt-検定(two-sample t-test)を用いてP値を計算した。

有意差について詳しくは次回以降述べるとして、ここではこの結果を3種類のエラーバー(すなわちSD、SEM、95%CI)を用いて表現したものを下の図5に示す。2つの標本の平均は0と1.0とする。
d0194774_1142488.jpg

図5aは、3種類のエラーバーでP値は異なるが、同じ長さで表現した場合である。2つの標本のエラーバーがちょうど接するとき、3種類でP値は全く異なることを示している。図5bでは、同じP=0.05になるようなエラーバーとしたところ、3種類の長さは異なり、オーバーラップまたはギャップがあることを示す。図5bで分かるように、「エラーバーどうしが重なり合っていない場合、2つの標本の平均の間には有意な差がある」とか「エラーバーが重なっているので、平均間に有意差はない」という思い込みは、どちらも全く誤りである

2012年にNature Methodsに掲載された論文の2/3の図でエラーバーが使われていた。しかしそのうち、エラーバーがSDを表すものは45%、SEMを表すものは49%、95%CIを表すものはある論文の1つの図のみだった。そのほか5%では何とエラーバーが何を示すのかが文中に述べられていなかった。

(1)エラーバーがSD
図5aではn=10の2つの標本のエラーバーどうしが接触しているが、P=0.0003と有意差がある。図5bではP=0.05で有意差があると言えるがエラーバーは重なっていない。エラーバーの重なりと有意差については一概に、直観的には判断できない。

(2) エラーバーがSEM
図5aではn=10の2つの標本のエラーバーどうしが接触しているが、P=0.17と有意差はなく、図5bでは有意差があってエラーバーが離れている。ここでも「2標本のエラーバーが重ならないからといって、標本間に有意差がある」と考えるのは間違いである。

(3)エラーバーがCI
95%CIがよく用いられるが、下の図6のように標本平均のエラーバーとしてCIが用いられると、95%の確率で母集団平均がエラーバー内にあることになる(同一の母集団から別の標本を取ったとき、その標本の平均が95%の確率でエラーバー内にある、というのはよくある間違い)。95%CIのエラーバーはn=3でおよそ4 x SEM、nが15以上でおよそ2 x SEMでSEMのエラーバーに比べて大きい(図6b)。
d0194774_1115316.jpg


現時点では不幸なことに、上記3種類のエラーバー(SDとSEMと95%CI)は理解不十分のまま混在している。したがって、論文を読む際には、このエラーバーは何であり、どう解釈するのが正しいのかを常に考える必要があるだろう。

付記:
上記のまとめでは、『新・涙なしの統計学』 (D. ロウントリー著・加納 悟訳:新世社、2001)の記述が大変分かりやすかったので参考にさせていただいた。


[PR]
by md345797 | 2014-05-07 01:04 | その他