Points of significance: Power and sample size.Krzywinski M, Altman N.
Nat Methods. 2013 Nov;10: 1139–1140.
【総説内容】科学研究では、ある現象が観測されたとき、それが偶然によるのか、ある作用によるのかを検討する必要があるだろう。その際、
その観測値がもともと含まれる母集団からの標本なのか、それとも別の母集団からの標本なのかを判断するという統計学的手法を用いる(注1)。
注1:ここでの「母集団」は、
何らかの実体をもった集団ではなく、抽象的な概念であり架空の存在である無限母集団を想定している。
その際、まず「これら2つの母集団の間には差がない」というnull hypothesis (帰無仮説)を立て、帰無仮説が起きる確率は非常に小さいことを示して
帰無仮説を棄却し、alternative hypothesis (対立仮説)を採択するという方法を取る。対立仮説は、「2つの母集団間には差がある」(注2)というもので、これは結局「今回観測された現象は、ある作用によって起きたものであり、偶然のばらつきによるものではない」ことを示す。これを
effect (効果)があったと表現する。
注2:厳密には、2つの母集団間に「差がないとは言えない」というべきだが、以下では分かりやすくするため「差がある」とする。
研究においてeffectは必ず正しく検出されるわけではなく、effectが正しく検出される確率というものがあり、それが今回述べる
statistical power (統計学的パワー、検出力)である。この検出力は非常に重要な概念であるにもかかわらず、医学・生物学研究でしばしば見落されている。しかし、検出力が低い研究では重要なeffectが検出できない可能性がある。そのため、検出力不十分の研究は実験費用や人員の無駄になったり、結果的に有害な条件下に被験者を置く非倫理的な研究になったりする危険がある。そのため、
Nature Pulishing Groupの投稿チェックリストでも、「事前に設定したエフェクトサイズ (後述)を検出するための十分な検出力を確保するサンプルサイズ(標本数)を選んでいるか」ということが記載されている。
(1) Sensitivityとspecificity検出力について述べる前に、疾患と検査の関係でよく用いられるsensitivityとspecificityについて述べる。「実際に疾患があるかないか」と「検査で陽性になるか陰性になるか」の割合は、
図1の4通りが考えられる。
図1 疾患と検査におけるsensitivityとspecificityこの4通りとはTrue/False Positive/Negativeであり、これをもとに、
Sensitivity (感度)=a/(a+c) 疾患があるときに検査で正しく陽性になる率
Specificity (特異度)=d/(b+d) 疾患がないときに検査で正しく陰性になる率
と定義される。ここで、
False Positive率=疾患がないのに検査で誤って陽性になる率 α=b/(b+d)
False Negative率=疾患があるのに検査で誤って陰性になる率 β=c/(a+c)
というものが考えられる。
(2) Type I errorとtype II error最初の「観察された標本が、もともと想定される母集団からの標本なのか、それとは異なる母集団からの標本と考えられるのか」という問題についても同様の表ができる。ここでは、2つの母集団間で「実際に差があるか、ないか」と「差があると推測されるか、ないと推測されるか」で
図2の4通りに分けられる。
図2 母集団間の差の有無と推測による判断ここでは、
False Positive率 α= 正しいH
0を誤って棄却する割合
False Negative率 β= 正しくないH
0を誤って採択する割合
となっている。このように、前者の本当は差がない (帰無仮説が正しい)のに、「差がない」という帰無仮説を誤って棄却することを
Type I errorといい、後者の本当は差がある (帰無仮説が誤りである)のに、「差がない」という帰無仮説を誤って採択することを
Type II errorという (それぞれの確率はαとβ)。
(3) Power (検出力)図1で
疾患があるときに検査で正しく陽性になる確率を
power(検出力)といい、感度と同じa/(a+c) である。これは
図2では、
母集団間に実際に差があるときに、推測によって差があると正しく判断される確率が
検出力(1-β)である。
図3では例として、ある蛋白の発現量の観測値がxであったとき、それが単なる偶然のばらつきの結果なのか、それとも何らかのeffectがあった結果なのかを考えている。これは統計学的には、観測値xがもともと想定される正規母集団(平均µ
0=ここでは10)からの標本なのか、それともそれとは違う正規母集団(平均µ
A=12とする)からの標本なのかという問題である。このとき、2つの母集団間に差がないとする帰無仮説H
0と、それに対する対立仮説H
Aを立て、H
0が棄却できるかどうかを検討する(注3)。
注3:2つの母集団に差がない場合、平均µ
0の母集団とそれと違う平均µ
Aの母集団で、µ
0とµ
Aどちらが大きいかは決められていない。しかしここでは便宜上、図3のように後者の方が大きいとする片側検定 (one-tailed test)について考える。µ
0とµ
Aの大小が予測できないときは両側検定(two-tailed test)になるが、ここでは省略する。
図3aのように限界値x*を設定し、観測値xがそれより大きければH
0は棄却できるとする。H
0がx*より大きい確率はαであり、これは例えば0.05のように非常に小さいのでここに観測値が入ると帰無仮説H
0は棄却するとする。このとき、帰無仮説が正しいのに棄却してしまう確率(本当は差がないのに、誤って差があると判断してしまう=
Type I errorの確率)はα、正しい帰無仮説を正しく採択する確率(本当は差がなく、差がないと正しく判断する確率=
specificity)は(1-α)である。
図3 帰無仮説(a)と対立仮説(b)、推測のエラーと検出力(c) ここでxが限界値x*より大きい時は、観測値xは対立仮説H
A母集団からの標本と考えられるとすると、図3bのようにx*より小さいとき、本当は帰無仮説H
0は正しくないのに、H
0を採択してしまう。したがって、帰無仮説が正しくないのに採択してしまう(本当は差があるのに、誤って差がないと判断してしまう)
Type II errorの確率はβ、帰無仮説を正しく棄却し対立仮説を採択する確率(本当は差があり、それを差があると正しく判断できる確率=
sensitivityおよび検出力)は(1-β)である。
(4) Effect sizeなお、H
0の正規母集団とH
Aの正規母集団はどちらも標準偏差がσで同じとする。そのとき、d=(μ
A-µ
0)/σを
エフェクトサイズと呼ぶ。σ=1の標準正規分布のとき、dはμ
A-µ
0である(
図3c)。初めに対立仮説の分布を設定する時に、このd (effectがあるとき、どのくらいの差ができるはずなのかという量)を
事前に決めておく必要がある。もしこれが医学研究なら、「医学的・生物学的に意味のある差dとはどれくらいなのか」を医学的観点からあらかじめ設定しておかなければならない。
注4:なお以上の議論で、母集団というのは全く未知のものであるはずなのに、その平均や標準偏差の数値があらかじめ分かっているというのはおかしな話だが、ここでは説明のため分かったことにして話を進めている。
(5) 陽性的中率(PPV)ここで、やや本題からはずれてPPVについて述べる。図1のような疾患と検査において、「ある検査が陽性のとき、本当にその疾患がある割合」を
陽性的中率(positive predictive value, PPV)という。「ある疾患が陰性のとき、本当にその疾患がない割合」は陰性的中率(negative predictive value, NPV)である。
図1では、
陽性的中率(PPV)=a/(a+b)
陰性的中率(NPV)=d/(c+d)
である。
図2の場合は、PPVは「母集団間に差があると推測されたとき、本当に差がある確率」、NPVは「母集団間に差がないと推測されたとき、本当に差がない確率」であり、図2に色で示した通りになる。
図4 Effectがある割合(a)、検出力が上がると陽性的中率も増加する(b)図4aでは、
上段は50%effectがある(疾患と検査の関係で言うと、疾患がある割合=有病率が50%ということ)、
下段は10% effectがある(有病率10%に相当する)場合を表している。青がeffectあり=母集団間に差がある、緑がeffectなし=差がないという帰無仮説を表す。
図4b上段で、検出率0.2で推測した場合(
左上)、母集団間に本当に差があるとき、差があると正しく推測される確率が0.2だから、実際にeffectがある点線から右半分のうち、灰色(「差がない」と誤って推測される=false negative)ではなく水色(「差がある」と正しく推測される=true positive)の割合が0.2になっている。検出率0.5(
中央上)や0.8(
右上)の場合も、同じように青の部分の割合が0.5、0.8になっている。また、帰無仮説を5%の棄却域で棄却するとすると、帰無仮説(点線から左半分) のうち5%(赤い部分)は母集団間に差がないという帰無仮説が誤って棄却されてしまう。すなわち、緑(「差がない」と正しく推測される=true negative)ではなく、赤(「差がある」と誤って推測される=false positive)の部分が左半分の5%になっている(注5)。
注5:元論文のこの図では5%がちょっと大きめに描いてある。
このとき、陽性的中率は「差がある」と推測された場合の本当に差がある確率なので、図4bのようにtrue positive/(false+true positive)、青/(青+赤)で表されるので、検出力が0.2、0.5、0.8と上がると、PPVも0.80、0.91、0.94と上昇する。
実際の生物学実験では、
図4下段のように10%しかeffectが見られないことも珍しくない。このときは、検出率0.2の実験では陽性的中率が0.31しかなく、通常求められる検出率0.8であってもその実験の陽性的中率は0.64である。これでは、実験で差があると認められてもその3割以上はfalse positiveである。
検出力の低い実験では、このように陽性的中率が低くなるので、研究の前に十分な検出力のある実験を行っているか注意が必要である。
多くの研究では、統計学的に検出力不足(underpowered)であり、そのために再現性の低い結果しか得られていないことが報告されている。
(6) Specificityとsensitivity (検出力)の関係次に(4)の例に戻って、specificityとsensitivity(検出力)の関係について述べる。
図5aでH
0は平均µ
0=10、σ=1の正規分布とし、その棄却域αを0.05に決めると、H0を棄却できる限界値x*は11.64になる。ここでH
Aの正規分布を見ると、観測値xがカットオフ値x*(11.64)より小さい時は、観測値は本当はH
Aの母集団からの標本なのに、誤ってH
0が正しいという判断を下してしまう。これは実際は差(effect)があるのに、差がないとしてしまうtype II errorであり、その確率はβ=0.36)で表される。したがって、1-β=0.64が、差があるときにH
0を正しく棄却する(差があると判断する)という検出力(およびsensitivity)である。
ここで、H
0の棄却域αを0.05から0.12に引き上げると、観測値xのカットオフ値は11.17に下がり、検出力は上記の0.64から0.80に上がる。この検出力の増加は、αの低下すなわち、本当は母集団間の差(effect)がないのに誤って「差がある」と判断してしまうfalse positiveの増加を犠牲にしていることになる。
注6:なお、原文ではWe can increase power by decreasing sensitivity.と書いてあるが、原文のsensitivityはspecificityの誤植。
図5bでは、2つの母集団H
0とH
Aはそのままで、観測値のカットオフ値が小さくなると ((x*-µ0)が小さくなると)、それにしたがってαが大きくなるが、そのとき検出力(1-β)はどのように変化するかを示している。
図5:限界値x*が小さくなると検出力が上がる(a)。この関係を示すグラフ(b)。x*-µ
0を小さくすると、検出力 (1-β、
図5aの青い部分の面積)はS字カーブを描いて大きくなる(
図5bの赤い矢印)。しかしそれに伴って、α (false positive率、赤い部分の面積)も大きくなってしまう。なおそれはspecificity (1-α、緑の部分の面積)が小さくなることにもつながる。研究において真のpositiveを検出するために、検出力は大きくしたいが、しかしfalse positiveは減らしたい。この場合どうすればよいだろうか?
まず、
図5aの分布が狭ければ2つの母集団のオーバーラップが減り、H
Aの分布においてx*より大きい部分(青い部分)が増えて検出力は上昇する。しかし、分布を狭くする、すなわち標準偏差σを小さくする、すなわち実験精度を上げてばらつきを減らすというのは難しいことも多い。より直接的な方法は
標本をx一つだけでなく、数多く観察することである。それにより標本分布(標本平均x bar、標本標準偏差σ/√n) を得るようにする。
(7) サンプルサイズとエフェクトサイズが検出力に及ぼす影響最後に上記のように、
標本をn個取ったときの平均値の分布(標本分布)を考える。
図6aにおいて、左の正規分布曲線は標本分布を表している。H
0は帰無仮説の母集団から得た標本n個の標本分布であり、H
Aは対立仮説から得た標本n個の標本分布である(
図5のように母集団そのものではないことに注意)。
ここで、
標本の大きさnが増えても、標本分布の平均は変わらない (nが大きくなると、それは母集団平均に等しくなるので、ここではいずれも10と12としている)。しかし、標本の大きさnが増えると、標本分布の標準偏差は(母集団の標準偏差σ)/√(標本の大きさn)の式にしたがって小さくなる。
これらの分布において、帰無仮説を棄却する棄却域αが0.05になるように、標本分布の平均値のカットオフ値(点線)を決める。そうすると、
nが大きくなるにしたがって分布は狭くなり、そのαが0.05になるためのカットオフ値は
図6aのように小さくなり、
検出力(1-β)は大きくなる。あらかじめ設定した エフェクトサイズd (2つの母集団間にこれ以上差があれば「母集団間に差があった、effectがあった」と考えてよいとする差)が1だったとする。標本の大きさ(サンプルサイズ) nが大きくなると、検出力は
図6a右のグラフのように大きくなる。この例では、α=0.05、d=1のとき、有効な検出力0.8以上を確保するためにはサンプルサイズは7個以上必要ということになるだろう。なおグラフのようにαをもっと低く、すなわち棄却域を厳密にすると、同じ検出力を得るにはもっとサンプルサイズを増やす必要が出てくる。
図6:サンプルサイズを大きくすると(a)、またはエフェクトサイズを大きく設定しておくと(b)、検出力は大きくなるサンプルサイズがそれ以上増やせない場合に検出力を上げる方法は、エフェクトサイズdをあらかじめ大きく設定しておくことである。
図6b左のように、nが一定で、dが大きくなると2つの標本分布の幅 (標本標準偏差)は変わらないが、2つの標本分布の平均の差が大きくなり、分布のオーバーラップは小さくなる (エフェクトサイズの定義のd=(μ
A-µ
0)/σの式による)。図6左でdが大きくなってもαは0.05で変わらないとカットオフ値(11の点線)は変わらないので、検出力(1-β)は大きくなる。エフェクトサイズを大きくすると、検出力が大きくなるのは
図6右のグラフの通りである。
逆に言えば、エフェクトサイズを小さく設定すると、同じ棄却域αでも検出力は小さくてよいことになる。しかし、あまりにエフェクトサイズを小さくすれば、
医学的には無意味な差が統計学的には有意となるので注意が必要である。さらに詳しくは、『
新版 医学への統計学』(古川俊之監修、丹後俊郎著)の第14章「医学的に意味ある差を積極的に評価する検定ーΔ検定」を参照。
(8) サンプルサイズ設定の注意点なお、以上の議論ではH
0とH
Aの母集団分布は未知のものであるので、本当はそれらの正確な標準偏差は分からない。そのため標本分布から母集団標準偏差σを推定するが、それでは検出力が小さくなるので、必要な検出力を確保するためにやや大きめのサンプルサイズnを設定する必要がある。
よい研究デザインのためには、サンプルサイズ、エフェクトサイズ、検出力の3つのバランスを取ることが非常に大切である。そのために、まずtype I errorの確率
(帰無仮説の棄却域)αを0.05、
検出力(1-β)を0.8にすることが伝統的に行われる。次に、医学的・生物学的に望ましい
エフェクトサイズdをあらかじめ設定しておく。
これらのα、1-β、dの値を使って最低限必要な
サンプルサイズnを求めてから、研究を開始する必要がある。もし必要なnがあまりに大きく計算された場合は、母集団のばらつきを減らすため、研究開始前に対象や実験条件を再検討する必要があるだろう。
注7:論文の
Supplementary Table 1で、検出力などの計算やグラフ作成ができるExcelファイルが利用できる。
【参考】このような仮説検定理論、帰無仮説を棄却するアイデア(ネイマン=ピアソンの公式)を構築したのは、
イェジ・ネイマン(1894-1981)と
エゴン・ピアソン(1895-1980)である。エゴン・ピアソンは記述統計学の大成者である
カール・ピアソン(1857-1936)の息子で、ワルシャワ(ポーランド)の数理学者であったネイマンは、ロンドンのエゴン・ピアソンと意気投合し、直接会えない時も郵便のやり取りを通じて1928-1938年にわたって推測統計学を作り上げた。『
統計学を拓いた異才たち』(D. サルツブルグ著、竹内惠行・熊谷悦生訳)によると、ネイマンは親切で誰に対しても思いやりのある性格、エゴン・ピアソンは慎重な紳士であった。しかし、父カール・ピアソンの論敵であったやはり統計学の巨人
ロナルド・フィッシャー(1890-1962)は彼らを嫌悪し激しく攻撃したという。