一人抄読会

syodokukai.exblog.jp
ブログトップ

Points of significanceコラム 3 :統計学における検出力、エフェクトサイズ、サンプルサイズ

Points of significance: Power and sample size.

Krzywinski M, Altman N.

Nat Methods. 2013 Nov;10: 1139–1140.

【総説内容】
科学研究では、ある現象が観測されたとき、それが偶然によるのか、ある作用によるのかを検討する必要があるだろう。その際、その観測値がもともと含まれる母集団からの標本なのか、それとも別の母集団からの標本なのかを判断するという統計学的手法を用いる(注1)。

注1:ここでの「母集団」は、何らかの実体をもった集団ではなく、抽象的な概念であり架空の存在である無限母集団を想定している。

その際、まず「これら2つの母集団の間には差がない」というnull hypothesis (帰無仮説)を立て、帰無仮説が起きる確率は非常に小さいことを示して帰無仮説を棄却し、alternative hypothesis (対立仮説)を採択するという方法を取る。対立仮説は、「2つの母集団間には差がある」(注2)というもので、これは結局「今回観測された現象は、ある作用によって起きたものであり、偶然のばらつきによるものではない」ことを示す。これをeffect (効果)があったと表現する。

注2:厳密には、2つの母集団間に「差がないとは言えない」というべきだが、以下では分かりやすくするため「差がある」とする。

研究においてeffectは必ず正しく検出されるわけではなく、effectが正しく検出される確率というものがあり、それが今回述べるstatistical power (統計学的パワー、検出力)である。この検出力は非常に重要な概念であるにもかかわらず、医学・生物学研究でしばしば見落されている。しかし、検出力が低い研究では重要なeffectが検出できない可能性がある。そのため、検出力不十分の研究は実験費用や人員の無駄になったり、結果的に有害な条件下に被験者を置く非倫理的な研究になったりする危険がある。そのため、Nature Pulishing Groupの投稿チェックリストでも、「事前に設定したエフェクトサイズ (後述)を検出するための十分な検出力を確保するサンプルサイズ(標本数)を選んでいるか」ということが記載されている。

(1) Sensitivityとspecificity
検出力について述べる前に、疾患と検査の関係でよく用いられるsensitivityとspecificityについて述べる。「実際に疾患があるかないか」と「検査で陽性になるか陰性になるか」の割合は、図1の4通りが考えられる。
d0194774_22276100.jpg

図1 疾患と検査におけるsensitivityとspecificity

この4通りとはTrue/False Positive/Negativeであり、これをもとに、

Sensitivity (感度)=a/(a+c) 疾患があるときに検査で正しく陽性になる率
Specificity (特異度)=d/(b+d) 疾患がないときに検査で正しく陰性になる率

と定義される。ここで、

False Positive率=疾患がないのに検査で誤って陽性になる率 α=b/(b+d)  
False Negative率=疾患があるのに検査で誤って陰性になる率 β=c/(a+c)

というものが考えられる。

(2) Type I errorとtype II error
最初の「観察された標本が、もともと想定される母集団からの標本なのか、それとは異なる母集団からの標本と考えられるのか」という問題についても同様の表ができる。ここでは、2つの母集団間で「実際に差があるか、ないか」と「差があると推測されるか、ないと推測されるか」で図2の4通りに分けられる。
d0194774_2228349.jpg

図2 母集団間の差の有無と推測による判断

ここでは、

False Positive率 α= 正しいH0を誤って棄却する割合
False Negative率 β= 正しくないH0を誤って採択する割合

となっている。このように、前者の本当は差がない (帰無仮説が正しい)のに、「差がない」という帰無仮説を誤って棄却することをType I errorといい、後者の本当は差がある (帰無仮説が誤りである)のに、「差がない」という帰無仮説を誤って採択することをType II errorという (それぞれの確率はαとβ)。

(3) Power (検出力)
図1疾患があるときに検査で正しく陽性になる確率をpower(検出力)といい、感度と同じa/(a+c) である。これは図2では、母集団間に実際に差があるときに、推測によって差があると正しく判断される確率が検出力(1-β)である。

図3では例として、ある蛋白の発現量の観測値がxであったとき、それが単なる偶然のばらつきの結果なのか、それとも何らかのeffectがあった結果なのかを考えている。これは統計学的には、観測値xがもともと想定される正規母集団(平均µ0=ここでは10)からの標本なのか、それともそれとは違う正規母集団(平均µA=12とする)からの標本なのかという問題である。このとき、2つの母集団間に差がないとする帰無仮説H0と、それに対する対立仮説HAを立て、H0が棄却できるかどうかを検討する(注3)。

注3:2つの母集団に差がない場合、平均µ0の母集団とそれと違う平均µAの母集団で、µ0とµAどちらが大きいかは決められていない。しかしここでは便宜上、図3のように後者の方が大きいとする片側検定 (one-tailed test)について考える。µ0とµAの大小が予測できないときは両側検定(two-tailed test)になるが、ここでは省略する。

図3aのように限界値x*を設定し、観測値xがそれより大きければH0は棄却できるとする。H0がx*より大きい確率はαであり、これは例えば0.05のように非常に小さいのでここに観測値が入ると帰無仮説H0は棄却するとする。このとき、帰無仮説が正しいのに棄却してしまう確率(本当は差がないのに、誤って差があると判断してしまう=Type I errorの確率)はα、正しい帰無仮説を正しく採択する確率(本当は差がなく、差がないと正しく判断する確率=specificity)は(1-α)である。
d0194774_22283821.jpg

図3 帰無仮説(a)と対立仮説(b)、推測のエラーと検出力(c)
 
ここでxが限界値x*より大きい時は、観測値xは対立仮説HA母集団からの標本と考えられるとすると、図3bのようにx*より小さいとき、本当は帰無仮説H0は正しくないのに、H0を採択してしまう。したがって、帰無仮説が正しくないのに採択してしまう(本当は差があるのに、誤って差がないと判断してしまう)Type II errorの確率はβ、帰無仮説を正しく棄却し対立仮説を採択する確率(本当は差があり、それを差があると正しく判断できる確率=sensitivityおよび検出力)は(1-β)である。

(4) Effect size
なお、H0の正規母集団とHAの正規母集団はどちらも標準偏差がσで同じとする。そのとき、d=(μA-µ0)/σをエフェクトサイズと呼ぶ。σ=1の標準正規分布のとき、dはμA-µ0である(図3c)。初めに対立仮説の分布を設定する時に、このd (effectがあるとき、どのくらいの差ができるはずなのかという量)を事前に決めておく必要がある。もしこれが医学研究なら、「医学的・生物学的に意味のある差dとはどれくらいなのか」を医学的観点からあらかじめ設定しておかなければならない。

注4:なお以上の議論で、母集団というのは全く未知のものであるはずなのに、その平均や標準偏差の数値があらかじめ分かっているというのはおかしな話だが、ここでは説明のため分かったことにして話を進めている。

(5) 陽性的中率(PPV)
ここで、やや本題からはずれてPPVについて述べる。図1のような疾患と検査において、「ある検査が陽性のとき、本当にその疾患がある割合」を陽性的中率(positive predictive value, PPV)という。「ある疾患が陰性のとき、本当にその疾患がない割合」は陰性的中率(negative predictive value, NPV)である。図1では、

陽性的中率(PPV)=a/(a+b)
陰性的中率(NPV)=d/(c+d)

である。図2の場合は、PPVは「母集団間に差があると推測されたとき、本当に差がある確率」、NPVは「母集団間に差がないと推測されたとき、本当に差がない確率」であり、図2に色で示した通りになる。
d0194774_22291986.jpg
図4 Effectがある割合(a)、検出力が上がると陽性的中率も増加する(b)

図4aでは、上段は50%effectがある(疾患と検査の関係で言うと、疾患がある割合=有病率が50%ということ)、下段は10% effectがある(有病率10%に相当する)場合を表している。青がeffectあり=母集団間に差がある、緑がeffectなし=差がないという帰無仮説を表す。

図4b上段で、検出率0.2で推測した場合(左上)、母集団間に本当に差があるとき、差があると正しく推測される確率が0.2だから、実際にeffectがある点線から右半分のうち、灰色(「差がない」と誤って推測される=false negative)ではなく水色(「差がある」と正しく推測される=true positive)の割合が0.2になっている。検出率0.5(中央上)や0.8(右上)の場合も、同じように青の部分の割合が0.5、0.8になっている。また、帰無仮説を5%の棄却域で棄却するとすると、帰無仮説(点線から左半分) のうち5%(赤い部分)は母集団間に差がないという帰無仮説が誤って棄却されてしまう。すなわち、緑(「差がない」と正しく推測される=true negative)ではなく、赤(「差がある」と誤って推測される=false positive)の部分が左半分の5%になっている(注5)。

注5:元論文のこの図では5%がちょっと大きめに描いてある。

このとき、陽性的中率は「差がある」と推測された場合の本当に差がある確率なので、図4bのようにtrue positive/(false+true positive)、青/(青+赤)で表されるので、検出力が0.2、0.5、0.8と上がると、PPVも0.80、0.91、0.94と上昇する。

実際の生物学実験では、図4下段のように10%しかeffectが見られないことも珍しくない。このときは、検出率0.2の実験では陽性的中率が0.31しかなく、通常求められる検出率0.8であってもその実験の陽性的中率は0.64である。これでは、実験で差があると認められてもその3割以上はfalse positiveである。

検出力の低い実験では、このように陽性的中率が低くなるので、研究の前に十分な検出力のある実験を行っているか注意が必要である。多くの研究では、統計学的に検出力不足(underpowered)であり、そのために再現性の低い結果しか得られていないことが報告されている。

(6) Specificityとsensitivity (検出力)の関係

次に(4)の例に戻って、specificityとsensitivity(検出力)の関係について述べる。

図5aでH0は平均µ0=10、σ=1の正規分布とし、その棄却域αを0.05に決めると、H0を棄却できる限界値x*は11.64になる。ここでHAの正規分布を見ると、観測値xがカットオフ値x*(11.64)より小さい時は、観測値は本当はHAの母集団からの標本なのに、誤ってH0が正しいという判断を下してしまう。これは実際は差(effect)があるのに、差がないとしてしまうtype II errorであり、その確率はβ=0.36)で表される。したがって、1-β=0.64が、差があるときにH0を正しく棄却する(差があると判断する)という検出力(およびsensitivity)である。

ここで、H0の棄却域αを0.05から0.12に引き上げると、観測値xのカットオフ値は11.17に下がり、検出力は上記の0.64から0.80に上がる。この検出力の増加は、αの低下すなわち、本当は母集団間の差(effect)がないのに誤って「差がある」と判断してしまうfalse positiveの増加を犠牲にしていることになる。

注6:なお、原文ではWe can increase power by decreasing sensitivity.と書いてあるが、原文のsensitivityはspecificityの誤植。

図5bでは、2つの母集団H0とHAはそのままで、観測値のカットオフ値が小さくなると ((x*-µ0)が小さくなると)、それにしたがってαが大きくなるが、そのとき検出力(1-β)はどのように変化するかを示している。
d0194774_22295563.jpg
図5:限界値x*が小さくなると検出力が上がる(a)。この関係を示すグラフ(b)。

x*-µ0を小さくすると、検出力 (1-β、図5aの青い部分の面積)はS字カーブを描いて大きくなる(図5bの赤い矢印)。しかしそれに伴って、α (false positive率、赤い部分の面積)も大きくなってしまう。なおそれはspecificity (1-α、緑の部分の面積)が小さくなることにもつながる。研究において真のpositiveを検出するために、検出力は大きくしたいが、しかしfalse positiveは減らしたい。この場合どうすればよいだろうか?

まず、図5aの分布が狭ければ2つの母集団のオーバーラップが減り、HAの分布においてx*より大きい部分(青い部分)が増えて検出力は上昇する。しかし、分布を狭くする、すなわち標準偏差σを小さくする、すなわち実験精度を上げてばらつきを減らすというのは難しいことも多い。より直接的な方法は標本をx一つだけでなく、数多く観察することである。それにより標本分布(標本平均x bar、標本標準偏差σ/√n) を得るようにする。

(7) サンプルサイズとエフェクトサイズが検出力に及ぼす影響
最後に上記のように、標本をn個取ったときの平均値の分布(標本分布)を考える。

図6aにおいて、左の正規分布曲線は標本分布を表している。H0は帰無仮説の母集団から得た標本n個の標本分布であり、HAは対立仮説から得た標本n個の標本分布である(図5のように母集団そのものではないことに注意)。

ここで、標本の大きさnが増えても、標本分布の平均は変わらない (nが大きくなると、それは母集団平均に等しくなるので、ここではいずれも10と12としている)。しかし、標本の大きさnが増えると、標本分布の標準偏差は(母集団の標準偏差σ)/√(標本の大きさn)の式にしたがって小さくなる

これらの分布において、帰無仮説を棄却する棄却域αが0.05になるように、標本分布の平均値のカットオフ値(点線)を決める。そうすると、nが大きくなるにしたがって分布は狭くなり、そのαが0.05になるためのカットオフ値は図6aのように小さくなり、検出力(1-β)は大きくなる。あらかじめ設定した エフェクトサイズd (2つの母集団間にこれ以上差があれば「母集団間に差があった、effectがあった」と考えてよいとする差)が1だったとする。標本の大きさ(サンプルサイズ) nが大きくなると、検出力は図6a右のグラフのように大きくなる。この例では、α=0.05、d=1のとき、有効な検出力0.8以上を確保するためにはサンプルサイズは7個以上必要ということになるだろう。なおグラフのようにαをもっと低く、すなわち棄却域を厳密にすると、同じ検出力を得るにはもっとサンプルサイズを増やす必要が出てくる。
d0194774_22303090.jpg
図6:サンプルサイズを大きくすると(a)、またはエフェクトサイズを大きく設定しておくと(b)、検出力は大きくなる

サンプルサイズがそれ以上増やせない場合に検出力を上げる方法は、エフェクトサイズdをあらかじめ大きく設定しておくことである。図6b左のように、nが一定で、dが大きくなると2つの標本分布の幅 (標本標準偏差)は変わらないが、2つの標本分布の平均の差が大きくなり、分布のオーバーラップは小さくなる (エフェクトサイズの定義のd=(μA-µ0)/σの式による)。図6左でdが大きくなってもαは0.05で変わらないとカットオフ値(11の点線)は変わらないので、検出力(1-β)は大きくなる。エフェクトサイズを大きくすると、検出力が大きくなるのは図6右のグラフの通りである。

逆に言えば、エフェクトサイズを小さく設定すると、同じ棄却域αでも検出力は小さくてよいことになる。しかし、あまりにエフェクトサイズを小さくすれば、医学的には無意味な差が統計学的には有意となるので注意が必要である。さらに詳しくは、『新版 医学への統計学』(古川俊之監修、丹後俊郎著)の第14章「医学的に意味ある差を積極的に評価する検定ーΔ検定」を参照。

(8) サンプルサイズ設定の注意点

なお、以上の議論ではH0とHAの母集団分布は未知のものであるので、本当はそれらの正確な標準偏差は分からない。そのため標本分布から母集団標準偏差σを推定するが、それでは検出力が小さくなるので、必要な検出力を確保するためにやや大きめのサンプルサイズnを設定する必要がある。

よい研究デザインのためには、サンプルサイズ、エフェクトサイズ、検出力の3つのバランスを取ることが非常に大切である。そのために、まずtype I errorの確率(帰無仮説の棄却域)αを0.05検出力(1-β)を0.8にすることが伝統的に行われる。次に、医学的・生物学的に望ましいエフェクトサイズdをあらかじめ設定しておく

これらのα、1-β、dの値を使って最低限必要なサンプルサイズnを求めてから、研究を開始する必要がある。もし必要なnがあまりに大きく計算された場合は、母集団のばらつきを減らすため、研究開始前に対象や実験条件を再検討する必要があるだろう。

注7:論文のSupplementary Table 1で、検出力などの計算やグラフ作成ができるExcelファイルが利用できる。

【参考】
このような仮説検定理論、帰無仮説を棄却するアイデア(ネイマン=ピアソンの公式)を構築したのは、イェジ・ネイマン(1894-1981)とエゴン・ピアソン(1895-1980)である。エゴン・ピアソンは記述統計学の大成者であるカール・ピアソン(1857-1936)の息子で、ワルシャワ(ポーランド)の数理学者であったネイマンは、ロンドンのエゴン・ピアソンと意気投合し、直接会えない時も郵便のやり取りを通じて1928-1938年にわたって推測統計学を作り上げた。『統計学を拓いた異才たち』(D. サルツブルグ著、竹内惠行・熊谷悦生訳)によると、ネイマンは親切で誰に対しても思いやりのある性格、エゴン・ピアソンは慎重な紳士であった。しかし、父カール・ピアソンの論敵であったやはり統計学の巨人ロナルド・フィッシャー(1890-1962)は彼らを嫌悪し激しく攻撃したという。

[PR]
by md345797 | 2014-09-30 21:56 | その他