前項(2)からの続き
4. Nature Methods総説(Krzywinski M, Altman N. 2013 Nov)最後に、
Nature Methods総説にある有意性と統計的検定の例を確認する。
(1) 1回の観測値が有意かどうかの検定ある蛋白の発現量が10であるとき(これは過去の繰り返しの実験から明らかになっているとする)、今回の実験では発現量12と観測された。観測値12は妥当なものだろうか?
図4aで、ある現象の数値として分かっている値(Reference、ここでは10)は母集団平均に当たるのでµ
、観測値(observed、ここでは12)は標本データに当たるのでxとしてある。
観測値xはランダムなばらつきを示すので、取りうるすべての値の母集団から取り出した一つの標本であると考える。無数に観測を繰り返したときの観測値とその度数の関係を表したグラフは図4bのような正規分布になると思われる(正規分布と考えられない場合については別の回で述べる)。今回の観測値x=12は実際のところ、ありえないような外れ値である。それを示すため、まず、帰無仮説H0「今回の観測値は図4bのようなμを平均とするような母集団から得られたものである」を立て、最終的にこれを棄却するという方法を取る。帰無仮説H0を表した母集団(図4b)を帰無分布と呼ぶ。
このとき、x=12以上に外れた観測値が出る確率は、網掛けの部分の面積で計算される部分である。これがP値である。P値の大小によって今回の観測値の妥当性を判断する。ここでP値が小さい(通常P=0.05)ということは、帰無仮説の下でほとんどありえないことが起こったと考える。この帰無仮説H0の下でほとんどありえないことが起きているとすると、おおもとの状況(H0)自体が間違っているのだろうと棄却する。そこで、その対立仮説H1「今回観測された標本は、平均がµではない母集団から得られたものである」が有意に支持されることになる。
(なお厳密に言えば、このような対立仮説H1は「よく用いられる対立仮説」に過ぎず、他の対立仮説もいろいろ考えられる。だからこの対立仮説H1が「必ず正しい」とは限らない。)
図4 1個の観測値の有意性の判断なお、P値は「帰無仮説の下でほとんどありえないことが起こった」確率であって、「帰無仮説が正しい確率である」ということではないので注意(
注5)。この点はしばしば誤って解釈される。また、P値は統計的に有意であることを表すが、単に「統計的に」であって、それ以上の意味付けはできないことにも注意が必要である(
注6)。
注5:これは
「訴追者の誤謬」(prosecutor's fallacy)と同じ原理で間違っている。訴追者の誤謬についてはここでは述べないが『
リスク・リテラシーが身につく統計的思考法―初歩からベイズ推定まで』(ゲルト・ギーゲレンツァー著、吉田 利子訳、ハヤカワ文庫NF)に詳しい解説がある。
注6:統計的有意性が示されても、それ以上の価値判断は加えられないことに注意する。さらにはその観測値自体にも何か「意味がある」とすら言えない。
特に「統計的に有意差がある」とつい「一方が優れている」などと価値判断しがちだが、それは厳に慎むべき態度である。有意性(significance)という言葉は「重要な」とか「意味がある」という内容も含むため、significantly differentという言葉は誤解を招きやすいのかもしれない
。統計的に有意な結果が「何を意味するか」は、統計学以外の根拠に基づいて決定されるべきなのである。なお、有意水準がp=0.05というのは単なる慣習的な線引きなので、0.049なら有意で0.051なら有意でないなどと判断するのはおかしい。差があるか否かはP=0.05という数字で区切るのではなく、そこでもやはり統計学以外の判断が必要であろう。
この注6の部分は、『
涙なしの統計学』(D. ロウントリー著、加納悟訳、新世社) の記載を参考にさせていただいた。
(2) n個の観測値の平均が有意かどうかの検定次に、1つのデータだけでなくさらに4つのデータを観測したとする。そうすると、n=5の標本を取ったことになる(図5a)。このときの標本平均は¯x=10.85、標本標準偏差s=0.96であった。この標本標準偏差s=0.96は母集団の標準偏差σと同じ考えてよいと仮定する(この仮定が成り立たない場合については別の回で述べる)。 ここで標本平均¯xの分布は正規分布であり、その平均はµ、標準偏差はs/√nである(図5b)。(
注7)
図5 n個の観測値の有意性の判断注7:Nature Methodsの総説にはこう書いてあるが、正しくは前項(2)の注4のように標本分布の標準偏差はσ/√nである。ここではs=σと仮定しているのでこれでよいことにしている。また、これも前項(2)の注3のようにここでのsは単なる標本の標準偏差のことだから、
不偏標準偏差
√
x 標本標準偏差s
で不偏標準偏差を計算して、
統計量T=
とするべきだろう。
これらのことは、この総説では省略されてしまっている。
上記のTが取りうる値のt-分布から、図5cのような¯xの分布が分かる。1つの観測データのときと同じく、P値が求められ、これにより5個の観測データの平均が有意かどうかが判断できる。
(3) t-検定を用いた有意性の判断上の例でn個のデータを観測したときに、
統計量t=
はデータ数nを自由度とした図6aのようなt-分布に従う(
注8)。
注8:この
Nature Methodsの総説にはこう書いてあるものの、正しくは上の
注7の統計量Tの式が正しい。この総説ではsを不偏標準偏差としているのだろうが、混同しやすい記載である。
図6 t-分布とそのP値ここで、nが大きければ統計量tの値のP値も正規分布に近いが、nが小さい小標本の場合は同じtでもP値は非常に小さくなり、有意性を無視できないくらい過大評価してしまう。そのため、小標本の場合は正規分布ではなくt-分布で考える必要がある。例として、n=5の場合t=1.98であるP値はP=0.119であるはずなのに、正規分布で考えていると、P=0.048と有意であることになってしまう。