Points of significance: Significance, P values and t-tests.Krzywinski M, Altman N.
Nat Methods. 2013 Nov;10(11):1041-2.
Points of significanceの第2回では、まず(1)母集団概念と統計的推測の時制についてまとめ、(2)母集団からこれから観測するデータを「予言」する方法について触れた後、(3)観測したデータからもとの母集団を「推測」する統計的推定を4段階で理解する。最後に(4)
Nature Methods総説にある仮説棄却による統計的検定の例を見る。
1. 母集団概念と統計的推測の「時制」
(1) 母集団と統計的推定統計学では、抽象的な概念である「母集団」(無限母集団)というものを想定している。母集団は、具体的に見たり数えたりできない架空の存在である。何らかの「もの」ではなく、思弁的に想定している「自然現象」という「こと」と考えてよいだろう。これを観測して得たデータが「標本」である。自然現象を観測すると、そのたびに全く同じ値が得られることはないが、これはもとの自然現象がランダムな散らばりを持っていると考える。自然現象はある確率分布の関数で表されるため、一つの「真の値」というようなものは決して知ることはできず、その値は観測から推測するしかない。母集団としての自然現象の数値は、「観測の外」とか「観測値に匹敵するもの」というような語源をもつ「パラメーター」と呼ばれ、母数と訳される。母集団の確率分布はよく正規分布と考えられ、その母平均μ、母標準偏差σなどが母数である。観測データすなわち標本とは、母集団の確率分布に従って生起する数値であると考える。以下では、標本を加工して「統計量」(検定統計量、
注1)という数値を作り、統計量の分布を考えることによって母数をある範囲で推測する。これが統計的推定(statistical inference)である。
注1:統計学で扱う数量のうち、平均や標準偏差など標本データを要約した量は「基本統計量(basic statistics)」と呼ぶ。検定に用いるためにこれらから計算した量のことを「検定統計量(test statistics)」と呼び、以下では検定統計量のことを単に「統計量」と記載することにする。
(2) 統計学における「時制」統計学は、未来に向かって「予言する」のと、過去を向いて「推定する」という大きく分けて2つの時間的方向がある。これに関しては『
完全独習 統計学入門』(小島寛之著、ダイヤモンド社)に詳しく、ここでも「95%予言的中区間」という分かりやすい用語を引用させていただいた。
・
95%予言的中区間:「これから観測するデータ」を95%の確率で「予言する」ときの用語。ある現象の本質がすでに分かっていて、将来の観測でそこからどのような結果が得られるかを95%の確率で予測する。「未来に向かって」の用語である。
・
95%信頼区間:「すでに起きて確定していること」だが、まだ自分が知らないことを推論するときの用語。「過去に向かって」の用語ととれるが、実際にはわれわれの観測を要約して、それを用いてある現象の本質を理解したいというときに用いる。
以下の2では「将来の観測結果を95%予言的中区間で予言する」、3では「ある現象を95%信頼区間で区間推定する」という順でまとめる。以下の議論の進め方も『
完全独習 統計学入門』(小島寛之著)を参考にさせていただいている。
2. 母集団が分かっているとき、これから観測するデータを予言する
(1) 1個の観測データを予言する (統計量zと標準正規分布を用いる)母集団を表す正規分布の中で、平均0、標準偏差(SD)1のものを標準正規分布という。標準正規分布では、-2以上~+2以下の範囲(平均±2SDの間)にデータの95.44%が含まれる。95%を含む範囲は約-1.96以上~約+1.96以下(平均±1.96SDの間) である。
平均μ、
標準偏差σが分かっている正規分布母集団から、
1回だけ観測したときのデータx (1個だけ取り出した
標本x)がどのような数値か、95%の予言的中区間で(未来のことを)予言したい。以下、
分かっている値を青字、
これから知りたい未知の値を赤字で表す。
ここで、
観測データxから
母平均µを引いて
母標準偏差σで割った統計量zを考える。
統計量z=
である。
xは正規母集団から取り出したので、その分布は正規分布に従っている。zは上の式から標準正規分布上の数値であることが分かる。そのため、zは95%の確率で、
-1.96≦≦+1.96
の区間に含まれる。この式を変形すると、
xの95%予言的中区間は、
µ-1.96≦≦µ+1.96
と計算できる。
(2) n個の観測データの平均を予言する (統計量Uと標準正規分布を用いる)同じく
平均μ、
標準偏差σが分かっている正規母集団から、n個の観測値を得る(標本サイズnの標本をこれから取り出す)。このとき、これから取り出す
標本の標本平均¯xがどのような値か95%の確率で予言したい。
標本を何回も取り出すと、そのたびにできる
標本平均¯xによって分布(標本分布)ができる。この標本分布は、
平均µ、標準偏差σ/√nの正規分布になることが分かっている(
Points of significance (1) 参照)。ここで
¯xから
平均µを引いて
標準偏差σ/√nで割ることにより、標準正規分布に従う統計量ができる。これを、
統計量U=
とする。Uは95%の確率で、
-1.96≦≦+1.96
の区間に含まれる。この式を変形すると
、¯xの95%予言的中区間は、
µ-1.96≦≦µ+1.96
と計算できる。
上記の統計量zとUは似ているが、zは1個の観測データ
xに関する統計量で、Uはn個の観測データからなる標本の平均
¯xに関する統計量である。
3. 観測したデータから、未知の母集団について推定する次に、観測したデータを用いて、未知の現象について推定する方法を述べる。これは、今持っている標本を用いて、すでに存在している母集団について推定するという(過去に向かっての)流れであり、以下のような5段階で順に考える。既知の観測データから統計量を作り、その統計量の分布を用いて、今度は未知の母集団について推論する。以後も
分かっている値を青字、
これから知りたい値を赤字で示す。
第0段階:未知の母集団について本当に何もわかっていないとすると、母集団が「正規分布に従っているかどうか」も不明なはずである。しかし以下では母集団が正規分布であることを前提に考えることにする。それ以外の場合は、中心極限定理を用いた大標本の推定か
ノンパラメトリック手法を用いるが、これは別の回で考える。
第1段階: 正規母集団であり、母分散が分かっているとき、母平均を区間推定する。ここで、「母集団については正規母集団であるという以外分かっていない」と言っているの、「母分散は分かっている」というのは、不自然な前提である。しかし、まずはこのような段取りで考えていくことが必要なため、この段階を踏むことにする。
第2段階: 正規母集団であり、母平均が分かっているとき、母分散を区間推定する。これから知りたい母集団について、あらかじめ「母平均が分かっている」というのも不自然だが、先のためにこの段階も理解する。
第3段階: 正規母集団であり、母平均が分かっていないとき、母分散を区間推定する。ここから先の段階では、母集団は正規母集団であるということ以外は分かっていない。まずこの段階では母分散を推定する。最終目標としては母分散より母平均の方が知りたいが、順番上この段階を踏むことにする。
第4段階:正規母集団であり、母分散が分かっていないとき、母平均を区間推定する。
いよいよ最終的な段階であり、母集団について正規母集団であるという以外何も分かっていないところから母平均を推定する。
【第1段階:あらかじめ母分散が分かっている正規母集団から、標本サイズn、標本平均¯xの標本を取り出した。このとき、まだ分かっていない母平均µを95%の信頼区間で区間推定する】→統計量Uと標準正規分布を用いる
ここでは、前項でも出てきた標本平均の分布を考えると、
標本平均¯xは平均
µ(母平均と同じ)、
標準偏差は
σ/√nの正規分布に従う。前項と同じように
統計量U=
を計算すると、Uは標準正規分布に従うから、95%の信頼区間で、
-1.96≦≦+1.96
に含まれる。この式を知りたいμについて変形すると、
-1.96≦≦+1.96
となり、
母平均μが95%信頼区間で区間推定できることになる。(これは「未来の」予言ではないから「95%の確率で予言的中する区間」と言わず、「95%信頼区間での区間推定」と呼ぶことに注意)。
【第2段階:あらかじめ母平均µが分かっている正規母集団から、標本サイズn (x1、x2・・・、xn)、標本平均¯xの標本を取り出した。このとき、まだ分かっていない母分散σ2を95%の信頼区間で区間推定する】→統計量Vと自由度nのカイ二乗分布を用いる
カイ二乗分布について:標本サイズn (x1、x2・・・、xn)のとき、これらの観測データをすべて二乗して合計した、
を考える。このとき、観測の機会ごとに(標本の取り方によって)Vはまちまちの値を取るので、Vはある分布に従う統計量となる。この時の観測データ数nを自由度と呼ぶと(例えば3個ずつ観測データを取っていれば自由度3)、Vは「自由度nのカイ二乗分布(chi-square distribution)」(
図1)に従っている。
図1:カイ二乗分布の図。自由度nによってグラフの形が違う。
さて、
母標準偏差σの推定に戻る。まず各観測データからそれぞれの統計量zを計算すると、
z1=、z2=、・・・、zn=
となり、zは標準正規分布に従っている。そこで、zを標準正規分布から取り出した数値、新しい標本と考える。これらの標本を二乗して合計すると、その統計量Vは自由度nのカイ二乗分布に従うはずである。
統計量V=・・・
=2+2+・・・+2
青字は分かっている数値なので、この式は
V=
というようにまとめられる。最後に、カイ二乗分布するVが95%の頻度で含まれる区間を考えるが、図2のようにVがa以上なら97.5%を含み、b以上なら2.5%を含むという値a、bがカイ二乗分布の数値表から分かる。Vは95%の頻度でこの間にあると言えるので、
a≦≦b
この式をσ2について変形すれば
母分散σ2を95%の信頼区間で区間推定できる。
図2 カイ二乗分布するxの値は、95%の頻度でaとb(黒で塗った外側の面積がそれぞれ2.5%である)の間に含まれる。aとbは自由度nによって値が異なるが、これらはカイ二乗分布の数値表によって分かる。
次項(2)に続く。
休憩コーナー:カイ二乗分布のぬいぐるみ発見!!
( http://nausicaadistribution.blogspot.jp/より)