前項(1)からの続き
【第3段階:母平均µが分かっていない正規母集団から、標本サイズn (x1、x2・・・、xn)、標本平均¯xの標本を取り出した。このとき、まだ分かっていない母分散σ2を95%の信頼区間で区間推定する】→統計量Wと自由度(n-1)のカイ二乗分布を用いる
まずここでの標本の分散を考える。
標本分散s2は定義上、(各観測値-標本平均)の二乗を合計して標本サイズnで割ったものなので、
標本分散s2=
ここで、
統計量W=
というものを考える。これらの式を比較すると、s2とWは分子が同じで
n×s2=σ2×W
すなわち、
W=
であり、Wは標本分散s2に比例する統計量である。そして、この統計量Wは、自由度(n-1)のカイ二乗分布に従うことが証明されている(証明は省略)。
標本(
標本サイズn、標本平均¯x)から標本分散
s2を計算して、それを
n/
σ2倍すると統計量Wができる。Wは自由度n-1でカイ二乗分布し、Wが95%の頻度で含まれる区間a’-b’はカイ二乗分布の数値表から分かるため、
a’≦≦b’
この式を
σ2について変形すれば、母平均µを用いずに
母分散σ2が95%の信頼区間で区間推定できる。
【第4段階:正規母集団で母標準偏差σが分からない場合、標本サイズn、標本平均¯xの標本を取り出し、分かっていない母平均µを95%の信頼区間で区間推定する】→統計量Tと自由度(n-1)のt分布を用いる
今までの方法から考えて、「求めたい
母平均µを含み、標本から計算でき、しかもそれが従う分布が分かっている統計量」を作る必要がある。そうすればその分布を用いて95%信頼区間で
µが区間推定できる。
この統計量を作ったのが
ウィリアム・ゴセット(1876-1937, ペンネームStudent、注2)であった。ゴセットは、
統計量T= (sは標本の標準偏差)
を作った(注3)。そして、この統計量Tが「自由度n-1のt分布」に従うことを発見した。
図3: t分布 (自由度=1、2、5)と標準正規分布
「Studentのt分布」と呼ばれるこの分布は0を中心として正規分布によく似た形をとるが、正規分布に比べると頂上が低く裾野が広い形をしている(
図3)。nが非常に大きい値をとる大標本であればt分布は正規分布で近似できるが、nが小さい小標本の場合は独自の分布になる。t分布を用いることにより、標本サイズが小さい場合でも正確にµが区間推定できるようになった(注4)。
Tを95%の確率で予言できる区間は、t分布上で-αから+αの間というように分かるので、
-α≦≦+α
となり、これにより
母平均µが95%信頼区間で区間推定できる。
注2:ギネスビール社の醸造技術者であったゴセットは、ギネス社の職務外の研究として秘密裡に論文を書き匿名で発表した。その際「自分は、先生である統計学者
カール・ピアソンのstudent(生徒)である」という意味を込めて「Student」というペンネームを用いたようである。(『
推測統計のはなし』蓑谷千鳳彦著、東京図書より)
注3:多くの本やWikipediaの記載では、この式の√n-1の部分が√nになっている。一方、『
完全独習 統計学入門』(小島寛之著)や『
入門 統計学-検定から多変量解析・実験計画法まで-』(栗原伸一著、オーム社)では√n-1であり、本稿もこれに従っている。多くの本では、標本標準偏差として通常の「標本の標準偏差s」の代わりに、母分散を偏りが出ないよう推定するために自由度で調整した標準偏差「不偏標準偏差」を用いているためこの違いがある。
標本標準偏差と
不偏標準偏差との関係は以下通りである(詳しい説明は省略)。
不偏標準偏差√ x 標本標準偏差(s)
多くの本では、標本標準偏差sを√n/(n-1)倍した不偏標準偏差のことを単に「標本標準偏差」と表記しているために、統計量Tの式
統計量T=
で√n-1が√nとなっているので注意が必要である。
本によって記号がまちまちであることも理解を面倒にしており、「不偏標準偏差をσ ̂、標本標準偏差をs」とちゃんと区別して書いてある本、「前者を小文字のs、後者を大文字のS」と分けている本、不偏標準偏差の意味で「標本標準偏差s」という用語を用いている本などいろいろである。それぞれsが何を意味しているかはっきりさせて、その上で√n-1か√nかを読者が理解している必要があるだろう。
注4:ゴセット以前には、母集団で母標準偏差σが分からない場合に、
統計量=
という統計量を作って、これが正規分布に従うということにして母平均µを区間推定していた。本当は、
(=統計量U)
が正規分布に従うのだが、母標準偏差σが分かっていないので
標本標準偏差sで代用してよいことにしていた。これではnが非常に大きいときは誤差が少ないが、nが小さいときには結果に無視できないずれが生じていた。
そこでゴセットが考案した統計量Tは、
T=
というものであった。これは、
U=、 W=
であることから、
T==(σが消える)
となり、母標準偏差σが分かっていない場合でも
母平均µの区間推定ができる。これは母集団について何もわかっていなくても、母平均が区間推定できる画期的な方法であった。
休憩コーナー(2): 正規分布(左)とt-分布(右)のぬいぐるみも発見!
形から言うと、左の方がt-分布っぽいが・・・。(
http://nausicaadistribution.blogspot.jp/より)
次項(3)に続く。