to66’s diary

ぜひ気軽にコメントしてください。

統計学のストーリー 第2章:検定

第2章:検定

 2種類の標本集団{X1,X2,…,Xm}, {Y1,Y2,…,Yn}の母平均が異なるかどうかを知りたい。

安直には、標本平均を比較すればよい。しかし、その差が小さいとき、例えばのとき、異なると判断してよいのだろうか?サンプリングの偏りでたまたまズレただけではないか?主観で判断するならば、説明力がなく科学ではない。

そこで、これを定量化する。第1章の議論から、 X \sim Norm(\mu _X , \sigma ^2 _X) Y \sim Norm(\mu _Y , \sigma ^2 _Y)と仮定する。

中心極限定理から、

 \bar{X} \sim Norm(\mu_X , \frac{\sigma ^2 _X}{m})

 \bar{Y} \sim Norm(\mu_Y , \frac{\sigma ^2 _Y}{n})

 

〇母分散が異なるか否かを検定する:F検定

不偏標本分散を算出すると

 U^2_X=\frac{1}{m-1} \sum^m_{i=1}(X_i-\bar{X})^2

再生性から

 X_i-\bar{X} \sim Norm(0, \frac{m-1}{m}\sigma^2_X)

 C_i = \frac{X_i-\bar{X}}{\sqrt{\frac{m-1}{m}}\sigma_X}で変数変換すると、 C_i \sim Norm(0,1)

 U^2_X=\frac{1}{m-1} \sum^m_{i=1}(\sqrt{\frac{m-1}{m}}\sigma_X C_i)^2 = \frac{1}{m}\sigma^2_X \sum^m_{i=1}C_i^2

 \frac{m}{\sigma^2_X}U^2_X = \sum^m_{i=1}C_i^2 \sim \chi^2_m

だから、F分布の定義から

 \frac{\frac{U^2_X}{\sigma^2_X}}{\frac{U^2_Y}{\sigma^2_Y}} \sim F(m-1, n-1)

これで、「 \sigma^2_X = \sigma^2_Yであるとき、[tex; \frac{U^2_X}{U^2_Y}]が採れる確率:p」が計算できる。「 p\geq0.9なら \sigma^2_X = \sigma^2_Yであると結論付ける」と先に決めてから計算する。 \frac{\frac{U^2_X}{\sigma^2_X}}{\frac{U^2_Y}{\sigma^2_Y}} \sim F(m-1, n-1)確率密度関数をプロットして、青色の区間にサンプル値が入れば「 p\geq0.9なら \sigma^2_X = \sigma^2_Yであると結論付ける」

f:id:to66:20201020061543p:plain


 

〇母平均が異なるか否かを検定するT検定

F検定で母分散が等しいか否かを調べておく。母分散が等しければA、異なればB。

A)母分散が等しい場合、

 \bar{X}-\bar{Y} \sim Norm(\mu_X-\mu_Y , \frac{\sigma^2_X}{m}+\frac{\sigma^2_Y}{n})

 \frac{(\bar{X}-\bar{Y}-(\mu_X-\mu_Y))}{\sqrt{\frac{\sigma^2_X}{m}+\frac{\sigma^2_Y}{n}}} \sim Norm(0,1)

 \frac{(m-1)U^2_X}{\sigma^2_X} \sim \chi^2_{m-1}なので、t分布の定義から

 \frac{(\bar{X}-\bar{Y}-(\mu_X-\mu_Y))}{\sqrt{(\frac{1}{m}+\frac{1}{n}) (\frac{(m-1)U^2_X+(n-1)U^2_Y}{m+n-2})}} \sim t_{m+n-2}

 

B)母分散が異なる場合、

ウェルチの近似法

母平均の差の検定の自由度について|Takayuki Uchiba|note