めもめも

このブログに記載の内容は個人の見解であり、必ずしも所属組織の立場、戦略、意見を代表するものではありません。

ピアソンのカイ二乗検定の基礎となる定理

mimetex の練習がてらに。。。。

定義

\left\{X_1,\cdots,X_n\right\} : 確率 P_\theta\; (\theta \in \Omega) に従う母集団からのランダムサンプル

ここに、\Omegaは、\mathbf{R}^kの開集合とする。

L_n(\theta) \;:= P_\theta(X) : 尤度関数

R_n(X) \;:= \frac{ \sup_{\theta \in \Omega} L_n(\theta) }{ \sup_{\theta \in \Omega_0} L_n(\theta) }

ここに、\Omega_0 \subset \Omega を帰無仮説の範囲とする。(つまり、\exists\theta \in \Omega_0 が帰無仮説。)

定理

\Omega_0 = \left\{\theta\; \mid\; g_j(\theta)=0\;(j=1,\cdots,p)\right\}

すなわち、\dim \Omega_0=k-p、もしくは、p=\dim \Omega - \dim \Omega_0 とする時、

\forall\theta\in\Omega_0;\; 2\log R_n(X)\; \longrightarrow_{n \rightarrow \infty}\; \chi_p^2

証明、および、成立条件は、Testing Statistical Hypotheses の Theorem 12.4.2 を参照。これが成立するための簡単な十分条件は、\frac{d}{d\theta}\sqrt{P_\theta} が存在して、有界連続なこと。

適用例 (1) (さいころの検定)

\left\{X_1,\cdots,X_k\right\}

k 通りの目のでるさいころを n 回振った時のそれぞれの目の出た回数とする。それぞれの目が出る確率を p_i とすると、未知の母変数の集合は、次の通り。

\Omega = (p_1,\cdots,p_{k-1})\;\subset\;\left[0,\;1\right]^{k-1}\;\;(p_k = 1-p_1-\cdots-p_{k-1})

\dim \Omega = k-1

この時の、最大尤度は次の通り。

\sup_{\theta \in \Omega} L_n(\theta) = \frac{n!}{X_1!\cdots X_k!}\left\{\left(\frac{X_1}{n}\right)^{X_1}\cdots\left(\frac{X_k}{n}\right)^{X_k}\right\}

一方、帰無仮説を p_i = \hat p_i (定数)と置くと、\dim \Omega_0 = 0 であり、

\sup_{\theta \in \Omega_0} L_n(\theta) = \frac{n!}{X_1!\cdots X_k!}\left\{\left( \hat p_1 \right)^{X_1}\cdots\left( \hat p_k \right)^{X_k}\right\}

従って、

\log R_n = \log \frac{\left(\frac{X_1}{n}\right)^{X_1} \cdots \left(\frac{X_k}{n}\right)^{X_k}}{\left( \hat p_1 \right)^{X_1}\cdots\left( \hat p_k \right)^{X_k}} = n\sum_i \frac{X_i}{n} \log \frac{ \frac{X_i}{n} }{ \hat p_i }

ここで、x \sim x_0 の際の近似式 x\log\frac{x}{x_0} \simeq (x-x_0) + \frac{1}{2x_0}\left(x-x_0\right)^2 を用いると、

2\log R_n \simeq 2n \sum_i \left( \frac{X_i}{n} - \hat p_i \right) + \sum_i \left\{ \frac{n}{\hat p_i} \left(\frac{X_i}{n} - \hat p_i\right)^2 \right\} = \sum_i \frac{\left(X_i-n\hat p_i\right)^2}{n\hat p_i}

つまり、帰無仮説の下での期待される値と、観測による実現値をそれぞれ、

E_i := n\hat p_i,\; O_i := X_i

として、

\chi = \sum_i \frac{\left(O_i - E_i\right)^2}{E_i}

に対する自由度 k-1 のカイ二乗検定が実施できる。ただし、これがよい近似となる条件は、次の通り。

 O_i \sim E_i、および、n \gg 1

なお、n \gg 1 の場合、大数の法則より、自然に  O_i \sim E_i は成立する。

適用例 (2) クロス集計表の独立性の検定

\left\{X_{ij}\;\mid\;i=1,\cdots,a \; j=1,\cdots,b\right\}

a \times b の大きさのクロス集計表の集計値とする。各項目の確率を

\left\{p_{ij}\;\mid\;i=1,\cdots,a \; j=1,\cdots,b\right\}\; \left(\sum_{ij}p_{ij}=1\right)

とすると、これらの母変数の集合を \Omega として、\dim \Omega = ab - 1

一方、帰無仮説として、縦横の項目が独立だとすると、これは、次の様に表現できる。

\exists \left\{q_1,\cdots,q_a\right\} \subset \left[0,1\right]^a,\; \exists \left\{r_1,\cdots,r_b\right\} \subset \left[0,1\right]^b \;\mbox{s.t.}\; p_{ij} = q_ir_j

\sum q_i = \sum r_i = 1

従って、帰無仮説に含まれる母変数の値の集合 \Omega_0 は、\dim \Omega_0 = (a-1)+(b-1) となる。また、帰無仮説の下での最大尤度を与える確率を

p_{ij} = \hat p_{ij} = \hat q_i \hat r_j

とすると、サンプル数を

n :\!= \sum_{ij}X_{ij}

として、最大尤度は、次の通り。
\sup_{\theta \in \Omega} L_n(\theta) = \frac{n!}{\prod_{ij}X_{ij}!} \prod_{ij}\left(\frac{X_{ij}}{n}\right)^{X_{ij}},\; \sup_{\theta \in \Omega_0} L_n(\theta) = \frac{n!}{\prod_{ij}X_{ij}!} \prod_{ij}\left(\hat p_{ij}\right)^{X_{ij}}

これは、適用例(1)と同じ形式であり、先と同様に、

2\log R_n \simeq \sum_{ij} \frac{\left(X_{ij}-n\hat p_{ij}\right)^2}{n\hat p_{ij}}

つまり、帰無仮説の下での期待される値と、観測による実現値をそれぞれ、

E_{ij} := n\hat p_{ij},\; O_{ij} := X_{ij}

として、

\chi = \sum_{ij} \frac{\left(O_{ij} - E_{ij}\right)^2}{E_{ij}}

に対するカイ二乗検定が実施できる。ただし、自由度は、

\dim \Omega - \dim \Omega_0 = (ab-1) - \left\{(a-1)+(b-a)\right\} = (a-1)(b-1)

となる。

今の場合、\hat p_{ij}X に依存していることにも注意。これより、適用例(1)との自由度の違いが発生する。帰無仮説(独立性の仮定)の下で最大尤度を与える確率 \hat p_{ij}=\hat q_i \hat r_j は、具体的には、次で与えられる。

\hat q_i = \frac{\sum_j X_{ij}}{n},\; \hat r_j = \frac{\sum_i X_{ij}}{n}

この導出は、MIT Opencourseware - Statistics for Applications (Lecture Notes) の Lecture 13 に記載。

(参考)厳密にカイ二乗分布に一致する例

\left\{X_1,\cdots,X_n\right\}

を正規分布 N(\mu,\;\sigma^2) からのランダムサンプルとして、

\Omega = \left\{-\infty<\mu<\infty\right\},\; \Omega_0 = \left\{ \mu = \mu_0 \right\}

の場合を考えると、

\dim \Omega=1,\; \dim \Omega_0 =0

この時、

\sup_{\theta \in \Omega} L_n(\theta) = \frac{1}{\left(\sqrt{2\pi}\sigma\right)^n}e^{-\frac{1}{2\sigma^2}\sum_i\left(X_i - \bar X\right)^2}
\sup_{\theta \in \Omega_0} L_n(\theta) = \frac{1}{\left(\sqrt{2\pi}\sigma\right)^n}e^{-\frac{1}{2\sigma^2}\sum_i\left(X_i - \mu_0\right)^2}

\therefore\;2\log R_n(X) = \cdots = \frac{n}{\sigma^2}\left(\bar X - \mu_0\right)^2 \sim \left\{N(0,\;1)\right\}^2 = \chi_1^2

独立性の検定における 2logR と慣例的な検定統計量の比較例

2\log R_n =n\sum_{ij} \frac{X_{ij}}{n} \log \frac{ \frac{X_{ij}}{n} }{ \hat p_{ij} } = \sum_{ij}O_{ij}log\frac{O_{ij}}{E_{ij}}

と、O \sim E の際に近似される

\chi = \sum_{ij} \frac{\left(O_{ij} - E_{ij}\right)^2}{E_{ij}}

の差を具体例で確認してみる。使用するデータは、R によるやさしい統計学 の 5.6 節から引用。

> data
      stat
math   嫌い 好き
  嫌い   10    4
  好き    2    4
> E <- c(12*14/20, 12*6/20, 8*14/20, 8*6/20)
> O <- c(10,2,4,4)
> 2*sum(O*log(O/E))
[1] 2.530748
> chisq.test(data,correct=FALSE)
        Pearson's Chi-squared test
data:  data 
X-squared = 2.5397, df = 1, p-value = 0.1110

結果は、2\log R_n \approx 2.530748,\;\;\chi \approx 2.5397