多元统计分析06:多元正态分布的假设检验(2)
- 2021 年 11 月 8 日
- 筆記
- 《多元统计分析》学习笔记
Chapter 6:多元正态分布的假设检验(2)
一、单个正态总体协方差阵的检验
Part 1:协方差阵为单位阵的检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为来自 \(p\) 元正态总体 \(N_p\left(\mu,\Sigma\right)\) 的随机样本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,检验
\]
此时采用似然比检验,似然函数为
\]
在 \(H_0\) 假设下的极大似然为
\]
在 \(H_1\) 假设下的极大似然为
\]
构造似然比统计量为
\]
当样本容量 \(n\) 充分大时
\]
这里需要注意到协方差阵有 \(p(p+1)/2\) 个自由度,这是因为协方差阵的对称性。
Part 2:协方差阵为非单位阵的检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为来自 \(p\) 元正态总体 \(N_p\left(\mu,\Sigma\right)\) 的随机样本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,检验
\]
因为 \(\Sigma_0>0\) ,故存在非退化矩阵 \(D\) ,使得 \(D\Sigma_0D’=I_p\) ,构造
\]
此时,检验问题等价于
\]
仍然采用似然比检验,参考单位阵的情况,构造似然比统计量为
\]
当样本容量 \(n\) 充分大时
\]
Part 3:协方差阵的球性检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为来自 \(p\) 元正态总体 \(N_p\left(\mu,\Sigma\right)\) 的随机样本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,检验
\]
仍然采用似然比检验,似然函数为
\]
这里 \(\sigma^2\) 是未知参数,当 \(\sigma^2\) 给定时,似然函数 \(L\left(\mu,\sigma^2\Sigma_0\right)\) 在 \(\mu=\bar{X}\) 时取到最大值,即
\]
下面还要对 \(\sigma^2\) 求解极大似然估计,令
\]
在 \(H_0\) 假设下的极大似然为
\]
在 \(H_1\) 假设下的极大似然为
\]
构造似然比统计量为
\]
此时有对数似然比
\]
当样本容量 \(n\) 充分大时
\]
这里需要注意自由度和之前相比减少 \(1\) ,是因为原先的参数空间 \(\Theta_0\) 是完全给定的,而这里的 \(\Theta_0\) 中包含一个自由参数 \(\sigma^2\) 。
Part 4:均值向量和协方差阵的联合约束检验
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为来自 \(p\) 元正态总体 \(N_p\left(\mu,\Sigma\right)\) 的随机样本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,检验
\]
其中 \(\mu_0\) 和 \(\Sigma_0>0\) 是已知的向量和正定矩阵,采用似然比检验,似然函数为
\]
在 \(H_0\) 和 \(H_1\) 假设下的极大似然为
&\max_{(\mu,\Sigma)\in\Theta_0}\,L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}\left|\Sigma_0\right|^{n/2}}\exp\left\{-\frac12{\rm tr}\left(\Sigma_0^{-1}A\right)-\frac12n\left(\bar{X}-\mu_0\right)’\Sigma_0^{-1}\left(\bar{X}-\mu_0\right)\right\} \ . \\ \\
&\max_{(\mu,\Sigma)\in\Theta_1}L\left(\mu,\Sigma\right)=L\left(\bar{X},\frac1nA\right)=(2\pi)^{-np/2}\left|\frac1nA\right|^{-n/2}\exp\left\{-\frac{np}{2}\right\} \ .
\end{aligned}
\]
构造似然比统计量:
\]
计算对数似然比:
\]
当样本容量 \(n\) 充分大时
\]
这里的自由度是均值向量的自由度和协方差阵的自由度之和。
二、多个正态总体的参数检验问题
Part 1:均值向量齐性检验
设 \(X^{(i)}=\left(X_{(1)}^{(i)},X_{(2)}^{(i)},\cdots,X_{(n_i)}^{(i)}\right),\,i=1,2,\cdots,k\) 分别为来自 \(k\) 个正态总体 \(N_p\left(\mu^{(i)},\Sigma_i\right),\,i=1,2\cdots,k\) 的随机样本,已知 \(\Sigma_1=\Sigma_2=\cdots=\Sigma_k\xlongequal{def}\Sigma>0\) ,考虑假设检验问题:
\]
这里我们使用多元方差分析进行假设检验,首先给出如下的记号:
\]
定义样本总离差阵
\]
定义组内离差阵
\]
定义组间离差阵
\]
可以证明,有离差阵分解式成立
\]
当原假设成立时,组间离差阵应该比较小,组内离差阵应该很接近总离差阵。故类似于似然比的原理,我们可以构造 \(H_0\) 的检验统计量为
\]
其中每个正态总体的样本离差阵服从 Wishart 分布 \(A_i\sim W_p\left(n_i-1,\Sigma\right),\,i=1,2,\cdots,k\) 且相互独立。由可加性可得
\]
在原假设成立的条件下,可以证明 \(T\) 和 \(B\) 的分布为
\]
且 \(B\) 与 \(A\) 相互独立,所以在原假设成立的条件下,检验统计量
\]
这里没有合适的近似分布,所以只能查 Wilks \(\Lambda\) 分布表,得到显著性水平为 \(\alpha\) 的拒绝域为
\]
Part 2:协方差阵齐性检验
设 \(X^{(i)}=\left(X_{(1)}^{(i)},X_{(2)}^{(i)},\cdots,X_{(n_i)}^{(i)}\right),\,i=1,2,\cdots,k\) 分别为来自 \(k\) 个正态总体 \(N_p\left(\mu^{(i)},\Sigma_i\right),\,i=1,2\cdots,k\) 的随机样本,其中 \(\mu^{(i)},\,\Sigma_i,\,i=1,2,\cdots,k\) 均未知,考虑假设检验问题:
\]
样本的似然函数为
\]
在 \(H_1\) 假设下的极大似然为
\max_{\mu^{(i)},\Sigma_i>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma_1,\cdots,\Sigma_k\right)&=\prod_{i=1}^kL_i\left(\bar{X}^{(i)},\frac{1}{n_i}A_i\right) \\ \\
&=\prod_{i=1}^k\left(2\pi\right)^{-n_ip/2}\left|\frac{1}{n_i}A_i\right|^{-n_i/2}\exp\left\{-\frac{n_ip}{2}\right\} \\ \\
&=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2} \ ,
\end{aligned}
\]
在 \(H_0\) 假设下的极大似然为
\max_{\mu^{(i)},\Sigma>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma\right)&=L\left(\bar{X}^{(1)},\cdots,\bar{X}^{(k)},\frac1nA\right)
\\ \\
&=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\left|\frac{1}{n}A\right|^{-n/2} \ ,
\end{aligned}
\]
构造似然比统计量为
\lambda&=\max_{\mu^{(i)},\Sigma>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma\right)\bigg/\max_{\mu^{(i)},\Sigma_i>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma_1,\cdots,\Sigma_k\right) \\ \\
&=\left|\frac{1}{n}A\right|^{-n/2} \bigg/ \prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2}
\end{aligned}
\]
计算对数似然比
\]
该统计量尚无小样本的精确分布,但有渐进分布
\]
这里原假设的自由参数包括 \(k\) 个多元正态分布的均值向量和它们相等的协方差阵 \(\Sigma\) ,故其参数空间的自由度为 \(kp+p(p+1)/2\) ,而备择假设的自由参数包括 \(k\) 个多元正态分布的均值向量和各自的协方差阵,故其参数空间的自由度为 \(kp+kp(p+1)/2\) 。根据似然比检验的原理,近似分布的自由度为两者之差,即为 \(p(p+1)(k-1)/2\) 。
Part 3:均值向量和协方差阵的齐性检验
设 \(X^{(i)}=\left(X_{(1)}^{(i)},X_{(2)}^{(i)},\cdots,X_{(n_i)}^{(i)}\right),\,i=1,2,\cdots,k\) 分别为来自 \(k\) 个正态总体 \(N_p\left(\mu^{(i)},\Sigma_i\right),\,i=1,2\cdots,k\) 的随机样本,其中 \(\mu^{(i)},\,\Sigma_i,\,i=1,2,\cdots,k\) 均未知,考虑假设检验问题:
&H_0:\mu^{(1)}=\cdots=\mu^{(k)}\xlongequal{def}\mu \ \text{ and } \ \Sigma_1=\cdots=\Sigma_k\xlongequal{def}\Sigma \ , \\ \\
&H_1:\exist\,i\neq j,\ \text{ s.t. }\ \mu^{(i)}\neq \mu^{(j)} \ \text{ or }\ \Sigma_i\neq\Sigma_j\ .
\end{aligned}
\]
这里我们仍然采用似然比检验,和上一个问题很类似。
在 \(H_1\) 假设下的极大似然为
\max_{\mu^{(i)},\Sigma_i>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma_1,\cdots,\Sigma_k\right)&=\prod_{i=1}^kL_i\left(\bar{X}^{(i)},\frac{1}{n_i}A_i\right) \\ \\
&=\prod_{i=1}^k\left(2\pi\right)^{-n_ip/2}\left|\frac{1}{n_i}A_i\right|^{-n_i/2}\exp\left\{-\frac{n_ip}{2}\right\} \\ \\
&=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2} \ ,
\end{aligned}
\]
在 \(H_0\) 假设下的极大似然为
\max_{\mu,\Sigma>0}L\left(\mu,\Sigma\right)=L\left(\bar{X},\frac1nT\right)=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\left|\frac{1}{n}T\right|^{-n/2} \ ,
\end{aligned}
\]
构造似然比统计量为
\lambda&=\left|\frac{1}{n}T\right|^{-n/2} \bigg/ \prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2}
\end{aligned}
\]
计算对数似然比
\]
该统计量也无小样本的精确分布,但有渐进分布
\]
这里原假设的自由参数包括 \(k\) 个多元正态分布的相等的均值向量 \(\mu\) 和相等的协方差阵 \(\Sigma\) ,故其参数空间的自由度为 \(p+p(p+1)/2\) ,而备择假设的自由参数包括 \(k\) 个多元正态分布的均值向量和各自的协方差阵,故其参数空间的自由度为 \(kp+kp(p+1)/2\) 。根据似然比检验的原理,近似分布的自由度为两者之差,即为 \(p(p+3)(k-1)/2\) 。
三、独立性检验
设总体 \(X\sim N_p\left(\mu,\Sigma\right)\) 可以剖分 \(p_1\) 维和 \(p_2\) 维的子向量 \(X^{(1)}\) 和 \(X^{(2)}\) ,其中 \(p_1+p_2=p\) ,满足
X^{(1)} \\
X^{(2)}
\end{bmatrix}\sim N_p\left(\begin{bmatrix}
\mu^{(1)} \\
\mu^{(2)}
\end{bmatrix},\begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{bmatrix}\right) \ ,
\]
这里均值向量 \(\mu\) 和协方差阵 \(\Sigma>0\) 均未知。在正态总体下,检验 \(X^{(1)}\) 和 \(X^{(2)}\) 是否相互独立的问题,等价于检验 \(\Sigma_{12}\) 是否等于 \(O\) 。故考虑如下的假设检验问题
\]
设 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 为来自该多元正态总体 \(N_p\left(\mu,\Sigma\right)\) 的简单随机样本,将样本均值向量 \(\bar{X}\) 和样本离差阵 \(A\) 也作相应的剖分
X_{(\alpha)}^{(1)} \\
X_{(\alpha)}^{(2)}
\end{bmatrix} \ , \quad \bar{X}=\begin{bmatrix}
\bar{X}^{(1)} \\
\bar{X}^{(2)}
\end{bmatrix} \ , \quad A=\begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix} \ .
\]
在 \(H_1\) 假设下的极大似然为
\]
在 \(H_0\) 假设下,由于 \(X_{(\alpha)}^{(1)}\) 和 \(X_{(\alpha)}^{(2)}\) 相互独立,故样本的似然函数为
\]
故在 \(H_0\) 假设下的极大似然为
\max_{\mu,\Sigma_{12}=0}L\left(\mu,\Sigma\right)&=L_1\left(\bar{X}^{(1)},\frac{1}{n}A_{11}\right)L_2\left(\bar{X}^{(2)},\frac{1}{n}A_{22}\right) \\ \\
&=\prod_{i=1}^2\left(2\pi\right)^{-np_i/2}\left|\frac1nA_{ii}\right|^{-n/2}\exp\left\{-\frac{np_i}{2}\right\} \\ \\
&=\left(2\pi\right)^{-np/2}\left|\frac1nA_{11}\right|^{-n/2}\left|\frac1nA_{22}\right|^{-n/2}\exp\left\{-\frac{np}{2}\right\} \ .
\end{aligned}
\]
似然比统计量为
\]
对于该似然比统计量,有小样本和大样本两种情况的处理方法。
(1) 在小样本情况下,将似然比统计量改写为
\]
现在求 \(\lambda^{2/n}\) 的分布,记
\]
由 \(A\sim W_p\left(n-1,\Sigma\right)\) 和 Wishart 分布的分块性质可知,在 \(H_0\) 假设下
\]
且 \(W_1\) 与 \(W_2\) 相互独立。再由 Wilks \(\Lambda\) 分布的定义可知,在 \(H_0\) 假设下
\]
(2) 在大样本情况下,利用对数似然比的近似分布,在 \(H_0\) 假设下,当 \(n\to\infty\) 时,
\]
继续讨论检验统计量的自由度,原假设的自由参数是均值向量 \(\mu\) 和两个协方差阵 \(\Sigma_{11}\) 和 \(\Sigma_{22}\) ,而备择假设的自由参数是均值向量 \(\mu\) 和协方差阵 \(\Sigma\) ,因此两者的自由度之差即为该检验统计量的自由度。
这里还有一个结论,Box 证明了,对于正态总体 \(k\) 个剖分的独立性检验,对应的似然比统计量为
\[\lambda=\left(\frac{\left|A\right|}{\left|A_{11}\right|\left|A_{22}\right|\cdots|A_{kk}|}\right)^{n/2}\xlongequal{def}V^{n/2} \ .
\]在 \(H_0\) 假设下,当 \(n\to\infty\) 时,
\[-b\ln V\stackrel{a}{\sim}\chi^2(f) \ ,
\]其中
\[b=n-\frac32-\frac{p^3-\sum_{i=1}^kp_i^3}{3\left(p^2-\sum_{i=1}^kp_i^2\right)} \ , \quad f=\frac12\left[p(p+1)-\sum_{i=1}^kp_i(p_i+1)\right]\ .
\]这个结论给出的近似分布更加精确,且具有一般性。