多元統計分析06:多元正態分布的假設檢驗(2)
- 2021 年 11 月 8 日
- 筆記
- 《多元統計分析》學習筆記
Chapter 6:多元正態分布的假設檢驗(2)
一、單個正態總體協方差陣的檢驗
Part 1:協方差陣為單位陣的檢驗
設 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 為來自 \(p\) 元正態總體 \(N_p\left(\mu,\Sigma\right)\) 的隨機樣本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,檢驗
\]
此時採用似然比檢驗,似然函數為
\]
在 \(H_0\) 假設下的極大似然為
\]
在 \(H_1\) 假設下的極大似然為
\]
構造似然比統計量為
\]
當樣本容量 \(n\) 充分大時
\]
這裡需要注意到協方差陣有 \(p(p+1)/2\) 個自由度,這是因為協方差陣的對稱性。
Part 2:協方差陣為非單位陣的檢驗
設 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 為來自 \(p\) 元正態總體 \(N_p\left(\mu,\Sigma\right)\) 的隨機樣本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,檢驗
\]
因為 \(\Sigma_0>0\) ,故存在非退化矩陣 \(D\) ,使得 \(D\Sigma_0D’=I_p\) ,構造
\]
此時,檢驗問題等價於
\]
仍然採用似然比檢驗,參考單位陣的情況,構造似然比統計量為
\]
當樣本容量 \(n\) 充分大時
\]
Part 3:協方差陣的球性檢驗
設 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 為來自 \(p\) 元正態總體 \(N_p\left(\mu,\Sigma\right)\) 的隨機樣本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,檢驗
\]
仍然採用似然比檢驗,似然函數為
\]
這裡 \(\sigma^2\) 是未知參數,當 \(\sigma^2\) 給定時,似然函數 \(L\left(\mu,\sigma^2\Sigma_0\right)\) 在 \(\mu=\bar{X}\) 時取到最大值,即
\]
下面還要對 \(\sigma^2\) 求解極大似然估計,令
\]
在 \(H_0\) 假設下的極大似然為
\]
在 \(H_1\) 假設下的極大似然為
\]
構造似然比統計量為
\]
此時有對數似然比
\]
當樣本容量 \(n\) 充分大時
\]
這裡需要注意自由度和之前相比減少 \(1\) ,是因為原先的參數空間 \(\Theta_0\) 是完全給定的,而這裡的 \(\Theta_0\) 中包含一個自由參數 \(\sigma^2\) 。
Part 4:均值向量和協方差陣的聯合約束檢驗
設 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 為來自 \(p\) 元正態總體 \(N_p\left(\mu,\Sigma\right)\) 的隨機樣本,其中 \(\mu\) 和 \(\Sigma>0\) 未知,檢驗
\]
其中 \(\mu_0\) 和 \(\Sigma_0>0\) 是已知的向量和正定矩陣,採用似然比檢驗,似然函數為
\]
在 \(H_0\) 和 \(H_1\) 假設下的極大似然為
&\max_{(\mu,\Sigma)\in\Theta_0}\,L(\mu,\Sigma)=\frac{1}{(2\pi)^{np/2}\left|\Sigma_0\right|^{n/2}}\exp\left\{-\frac12{\rm tr}\left(\Sigma_0^{-1}A\right)-\frac12n\left(\bar{X}-\mu_0\right)’\Sigma_0^{-1}\left(\bar{X}-\mu_0\right)\right\} \ . \\ \\
&\max_{(\mu,\Sigma)\in\Theta_1}L\left(\mu,\Sigma\right)=L\left(\bar{X},\frac1nA\right)=(2\pi)^{-np/2}\left|\frac1nA\right|^{-n/2}\exp\left\{-\frac{np}{2}\right\} \ .
\end{aligned}
\]
構造似然比統計量:
\]
計算對數似然比:
\]
當樣本容量 \(n\) 充分大時
\]
這裡的自由度是均值向量的自由度和協方差陣的自由度之和。
二、多個正態總體的參數檢驗問題
Part 1:均值向量齊性檢驗
設 \(X^{(i)}=\left(X_{(1)}^{(i)},X_{(2)}^{(i)},\cdots,X_{(n_i)}^{(i)}\right),\,i=1,2,\cdots,k\) 分別為來自 \(k\) 個正態總體 \(N_p\left(\mu^{(i)},\Sigma_i\right),\,i=1,2\cdots,k\) 的隨機樣本,已知 \(\Sigma_1=\Sigma_2=\cdots=\Sigma_k\xlongequal{def}\Sigma>0\) ,考慮假設檢驗問題:
\]
這裡我們使用多元方差分析進行假設檢驗,首先給出如下的記號:
\]
定義樣本總離差陣
\]
定義組內離差陣
\]
定義組間離差陣
\]
可以證明,有離差陣分解式成立
\]
當原假設成立時,組間離差陣應該比較小,組內離差陣應該很接近總離差陣。故類似於似然比的原理,我們可以構造 \(H_0\) 的檢驗統計量為
\]
其中每個正態總體的樣本離差陣服從 Wishart 分布 \(A_i\sim W_p\left(n_i-1,\Sigma\right),\,i=1,2,\cdots,k\) 且相互獨立。由可加性可得
\]
在原假設成立的條件下,可以證明 \(T\) 和 \(B\) 的分布為
\]
且 \(B\) 與 \(A\) 相互獨立,所以在原假設成立的條件下,檢驗統計量
\]
這裡沒有合適的近似分布,所以只能查 Wilks \(\Lambda\) 分布表,得到顯著性水平為 \(\alpha\) 的拒絕域為
\]
Part 2:協方差陣齊性檢驗
設 \(X^{(i)}=\left(X_{(1)}^{(i)},X_{(2)}^{(i)},\cdots,X_{(n_i)}^{(i)}\right),\,i=1,2,\cdots,k\) 分別為來自 \(k\) 個正態總體 \(N_p\left(\mu^{(i)},\Sigma_i\right),\,i=1,2\cdots,k\) 的隨機樣本,其中 \(\mu^{(i)},\,\Sigma_i,\,i=1,2,\cdots,k\) 均未知,考慮假設檢驗問題:
\]
樣本的似然函數為
\]
在 \(H_1\) 假設下的極大似然為
\max_{\mu^{(i)},\Sigma_i>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma_1,\cdots,\Sigma_k\right)&=\prod_{i=1}^kL_i\left(\bar{X}^{(i)},\frac{1}{n_i}A_i\right) \\ \\
&=\prod_{i=1}^k\left(2\pi\right)^{-n_ip/2}\left|\frac{1}{n_i}A_i\right|^{-n_i/2}\exp\left\{-\frac{n_ip}{2}\right\} \\ \\
&=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2} \ ,
\end{aligned}
\]
在 \(H_0\) 假設下的極大似然為
\max_{\mu^{(i)},\Sigma>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma\right)&=L\left(\bar{X}^{(1)},\cdots,\bar{X}^{(k)},\frac1nA\right)
\\ \\
&=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\left|\frac{1}{n}A\right|^{-n/2} \ ,
\end{aligned}
\]
構造似然比統計量為
\lambda&=\max_{\mu^{(i)},\Sigma>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma\right)\bigg/\max_{\mu^{(i)},\Sigma_i>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma_1,\cdots,\Sigma_k\right) \\ \\
&=\left|\frac{1}{n}A\right|^{-n/2} \bigg/ \prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2}
\end{aligned}
\]
計算對數似然比
\]
該統計量尚無小樣本的精確分布,但有漸進分布
\]
這裡原假設的自由參數包括 \(k\) 個多元正態分布的均值向量和它們相等的協方差陣 \(\Sigma\) ,故其參數空間的自由度為 \(kp+p(p+1)/2\) ,而備擇假設的自由參數包括 \(k\) 個多元正態分布的均值向量和各自的協方差陣,故其參數空間的自由度為 \(kp+kp(p+1)/2\) 。根據似然比檢驗的原理,近似分布的自由度為兩者之差,即為 \(p(p+1)(k-1)/2\) 。
Part 3:均值向量和協方差陣的齊性檢驗
設 \(X^{(i)}=\left(X_{(1)}^{(i)},X_{(2)}^{(i)},\cdots,X_{(n_i)}^{(i)}\right),\,i=1,2,\cdots,k\) 分別為來自 \(k\) 個正態總體 \(N_p\left(\mu^{(i)},\Sigma_i\right),\,i=1,2\cdots,k\) 的隨機樣本,其中 \(\mu^{(i)},\,\Sigma_i,\,i=1,2,\cdots,k\) 均未知,考慮假設檢驗問題:
&H_0:\mu^{(1)}=\cdots=\mu^{(k)}\xlongequal{def}\mu \ \text{ and } \ \Sigma_1=\cdots=\Sigma_k\xlongequal{def}\Sigma \ , \\ \\
&H_1:\exist\,i\neq j,\ \text{ s.t. }\ \mu^{(i)}\neq \mu^{(j)} \ \text{ or }\ \Sigma_i\neq\Sigma_j\ .
\end{aligned}
\]
這裡我們仍然採用似然比檢驗,和上一個問題很類似。
在 \(H_1\) 假設下的極大似然為
\max_{\mu^{(i)},\Sigma_i>0}L\left(\mu^{(1)},\cdots,\mu^{(k)},\Sigma_1,\cdots,\Sigma_k\right)&=\prod_{i=1}^kL_i\left(\bar{X}^{(i)},\frac{1}{n_i}A_i\right) \\ \\
&=\prod_{i=1}^k\left(2\pi\right)^{-n_ip/2}\left|\frac{1}{n_i}A_i\right|^{-n_i/2}\exp\left\{-\frac{n_ip}{2}\right\} \\ \\
&=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2} \ ,
\end{aligned}
\]
在 \(H_0\) 假設下的極大似然為
\max_{\mu,\Sigma>0}L\left(\mu,\Sigma\right)=L\left(\bar{X},\frac1nT\right)=\left(2\pi\right)^{-np/2}\exp\left\{-\frac{np}{2}\right\}\left|\frac{1}{n}T\right|^{-n/2} \ ,
\end{aligned}
\]
構造似然比統計量為
\lambda&=\left|\frac{1}{n}T\right|^{-n/2} \bigg/ \prod_{i=1}^k\left|\frac{1}{n_i}A_i\right|^{-n_i/2}
\end{aligned}
\]
計算對數似然比
\]
該統計量也無小樣本的精確分布,但有漸進分布
\]
這裡原假設的自由參數包括 \(k\) 個多元正態分布的相等的均值向量 \(\mu\) 和相等的協方差陣 \(\Sigma\) ,故其參數空間的自由度為 \(p+p(p+1)/2\) ,而備擇假設的自由參數包括 \(k\) 個多元正態分布的均值向量和各自的協方差陣,故其參數空間的自由度為 \(kp+kp(p+1)/2\) 。根據似然比檢驗的原理,近似分布的自由度為兩者之差,即為 \(p(p+3)(k-1)/2\) 。
三、獨立性檢驗
設總體 \(X\sim N_p\left(\mu,\Sigma\right)\) 可以剖分 \(p_1\) 維和 \(p_2\) 維的子向量 \(X^{(1)}\) 和 \(X^{(2)}\) ,其中 \(p_1+p_2=p\) ,滿足
X^{(1)} \\
X^{(2)}
\end{bmatrix}\sim N_p\left(\begin{bmatrix}
\mu^{(1)} \\
\mu^{(2)}
\end{bmatrix},\begin{bmatrix}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22}
\end{bmatrix}\right) \ ,
\]
這裡均值向量 \(\mu\) 和協方差陣 \(\Sigma>0\) 均未知。在正態總體下,檢驗 \(X^{(1)}\) 和 \(X^{(2)}\) 是否相互獨立的問題,等價於檢驗 \(\Sigma_{12}\) 是否等於 \(O\) 。故考慮如下的假設檢驗問題
\]
設 \(X_{(\alpha)},\,\alpha=1,2,\cdots,n\) 為來自該多元正態總體 \(N_p\left(\mu,\Sigma\right)\) 的簡單隨機樣本,將樣本均值向量 \(\bar{X}\) 和樣本離差陣 \(A\) 也作相應的剖分
X_{(\alpha)}^{(1)} \\
X_{(\alpha)}^{(2)}
\end{bmatrix} \ , \quad \bar{X}=\begin{bmatrix}
\bar{X}^{(1)} \\
\bar{X}^{(2)}
\end{bmatrix} \ , \quad A=\begin{bmatrix}
A_{11} & A_{12} \\
A_{21} & A_{22}
\end{bmatrix} \ .
\]
在 \(H_1\) 假設下的極大似然為
\]
在 \(H_0\) 假設下,由於 \(X_{(\alpha)}^{(1)}\) 和 \(X_{(\alpha)}^{(2)}\) 相互獨立,故樣本的似然函數為
\]
故在 \(H_0\) 假設下的極大似然為
\max_{\mu,\Sigma_{12}=0}L\left(\mu,\Sigma\right)&=L_1\left(\bar{X}^{(1)},\frac{1}{n}A_{11}\right)L_2\left(\bar{X}^{(2)},\frac{1}{n}A_{22}\right) \\ \\
&=\prod_{i=1}^2\left(2\pi\right)^{-np_i/2}\left|\frac1nA_{ii}\right|^{-n/2}\exp\left\{-\frac{np_i}{2}\right\} \\ \\
&=\left(2\pi\right)^{-np/2}\left|\frac1nA_{11}\right|^{-n/2}\left|\frac1nA_{22}\right|^{-n/2}\exp\left\{-\frac{np}{2}\right\} \ .
\end{aligned}
\]
似然比統計量為
\]
對於該似然比統計量,有小樣本和大樣本兩種情況的處理方法。
(1) 在小樣本情況下,將似然比統計量改寫為
\]
現在求 \(\lambda^{2/n}\) 的分布,記
\]
由 \(A\sim W_p\left(n-1,\Sigma\right)\) 和 Wishart 分布的分塊性質可知,在 \(H_0\) 假設下
\]
且 \(W_1\) 與 \(W_2\) 相互獨立。再由 Wilks \(\Lambda\) 分布的定義可知,在 \(H_0\) 假設下
\]
(2) 在大樣本情況下,利用對數似然比的近似分布,在 \(H_0\) 假設下,當 \(n\to\infty\) 時,
\]
繼續討論檢驗統計量的自由度,原假設的自由參數是均值向量 \(\mu\) 和兩個協方差陣 \(\Sigma_{11}\) 和 \(\Sigma_{22}\) ,而備擇假設的自由參數是均值向量 \(\mu\) 和協方差陣 \(\Sigma\) ,因此兩者的自由度之差即為該檢驗統計量的自由度。
這裡還有一個結論,Box 證明了,對於正態總體 \(k\) 個剖分的獨立性檢驗,對應的似然比統計量為
\[\lambda=\left(\frac{\left|A\right|}{\left|A_{11}\right|\left|A_{22}\right|\cdots|A_{kk}|}\right)^{n/2}\xlongequal{def}V^{n/2} \ .
\]在 \(H_0\) 假設下,當 \(n\to\infty\) 時,
\[-b\ln V\stackrel{a}{\sim}\chi^2(f) \ ,
\]其中
\[b=n-\frac32-\frac{p^3-\sum_{i=1}^kp_i^3}{3\left(p^2-\sum_{i=1}^kp_i^2\right)} \ , \quad f=\frac12\left[p(p+1)-\sum_{i=1}^kp_i(p_i+1)\right]\ .
\]這個結論給出的近似分布更加精確,且具有一般性。