多元统计分析03:多元正态分布的参数估计
- 2021 年 11 月 4 日
- 筆記
- 《多元统计分析》学习笔记
Chapter 3 多元正态分布的参数估计
一、随机阵的正态分布
Part 1:随机阵及其运算
从这里开始我们讨论随机阵的问题。把来自 \(p\) 元总体的容量为 \(n\) 的简单随机样本排成一个矩阵,就得到了样本数据阵。这是一个随机阵,其定义如下:
x_{11} & x_{12} & \cdots & x_{1p} \\
x_{21} & x_{22} & \cdots & x_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{array}\right]\xlongequal{def}
\left[\begin{array}{c}
X_{(1)}’ \\
X_{(2)}’ \\
\vdots \\
X_{(n)}’ \\
\end{array}\right]\xlongequal{def}\left(\mathcal{X}_1,\mathcal{X}_2,\cdots,\mathcal{X}_p\right) \ ,
\]
数据阵的每一行 \(X_{(i)}’\) 都是随机向量 \((X_1,X_2,\cdots,X_p)\) 的一个简单随机样本;
数据阵的每一列 \(\mathcal{X}_j\) 都是随机变量 \(X_j\) 的一组简单随机样本。
拉直运算指的是将随机矩阵转化为一个长的列向量,把 \(X\) 中的第 \(2\) 列接到第 \(1\) 列的后面,再把第 \(3\) 列接到第 \(2\) 列的后面,以此类推。
如果把样本数据阵写成 \(p\) 个列向量的形式,即 \(X=\left(\mathcal{X}_1,\mathcal{X}_2,\cdots,\mathcal{X}_p\right)\) ,则拉直运算就是把矩阵的每一个列向量按列排列,组成一个 \(np\) 维向量,记为
\mathcal{X}_1 \\
\mathcal{X}_2 \\
\vdots \\
\mathcal{X}_p \\
\end{array}\right]=\left(x_{11},x_{21},\cdots,x_{n1}\cdots,x_{1p},x_{2p},\cdots,x_{np}\right)’ \ .
\]
如果要对样本进行拉直(按行拉直),可以先将数据阵转置,然后进行拉直运算,组成一个 \(np\) 维向量,记为
X_{(1)} \\
X_{(2)} \\
\vdots \\
X_{(n)} \\
\end{array}\right]=\left(x_{11},x_{12},\cdots,x_{1p}\cdots,x_{n1},x_{n2},\cdots,x_{np}\right)’ \ .
\]
特别地,如果 \(X\) 是 \(p\) 阶对称随机阵,在 \(X\) 中只包含 \(p(p+1)/2\) 个不同的随机变量,故将其直接进行拉直运算,拉直成一个 \(p^2\) 维向量是不合适的。因此,我们专门定义了对称矩阵的拉直运算,将 \(\rm X\) 拉直成一个 \(p(p+1)/2\) 维向量,即
\]
克罗内克(Kronecker)积又称为矩阵的直积,其运算法则简单来说就是用左矩阵的每一个元素去数乘右矩阵,其定义如下:
设 \(A=(a_{ij})\) 是 \(n\times p\) 的矩阵,\(B\) 是 \(m\times q\) 的矩阵,定义 \(A\) 和 \(B\) 的克罗内克积为
a_{11}B & a_{12}B & \cdots & a_{1p}B \\
a_{21}B & a_{22}B & \cdots & a_{2p}B \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1}B & a_{n2}B & \cdots & a_{np}B \\
\end{array}\right] \ .
\]
可以看出,\(A\otimes B\) 的每个元素都是一个矩阵,该矩阵为 \(A\) 的对应元素数乘 \(B\) 得到。如果将 \(A\otimes B\) 的每个元素上的矩阵写开,将得到一个 \(mn\times pq\) 维的矩阵。注意:\(A\otimes B\neq B\otimes A\) 。
Part 2:随机阵的正态分布
接下来我们考虑样本数据阵的分布。如果样本来自多元正态总体 \(N_p(\mu,\Sigma)\) ,那么样本数据阵 \(X\) 的每一列都是来自一元正态总体的简单随机样本,所以是相互独立的。
根据按行拉直运算的定义,\({\rm Vec}\left(X’\right)\) 指的是将每个样本排列在一起拉直得到的列向量,所以有
\]
其中 \(\bold{1}_n\) 表示向量元素均为 \(1\) 的 \(n\) 维常向量,\(I_n\) 表示 \(n\) 阶单位矩阵。根据克罗内克积的定义,
\mu \\
\mu \\
\vdots \\
\mu
\end{array}\right] \ , \quad I_n\otimes\Sigma=\left[\begin{array}{ccc}
\Sigma & \cdots & O \\
\vdots & & \vdots \\
O & \cdots & \Sigma
\end{array}\right] \ .
\]
这样我们就可以定义随机阵的正态分布。如果一个随机矩阵 \(X\) 按样本拉直后满足
\]
就称 \(X\) 服从矩阵正态分布,记作
\]
其中
\mu_1 & \mu_2 & \cdots & \mu_p \\
\mu_1 & \mu_2 & \cdots & \mu_p \\
\vdots & \vdots & \ddots & \vdots \\
\mu_1 & \mu_2 & \cdots & \mu_p \\
\end{array}\right]=\bold{1}_n\mu’=\left[\begin{array}{c}
1 \\
1 \\
\vdots \\
1
\end{array}\right]\left(\mu_1,\mu_2,\cdots,\mu_p\right) \ .
\]
容易验证
\]
于是随机阵的正态分布可以等价的表示为
\]
随机阵的正态分布具有如下性质:设 \(X\sim N_{n\times p}(M,I_n\otimes\Sigma)\) ,设 \(A\) 是 \(k\times n\) 常数矩阵,\(B\) 是 \(q\times p\) 常数矩阵,\(D\) 是 \(k\times q\) 常数矩阵,如果对 \(X\) 作线性变换得到 \({\rm Z}=AXB’+D\) ,则有
\]
二、多元正态分布的参数估计
Part 1:基本统计量
设总体 \(X=(X_1,X_2,\cdots,X_p)\) 服从 \(p\) 元正态分布 \(N_p(\mu,\Sigma)\) ,这里我们主要讨论参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计及其性质。设随机阵 \(X\) 表示一组样本容量为 \(n\) 的简单随机样本:
x_{11} & x_{12} & \cdots & x_{1p} \\
x_{21} & x_{22} & \cdots & x_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{array}\right] \ .
\]
首先从样本数据阵 \(X\) 出发,可以定义如下相关的统计量。
样本均值向量,即对 \(X\) 的每个分量求样本均值,得到的一个 \(p\) 维向量:
\]
其中,\(\bar{x}_j\) 表示第 \(j\) 个分量 \(X_j\) 的样本均值:
\]
样本离差阵(交叉乘积阵),类比于一元总体的简单随机样本的离差平方和:
\]
在已知样本数据阵的情况下,常用最后一个表达式计算样本离差阵。由样本离差阵的定义,易知 \(A\) 是一个 \(p\times p\) 的对称矩阵,且有
\]
样本协方差阵,其定义类似于样本方差,由样本离差阵除以自由度可得:
\]
所以 \(S\) 也是一个 \(p\times p\) 的对称矩阵,其对角线元素 \(s_{jj}\) 的表达式为:
\]
易知 \(s_{jj}\) 表示分量 \(X_j\) 的样本方差,其平方根 \(\sqrt{s_{jj}}\) 表示分量 \(X_j\) 的样本标准差。此外 \(S\) 的非对角线元素 \(s_{ij}\ (i\neq j)\) 表示分量 \(X_i\) 和 \(X_j\) 的样本协方差。
有时我们也将样本协方差阵定义为
\]
样本相关阵,其元素由样本相关系数构成,因此用样本协方差阵的元素即可定义:
\]
易知 \(R\) 是一个对角线元素均为 \(1\) 的 \(p\times p\) 的对称矩阵。
Part 2:似然函数
用极大似然法求参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计量,首先需要写出似然函数。似然函数就是样本 \(X\) 的联合密度函数,只不过这里的每个样本都是 \(p\) 元正态随机向量,也就是 \(n\) 个 \(p\) 元正态密度函数的乘积。
我们可以使用拉直运算,将 \({\rm Vec}(X’)\) 的联合密度函数看成参数 \(\mu\) 和 \(\Sigma\) 的函数,就得到了我们所需要的似然函数,记为 \(L(\mu,\Sigma)\) :
L(\mu,\Sigma)&=\prod_{i=1}^n\frac{1}{(2\pi)^{p/2}\left|\Sigma\right|^{1/2}}\exp\left\{-\frac12\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)\right\} \\ \\
&=\frac{1}{(2\pi)^{np/2}\left|\Sigma\right|^{n/2}}\exp\left\{-\frac12\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)\right\} \ .
\end{aligned}
\]
由此求得对数似然函数 \(l(\mu,\Sigma)\) 为:
l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right) \ .
\end{aligned}
\]
由上式最后的部分是一个实数,所以可以利用矩阵的迹的有关性质进行变换:
\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)&={\rm tr}\left[\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)\right] \\ \\
&={\rm tr}\left[\Sigma^{-1}\sum_{i=1}^n\left(x_{(i)}-\mu\right)\left(x_{(i)}-\mu\right)’\right] \\ \\
&={\rm tr}\left[\Sigma^{-1}\sum_{i=1}^n\left(x_{(i)}-\bar{X}+\bar{X}-\mu\right)\left(x_{(i)}-\bar{X}+\bar{X}-\mu\right)’\right] \\ \\
&={\rm tr}\left[\Sigma^{-1}\left(A+n\left(\bar{X}-\mu\right)\left(\bar{X}-\mu\right)’\right)\right] \\ \\
&={\rm tr}\left(\Sigma^{-1}A\right)+n\left(\bar{X}-\mu\right)’\Sigma^{-1}\left(\bar{X}-\mu\right) \ .
\end{aligned}
\]
于是我们可以将对数似然函数写为
l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right)-\frac n2\left(\bar{X}-\mu\right)’\Sigma^{-1}\left(\bar{X}-\mu\right)\ .
\end{aligned}
\]
Part 3:极大似然估计
求解极大似然估计,需要最大化似然函数。一种方法是我们可以对向量 \(\mu\) 和矩阵 \(\Sigma\) 求导,但矩阵微商的计算比较麻烦,所以这里我们介绍一个引理。
引理:设 \(B\) 是 \(p\) 阶正定矩阵,则有 \({\rm tr}B-\ln\left|B\right|\geq p\) ,且等号成立当且仅当 \(B=I_p\) 。
由于 \(B\) 正定,所以 \(B\) 的全部特征值 \(\lambda_1,\lambda_2,\cdots,\lambda_p>0\) ,且 \(\left|B\right|=\lambda_1\lambda_2\cdots\lambda_p\) 。
利用不等式 \(\ln(1+x)\leq x\) 可得
\[\begin{aligned}
\ln|B|&=\sum_{j=1}^p\ln\lambda_j=\sum_{j=1}^p\ln(1+\lambda_j-1) \leq\sum_{j=1}^p(\lambda_j-1)={\rm tr} B-p \ .
\end{aligned}
\]所以
\[{\rm tr} B-\ln |B|\geq p \ .
\]由于不等式 \(\ln(1+x)\leq x\) 的等号成立条件是 \(x=0\) ,所以当且仅当 \(\lambda_1=\lambda_2=\cdots=\lambda_p=1\) 时上式等号成立,即 \(B=I_p\) 。
首先固定 \(\Sigma>0\) ,由二次型的性质知
l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right)-\frac n2\left(\bar{X}-\mu\right)’\Sigma^{-1}\left(\bar{X}-\mu\right) \\ \\
&\leq-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right) \ .
\end{aligned}
\]
以上不等式当且仅当 \(\mu=\bar{X}\) 时等号成立。
进一步取 \(B=\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\) 正定,利用引理可得
l(\bar{X},\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right) \\ \\
&=-\frac{np}{2}\ln(2\pi)-\frac n2\left[\ln\left|\Sigma\right|+{\rm tr}\left(\Sigma^{-1}\frac{A}n\right)\right] \\ \\
&=-\frac{np}{2}\ln(2\pi)-\frac n2\left[{\rm tr}\left(\Sigma^{-1}\frac{A}n\right)-\ln\left|\Sigma^{-1}\frac{A}n\right|+\ln\left|\frac An\right|\right] \\ \\
&=-\frac{np}{2}\ln(2\pi)-\frac n2\left[{\rm tr}\left(\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\right)-\ln\left|\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\right|+\ln\left|\frac An\right|\right] \\ \\
&\leq-\frac{np}{2}\ln(2\pi)-\frac{np}{2}-\frac n2\ln\left|\frac An\right| \ .
\end{aligned}
\]
以上不等式当且仅当 \(\Sigma=\dfrac An\) 时等号成立。
注意这里的第四个等号,只有在矩阵的迹运算和行列式运算中才成立,其原理是
\]
这里用 \(\det(\cdot)\) 表示行列式运算。对于矩阵运算不具有这一性质,即
\]
由以上的推导过程可知参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计量为
\]
似然函数的最大值为
\]
三、参数估计的性质
Part 1:基本统计量的性质
定理:设 \(\bar{X}\) 和 \(A\) 分别为 \(p\) 元正态总体 \(N_p(\mu,\Sigma)\) 的样本均值向量和样本离差阵,样本容量为 \(n\) ,则
(1) \(\bar{X}\sim N_p\left(\mu,\dfrac1n\Sigma\right)\) ;
(2) \(A\xlongequal{d}\displaystyle\sum_{k=1}^{n-1}Z_kZ_k’\) ,其中 \(Z_1,Z_2,\cdots,Z_{n-1}\) 独立同 \(N_p(0,\Sigma)\) 分布;
(3) \(\bar{X}\) 和 \(A\) 相互独立;
(4) \(P(A>0)=1\ \iff\ n>p\) ,即 \(A\) 以概率 \(1\) 正定当且仅当 \(n>p\) 。
该定理的证明和数理统计中一元正态分布的抽样分布类似,需要构造一个正交矩阵,设为 \(\Gamma\) 且具有如下形式
\[\Gamma=\left[\begin{array}{cccc}
\gamma_{11} & \gamma_{12} & \cdots & \gamma_{1n} \\
\vdots &\vdots & & \vdots \\
\gamma_{(n-1),1} & \gamma_{(n-1),2} & \cdots & \gamma_{(n-1),n} \\
\cfrac1{\sqrt{n}} &\cfrac1{\sqrt{n}} & \cdots & \cfrac1{\sqrt{n}}
\end{array}\right]=(\gamma_{ij})_{n\times n} \ .
\]对样本数据阵构造正交变换,令
\[{\rm Z}=\left[\begin{array}{c}
Z_1′ \\
Z_2′ \\
\vdots \\
Z_n’ \\
\end{array}\right]=\Gamma\left[\begin{array}{c}
X_{(1)}’ \\
X_{(2)}’ \\
\vdots \\
X_{(n)}’ \\
\end{array}\right]=\Gamma X \ ,
\]即对任意的 \(k=1,2,\cdots,n\) 都有
\[Z_k=\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right)\left[\begin{array}{c}
\gamma_{k1} \\
\gamma_{k2} \\
\vdots \\
\gamma_{kn} \\
\end{array}\right] \ ,
\]特别地,当 \(k=n\) 时有
\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)} \ .
\]容易证明 \(Z_k\) 是一个 \(p\) 维正态随机向量,且由正交矩阵的性质知
\[\begin{aligned}
&{\rm E}(Z_k)=\sum_{i=1}^n\gamma_{ki}{\rm E}\left(X_{(i)}\right)=\left\{\begin{array}{ll}
0 \ , & k\neq n \ . \\
\sqrt{n}\mu \ , & k=n \ .
\end{array}\right. \\ \\
&\begin{aligned}
{\rm Cov}(Z_k,Z_l)&={\rm E}\left[\left(Z_k-{\rm E}(Z_k)\right)\left(Z_l-{\rm E}(Z_l)\right)’\right] \\ \\
&=\sum_{i=1}^n\gamma_{ki}\gamma_{li}\Sigma=\left\{\begin{array}{ll}
O \ , & k\neq l \ . \\
\Sigma \ , & k=l \ .
\end{array}\right.
\end{aligned}
\end{aligned}
\](1) 由已经证明的性质知
\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)}=\sqrt{n}\bar{X}\sim N_p\left(\sqrt{n}\mu,\Sigma\right) \ ,
\]从而可得
\[\bar{X}=\frac{1}{\sqrt{n}}Z_n\sim N_p\left(\mu,\frac1n\Sigma\right) \ .
\](2) 因为
\[\sum_{i=1}^nZ_iZ_i’={\rm Z}'{\rm Z}=X’\Gamma’\Gamma X=X’X=\sum_{i=1}^nX_{(i)}X_{(i)}’ \ ,
\]于是有
\[\begin{aligned}
\sum_{i=1}^{n-1}Z_iZ_i’&=\sum_{i=1}^nX_{(i)}X_{(i)}’-Z_nZ_n’=\sum_{i=1}^nX_{(i)}X_{(i)}’-n\bar{X}\bar{X}’ \\ \\
&=\sum_{i=1}^n\left(X_{(i)}-\bar{X}\right)\left(X_{(i)}-\bar{X}\right)’=A \ .
\end{aligned}
\](3) 因为 \(A\) 是 \(Z_1,Z_2,\cdots,Z_{n-1}\) 的函数,\(\bar{X}\) 是 \(Z_n\) 的函数,而 \(Z_1,Z_2,\cdots,Z_{n-1}\) 和 \(Z_n\) 相互独立,故 \(A\) 和 \(\bar{X}\) 也相互独立。
(4) 根据以上证明,我们可以令 \(B=\left(Z_1,Z_2,\cdots,Z_{n-1}\right)\) 从而 \(A=BB’\) 。
如果 \(A\) 正定,则 \(A\) 的秩为 \(p\) ,从而 \(B\) 的秩也为 \(p\) ,于是 \(n-1\geq p\) ,即 \(n>p\) 。
如果 \(n>p\) ,要证 \(A\) 以概率 \(1\) 正定,只需证 \(B\) 的前 \(p\) 个分量线性相关的概率为 \(0\) 。由于 \(B\) 是一个多元正态随机阵,所以 \(B\) 的前 \(p\) 个分量的任意线性组合服从多元正态分布。
所以对于任意不全为零的 \(\beta_1,\beta_2,\cdots,\beta_p\in\mathbb{R}\) ,由连续型随机变量的性质知
\[P\left(\sum_{i=1}^p\beta_iZ_i=0\right)=0
\]进而在统计意义下 \(B\) 的前 \(p\) 个分量以概率 \(1\) 线性无关,从而 \(A\) 以概率 \(1\) 正定。
Part 2:极大似然估计的性质
无偏性:样本均值向量 \(\bar{X}\) 是 \(\mu\) 的无偏估计,样本协方差阵 \(S=\dfrac1{n-1}A\) 是 \(\Sigma\) 的无偏估计,但 \(\Sigma\) 的极大似然估计量 \(\hat\Sigma=\dfrac1nA\) 不是 \(\Sigma\) 的无偏估计。
\]
有效性:样本均值向量和样本协方差阵 \((\bar{X},S)\) 是 \((\mu,\Sigma)\) 的一致最小方差无偏估计量,也是 \((\mu,\Sigma)\) 的充分完备统计量。
相合性:当 \(n\to\infty\) 时 \(\bar{X},\hat\Sigma\) 是 \(\mu,\Sigma\) 的强相合估计。利用 \({\rm E}(\bar{X})=\mu\) 和 Kolmogorov 强大数定律可知
\]
由于 \(Z_1,Z_2,\cdots,Z_{n-1}\) 独立同分布服从于 \(N_p(0,\Sigma)\) ,所以 \({\rm E}\left(Z_iZ_i’\right)=\Sigma\) ,再利用 Kolmogorov 强大数定律可知
\]