多元统计分析03：多元正态分布的参数估计

Chapter 3 多元正态分布的参数估计

Chapter 3 多元正态分布的参数估计

一、随机阵的正态分布

Part 1：随机阵及其运算

从这里开始我们讨论随机阵的问题。把来自 \(p\) 元总体的容量为 \(n\) 的简单随机样本排成一个矩阵，就得到了样本数据阵。这是一个随机阵，其定义如下：

\[X=\left[\begin{array}{cccc}
x_{11} & x_{12} & \cdots & x_{1p} \\
x_{21} & x_{22} & \cdots & x_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{np} \\
\end{array}\right]\xlongequal{def}
\left[\begin{array}{c}
X_{(1)}’ \\
X_{(2)}’ \\
\vdots \\
X_{(n)}’ \\
\end{array}\right]\xlongequal{def}\left(\mathcal{X}_1,\mathcal{X}_2,\cdots,\mathcal{X}_p\right) \ ,
\]

数据阵的每一行 \(X_{(i)}’\) 都是随机向量 \((X_1,X_2,\cdots,X_p)\) 的一个简单随机样本；

数据阵的每一列 \(\mathcal{X}_j\) 都是随机变量 \(X_j\) 的一组简单随机样本。

拉直运算指的是将随机矩阵转化为一个长的列向量，把 \(X\) 中的第 \(2\) 列接到第 \(1\) 列的后面，再把第 \(3\) 列接到第 \(2\) 列的后面，以此类推。

如果把样本数据阵写成 \(p\) 个列向量的形式，即 \(X=\left(\mathcal{X}_1,\mathcal{X}_2,\cdots,\mathcal{X}_p\right)\) ，则拉直运算就是把矩阵的每一个列向量按列排列，组成一个 \(np\) 维向量，记为

\[{\rm Vec}\left(X\right)=\left[\begin{array}{c}
\mathcal{X}_1 \\
\mathcal{X}_2 \\
\vdots \\
\mathcal{X}_p \\
\end{array}\right]=\left(x_{11},x_{21},\cdots,x_{n1}\cdots,x_{1p},x_{2p},\cdots,x_{np}\right)’ \ .
\]

如果要对样本进行拉直（按行拉直），可以先将数据阵转置，然后进行拉直运算，组成一个 \(np\) 维向量，记为

\[{\rm Vec}\left(X’\right)=\left[\begin{array}{c}
X_{(1)} \\
X_{(2)} \\
\vdots \\
X_{(n)} \\
\end{array}\right]=\left(x_{11},x_{12},\cdots,x_{1p}\cdots,x_{n1},x_{n2},\cdots,x_{np}\right)’ \ .
\]

特别地，如果 \(X\) 是 \(p\) 阶对称随机阵，在 \(X\) 中只包含 \(p(p+1)/2\) 个不同的随机变量，故将其直接进行拉直运算，拉直成一个 \(p^2\) 维向量是不合适的。因此，我们专门定义了对称矩阵的拉直运算，将 \(\rm X\) 拉直成一个 \(p(p+1)/2\) 维向量，即

\[{\rm Svec}(X)=\left(x_{11},x_{21},\cdots,x_{p1},x_{22},x_{32},\cdots,x_{p2},\cdots,x_{pp}\right)’ \ .
\]

克罗内克(Kronecker)积又称为矩阵的直积，其运算法则简单来说就是用左矩阵的每一个元素去数乘右矩阵，其定义如下：

设 \(A=(a_{ij})\) 是 \(n\times p\) 的矩阵，\(B\) 是 \(m\times q\) 的矩阵，定义 \(A\) 和 \(B\) 的克罗内克积为

\[A\otimes B=(a_{ij}B)=\left[\begin{array}{cccc}
a_{11}B & a_{12}B & \cdots & a_{1p}B \\
a_{21}B & a_{22}B & \cdots & a_{2p}B \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1}B & a_{n2}B & \cdots & a_{np}B \\
\end{array}\right] \ .
\]

可以看出，\(A\otimes B\) 的每个元素都是一个矩阵，该矩阵为 \(A\) 的对应元素数乘 \(B\) 得到。如果将 \(A\otimes B\) 的每个元素上的矩阵写开，将得到一个 \(mn\times pq\) 维的矩阵。注意：\(A\otimes B\neq B\otimes A\) 。

Part 2：随机阵的正态分布

接下来我们考虑样本数据阵的分布。如果样本来自多元正态总体 \(N_p(\mu,\Sigma)\) ，那么样本数据阵 \(X\) 的每一列都是来自一元正态总体的简单随机样本，所以是相互独立的。

根据按行拉直运算的定义，\({\rm Vec}\left(X’\right)\) 指的是将每个样本排列在一起拉直得到的列向量，所以有

\[{\rm Vec}\left(X’\right)\sim N_{np}\left(\bold{1}_n\otimes\mu,I_n\otimes\Sigma\right) \ ,
\]

其中 \(\bold{1}_n\) 表示向量元素均为 \(1\) 的 \(n\) 维常向量，\(I_n\) 表示 \(n\) 阶单位矩阵。根据克罗内克积的定义，

\[\bold{1}_n\otimes\mu=\left[\begin{array}{c}
\mu \\
\mu \\
\vdots \\
\mu
\end{array}\right] \ , \quad I_n\otimes\Sigma=\left[\begin{array}{ccc}
\Sigma & \cdots & O \\
\vdots & & \vdots \\
O & \cdots & \Sigma
\end{array}\right] \ .
\]

这样我们就可以定义随机阵的正态分布。如果一个随机矩阵 \(X\) 按样本拉直后满足

\[{\rm Vec}\left(X’\right)\sim N_{np}\left(\bold{1}_n\otimes\mu,I_n\otimes\Sigma\right) \ ,
\]

就称 \(X\) 服从矩阵正态分布，记作

\[X\sim N_{n\times p}(M,I_n\otimes\Sigma) \ ,
\]

其中

\[M=\left[\begin{array}{cccc}
\mu_1 & \mu_2 & \cdots & \mu_p \\
\mu_1 & \mu_2 & \cdots & \mu_p \\
\vdots & \vdots & \ddots & \vdots \\
\mu_1 & \mu_2 & \cdots & \mu_p \\
\end{array}\right]=\bold{1}_n\mu’=\left[\begin{array}{c}
1 \\
1 \\
\vdots \\
1
\end{array}\right]\left(\mu_1,\mu_2,\cdots,\mu_p\right) \ .
\]

容易验证

\[{\rm Vec}\left(M’\right)=\bold{1}_n\otimes\mu=\left(\mu_1,\mu_2,\cdots,\mu_p,\mu_1,\mu_2,\cdots,\mu_p,\cdots,\mu_1,\mu_2,\cdots,\mu_p\right)’ \ .
\]

于是随机阵的正态分布可以等价的表示为

\[X\sim N_{n\times p}(M,I_n\otimes\Sigma)\quad \iff \quad {\rm Vec}\left(X’\right)\sim N_{np}\left({\rm Vec}\left( M’\right),I_n\otimes\Sigma\right) \ .
\]

随机阵的正态分布具有如下性质：设 \(X\sim N_{n\times p}(M,I_n\otimes\Sigma)\) ，设 \(A\) 是 \(k\times n\) 常数矩阵，\(B\) 是 \(q\times p\) 常数矩阵，\(D\) 是 \(k\times q\) 常数矩阵，如果对 \(X\) 作线性变换得到 \({\rm Z}=AXB’+D\) ，则有

\[{\rm Z}\sim N_{k\times q}\left(AMB’+D,(AA’)\otimes(B\Sigma B’)\right) \ .
\]

二、多元正态分布的参数估计

Part 1：基本统计量

设总体 \(X=(X_1,X_2,\cdots,X_p)\) 服从 \(p\) 元正态分布 \(N_p(\mu,\Sigma)\) ，这里我们主要讨论参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计及其性质。设随机阵 \(X\) 表示一组样本容量为 \(n\) 的简单随机样本：

首先从样本数据阵 \(X\) 出发，可以定义如下相关的统计量。

样本均值向量，即对 \(X\) 的每个分量求样本均值，得到的一个 \(p\) 维向量：

\[\bar{X}=\frac1n\sum_{i=1}^nX_{(i)}=\left(\bar{x}_1,\bar{x}_2,\cdots,\bar{x}_p\right)’=\frac1nX’\bold{1}_n \ ,
\]

其中，\(\bar{x}_j\) 表示第 \(j\) 个分量 \(X_j\) 的样本均值：

\[\bar{x}_j=\frac1n\sum_{i=1}^nx_{ij} \ , \quad j=1,2,\cdots,p \ .
\]

样本离差阵（交叉乘积阵），类比于一元总体的简单随机样本的离差平方和：

\[A=\sum_{i=1}^n\left(X_i-\bar{X}\right)\left(X_i-\bar{X}\right)’=X’ X-n\bar{X}\bar{X}’=X’\left[I_n-\frac1n\bold{1}_n\bold{1}_n’\right]X \ ,
\]

在已知样本数据阵的情况下，常用最后一个表达式计算样本离差阵。由样本离差阵的定义，易知 \(A\) 是一个 \(p\times p\) 的对称矩阵，且有

\[A\xlongequal{def}\left(a_{ij}\right)_{p\times p} \ , \quad a_{ij}=\sum_{k=1}^n\left(x_{ki}-\bar{x}_i\right)\left(x_{kj}-\bar{x}_j\right) \ , \quad i,j=1,2,\cdots,p \ .
\]

样本协方差阵，其定义类似于样本方差，由样本离差阵除以自由度可得：

\[S=\frac{1}{n-1}A\xlongequal{def}\left(s_{ij}\right)_{p\times p} \ ,
\]

所以 \(S\) 也是一个 \(p\times p\) 的对称矩阵，其对角线元素 \(s_{jj}\) 的表达式为：

\[s_{jj}=\frac{1}{n-1}\sum_{k=1}^n(x_{kj}-\bar{x}_j)^2 \ ,\quad j=1,2,\cdots,p \ ,
\]

易知 \(s_{jj}\) 表示分量 \(X_j\) 的样本方差，其平方根 \(\sqrt{s_{jj}}\) 表示分量 \(X_j\) 的样本标准差。此外 \(S\) 的非对角线元素 \(s_{ij}\ (i\neq j)\) 表示分量 \(X_i\) 和 \(X_j\) 的样本协方差。

有时我们也将样本协方差阵定义为

\[S^*=\frac1nA \ , \quad s_{jj}^*=\frac{1}{n}\sum_{k=1}^n(x_{kj}-\bar{x}_j)^2 \ ,\quad j=1,2,\cdots,p \ .
\]

样本相关阵，其元素由样本相关系数构成，因此用样本协方差阵的元素即可定义：

\[R\xlongequal{def}(r_{ij})_{p\times p} \ , \quad r_{ij}=\frac{s_{ij}}{\sqrt{s_{ii}}\sqrt{s_{jj}}}=\frac{a_{ij}}{\sqrt{a_{ii}}\sqrt{a_{jj}}} \ , \quad i,j=1,2,\cdots,p \ .
\]

易知 \(R\) 是一个对角线元素均为 \(1\) 的 \(p\times p\) 的对称矩阵。

Part 2：似然函数

用极大似然法求参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计量，首先需要写出似然函数。似然函数就是样本 \(X\) 的联合密度函数，只不过这里的每个样本都是 \(p\) 元正态随机向量，也就是 \(n\) 个 \(p\) 元正态密度函数的乘积。

我们可以使用拉直运算，将 \({\rm Vec}(X’)\) 的联合密度函数看成参数 \(\mu\) 和 \(\Sigma\) 的函数，就得到了我们所需要的似然函数，记为 \(L(\mu,\Sigma)\) ：

\[\begin{aligned}
L(\mu,\Sigma)&=\prod_{i=1}^n\frac{1}{(2\pi)^{p/2}\left|\Sigma\right|^{1/2}}\exp\left\{-\frac12\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)\right\} \\ \\
&=\frac{1}{(2\pi)^{np/2}\left|\Sigma\right|^{n/2}}\exp\left\{-\frac12\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)\right\} \ .
\end{aligned}
\]

由此求得对数似然函数 \(l(\mu,\Sigma)\) 为：

\[\begin{aligned}
l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right) \ .
\end{aligned}
\]

由上式最后的部分是一个实数，所以可以利用矩阵的迹的有关性质进行变换：

\[\begin{aligned}
\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)&={\rm tr}\left[\sum_{i=1}^n\left(x_{(i)}-\mu\right)’\Sigma^{-1}\left(x_{(i)}-\mu\right)\right] \\ \\
&={\rm tr}\left[\Sigma^{-1}\sum_{i=1}^n\left(x_{(i)}-\mu\right)\left(x_{(i)}-\mu\right)’\right] \\ \\
&={\rm tr}\left[\Sigma^{-1}\sum_{i=1}^n\left(x_{(i)}-\bar{X}+\bar{X}-\mu\right)\left(x_{(i)}-\bar{X}+\bar{X}-\mu\right)’\right] \\ \\
&={\rm tr}\left[\Sigma^{-1}\left(A+n\left(\bar{X}-\mu\right)\left(\bar{X}-\mu\right)’\right)\right] \\ \\
&={\rm tr}\left(\Sigma^{-1}A\right)+n\left(\bar{X}-\mu\right)’\Sigma^{-1}\left(\bar{X}-\mu\right) \ .
\end{aligned}
\]

于是我们可以将对数似然函数写为

Part 3：极大似然估计

求解极大似然估计，需要最大化似然函数。一种方法是我们可以对向量 \(\mu\) 和矩阵 \(\Sigma\) 求导，但矩阵微商的计算比较麻烦，所以这里我们介绍一个引理。

引理：设 \(B\) 是 \(p\) 阶正定矩阵，则有 \({\rm tr}B-\ln\left|B\right|\geq p\) ，且等号成立当且仅当 \(B=I_p\) 。

由于 \(B\) 正定，所以 \(B\) 的全部特征值 \(\lambda_1,\lambda_2,\cdots,\lambda_p>0\) ，且 \(\left|B\right|=\lambda_1\lambda_2\cdots\lambda_p\) 。

利用不等式 \(\ln(1+x)\leq x\) 可得

\[\begin{aligned}
\ln|B|&=\sum_{j=1}^p\ln\lambda_j=\sum_{j=1}^p\ln(1+\lambda_j-1) \leq\sum_{j=1}^p(\lambda_j-1)={\rm tr} B-p \ .
\end{aligned}
\]

所以

\[{\rm tr} B-\ln |B|\geq p \ .
\]

由于不等式 \(\ln(1+x)\leq x\) 的等号成立条件是 \(x=0\) ，所以当且仅当 \(\lambda_1=\lambda_2=\cdots=\lambda_p=1\) 时上式等号成立，即 \(B=I_p\) 。

首先固定 \(\Sigma>0\) ，由二次型的性质知

\[\begin{aligned}
l(\mu,\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right)-\frac n2\left(\bar{X}-\mu\right)’\Sigma^{-1}\left(\bar{X}-\mu\right) \\ \\
&\leq-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right) \ .
\end{aligned}
\]

以上不等式当且仅当 \(\mu=\bar{X}\) 时等号成立。

进一步取 \(B=\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\) 正定，利用引理可得

\[\begin{aligned}
l(\bar{X},\Sigma)&=-\frac{np}{2}\ln(2\pi)-\frac n2\ln\left|\Sigma\right|-\frac12{\rm tr}\left(\Sigma^{-1}A\right) \\ \\
&=-\frac{np}{2}\ln(2\pi)-\frac n2\left[\ln\left|\Sigma\right|+{\rm tr}\left(\Sigma^{-1}\frac{A}n\right)\right] \\ \\
&=-\frac{np}{2}\ln(2\pi)-\frac n2\left[{\rm tr}\left(\Sigma^{-1}\frac{A}n\right)-\ln\left|\Sigma^{-1}\frac{A}n\right|+\ln\left|\frac An\right|\right] \\ \\
&=-\frac{np}{2}\ln(2\pi)-\frac n2\left[{\rm tr}\left(\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\right)-\ln\left|\Sigma^{-1/2}\dfrac An\Sigma^{-1/2}\right|+\ln\left|\frac An\right|\right] \\ \\
&\leq-\frac{np}{2}\ln(2\pi)-\frac{np}{2}-\frac n2\ln\left|\frac An\right| \ .
\end{aligned}
\]

以上不等式当且仅当 \(\Sigma=\dfrac An\) 时等号成立。

注意这里的第四个等号，只有在矩阵的迹运算和行列式运算中才成立，其原理是

\[{\rm tr}(AB)={\rm tr}(BA) \ , \quad \det(AB)=\det(A)\det(B)=\det(B)\det(A)=\det(BA) \ .
\]

这里用 \(\det(\cdot)\) 表示行列式运算。对于矩阵运算不具有这一性质，即

\[\Sigma^{-1}\frac{A}n\neq\Sigma^{-1/2}\dfrac An\Sigma^{-1/2} \ .
\]

由以上的推导过程可知参数 \(\mu\) 和 \(\Sigma\) 的极大似然估计量为

\[\hat{\mu}=\bar{X} \ , \quad \hat\Sigma=\frac1nA \ .
\]

似然函数的最大值为

\[L\left(\bar{X},\frac1nA\right)=\left(\frac{n}{2\pi e}\right)^{np/2}|A|^{-n/2} \ .
\]

三、参数估计的性质

Part 1：基本统计量的性质

定理：设 \(\bar{X}\) 和 \(A\) 分别为 \(p\) 元正态总体 \(N_p(\mu,\Sigma)\) 的样本均值向量和样本离差阵，样本容量为 \(n\) ，则

(1) \(\bar{X}\sim N_p\left(\mu,\dfrac1n\Sigma\right)\) ；

(2) \(A\xlongequal{d}\displaystyle\sum_{k=1}^{n-1}Z_kZ_k’\) ，其中 \(Z_1,Z_2,\cdots,Z_{n-1}\) 独立同 \(N_p(0,\Sigma)\) 分布；

(3) \(\bar{X}\) 和 \(A\) 相互独立；

(4) \(P(A>0)=1\ \iff\ n>p\) ，即 \(A\) 以概率 \(1\) 正定当且仅当 \(n>p\) 。

该定理的证明和数理统计中一元正态分布的抽样分布类似，需要构造一个正交矩阵，设为 \(\Gamma\) 且具有如下形式

\[\Gamma=\left[\begin{array}{cccc}
\gamma_{11} & \gamma_{12} & \cdots & \gamma_{1n} \\
\vdots &\vdots & & \vdots \\
\gamma_{(n-1),1} & \gamma_{(n-1),2} & \cdots & \gamma_{(n-1),n} \\
\cfrac1{\sqrt{n}} &\cfrac1{\sqrt{n}} & \cdots & \cfrac1{\sqrt{n}}
\end{array}\right]=(\gamma_{ij})_{n\times n} \ .
\]

对样本数据阵构造正交变换，令

\[{\rm Z}=\left[\begin{array}{c}
Z_1′ \\
Z_2′ \\
\vdots \\
Z_n’ \\
\end{array}\right]=\Gamma\left[\begin{array}{c}
X_{(1)}’ \\
X_{(2)}’ \\
\vdots \\
X_{(n)}’ \\
\end{array}\right]=\Gamma X \ ,
\]

即对任意的 \(k=1,2,\cdots,n\) 都有

\[Z_k=\left(X_{(1)},X_{(2)},\cdots,X_{(n)}\right)\left[\begin{array}{c}
\gamma_{k1} \\
\gamma_{k2} \\
\vdots \\
\gamma_{kn} \\
\end{array}\right] \ ,
\]

特别地，当 \(k=n\) 时有

\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)} \ .
\]

容易证明 \(Z_k\) 是一个 \(p\) 维正态随机向量，且由正交矩阵的性质知

\[\begin{aligned}
&{\rm E}(Z_k)=\sum_{i=1}^n\gamma_{ki}{\rm E}\left(X_{(i)}\right)=\left\{\begin{array}{ll}
0 \ , & k\neq n \ . \\
\sqrt{n}\mu \ , & k=n \ .
\end{array}\right. \\ \\
&\begin{aligned}
{\rm Cov}(Z_k,Z_l)&={\rm E}\left[\left(Z_k-{\rm E}(Z_k)\right)\left(Z_l-{\rm E}(Z_l)\right)’\right] \\ \\
&=\sum_{i=1}^n\gamma_{ki}\gamma_{li}\Sigma=\left\{\begin{array}{ll}
O \ , & k\neq l \ . \\
\Sigma \ , & k=l \ .
\end{array}\right.
\end{aligned}
\end{aligned}
\]

(1) 由已经证明的性质知

\[Z_n=\frac1{\sqrt{n}}\sum_{i=1}^nX_{(i)}=\sqrt{n}\bar{X}\sim N_p\left(\sqrt{n}\mu,\Sigma\right) \ ,
\]

从而可得

\[\bar{X}=\frac{1}{\sqrt{n}}Z_n\sim N_p\left(\mu,\frac1n\Sigma\right) \ .
\]

(2) 因为

\[\sum_{i=1}^nZ_iZ_i’={\rm Z}'{\rm Z}=X’\Gamma’\Gamma X=X’X=\sum_{i=1}^nX_{(i)}X_{(i)}’ \ ,
\]

于是有

\[\begin{aligned}
\sum_{i=1}^{n-1}Z_iZ_i’&=\sum_{i=1}^nX_{(i)}X_{(i)}’-Z_nZ_n’=\sum_{i=1}^nX_{(i)}X_{(i)}’-n\bar{X}\bar{X}’ \\ \\
&=\sum_{i=1}^n\left(X_{(i)}-\bar{X}\right)\left(X_{(i)}-\bar{X}\right)’=A \ .
\end{aligned}
\]

(3) 因为 \(A\) 是 \(Z_1,Z_2,\cdots,Z_{n-1}\) 的函数，\(\bar{X}\) 是 \(Z_n\) 的函数，而 \(Z_1,Z_2,\cdots,Z_{n-1}\) 和 \(Z_n\) 相互独立，故 \(A\) 和 \(\bar{X}\) 也相互独立。

(4) 根据以上证明，我们可以令 \(B=\left(Z_1,Z_2,\cdots,Z_{n-1}\right)\) 从而 \(A=BB’\) 。

如果 \(A\) 正定，则 \(A\) 的秩为 \(p\) ，从而 \(B\) 的秩也为 \(p\) ，于是 \(n-1\geq p\) ，即 \(n>p\) 。

如果 \(n>p\) ，要证 \(A\) 以概率 \(1\) 正定，只需证 \(B\) 的前 \(p\) 个分量线性相关的概率为 \(0\) 。由于 \(B\) 是一个多元正态随机阵，所以 \(B\) 的前 \(p\) 个分量的任意线性组合服从多元正态分布。

所以对于任意不全为零的 \(\beta_1,\beta_2,\cdots,\beta_p\in\mathbb{R}\) ，由连续型随机变量的性质知

\[P\left(\sum_{i=1}^p\beta_iZ_i=0\right)=0
\]

进而在统计意义下 \(B\) 的前 \(p\) 个分量以概率 \(1\) 线性无关，从而 \(A\) 以概率 \(1\) 正定。

Part 2：极大似然估计的性质

无偏性：样本均值向量 \(\bar{X}\) 是 \(\mu\) 的无偏估计，样本协方差阵 \(S=\dfrac1{n-1}A\) 是 \(\Sigma\) 的无偏估计，但 \(\Sigma\) 的极大似然估计量 \(\hat\Sigma=\dfrac1nA\) 不是 \(\Sigma\) 的无偏估计。

\[{\rm E}(\bar{X})=\mu \ , \quad {\rm E}\left(A\right)=(n-1)\Sigma \ .
\]

有效性：样本均值向量和样本协方差阵 \((\bar{X},S)\) 是 \((\mu,\Sigma)\) 的一致最小方差无偏估计量，也是 \((\mu,\Sigma)\) 的充分完备统计量。

相合性：当 \(n\to\infty\) 时 \(\bar{X},\hat\Sigma\) 是 \(\mu,\Sigma\) 的强相合估计。利用 \({\rm E}(\bar{X})=\mu\) 和 Kolmogorov 强大数定律可知

\[P\left(\lim_{n\to\infty}\bar{X}=\mu\right)=1 \ .
\]

由于 \(Z_1,Z_2,\cdots,Z_{n-1}\) 独立同分布服从于 \(N_p(0,\Sigma)\) ，所以 \({\rm E}\left(Z_iZ_i’\right)=\Sigma\) ，再利用 Kolmogorov 强大数定律可知

\[P\left(\lim_{n\to\infty}\hat\Sigma=\Sigma\right)=P\left(\lim_{n\to\infty}\frac1n\sum_{i=1}^{n-1}Z_iZ_i’=\Sigma\right)=1 \ .
\]

Tags: 《多元统计分析》学习笔记

多元统计分析03：多元正态分布的参数估计

Chapter 3 多元正态分布的参数估计

一、随机阵的正态分布

Part 1：随机阵及其运算

Part 2：随机阵的正态分布

二、多元正态分布的参数估计

Part 1：基本统计量

Part 2：似然函数

Part 3：极大似然估计

三、参数估计的性质

Part 1：基本统计量的性质

Part 2：极大似然估计的性质

VirMach 便宜 VPS

QNews

多元统计分析03：多元正态分布的参数估计

Chapter 3 多元正态分布的参数估计

一、随机阵的正态分布

Part 1：随机阵及其运算

Part 2：随机阵的正态分布

二、多元正态分布的参数估计

Part 1：基本统计量

Part 2：似然函数

Part 3：极大似然估计

三、参数估计的性质

Part 1：基本统计量的性质

Part 2：极大似然估计的性质

分享此文：

Related Posts

博客园翻车启示录

速读原著-TCP/IP(用Traceroute确定路径MTU)

httprunner3源码解读（1）简单介绍源码模块内容

Intel 12代酷睿一定要搭配Win11系统 Win10下实测惨不忍睹

VirMach 便宜 VPS

QNews

熱門搜尋