多元统计分析02:多元正态分布的定义和性质

Chapter 2 多元正态分布的定义和性质

一、多元正态分布的定义和基本性质

Part 1:标准正态的线性变换

定义 1:设 \(U=(U_1,U_2,\cdots,U_q)’\) 为随机向量,\(U_1,U_2,\cdots,U_q\) 相互独立且同 \(N(0,1)\) 分布。设 \(\mu\)\(p\) 维常数向量,\(A\)\(p\times q\) 常数矩阵,则称 \(X=AU+\mu\) 的分布为 \(p\) 元正态分布,称 \(X\)\(p\) 维正态随机向量,记为 \(X\sim N_p\left(\mu,AA’\right)\)

在上述定义中,多元正态分布被表示为一些相互独立的标准正态随机变量的一些线性组合所构成的随机向量的分布。显然有

\[{\rm E}(U)=0 \ , \quad {\rm Var}(U)=I_{q} \ .
\]

由随机向量线性变换的性质可得

\[\begin{aligned}
& {\rm E}(X)={\rm E}(AU+\mu)=A{\rm E}(U)+\mu=\mu \ . \\ \\
& {\rm Var}(X)={\rm Var}(AU+\mu)=A{\rm Var}(U)A’=AA’ \ .
\end{aligned}
\]

所以,多元正态分布 \(N_p\left(\mu,AA’\right)\) 中的两个参数分别是随机向量的均值向量和协方差阵。

性质 1:设 \(U=(U_1,U_2,\cdots,U_q)’\) 为独立同分布的标准正态随机向量,令 \(X=AU+\mu\) 得到的随机向量 \(X\) 的特征函数为

\[\Phi_X(t)=\exp\left\{it’\mu-\frac12t’AA’t\right\} \ .
\]

首先考虑一元标准正态分布的特征函数为

\[\Phi_{U_i}(t_i)={\rm E}\left[e^{it_iU_i}\right]=\exp\left\{-\frac12t_i^2\right\} \ .
\]

由独立性可知

\[\Phi_U(t)={\rm E}\left[e^{it’U}\right]=\exp\left\{-\frac12\sum_{i=1}^qt_i^2\right\}=\exp\left\{-\frac12t’t\right\} \ .
\]

进而根据随机向量 \(X\) 的定义可知

\[\begin{aligned}
\Phi_X(t)&={\rm E}\left[e^{it’X}\right]={\rm E}\left[e^{it'(AU+\mu)}\right] \\ \\
&=\exp\left\{it’\mu\right\}\cdot{\rm E}\left[e^{it’AU}\right] \\ \\
&=\exp\left\{it’\mu\right\}\cdot{\rm E}\left[e^{i(A’t)’U}\right] \\ \\
&=\exp\left\{it’\mu\right\}\cdot\exp\left\{-\frac12(A’t)'(A’t)\right\} \\ \\
&=\exp\left\{it’\mu-\frac12t’AA’t\right\} \ .
\end{aligned}
\]

Part 2:由特征函数定义

定义 2:如果 \(p\) 维随机向量 \(X\) 的特征函数形如

\[\Phi_X(t)=\exp\left\{it’\mu-\frac12t’\Sigma t\right\} \ , \quad \Sigma\geq0 \ ,
\]

则称 \(X\) 服从 \(p\) 元正态分布,记为 \(X\sim N_p(\mu,\Sigma)\) ,其中 \(\mu\)\(\Sigma\) 分别为均值向量和协方差阵。

从特征函数的定义可以看出,如果 \(X\) 服从 \(p\) 元正态分布,则 \(X\) 的分布可以由其均值向量 \(\mu\) 和协方差阵 \(\Sigma\) 两个参数唯一确定。

性质 2:设 \(X\sim N_p(\mu,\Sigma)\) ,如果对 \(X\) 作线性变换,即令 \(Y=BX+d\) ,其中 \(B\)\(s\times p\) 的常数矩阵,\(d\)\(s\) 维常数向量,则 \(Y\sim N_s(B\mu+d,B\Sigma B’)\)

因为 \(\Sigma\) 非负定,所以 \(\Sigma\) 可分解为 \(\Sigma=AA’\) ,其中 \(A\)\(p\times q\) 的实矩阵。

由第一种定义知 \(X\xlongequal{d}AU+\mu\) ,经线性变换处理后得到

\[Y=BX+d\xlongequal{d}B(AU+\mu)+d=BAU+B\mu+d \ ,
\]

从而有

\[{\rm E}(Y)=B\mu+d \ , \quad {\rm Var}(Y)=(BA)(BA)’=BAA’B’=B\Sigma B’ \ .
\]

再由第一种定义知

\[Y\sim N_s(B\mu+d,B\Sigma B’) \ .
\]

该性质说明:正态随机向量经任意线性变换后得到的仍然是正态随机向量。

推论:设 \(X=\left[\begin{array}{c}
X^{(1)} \\
X^{(2)}
\end{array}\right]\begin{array}{l}
r \\
p-r
\end{array}\sim N_p(\mu,\Sigma)\)
,将 \(\mu\)\(\Sigma\) 剖分为

\[\mu=\left[\begin{array}{c}
\mu^{(1)} \\
\mu^{(2)}
\end{array}\right]\begin{array}{l}
r \\
p-r
\end{array} \ , \quad \Sigma=\left[\begin{array}{c:c}
\Sigma_{11} & \Sigma_{12} \\ \hdashline
\Sigma_{21} & \Sigma_{22}
\end{array}\right]\begin{array}{l}
r \\
p-r
\end{array} \ ,
\]

则有 \(X^{(1)}\sim N_r\left(\mu^{(1)},\Sigma_{11}\right),\,X^{(2)}\sim N_{p-r}\left(\mu^{(2)},\Sigma_{22}\right)\)

\(B_1=(I_r,O),\,d_1=0\)\(B_2=(O,I_{p-r}),\,d_2=0\) ,其中 \(d_1\)\(d_2\) 分别为 \(r\) 维和 \(p-r\) 维的零向量,由性质 2 可得

\[\begin{aligned}
&X^{(1)}=B_1X+d_1\sim N_r\left(\mu^{(1)},\Sigma_{11}\right) \ , \\ \\
&X^{(2)}=B_2X+d_2\sim N_{p-r}\left(\mu^{(2)},\Sigma_{22}\right) \ .
\end{aligned}
\]

该推论说明,多元正态分布的边缘分布仍为正态分布,反之不一定成立。

Part 3:任意线性组合为正态随机变量

定义 3:如果 \(p\) 维随机向量 \(X\) 的任意线性组合均服从一元正态分布,则称 \(X\)\(p\) 维正态随机向量。

这里我们必须给出多元正态分布第三种定义的合理性说明,也就是说,我们需要证明第三种定义与前两种定义等价。我们有下面的性质。

性质 3:设 \(X\)\(p\) 维随机向量,则 \(X\) 服从 \(p\) 元正态分布等价于对任一 \(p\) 维实向量 \(a\) ,有 \(\xi=a’X\) 服从一维正态分布。

必要性:如果 \(X\sim N_p(\mu,\Sigma)\) ,取 \(B=a’,\,d=0\) ,由性质 2 即得

\[\xi=a’X=\sum_{j=1}^pa_jX_j\sim N\left(a’\mu,a’\Sigma a\right) \ .
\]

充分性:如果对任意的实向量 \(a\in\mathbb{R}^p\) ,都有 \(\xi=a’X\) 为一维正态随机变量,则 \(\xi\) 的各阶矩存在,进而 \(X\) 的均值和协方差存在,分别记为 \(\mu\)\(\Sigma\)

对任意给定的 \(t\in\mathbb{R}^p\) ,有 \(\xi=t’X\sim N\left(t’\mu,t’\Sigma t\right)\) ,且 \(\xi\) 的特征函数为

\[\Phi_\xi(s)={\rm E}\left[e^{is\xi}\right]=\exp\left\{is(t’\mu)-\frac12s^2(t’\Sigma t)\right\} \ .
\]

\(s=1\) 则有

\[\Phi_\xi(1)={\rm E}\left[e^{i\xi}\right]={\rm E}\left[e^{it’X}\right]=\Phi_X(t)=\exp\left\{it’\mu-\frac12t’\Sigma t\right\} \ .
\]

由实向量 \(t\) 的任意性和第二种定义可知,\(X\sim N_p(\mu,\Sigma)\)

Part 4:由联合密度函数定义

定义 4:如果 \(p\) 维随机向量 \(X\) 的联合密度函数为

\[f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)’\Sigma^{-1}(x-\mu)\right\} \ ,
\]

其中 \(\mu\)\(p\) 维实向量,注意 \(\Sigma\)\(p\) 阶正定矩阵,则称 \(X\) 服从非退化的 \(p\) 元正态分布,或称 \(X\)\(p\) 维正态随机向量,记为 \(X\sim N_p(\mu,\Sigma)\)

类似地,我们通过证明以下的性质,从而说明多元正态分布的第四种定义是合理的。

性质 4:设 \(X\sim N_p(\mu,\Sigma)\) ,且 \(\Sigma\)​ 是正定矩阵,则 \(X\) 的联合密度函数为

\[f(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)’\Sigma^{-1}(x-\mu)\right\} \ .
\]

由于 \(\Sigma>0\)\({\rm rank}(\Sigma)=p\) ,故存在 \(p\) 阶非奇异方阵 \(A\) 使得 \(\Sigma=AA’\) ,且有

\[X\xlongequal{d}AU+\mu \ .
\]

其中 \(U=(U_1,U_2,\cdots,U_p)’\)​ 是相互独立的标准正态分布随机向量。故 \(U\) 的联合密度函数为

\[f_U(u)=\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac12u’u\right\} \ .
\]

下面利用线性变换 \(x=Au+\mu\) 来计算 \(X\) 的联合密度函数。首先计算雅可比行列式

\[\begin{aligned}
J(x\to u)&=\left|\frac{\partial{x’}}{\partial u}\right|=\left|A’\right|=\left|AA’\right|^{1/2}=|\Sigma|^{1/2}
\end{aligned}
\]

得到 \(|J(u\to x)|=|J(x\to u)|^{-1}=|\Sigma|^{-1/2}\)​​ ,进而可得 \(X\)​​ 的联合密度函数为

\[\begin{aligned}
f_X(x)&=\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac12u’u\right\}|J(u\to x)| \\ \\
&=\frac{1}{(2\pi)^{p/2}}\exp\left\{-\frac12\left[A^{-1}(x-\mu)\right]’\left[A^{-1}(x-\mu)\right]\right\}|\Sigma|^{-1/2} \\ \\
&=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)’\Sigma^{-1}(x-\mu)\right\} \ .
\end{aligned}
\]

二、独立性和条件分布

Part 1:多元正态分布的独立性

我们曾经学过两个正态随机变量相互独立,等价于这两个随机变量互不相关。在这里我们将这一结论推广到随机向量上。要讨论正态随机向量的独立性,我们需要将正态向量的分量分为任意两个部分,不妨将两组分量集中放置,将 \(p\) 维随机向量分成 \(r\) 维随机向量 \(X^{(1)}\)\(p−r\) 维随机向量 \(X^{(2)}\)

定理:设 \(p\)​ 维随机向量 \(X\sim N_p(\mu,\Sigma)\)​ ,分别记

\[X=\left[\begin{array}{c}
X^{(1)} \\
X^{(2)} \\
\end{array}\right] \ , \quad \mu=\left[\begin{array}{c}
\mu^{(1)} \\
\mu^{(2)} \\
\end{array}\right] \ , \quad \Sigma=\left[\begin{array}{cc}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{array}\right] \ .
\]

\(X^{(1)}\)\(X^{(2)}\) 相互独立当且仅当 \(\Sigma_{12}=O\) ,即 \(X^{(1)}\)\(X^{(2)}\) 互不相关。

必要性:如果 \(X^{(1)}\)\(X^{(2)}\) 相互独立,则显然有

\[{\rm Cov}\left(X^{(1)},X^{(2)}\right)=\Sigma_{12}=O \ .
\]

充分性:设 \(\Sigma_{12}=O\) ,则 \(\Sigma_{21}=O\) ,写出 \(X\) 的联合密度函数为

\[\begin{aligned}
f(x)&=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left\{-\frac12(x-\mu)’\left[
\begin{array}{cc}
\Sigma_{11} & O \\
O & \Sigma_{22}
\end{array}\right]^{-1}(x-\mu)\right\} \\ \\
&=\frac{1}{(2\pi)^{r/2}\left|\Sigma_{11}\right|^{1/2}}\exp\left\{-\frac12\left(x^{(1)}-\mu^{(1)}\right)’
\Sigma_{11}^{-1}\left(x^{(1)}-\mu^{(1)}\right)\right\} \\
&\quad\ \times\frac{1}{(2\pi)^{(p-r)/2}\left|\Sigma_{22}\right|^{1/2}}\exp\left\{-\frac12\left(x^{(2)}-\mu^{(2)}\right)’
\Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right)\right\} \\ \\
&=f_1\left(x^{(1)}\right)\cdot f_2\left(x^{(2)}\right) \ .
\end{aligned}
\]

所以 \(X^{(1)}\)​ 与 \(X^{(2)}\)​​ 相互独立。

推论 1:设 \(r_i\geq1,\,i=1,2,\cdots,k\) ,且 \(r_1+r_2+\cdots+r_k=p\)​ ,如果

\[X=\left[\begin{array}{c}
X^{(1)} \\
\vdots \\
X^{(k)}
\end{array}
\right]\begin{array}{c}
r_1 \\
\vdots \\
r_k
\end{array}\sim N_p\left(\left[\begin{array}{c}
\mu^{(1)} \\
\vdots \\
\mu^{(k)}
\end{array}
\right],\left[\begin{array}{c}
\Sigma_{11} &\cdots &\Sigma_{1k} \\
\vdots & & \vdots \\
\Sigma_{k1} &\cdots &\Sigma_{kk}
\end{array}
\right]\right) \ ,
\]

\(X^{(1)},\cdots,X^{(k)}\) 相互独立当且仅当 \(\Sigma_{ij}=O,\,\forall i\neq j\)​ 。

推论 2:设 \(X=(X_1,X_2,\cdots,X_p)’\sim N_p(\mu,\Sigma)\)​​ ,如果 \(\Sigma\)​​ 为对角矩阵,则 \(X_1,X_2,\cdots,X_p\)​​​ 之间相互独立。

以上两个推论本质上是对 \(X\) 进行矩阵分块。推论 1 说明了多个随机向量相互独立等价于其中任意两个随机向量互不相关。推论 2 是由推论 1 在令 \(k=p\)\(r_1=r_2=\cdots=r_p=1\) 时得到的特例,说明了随机向量内部的各分量之间的独立性和不相关之间的等价关系。

Part 2:多元正态分布的条件分布

定理:设 \(X=\left[\begin{array}{c}
X^{(1)} \\
X^{(2)}
\end{array}\right]\begin{array}{l}
r \\
p-r
\end{array}\sim N_p(\mu,\Sigma)\)
,其中 \(\Sigma\) 正定,则当 \(X^{(2)}\) 给定时,\(X^{(1)}\) 的条件分布为

\[\left(X^{(1)}\big|X^{(2)}=x^{(2)}\right)\sim N_r\left(\mu_{1\cdot 2},\Sigma_{11\cdot2}\right) \ ,
\]

其中

\[\begin{aligned}
&\mu_{1\cdot2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right) \ , \\ \\
& \Sigma_{11\cdot2}=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \ .
\end{aligned}
\]

首先需要作一个非奇异线性变换,令

\[Z=\left[\begin{array}{c}
Z^{(1)} \\
Z^{(2)}
\end{array}\right]=
\left[\begin{array}{c}
X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\
X^{(2)}
\end{array}\right]=
\left[\begin{array}{c:c}
I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\ \hdashline
O & I_{p-r}
\end{array}\right]\left[\begin{array}{c}
X^{(1)} \\
X^{(2)}
\end{array}\right]=BX \ .
\]

这里的矩阵 \(B\) 是一个非奇异矩阵,即可逆矩阵。作这个非奇异线性变换的意义,主要是在 \(X^{(1)}\) 中除去在 \(X^{(2)}\) 方向上的部分,相当于把 \(X^{(1)}\) 在和 \(X^{(2)}\) 正交的方向上做一个投影。

接下来我们只需证明 \(Z^{(1)}\)\(Z^{(2)}\) 是相互独立的。由于在线性变换下 \(Z\)​ 是一个多元正态分布,所以只需证明 \(Z^{(1)}\)\(Z^{(2)}\)​ 是不相关的,所以求得 \(Z\)​ 的联合分布即可。

\[\begin{aligned}
&{\rm E}(Z)=B{\rm E}(X)=\left[\begin{array}{c}
\mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)} \\
\mu^{(2)}
\end{array}\right] \\ \\
&\begin{aligned}
{\rm Var}(Z)&=B{\rm Var}(X)B’ \\ \\
&=\left[\begin{array}{cc}
I_r & -\Sigma_{12}\Sigma_{22}^{-1} \\
O & I_{p-r}
\end{array}\right]\left[\begin{array}{cc}
\Sigma_{11} & \Sigma_{12} \\
\Sigma_{21} & \Sigma_{22} \\
\end{array}\right]\left[\begin{array}{cc}
I_r & O \\
\left(-\Sigma_{12}\Sigma_{22}^{-1}\right)’ & I_{p-r}
\end{array}\right] \\ \\
&=\left[\begin{array}{cc}
\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} & O \\
O & \Sigma_{22}
\end{array}\right] \ .
\end{aligned}
\end{aligned}
\]

于是显然有

\[Z\sim N_p\left(\left[\begin{array}{c}
\mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)} \\
\mu^{(2)}
\end{array}\right],\left[\begin{array}{cc}
\Sigma_{11\cdot2} & O \\
O & \Sigma_{22}
\end{array}\right] \right)
\]

并且 \(Z^{(1)}\)\(Z^{(2)}\) 不相关,进而 \(Z^{(1)}\)\(Z^{(2)}\) 相互独立。很容易写出 \(Z\)​ 的联合密度函数:

\[g(z)=g\left(z^{(1)},z^{(2)}\right)=g_1\left(z^{(1)}\right)g_2\left(z^{(2)}\right)=g_1\left(z^{(1)}\right)f_2\left(x^{(2)}\right) \ ,
\]

最后一个等号的原因是 \(X^{(2)}=Z^{(2))}\)​ 。下面利用线性变换 \(Z=BX\)​ 反解 \(X\)​ 的联合密度函数,首先计算雅可比行列式得 \(|J(z\to x)|=|B’|=1\)​​​ ,于是有 \(X\) 的联合密度函数

\[\begin{aligned}
f(x)&=f\left(x^{(1)},x^{(2)}\right)=g(Bx)\cdot |J(z\to x)| \\ \\
&=g_1\left(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}\right)g_2\left(x^{(2)}\right) \\ \\
&=g_1\left(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}\right)f_2\left(x^{(2)}\right) \ .
\end{aligned}
\]

注意到 \(Z^{(1)}\sim N_r\left(\mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)},\Sigma_{11\cdot2}\right)\)​​ ,代入得

\[\begin{aligned}
f_1\left(x^{(1)}\big|x^{(2)}\right)&=\frac{f\left(x^{(1)},x^{(2)}\right)}{f_2\left(x^{(2)}\right)}=g_1\left(x^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}x^{(2)}\right) \\ \\
&=\frac{1}{\left(2\pi\right)^{r/2}|\Sigma_{11\cdot2}|^{1/2}}\exp\left\{-\frac12\left(x^{(1)}-\mu_{1\cdot2}\right)’\Sigma_{11\cdot2}^{-1}\left(x^{(1)}-\mu_{1\cdot2}\right)\right\} \ .
\end{aligned}
\]

即为 \(\left(X^{(1)}\big|X^{(2)}=x^{(2)}\right)\sim N_r\left(\mu_{1\cdot 2},\Sigma_{11\cdot2}\right)\) 的条件密度函数。​

推论:给定条件 \(X=\left[\begin{array}{c}
X^{(1)} \\
X^{(2)}
\end{array}\right]\begin{array}{l}
r \\
p-r
\end{array}\sim N_p(\mu,\Sigma)\)
,其中 \(\Sigma\)​ 正定,可得

(1) \(X^{(2)}\)\(X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\) 相互独立;

(2) \(X^{(1)}\)​ 与 \(X^{(2)}-\Sigma_{21}\Sigma_{11}^{-1}X^{(1)}\)​​ 相互独立;

(3) \(\left(X^{(2)}\big|X^{(1)}=x^{(1)}\right)\sim N_{p-r}\left(\mu_{2\cdot1},\Sigma_{22\cdot1}\right)\) ,其中

\[\begin{aligned}
&\mu_{2\cdot1}=\mu^{(2)}+\Sigma_{21}\Sigma_{11}^{-1}\left(x^{(1)}-\mu^{(1)}\right) \ , \\ \\
& \Sigma_{11\cdot2}=\Sigma_{22}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} \ .
\end{aligned}
\]

该推论就是将 \(X^{(1)}\)\(X^{(2)}\) 地位均等的对调一下位置同理可得的结论。

Part 3:多元正态分布的条件期望和回归

注意到,我们已经证明当 \(X^{(2)}\)​ 给定时 \(X^{(1)}\)​​ 的条件分布为

\[\left(X^{(1)}\big|X^{(2)}=x^{(2)}\right)\sim N_r\left(\mu_{1\cdot 2},\Sigma_{11\cdot2}\right) \ ,
\]

其中

\[\mu_{1\cdot2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right) \ .
\]

自然地,我们可以定义条件期望

\[{\rm E}\left(X^{(1)}\big|X^{(2)}\right)=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(X^{(2)}-\mu^{(2)}\right) \ .
\]

我们从回归的角度来理解。在证明条件分布的过程中,注意到

\[Z^{(1)}=X^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \ ,
\]

这里我们用系数矩阵 \(\Sigma_{12}\Sigma_{22}^{-1}\)​ 消去了 \(X^{(1)}\)​ 中与 \(X^{(2)}\)​ 相关联的部分,从而得到的 \(Z^{(1)}\)​ 和 \(X^{(2)}\)​ 是正交的,即在多元正态的条件下是独立的。因此我们将 \(\Sigma_{12}\Sigma_{22}^{-1}\)​ 称为 \(X^{(1)}\)​ 对 \(X^{(2)}\)​​​ 的回归系数

容易计算 \(Z^{(1)}\) 的数学期望为

\[{\rm E}\left(Z^{(1)}\right)=\mu^{(1)}-\Sigma_{12}\Sigma_{22}^{-1}\mu^{(2)} \ .
\]

再利用此式计算条件期望,由于 \(Z^{(1)}\)\(X^{(2)}\) 独立,因此

\[\begin{aligned}
{\rm E}\left(X^{(1)}\big|X^{(2)}\right)&={\rm E}\left(Z^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\big|X^{(2)}\right) \\ \\
&={\rm E}\left(Z^{(1)}\big|X^{(2)}\right)+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ \\
&={\rm E}\left(Z^{(1)}\right)+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)} \\ \\
&=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(X^{(2)}-\mu^{(2)}\right) \ .
\end{aligned}
\]

这里我们将条件期望 \({\rm E}\left(X^{(1)}\big|X^{(2)}\right)\) 称为 \(X^{(1)}\)\(X^{(2)}\)​ 的回归

同理,我们类似地来计算条件方差,

\[\begin{aligned}
{\rm Var}\left(X^{(1)}\big|X^{(2)}\right)&={\rm Var}\left(Z^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\big|X^{(2)}\right) \\ \\
&={\rm Var}\left(Z^{(1)}\big|X^{(2)}\right) \\ \\
&={\rm Var}\left(X^{(1)}\right)+{\rm Var}\left(\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\right)-2{\rm Cov}\left(X^{(1)},\Sigma_{12}\Sigma_{22}^{-1}X^{(2)}\right) \\ \\
&=\Sigma_{11}+\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}-2\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \\ \\
&=\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21} \ ,
\end{aligned}
\]

条件方差是一个与随机项无关的常数矩阵,记为 \(\Sigma_{11\cdot2}\) 。如果将 \(\Sigma_{11\cdot2}\) 写为

\[\Sigma_{11\cdot2}=\left(\sigma_{ij\cdot2}\right)_{r\times r} \ , \quad i,j=1,2,\cdots,r \ ,
\]

则称当 \(X^{(2)}\) 给定时 \(X_i\)\(X_j\) 的条件相关系数

\[r_{ij\cdot2}=\frac{\sigma_{ij\cdot2}}{\sqrt{\sigma_{ii\cdot2}}\sqrt{\sigma_{jj\cdot2}}} \ , \quad i,j=1,2,\cdots,r
\]

\(X_i\)\(X_j\)​ 的偏相关系数,其中 \(X_i,X_j\in X^{(1)}\) 。​

Part 4:全相关系数和最佳预测

考虑这样一种特殊的问题:我们需要用某个对象的若干个属性,对另一个属性进行预测。于是我们在多元正态分布的分块中,将随机向量分成 \(1\) 个响应变量和 \(p\)​​ 个预测变量的组合:

\[Z=\left[\begin{array}{c}
X \\
Y
\end{array}\right]
\begin{array}{c}
p \\
1
\end{array}\sim N_{p+1}\left(\left[\begin{array}{c}
\mu_X \\
\mu_y
\end{array}\right],\left[\begin{array}{cc}
\Sigma_{XX} & \Sigma_{Xy} \\
\Sigma_{yX} & \sigma_{yy}
\end{array}\right]\right) \ .
\]

根据条件分布和条件期望的定义,当 \(X=x\) 给定时 \(Y\)​ 的条件期望和条件方差为

\[\begin{aligned}
&{\rm E}(Y|X=x)=\mu_y+\Sigma_{yX}\Sigma_{XX}^{-1}(x-\mu_X) \ , \\ \\
&{\rm Var}(Y|X=x)=\sigma_{yy}-\Sigma_{yX}\Sigma_{XX}^{-1}\Sigma_{Xy} \ .
\end{aligned}
\]

定义 \(Y\)​ 与 \(X\)​ 的全相关系数

\[R=\left(\frac{\Sigma_{yX}\Sigma_{XX}^{-1}\Sigma_{Xy}}{\sigma_{yy}}\right)^{1/2} \ .
\]

可以看出 \({\rm Var}(Y|X)=\sigma_{yy}(1-R^2)\) ,因此在给定 \(X\) 的条件下,\(Y|X\) 的方差与 \(X\) 的观测值无关,只与 \(Y\) 自身的方差和全相关系数有关,且全相关系数越大,\(Y|X\) 的方差越小。

定理:设 \(g(x)={\rm E}(Y|X=x)\)​ 是 \(x\)​ 的函数,则在均方误差最小的准则下,条件期望 \(g(X)\)​ 是对 \(Y\)​ 的最佳预测函数,即对任意 \(p\)​ 元函数 \(\varphi(\cdot)\)​​ 都有

\[{\rm E}\left[(Y-g(X))^2\right]\leq{\rm E}\left[(Y-\varphi(X))^2\right] \ .
\]

注意到 \(g(X)={\rm E}(Y|X)\)​ ,所以由全期望公式得

\[{\rm E}(g(X))={\rm E}[{\rm E}(Y|X)]={\rm E}(Y) \ .
\]

所以有

\[\begin{aligned}
&{\rm E}\left[(Y-\varphi(X))^2\right] \\ \\
=\ &{\rm E}\left[(Y-g(X))^2\right]+{\rm E}\left[(g(X)-\varphi(X))^2\right]+2{\rm E}\left[(Y-g(X))(g(X)-\varphi(X))\right] \\ \\
\geq\ &{\rm E}\left[(Y-g(X))^2\right]+2{\rm E}\left[(Y-g(X))(g(X)-\varphi(X))\right] \\ \\
=\ & {\rm E}\left[(Y-g(X))^2\right]+2{\rm E}\left[{\rm E}\left((Y-g(X))(g(X)-\varphi(X))\right)|X\right] \\ \\
=\ & {\rm E}\left[(Y-g(X))^2\right] \ .
\end{aligned}
\]

结合全相关系数和条件方差的关系可得:全相关系数越大,条件方差越小,最佳预测的精度越高。