多元统计分析01:多元统计分析基础
- 2021 年 10 月 19 日
- 筆記
- 《多元统计分析》学习笔记
Chapter 1:多元统计分析基础
一、随机向量
Part 1:随机向量的分布
联合分布函数:设 \(X=\left(X_1,X_2,\cdots,X_p\right)’\) 是一个 \(p\) 维随机向量,定义 \(p\) 元函数
\]
称 \(F(x_1,x_2,\cdots,x_p)\) 为 \(X\) 的联合分布函数。
联合密度函数:如果存在一个 \(p\) 元非负函数 \(f(x_1,x_2,\cdots,x_p)\) ,使得对一切 \((x_1,x_2,\cdots,x_p)\) 都有
\]
则称 \(f(x_1,x_2,\cdots,x_p)\) 为 \(X\) 的联合密度函数。
边际密度函数:设 \(X^{(1)}\) 为 \(r\) 维随机向量,\(X^{(2)}\) 为 \(p-r\) 为随机向量,且 \(X^{(1)}\) 和 \(X^{(2)}\) 都是随机向量 \(X\) 的部分分量,满足
X^{(1)} \\
X^{(2)}
\end{array}\right] \ ,
\]
定义 \(X^{(1)}\) 的边际密度函数为
\]
定义 \(X^{(2)}\) 的边际密度函数为
\]
条件密度函数:当 \(X\) 的密度函数可以写为 \(f(x^{(1)},x^{(2)})\) 时,定义给定 \(X^{(2)}\) 时 \(X^{(1)}\) 的条件密度函数为
\]
分量的独立性:设 \(X_1,X_2,\cdots,X_p\) 是 \(p\) 个随机变量,则 \(X_1,X_2,\cdots,X_p\) 相互独立当且仅当
\]
若 \(X=\left(X_1,X_2,\cdots,X_p\right)’\) 的联合密度函数及其各个分量的密度函数均存在,则 \(X_1,X_2,\cdots,X_p\) 相互独立当且仅当
\]
Part 2:随机向量的数字特征
随机向量的均值向量:设 \(X=(X_1,X_2,\cdots,X_p)’\) 是一个 \(p\) 维随机向量,如果对 \(X\) 的任何分量 \(X_i\) 都有均值 \({\rm E}(X_i)=\mu_i\) 存在,则定义随机向量 \(X\) 的均值向量为
{\rm E}(X_1) \\
{\rm E}(X_2) \\
\vdots \\
{\rm E}(X_p)
\end{array}\right]=\left[\begin{array}{c}\mu_1 \\\mu_2 \\ \vdots \\ \mu_p\end{array}\right] \ .
\]
随机向量的协方差阵:设 \(X=(X_1,X_2,\cdots,X_p)’\) 是一个 \(p\) 维随机向量,如果对 \(X\) 的任何两个分量 \(X_i\) 和 \(X_j\) 都有协方差 \({\rm Cov}(X_i,X_j)=\sigma_{ij}\) 存在,则定义随机向量 \(X\) 的协方差阵为
{\rm Var}(X)&={\rm E}\left[(X-{\rm E}(X))(X-{\rm E}(X))’\right] \\ \\
&=\left[\begin{array}{cccc}
{\rm Cov}(X_1,X_1) & {\rm Cov}(X_1,X_2) & \cdots & {\rm Cov}(X_1,X_p) \\
{\rm Cov}(X_2,X_1) & {\rm Cov}(X_2,X_2) & \cdots & {\rm Cov}(X_2,X_p) \\
\vdots & \vdots & \ddots & \vdots \\
{\rm Cov}(X_p,X_1) & {\rm Cov}(X_p,X_2) & \cdots & {\rm Cov}(X_p,X_p)\\
\end{array}\right] \ . \\ \\
&=\left(\sigma_{ij}\right)_{p\times p}\xlongequal{def}\Sigma \ .
\end{aligned}
\]
随机向量的相关系数矩阵:设 \(X=(X_1,X_2,\cdots,X_p)’\) 是一个 \(p\) 维随机向量,若 \(X\) 的协方差阵 \(\Sigma=\left(\sigma_{ij}\right)_{p\times p}\) 存在,则定义随机向量 \(X\) 的相关系数矩阵为:
r_{11} & r_{12} & \cdots & r_{1p} \\
r_{21} & r_{22} & \cdots & r_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
r_{p1} & r_{p2} & \cdots & r_{pp} \\
\end{array}\right]=\left(r_{ij}\right)_{p\times p} \ .
\]
其中
\]
如果记 \(V^{1/2}={\rm diag}\left(\sqrt{\sigma_{11}},\sqrt{\sigma_{22}},\cdots,\sqrt{\sigma_{pp}}\right)\) 为 \(X\) 的标准差矩阵,则协方差阵和相关系数矩阵的关系为
\]
两个随机向量的协方差阵:设 \(X=(X_1,X_2,\cdots,X_p)’\) 和 \(Y=(Y_1,Y_2,\cdots,Y_q)’\) 是两个随机向量,如果对 \(X\) 的任何分量 \(X_i\) 和 \(Y\) 的任何分量 \(Y_j\) 都有协方差 \({\rm Cov}(X_i,Y_j)=\sigma_{ij}\) 存在,则定义随机向量 \(X\) 和 \(Y\) 的协方差阵为
\]
如果 \({\rm Cov}(X,Y)=O_{p\times q}\) ,则称 \(X\) 和 \(Y\) 不相关。
Part 3:随机向量的数字特征的性质
关于线性变换的运算性质:设 \(X=(X_1,X_2,\cdots,X_p)’\) 和 \(Y=(Y_1,Y_2,\cdots,Y_q)’\) 是两个随机向量,矩阵 \(A\) 和矩阵 \(B\) 是任意常数矩阵,则有
& {\rm E}(AX)=A{\rm E}(X) \ , \\ \\
& {\rm E}(AXB)=A{\rm E}(X)B \ , \\ \\
& {\rm Var}(AX)=A{\rm Var}(X)A’ \ , \\ \\
& {\rm Cov}(AX,BY)=A{\rm Cov}(X,Y)B’ \ .
\end{aligned}
\]
独立包含不相关的性质:若 \(X\) 和 \(Y\) 相互独立,则一定有 \({\rm Cov}(X,Y)=O_{p\times q}\) 成立,反之不然。
协方差阵的对称非负定性:对任意的随机向量 \(X=(X_1,X_2,\cdots,X_p)’\) ,其协方差阵 \(\Sigma\) 是对称非负定矩阵,即对 \(\forall a\in \mathbb{R}^{p}\) ,有 \(a’\Sigma a={\rm Var}\left(a’X\right)\geq0\) 。
协方差阵的平方根性质:\(\Sigma=L^2\) ,其中 \(L\) 是非负定矩阵,当 \(\Sigma>0\) 时,则有 \(L>0\) ,此时将矩阵 \(L\) 称为 \(\Sigma\) 的平方根矩阵。如果将 \(\Sigma\) 正交分解为 \(\Sigma=\Gamma\Lambda\Gamma’\) ,其中 \(\Gamma\) 是正交矩阵,\(\Lambda\) 是 \(\Sigma\) 的特征值对角阵,则 \(\Sigma\) 的平方根矩阵 \(L=\Gamma\Lambda^{1/2}\Gamma’\) 。
二、矩阵代数
Part 1:正交矩阵
定义:设 \(A\) 为 \(n\) 阶方阵,如果 \(A’A=AA’=I_n\) ,则称 \(A\) 为正交矩阵,且有 \(A^{-1}=A’\) 。
性质 1:设 \(A\) 为 \(n\) 阶正交矩阵,则 \(|A|=\pm1\) 。
因为 \(\left|AA’\right|=|I_n|=1\) ,又因为 \(\left|AA’\right|=|A|^2\) ,所以 \(|A|=\pm1\) 。
性质 2:若 \(A\) 为 \(n\) 阶正交矩阵,则 \(A’,A^{-1}\) 也是正交矩阵。
因为 \(\left(A’\right)’\left(A’\right)=AA’=I_n\) ,所以 \(A’\) 是正交矩阵。
因为 \(A^{-1}=A’\) ,所以 \(A^{-1}\) 是正交矩阵。
性质 3:若 \(A\) 和 \(B\) 均为 \(n\) 阶正交矩阵,则 \(AB\) 和 \(BA\) 都是正交矩阵。
因为 \((AB)'(AB)=B’A’AB=B’B=I_n\) ,所以 \(AB\) 是正交矩阵。
因为 \((BA)'(BA)=A’B’BA=A’A=I_n\) ,所以 \(BA\) 是正交矩阵。
定义:设 \(Q\) 为 \(n\) 阶正交矩阵,则称线性变换 \(y=Qx\) 为一个正交变换。
性质 4:正交变换不改变向量的内积和长度,称为正交变换的不变性。
设 \(x_1\) 和 \(x_2\) 是任意两个 \(n\) 维向量,\(Q\) 是正交矩阵,若 \(y=Qx\) 是正交变换:
对于正交变换 \(y_1=Qx_1\) 和 \(y_2=Qx_2\) 的内积,有
\[y_1’y_2=(Qx_1)'(Qx_2)=x_1’Q’Qx_2=x_1’x_2 \ .
\]对于正交变换 \(y_1=Qx_1\) 的长度,有
\[|y_1|=|Qx_1|=\sqrt{(Qx_1)'(Qx_1)}=\sqrt{x_1’Q’Q_1x}=\sqrt{x_1’x_1}=|x_1| \ .
\]
Part 2:矩阵的迹
定义:设 \(A\) 为 \(n\) 阶方阵,则它的对角线元素之和称为 \(A\) 的迹,记为 \({\rm tr}(A)\) ,即
\]
性质 1:设 \(A\) 为 \(n\) 阶方阵,则 \({\rm tr}(A)={\rm tr}\left(A’\right)\) 。
性质 2:设 \(A\) 为 \(n\) 阶方阵,\(c\) 是一个常数,则 \({\rm tr}(cA)=c\cdot{\rm tr}(A)\) 。
性质 3:设 \(A\) 和 \(B\) 是两个 \(n\) 阶方阵,则 \({\rm tr}(A+B)={\rm tr}(A)+{\rm tr}(B)\) 。
性质 4:设 \(A_{k},\,k=1,2,\cdots,p\) 是 \(p\) 个 \(n\) 阶方阵,则 \({\rm tr}\left(\displaystyle\sum_{k=1}^pA_{k}\right)=\displaystyle\sum_{k=1}^p{\rm tr}\left(A_{k}\right)\) 。
以上 \(4\) 条性质利用迹的定义即可证明。
性质 5:设 \(A\) 是一个 \(m\times n\) 的矩阵,\(B\) 是一个 \(n\times m\) 的矩阵,则 \({\rm tr}(AB)={\rm tr}(BA)\) 。
设矩阵 \(A\) 和 \(B\) 可以表示为
\[A=\left[\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn} \\
\end{array}\right] \ , \quad
B=\left[\begin{array}{cccc}
b_{11} & b_{12} & \cdots & b_{1m} \\
b_{21} & b_{22} & \cdots & b_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
b_{n1} & b_{n2} & \cdots & b_{nm} \\
\end{array}\right] \ .
\]设 \(C=AB=(c_{ij})_{m\times m},\,D=BA=(d_{ij})_{n\times n}\) ,于是
\[c_{ii}=\sum_{j=1}^na_{ij}b_{ji} \ , \quad d_{jj}=\sum_{i=1}^mb_{ji}a_{ij} \ .
\]由迹的定义可知
\[\begin{aligned}
&{\rm tr}(AB)={\rm tr}(C)=\sum_{i=1}^mc_{ii}=\sum_{i=1}^m\left(\sum_{j=1}^na_{ij}b_{ji}\right)=\sum_{i=1}^m\sum_{j=1}^na_{ij}b_{ji} \ , \\ \\
&{\rm tr}(BA)={\rm tr}(D)=\sum_{j=1}^nd_{jj}=\sum_{j=1}^n\left(\sum_{i=1}^mb_{ji}a_{ij}\right)=\sum_{j=1}^n\sum_{i=1}^mb_{ji}a_{ij} \ ,
\end{aligned}
\]对比两式即可得到 \({\rm tr}(AB)={\rm tr}(BA)\) 。
性质 6:一个矩阵的迹等于该矩阵的特征值之和。
设 \(A\) 为 \(n\) 阶方阵,设 \(\lambda_1,\lambda_2,\cdots,\lambda_n\) 是 \(A\) 的特征值,下证 \({\rm tr}(A)=\lambda_1+\lambda_2+\cdots+\lambda_n\) 。
由特征值的定义,可以写出矩阵 \(A\) 的特征方程:
\[|\lambda I_n-A|=\left|\begin{array}{cccc}
\lambda-a_{11} & -a_{12} & \cdots & -a_{1n} \\
-a_{21} & \lambda-a_{22} & \cdots & -a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
-a_{n1} & -a_{n2} & \cdots & \lambda-a_{nn}
\end{array}\right|=0 \ .
\]上式是一个关于 \(\lambda\) 的一元 \(n\) 次方程,等式左端是一个关于 \(\lambda\) 的 \(n\) 次多项式,称为方阵 \(A\) 的特征多项式。矩阵 \(A\) 的特征值就是该特征方程的解。
把特征方程写为:\(b_0+\displaystyle\sum_{j=1}^nb_j\lambda^j=0\) ,其中 \(b_j\) 是 \(j\) 次项系数,由韦达定理知:
\[\displaystyle\sum_{j=1}^n\lambda_j=-\dfrac{b_{n-1}}{b_n} \ .
\]由行列式的定义知,行列式是不同行不同列的项的乘积之和。由于特征方程中除了主对角线的乘积之外,\(\lambda\) 的次数都小于 \(n-1\) ,于是 \(b_n\) 和 \(b_{n-1}\) 分别为 \((\lambda-a_{11})(\lambda-a_{22})\cdots(\lambda-a_{nn})\) 中 \(\lambda^n\) 和 \(\lambda^{n-1}\) 的系数,所以 \(b_n=1,\,b_{n-1}=-(a_{11}+a_{22}+\cdots+a_{nn})\) 。代入即得
\[\sum_{j=1}^n\lambda_j=a_{11}+a_{22}+\cdots+a_{nn}={\rm tr}(A) \ .
\]
性质 7:若 \(A\) 为对称幂等矩阵,则 \({\rm tr}(A)={\rm rank}(A)\) 。
设 \(A\) 为 \(n\) 阶对称幂等矩阵,有 \(A’=A\) ,所以存在对角矩阵 \(\Lambda=\mathrm{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n)\) 和正交矩阵 \(Q\) ,使得 \(A=Q’\Lambda Q\) ,且有
\[{\rm rank}(A)={\rm rank}\left(Q’\Lambda Q\right)={\rm rank}(\Lambda) \ .
\]又因为幂等矩阵的特征值只能为 \(0\) 或 \(1\) ,所以 \({\rm rank}(\Lambda)\) 等于特征值中 \(1\) 的个数,即为 \(A\) 的特征值之和。由性质 \(6\) 知,\({\rm tr}(A)\) 等于 \(A\) 的特征值之和,所以 \({\rm tr}(A)={\rm rank}(A)\) 。
三、矩阵微商
Part 1:一元自变量的矩阵微商
定义:设 \(y=(y_1,y_2,\cdots,y_q)’\) 是变量 \(x\) 的向量函数,则记
\]
即 \(q\) 维向量 \(y\) 对一元变量 \(x\) 的导数仍然是 \(q\) 维向量,称为 \(y\) 对 \(x\) 的导数向量。
定义:设 \(Y=F(x)\) 是变量 \(x\) 的矩阵函数,其中 \(Y=(y_{ij})_{p\times q}\) 是一个 \(p\times q\) 的矩阵,则记
\]
即 \(p\times q\) 的矩阵 \(Y\) 对一元变量 \(x\) 的导数仍然是 \(p\times q\) 的矩阵,称为 \(Y\) 对 \(x\) 的导数矩阵。
Part 2:多元自变量的矩阵微商
定义:设 \(y=f(x)\) 是向量 \(x=(x_1,x_2,\cdots,x_p)’\) 的一元函数,则记
\]
即一元函数 \(f(x)\) 对 \(p\) 维向量 \(x\) 的导数仍然是 \(p\) 维向量,称为 \(y\) 对 \(x\) 的偏导数向量。
定义:设 \(y=(y_1,y_2,\cdots,y_q)’\) 是向量 \(x=(x_1,x_2,\cdots,x_p)’\) 的 \(q\) 维向量函数,即 \(y_i=f_i(x)\) ,则记
\left[\begin{array}{cccc}
\dfrac{\partial y_1}{\partial x_1} & \dfrac{\partial y_2}{\partial x_1} &\cdots &\dfrac{\partial y_q}{\partial x_1} \\
\dfrac{\partial y_1}{\partial x_2} & \dfrac{\partial y_2}{\partial x_2} &\cdots& \dfrac{\partial y_q}{\partial x_2} \\
\vdots & \vdots & \ddots & \vdots \\
\dfrac{\partial y_1}{\partial x_p} & \dfrac{\partial y_2}{\partial x_p} &\cdots& \dfrac{\partial y_q}{\partial x_p} \\
\end{array}\right] \ .
\]
即 \(q\) 维向量函数 \(y\) 对 \(p\) 维向量 \(x\) 的导数是一个 \(p\times q\) 的矩阵,称为 \(y\) 对 \(x\) 的偏导数矩阵,又称为 \(y\) 对 \(x\) 的雅可比矩阵。
Part 3:矩阵微商的性质
首先定义如下的矩阵和向量:
&x=(x_1,x_2,\cdots,x_n)’ \ , \quad \beta=\left(\beta_1,\beta_2,\cdots,\beta_n\right)’ \ , \\ \\ &A=\left[\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1n} \\
a_{21} & a_{22} & \cdots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{n1} & a_{n2} & \cdots & a_{nn} \\
\end{array}\right] \ , \quad B=\left[\begin{array}{cccc}
b_{11} & b_{12} & \cdots & b_{1n} \\
b_{21} & b_{22} & \cdots & b_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
b_{m1} & b_{m2} & \cdots & b_{mn} \\
\end{array}\right] \ .
\end{aligned}
\]
于是有如下常用的矩阵求导公式:
线性组合对向量求导:
& \frac{\partial \beta’x}{\partial x}=\frac{\partial x’\beta}{\partial x}=\beta \ .
\end{aligned}
\]
把线性组合看作向量 \(x\) 的一元函数,有
\[\beta’x=x’\beta=\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n \ .
\]由矩阵微商的定义可得
\[\frac{\partial \beta’x}{\partial x}=\frac{\partial x’\beta}{\partial x}=\left(\beta_1,\beta_2,\cdots,\beta_n\right)’ =\beta \ .
\]
二次型对向量求导:
\]
若 \(A\) 是一个实对称矩阵,则有
\]
若 \(A\) 是一个单位矩阵,则有
\]
把二次型看作向量 \(x\) 的一元函数,有
\[x’Ax=\sum_{i=1}^n\sum_{j=1}^na_{ij}x_{i}x_{j} \ .
\]首先对分量 \(x_i\) 求导有
\[\frac{\partial x’Ax}{\partial x_i}=\frac{\partial }{\partial x_i}\sum_{i=1}^n\sum_{j=1}^na_{ij}x_{i}x_{j}=\sum_{j=1}^na_{ij}x_j+\sum_{j=1}^na_{ji}x_j=x’a_{i\cdot}’ +x’a_{\cdot i} \ .
\]由矩阵微商的定义可得
\[\begin{aligned}
\frac{\partial x’Ax}{\partial x}&=\left(\frac{\partial x’Ax}{\partial x_1},\frac{\partial x’Ax}{\partial x_2}\cdots,\frac{\partial x’Ax}{\partial x_n}\right)’ \\ \\
&=\left(x’\left(a_{1\cdot}’+a_{\cdot 1}\right),x’\left(a_{2\cdot}’+a_{\cdot 2}\right),\cdots,x’\left(a_{n\cdot}’+a_{\cdot n}\right)\right)’ \\ \\
&=\left(x’\left(A’+A\right)\right)’ \\ \\
&=\left(A+A’\right)x \ .
\end{aligned}
\]
线性变换对向量求导:
\]
设 \(y=\left(y_1,y_2,\cdots,y_m\right)’=Bx\) ,则有
\[y_i=\sum_{j=1}^nb_{ij}x_j \ .
\]由矩阵微商的定义可得
\[\frac{\partial Bx}{\partial x}=\frac{\partial y}{\partial x}=\left[\begin{array}{cccc}
\dfrac{\partial y_1}{\partial x_1} & \dfrac{\partial y_2}{\partial x_1} &\cdots &\dfrac{\partial y_q}{\partial x_1} \\
\dfrac{\partial y_1}{\partial x_2} & \dfrac{\partial y_2}{\partial x_2} &\cdots& \dfrac{\partial y_q}{\partial x_2} \\
\vdots & \vdots & \ddots & \vdots \\
\dfrac{\partial y_1}{\partial x_p} & \dfrac{\partial y_2}{\partial x_p} &\cdots& \dfrac{\partial y_q}{\partial x_p} \\
\end{array}\right]=\left[\begin{array}{cccc}
b_{11} & b_{21} &\cdots & b_{m1} \\
b_{12} & b_{22} &\cdots & b_{m2} \\
\vdots & \vdots & \ddots & \vdots \\
b_{1n} & b_{2n} &\cdots & b_{mn} \\
\end{array}\right]=B’ \ .
\]