多元线性回归模型

多元线性回归模型数学层面的理解

目录

回归分析

回归的现代含义:

回归分析是关于研究一个叫做因变量的变量(Y)对另一个或多个叫做自变量的变量(X)的依赖关系;

其用意在于通过自变量在重复抽样中的已知或设定值,去估计或预测因变量的总体均值

例子:姚明身高2.26米,姚明的子女会有多高呢?
2.01米可信吗?

image-20201202173141502

因此,一旦知道了父母的身高,就可以按照上述关系式(回归线)来预测子女的平均身高(而不是具体身高)。

注意明确几个概念(为深刻理解“回归”)

●被解释变量Y的条件分布和条件概率:

当解释变量X取某固定值时(条件),Y的值不确定,Y的不同取值会形成一定的分布,这是Y的条件分布。X取某固定值时,Y取不同值的概率称为条件概率。

●被解释变量Y的条件期望:

对于X 的每一个取值,对Y所形成的分布确定其期望或均值,称为Y的条件期望或条件均值,用\(E(Y|X_i)\) 表示。

注意:Y的条件期望是随X的变动而变动的

image-20201202173416305

\(\large\color{#70f3ff}{\boxed{\color{green}{回归线}}}\):对于每一个 \(X\) 的取值\(X_i\) ,都有 Y 的条件期望 \(E(Y|X_i)\)与之对应,代表 Y 的条件期望的点的轨迹形成的直线或曲线称为回归线。

\(\large\color{#70f3ff}{\boxed{\color{green}{回归函数}}}\):被解释变量 Y 的条件期望 \(E(Y|X_i)\)随解释变量 X 的变化而有规律的变化,如果把Y的条件期望表现为 X 的某种函数,

\[E(Y|X_i)=f(X_i)
\]

这个函数称为回归函数。

回归函数

回归函数分为

总体回归函数和样本回归函数

总体回归函数

概念

前提:假如已知所研究的经济现象的总体的被解释变量Y和解释变量 X 的每个观测值(通常这是不可能的!),那么,可以计算出总体被解释变量Y的条件期望\(E(Y|X_i)\) ,并将其表现为解释变量X的某种函数

\[E(Y|X_i)=f(X_i)
\]

这个函数称为总体回归函数(PRF

本质:总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。

表现形式

●条件期望表现形式

例如 Y 的条件期望 \(E(Y|X_i)\)是解释变量 X的线性函数,可表示为:

\[E(Y|X_i)=f(X_i)=\beta_1 +\beta_2X_i
\]

●个别值表现形式(随机设定形式)

对于一定的\(X_i\)Y 的各个别值 \(Y_i\)并不一定等于条件期望,而是分布在 \(E(Y|X_i)\)的周围,若令各个\(Y_i\) 与条件期望 \(E(Y|X_i)\)的偏差为\(u_i\) ,显然 \(u_i\)是个随机变量则有

\[u_i=Y_i-E(Y_i|X_i)=Y_i-\beta_1 -\beta_2X_i\\
Y_i=\beta_1 +\beta_2X_i+u_i
\]

偏差

如何理解总体回归函数

  • 作为总体运行的客观规律,总体回归函数是客观存在的,但在实际的经济研究中总体回归函数通常是未知的,只能根据经济理论和实践经验去设定。
  • 总体回归函数中 YX 的关系可以是线性的,也可以是非线性的。

“线性”的判断

线性回归模型的“线性” 有两种解释:

◆就变量而言是线性的

——Y的条件期望(均值)是X的线性函数

◆就参数而言是线性的

——Y的条件期望(均值)是参数β的线性函数

例如:\(E(Y_i|X_i)=\beta_1 +\beta_2X_i\) 对变量、参数均为“线性”

\(E(Y_i|X_i)=\beta_1 +\beta_2X_i^2\) 对参数“线性”,对变量“非线性”.

线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估计其参数,都可以归于线性回归。

随机扰动项 u

\(\large\color{magenta}{\boxed{\color{brown}{概念} }}\)

在总体回归函数中,各\(Y_i\) 与条件期望 \(E(Y|X_i)\)的偏差为\(u_i\) 有很重要的意义。若只有 X 影响 Y, \(Y_i\)\(E(Y|X_i)\)不应有偏差。

若偏差 \(u_i\)存在,说明还有其他影响因素,\(u_i\)实际代表了排除在模型以外的所有因素对 Y 的影响。

\(\large\color{magenta}{\boxed{\color{brown}{性质} }}\) \(u_i\)是其期望为 0 有一定分布的随机变量

重要性:随机扰动项的性质决定着分析结果的性质和方法的选择。

引入随机扰动项\(u_i\)的原因

● 是未知影响因素的代表 (理论的模糊性)

● 是无法取得数据的已知影响因素的代表 (数据欠缺)

● 是众多细小影响因素的综合代表 (非系统性影响)

● 模型可能存在设定误差 (变量、函数形式的设定)

● 模型中变量可能存在观测误差 (变量数据不符合实际)

● 变量可能有内在随机性 (人类经济行为的内在随机性)

样本回归函数(SRF)

\(\large\color{#70f3ff}{\boxed{\color{green}{样本回归线}}}\) :对于 X 的一定值,取得 Y 的样本观测值,可计算其条件均值,样本观测值条件均值的轨迹,称为样本回归线。

\(\large\color{#70f3ff}{\boxed{\color{green}{样本回归函数}}}\) :如果把被解释变量 Y 的样本条件均值\(\hat {Y_i}\) 表示为解释变量 X 的某种函数,这个函数称为样本回归函数(SRF)。

样本回归函数

函数形式

条件均值形式:样本回归函数如果为线性函数,可表示为

\[\hat Y_i=\hat \beta_1 +\hat \beta_2X_i
\]

其中:\(\hat Y_i\) 是与\(X_i\) 相对应的 Y 的样本条件均值。\(\hat \beta_1 和\hat \beta_2\)分别是样本回归函数的参数

个别值(实际值)形式:

被解释变量Y的实际观测值 \(Y_i\) 不完全等于样本条件均值\(\hat Y_i\) ,二者之差用 \(e_i\)表示, \(e_i\)称为剩余项或残差项:

\[e_i =Y_i-\hat Y_i\\
\hat Y_i=\hat \beta_1 +\hat \beta_2X_i+e_i
\]

特点

●样本回归线随抽样波动而变化:每次抽样都能获得一个样本,就可以拟合一条样本回归线, (SRF不唯一)

SRF不唯一

●样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。

●样本回归线只是样本条件均值的轨迹,还不是总体回归 线,它至多只是未知的总体回归线的近似表现。

理解

如果能够通过某种方式获得\(\hat \beta_1 和\hat \beta_2\) 的数值,显然:

\(\hat \beta_1 和\hat \beta_2\) 是对总体回归函数参数 \(\beta_1\)\(\beta_2\) 的估计

\(\hat Y_i\)是对总体条件期望\(E(Y_i|X_i)\)的估计

\(e_i\)在概念上类似总体回归函数中的\(u_i\) ,可视为对 \(u_i\)的估计。

多元线性回归模型的意义

一般形式:对于有K个解释变量的线性回归模型

\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_kX_{ki} + u_i,i=1,2,…,n
\]

注意:模型中的 \(\beta_j\)j=0,1,2,…,k)是偏回归系数,样本容量为n

偏回归系数

控制其它解释量不变的条件下,第 j 个解释变量的单位变动对被解释变量平均值的影响,即对Y平均值的“直接”或“净”影响。

多元总体回归函数

条件期望表现形式:

将Y的总体条件期望表示为多个解释变量的函数,如:

\[E(Y_i| X_{1i} ,…, X_{ki} )=\beta_0 + \beta_1 X_{1i} + \cdots + \beta_kX_{ki} ,(i=1,2,…,n)
\]

注意:这时Y总体条件期望的轨迹是K维空间的一条线

个别值表现形式:

引入随机扰动项: $u_i = Y_i -E(Y_i| X_{1i} ,…, X_{ki} ) $

或表示为 \(Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_kX_{ki} + u_i,i=1,2,…,n\)

直观理解(供参考)

image-20201126220543483

Y 的样本条件均值可表示为多个解释变量的函数

\[\hat Y_i =\hat \beta_0 +\hat \beta_1 X_{1i} + \cdots +\hat \beta_kX_{ki}
\]

或回归剩余(残差):\(e_i = Y_i – \hat Y_i\)

\[Y_i =\hat \beta_0 +\hat \beta_1 X_{1i} + \cdots +\hat \beta_kX_{ki} + e_i,~~~i=1,2,…,n
\]

多个解释变量的多元线性回归模型的n组样本观测值,可表示为

\[Y_1 = \beta_0 + \beta_1 x_{11} + \cdots + \beta_kx_{1k} + u_1\\
Y_2 = \beta_0 + \beta_1 x_{21} + \cdots + \beta_kx_{2k} + u_2\\
………\\
Y_n = \beta_0 + \beta_1 x_{n1} + \cdots + \beta_kx_{nk} + u_n
\]

用矩阵表示

\[\begin{bmatrix}
Y_1 \\ Y_2 \\ \vdots \\ Y_n
\end{bmatrix} = \begin{bmatrix}1 & x_{11} & \cdots & x_{1k} \\
1 & x_{21} & \cdots & x_{2k} \\ \vdots & \vdots & \cdots &\vdots
\\ 1 & x_{n1} & \cdots &x_{nk}\end{bmatrix}

\begin{bmatrix}\beta_0 \\ \beta_1 \\\vdots
\\\beta_k\end{bmatrix}
+
\begin{bmatrix}u_1 \\ u_2 \\\vdots \\
u_n\end{bmatrix}
\]

\[y \qquad \qquad =X\qquad \qquad\beta +\qquad u \\
(n \times 1 ) ~~ (n \times (k+1) )~~( (k+1) \times 1)~~ (n\times 1)
\]

矩阵表示方式

总体回归函数

总体回归函数 \(\quad E(\boldsymbol{Y})=\boldsymbol{X} \boldsymbol{\beta} \quad\)\(\quad \boldsymbol{Y}=\boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{u}\)

样本回归函数 \(\quad \hat{Y}=X \hat{\beta} \quad\)\(Y=X \hat{\beta}+e\)

其中 \(: Y, \hat{Y}, u, e \quad\) 都是有 \(n\) 个元素的列向量

\(\beta, \hat{\beta}\) 是有 \(\mathrm{k}\)+1 个元素的列向量

\[(\mathbf{k+1}=\text { 解释变量个数 }+1 \text { ) }
\]

\(X_{\text { }}\) 是第一列为1的n \(\times\) (k+1) 阶解释变量数据矩阵 。 (截距项可视为解释变量总是取值为1)

回归分析的目的

目的:

计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF

由于样本对总体总是存在代表性误差,SRF 总会过高或过低估计PRF

要解决的问题:

寻求一种规则和方法,使其得到的 SRF 的参数估计尽可能“接 近”总体回归函数中的参数的真实值。这样的“规则和方法”有多种,如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。

普通最小二乘法(OLS)

OLS的基本思想(以一元为例):

对于\(\hat Y_i=\hat \beta_1 +\hat \beta_2X_i\) 不同的估计方法可以得到不同的样本回归参数 \(\hat \beta_1 和\hat \beta_2\) ,所估计的\(\hat Y_i\)也就不同。

●理想的估计方法应使估计的\(\hat Y_i\) 与真实的\(Y_i\) 的差(即剩余\(e_i\) )总的来说越小越好.

\(e_{i}\) 可正可负,总有 \(\sum e_{i}=0,\) 所以可以取 \(\sum e_{i}^{2}\) 最小,即

\[\min \sum e_{i}^{2}=\min \sum\left(Y_{i}-\hat{\beta}_{1}-
\hat{\beta}_{2} X_{i}\right)^{2}
\]

在观测值Y和X确定时 \(, \sum e_{i}^{2}\) 的大小决定于 \(\hat{\beta}_{1}\)\(\hat{\beta}_{2}\)

多元线性回归模型的OLS估计

多元情形下原则相同 :

寻求剩余平方和最小的参数估计式 \(\min : \sum e_{i}^{2}=\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}\)

\[\min : \sum e_{i}^{2}=\sum\left[Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k} X_{k i}\right)\right]^{2}
\]

\(\min : \sum e_{i}^{2}=\min : \mathrm{e}^{\prime} \mathrm{e}=\min :(\mathrm{Y}-\mathrm{X} \hat{\boldsymbol{\beta}})^{\prime}(\mathrm{Y}-\mathrm{X} \hat{\boldsymbol{\beta}})\)

求偏导, 并令其为0

\[\quad \partial\left(\sum e_{i}^{2}\right) / \partial \hat{\beta}_{j}=0
\]

\[\begin{array}{l}

\left.\quad-2 \sum Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k i} X_{k i}\right)\right]=0 \longrightarrow \quad \sum e_{i}=0 \\

-2 \sum X_{2 i}\left[Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k i} X_{k i}\right)\right]=0 \longrightarrow \sum X_{2 i} e_{i}=0 \\

-2 \sum X_{k i}\left[Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k i} X_{k i}\right)\right]=0 \longrightarrow \sum X_{k i} e_{i}=0

\end{array}
\]

用矩阵表示的正规方程

偏导数

\[\left[\begin{array}{c}

\sum e_{i} \\

\sum X_{2 i} e_{i} \\

\vdots \\

\sum X_{k i} e_{i}

\end{array}\right]=\left[\begin{array}{cccc}

1 & 1 & \cdots & 1 \\

X_{21} & X_{22} & \cdots & X_{2 n} \\

\vdots & \vdots & \vdots & \vdots \\

X_{k 1} & X_{k 2} & \cdots & X_{k n}

\end{array}\right]\left[\begin{array}{c}

e_{1} \\

e_{2} \\

\vdots \\

e_{n}

\end{array}\right]=\mathbf{X}^{\prime} \mathbf{e}=\left[\begin{array}{c}

0 \\

0 \\

\vdots \\

0

\end{array}\right]
\]

因为样本回归函数为 \(\quad Y=X \hat{\beta}+e\)

两边左乘 \(X^{\prime}\)

\[\boldsymbol{X}^{\prime} \boldsymbol{Y}=\boldsymbol{X}^{\prime} \boldsymbol{X} \hat{\boldsymbol{\beta}}+\boldsymbol{X}^{\prime} \boldsymbol{e}
\]

根据最小二乘原则

\[\boldsymbol{X}^{\prime} \boldsymbol{e}=\boldsymbol{0}
\]

则正规方程为

\[\begin{array}{l}

\boldsymbol{X}^{\prime} \boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{X}^{\prime}
\boldsymbol{Y}
\end{array}
\]

OLS估计式

由正规方程 \(\begin{array}{l}\boldsymbol{X}^{\prime} \boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{X}^{\prime}
\boldsymbol{Y}
\end{array}\)
, \((\boldsymbol{X}^{\prime} \boldsymbol{X} )_{k \times k}\)是满秩矩阵 其逆存在

多元回归中 \(\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\prime} \boldsymbol{X} )^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y}\)

只有两个解释变量时:

\[\begin{array}{l}
\hat{\beta}_{1}=\bar{Y}-\hat{\beta}_{2} \bar{X}_{2}-\hat{\beta}_{3} \bar{X}_{3} \\
\hat{\beta}_{2}=\frac{\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\
\hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i}^{2}\right)-\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}}
\end{array}
\]

对比一元线性回归中

\[\hat{\beta}_{1}=\bar{Y}-\hat{\beta}_{2} \bar{X}\\

\hat{\beta}_{2}=\frac{\sum x_{i} y_{i}}{\sum x_{i}^2}
\]

注意 \(: x, y\)\(X 、 Y\) 的离差

OLS估计的数学性质

回归线通过样本均值 \(\quad \bar{Y}=\hat{\beta}_{1}+\hat{\beta}_{2} \bar{X}_{2}+\hat{\beta}_{3} \bar{X}_{3}+\cdots+\hat{\beta}_{k} \bar{X}_{k}\)

估计值 \(\hat{Y}_{i}\) 的均值等于实际观测值 \(Y_{i}\) 的均值 \(\sum \hat{Y}_{i} / n=\bar{Y}\)

剩余项 \(e_{i}\) 的均值为零 \(\bar{e}_{i}=\sum e_{i} / n=0\)

被解释变量估计值 \(\hat{Y}_{i}\) 与剩余项 \(e_{i}\) 不相关

\[\operatorname{Cov}\left(\hat{Y}_{i}, e_{i}\right)=0 \quad \text { 或 } \quad \sum\left(e_{i} \hat{y}_{i}\right)=0
\]

解释变量 \(X_{i}\) 与剩余项 \(e_{i}\) 不相关

\[\operatorname{Cov}\left(X_{j i}, e_{i}\right)=0 \quad(\mathrm{j}=2,3,-\mathrm{-k})
\]

OLS估计量的统计性质

回顾:参数估计式的优劣需要有评价的标准

◆参数无法通过观测直接确定,只能通过样本估计,但因存在抽样波动,参数估计值不一定等于总体参数的真实值。

◆ 参数估计方法及所确定的估计式不一定完备,不一定能得到总体参数的真实值,需要对估计方法作评价与选择。

比较不同估计方法的估计结果时,需要有一定的评价标准.

\(\large\color{#70f3ff}{\boxed{\color{green}{基本要求}}}\) :参数估计值应尽可能地接近总体参数的真实值

\(\large\color{#70f3ff}{\boxed{\color{green}{估计准则}}}\) :“尽可能地接近” 原则

决定于参数估计式的统计性质:无偏性、有效性、一致性等。

1、 线性特征 \(\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\prime} \boldsymbol{X} )^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y}\)

\(\hat{\boldsymbol{\beta}}\)Y 的线性函数,因 \((\boldsymbol{X}^{\prime} \boldsymbol{X} )^{-1} \boldsymbol{X}^{\prime}\) 是非随机或取固定值的矩阵

2、无偏特性 $$E(\hat{\boldsymbol{\beta}_k})={\boldsymbol{\beta}_k}$$

3、 最小方差特性

\({\boldsymbol{\beta}_k}\) 所有的线性无偏估计中,OLS估计 \(\hat{\boldsymbol{\beta}_k}\)具有最小方差

线性性:

\[\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}=\mathbf{A} \mathbf{Y} \Rightarrow\left[\begin{array}{c}
\hat{\beta}_{1} \\
\hat{\beta}_{2} \\
\vdots \\
\hat{\beta}_{k}
\end{array}\right]=\left[\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1 n} \\
a_{21} & a_{22} & \cdots & a_{2 n} \\
\vdots & \vdots & & \vdots \\
a_{k 1} & a_{k 2} & \cdots & a_{k n}
\end{array}\right]\left[\begin{array}{c}
Y_{1} \\
Y_{2} \\
\vdots \\
Y_{n}
\end{array}\right]
\]

可以看出, \(\hat{\beta}\) 等于取固定值的解释变量构成的 \(\left(\mathrm{X}^{\prime} \mathrm{X}\right)^{-1} \mathrm{X}^{\prime}\) 与被解释变 量观测值列向量Y的乘积 , 从而 \(\hat{\beta}_{j}(j=1,2, \mathrm{~L}, k)\)\(Y_{i}\) 的线性函数。

无偏性:

\[\begin{aligned}
\text { 因为 } \hat{\boldsymbol{\beta}} &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\mathbf{U}) \\
&=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\left(\mathbf{X}^{\prime} \mathbf{X}\right) \boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U} \\
&=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U}
\end{aligned}
\]

对两边取期望, \(\quad E(\hat{\boldsymbol{\beta}})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}[E(\mathbf{U})]\)

由假定1: \(E(\mathbf{U})=0\)\(\hat{\boldsymbol{\beta}}\)\({\boldsymbol{\beta}}\) 的无偏估计。

\(\hat{\boldsymbol{\beta}}\) 的方差——协方差矩阵

\[\begin{aligned}
C O V(\hat{\boldsymbol{\beta}}) &=E\left\{[\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})][\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})]^{\prime}\right\} \\
&=E\left[(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})^{\prime}\right]
\end{aligned} \quad \quad \text { (由无偏性) }
\]

\[\begin{array}{l}
=E\left[(\boldsymbol{X} \boldsymbol{X})^{-1} \boldsymbol{X}^{\prime} \boldsymbol{u} \boldsymbol{u}^{\prime} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right] \\
=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\boldsymbol{X}^{\prime} E\left(\boldsymbol{u}
\boldsymbol{u}^{\prime}\right) \boldsymbol{X}\left(
\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\\
=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\boldsymbol{X}^{\prime} \sigma^2 I \boldsymbol{X}\left(
\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\\
= \sigma^2\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\end{array}
\]

其中(由OLS估计式)

\[\begin{aligned}
\hat{\boldsymbol{\beta}} &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\mathbf{U}) \\
&=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\left(\mathbf{X}^{\prime} \mathbf{X}\right) \boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U} \\
&=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U}
\end{aligned}
\]

(由同方差性) \(E\left(\boldsymbol{u}
\boldsymbol{u}^{\prime}\right)=\sigma^2 I\)

统计性质与古典假定

用样本去估计总体回归函数,总要使用特定的方法,而任何估计参数的方法都需要有一定的前提条件——\(\large\color{#70f3ff}{\boxed{\color{green}{假定条件}}}\)

经典线性回归的基本假定

为什么要作基本假定?

●只有具备一定的假定条件,所作出的估计才具有良好的统计性质。

●因为模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的\(\large\color{#70f3ff}{\boxed{\color{green}{分布性质}}}\),也才可能进行\(\large\color{#70f3ff}{\boxed{\color{green}{假设检验}}}\)\(\large\color{#70f3ff}{\boxed{\color{green}{区间估计}}}\)等统计推断。

多元线性回归中的基本假定

假定1:零均值假定

\[E(u_i) =0(i=1,2,…,n) ~~~ 或 ~~~E(u) =0
\]

假定2和假定3:同方差和无自相关假定:

同方差 \(: \operatorname{Var}\left(u_{i} \mid X_{i}\right)=E\left[u_{i}- E\left(u_{i} \mid X_{i}\right)\right]^{2}=E\left(u_{i}^{2}\right)=\sigma^{2}\)

无自相关 \(: \operatorname{Cov}\left(u_{i}, u_{j}\right)=E\left[u_{i}-E\left(u_{i}\right)\right]\left[u_{j} -E\left(u_{j}\right)\right]=E\left(u_{i} u_{j}\right)=0\)

假定4:随机扰动项与解释变量不相关(外生性)

\[\operatorname{Cov}\left(X_{j i}, u_{i}\right)=0 \quad(j=2,3, \cdots k) \\
\]

\[\begin{array}{c}
\operatorname{Var}(\mathbf{U})=E\left[(\mathbf{U}-E \mathbf{U})
(\mathbf{U}-E \mathbf{U})^{\prime}\right]=E\left
(\mathbf{U U}^{\prime}\right) \\
=
{\left[\begin{array}{cccc}
E\left(u_{1} u_{1}\right) & E\left(u_{1} u_{2}\right) & \cdots & E\left(u_{1} u_{n}\right) \\
E\left(u_{2} u_{1}\right) & E\left(u_{2} u_{2}\right) & \cdots & E\left(u_{2} u_{n}\right) \\
\vdots & \vdots & & \vdots \\
E\left(u_{n} u_{1}\right) & E\left(u_{n} u_{2}\right) & \cdots & E\left(u_{n} u_{n}\right)
\end{array}\right]=\left[\begin{array}{cccc}
\sigma^{2} & 0 & \cdots & 0 \\
0 & \sigma^{2} & \cdots & 0 \\
\vdots & \vdots & & \vdots \\
0 & 0 & \cdots & \sigma^{2}
\end{array}\right]}
\end{array}
\]

也即

\[Var(\mathbf{U}) = \sigma^2 \mathbf{I}_n
\]

假定5: 无多重共线性假定

假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关,或解释变量观测值矩阵X 的秩为K (注意XnK列)。

\[Rank(X )= k \rightarrow Rank(X’X)=k
\]

\((X’X)\)可逆

等价说法:X 满秩、X’X 满秩、│X’X│≠ 0

错误说法: X 可逆

假定6: 正态性假定

即假定 \(u_i\)服从均值为零、方差为\(\sigma^2\) 的正态分布

\[u_i \sim N(0,\sigma) \rightarrow ~~~
\mathbf{u} \sim N(0,\sigma^2\mathbf{I})
\]

(说明:正态性假定不影响对参数的点估计,所以有时不列入基本假定,但这对确定所估计参数的分布性质是需要的。且根据中心极限定理,当样本容量趋于无穷大时, \(u_i\)的分布会趋近于正态分布。所以正态性假定有合理性)

注意:

并不是参数估计的每一具体步骤都要用到所有的假定,但对全部假定有完整的认识,对学习原理是有益的。

无偏性

image-20201202212532696

前提:重复抽样中估计方法固定、样本数不变、经重复抽样的观测值,可得一系列参数估计值\(\hat \beta\) , \(\hat \beta\)的分布称为\(\hat \beta\) 的抽样分布,其密度函数记为\(f(\hat \beta)\)

如果\(E(\hat \beta)=\beta\)

\(\hat \beta\)是参数 \(\beta\) 的无偏估计式,否则则称 \(\hat \beta\)是有偏的估计,其偏倚为\(E(\hat \beta)-\beta\)

有效性

前提:样本相同、用不同的方法估计参数,可以找到若干个不同的无偏估计式

目标: 努力寻求其抽样分布具有最小方差的估计式既是无偏的同时又具有最小方差特性的估计式,称为最佳(有效)估计式。

渐近性质(大样本性质)

image-20201202213138898

思想:当样本容量较小时,有时很难找到方差最小的无偏估计,需要考虑样本扩大后的性质(估计方法不变,样本数逐步增大)

一致性:

当样本容量 n 趋于无穷大时,如果估计式 \(\hat \beta\)依概率收敛于总体参数的真实值,就称这个估计式 \(\hat \beta\)\(\beta\) 的一致估计式。即

\[\lim P(|\hat{\beta}-\beta| \leq \varepsilon)=1 \text { 或 } P \lim _{n \rightarrow \infty}(\hat{\beta})=\beta
\]

(渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式)

渐近有效性:当样本容量 n 趋于无穷大时,在所有的一致估计式中,具有最小的渐近方差。

OLS估计的分布性质

基本思想:

\(\hat \beta\)是随机变量,必须确定其分布性质才可能进行区间估计和假设检验

\(u_i\)是服从正态分布的随机变量,决定了Y也是服从正态分布的随机变量.

\(\hat \beta\)是Y的线性函数,决定了\(\hat \beta\)也是服从正态分布的随机变量

\(\hat \beta\)的期望与方差

\(\hat \beta\)的期望 \(E(\hat \beta)=\beta\) (由无偏性)

\(\hat \beta\)的方差和标准误差: \(\hat \beta\) 的方差—协方差矩阵为

\[\operatorname{Var}-\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\]

这里的

\[\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}

=\left[\begin{array}{cccc}

c_{11} & c_{12} & \cdots & c_{1 k} \\

c_{21} & c_{22} & \cdots & c_{2 k} \\

\vdots & \vdots & \vdots & \vdots \\

c_{k 1} & c_{k 2} & \cdots & c_{k k}
\end{array}\right]
\]

方差:

\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\sigma^{2} c_{j j}
\]

标准差:

\[S E\left(\hat{\beta}_{j}\right)=\sigma \sqrt{c_{j j}}
\]

其中 \(c_{j j}\) 是矩阵 \(\left(X^{\prime} X\right)^{-1}\) 中第 \(j\) 行第 \(j\) 列的元素

所以

\[\quad \hat{\beta}_{j} \sim N\left(\beta_{j}, \sigma^{2} c_{j j}\right) \quad(\mathrm{j}=1,2,-\mathrm{-k})
\]

\(\hat{\beta}_{j}\) 作标准化变换

为什么要对 \(\hat{\beta}_{j}\) 作标准化变换?

标准化前分布函数

\[F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} d x
\]

\(u_i\) 正态性假定下,由前面的分析已知\(\quad \hat{\beta}_{j} \sim N\left(\beta_{j}, \sigma^{2} c_{j j}\right)\)

但在对一般正态变量\(\hat{\beta}_{j}\) 作实际分析时,要具体确定\(\hat{\beta}_{j}\) 的取值及对应的概率,要通过正态分布密度函数或分布函数去计算是很麻烦的,为了便于直接利用“标准化正态分布的临界值”,需要对\(\hat{\beta}_{j}\) 作标准化变换。

标准化的方式:

\[z_j = \frac{\hat{\beta}_{j}-E({\beta}_{j})}{SE(\hat{\beta}_{j})}
\]

标准化后分布函数

\[\Phi (x)=\frac{1}{\sqrt{2 \pi} } \int_{-\infty}^{x}
e^{-\frac{x^{2}}{2 }} d x
\]

1.\(\sigma^{2}\)已知时,对 \(\hat{\beta}_{j}\)作标准化变换

所得Z统计量为标准正态变量

\[z_j = \frac{\hat{\beta}_{j}-{\beta}_{j}}{SE(\hat{\beta}_{j})}=
\frac{\hat{\beta}_{j}-{\beta}_{j}}{\sigma \sqrt{c_{j j}}} \sim N(0,1),j=1,…,k
\]

注意:这时 \(SE(\hat{\beta}_{j})\)不是随机变量(Xσn 都是非随机的)

随机扰动项方差\(\sigma^{2}\) 的估计

\(\sigma^{2}\)一般未知,可证明多元回归中\(\sigma^{2}\) 的无偏估计为:

\[\hat\sigma = \frac{\sum e_i^2}{n-k} ~~~ 或表示为~~~
\hat\sigma = \frac{ e’e}{n-k}
\]

一元回归的特例中,

\[SE(\hat{\beta}_{2})=\frac{\sigma }{\sqrt{\sum x_i^2}} ~~~~~~~
SE(\hat{\beta}_{1})=\sqrt{\frac{\sum X_i^2 }{n\sum x_i^2}}\sigma
\]

2.\(\sigma^{2}\)未知时,对 \(\hat{\beta}_{j}\)作标准化变换

条件: 当 \(\sigma^{2}\)未知时,可用 \(\hat\sigma^{2}\)(随机变量)代替 \(\sigma^{2}\)去估计参数的标准误差。这时参数估计的标准误差是个随机变量

  • 样本为大样本时,作标准化变换所得的统计量 \(Z_j\), 也可以视为标准正态变量(根据中心极限定理)。

  • 样本为小样本时,用估计的参数标准误差对\(\hat{\beta}_{j}\)作标准化变换,所得的统计量用t表 示,这时t将不再服从正态分布,而是服从 t 分布:(注意这时分母是随机变量)

    \[t= \frac{\hat{\beta}_{j}-{\beta}_{j}}
    {\hat {SE}(\hat{\beta}_{j})} \sim t(n-k)
    \]

回归系数的区间估计

由于 \(\quad t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{\sigma} \sqrt{c_{i j}}} \sim t(n-k)\)

给定 \(\alpha,\)\(\mathbf{t}\) 分布表的自由度为 \(\mathrm{n}-\mathrm{k}\) 的临界值 \(t_{\alpha / 2}(n-k)\)

\[\begin{array}{c}
P\left[-t_{\alpha / 2}(n-k) \leq t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E\left(\hat{\beta}_{j}\right)}} \leq t_{\alpha / 2}(n-k)\right]=1-\alpha \quad(j=1 \cdots k) \\
P\left[\hat{\beta}_{j}-t_{\alpha / 2} \operatorname{SE}\left(\hat{\beta}_{j}\right) \leq \beta_{j} \leq \hat{\beta}_{j}+t_{\alpha / 2} \operatorname{SE}\left(\hat{\beta}_{j}\right)\right]=1-\alpha
\end{array}
\]

\(\quad P\left[\hat{\beta}_{j}-t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}} \leq \beta_{j} \leq \hat{\beta}_{j}+t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}}\right]=1-\alpha\)

或表示为 \(\beta_{j}=\left(\hat{\beta}_{j}-t_{\alpha / 2(n-k)} \hat{\sigma} \sqrt{c_{j j}}, \hat{\beta}_{j}+t_{\alpha / 2(n-k)} \hat{\sigma} \sqrt{c_{j j}}\right)\)

拟合优度检验

拟合优度的度量

概念

样本回归线是对样本数据的一种拟合。

●不同的模型(不同函数形式)可拟合出不同的回归线。

●相同的模型用不同方法估计参数,可以拟合出不同的回归线。

拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度称为拟合优度

如何度量拟合优度呢?

拟合优度的度量建立在对 Y 的总变差分解的基础上。

总变差的分解

分析Y的观测值 \(Y_{i} 、\) 估计值 \(\hat{Y}_{i}\) 与平均值 \(\bar{Y}\) 有以下关系

\[Y_{i}-\bar{Y}=\left(\hat{Y}_{i}-\bar{Y}\right)+\left(Y_{i}-\hat{Y}_{i}\right)
\]

将上式两边平方加总,可证得 ( 提示:交叉项 \(\left.\sum\left(\hat{Y}_{i}-\bar{Y}\right) e_{i}=0\right)\)

\[\begin{array}{l}
\sum\left(Y_{i}-\bar{Y}\right)^{2}=\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}+\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} \\
\quad (\color{blue}{\mathrm{TSS}}) \quad \quad \quad \quad
(\color{blue}{\mathrm{ESS}}) \quad \quad \quad \quad(\color{blue}{\mathrm{RSS}}) \\

\end{array}
\]

或者表示为

\[\sum y_{i}^{2}=\sum \hat{y}_{i}^{2}+\sum e_{i}^{2}
\]

总变差\(\sum y_{i}^{2}\)TSS):被解释变量Y的观测值与其平均值的离差平方和(总平方和)(说明 Y 的变动程度)

解释了的变差 \(\sum \hat{y}_{i}^{2}\)ESS):被解释变量Y的估计值与其平均值的离差平方和(回归平方和)

剩余平方和 \(\sum e_{i}^{2}\)RSS):被解释变量观测值与估计值之差的平方和(未解释的平方和)

可决系数

以TSS同除总变差等式两边:

\[\frac{\sum\left(Y_{i}-\bar{Y}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}+\frac{\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}
\]

\[1=\frac{\sum \hat{y}^{2}}{\sum y_{i}^{2}}+\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}
\]

\(\large\color{magenta}{\boxed{\color{brown}{定义} }}\):回归平方和 ( 解释了的变差ESS ) \(\sum \hat{y}_{i}^{2}\) 在总变差 ( TSS ) \(\sum y_{i}^{2}\) 中所占的比重称为可决系数,用 \(r^{2}\)\(R^{2}\) 表示:

\[R^{2}=\frac{\sum \hat{y}^{2}}{\sum y_{i}^{2}} \text { 或 } R^{2}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}
\]

可决系数的作用

可决系数越大,说明在总变差中由模型作出了解释的部分占的比重越大,模型拟合优度越好。反之可决系数越小,说明模型对样本观测值的拟合程度越差。

可决系数的特点:

●可决系数取值范围∶\(0\leq R^2\leq 1\)

●随抽样波动,样本可决系数\(R^2\)是随抽样而变动的随机变量

●可决系数是非负的统计量

可决系数使用原则

切勿因为\(R^2\)的高或低轻易地肯定或否定一个模型:

  • 视数据类型和样本容量
  • 视研究目的不同
  • 描述性判断而非显著性判断

可以比较不同模型的\(R^2\)但有前提:

  • 样本相同
  • 被解释变量相同

\(R^2\)具有两层含义,\(R^2\)高意味着:

  • 样本回归线对样本数据的拟合程度较高
  • 所有解释变量联合起来对被解释变量的影响程度较高

拓展至多元线性回归模型

多元线性回归的拟合优度检验

多重可决系数:在多元回归模型中,由各个解释变量联合起来解 释了的Y的变差,在Y的总变差中占的比重, 用 \(R^{2}\) 表示与简单线 性回归中可决系数 \(r^{2}\) 的区别只是 \(\hat{Y}_{i}\) 不同

多元回归中 \(\quad \hat{Y}_{i}=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k} X_{k i}\)

多重可决系数可表示为

\[R^{2}=\frac{E S S}{T S S}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}=\frac{T S S-R S S}{T S S}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}
\]

修正的可决系数

思想:

可决系数只涉及变差,没有考虑自由度。如果用自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。

回顾:

\(\large\color{#70f3ff}{\boxed{\color{green}{自由度}}}\):统计量的自由度指可自由变化的样本观测值个数,它等于所用样本观测值的个数减去对观测值的约束个数。

可决系数的修正方法

总变差\(\sum y_{i}^{2}\)TSS): 自由度为 n-1

解释了的变差 \(\sum \hat{y}_{i}^{2}\)ESS): 自由度为 k-1

剩余平方和 \(\sum e_{i}^{2}\)RSS): 自由度为 n-k

修正的可决系数为

\[\bar{R}^{2}=1-\frac{\sum e_{i}^{2} /(n-k)}{\sum y_{i}^{2} /(n-1)}=1-\frac{n-1}{n-k} \frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}=1-\frac{n-1}{n-k}\left(1-R^{2}\right)
\]

修正的可决系数 \(\bar{R}^{2}\) 与可决系数 \(R^{2}\) 的关系

已经导出 \(: \quad \bar{R}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-k}\)

注意:
可决系数 \(R^{2}\) 必定非负,但所计算的修正可决系数 \(\bar{R}^{2}\)
可能为负值

解决办法:若计算的 \(\bar{R}^{2}<0,\) 规定 \(\bar{R}^{2}\) 取值为0

\[\frac{1-\bar{R}^{2}}{1-R^{2}}=\frac{n-1}{n-k} \Rightarrow \bar{R}^{2} \leq R^{2}
\]

修正可决系数的特点

  • 修正后\(\bar{R}^{2} \leq R^{2}\) ,且随着解释变量个数增加两者差距变大。

  • 修正后\(\bar{R}^{2}\)\(R^{2}\)同增同减(在其他条件不变的前提下),具有同样的两层含义。

  • 修正后\(\bar{R}^{2}\)不再是解释变量个数的不减函数,而要视正面影响(对拟合优度贡献)和负面影响(自由度损失)的相对大小。

  • 修正后\(\bar{R}^{2}\)也只能做描述性判断。

  • 修正后\(\bar{R}^{2}\)使用原则与\(R^{2}\)相同。

F检验与t检验

基本思想:

在多元回归中包含多个解释变量,它们与被解释变量是否有显著关系呢?

当然可以分别检验各个解释变量对被解释变量影响的显著性。

但为了说明所有解释变量联合起来对被解释变量影响的显著性, 或整个方程总的联合显著性,需要对方程的总显著性在方差分析的基础上进行F检验。

方差分析表

变差来源 平方和 自由度 方差
归于回归模型 \(\mathbf{E S S}=\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}\) \(\mathbf{k – 1}\) \(\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} /(k-1)\)
归于剩余 \(\mathbf{R S S}=\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}\) \(\mathbf{n – k}\) \(\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} /(n-k)\)
总变差 \(\mathbf{T S S}=\sum\left(Y_{i}-\bar{Y}\right)^{2}\) \(\mathbf{n – 1}\) \(\sum\left(Y_{i}-\bar{Y}\right)^{2} /(n-1)\)

\(\large\color{#70f3ff}{\boxed{\color{green}{基本思想}}}\): 如果多个解释变量联合起来对被解释变量的影响不显著, “归于回归的方差” 应该比 “归于剩余的方差” 显著地小 ( 即这应是大概率事件 ) 。

F检验

原假设: \(\quad H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0\)

(所有解释变量联合起来对被解释变量的影响不显著 \()\)

备择假设: \(H_{1}: \beta_{j}(j=2, \cdots k)\) 不全为0

建立统计量 \(: \quad F=\frac{E S S /(k-1)}{R S S /(n-k)}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} /(k-1)}{\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} /(n-k)} \sim F(k-1, n-k)\)

给定显著性水平 \(\alpha \quad,\) 查F分布表中自由度为 \(\mathrm{k}\) -1和 \(\mathrm{n}\) -k 的临界 值 \(F_{\alpha}(k-1, n-k)\) ,并通过样本观测值计算F值

image-20201203134613911

F检验方式

如果计算的F值大于临界值 \(F_{\alpha}(k-1, n-k)\) (\(\large\color{#70f3ff}{\boxed{\color{green}{小概率事件发生}}}\))

则拒绝\(\quad H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0\) 说明回归模型有显著意义,即所有解释变量联合起来对Y确有显著影响。

▼如果计算的F值小于临界值\(F_{\alpha}(k-1, n-k)\) (\(\large\color{#70f3ff}{\boxed{\color{green}{大概率事件发生}}}\))

则不拒绝 \(\quad H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0\)说明回归模型没有显著意义,即所有解释变量联合起来对Y没有显著影响。

F检验与拟合优度检验

拟合优度检验与对线性回归的总体显著性的 F 检验是从不同原理出发的两类检验,但二者有内在联系:

拟合优度检验——从已估计的模型出发,检验对样本观测值的拟合程度。

总体显著性的F检验——从样本观测值出发,检验模型总体线性关系的显著性。

F检验与多重可决系数有密切关系:二者都建立在对被解释变量变差分解的基础上,实际上 F 统计量也可通过可决系数去计算:

\[F=\frac{R^{2} /(k-1)}{\left(1-R^{2}\right) /(n-k)}=\frac{n-k}{k-1} \frac{R^{2}}{1-R^{2}}
\]

可以看出:当 \(R^{2}=\mathbf{0}\)\(, \mathbf{F}=\mathbf{0} ;\)\(R^{2}=\mathbf{1 时 , ~} \mathbf{F} \rightarrow \infty ;\)\(R^{2}\) 越大时,\(F\)值也越大

回归系数的检验方法

确立假设:原假设为 \(H_{0}: \beta_{j}=0\)

​ 备择假设为 \(\quad H_{1}: \beta_{j} \neq 0\)

(本质:检验 \(\beta_{j}\) 是否为0,即检验 \(X_{j}\) 是否对Y有显著影响)

(1)当已知 \(\sigma^{2}\) 或样本容量足够大时

可利用正态分布作
Z检验

\[Z^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{S E\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\operatorname{SE}\left(\hat{\beta}_{j}\right)} \sim N(0.1)
\]

给定 \(\alpha,\) 查正态分布表得临界值 \(\mathbf{Z}\)

  • 如果 \(-z<Z^{*}<z\) ( 大概率事件发生 ) 则不拒绝原假设 \(H_{0}\)
  • 如果 \(Z^{*}<-z\)\(Z^{*}>z\) ( 小概率事件发生 ) 则拒绝原假设 \(H_{0}\)

(2)当\(\sigma^{2}\)未知,且样本容量较小时

\(\mathbf{t}\) 检验

只能用 \(\hat{\sigma}^{2}\) 去代替 \(\sigma^{2},\) 可利用 \(\mathbf{t}\) 分布作 \(\mathbf{t}\) 检验 \(:\)

\[t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)} \sim t(n-k)
\]

给定 \(\alpha,\)\(\mathbf{t}\) 分布表得 \(t_{\alpha / 2}(n-k)\)

如果 \(t^{*} \leq-t_{\alpha / 2}(n-k)\) 或者 \(t^{*} \geq t_{\alpha / 2}(n-k)(\) 小概率事件发生 \()\)
则拒绝原假设 \(H_{0}: \beta_{j}=0\) 而不拒绝备择假设 \(H_{1}: \beta_{j} \neq 0\)

如果 \(-t_{\alpha / 2}(n-k) \leq t^{*} \leq t_{\alpha / 2}(n-k)(\) 大概率事件发生 \()\)
则不拒绝原假设 \(H_{0}: \beta_{j}=0\)

用 P 值判断参数的显著性

假设检验的 p 值:

p 值是基于既定的样本数据所计算的统计量,原假设可以被拒绝的最高显著性水平。统计分析软件中通常都给出了检验的 p

相对于显著性水平\(\alpha\) 的临界值: \(t_{\alpha }\)\(t_{\alpha / 2}\)\(\alpha\)相对应

相对于计算的统计量\(t^*\) :\(t^*\)与 P 相对应

image-20201203140454660

注意

t检验是比较\(t^*\)\(t_{\alpha / 2}\) ,用 P值检验是比较\(\alpha\) 和 p

用 P 值判断参数显著性的方法

方法:将给定的显著性水平 \(\alpha\) 与 p 值比较:

\(\alpha\) > p 值,则在显著性水平\(\alpha\) 下拒绝原假设 \(H_{0}: \beta_{j}=0\),即认为 XY 有显著影响

\(\alpha \leq\) p 值,则在显著性水平 \(\alpha\)下不拒绝原假设 \(H_{0}: \beta_{j}=0\) ,即认为 XY 没有显著影响

规则:当 \(\alpha\) > p时,P值越小,越能拒绝原假设\(H_0\)

例如,给定 \(\hat{\beta}\) 服从 \(t\) 分布 \(, \widehat{\beta}-\beta_{0}\) 是否显著异于零,关键是 看这个差值的绝对值等于估计值 \(\widehat{\beta}\) 的多少倍标准差。

\[t_{\alpha / 2}=\frac{\hat{\beta}-\beta_{0}}{\operatorname{se}(\widehat{\beta})}
\]

知道了 \(t_{\alpha / 2},\) 查表可得 \(\alpha\) 的值 , 即置信水平 ( 或p值 \()\) 。若这个置信水平满足研究要求,则认为这个 差异” 显著,否则不显著。

F检验与t检验的关系

在一元回归中F检验与t检验等价, 且\(F=t^2\).

在多元回归中, F检验与t检验的关系是:

  • 整体的F检验显著并不见得个别系数的t检验显著。
  • 个别系数的t检验显著则整体F检验通常也显著。

在多元回归中,既要作F检验,又要进一步分别对每个回归系数逐个地进行t检验。

回归模型的预测

基本思想:

经估计的计量经济模型可用于: 经济结构分析、 经济预测、 政策评价 、验证理论

运用计量经济模型作预测:指利用所估计的样本回归函数作预测工具,用解释变量的已知值或预测值,对预测期或样本以外的被解释变量的数值作出定量的估计。

计量经济预测是一种条件预测:

  • 模型设定的关系式不变
  • 估计的参数不变
  • 解释变量在预测期的取值已作出预测

预测的类型

对被解释变量Y的预测分为:平均值预测和个别值预测

对被解释变量Y的预测又分为:点预测和区间预测

Y 平均值的点预测

点预测:

用样本估计的总体参数值所计算的Y的估计值直接作为Y的预测值

方法: 将解释变量预测值直接代入估计的方程

\[\begin{array}{c}
\hat{Y}_{F}=\hat{\beta}_{1}+\hat{\beta}_{2} X_{F 2}+\hat{\beta}_{3} X_{F 3}+\cdots+\hat{\beta}_{K} X_{F k} \\
\end{array}
\]

\[\hat{Y}_{F}=\boldsymbol{X}_{F} \hat{\boldsymbol{\beta}}
\]

这样计算的 \(\hat{Y}_{F}\) 是一个点估计值

Y 平均值的区间预测

基本思想: 预测的目标值是真实平均值,由于存在抽样波动,预测的平均
\(\hat{Y}_{F}\) 是随机变量,不一定等于真实平均值 \(E\left(Y_{F} \mid X_{F}\right),\) 还需要对\(E\left(Y_{F} \mid X_{F}\right)\)作区间估计

为对Y的平均值作区间预测,必须确定平均值点预测值 \(\hat Y_{F}\)的抽样分布

必须找出点预测值\(\hat Y_{F}\)与预测目标值\(E\left(Y_{F} \mid X_{F}\right)\) 的关系,即找出与二者都有关的统计量

具体作法 (从 \(\hat{Y}_{F}\)的分布分析)

\(\hat{Y}_{F}=\boldsymbol{X}_{F} \hat{\boldsymbol{\beta}}, \hat{Y}_{F}\) 服从正态分布(为什么?)

已知

\[E\left(\hat{Y}_{F}\right)=E\left(Y_{F} \mid X_{F}\right)=X_{F} \beta
\]

可以证明

\[\operatorname{Var}\left(\hat{Y}_{F}\right)=\sigma^{2} \boldsymbol{X}_{F}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}_{F}^{\prime}
\]

\(\sigma^{2}\) 未知时,只得用 \(\hat{\sigma}^{2}=\sum e_{i}^{2} /(n-k)\) 代替 \(,\) 这时将 \(\hat{Y}_{F}\) 标准化

\[t=\frac{\hat{Y}_{F}-E\left(Y_{F} \mid \mathbf{X}_{\mathrm{F}}\right)}{\hat{\sigma} \sqrt{X_{F}\left(X^{\prime} X\right)^{-1} X_{F}^{\prime}}} \sim t(n-k)
\]

构建平均值的预测区间

显然这样的 \(\mathrm{t}\) 统计量与 \(\hat{Y}_{F}\)\(E\left(Y_{F} \mid X_{F}\right)\) 都有关。

给定显著性水平 \(\alpha,\)\(\mathrm{t}\) 分布表,
得自由度 \(\mathrm{n}-\mathrm{k}\) 的临值 \(t_{\alpha / 2}(n-k),\) 则有

\[\begin{array}{l}
P\left(-t_{\alpha / 2} \leq t=\frac{\hat{Y}_{F}-E\left(Y_{F} \mid X_{F}\right)}{\hat{S E}\left(\hat{Y}_{F}\right)} \leq t_{\alpha / 2}\right)=1-\alpha \\
p\left\{\left[\hat{Y}_{F}-t_{\alpha / 2} \hat{S E}\left(\hat{Y}_{F}\right)\right] \leq E\left(Y_{F} \mid X_{F}\right) \leq\left[\hat{Y}_{F}+t_{\alpha / 2} \hat{S E}\left(\hat{Y}_{F}\right)\right]\right\}=1-\alpha
\end{array}
\]

Y平均值的置信度为1 \(-\alpha\) 的预测区间为

\[\left(\hat{Y}_{F}-t_{\alpha / 2} \hat{\sigma}
\sqrt{\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}\boldsymbol{X})^{-1}
\boldsymbol{X}_{F}^{\prime}}, \hat{Y}_{F}+t_{\alpha / 2}
\hat{\sigma} \sqrt{\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}
\boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}\right)
\]

被解释变量个别值预测

基本思想:

\(\hat{Y}_{F}\)是对Y平均值的点预测。

●由于存在随机扰动 \(u_i\)的影响,Y的平均值并不等于Y的个别值

●为了对Y的个别值\({Y}_{F}\) 作区间预测,需要寻找与点预测值 \(\hat{Y}_{F}\)和预测目标个别值 \({Y}_{F}\) 有关的统计量,并要明确其概率分布

具体作法:

已知剩余项 \(e_{F}=Y_{F}-\hat{Y}_{F}\) 是与预测值 \(\hat{Y}_{F}\) 及个别值 \(Y_{F}\) 都有关的变 量,并且已知 \(e_{F}\) 服从正态分布,且可证明 \(E\left(e_{F}\right)=0\)

\[\operatorname{Var}\left(e_{F}\right)=\sigma^{2}\left[1+\boldsymbol{X}_{\boldsymbol{F}}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}_{\boldsymbol{F}}^{\prime}\right]
\]

当用 \(\hat{\sigma}^{2}=\sum e_{i}^{2} /(n-k)\) 代替 \(\sigma^{2}\) 时,对 \(e_{F}\) 标准化的变量 \(\mathrm{t}\)

\[t=\frac{e_{F}-E\left(e_{F}\right)}{\hat{S E}\left(e_{F}\right)}=\frac{Y_{F}-\hat{Y}_{F}}{\hat{\sigma} \sqrt{1+\boldsymbol{X}_{F}(\boldsymbol{X}^{\prime} \boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}} \sim t(n-k)
\]

构建个别值的预测区间

给定显著性水平 \(\alpha,\)\(\mathrm{t}\) 分布表得 自由度为n-k的临界值 \(t_{\alpha / 2}(n-k)\) 则有

\[P\left\{\left[\hat{Y}_{F}-t_{\alpha / 2} \hat{S E}\left(e_{F}\right)\right] \leq Y_{F} \leq\left[\hat{Y}_{F}+t_{\alpha / 2} \hat{S E}\left(e_{F}\right)\right]\right\}=1-\alpha
\]

因此,Y的个别值的置信度为 \(1-\alpha\) 的预测区间上下限为

\[\hat{Y}_{F} \mp t_{\alpha / 2} \hat{\sigma} \sqrt{1+X_{F}\left(X^{\prime} X\right)^{-1} X_{F}^{\prime}}
\]

被解释变量Y区间预测的特点

(1) Y平均值的预测值与真实平均值有误差,主要是受抽样波动影响

预测区间:

\[{Y}_{F}= \hat{Y}_{F}\mp t_{\alpha / 2}
\hat{\sigma} \sqrt{\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}
\boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}
\]

Y个别值的预测值与真实个别值的差异,不仅受抽样波动影响,而且还受随机扰动项的影响

预测区间:

\[{Y}_{F}= \hat{Y}_{F}\mp t_{\alpha / 2}
\hat{\sigma} \sqrt{1+\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}
\boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}
\]

在一元回归中:

\[\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}\boldsymbol{X})^{-1} \boldsymbol{X}^{\prime}=\frac{1}{n}+\frac{\left(X_{F}-\bar{X}\right)^{2}}{\sum x_{i}^{2}}
\]

(2) 平均值和个别值预测区间都不是常数, 是随 \(X_{F}\) 的变化而 变化的,当 \(X_{F}=\bar{X}\) 时, 预测区间最小。

( 3 ) 预测区间上下限与样本容量有关 , 当样本容量 \(\mathrm{n} \rightarrow \infty\) 时, 个别值的预测区间只决定于随机扰动的方差。

预测区间

\[Y_{F}=\hat{Y}_{F} \mp t_{\alpha / 2} \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(X_{F}-\bar{X}\right)^{2}}{\sum x_{i}^{2}}}
\]

参考资料:

庞皓主编,《计量经济学 (第四版)》,科学出版社

Damodar N.Gujarati著,费剑平译,《计量经济学基础 (第五版)》

施图德蒙德,《应用计量经济学》(第六版)

西南财经大学课程

电子科技大学课程