多元線性回歸模型

2020 年 12 月 3 日
筆記
機器學習數學推導

多元線性回歸模型數學層面的理解

多元線性回歸模型數學層面的理解

回歸分析

回歸的現代含義：

回歸分析是關於研究一個叫做因變數的變數（Y）對另一個或多個叫做自變數的變數（X）的依賴關係;

其用意在於通過自變數在重複抽樣中的已知或設定值，去估計或預測因變數的總體均值。

例子:姚明身高2.26米，姚明的子女會有多高呢?
2.01米可信嗎?

因此，一旦知道了父母的身高，就可以按照上述關係式（回歸線）來預測子女的平均身高（而不是具體身高）。

注意明確幾個概念(為深刻理解「回歸」)

●被解釋變數Y的條件分布和條件概率:

當解釋變數X取某固定值時(條件），Y的值不確定，Y的不同取值會形成一定的分布，這是Y的條件分布。X取某固定值時，Y取不同值的概率稱為條件概率。

●被解釋變數Y的條件期望：

對於X 的每一個取值，對Y所形成的分布確定其期望或均值，稱為Y的條件期望或條件均值，用$E(Y|X_i)$ 表示。

注意:Y的條件期望是隨X的變動而變動的

$\large\color{#70f3ff}{\boxed{\color{green}{回歸線}}}$:對於每一個 $X$ 的取值$X_i$ ，都有 Y 的條件期望 $E(Y|X_i)$與之對應，代表 Y 的條件期望的點的軌跡形成的直線或曲線稱為回歸線。

$\large\color{#70f3ff}{\boxed{\color{green}{回歸函數}}}$：被解釋變數 Y 的條件期望 $E(Y|X_i)$隨解釋變數 X 的變化而有規律的變化，如果把Y的條件期望表現為 X 的某種函數，

\[E(Y|X_i)=f(X_i)
\]

這個函數稱為回歸函數。

回歸函數分為：

總體回歸函數和樣本回歸函數

總體回歸函數

概念

前提：假如已知所研究的經濟現象的總體的被解釋變數Y和解釋變數 X 的每個觀測值（通常這是不可能的！），那麼，可以計算出總體被解釋變數Y的條件期望$E(Y|X_i)$ ，並將其表現為解釋變數X的某種函數

\[E(Y|X_i)=f(X_i)
\]

這個函數稱為總體回歸函數（PRF）

本質:總體回歸函數實際上表現的是特定總體中被解釋變數隨解釋變數的變動而變動的某種規律性。

表現形式

●條件期望表現形式

例如 Y 的條件期望 $E(Y|X_i)$是解釋變數 X的線性函數，可表示為：

\[E(Y|X_i)=f(X_i)=\beta_1 +\beta_2X_i
\]

●個別值表現形式（隨機設定形式）

對於一定的$X_i$ ，Y 的各個別值 $Y_i$並不一定等於條件期望，而是分布在 $E(Y|X_i)$的周圍，若令各個$Y_i$ 與條件期望 $E(Y|X_i)$的偏差為$u_i$ ，顯然 $u_i$是個隨機變數則有

\[u_i=Y_i-E(Y_i|X_i)=Y_i-\beta_1 -\beta_2X_i\\
Y_i=\beta_1 +\beta_2X_i+u_i
\]

如何理解總體回歸函數

作為總體運行的客觀規律，總體回歸函數是客觀存在的，但在實際的經濟研究中總體回歸函數通常是未知的，只能根據經濟理論和實踐經驗去設定。
總體回歸函數中 Y 與 X 的關係可以是線性的，也可以是非線性的。

「線性」的判斷

線性回歸模型的「線性」有兩種解釋：

◆就變數而言是線性的

——Y的條件期望（均值）是X的線性函數

◆就參數而言是線性的

——Y的條件期望（均值）是參數β的線性函數

例如：$E(Y_i|X_i)=\beta_1 +\beta_2X_i$ 對變數、參數均為「線性」

$E(Y_i|X_i)=\beta_1 +\beta_2X_i^2$ 對參數「線性」，對變數「非線性」.

線性回歸模型主要指就參數而言是「線性」的,因為只要對參數而言是線性的,都可以用類似的方法去估計其參數，都可以歸於線性回歸。

隨機擾動項 u

$\large\color{magenta}{\boxed{\color{brown}{概念} }}$

在總體回歸函數中，各$Y_i$ 與條件期望 $E(Y|X_i)$的偏差為$u_i$ 有很重要的意義。若只有 X 影響 Y， $Y_i$ 與$E(Y|X_i)$不應有偏差。

若偏差 $u_i$存在，說明還有其他影響因素，$u_i$實際代表了排除在模型以外的所有因素對 Y 的影響。

$\large\color{magenta}{\boxed{\color{brown}{性質} }}$ $u_i$是其期望為 0 有一定分布的隨機變數

重要性：隨機擾動項的性質決定著分析結果的性質和方法的選擇。

引入隨機擾動項$u_i$的原因

● 是未知影響因素的代表 (理論的模糊性)

● 是無法取得數據的已知影響因素的代表 (數據欠缺)

● 是眾多細小影響因素的綜合代表 (非系統性影響)

● 模型可能存在設定誤差 (變數、函數形式的設定）

● 模型中變數可能存在觀測誤差 (變數數據不符合實際)

● 變數可能有內在隨機性 (人類經濟行為的內在隨機性)

樣本回歸函數（SRF）

$\large\color{#70f3ff}{\boxed{\color{green}{樣本回歸線}}}$ :對於 X 的一定值，取得 Y 的樣本觀測值，可計算其條件均值，樣本觀測值條件均值的軌跡，稱為樣本回歸線。

$\large\color{#70f3ff}{\boxed{\color{green}{樣本回歸函數}}}$ ：如果把被解釋變數 Y 的樣本條件均值$\hat {Y_i}$ 表示為解釋變數 X 的某種函數，這個函數稱為樣本回歸函數（SRF）。

函數形式

條件均值形式：樣本回歸函數如果為線性函數，可表示為

\[\hat Y_i=\hat \beta_1 +\hat \beta_2X_i
\]

其中：$\hat Y_i$ 是與$X_i$ 相對應的 Y 的樣本條件均值。$\hat \beta_1 和\hat \beta_2$分別是樣本回歸函數的參數

個別值（實際值）形式：

被解釋變數Y的實際觀測值 $Y_i$ 不完全等於樣本條件均值$\hat Y_i$ ，二者之差用 $e_i$表示， $e_i$稱為剩餘項或殘差項:

\[e_i =Y_i-\hat Y_i\\
\hat Y_i=\hat \beta_1 +\hat \beta_2X_i+e_i
\]

特點

●樣本回歸線隨抽樣波動而變化:每次抽樣都能獲得一個樣本，就可以擬合一條樣本回歸線，（SRF不唯一)

●樣本回歸函數的函數形式應與設定的總體回歸函數的函數形式一致。

●樣本回歸線只是樣本條件均值的軌跡，還不是總體回歸線，它至多只是未知的總體回歸線的近似表現。

理解

如果能夠通過某種方式獲得$\hat \beta_1 和\hat \beta_2$ 的數值，顯然:

● $\hat \beta_1 和\hat \beta_2$ 是對總體回歸函數參數 $\beta_1$ 和$\beta_2$ 的估計

● $\hat Y_i$是對總體條件期望$E(Y_i|X_i)$的估計

● $e_i$在概念上類似總體回歸函數中的$u_i$ ，可視為對 $u_i$的估計。

多元線性回歸模型的意義

一般形式：對於有K個解釋變數的線性回歸模型

\[Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_kX_{ki} + u_i,i=1,2,…,n
\]

注意：模型中的 $\beta_j$（j=0,1,2,…,k）是偏回歸係數,樣本容量為n

偏回歸係數：

控制其它解釋量不變的條件下，第 j 個解釋變數的單位變動對被解釋變數平均值的影響，即對Y平均值的「直接」或「凈」影響。

多元總體回歸函數

條件期望表現形式：

將Y的總體條件期望表示為多個解釋變數的函數，如:

\[E(Y_i| X_{1i} ,…, X_{ki} )=\beta_0 + \beta_1 X_{1i} + \cdots + \beta_kX_{ki} ,(i=1,2,…,n)
\]

注意：這時Y總體條件期望的軌跡是K維空間的一條線

個別值表現形式：

引入隨機擾動項: $u_i = Y_i -E(Y_i| X_{1i} ,…, X_{ki} ) $

或表示為 $Y_i = \beta_0 + \beta_1 X_{1i} + \cdots + \beta_kX_{ki} + u_i,i=1,2,…,n$

直觀理解（供參考）

Y 的樣本條件均值可表示為多個解釋變數的函數

\[\hat Y_i =\hat \beta_0 +\hat \beta_1 X_{1i} + \cdots +\hat \beta_kX_{ki}
\]

或回歸剩餘（殘差）：$e_i = Y_i – \hat Y_i$

\[Y_i =\hat \beta_0 +\hat \beta_1 X_{1i} + \cdots +\hat \beta_kX_{ki} + e_i,~~~i=1,2,…,n
\]

多個解釋變數的多元線性回歸模型的n組樣本觀測值，可表示為

\[Y_1 = \beta_0 + \beta_1 x_{11} + \cdots + \beta_kx_{1k} + u_1\\
Y_2 = \beta_0 + \beta_1 x_{21} + \cdots + \beta_kx_{2k} + u_2\\
………\\
Y_n = \beta_0 + \beta_1 x_{n1} + \cdots + \beta_kx_{nk} + u_n
\]

用矩陣表示

\[\begin{bmatrix}
Y_1 \\ Y_2 \\ \vdots \\ Y_n
\end{bmatrix} = \begin{bmatrix}1 & x_{11} & \cdots & x_{1k} \\
1 & x_{21} & \cdots & x_{2k} \\ \vdots & \vdots & \cdots &\vdots
\\ 1 & x_{n1} & \cdots &x_{nk}\end{bmatrix}

\begin{bmatrix}\beta_0 \\ \beta_1 \\\vdots
\\\beta_k\end{bmatrix}
+
\begin{bmatrix}u_1 \\ u_2 \\\vdots \\
u_n\end{bmatrix}
\]

\[y \qquad \qquad =X\qquad \qquad\beta +\qquad u \\
(n \times 1 ) ~~ (n \times (k+1) )~~( (k+1) \times 1)~~ (n\times 1)
\]

矩陣表示方式

總體回歸函數

總體回歸函數 $\quad E(\boldsymbol{Y})=\boldsymbol{X} \boldsymbol{\beta} \quad$ 或 $\quad \boldsymbol{Y}=\boldsymbol{X} \boldsymbol{\beta}+\boldsymbol{u}$

樣本回歸函數 $\quad \hat{Y}=X \hat{\beta} \quad$ 或 $Y=X \hat{\beta}+e$

其中 $： Y, \hat{Y}, u, e \quad$ 都是有 $n$ 個元素的列向量

$\beta, \hat{\beta}$ 是有 $\mathrm{k}$+1 個元素的列向量

\[(\mathbf{k+1}=\text { 解釋變數個數 }+1 \text { ) }
\]

$X_{\text { }}$ 是第一列為1的n $\times$ (k+1) 階解釋變數數據矩陣。 (截距項可視為解釋變數總是取值為1)

回歸分析的目的

目的：

計量經濟分析的目標是尋求總體回歸函數。即用樣本回歸函數SRF去估計總體回歸函數PRF。

由於樣本對總體總是存在代表性誤差，SRF 總會過高或過低估計PRF。

要解決的問題：

尋求一種規則和方法，使其得到的 SRF 的參數估計儘可能「接近」總體回歸函數中的參數的真實值。這樣的「規則和方法」有多種，如矩估計、極大似然估計、最小二乘估計等。其中最常用的是最小二乘法。

普通最小二乘法（OLS）

OLS的基本思想（以一元為例）：

對於$\hat Y_i=\hat \beta_1 +\hat \beta_2X_i$ 不同的估計方法可以得到不同的樣本回歸參數 $\hat \beta_1 和\hat \beta_2$ ，所估計的$\hat Y_i$也就不同。

●理想的估計方法應使估計的$\hat Y_i$ 與真實的$Y_i$ 的差(即剩餘$e_i$ )總的來說越小越好.

因 $e_{i}$ 可正可負，總有 $\sum e_{i}=0,$ 所以可以取 $\sum e_{i}^{2}$ 最小，即

\[\min \sum e_{i}^{2}=\min \sum\left(Y_{i}-\hat{\beta}_{1}-
\hat{\beta}_{2} X_{i}\right)^{2}
\]

在觀測值Y和X確定時 $, \sum e_{i}^{2}$ 的大小決定於 $\hat{\beta}_{1}$ 和 $\hat{\beta}_{2}$

多元線性回歸模型的OLS估計

多元情形下原則相同 :

尋求剩餘平方和最小的參數估計式 $\min : \sum e_{i}^{2}=\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}$

\[\min : \sum e_{i}^{2}=\sum\left[Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k} X_{k i}\right)\right]^{2}
\]

即 $\min : \sum e_{i}^{2}=\min : \mathrm{e}^{\prime} \mathrm{e}=\min :(\mathrm{Y}-\mathrm{X} \hat{\boldsymbol{\beta}})^{\prime}(\mathrm{Y}-\mathrm{X} \hat{\boldsymbol{\beta}})$

求偏導, 並令其為0

\[\quad \partial\left(\sum e_{i}^{2}\right) / \partial \hat{\beta}_{j}=0
\]

即

\[\begin{array}{l}

\left.\quad-2 \sum Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k i} X_{k i}\right)\right]=0 \longrightarrow \quad \sum e_{i}=0 \\

-2 \sum X_{2 i}\left[Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k i} X_{k i}\right)\right]=0 \longrightarrow \sum X_{2 i} e_{i}=0 \\

-2 \sum X_{k i}\left[Y_{i}-\left(\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k i} X_{k i}\right)\right]=0 \longrightarrow \sum X_{k i} e_{i}=0

\end{array}
\]

用矩陣表示的正規方程

偏導數

\[\left[\begin{array}{c}

\sum e_{i} \\

\sum X_{2 i} e_{i} \\

\vdots \\

\sum X_{k i} e_{i}

\end{array}\right]=\left[\begin{array}{cccc}

1 & 1 & \cdots & 1 \\

X_{21} & X_{22} & \cdots & X_{2 n} \\

\vdots & \vdots & \vdots & \vdots \\

X_{k 1} & X_{k 2} & \cdots & X_{k n}

\end{array}\right]\left[\begin{array}{c}

e_{1} \\

e_{2} \\

\vdots \\

e_{n}

\end{array}\right]=\mathbf{X}^{\prime} \mathbf{e}=\left[\begin{array}{c}

0 \\

\vdots \\

\end{array}\right]
\]

因為樣本回歸函數為 $\quad Y=X \hat{\beta}+e$

兩邊左乘 $X^{\prime}$

\[\boldsymbol{X}^{\prime} \boldsymbol{Y}=\boldsymbol{X}^{\prime} \boldsymbol{X} \hat{\boldsymbol{\beta}}+\boldsymbol{X}^{\prime} \boldsymbol{e}
\]

根據最小二乘原則

\[\boldsymbol{X}^{\prime} \boldsymbol{e}=\boldsymbol{0}
\]

則正規方程為

\[\begin{array}{l}

\boldsymbol{X}^{\prime} \boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{X}^{\prime}
\boldsymbol{Y}
\end{array}
\]

OLS估計式

由正規方程 $\begin{array}{l}\boldsymbol{X}^{\prime} \boldsymbol{X} \hat{\boldsymbol{\beta}}=\boldsymbol{X}^{\prime}
\boldsymbol{Y}
\end{array}$ , $(\boldsymbol{X}^{\prime} \boldsymbol{X} )_{k \times k}$是滿秩矩陣其逆存在

多元回歸中 $\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\prime} \boldsymbol{X} )^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y}$

只有兩個解釋變數時：

\[\begin{array}{l}
\hat{\beta}_{1}=\bar{Y}-\hat{\beta}_{2} \bar{X}_{2}-\hat{\beta}_{3} \bar{X}_{3} \\
\hat{\beta}_{2}=\frac{\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}} \\
\hat{\beta}_{3}=\frac{\left(\sum y_{i} x_{3 i}\right)\left(\sum x_{2 i}^{2}\right)-\left(\sum y_{i} x_{2 i}\right)\left(\sum x_{2 i} x_{3 i}\right)}{\left(\sum x_{2 i}^{2}\right)\left(\sum x_{3 i}^{2}\right)-\left(\sum x_{2 i} x_{3 i}\right)^{2}}
\end{array}
\]

對比一元線性回歸中

\[\hat{\beta}_{1}=\bar{Y}-\hat{\beta}_{2} \bar{X}\\

\hat{\beta}_{2}=\frac{\sum x_{i} y_{i}}{\sum x_{i}^2}
\]

注意 $： x, y$ 為 $X 、 Y$ 的離差

OLS估計的數學性質

回歸線通過樣本均值 $\quad \bar{Y}=\hat{\beta}_{1}+\hat{\beta}_{2} \bar{X}_{2}+\hat{\beta}_{3} \bar{X}_{3}+\cdots+\hat{\beta}_{k} \bar{X}_{k}$

估計值 $\hat{Y}_{i}$ 的均值等於實際觀測值 $Y_{i}$ 的均值 $\sum \hat{Y}_{i} / n=\bar{Y}$

剩餘項 $e_{i}$ 的均值為零 $\bar{e}_{i}=\sum e_{i} / n=0$

被解釋變數估計值 $\hat{Y}_{i}$ 與剩餘項 $e_{i}$ 不相關

\[\operatorname{Cov}\left(\hat{Y}_{i}, e_{i}\right)=0 \quad \text { 或 } \quad \sum\left(e_{i} \hat{y}_{i}\right)=0
\]

解釋變數 $X_{i}$ 與剩餘項 $e_{i}$ 不相關

\[\operatorname{Cov}\left(X_{j i}, e_{i}\right)=0 \quad(\mathrm{j}=2,3,-\mathrm{-k})
\]

OLS估計量的統計性質

回顧：參數估計式的優劣需要有評價的標準

◆參數無法通過觀測直接確定，只能通過樣本估計，但因存在抽樣波動，參數估計值不一定等於總體參數的真實值。

◆ 參數估計方法及所確定的估計式不一定完備，不一定能得到總體參數的真實值，需要對估計方法作評價與選擇。

比較不同估計方法的估計結果時，需要有一定的評價標準.

$\large\color{#70f3ff}{\boxed{\color{green}{基本要求}}}$ ：參數估計值應儘可能地接近總體參數的真實值

$\large\color{#70f3ff}{\boxed{\color{green}{估計準則}}}$ ：「儘可能地接近」原則

決定於參數估計式的統計性質：無偏性、有效性、一致性等。

1、線性特徵 $\hat{\boldsymbol{\beta}}=(\boldsymbol{X}^{\prime} \boldsymbol{X} )^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y}$

$\hat{\boldsymbol{\beta}}$是Y 的線性函數，因 $(\boldsymbol{X}^{\prime} \boldsymbol{X} )^{-1} \boldsymbol{X}^{\prime}$ 是非隨機或取固定值的矩陣

2、無偏特性 $$E(\hat{\boldsymbol{\beta}_k})={\boldsymbol{\beta}_k}$$

3、最小方差特性

在${\boldsymbol{\beta}_k}$ 所有的線性無偏估計中，OLS估計 $\hat{\boldsymbol{\beta}_k}$具有最小方差

線性性：

\[\hat{\boldsymbol{\beta}}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}=\mathbf{A} \mathbf{Y} \Rightarrow\left[\begin{array}{c}
\hat{\beta}_{1} \\
\hat{\beta}_{2} \\
\vdots \\
\hat{\beta}_{k}
\end{array}\right]=\left[\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1 n} \\
a_{21} & a_{22} & \cdots & a_{2 n} \\
\vdots & \vdots & & \vdots \\
a_{k 1} & a_{k 2} & \cdots & a_{k n}
\end{array}\right]\left[\begin{array}{c}
Y_{1} \\
Y_{2} \\
\vdots \\
Y_{n}
\end{array}\right]
\]

可以看出， $\hat{\beta}$ 等於取固定值的解釋變數構成的 $\left(\mathrm{X}^{\prime} \mathrm{X}\right)^{-1} \mathrm{X}^{\prime}$ 與被解釋變量觀測值列向量Y的乘積 , 從而 $\hat{\beta}_{j}(j=1,2, \mathrm{~L}, k)$ 為 $Y_{i}$ 的線性函數。

無偏性：

\[\begin{aligned}
\text { 因為 } \hat{\boldsymbol{\beta}} &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\mathbf{U}) \\
&=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\left(\mathbf{X}^{\prime} \mathbf{X}\right) \boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U} \\
&=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U}
\end{aligned}
\]

對兩邊取期望, $\quad E(\hat{\boldsymbol{\beta}})=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}[E(\mathbf{U})]$

由假定1： $E(\mathbf{U})=0$則 $\hat{\boldsymbol{\beta}}$是${\boldsymbol{\beta}}$ 的無偏估計。

$\hat{\boldsymbol{\beta}}$ 的方差——協方差矩陣

\[\begin{aligned}
C O V(\hat{\boldsymbol{\beta}}) &=E\left\{[\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})][\hat{\boldsymbol{\beta}}-E(\hat{\boldsymbol{\beta}})]^{\prime}\right\} \\
&=E\left[(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})(\hat{\boldsymbol{\beta}}-\boldsymbol{\beta})^{\prime}\right]
\end{aligned} \quad \quad \text { (由無偏性) }
\]

\[\begin{array}{l}
=E\left[(\boldsymbol{X} \boldsymbol{X})^{-1} \boldsymbol{X}^{\prime} \boldsymbol{u} \boldsymbol{u}^{\prime} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right] \\
=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\boldsymbol{X}^{\prime} E\left(\boldsymbol{u}
\boldsymbol{u}^{\prime}\right) \boldsymbol{X}\left(
\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\\
=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\boldsymbol{X}^{\prime} \sigma^2 I \boldsymbol{X}\left(
\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\\
= \sigma^2\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\end{array}
\]

其中(由OLS估計式)

\[\begin{aligned}
\hat{\boldsymbol{\beta}} &=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{Y}=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime}(\mathbf{X} \boldsymbol{\beta}+\mathbf{U}) \\
&=\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1}\left(\mathbf{X}^{\prime} \mathbf{X}\right) \boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U} \\
&=\boldsymbol{\beta}+\left(\mathbf{X}^{\prime} \mathbf{X}\right)^{-1} \mathbf{X}^{\prime} \mathbf{U}
\end{aligned}
\]

(由同方差性) $E\left(\boldsymbol{u}
\boldsymbol{u}^{\prime}\right)=\sigma^2 I$

統計性質與古典假定

用樣本去估計總體回歸函數，總要使用特定的方法，而任何估計參數的方法都需要有一定的前提條件——$\large\color{#70f3ff}{\boxed{\color{green}{假定條件}}}$

經典線性回歸的基本假定

為什麼要作基本假定？

●只有具備一定的假定條件，所作出的估計才具有良好的統計性質。

●因為模型中有隨機擾動項，估計的參數是隨機變數，顯然參數估計值的分布與擾動項的分布有關，只有對隨機擾動的分布作出假定，才能比較方便地確定所估計參數的$\large\color{#70f3ff}{\boxed{\color{green}{分布性質}}}$，也才可能進行$\large\color{#70f3ff}{\boxed{\color{green}{假設檢驗}}}$和$\large\color{#70f3ff}{\boxed{\color{green}{區間估計}}}$等統計推斷。

多元線性回歸中的基本假定

假定1：零均值假定

\[E(u_i) =0(i=1,2,…,n) ~~~ 或 ~~~E(u) =0
\]

假定2和假定3：同方差和無自相關假定：

同方差 $： \operatorname{Var}\left(u_{i} \mid X_{i}\right)=E\left[u_{i}- E\left(u_{i} \mid X_{i}\right)\right]^{2}=E\left(u_{i}^{2}\right)=\sigma^{2}$

無自相關 $： \operatorname{Cov}\left(u_{i}, u_{j}\right)=E\left[u_{i}-E\left(u_{i}\right)\right]\left[u_{j} -E\left(u_{j}\right)\right]=E\left(u_{i} u_{j}\right)=0$

假定4：隨機擾動項與解釋變數不相關（外生性）

\[\operatorname{Cov}\left(X_{j i}, u_{i}\right)=0 \quad(j=2,3, \cdots k) \\
\]

\[\begin{array}{c}
\operatorname{Var}(\mathbf{U})=E\left[(\mathbf{U}-E \mathbf{U})
(\mathbf{U}-E \mathbf{U})^{\prime}\right]=E\left
(\mathbf{U U}^{\prime}\right) \\
=
{\left[\begin{array}{cccc}
E\left(u_{1} u_{1}\right) & E\left(u_{1} u_{2}\right) & \cdots & E\left(u_{1} u_{n}\right) \\
E\left(u_{2} u_{1}\right) & E\left(u_{2} u_{2}\right) & \cdots & E\left(u_{2} u_{n}\right) \\
\vdots & \vdots & & \vdots \\
E\left(u_{n} u_{1}\right) & E\left(u_{n} u_{2}\right) & \cdots & E\left(u_{n} u_{n}\right)
\end{array}\right]=\left[\begin{array}{cccc}
\sigma^{2} & 0 & \cdots & 0 \\
0 & \sigma^{2} & \cdots & 0 \\
\vdots & \vdots & & \vdots \\
0 & 0 & \cdots & \sigma^{2}
\end{array}\right]}
\end{array}
\]

也即

\[Var(\mathbf{U}) = \sigma^2 \mathbf{I}_n
\]

假定5: 無多重共線性假定

假定各解釋變數之間不存在線性關係，或各個解釋變數觀測值之間線性無關，或解釋變數觀測值矩陣X 的秩為K (注意X 為n 行K列)。

\[Rank(X )= k \rightarrow Rank(X’X)=k
\]

即 $(X’X)$可逆

等價說法：X 滿秩、X’X 滿秩、│X’X│≠ 0

錯誤說法： X 可逆

假定6： 正態性假定

即假定 $u_i$服從均值為零、方差為$\sigma^2$ 的正態分布

\[u_i \sim N(0,\sigma) \rightarrow ~~~
\mathbf{u} \sim N(0,\sigma^2\mathbf{I})
\]

(說明：正態性假定不影響對參數的點估計，所以有時不列入基本假定，但這對確定所估計參數的分布性質是需要的。且根據中心極限定理，當樣本容量趨於無窮大時， $u_i$的分布會趨近於正態分布。所以正態性假定有合理性）

注意:

並不是參數估計的每一具體步驟都要用到所有的假定,但對全部假定有完整的認識,對學習原理是有益的。

無偏性

前提：重複抽樣中估計方法固定、樣本數不變、經重複抽樣的觀測值,可得一系列參數估計值$\hat \beta$ , $\hat \beta$的分布稱為$\hat \beta$ 的抽樣分布，其密度函數記為$f(\hat \beta)$

如果$E(\hat \beta)=\beta$

稱$\hat \beta$是參數 $\beta$ 的無偏估計式，否則則稱 $\hat \beta$是有偏的估計，其偏倚為$E(\hat \beta)-\beta$

有效性

前提：樣本相同、用不同的方法估計參數，可以找到若干個不同的無偏估計式

目標: 努力尋求其抽樣分布具有最小方差的估計式既是無偏的同時又具有最小方差特性的估計式，稱為最佳（有效）估計式。

漸近性質（大樣本性質）

思想:當樣本容量較小時，有時很難找到方差最小的無偏估計，需要考慮樣本擴大後的性質（估計方法不變，樣本數逐步增大）

一致性：

當樣本容量 n 趨於無窮大時，如果估計式 $\hat \beta$依概率收斂於總體參數的真實值，就稱這個估計式 $\hat \beta$是$\beta$ 的一致估計式。即

\[\lim P(|\hat{\beta}-\beta| \leq \varepsilon)=1 \text { 或 } P \lim _{n \rightarrow \infty}(\hat{\beta})=\beta
\]

（漸近無偏估計式是當樣本容量變得足夠大時其偏倚趨於零的估計式）

漸近有效性：當樣本容量 n 趨於無窮大時，在所有的一致估計式中，具有最小的漸近方差。

OLS估計的分布性質

基本思想:

$\hat \beta$是隨機變數，必須確定其分布性質才可能進行區間估計和假設檢驗

$u_i$是服從正態分布的隨機變數,決定了Y也是服從正態分布的隨機變數.

$\hat \beta$是Y的線性函數，決定了$\hat \beta$也是服從正態分布的隨機變數

$\hat \beta$的期望與方差

● $\hat \beta$的期望 $E(\hat \beta)=\beta$ (由無偏性)

● $\hat \beta$的方差和標準誤差： $\hat \beta$ 的方差—協方差矩陣為

\[\operatorname{Var}-\operatorname{Cov}(\hat{\boldsymbol{\beta}})=\sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}
\]

這裡的

\[\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}

=\left[\begin{array}{cccc}

c_{11} & c_{12} & \cdots & c_{1 k} \\

c_{21} & c_{22} & \cdots & c_{2 k} \\

\vdots & \vdots & \vdots & \vdots \\

c_{k 1} & c_{k 2} & \cdots & c_{k k}
\end{array}\right]
\]

方差:

\[\operatorname{Var}\left(\hat{\beta}_{j}\right)=\sigma^{2} c_{j j}
\]

標準差:

\[S E\left(\hat{\beta}_{j}\right)=\sigma \sqrt{c_{j j}}
\]

其中 $c_{j j}$ 是矩陣 $\left(X^{\prime} X\right)^{-1}$ 中第 $j$ 行第 $j$ 列的元素

所以

\[\quad \hat{\beta}_{j} \sim N\left(\beta_{j}, \sigma^{2} c_{j j}\right) \quad(\mathrm{j}=1,2,-\mathrm{-k})
\]

對 $\hat{\beta}_{j}$ 作標準化變換

為什麼要對 $\hat{\beta}_{j}$ 作標準化變換?

標準化前分布函數：

\[F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} d x
\]

在 $u_i$ 正態性假定下，由前面的分析已知$\quad \hat{\beta}_{j} \sim N\left(\beta_{j}, \sigma^{2} c_{j j}\right)$

但在對一般正態變數$\hat{\beta}_{j}$ 作實際分析時，要具體確定$\hat{\beta}_{j}$ 的取值及對應的概率，要通過正態分布密度函數或分布函數去計算是很麻煩的，為了便於直接利用「標準化正態分布的臨界值」，需要對$\hat{\beta}_{j}$ 作標準化變換。

標準化的方式：

\[z_j = \frac{\hat{\beta}_{j}-E({\beta}_{j})}{SE(\hat{\beta}_{j})}
\]

標準化後分布函數：

\[\Phi (x)=\frac{1}{\sqrt{2 \pi} } \int_{-\infty}^{x}
e^{-\frac{x^{2}}{2 }} d x
\]

1.$\sigma^{2}$已知時，對 $\hat{\beta}_{j}$作標準化變換

所得Z統計量為標準正態變數

\[z_j = \frac{\hat{\beta}_{j}-{\beta}_{j}}{SE(\hat{\beta}_{j})}=
\frac{\hat{\beta}_{j}-{\beta}_{j}}{\sigma \sqrt{c_{j j}}} \sim N(0,1),j=1,…,k
\]

注意:這時 $SE(\hat{\beta}_{j})$不是隨機變數(X、σ 、n 都是非隨機的）

隨機擾動項方差$\sigma^{2}$ 的估計

$\sigma^{2}$一般未知，可證明多元回歸中$\sigma^{2}$ 的無偏估計為：

\[\hat\sigma = \frac{\sum e_i^2}{n-k} ~~~ 或表示為~~~
\hat\sigma = \frac{ e』e}{n-k}
\]

在一元回歸的特例中，

\[SE(\hat{\beta}_{2})=\frac{\sigma }{\sqrt{\sum x_i^2}} ~~~~~~~
SE(\hat{\beta}_{1})=\sqrt{\frac{\sum X_i^2 }{n\sum x_i^2}}\sigma
\]

2.$\sigma^{2}$未知時，對 $\hat{\beta}_{j}$作標準化變換

條件：當 $\sigma^{2}$未知時，可用 $\hat\sigma^{2}$（隨機變數）代替 $\sigma^{2}$去估計參數的標準誤差。這時參數估計的標準誤差是個隨機變數。

樣本為大樣本時,作標準化變換所得的統計量 $Z_j$，也可以視為標準正態變數（根據中心極限定理）。
樣本為小樣本時，用估計的參數標準誤差對$\hat{\beta}_{j}$作標準化變換，所得的統計量用t表示，這時t將不再服從正態分布，而是服從 t 分布：（注意這時分母是隨機變數）

\[t= \frac{\hat{\beta}_{j}-{\beta}_{j}}
{\hat {SE}(\hat{\beta}_{j})} \sim t(n-k)
\]

回歸係數的區間估計

由於 $\quad t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{\sigma} \sqrt{c_{i j}}} \sim t(n-k)$

給定 $\alpha,$ 查 $\mathbf{t}$ 分布表的自由度為 $\mathrm{n}-\mathrm{k}$ 的臨界值 $t_{\alpha / 2}(n-k)$

\[\begin{array}{c}
P\left[-t_{\alpha / 2}(n-k) \leq t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E\left(\hat{\beta}_{j}\right)}} \leq t_{\alpha / 2}(n-k)\right]=1-\alpha \quad(j=1 \cdots k) \\
P\left[\hat{\beta}_{j}-t_{\alpha / 2} \operatorname{SE}\left(\hat{\beta}_{j}\right) \leq \beta_{j} \leq \hat{\beta}_{j}+t_{\alpha / 2} \operatorname{SE}\left(\hat{\beta}_{j}\right)\right]=1-\alpha
\end{array}
\]

或 $\quad P\left[\hat{\beta}_{j}-t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}} \leq \beta_{j} \leq \hat{\beta}_{j}+t_{\alpha / 2} \hat{\sigma} \sqrt{c_{j j}}\right]=1-\alpha$

或表示為 $\beta_{j}=\left(\hat{\beta}_{j}-t_{\alpha / 2(n-k)} \hat{\sigma} \sqrt{c_{j j}}, \hat{\beta}_{j}+t_{\alpha / 2(n-k)} \hat{\sigma} \sqrt{c_{j j}}\right)$

擬合優度檢驗

擬合優度的度量

概念：

樣本回歸線是對樣本數據的一種擬合。

●不同的模型（不同函數形式)可擬合出不同的回歸線。

●相同的模型用不同方法估計參數，可以擬合出不同的回歸線。

擬合的回歸線與樣本觀測值總是有偏離。樣本回歸線對樣本觀測數據擬合的優劣程度稱為擬合優度。

如何度量擬合優度呢？

擬合優度的度量建立在對 Y 的總變差分解的基礎上。

總變差的分解

分析Y的觀測值 $Y_{i} 、$ 估計值 $\hat{Y}_{i}$ 與平均值 $\bar{Y}$ 有以下關係

\[Y_{i}-\bar{Y}=\left(\hat{Y}_{i}-\bar{Y}\right)+\left(Y_{i}-\hat{Y}_{i}\right)
\]

將上式兩邊平方加總，可證得 ( 提示：交叉項 $\left.\sum\left(\hat{Y}_{i}-\bar{Y}\right) e_{i}=0\right)$

\[\begin{array}{l}
\sum\left(Y_{i}-\bar{Y}\right)^{2}=\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}+\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} \\
\quad (\color{blue}{\mathrm{TSS}}) \quad \quad \quad \quad
(\color{blue}{\mathrm{ESS}}) \quad \quad \quad \quad(\color{blue}{\mathrm{RSS}}) \\

\end{array}
\]

或者表示為

\[\sum y_{i}^{2}=\sum \hat{y}_{i}^{2}+\sum e_{i}^{2}
\]

總變差$\sum y_{i}^{2}$ （TSS）：被解釋變數Y的觀測值與其平均值的離差平方和（總平方和）(說明 Y 的變動程度）

解釋了的變差 $\sum \hat{y}_{i}^{2}$（ESS）：被解釋變數Y的估計值與其平均值的離差平方和（回歸平方和）

剩餘平方和 $\sum e_{i}^{2}$（RSS）：被解釋變數觀測值與估計值之差的平方和（未解釋的平方和）

可決係數

以TSS同除總變差等式兩邊：

\[\frac{\sum\left(Y_{i}-\bar{Y}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}+\frac{\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}
\]

或

\[1=\frac{\sum \hat{y}^{2}}{\sum y_{i}^{2}}+\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}
\]

$\large\color{magenta}{\boxed{\color{brown}{定義} }}$：回歸平方和 ( 解釋了的變差ESS ) $\sum \hat{y}_{i}^{2}$ 在總變差 ( TSS ) $\sum y_{i}^{2}$ 中所佔的比重稱為可決係數，用 $r^{2}$ 或 $R^{2}$ 表示:

\[R^{2}=\frac{\sum \hat{y}^{2}}{\sum y_{i}^{2}} \text { 或 } R^{2}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}
\]

可決係數的作用

可決係數越大，說明在總變差中由模型作出了解釋的部分佔的比重越大，模型擬合優度越好。反之可決係數越小，說明模型對樣本觀測值的擬合程度越差。

可決係數的特點:

●可決係數取值範圍∶$0\leq R^2\leq 1$

●隨抽樣波動，樣本可決係數$R^2$是隨抽樣而變動的隨機變數

●可決係數是非負的統計量

可決係數使用原則

切勿因為$R^2$的高或低輕易地肯定或否定一個模型：

視數據類型和樣本容量
視研究目的不同
描述性判斷而非顯著性判斷

可以比較不同模型的$R^2$但有前提：

樣本相同
被解釋變數相同

$R^2$具有兩層含義，$R^2$高意味著：

樣本回歸線對樣本數據的擬合程度較高
所有解釋變數聯合起來對被解釋變數的影響程度較高

拓展至多元線性回歸模型

多元線性回歸的擬合優度檢驗

多重可決係數：在多元回歸模型中，由各個解釋變數聯合起來解釋了的Y的變差，在Y的總變差中占的比重, 用 $R^{2}$ 表示與簡單線性回歸中可決係數 $r^{2}$ 的區別只是 $\hat{Y}_{i}$ 不同

多元回歸中 $\quad \hat{Y}_{i}=\hat{\beta}_{1}+\hat{\beta}_{2} X_{2 i}+\hat{\beta}_{3} X_{3 i}+\cdots+\hat{\beta}_{k} X_{k i}$

多重可決係數可表示為

\[R^{2}=\frac{E S S}{T S S}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}}{\sum\left(Y_{i}-\bar{Y}\right)^{2}}=\frac{T S S-R S S}{T S S}=1-\frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}
\]

修正的可決係數

思想：

可決係數只涉及變差，沒有考慮自由度。如果用自由度去校正所計算的變差，可糾正解釋變數個數不同引起的對比困難。

回顧:

$\large\color{#70f3ff}{\boxed{\color{green}{自由度}}}$：統計量的自由度指可自由變化的樣本觀測值個數，它等於所用樣本觀測值的個數減去對觀測值的約束個數。

可決係數的修正方法

總變差$\sum y_{i}^{2}$ （TSS）：自由度為 n-1

解釋了的變差 $\sum \hat{y}_{i}^{2}$（ESS）：自由度為 k-1

剩餘平方和 $\sum e_{i}^{2}$（RSS）：自由度為 n-k

修正的可決係數為

\[\bar{R}^{2}=1-\frac{\sum e_{i}^{2} /(n-k)}{\sum y_{i}^{2} /(n-1)}=1-\frac{n-1}{n-k} \frac{\sum e_{i}^{2}}{\sum y_{i}^{2}}=1-\frac{n-1}{n-k}\left(1-R^{2}\right)
\]

修正的可決係數 $\bar{R}^{2}$ 與可決係數 $R^{2}$ 的關係

已經導出 $: \quad \bar{R}^{2}=1-\left(1-R^{2}\right) \frac{n-1}{n-k}$

注意：
可決係數 $R^{2}$ 必定非負，但所計算的修正可決係數 $\bar{R}^{2}$ 有
可能為負值

解決辦法：若計算的 $\bar{R}^{2}<0,$ 規定 $\bar{R}^{2}$ 取值為0

\[\frac{1-\bar{R}^{2}}{1-R^{2}}=\frac{n-1}{n-k} \Rightarrow \bar{R}^{2} \leq R^{2}
\]

修正可決係數的特點

修正後$\bar{R}^{2} \leq R^{2}$ ，且隨著解釋變數個數增加兩者差距變大。
修正後$\bar{R}^{2}$與$R^{2}$同增同減（在其他條件不變的前提下），具有同樣的兩層含義。
修正後$\bar{R}^{2}$不再是解釋變數個數的不減函數，而要視正面影響（對擬合優度貢獻）和負面影響（自由度損失）的相對大小。
修正後$\bar{R}^{2}$也只能做描述性判斷。
修正後$\bar{R}^{2}$使用原則與$R^{2}$相同。

F檢驗與t檢驗

基本思想：

在多元回歸中包含多個解釋變數，它們與被解釋變數是否有顯著關係呢？

當然可以分別檢驗各個解釋變數對被解釋變數影響的顯著性。

但為了說明所有解釋變數聯合起來對被解釋變數影響的顯著性, 或整個方程總的聯合顯著性，需要對方程的總顯著性在方差分析的基礎上進行F檢驗。

方差分析表

變差來源	平方和	自由度	方差
歸於回歸模型	$\mathbf{E S S}=\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}$	$\mathbf{k – 1}$	$\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} /(k-1)$
歸於剩餘	$\mathbf{R S S}=\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}$	$\mathbf{n – k}$	$\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} /(n-k)$
總變差	$\mathbf{T S S}=\sum\left(Y_{i}-\bar{Y}\right)^{2}$	$\mathbf{n – 1}$	$\sum\left(Y_{i}-\bar{Y}\right)^{2} /(n-1)$

$\large\color{#70f3ff}{\boxed{\color{green}{基本思想}}}$: 如果多個解釋變數聯合起來對被解釋變數的影響不顯著, 「歸於回歸的方差” 應該比「歸於剩餘的方差” 顯著地小 ( 即這應是大概率事件 ) 。

F檢驗

原假設: $\quad H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0$

（所有解釋變數聯合起來對被解釋變數的影響不顯著 $）$

備擇假設: $H_{1}: \beta_{j}(j=2, \cdots k)$ 不全為0

建立統計量 $： \quad F=\frac{E S S /(k-1)}{R S S /(n-k)}=\frac{\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} /(k-1)}{\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} /(n-k)} \sim F(k-1, n-k)$

給定顯著性水平 $\alpha \quad,$ 查F分布表中自由度為 $\mathrm{k}$ -1和 $\mathrm{n}$ -k 的臨界值 $F_{\alpha}(k-1, n-k)$ ,並通過樣本觀測值計算F值

F檢驗方式

▼ 如果計算的F值大於臨界值 $F_{\alpha}(k-1, n-k)$ ($\large\color{#70f3ff}{\boxed{\color{green}{小概率事件發生}}}$)

則拒絕$\quad H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0$ 說明回歸模型有顯著意義，即所有解釋變數聯合起來對Y確有顯著影響。

▼如果計算的F值小於臨界值$F_{\alpha}(k-1, n-k)$ ($\large\color{#70f3ff}{\boxed{\color{green}{大概率事件發生}}}$)

則不拒絕 $\quad H_{0}: \beta_{2}=\beta_{3}=\cdots=\beta_{k}=0$說明回歸模型沒有顯著意義，即所有解釋變數聯合起來對Y沒有顯著影響。

F檢驗與擬合優度檢驗

擬合優度檢驗與對線性回歸的總體顯著性的 F 檢驗是從不同原理出發的兩類檢驗，但二者有內在聯繫:

擬合優度檢驗——從已估計的模型出發，檢驗對樣本觀測值的擬合程度。

總體顯著性的F檢驗——從樣本觀測值出發，檢驗模型總體線性關係的顯著性。

F檢驗與多重可決係數有密切關係：二者都建立在對被解釋變數變差分解的基礎上，實際上 F 統計量也可通過可決係數去計算：

\[F=\frac{R^{2} /(k-1)}{\left(1-R^{2}\right) /(n-k)}=\frac{n-k}{k-1} \frac{R^{2}}{1-R^{2}}
\]

可以看出：當 $R^{2}=\mathbf{0}$ 時 $, \mathbf{F}=\mathbf{0} ;$ 當 $R^{2}=\mathbf{1 時 , ~} \mathbf{F} \rightarrow \infty ;$ 當 $R^{2}$ 越大時，$F$值也越大

回歸係數的檢驗方法

確立假設：原假設為 $H_{0}: \beta_{j}=0$

備擇假設為 $\quad H_{1}: \beta_{j} \neq 0$

(本質：檢驗 $\beta_{j}$ 是否為0，即檢驗 $X_{j}$ 是否對Y有顯著影響)

(1)當已知 $\sigma^{2}$ 或樣本容量足夠大時

可利用正態分布作
Z檢驗

\[Z^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{S E\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\operatorname{SE}\left(\hat{\beta}_{j}\right)} \sim N(0.1)
\]

給定 $\alpha,$ 查正態分布表得臨界值 $\mathbf{Z}$

如果 $-z<Z^{*}<z$ ( 大概率事件發生 ) 則不拒絕原假設 $H_{0}$
如果 $Z^{*}<-z$ 或 $Z^{*}>z$ ( 小概率事件發生 ) 則拒絕原假設 $H_{0}$

(2)當$\sigma^{2}$未知，且樣本容量較小時

$\mathbf{t}$ 檢驗

只能用 $\hat{\sigma}^{2}$ 去代替 $\sigma^{2},$ 可利用 $\mathbf{t}$ 分布作 $\mathbf{t}$ 檢驗 $：$

\[t^{*}=\frac{\hat{\beta}_{j}-\beta_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)}=\frac{\hat{\beta}_{j}}{\hat{S E}\left(\hat{\beta}_{j}\right)} \sim t(n-k)
\]

給定 $\alpha,$ 查 $\mathbf{t}$ 分布表得 $t_{\alpha / 2}(n-k)$

如果 $t^{*} \leq-t_{\alpha / 2}(n-k)$ 或者 $t^{*} \geq t_{\alpha / 2}(n-k)($ 小概率事件發生 $)$
則拒絕原假設 $H_{0}: \beta_{j}=0$ 而不拒絕備擇假設 $H_{1}: \beta_{j} \neq 0$

如果 $-t_{\alpha / 2}(n-k) \leq t^{*} \leq t_{\alpha / 2}(n-k)($ 大概率事件發生 $)$
則不拒絕原假設 $H_{0}: \beta_{j}=0$

用 P 值判斷參數的顯著性

假設檢驗的 p 值：

p 值是基於既定的樣本數據所計算的統計量，原假設可以被拒絕的最高顯著性水平。統計分析軟體中通常都給出了檢驗的 p 值

相對於顯著性水平$\alpha$ 的臨界值: $t_{\alpha }$或$t_{\alpha / 2}$與 $\alpha$相對應

相對於計算的統計量$t^*$ :$t^*$與 P 相對應

注意：

t檢驗是比較$t^*$ 和$t_{\alpha / 2}$ ,用 P值檢驗是比較$\alpha$ 和 p

用 P 值判斷參數顯著性的方法

方法：將給定的顯著性水平 $\alpha$ 與 p 值比較：

若 $\alpha$ > p 值，則在顯著性水平$\alpha$ 下拒絕原假設 $H_{0}: \beta_{j}=0$，即認為 X 對 Y 有顯著影響

若 $\alpha \leq$ p 值，則在顯著性水平 $\alpha$下不拒絕原假設 $H_{0}: \beta_{j}=0$ ，即認為 X 對 Y 沒有顯著影響

規則：當 $\alpha$ > p時，P值越小，越能拒絕原假設$H_0$

例如，給定 $\hat{\beta}$ 服從 $t$ 分布 $, \widehat{\beta}-\beta_{0}$ 是否顯著異於零，關鍵是看這個差值的絕對值等於估計值 $\widehat{\beta}$ 的多少倍標準差。

\[t_{\alpha / 2}=\frac{\hat{\beta}-\beta_{0}}{\operatorname{se}(\widehat{\beta})}
\]

知道了 $t_{\alpha / 2},$ 查表可得 $\alpha$ 的值 , 即置信水平 ( 或p值 $）$ 。若這個置信水平滿足研究要求，則認為這個差異” 顯著，否則不顯著。

F檢驗與t檢驗的關係

在一元回歸中F檢驗與t檢驗等價, 且$F=t^2$.

在多元回歸中， F檢驗與t檢驗的關係是：

整體的F檢驗顯著並不見得個別係數的t檢驗顯著。
個別係數的t檢驗顯著則整體F檢驗通常也顯著。

在多元回歸中，既要作F檢驗，又要進一步分別對每個回歸係數逐個地進行t檢驗。

回歸模型的預測

基本思想：

經估計的計量經濟模型可用於: 經濟結構分析、經濟預測、政策評價、驗證理論

運用計量經濟模型作預測：指利用所估計的樣本回歸函數作預測工具，用解釋變數的已知值或預測值，對預測期或樣本以外的被解釋變數的數值作出定量的估計。

計量經濟預測是一種條件預測：

模型設定的關係式不變
估計的參數不變
解釋變數在預測期的取值已作出預測

預測的類型

對被解釋變數Y的預測分為：平均值預測和個別值預測

對被解釋變數Y的預測又分為：點預測和區間預測

Y 平均值的點預測

點預測:

用樣本估計的總體參數值所計算的Y的估計值直接作為Y的預測值

方法： 將解釋變數預測值直接代入估計的方程

\[\begin{array}{c}
\hat{Y}_{F}=\hat{\beta}_{1}+\hat{\beta}_{2} X_{F 2}+\hat{\beta}_{3} X_{F 3}+\cdots+\hat{\beta}_{K} X_{F k} \\
\end{array}
\]

或

\[\hat{Y}_{F}=\boldsymbol{X}_{F} \hat{\boldsymbol{\beta}}
\]

這樣計算的 $\hat{Y}_{F}$ 是一個點估計值

Y 平均值的區間預測

基本思想：預測的目標值是真實平均值，由於存在抽樣波動，預測的平均
值 $\hat{Y}_{F}$ 是隨機變數，不一定等於真實平均值 $E\left(Y_{F} \mid X_{F}\right),$ 還需要對$E\left(Y_{F} \mid X_{F}\right)$作區間估計

為對Y的平均值作區間預測，必須確定平均值點預測值 $\hat Y_{F}$的抽樣分布

必須找出點預測值$\hat Y_{F}$與預測目標值$E\left(Y_{F} \mid X_{F}\right)$ 的關係，即找出與二者都有關的統計量

具體作法（從 $\hat{Y}_{F}$的分布分析）

由 $\hat{Y}_{F}=\boldsymbol{X}_{F} \hat{\boldsymbol{\beta}}, \hat{Y}_{F}$ 服從正態分布(為什麼?)

已知

\[E\left(\hat{Y}_{F}\right)=E\left(Y_{F} \mid X_{F}\right)=X_{F} \beta
\]

可以證明

\[\operatorname{Var}\left(\hat{Y}_{F}\right)=\sigma^{2} \boldsymbol{X}_{F}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}_{F}^{\prime}
\]

當 $\sigma^{2}$ 未知時，只得用 $\hat{\sigma}^{2}=\sum e_{i}^{2} /(n-k)$ 代替 $,$ 這時將 $\hat{Y}_{F}$ 標準化

有

\[t=\frac{\hat{Y}_{F}-E\left(Y_{F} \mid \mathbf{X}_{\mathrm{F}}\right)}{\hat{\sigma} \sqrt{X_{F}\left(X^{\prime} X\right)^{-1} X_{F}^{\prime}}} \sim t(n-k)
\]

構建平均值的預測區間

顯然這樣的 $\mathrm{t}$ 統計量與 $\hat{Y}_{F}$ 和 $E\left(Y_{F} \mid X_{F}\right)$ 都有關。

給定顯著性水平 $\alpha,$ 查 $\mathrm{t}$ 分布表，
得自由度 $\mathrm{n}-\mathrm{k}$ 的臨值 $t_{\alpha / 2}(n-k),$ 則有

\[\begin{array}{l}
P\left(-t_{\alpha / 2} \leq t=\frac{\hat{Y}_{F}-E\left(Y_{F} \mid X_{F}\right)}{\hat{S E}\left(\hat{Y}_{F}\right)} \leq t_{\alpha / 2}\right)=1-\alpha \\
p\left\{\left[\hat{Y}_{F}-t_{\alpha / 2} \hat{S E}\left(\hat{Y}_{F}\right)\right] \leq E\left(Y_{F} \mid X_{F}\right) \leq\left[\hat{Y}_{F}+t_{\alpha / 2} \hat{S E}\left(\hat{Y}_{F}\right)\right]\right\}=1-\alpha
\end{array}
\]

Y平均值的置信度為1 $-\alpha$ 的預測區間為

\[\left(\hat{Y}_{F}-t_{\alpha / 2} \hat{\sigma}
\sqrt{\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}\boldsymbol{X})^{-1}
\boldsymbol{X}_{F}^{\prime}}, \hat{Y}_{F}+t_{\alpha / 2}
\hat{\sigma} \sqrt{\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}
\boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}\right)
\]

被解釋變數個別值預測

基本思想：

● $\hat{Y}_{F}$是對Y平均值的點預測。

●由於存在隨機擾動 $u_i$的影響，Y的平均值並不等於Y的個別值

●為了對Y的個別值${Y}_{F}$ 作區間預測，需要尋找與點預測值 $\hat{Y}_{F}$和預測目標個別值 ${Y}_{F}$ 有關的統計量，並要明確其概率分布

具體作法：

已知剩餘項 $e_{F}=Y_{F}-\hat{Y}_{F}$ 是與預測值 $\hat{Y}_{F}$ 及個別值 $Y_{F}$ 都有關的變量，並且已知 $e_{F}$ 服從正態分布，且可證明 $E\left(e_{F}\right)=0$

\[\operatorname{Var}\left(e_{F}\right)=\sigma^{2}\left[1+\boldsymbol{X}_{\boldsymbol{F}}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}_{\boldsymbol{F}}^{\prime}\right]
\]

當用 $\hat{\sigma}^{2}=\sum e_{i}^{2} /(n-k)$ 代替 $\sigma^{2}$ 時，對 $e_{F}$ 標準化的變數 $\mathrm{t}$ 為

\[t=\frac{e_{F}-E\left(e_{F}\right)}{\hat{S E}\left(e_{F}\right)}=\frac{Y_{F}-\hat{Y}_{F}}{\hat{\sigma} \sqrt{1+\boldsymbol{X}_{F}(\boldsymbol{X}^{\prime} \boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}} \sim t(n-k)
\]

構建個別值的預測區間

給定顯著性水平 $\alpha,$ 查 $\mathrm{t}$ 分布表得自由度為n-k的臨界值 $t_{\alpha / 2}(n-k)$ 則有

\[P\left\{\left[\hat{Y}_{F}-t_{\alpha / 2} \hat{S E}\left(e_{F}\right)\right] \leq Y_{F} \leq\left[\hat{Y}_{F}+t_{\alpha / 2} \hat{S E}\left(e_{F}\right)\right]\right\}=1-\alpha
\]

因此，Y的個別值的置信度為 $1-\alpha$ 的預測區間上下限為

\[\hat{Y}_{F} \mp t_{\alpha / 2} \hat{\sigma} \sqrt{1+X_{F}\left(X^{\prime} X\right)^{-1} X_{F}^{\prime}}
\]

被解釋變數Y區間預測的特點

（1） Y平均值的預測值與真實平均值有誤差，主要是受抽樣波動影響

預測區間:

\[{Y}_{F}= \hat{Y}_{F}\mp t_{\alpha / 2}
\hat{\sigma} \sqrt{\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}
\boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}
\]

Y個別值的預測值與真實個別值的差異,不僅受抽樣波動影響，而且還受隨機擾動項的影響

預測區間:

\[{Y}_{F}= \hat{Y}_{F}\mp t_{\alpha / 2}
\hat{\sigma} \sqrt{1+\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}
\boldsymbol{X})^{-1} \boldsymbol{X}_{F}^{\prime}}
\]

在一元回歸中：

\[\boldsymbol{X}_{F}(\boldsymbol{X} ^{\prime}\boldsymbol{X})^{-1} \boldsymbol{X}^{\prime}=\frac{1}{n}+\frac{\left(X_{F}-\bar{X}\right)^{2}}{\sum x_{i}^{2}}
\]

(2) 平均值和個別值預測區間都不是常數，是隨 $X_{F}$ 的變化而變化的，當 $X_{F}=\bar{X}$ 時, 預測區間最小。

( 3 ) 預測區間上下限與樣本容量有關 , 當樣本容量 $\mathrm{n} \rightarrow \infty$ 時, 個別值的預測區間只決定於隨機擾動的方差。

預測區間

\[Y_{F}=\hat{Y}_{F} \mp t_{\alpha / 2} \hat{\sigma} \sqrt{1+\frac{1}{n}+\frac{\left(X_{F}-\bar{X}\right)^{2}}{\sum x_{i}^{2}}}
\]

參考資料：

龐皓主編，《計量經濟學 (第四版)》，科學出版社

Damodar N.Gujarati著，費劍平譯，《計量經濟學基礎 (第五版)》

施圖德蒙德，《應用計量經濟學》（第六版）

西南財經大學課程

電子科技大學課程

Tags: 機器學習數學推導

變差來源	平方和	自由度	方差
歸於回歸模型	\(\mathbf{E S S}=\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2}\)	\(\mathbf{k – 1}\)	\(\sum\left(\hat{Y}_{i}-\bar{Y}\right)^{2} /(k-1)\)
歸於剩餘	\(\mathbf{R S S}=\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2}\)	\(\mathbf{n – k}\)	\(\sum\left(Y_{i}-\hat{Y}_{i}\right)^{2} /(n-k)\)
總變差	\(\mathbf{T S S}=\sum\left(Y_{i}-\bar{Y}\right)^{2}\)	\(\mathbf{n – 1}\)	\(\sum\left(Y_{i}-\bar{Y}\right)^{2} /(n-1)\)