深入理解線性模型(二)—基於似然函數的估計

  • 2019 年 10 月 31 日
  • 筆記

更新時間:2019.10.31

1. 引言

  在上一篇中,我們從損失函數的角度出發討論了(beta)(sigma)的估計。在本篇將換一種極具統計味道的角度,從似然函數出發來討論了(beta)(sigma)的估計。從中我們也將看見,在不同的假設中,損失函數將會發生不同的變化。

2. 關於(varepsilon)假設

  在上一篇(基於損失函數的估計)中,我們提到,對於線性模型,我們常常使用Guass-Markon假設,即:

  1. (E(varepsilon) = 0)
  2. (cov(varepsilon) = sigma^2 I_n)

  但是,實際上我們同方差的假設是總是不滿足的,完整來說,對(varepsilon)的假設應該有三種:

  1. 同方差,且各個隨機誤差變數不相關:(cov(varepsilon) = sigma^2 I_n)
  2. 異常差,但各個隨機誤差變數不相關,(cov(varepsilon) = diag(sigma_1^2, sigma_2^2, cdots, sigma_n^2))
  3. 異方差,且各個隨機誤差變數是相關的,
    [ cov(varepsilon) = begin{pmatrix} sigma_{11}^2 & cov(varepsilon_1, varepsilon_2) & cdots & cov(varepsilon_1, varepsilon_n)\ cov(varepsilon_2, varepsilon_1) & sigma_{22}^2 & cdots & cov(varepsilon_2, varepsilon_n)\ vdots & vdots & & vdots\ cov(varepsilon_n, varepsilon_1) & cov(varepsilon_n, varepsilon_2) & cdots & sigma_{nn}^2 end{pmatrix} ]

  此時,記(cov(varepsilon) = Sigma)

3. 基於似然函數的估計

  之前是從損失函數的角度進行參數的估計,但是實際上每個損失函數都應該對應著一個分布,並使得分布的似然函數達到最大
  我們知道在X給定的情況下,似然函數(L(theta;Y,X) = P_{theta}(Y_1 = y_1, Y_2 = y_2, cdots, Y_n = y_n))。假設(Y_1, Y_2, cdots, Y_n)是獨立的,有(L(theta;Y,X) = prod_{i=1}^nP(Y = y_i))。當是離散情況的時候,可以進一步化為:(L(theta;Y,X) = prod_{i=1}^nP_i(theta))。當是連續情況的時候,則可以化為:(L(theta;Y,X) = prod_{i=1}^n f(y_i;theta))

3.1 基於假設1

  如果滿足假設1,(cov(varepsilon) = sigma^2 I_n), 並加上一個正態性的假設,即有(varepsilon_i sim N(0, sigma^2)),那麼,(y_i = x_ibeta + varepsilon_i sim N(x_ibeta, sigma^2)),那麼有似然函數:
begin{equation}
begin{split}
L(beta, sigma^2, Y, X) & = prod_{i=1}^n f(y_i)\
& = prod_{i=1}^n frac{1}{sqrt{2pi}sigma} e^{- frac{(y_i – x_ibeta)^2}{2sigma^2}}\
& = (frac{1}{sqrt{2pi}sigma})^n e^{- frac{1}{2 sigma^2} displaystyle sum_{i=1}^n(y_i – x_ibeta)^2}
end{split}
end{equation}

  可以看到,似然函數中含有的(sum_{i=1}^n(y_i – x_ibeta)^2)部分正是我們之前討論的二次損失形式。那麼我們便了解到,基於假設1時,確實是應該採用我們之前所使用的二次損失形式
  通常為了簡便計算,我們都會將似然函數對數化

begin{equation}
begin{split}
lnL(beta, sigma^2, Y, X) & = -nln(sqrt{2pi}sigma)- frac{1}{2 sigma^2} sum_{i=1}^n(y_i – x_ibeta)^2
end{split}
end{equation}

  記(G(beta, sigma^2) = nln(sqrt{2pi}sigma) + frac{1}{2 sigma^2} sum_{i=1}^n(y_i – x_ibeta)^2),令似然函數最大化,即是求(min hspace{1mm}G(beta, sigma^2))

  對(G(beta, sigma^2))求關於(beta)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, sigma^2)}{partial beta}
&= 0 + frac{1}{2 sigma^2}2 displaystyle sum_{i=1}^n (y_i – x_ibeta)x_i\
& = frac{1}{2 sigma^2} displaystyle sum_{i=1}^n 2(x_iy_i – x_i^2beta) = 0
end{split}
\
=> displaystyle sum_{i=1}^n (x_iy_i – x_i^2beta) = 0 => displaystyle sum_{i=1}^n x_iy_i = displaystyle sum_{i=1}^n x_i^2beta\
=> X^TY = X^TXbeta => hat beta = (X^TX)^{-1}X^TY
end{equation}

  對對(G(beta, sigma^2))求關於(sigma)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, sigma^2)}{partial sigma}
&= nfrac{1}{sqrt{2pi}sigma}sqrt{2pi} – frac{2}{2sigma^3}sum_{i=1}^n(y_i – x_ibeta)^2 \
& = frac{n}{sigma} + frac{1}{sigma^3}sum_{i=1}^n(y_i – x_ibeta)^2 = 0
end{split}
\
=> frac{1}{sigma^3}sum_{i=1}^n(y_i – x_ibeta)^2 = frac{n}{sigma}
=> hat sigma^2 = frac{displaystyle sum_{i=1}^n(y_i – x_ibeta)^2}{n}
end{equation}

  從這裡便可以看出,通過似然函數,一次就搞定了參數(beta)(sigma)的估計,而基於損失函數的估計只是估計出了(beta),而(sigma)是另外造一套理論估計的

  • tips:這裡的(x_ibeta)中的(beta)並不是估計量,這整個代表的是真實的擬合值,所以自由度有所不同(和(hat sigma^2 = frac{SSE}{n-p})略顯不同)

3.2 基於假設2

  如果滿足假設2,(cov(varepsilon) = cov(varepsilon) = diag(sigma_1^2, sigma_2^2, cdots, sigma_n^2)), 並加上一個正態性的假設,即有(varepsilon_i sim N(0, sigma^2_{ii})),那麼,(y_i = x_ibeta + varepsilon_i sim N(x_ibeta, sigma^2_{ii})),那麼有似然函數:

begin{equation}
begin{split}
L(beta, sigma^2, Y, X) & = prod_{i=1}^n f(y_i)\
& = prod_{i=1}^n frac{1}{sqrt{2pi}sigma_{ii}} e^{- frac{(y_i – x_ibeta)^2}{2sigma^2_{ii}}}\
& = (frac{1}{sqrt{2pi}})^n prod_{i=1}^n(frac{1}{sigma_{ii}}) e^{- frac{1}{2} displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2}
end{split}
end{equation}

  我們可以發現基於假設2下,似然函數的核心部分發生了變化,不再是(sum_{i=1}^n(y_i – x_ibeta)^2)。因此,根據之前的經驗,基於假設2,所採用的損失函數也應該發生變化。此時採用的損失函數應該是標準化的二次損失(displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2),我們也把這稱為加權最小二乘估計。
  將似然函數對數化:
begin{equation}
begin{split}
lnL(beta, sigma^2, Y, X) = -nln(sqrt{2pi})- sum_{i=1}^nlnsigma_{ii} – frac{1}{2} displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2
end{split}
end{equation}

  記(G(beta, sigma_{ii}^2) = nln(sqrt{2pi}) + sum_{i=1}^nlnsigma_{ii} + frac{1}{2} displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2),令似然函數最大化,即是求(min hspace{1mm}G(beta, sigma_{ii}^2))
  對(G(beta, sigma_{ii}^2))求關於(beta)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, sigma_{ii}^2)}{partial sigma_{ii}}
&= 0 + 0 – frac{1}{2}2 displaystyle sum_{i=1}^n (frac {y_i – x_ibeta}{sigma_{ii}})frac{x_i}{sigma_{ii}}\
& = – displaystyle sum_{i=1}^n (frac {x_iy_i – x_i^2beta}{sigma_{ii}^2}) = 0
end{split}
\
=> displaystyle sum_{i=1}^n (frac {x_iy_i}{sigma_{ii}^2}) = displaystyle sum_{i=1}^n (frac {x_i^2beta}{sigma_{ii}^2}) \
=> X_c^TY_c = X_c^TX_cbeta => hat beta = (X_c^TX_c)^{-1}X_c^TY_c
end{equation}

  記(X_c = (frac{x_1}{sigma_{11}}, frac{x_2}{sigma_{22}}, cdots, frac{x_n}{sigma_{nn}})^T, Y_c = (frac{y_1}{sigma_{11}}, frac{y_2}{sigma_{22}}, cdots, frac{y_n}{sigma_{nn}})^T)
  對(G(beta, sigma_{ii}^2))求關於(sigma_{ii})的偏導有,以(sigma_{11})為例

begin{equation}
begin{split}
frac {partial G(beta, sigma_{ii}^2)}{partial sigma_{11}}
&= 0 + frac{1}{sigma_{11}} – frac{1}{2}2frac{(y_1 – x_1beta)^2}{sigma_{11}^3} \
& = frac{1}{sigma_{11}} – frac{(y_1 – x_1beta)^2}{sigma_{11}^3} = 0
end{split}
\
=> frac{1}{sigma_{11}} = frac{(y_1 – x_1beta)^2}{sigma_{11}^3}
=> hat sigma_{11}^2 = (y_1 – x_1beta)^2
end{equation}

  類似地,也就有(hat sigma_{ii}^2 = (y_i – x_ibeta)^2)

3.3. 基於假設3

  如果滿足假設3,(cov(varepsilon) = Sigma), 並加上一個正態性的假設,即有(varepsilon)滿足多維正態分布,(varepsilon sim N_n(0, sigma^2_{ii})),那麼,(Y = Xbeta + varepsilon sim N_n(Xbeta, Sigma)),那麼有似然函數

begin{equation}
begin{split}
L(beta, Sigma Y, X) & =P(Y_1 = y_1, Y_2 = y_2, cdots, Y_n = y_n) = P(Y=y)
& = frac{1}{(sqrt{2pi})^n|Sigma|^{frac{1}{2}}}e ^{- frac{1}{2}(Y – Xbeta)^T sum^{-1} (Y – Xbeta)}
end{split}
end{equation}

  其中,(|Sigma|)(Sigma)的行列式
  我們可以發現基於假設3下,似然函數的核同樣也發生了變化。那麼,基於這種假設,此時採用的損失函數應該是((y – xbeta)^T Sigma^{-1} (y – xbeta))。將似然函數對數化:
[ lnL(beta, Sigma, Y, X) = -nln(sqrt{2pi})- frac{1}{2}ln|Sigma| – frac{1}{2} (Y – Xbeta)^T (Sigma)^{-1} (Y – Xbeta) ]
  記(G(beta, Sigma) = nln(sqrt{2pi}) + frac{1}{2}ln|Sigma| + frac{1}{2} (Y – Xbeta)^T Sigma^{-1} (Y – Xbeta)),令似然函數最大化,即是求(min hspace{1mm}G(beta, Sigma))
  對(G(beta, Sigma))求關於(beta)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, Sigma)}{partial beta}
&= 0 + 0 – frac{1}{2}2 X^T Sigma^{-1} (Y – Xbeta)\
& = X^T Sigma^{-1}(Xbeta – Y) = 0
end{split}
\
=> X^T Sigma^{-1}Xbeta = X^T Sigma^{-1}Y \
=> hat beta = (X^T Sigma^{-1} X)^{-1}X^T Sigma^{-1} Y
end{equation}

  對(G(beta, Sigma))求關於(Sigma)的偏導有

begin{equation}
begin{split}
mathrm{d}G & = frac{1}{2}|Sigma|^{-1}d|Sigma| + frac{1}{2}(Y – Xbeta)^TSigma^{-1}dSigmaSigma^{-1}(Y-Xbeta)\
& = frac{1}{2}tr(Sigma^{-1}dSigma) + tr(frac{1}{2}(Y – Xbeta)^TSigma^{-1}dSigmaSigma^{-1}(Y-Xbeta))\
& = frac{1}{2}tr(Sigma^{-1}dSigma) + tr(frac{1}{2}Sigma^{-1}(Y-Xbeta)(Y – Xbeta)^TSigma^{-1}dSigma)\
& = tr(frac{1}{2}((Sigma^{-1} – Sigma^{-1}(Y-Xbeta)(Y – Xbeta)^TSigma^{-1}))dSigma)
end{split}
\
=> frac{partial G}{partial Sigma} = frac{1}{2}(Sigma^{-1} – Sigma^{-1}(Y-Xbeta)(Y – Xbeta)^TSigma^{-1})^T = 0\
=> Sigma^{-1}(Y-Xbeta)^T(Y – Xbeta)Sigma^{-1} = Sigma^{-1} \
=> hat Sigma = (Y-Xbeta)^T(Y – Xbeta)
end{equation}

4. 估計的優良性

  在基於損失函數的估計中,我們討論了估計的優良性,那麼當換了假設和損失函數後,我們的估計是否還是具有優良的性質呢
  對於假設3中,有
begin{equation}
begin{split}
L_3(beta) & = (Y – Xbeta)^T Sigma^{-1} (Y – Xbeta) \
& = (Y – Xbeta)^T Sigma^{-frac{1}{2}}Sigma^{-frac{1}{2}} (Y – Xbeta)\
& = (Sigma^{-frac{1}{2}}Y – Sigma^{-frac{1}{2}}Xbeta)^T(Sigma^{-frac{1}{2}}Y – Sigma^{-frac{1}{2}}Xbeta)\
& = (Y^* – X^* beta)^T(Y^* – X^* beta)
end{split}
end{equation}

  其中,記(Sigma^{-frac{1}{2}}Y – Sigma^{-frac{1}{2}}Xbeta)(Y^* – X^* beta),由於(L_1(beta) = (Y-Xbeta)^T(Y – Xbeta))具有優良的性質,那麼(L_3(beta) = (Y^* – X^* beta)^T(Y^* – X^* beta))的估計也應該具有優良的性質。

5. 假設的場景

  為什麼總假設線性模型符合假設1呢?實際上當我們基於假設2時,要估計的參數有n+p個(n個不同的(sigma_{ii}),和p個(beta_i)),而我們只有n個樣本,這樣就出現自由度不足的情況;而當我們基於假設3時,要估計的參數就更多了(有(frac{n^2 + n}{2}+p)個)。這樣基本很難做估計,即使是做出出來了,估計也不一定唯一。

  面對這種情況,通常我們都要加大樣本量,像可以一個個體測m次,得到mn個數據,當然這時模型也變成了混合模型。因此,對於假設2和假設3,更加適合一些縱向數據(經濟上的面板數據、心理學上的重複測量數據、社會學上的多水平數據)