深入理解線性模型（二）—基於似然函數的估計

2019 年 10 月 31 日
筆記

1. 引言
2. 關於(varepsilon)假設
3. 基於似然函數的估計
4. 估計的優良性
5. 假設的場景

更新時間：2019.10.31

1. 引言

在上一篇中，我們從損失函數的角度出發討論了(beta)和(sigma)的估計。在本篇將換一種極具統計味道的角度，從似然函數出發來討論了(beta)和(sigma)的估計。從中我們也將看見，在不同的假設中，損失函數將會發生不同的變化。

2. 關於(varepsilon)假設

在上一篇(基於損失函數的估計)中，我們提到，對於線性模型，我們常常使用Guass-Markon假設，即：

(E(varepsilon) = 0)
(cov(varepsilon) = sigma^2 I_n)

但是，實際上我們同方差的假設是總是不滿足的，完整來說，對(varepsilon)的假設應該有三種：

同方差，且各個隨機誤差變數不相關：(cov(varepsilon) = sigma^2 I_n)
異常差，但各個隨機誤差變數不相關，(cov(varepsilon) = diag(sigma_1^2, sigma_2^2, cdots, sigma_n^2))
異方差，且各個隨機誤差變數是相關的，
[ cov(varepsilon) = begin{pmatrix} sigma_{11}^2 & cov(varepsilon_1, varepsilon_2) & cdots & cov(varepsilon_1, varepsilon_n)\ cov(varepsilon_2, varepsilon_1) & sigma_{22}^2 & cdots & cov(varepsilon_2, varepsilon_n)\ vdots & vdots & & vdots\ cov(varepsilon_n, varepsilon_1) & cov(varepsilon_n, varepsilon_2) & cdots & sigma_{nn}^2 end{pmatrix} ]

此時，記(cov(varepsilon) = Sigma)

3. 基於似然函數的估計

之前是從損失函數的角度進行參數的估計，但是實際上每個損失函數都應該對應著一個分布，並使得分布的似然函數達到最大
我們知道在X給定的情況下，似然函數(L(theta;Y,X) = P_{theta}(Y_1 = y_1, Y_2 = y_2, cdots, Y_n = y_n))。假設(Y_1, Y_2, cdots, Y_n)是獨立的，有(L(theta;Y,X) = prod_{i=1}^nP(Y = y_i))。當是離散情況的時候，可以進一步化為：(L(theta;Y,X) = prod_{i=1}^nP_i(theta))。當是連續情況的時候，則可以化為：(L(theta;Y,X) = prod_{i=1}^n f(y_i;theta))

3.1 基於假設1

如果滿足假設1，(cov(varepsilon) = sigma^2 I_n)，並加上一個正態性的假設，即有(varepsilon_i sim N(0, sigma^2))，那麼，(y_i = x_ibeta + varepsilon_i sim N(x_ibeta, sigma^2))，那麼有似然函數：
begin{equation}
begin{split}
L(beta, sigma^2, Y, X) & = prod_{i=1}^n f(y_i)\
& = prod_{i=1}^n frac{1}{sqrt{2pi}sigma} e^{- frac{(y_i – x_ibeta)^2}{2sigma^2}}\
& = (frac{1}{sqrt{2pi}sigma})^n e^{- frac{1}{2 sigma^2} displaystyle sum_{i=1}^n(y_i – x_ibeta)^2}
end{split}
end{equation}

可以看到，似然函數中含有的(sum_{i=1}^n(y_i – x_ibeta)^2)部分正是我們之前討論的二次損失形式。那麼我們便了解到，基於假設1時，確實是應該採用我們之前所使用的二次損失形式
通常為了簡便計算，我們都會將似然函數對數化

begin{equation}
begin{split}
lnL(beta, sigma^2, Y, X) & = -nln(sqrt{2pi}sigma)- frac{1}{2 sigma^2} sum_{i=1}^n(y_i – x_ibeta)^2
end{split}
end{equation}

記(G(beta, sigma^2) = nln(sqrt{2pi}sigma) + frac{1}{2 sigma^2} sum_{i=1}^n(y_i – x_ibeta)^2)，令似然函數最大化，即是求(min hspace{1mm}G(beta, sigma^2))

對(G(beta, sigma^2))求關於(beta)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, sigma^2)}{partial beta}
&= 0 + frac{1}{2 sigma^2}2 displaystyle sum_{i=1}^n (y_i – x_ibeta)x_i\
& = frac{1}{2 sigma^2} displaystyle sum_{i=1}^n 2(x_iy_i – x_i^2beta) = 0
end{split}
\
=> displaystyle sum_{i=1}^n (x_iy_i – x_i^2beta) = 0 => displaystyle sum_{i=1}^n x_iy_i = displaystyle sum_{i=1}^n x_i^2beta\
=> X^TY = X^TXbeta => hat beta = (X^TX)^{-1}X^TY
end{equation}

對對(G(beta, sigma^2))求關於(sigma)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, sigma^2)}{partial sigma}
&= nfrac{1}{sqrt{2pi}sigma}sqrt{2pi} – frac{2}{2sigma^3}sum_{i=1}^n(y_i – x_ibeta)^2 \
& = frac{n}{sigma} + frac{1}{sigma^3}sum_{i=1}^n(y_i – x_ibeta)^2 = 0
end{split}
\
=> frac{1}{sigma^3}sum_{i=1}^n(y_i – x_ibeta)^2 = frac{n}{sigma}
=> hat sigma^2 = frac{displaystyle sum_{i=1}^n(y_i – x_ibeta)^2}{n}
end{equation}

從這裡便可以看出，通過似然函數，一次就搞定了參數(beta)和(sigma)的估計，而基於損失函數的估計只是估計出了(beta)，而(sigma)是另外造一套理論估計的

tips：這裡的(x_ibeta)中的(beta)並不是估計量，這整個代表的是真實的擬合值，所以自由度有所不同（和(hat sigma^2 = frac{SSE}{n-p})略顯不同）

3.2 基於假設2

如果滿足假設2，(cov(varepsilon) = cov(varepsilon) = diag(sigma_1^2, sigma_2^2, cdots, sigma_n^2))，並加上一個正態性的假設，即有(varepsilon_i sim N(0, sigma^2_{ii}))，那麼，(y_i = x_ibeta + varepsilon_i sim N(x_ibeta, sigma^2_{ii}))，那麼有似然函數：

begin{equation}
begin{split}
L(beta, sigma^2, Y, X) & = prod_{i=1}^n f(y_i)\
& = prod_{i=1}^n frac{1}{sqrt{2pi}sigma_{ii}} e^{- frac{(y_i – x_ibeta)^2}{2sigma^2_{ii}}}\
& = (frac{1}{sqrt{2pi}})^n prod_{i=1}^n(frac{1}{sigma_{ii}}) e^{- frac{1}{2} displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2}
end{split}
end{equation}

我們可以發現基於假設2下，似然函數的核心部分發生了變化，不再是(sum_{i=1}^n(y_i – x_ibeta)^2)。因此，根據之前的經驗，基於假設2，所採用的損失函數也應該發生變化。此時採用的損失函數應該是標準化的二次損失(displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2)，我們也把這稱為加權最小二乘估計。
將似然函數對數化：
begin{equation}
begin{split}
lnL(beta, sigma^2, Y, X) = -nln(sqrt{2pi})- sum_{i=1}^nlnsigma_{ii} – frac{1}{2} displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2
end{split}
end{equation}

記(G(beta, sigma_{ii}^2) = nln(sqrt{2pi}) + sum_{i=1}^nlnsigma_{ii} + frac{1}{2} displaystyle sum_{i=1}^n(frac {y_i – x_ibeta}{sigma_{ii}})^2)，令似然函數最大化，即是求(min hspace{1mm}G(beta, sigma_{ii}^2))
對(G(beta, sigma_{ii}^2))求關於(beta)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, sigma_{ii}^2)}{partial sigma_{ii}}
&= 0 + 0 – frac{1}{2}2 displaystyle sum_{i=1}^n (frac {y_i – x_ibeta}{sigma_{ii}})frac{x_i}{sigma_{ii}}\
& = – displaystyle sum_{i=1}^n (frac {x_iy_i – x_i^2beta}{sigma_{ii}^2}) = 0
end{split}
\
=> displaystyle sum_{i=1}^n (frac {x_iy_i}{sigma_{ii}^2}) = displaystyle sum_{i=1}^n (frac {x_i^2beta}{sigma_{ii}^2}) \
=> X_c^TY_c = X_c^TX_cbeta => hat beta = (X_c^TX_c)^{-1}X_c^TY_c
end{equation}

記(X_c = (frac{x_1}{sigma_{11}}, frac{x_2}{sigma_{22}}, cdots, frac{x_n}{sigma_{nn}})^T, Y_c = (frac{y_1}{sigma_{11}}, frac{y_2}{sigma_{22}}, cdots, frac{y_n}{sigma_{nn}})^T)
對(G(beta, sigma_{ii}^2))求關於(sigma_{ii})的偏導有，以(sigma_{11})為例

begin{equation}
begin{split}
frac {partial G(beta, sigma_{ii}^2)}{partial sigma_{11}}
&= 0 + frac{1}{sigma_{11}} – frac{1}{2}2frac{(y_1 – x_1beta)^2}{sigma_{11}^3} \
& = frac{1}{sigma_{11}} – frac{(y_1 – x_1beta)^2}{sigma_{11}^3} = 0
end{split}
\
=> frac{1}{sigma_{11}} = frac{(y_1 – x_1beta)^2}{sigma_{11}^3}
=> hat sigma_{11}^2 = (y_1 – x_1beta)^2
end{equation}

類似地，也就有(hat sigma_{ii}^2 = (y_i – x_ibeta)^2)

3.3. 基於假設3

如果滿足假設3，(cov(varepsilon) = Sigma)，並加上一個正態性的假設，即有(varepsilon)滿足多維正態分布，(varepsilon sim N_n(0, sigma^2_{ii}))，那麼，(Y = Xbeta + varepsilon sim N_n(Xbeta, Sigma))，那麼有似然函數

begin{equation}
begin{split}
L(beta, Sigma Y, X) & =P(Y_1 = y_1, Y_2 = y_2, cdots, Y_n = y_n) = P(Y=y)
& = frac{1}{(sqrt{2pi})^n|Sigma|^{frac{1}{2}}}e ^{- frac{1}{2}(Y – Xbeta)^T sum^{-1} (Y – Xbeta)}
end{split}
end{equation}

其中，(|Sigma|)是(Sigma)的行列式
我們可以發現基於假設3下，似然函數的核同樣也發生了變化。那麼，基於這種假設，此時採用的損失函數應該是((y – xbeta)^T Sigma^{-1} (y – xbeta))。將似然函數對數化：
[ lnL(beta, Sigma, Y, X) = -nln(sqrt{2pi})- frac{1}{2}ln|Sigma| – frac{1}{2} (Y – Xbeta)^T (Sigma)^{-1} (Y – Xbeta) ]
記(G(beta, Sigma) = nln(sqrt{2pi}) + frac{1}{2}ln|Sigma| + frac{1}{2} (Y – Xbeta)^T Sigma^{-1} (Y – Xbeta))，令似然函數最大化，即是求(min hspace{1mm}G(beta, Sigma))
對(G(beta, Sigma))求關於(beta)的偏導有

begin{equation}
begin{split}
frac {partial G(beta, Sigma)}{partial beta}
&= 0 + 0 – frac{1}{2}2 X^T Sigma^{-1} (Y – Xbeta)\
& = X^T Sigma^{-1}(Xbeta – Y) = 0
end{split}
\
=> X^T Sigma^{-1}Xbeta = X^T Sigma^{-1}Y \
=> hat beta = (X^T Sigma^{-1} X)^{-1}X^T Sigma^{-1} Y
end{equation}

對(G(beta, Sigma))求關於(Sigma)的偏導有

begin{equation}
begin{split}
mathrm{d}G & = frac{1}{2}|Sigma|^{-1}d|Sigma| + frac{1}{2}(Y – Xbeta)^TSigma^{-1}dSigmaSigma^{-1}(Y-Xbeta)\
& = frac{1}{2}tr(Sigma^{-1}dSigma) + tr(frac{1}{2}(Y – Xbeta)^TSigma^{-1}dSigmaSigma^{-1}(Y-Xbeta))\
& = frac{1}{2}tr(Sigma^{-1}dSigma) + tr(frac{1}{2}Sigma^{-1}(Y-Xbeta)(Y – Xbeta)^TSigma^{-1}dSigma)\
& = tr(frac{1}{2}((Sigma^{-1} – Sigma^{-1}(Y-Xbeta)(Y – Xbeta)^TSigma^{-1}))dSigma)
end{split}
\
=> frac{partial G}{partial Sigma} = frac{1}{2}(Sigma^{-1} – Sigma^{-1}(Y-Xbeta)(Y – Xbeta)^TSigma^{-1})^T = 0\
=> Sigma^{-1}(Y-Xbeta)^T(Y – Xbeta)Sigma^{-1} = Sigma^{-1} \
=> hat Sigma = (Y-Xbeta)^T(Y – Xbeta)
end{equation}

4. 估計的優良性

在基於損失函數的估計中，我們討論了估計的優良性，那麼當換了假設和損失函數後，我們的估計是否還是具有優良的性質呢
對於假設3中，有
begin{equation}
begin{split}
L_3(beta) & = (Y – Xbeta)^T Sigma^{-1} (Y – Xbeta) \
& = (Y – Xbeta)^T Sigma^{-frac{1}{2}}Sigma^{-frac{1}{2}} (Y – Xbeta)\
& = (Sigma^{-frac{1}{2}}Y – Sigma^{-frac{1}{2}}Xbeta)^T(Sigma^{-frac{1}{2}}Y – Sigma^{-frac{1}{2}}Xbeta)\
& = (Y^* – X^* beta)^T(Y^* – X^* beta)
end{split}
end{equation}

其中，記(Sigma^{-frac{1}{2}}Y – Sigma^{-frac{1}{2}}Xbeta)為(Y^* – X^* beta)，由於(L_1(beta) = (Y-Xbeta)^T(Y – Xbeta))具有優良的性質，那麼(L_3(beta) = (Y^* – X^* beta)^T(Y^* – X^* beta))的估計也應該具有優良的性質。

5. 假設的場景

為什麼總假設線性模型符合假設1呢？實際上當我們基於假設2時，要估計的參數有n+p個(n個不同的(sigma_{ii})，和p個(beta_i))，而我們只有n個樣本，這樣就出現自由度不足的情況；而當我們基於假設3時，要估計的參數就更多了（有(frac{n^2 + n}{2}+p)個）。這樣基本很難做估計，即使是做出出來了，估計也不一定唯一。

面對這種情況，通常我們都要加大樣本量，像可以一個個體測m次，得到mn個數據，當然這時模型也變成了混合模型。因此，對於假設2和假設3，更加適合一些縱向數據（經濟上的面板數據、心理學上的重複測量數據、社會學上的多水平數據）

深入理解線性模型（二）—基於似然函數的估計

1. 引言

2. 關於(varepsilon)假設

3. 基於似然函數的估計

3.1 基於假設1

3.2 基於假設2

3.3. 基於假設3

4. 估計的優良性

5. 假設的場景

VirMach 便宜 VPS

QNews

深入理解線性模型（二）—基於似然函數的估計

1. 引言

2. 關於(varepsilon)假設

3. 基於似然函數的估計

3.1 基於假設1

3.2 基於假設2

3.3. 基於假設3

4. 估計的優良性

5. 假設的場景

分享此文：

Related Posts

利用nohup後台運行jar文件包程式

類圖畫法？這樣記

Beetlex服務框架之Webapi版本訪問控制

python-Debug、函數裝飾器

VirMach 便宜 VPS

QNews

熱門搜尋