統計推斷：極大似然估計、貝葉斯估計與方差偏差分解

1 參數估計、頻率學派和貝葉斯學派

1.1 極大似然估計

設\(\bm{X}=(X_1,\dots X_n)\)(這裡\(\bm{X}\)是隨機向量，代指樣本，注意機器學習里的樣本是單個數據點，統計學裡樣本是指所有數據的集合)是來自以\(f(\bm{x}|\bm{\theta})\)(\(\bm{\theta}=(\theta_1,\dots,\theta_k)\))為其密度函數或概率品質函數的總體的獨立同分布(iid)樣本。如果觀測到\(\bm{X}=\bm{x}\)，則我們定義一個稱之為似然函數的條件分布\(L(\bm{\bm{\theta}}|\bm{X}) = f(\bm{X}|\bm{\bm{\theta}})\)來表示當觀測\(\bm{X}=\bm{x}\)時，參數\(\bm{\bm{\theta}}\)的概率分布。

由於樣本是獨立同分布的，我們又有：

\[L(\bm{\bm{\theta}} | \bm{X})=f(\bm{X}|\bm{\bm{\theta}})=\Pi_{i=1}^nf(x_i | \bm{\bm{\theta}})
\]

故對於固定的隨機向量\(\bm{x}\)，令\(\hat{\bm{\theta}}(x)\)是參數\(\bm{\theta}\)的一個取值，它使得\(L(\bm{\theta}|\bm{X})\)做為\bm{\theta}的函數在該處達到最大值，那麼基於樣本\(\bm{X}\)的極大似然估計量(maximum likelihood esitimator 縮寫為 MLE)就是\(\hat{\bm{\theta}}(\bm{X})\)。

而要使似然函數\(L(\bm{\theta}|\bm{X})\)最大，顯然是一個最優化問題，如果似然函數是可微的（對於\(\theta_i\)），那麼 MLE 的可能值就是滿足

\[ ∇_\bm{\theta}L(\bm{\theta}|\bm{X})=0
\]

的解\((\theta_1, . . . , \theta_k)\)。注意該方程的解僅僅是 MLE 的可能的選擇，則是因為一階導數為\(0\)只是成為極值點的必要而非充分條件(還要加上我們前面所說的二階條件)。另外，一階導數的零點值處於函數定義域\(Ω\)內部的極值點上（即內點)。如果極值點出現在定義域\(Ω\)的邊界上，一階導數未必是\(0\)，因此我們必須對邊界進行核查以發現極值點。

一般情況下，使用微分法時，處理\(L(\bm{\theta}|\bm{X})\) 的自然對數 \(\text{log}(\bm{\theta}|\bm{X})\)(稱為對數似然函數，log likelihood)比直接處理\(L(\bm{\theta}|\bm{X})\)容易。這是因為 \(\text{log}\)是凹函數(加個負號就是凸函數)，且是\((0, ∞)\)上的嚴格增函數，這蘊含著\(L(\bm{\theta}|\bm{X})\)的極值點和\(\text{log}(\bm{\theta}|\bm{X})\)的極值點是一致的。

下面我們舉個例子來演示。下面這個例子非常重要，後面我們統計學習專欄中的Logistic回歸就基於這個例子的加強版。設\(\bm{X}=(X_1,…X_n\))是 iid 的，且服從參數為\(p\)的 Bernoulli(讀作伯努利)分布（搞忘了伯努利分布的同學可以參見《Python中的隨機取樣和概率分布(二)》)），於是似然函數定義為：

\[L(p|\bm{X}) = \Pi_{i=1}^np^{x_i}(1-p)^{1-x_i}
\]

儘管這個函數的微分並不是特別困難，但是對數似然函數

\[\begin{aligned}
\text{log}L(p|\bm{X})=&\sum_{i=1}^n\text{log}[p^{x_i}(1-p)^{1-x_i}]\\
=&\sum_{i=1}^{n}[\text{log}\space p^{x_i}+\text{log}\space (1-p)^{1-x_i}]
\end{aligned}
\]

的微分卻很簡單，我們令\(L(p|\bm{X})\)微分並令其結果為0，就得到解：

\[\hat{p} = \frac{\sum x_i}{n}
\]

這樣我們就證明了\(\sum X_i/n\)是\(p\)的MLE。

當然，一旦\(L(p|\bm{X})\)複雜起來，我們難以解析求出其最優解，那麼我們就要用到《數值最優化：一階和二階優化演算法(Pytorch實現)》所學到的梯度下降法、牛頓法等數值優化方法求其數值解（因為我們這里是使似然函數最大，最優化演算法是使函數最小，故使用時要給目標函數加個負號）。

1.2 貝葉斯估計

極大似然估計方法非常經典，但是還有一種參數估計方法與它有著顯著的區別，稱之為Bayes 方法。（注意Bayes方法是一種參數估計方法，和我們在《統計學習：樸素貝葉斯模型(Numpy實現)》所講的貝葉斯模型是兩碼事，大家不要搞混了）貝葉斯方法的某些方面對於統計學的其他方法還是相當有幫助的。

在經典的極大似然估計方法中，參數\(θ\)被認為是一個未知、但固定的量，從以\(θ\)為指標的總體中抽取一組隨機樣本\(X_1,…X_n\)，基於樣本的觀測值來獲得關於\(θ\)的知識，持這種觀點的人稱為頻率學派。在Bayes方法中，\(θ\)是一個變化可被一個概率分布描述的量，該分布叫做先驗分布(prior distribution)，這是一個主觀的分布，建立在試驗者的信念(belief) 上，而且見到抽樣數據之前就已經用公式制定好了(故而名為先驗)。然後從以\(θ\)為指標的總體中抽取一組樣本，先驗分布通過樣本資訊得到校正，持這種觀點的人稱為貝葉斯學派。這個被較正的先驗分布叫做後驗分布(posterior distribution)，這個校正工作稱為Bayes統計。

我們把先驗分布記為\(π(θ)\)而把樣本分布記為\(f(\bm{x}|θ)\)，那麼後驗分布是給定樣本\(\bm{x}\)的條件下\(θ\)的條件分布，由貝葉斯公式得：

\[π(θ|\bm{x})=f(\bm{x}|θ)π(θ)/m(\bm{x})
\]

這裡分母\(m(\bm{x})=\int f(\bm{x}|θ)π(θ)dθ\)是\(\bm{X}\)的邊緣分布。

注意這個後驗分布是一個條件分布，其條件建立在觀測樣本上。現在用這個後驗分布來做出關於\(θ\)的推斷，而\(θ\)仍被考慮為一個隨機的量，我們得到的是其概率分布，如果要給出一個模型，通常取後驗概率最大的模型。此外，後驗分布的均值可以被用作\(θ\)的點估計。

不同於極大似然估計採用數值優化求解，Bayes 估計因為涉及到積分，我們常採用蒙特卡洛等數值積分方法求解。

頻率學派雖然和貝葉斯學派對統計有著不同的認識，但可以簡單地把兩者聯系起來。我們令\(D\)表示數據，對於\(P(θ|D) = P(θ)P(D|θ)/P(D)\)假設先驗分布是均勻分布，取後驗概率最大，就能從貝葉斯估計得到極大似然估計。下面對貝葉斯估計和極大似然估計進行比較:

給定數據集\(D\)，極大似然估計：\(\hat{θ} = \underset{\theta}{\text{argmax}} P(D|θ)\)

給定數據集\(D\)，貝葉斯估計：\(\hat{P}(θ|D) =P(θ)P(D|θ)/P(D)\)

可以看出，前者是一個點估計，後者得到的是一個概率分布。

註：哲學上的先驗和後驗

人類對客觀世界的認識分為「先驗」和「後驗」。後驗是指人類通過經驗所產生的認識，而先驗是指人類在經驗之外通過自身的理性對客觀世界的認識。

過去哲學家在人類對客觀世界的認識是來自經驗還是來自理性產生了巨大的分歧，也分成了兩個學派。一個是理性主義，主要是以法國的笛卡爾、德國的萊布尼茲為代表，他們人類可以通過自身的絕對理性來認識世界。因為這個學派的哲學家主要來自歐洲大陸，故他們的學說被稱為「歐陸哲學」。另一個學派是經驗主義，主要是以英國的休謨為代表，他們認為人類只能通過經驗來認識世界。其中休謨還是個不可知論持有者，他認為人的經驗是不可靠的，這使得世界對人是不可知的。

現在看來，頻率學派和貝葉斯學派的爭執和當年經驗主義和理性主義的爭執何其相似！

絕大多數機器學習模型都需要通過學習數據集中「後驗」的知識來得到。而學術界有部分人認為人類的知識不全是通過後天經驗來得到的，比如音樂、文學、戲劇這些普遍需要先天的天賦或者靈感，被有些學者認為是「先驗」或者是「超驗」的。有趣的是，按照柏拉圖的洞穴人理論，人居於世如同洞穴人居於洞穴之中，就好比洞穴人只能通過洞穴壁上的投影近似認識洞穴外的事物，人類也只能通過物理世界的事物來近似認識抽象的理念世界，而不能完全認識它。柏拉圖認為，音樂、文學這類東西就是存在於抽象世界的理念世界的一部分，人類先天已經在抽象世界認識過，而在物理世界中音樂家、文學家只是在盡他們的努力去近似重現這些東西，而永遠不能完全重現。

顯然，按照柏拉圖觀點的推論，AI主要通過經驗進行學習，自然也無法認識抽象世界的「理式」。這也就為AI能在棋類、遊戲中戰勝人類，而在音樂、文學等領域難以超越人類提供了一種解釋。

2 估計參數方差和偏差

我們對概率分布的參數進行估計可以應用不僅一種方法，這就需要我們評估參數估計量品質的度量。

參數\(θ\)的估計量\(W\)的均方誤差(mean squared error，MSE，注意：這裡和我們前面最小二乘的均方誤差應用場景是不同的，但思想是相似的) 是由\(\mathbb{E}_θ(W-θ)^2\)定義的關於\(θ\)的函數。參數\(θ\)的點估計量\(W\)的偏差(bias)是指的\(W\)的期望值與\(θ\)之差，即\(\text{Bias}_θW=\mathbb{E}_θW-θ\)。一個估計量如果它的偏差(關於\(θ\))的恆等於 0，則稱為無偏的(unbiased)，它滿足\(\mathbb{E}_θW=θ\)對所有\(θ\)成立。同時，我們也定義估計量\(θ\)的方差為\(\text{Var}(W)\)，方差的平方根稱為標準差(standard error)，記做\(\text{SE}(W)\)。

3 方差-偏差分解和過擬合

這樣 MSE 乃至所有的參數估計由兩部分組成，其一度量該估計量的方差，其二度量它的偏差，即

\[\begin{aligned}
\text{MSE} &=\mathbb{E}_θ(W-θ)^2\\
&=\text{Var}_θW+(\mathbb{E}_θW-θ)^2 \\
&=\text{Var}_θW+(\text{Bias}_θW)^2
\end{aligned}
\]

一個好的估計量應該在方差和偏差兩項上綜合小。為求得一個良好 MSE 性質的估計量我們需要尋找方差和偏差兩者都得到控制的估計量。顯然無偏估計量對控制偏差再好不過。

對於一個無偏估計量，我們有：

\[\mathbb{E}_θ(W-θ)^2=\text{Var}_θW
\]

如果一個估計量是無偏的，它的 MSE 就是它的方差。

偏差和方差的關係與機器學習模型容量、欠擬合和過擬合的概念緊密相聯，用 MSE 度量泛化誤差（偏差和方差對於泛化誤差都是有意義的）時，增加容量會增加方差，降低偏差。如下圖所示，這被稱為泛化誤差的 U 型曲線。

引用

[1] Calder K. Statistical inference[J]. New York: Holt, 1953.
[2] 李航. 統計學習方法(第2版)[M]. 清華大學出版社, 2019.
[3] Ian Goodfellow，Yoshua Bengio等.深度學習[M].人民郵電出版社, 2017.
[4] 周志華. 機器學習[M]. 清華大學出版社, 2016.

Tags: 哲學機器學習概率論概率論與統計學統計學