極大似然小結

2019 年 10 月 13 日
筆記

在機器學習中，我們經常要利用極大似然法近似數據整體的分布，本篇文章通過介紹極大似然法及其一些性質，旨在深入淺出地解釋清楚極大似然法。

0. 貝葉斯概率

首先看一下經典的貝葉斯公式：
$$
p(Y|X)=frac{p(X|Y)p(Y)}{p(X)}
$$

其中，$p(Y)$稱為先驗概率($prior$)，即根據先驗知識得出的關於變數$Y$的分布，$p(X|Y)$稱為似然函數（$likelihood$），$p(X)$為變數$X$的概率，$p(Y|X)$稱之為條件概率（給定變數$X$的情況下$Y$的概率，$posterior$，後驗概率）。

1. 似然函數

似然，即可能性；顧名思義，則似然函數就是關於可能性的函數了。在統計學中，它表示了模型參數的似然性，即作為統計模型中參數的函數。一般形式如下：

$$
L(omega)=p(D | omega) = p(x_1, x_2, cdots ,x_n| omega)
$$

其中，$D$表示樣本集${x_1,x_2,cdots, x_n}$, $omega$表示參數向量。

似然函數表示了在不同的參數向量$omega$下，觀測數據出現的可能性的大小，它是參數向量$omega$的函數。在某種意義上，我們可以認為其是條件概率的逆反$^{[1]}$。

在這裡利用Wikipedia$^{[1]}$中的例子簡要說明一下似然函數，同時也引出極大似然估計。

考慮優質一枚硬幣的實驗，通常來說，我們的硬幣都是「公平」（質地均勻）的，即正面向上（Head）的概率$p_H=0.5$，由此概率我們可以知道投擲若干次後各種結果出現的可能性（概率，或然性）。

例如，投擲硬幣兩次，兩次都為上的概率為0.25，利用條件概率表示，即：
$$
P(HH|p_h=0.5)=0.5^2=0.25
$$
如果一個硬幣並非質地均勻，那麼它可能是一枚「非公平」的。在統計學中，我們關注的是已知一系列投擲的結果時，關於硬幣投擲時正面朝上的可能性的資訊。我們可以建立一個統計模型：假設硬幣投出時會有$p_H$的概率正面朝上，則有$1-p_H$的概率反面朝上。這時通過觀察已發生的兩次投擲，條件概率可以改寫成似然函數：
$$
L(p_H)=P(HH|p_H=0.5)=0.25
$$

也就是說，對於取定的似然函數，在觀測到兩次投擲都是正面朝上時，$p_H$的似然性是0.25。注意，反之並不成立，即當似然函數為0.25時，不能推論出$p_H=0.25$。

如果考慮$p_H=0.6$，那似然函數也會改變：
$$
L(p_H)=P(HH|p_H=0.6)=0.36
$$
如圖所示，注意到似然函數的值變大了。這說明，如果參數$p_H$取值變成0.6的話，結果觀測到連續兩次正面朝上的概率比假設$p_H=0.5$時更大，也就是說，參數$p_H$取0.6要比取成0.5更有說服力，更為"合理"。

總之，似然函數的重要性不是它的具體取值，而是當參數變化時，函數到底變小還是變大。

對同一個似然函數，其所代表的模型中，某項參數值具有多種可能，但如果存在一個參數值，使得它的函數值最愛的話，那麼這個值就是這項參數最為「合理」的參數值。

在這個例子中，$p_H$取1時，似然函數達到最大值。也即是，當連續觀測到兩次正面朝上時，假設硬幣投擲時正面朝上的概率為1是最合理的。

在上述引用中，我們看到了一個極端的結論，即未來所有的投擲都會是正面向上，這是頻率派觀點下使用廣泛的一種方法，即極大似然法。在上面的觀點中（頻率派），$omega$被認為是一個固定的參數，它的值通過估計來確定。但是在貝葉斯派觀點中，只有一個數據集$D$(即實際觀測到的數據集)，參數的不確定性通過$omega$的概率分布來表達。貝葉斯的觀點是對先驗概率的包含是很自然的事情，包含先驗概率的貝葉斯方法將不會得到上述的極端結論。

另外還有兩點需要注意，第一，似然函數不是$omega$的概率分布，關於$omega$的積分並不一定等於1；第二，似然$ne$概率，概率（或然性）用於在已知一些參數的情況下預測接下來的結果，似然性則是在已知某些結果時，對有關參數進行估值。關於第二點，舉個例子，如果我有一枚硬幣，如果是質地均勻的（已知參數），那麼它出現正面朝上的概率為0.5（結果）；同樣地，如果一枚硬幣，我拋了100次，正面朝上52次（結果），那麼我認為硬幣十有八九是質地均勻的（估計參數）。

2. 極大似然估計（maximum likelihood estimation， MLE）

了解了似然函數，那麼極大似然估計是什麼就很好理解了，它是一種用來估計一個概率模型參數的方法。根據公式（2），我們一旦獲得一個數據集$D$，那我們就能求得一個關於$omega$的估計，極大似然估計會尋找一個最可能的值（此處的可能是最可能的$omega$，這個$omega$可以使出現取樣$D$的可能性最大化）。

從數學上來講，我們可以在$omega$的所有取值中，尋找一個值使得似然函數達到最大值，這種估計方法稱之為極大似然估計。極大似然估計是樣本不變時，關於$omega$的函數。極大似然估計不一定存在，也不一定唯一。

在第1節中預測硬幣的質地$omega$，是關於極大似然估計的一個經典例子。其他例子可以查看參考文獻$^{[2]}$。

現在我們看一下極大似然估計在正態分布中的應用：

現在假定我們有一個觀測的數據集$mathbf{x}=(x_1,cdots,x_N)^T$，表示標量變數$x$的N次觀測。我們假定各次觀測是獨立地從高斯分布中抽取，分布的均值$mu$和方差$sigma^2$未知，我們想根據數據集來確定這些參數。兩個獨立事件的聯合概率可以由各個事件的邊緣概率的乘積得到。我們的數據集$mathbf{x}$是獨立同分布的，因此給定$mu$和$sigma^2$，我們可以給出高斯分布的似然函數：
$$
p(mathbf{x}|mu,sigma^2)=prod_{n=1}^{N}mathcal{N}(x_n|mu,sigma^2)
$$

為了簡化分析和有助於數值運算,我們取似然函數的對數（最大化對數似然等價於最大化似然函數，很容易證明）:
$$
ln(mathbf x|mu,sigma^2)=-frac {1} {2sigma^2} sum_{n=1}^{N}(x_n-mu)^2-frac {N}{2}lnsigma^2-frac{N}{2}ln(2pi)
$$
關於$mu$，最大化對數似然函數，得到$mu$的最大似然解：
$$
mu_{ML}=frac {1}{N} sum_{n=1}^{N}x_n
$$
可看到解為樣本均值。同理，方差$sigma^2$的最大似然解為：
$$
sigma_{ML}^2=frac {1}{N} sum_{n=1}^{N}(x_n-mu_{ML})^2
$$
由此完成了正態分布的極大似然估計。

3. 極大似然的有偏性

極大似然估計方法求解參數有一定局限性$^{[3]}$，極大似然法除了會得出第1節中關於硬幣的極端情況外，還會出現一種情況，有偏估計，就是期望$ne$理想值。最大似然方法會系統化地低估分布的方差。下面進行證明：

均值的估計$mu_{ML}$的期望$E[mu_{ML}]$為:
$$
E(mu_{ML})=E(frac{1}{N} sum_{n=1}^{N}x_n)=frac {1}{N}E({sum_{n=1}^{N}x_n})=frac{1}{N}sum_{n=1}^{N}E(x_n)=mu
$$

方差的估計$sigma^2$的期望$E[sigma_{ML}^2]$為：
$$
E[sigma_{ML}^2]=E(frac {1}{N} sum_{n=1}^{N}(x_n-mu_{ML})^2)=E(frac{1}{N}sum_{n=1}^{N}x_n^2-mu_{ML}^2)=frac {1}{N}sum_{n=1}^{N}E(x_n^2)-E(mu_{ML}^2)
$$

然後求其後兩項，正態分布的二階矩為
$$
E(x_n^2)=mu^2+sigma^2
$$
而

$$
E(mu_{ML}^2)=E((frac{x_1+x_2+x_3+cdots+x_n}{n})^2)=frac{1}{n^2}(n^2mu^2+nsigma^2)
$$

故：
$$
E[sigma_{ML}^2]=frac{n-1}{n}sigma^2
$$
由此證明了極大似然的有偏性。其中公式（12）和公式（13）的證明可自行參考正態分布的基礎知識。

在這裡，PRML$^{[3]}$給出了更直觀地解釋，如下圖：

其中，綠色曲線表示真實高斯分布，數據點是根據此概率分布生成，三條紅色分別擬合了三個高斯概率分布，每個數據集包含了兩個藍色數據點，對三個數據集求平均，很明顯方差被低估了。因為它是相對樣本均值進行測量的，而不是相對真實的均值進行測量

4. 後記

極大似然作為機器學習中的一種最常用方法，深刻理解其含義是非常必要且有用的，應該像這對於理解概率論和一些常見的模型有著很大的幫助。當然，極大似然法還有一些性質，如泛函不變性，漸行線行為，限於時間精力和個人水平，沒有給出證明，讀者可自行參考維基百科$^{[2]}$。文章中大部分內容為總結和摘抄，共勉。

參考文獻：

https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0
https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1
《 Pattern Recognition and Machine Learning 》（即PRML）
《Theory of Point Estimation》
https://www.zhihu.com/question/35670078