極大似然小結

  • 2019 年 10 月 13 日
  • 筆記

在機器學習中,我們經常要利用極大似然法近似數據整體的分布,本篇文章通過介紹極大似然法及其一些性質,旨在深入淺出地解釋清楚極大似然法。

0. 貝葉斯概率

首先看一下經典的貝葉斯公式:
$$
p(Y|X)=frac{p(X|Y)p(Y)}{p(X)}
$$

其中,$p(Y)$稱為先驗概率($prior$),即根據先驗知識得出的關於變數$Y$的分布,$p(X|Y)$稱為似然函數($likelihood$),$p(X)$為變數$X$的概率,$p(Y|X)$稱之為條件概率(給定變數$X$的情況下$Y$的概率,$posterior$,後驗概率)。

1. 似然函數

似然,即可能性;顧名思義,則似然函數就是關於可能性的函數了。在統計學中,它表示了模型參數的似然性,即作為統計模型中參數的函數。一般形式如下:

$$
L(omega)=p(D | omega) = p(x_1, x_2, cdots ,x_n| omega)
$$

其中,$D$表示樣本集${x_1,x_2,cdots, x_n}$,  $omega$表示參數向量。

似然函數表示了在不同的參數向量$omega$下,觀測數據出現的可能性的大小,它是參數向量$omega$的函數。在某種意義上,我們可以認為其是條件概率的逆反$^{[1]}$。

在這裡利用Wikipedia$^{[1]}$中的例子簡要說明一下似然函數,同時也引出極大似然估計。

考慮優質一枚硬幣的實驗,通常來說,我們的硬幣都是「公平」(質地均勻)的,即正面向上(Head)的概率$p_H=0.5$,由此概率我們可以知道投擲若干次後各種結果出現的可能性(概率,或然性)。

例如,投擲硬幣兩次,兩次都為上的概率為0.25,利用條件概率表示,即:
$$
P(HH|p_h=0.5)=0.5^2=0.25
$$
如果一個硬幣並非質地均勻,那麼它可能是一枚「非公平」的。在統計學中,我們關注的是已知一系列投擲的結果時,關於硬幣投擲時正面朝上的可能性的資訊。我們可以建立一個統計模型:假設硬幣投出時會有$p_H$的概率正面朝上,則有$1-p_H$的概率反面朝上。這時通過觀察已發生的兩次投擲,條件概率可以改寫成似然函數:
$$
L(p_H)=P(HH|p_H=0.5)=0.25
$$

也就是說,對於取定的似然函數,在觀測到兩次投擲都是正面朝上時,$p_H$的似然性是0.25。注意,反之並不成立,即當似然函數為0.25時,不能推論出$p_H=0.25$

如果考慮$p_H=0.6$,那似然函數也會改變:
$$
L(p_H)=P(HH|p_H=0.6)=0.36
$$
如圖所示,注意到似然函數的值變大了。這說明,如果參數$p_H$取值變成0.6的話,結果觀測到連續兩次正面朝上的概率比假設$p_H=0.5$時更大,也就是說,參數$p_H$取0.6要比取成0.5更有說服力,更為"合理"。

img

總之,似然函數的重要性不是它的具體取值,而是當參數變化時,函數到底變小還是變大

對同一個似然函數,其所代表的模型中,某項參數值具有多種可能,但如果存在一個參數值,使得它的函數值最愛的話,那麼這個值就是這項參數最為「合理」的參數值。

在這個例子中,$p_H$取1時,似然函數達到最大值。也即是,當連續觀測到兩次正面朝上時,假設硬幣投擲時正面朝上的概率為1是最合理的。

在上述引用中,我們看到了一個極端的結論,即未來所有的投擲都會是正面向上,這是頻率派觀點下使用廣泛的一種方法,即極大似然法。在上面的觀點中(頻率派),$omega$被認為是一個固定的參數,它的值通過估計來確定。但是在貝葉斯派觀點中,只有一個數據集$D$(即實際觀測到的數據集),參數的不確定性通過$omega$的概率分布來表達。貝葉斯的觀點是對先驗概率的包含是很自然的事情,包含先驗概率的貝葉斯方法將不會得到上述的極端結論。

另外還有兩點需要注意,第一,似然函數不是$omega$的概率分布,關於$omega$的積分並不一定等於1;第二,似然$ne$概率,概率(或然性)用於在已知一些參數的情況下預測接下來的結果,似然性則是在已知某些結果時,對有關參數進行估值。關於第二點,舉個例子,如果我有一枚硬幣,如果是質地均勻的(已知參數),那麼它出現正面朝上的概率為0.5(結果);同樣地,如果一枚硬幣,我拋了100次,正面朝上52次(結果),那麼我認為硬幣十有八九是質地均勻的(估計參數)。

2. 極大似然估計(maximum likelihood estimation, MLE)

了解了似然函數,那麼極大似然估計是什麼就很好理解了,它是一種用來估計一個概率模型參數的方法。根據公式(2),我們一旦獲得一個數據集$D$,那我們就能求得一個關於$omega$的估計,極大似然估計會尋找一個最可能的值(此處的可能是最可能的$omega$,這個$omega$可以使出現取樣$D$的可能性最大化)。

從數學上來講,我們可以在$omega$的所有取值中,尋找一個值使得似然函數達到最大值,這種估計方法稱之為極大似然估計。極大似然估計是樣本不變時,關於$omega$的函數。極大似然估計不一定存在,也不一定唯一。

在第1節中預測硬幣的質地$omega$,是關於極大似然估計的一個經典例子。其他例子可以查看參考文獻$^{[2]}$。

現在我們看一下極大似然估計在正態分布中的應用:

現在假定我們有一個觀測的數據集$mathbf{x}=(x_1,cdots,x_N)^T$,表示標量變數$x$的N次觀測。我們假定各次觀測是獨立地從高斯分布中抽取,分布的均值$mu$和方差$sigma^2$未知,我們想根據數據集來確定這些參數。兩個獨立事件的聯合概率可以由各個事件的邊緣概率的乘積得到。我們的數據集$mathbf{x}$是獨立同分布的,因此給定$mu$和$sigma^2$,我們可以給出高斯分布的似然函數:
$$
p(mathbf{x}|mu,sigma^2)=prod_{n=1}^{N}mathcal{N}(x_n|mu,sigma^2)
$$

為了簡化分析和有助於數值運算,我們取似然函數的對數(最大化對數似然等價於最大化似然函數,很容易證明):
$$
ln(mathbf x|mu,sigma^2)=-frac {1} {2sigma^2} sum_{n=1}^{N}(x_n-mu)^2-frac {N}{2}lnsigma^2-frac{N}{2}ln(2pi)
$$
關於$mu$,最大化對數似然函數,得到$mu$的最大似然解:
$$
mu_{ML}=frac {1}{N} sum_{n=1}^{N}x_n
$$
可看到解為樣本均值。同理,方差$sigma^2$的最大似然解為:
$$
sigma_{ML}^2=frac {1}{N} sum_{n=1}^{N}(x_n-mu_{ML})^2
$$
由此完成了正態分布的極大似然估計。

3. 極大似然的有偏性

極大似然估計方法求解參數有一定局限性$^{[3]}$,極大似然法除了會得出第1節中關於硬幣的極端情況外,還會出現一種情況,有偏估計,就是期望$ne$理想值。最大似然方法會系統化地低估分布的方差。下面進行證明:

均值的估計$mu_{ML}$的期望$E[mu_{ML}]$為:
$$
E(mu_{ML})=E(frac{1}{N} sum_{n=1}^{N}x_n)=frac {1}{N}E({sum_{n=1}^{N}x_n})=frac{1}{N}sum_{n=1}^{N}E(x_n)=mu
$$

方差的估計$sigma^2$的期望$E[sigma_{ML}^2]$為:
$$
E[sigma_{ML}^2]=E(frac {1}{N} sum_{n=1}^{N}(x_n-mu_{ML})^2)=E(frac{1}{N}sum_{n=1}^{N}x_n^2-mu_{ML}^2)=frac {1}{N}sum_{n=1}^{N}E(x_n^2)-E(mu_{ML}^2)
$$

然後求其後兩項,正態分布的二階矩為
$$
E(x_n^2)=mu^2+sigma^2
$$

$$
E(mu_{ML}^2)=E((frac{x_1+x_2+x_3+cdots+x_n}{n})^2)=frac{1}{n^2}(n^2mu^2+nsigma^2)
$$

故:
$$
E[sigma_{ML}^2]=frac{n-1}{n}sigma^2
$$
由此證明了極大似然的有偏性。其中公式(12)和公式(13)的證明可自行參考正態分布的基礎知識。

在這裡,PRML$^{[3]}$給出了更直觀地解釋,如下圖:

1570894486589

其中,綠色曲線表示真實高斯分布,數據點是根據此概率分布生成,三條紅色分別擬合了三個高斯概率分布,每個數據集包含了兩個藍色數據點,對三個數據集求平均,很明顯方差被低估了。因為它是相對樣本均值進行測量的,而不是相對真實的均值進行測量

4. 後記

極大似然作為機器學習中的一種最常用方法,深刻理解其含義是非常必要且有用的,應該像這對於理解概率論和一些常見的模型有著很大的幫助。當然,極大似然法還有一些性質,如泛函不變性漸行線行為,限於時間精力和個人水平,沒有給出證明,讀者可自行參考維基百科$^{[2]}$。文章中大部分內容為總結和摘抄,共勉。

參考文獻:

  1. https://zh.wikipedia.org/wiki/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0
  2. https://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1
  3. Pattern Recognition and Machine Learning 》(即PRML)
  4. 《Theory of Point Estimation》
  5. https://www.zhihu.com/question/35670078