先驗分布與後驗分布,認真看看這篇
- 2019 年 10 月 8 日
- 筆記
此文主要參考 huaxiaozhuan.com
編輯: Python與演算法社區 公眾號
在貝葉斯學派中,先驗分布+數據(似然)= 後驗分布 。例如:假設需要識別一大箱蘋果中的好蘋果、壞蘋果的概率。
在這裡:如果不使用先驗分布,僅僅清點這箱蘋果中的好壞,則得到的分布只能代表這一箱蘋果。採用了先驗分布之後得到的分布,可以認為是所有箱子里的蘋果的分布。當採用先驗分布時:給出的好、壞蘋果的個數(也就是頻數)越大,則先驗分布越佔主導地位。
根據你對蘋果好、壞的認知,給出先驗分布為:50個好蘋果和50個壞蘋果。現在你拿出10個蘋果,發現有:8個好蘋果,2個壞蘋果。根據數據,你得到後驗分布為:58個好蘋果,52個壞蘋果。再拿出10個蘋果,發現有:9個好蘋果,1個壞蘋果。根據數據,你得到後驗分布為:67個好蘋果,53個壞蘋果。這樣不斷重複下去,不斷更新後驗分布。當一箱蘋果清點完畢,則得到了最終的後驗分布。
假設好蘋果的概率為 P,則抽取 N 個蘋果中,好蘋果個數為 K 個的概率為一個二項分布:

現在的問題是:好蘋果的概率 p 不再固定,而是服從一個分布。假設好蘋果的概率 p 的先驗分布為貝塔分布:

則後驗概率為:

歸一化之後,得到後驗概率為:

好蘋果概率 p 的先驗分布的期望為:

好蘋果概率 p 的後驗分布的期望為:

根據上述例子所述:
- 好蘋果的先驗概率的期望為:

- 進行第一輪數據校驗之後,好蘋果的後驗概率的期望為:

如果將 α 視為先驗的好蘋果數量, β 視為先驗的壞蘋果數量, N 表示箱子中蘋果的數量, k 表示箱子中的好蘋果數量(相應的, N-k 就是箱子中壞蘋果的數量)。則:好蘋果的先驗概率分布的期望、後驗概率分布的期望符合人們的生活經驗。
這裡使用先驗分布和後驗分布的期望,因為 p 是一個隨機變數。若想通過一個數值來刻畫好蘋果的可能性,則用期望較好。
附註
貝塔分布是定義在 (0,1) 之間的連續概率分布。如果隨機變數 X 服從貝塔分布,則其概率密度函數為:


記做

眾數為:

期望為:

方差為:


文章參考:
http://huaxiaozhuan.com/%E6%95%B0%E5%AD%A6%E5%9F%BA%E7%A1%80/chapters/2_probability.html