什麼是貝葉斯定理?有什麼用?終於有人講明白了
- 2019 年 12 月 1 日
- 筆記
導讀:本文為大家詳細介紹概念學習中常見的貝葉斯理論。通過一個簡單示例,了解概率的基本定理之一。
作者:Jaime Zornoza
翻譯:李潔
來源:數據派THU(ID:DatapiTHU)
本文需要你有一些概率和統計的基本知識。如果你沒有,別怕,我已經收集了一系列我能找到的最好的資源來為你介紹這些主題,以便你閱讀,理解和充分享受文章內容。
在這篇文章中,我們將討論概率論中最著名和最常用的定理之一:貝葉斯定理。從未聽說過嗎? 那你就有福了!已經了解了嗎?那就繼續讀下去,用一個簡單例子來鞏固你的知識,以便你也可以用簡單的術語向別人解釋。
在以後的文章中,我們將學習一些更實用的貝葉斯定理的簡化,以及其他機器學習的概率方法,例如隱馬爾可夫模型。
我們開始吧!
01 概率介紹
在本節中,我列出了三個非常棒的簡潔的資源(主要是前兩個,第三個更廣泛一點),以提供理解本文所需要了解的概率基礎。不用擔心,這些概念非常簡單,只要快速閱讀一下你就肯定能完全理解它們。
如果你已經掌握了基本概率論,可以跳過此部分。
- 帶有簡明定義的中等難度的文章:內容涵蓋了理解這篇文章所需要的主要的概率論術語和其他的一些說明性的簡單例子。 https://medium.com/@laumannfelix/statistics-probability-fundamentals-1-1325ef72f3f
- 有趣的機器學習中的概率簡介:主要通過一個神秘但簡單的示例介紹了概率的主要術語。 http://www.mbmlbook.com/MurderMystery.html
- 哈佛大學的統計110課程:如果你不僅想學習基礎知識,還想更深入地了解統計的美好世界,這裡有更豐富的資源。 https://projects.iq.harvard.edu/stat110/home
好了,現在你可以繼續讀剩下的內容了,坐下來,放鬆並享受吧。
02 貝葉斯定理
誰是貝葉斯?
托馬斯·貝葉斯(Thomas Bayes,1701年-1761年)是英國神學家、數學家,皇家學會(世界上最古老的國家科學學會,也是英國促進科學研究的領先國家組織)會員。其他的科學家也加入了皇家學會, 例如牛頓,達爾文和法拉第。他提出了最重要的概率定理之一,並以他的名字命名:貝葉斯定理,或條件概率定理。

▲尊敬的托馬斯·貝葉斯的畫像,貝葉斯定理之父
03 定理:條件概率
為了解釋這個定理,我們將舉一個非常簡單的例子。假設你被診斷出患有非常罕見的疾病,這種病患的比例僅是人口的0.1%,即每千人中有1人。
你參加的檢查這種疾病的檢測能正確地找出99%的患者,將健康的人錯誤分類的幾率只有1%。
真是命中注定!醫生,這種病會致命嗎?
大多數人都會這麼問。然而,在這次測試之後,我們真正患這種疾病的幾率有多大呢?99%!可以開始整理我的遺物了。
基於這種想法,貝葉斯思想應該佔上風,因為它實際上離真實值非常遙遠。讓我們用貝葉斯定理來獲得一些觀點。
貝葉斯定理,或之前所說的條件概率定理,是用來計算某一事件(E)已經發生(例如在測試中被診斷為陽性)時假設(H)為真的概率。計算公式如下:

▲貝葉斯的條件概率公式
等號左邊的P(H|E)項是已經在疾病測試中診斷為陽性(E)的條件下患病(H)的概率,這是我們實際想要計算的。概率項中的豎線(|)表示條件概率(即, B的條件下A的概率表示為P(A|B))。
假如假設為真,則右邊分子的左項P(E|H)是事件的概率。在示例中,就是我們患有這種疾病的情況下,在測試中被診斷為陽性的可能性。
旁邊的P(H)項是在任何事件發生之前假設的先驗概率。這是在進行任何檢查之前患上疾病的可能性。
最後,分母上的P(E)項是事件的概率,即被診斷為疾病陽性的概率。該項可以進一步分解為兩個較小項的和:患病且檢測為陽性和不患病且檢測為陽性。

▲解構了測試結果為陽性的概率
在這個公式中,P(〜H)表示沒有疾病的先驗概率,其中〜表示否定。 下圖描述了條件概率的整體計算中涉及的每一項:

▲描述貝葉斯定理公式所涉及的每一項
對於我們來說,請記住,假設H患有疾病,事件E為在此類疾病的測試中被診斷為陽性。
如果使用我們見過的第一個公式(用於計算患病並被診斷為陽性的條件概率的完整公式),分解分母並插入數字,我們將得到以下算式:

▲條件概率的計算
0.99來自於有疾病被診斷出陽性的概率99%,0.001是患病的幾率1/1000,0.999是未患病的概率,0.01是即使沒有患病也被診斷為陽性的可能性。計算的最終結果是:

▲計算結果
9%!我們得這種病的幾率只有9%!「這怎麼可能呢?」你可能在問自己。魔法嗎?不,我的朋友們,這不是魔法,這只是概率:應用數學的常識。
像丹尼爾·卡尼曼(Daniel Kahneman)在《思考,快與慢》中所描述的那樣,人的大腦很難估計和計算概率,就像前面的示例所展示的一樣,所以我們應該警惕直覺的慣性思考,後退一步,使用所能用的概率工具。
現在想像一下,在第一次測試被診斷為陽性後,我們決定在另一個不同的診所做另一次相同條件的測試來複查結果,不幸的是我們再次得到了陽性的診斷,這說明第二次測試也表明我們患有這種疾病。
現在患病的實際概率是多少?我們可以使用與之前完全相同的公式,只是將最初的先驗概率(患病幾率為0.1%)替換為之前的後驗概率(在一次檢測中被診斷為陽性的幾率為9%),以及其他項。
如果我們處理得到的數字:

▲計算第二次檢驗為陽性後的條件概率

▲第二次檢驗為陽性的結果
現在我們實際患此病的幾率變高了,為91%。儘管情況看起來很糟糕,但在兩次檢測呈陽性後,我們仍然不能完全確定我們是否患有這種疾病。確定性似乎不存在於概率的世界。
04 定理背後的事實
這個著名定理背後的事實是,我們永遠不可能完全確定這個世界,因為它是一個不斷變化的存在,變化是現實的本質。然而,我們可以做的是,就像這個定理所表達的,隨著我們獲得越來越多的數據或證據,我們對現實的認識有了更新和提高。
這可以用一個非常簡單的例子來說明。想像一下這樣的情景:你在一個方形的花園邊緣,坐在椅子上,朝花園外看。在對面,躺著一個僕人,他把一個藍色的球扔進了廣場。在那之後,他不斷地把其他黃色的球扔進正方形,並告訴你它們相對於最初的藍球的位置。

隨著越來越多的黃球落地,並且你知道它們相對於第一個藍球的落地位置,逐漸增多了對藍球的可能位置的了解,而排除了花園的某些部分:隨著我們獲得更多證據(更多的黃球)我們更新了知識(藍球的位置)。
在上面的示例中,僅拋出了三個黃球,我們已經可以開始確定某個想法,即藍球位於花園左上角的某個位置。
當貝葉斯第一次提出該定理時,他並沒有一開始就發表它,他認為這沒有什麼特別的,這個定理所在的論文是在他死後發現的。
如今,貝葉斯定理不僅是現代概率的基礎之一,還在智慧系統中使用繁多,例如垃圾郵件過濾器、文本處理,甚至於與文本處理無關的場景。

就這些,我希望你喜歡這個帖子。你可以在LinkedIn上和我聯繫,或者在Twitter上關注我@jaimezorno。另外,你也可以看看我其他關於數據科學和機器學習的文章。祝你閱讀愉快!
原文標題:Probability Learning I: Bayes' Theorem
原文鏈接:
https://www.kdnuggets.com/2019/10/probability-learning-bayes-theorem.html
關於譯者:李潔,香港科技大學電信學碩士畢業生,現任北京師範大學香港浸會大學聯合學院 數據科學系助教。喜歡數據科學,喜歡閱讀,喜歡研究程式碼和做手工。希望一直保持學習的狀態和對生活的熱愛,每天都快樂而有進步~
有話要說?
Q: 你在哪些案例中應用了貝葉斯定理?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯繫:[email protected]