【Deep Learning讀書筆記】深度學習中的概率論

2020 年 3 月 27 日
筆記

本文首發自公眾號：RAIS，期待你的關注。

前言

本系列文章為《Deep Learning》讀書筆記，可以參看原書一起閱讀，效果更佳。

概率論

機器學習中，往往需要大量處理不確定量，或者是隨機量，這與我們傳統所需要解決掉問題是大不一樣的，因此我們在機器學習中往往很難給出一個百分百的預測或者判斷，基於此種原因，較大的可能性往往就是所要達到的目標，概率論有用武之地了。

概念

離散型

概率質量函數：是一個數值，概率，(0leq P(x)leq 1)；
邊緣概率分佈：(P(X=x)=sum_{y} P(X=x, Y=y))
期望：(EX=sum_xP(x)f(x))

連續型

概率密度函數：是一個積分，(F_X(x)=int_{-infty}^xf_X(t)dt)；
邊緣概率分佈：(p(x)=int p(x,y)dy)
期望：(EX=int P(x)f(x)dx)

條件概率

[P(Y=y|X=x)=frac{P(Y=y,X=x)}{P(X=x)} ]

相互獨立

[P(X=x,Y=y)=P(X=x)P(Y=y) ]

條件獨立

[P(X=x,Y=y|Z=z)=P(X=x|Z=z)P(Y=y|Z=z) ]

方差

[D(X)=Var(X)=E{[X-E(X)]^2} ]

標準差

[sigma(X)=sqrt{D(X)} ]

協方差

[Cov(X,Y)=E{[X-E(X)][Y-E(Y)]} ]

常用分佈

分佈	分佈律或概率密度	期望	方差
(0-1)分佈	(P{X=k}=p^k(1-p)^{1-k},k=0,1)	(p)	(p(1-p))
二項分佈	(P{X=k}=left(begin{matrix}n\kend{matrix}right)p^k(1-p)^{n-k})	(np)	(np(1-p))
均勻分佈	(f(x)=begin{cases}frac{1}{b-1},,,,,,a<x<b\0,,,,,,,,,,,,其他end{cases})	(frac{a+b}{2})	(frac{(b-a)^2}{12})
幾何分佈	(P{X=k}=(1-p)^{k-1}p)	(frac{1}{p})	(frac{1-p}{p^2})
泊松分佈	(P{X=k}=frac{lambda^ke^{-lambda}}{k!})	(lambda)	(lambda)
指數分佈	(f(x)=begin{cases}frac{1}{theta}e^{-frac{x}{theta}},,,x>0\0,,,,,,,,,,,,,其他end{cases})	(theta)	(theta^2)
正態分佈	(f(x)=frac{1}{sqrt{2pi}sigma}e^{-frac{(x-mu)^2}{2sigma^2}})	(mu)	(sigma^2)

這裡需要特別說一下 正態分佈，也叫 高斯分佈。當我們先驗知識不足而不知道該選擇什麼樣的分佈時，正態分佈是比較好的默認分佈：第一，由 中心極限定理 知道，許多隨機變量在大量重複試驗時都會近似服從正態分佈；第二，在具有相同方差的所有可能分佈中，正態分佈在實數上具有最大的不確定性，因此我們認為正態分佈是對模型加入先驗知識最少的分佈。

以上這些是大學概率論中就已經介紹過的了，下面這些是大學較少接觸的，但是在機器學習的領域是很有用的。

範疇分佈（Multinoulli 分佈）

範疇分佈是指在具有 k 個不同狀態的單個離散型隨機變量上的分佈。什麼意思呢？我們對比來說這個問題：

分佈	英文名	試驗次數	結果可能數	例子
伯努利分佈	Bernoulli distribution	1	2	扔一次硬幣，正面向上概率
二項分佈	Binomial distribution	多次	2	扔多次硬幣，正面向上次數
範疇分佈	Multinoulli distribution	1	多個	扔一次骰子，3點向上概率
多項式分佈	Multinmial distribution	多次	多個	扔3次骰子，分別為1，2，3點

Laplace 分佈

拉普拉斯分佈。與指數分佈可以對比着來看，看圖：

Dirac delta 函數

狄拉克δ函數 或簡稱 δ函數，定義是在除 0 外其他點都為0，積分為 1 的函數。原點處無限高無限細，總面積為 1。

經驗分佈

是統計學中一種方法，簡要概括為：用樣本估計總體，總體是未知的，我們拿到了一些樣本，用這些樣本去估計總體。不懂可以查看：這裡

[F_n(x)=begin{cases}0,,,,,,,x<x_1\frac{k}{n},,,,,,,x_kleq x<x_{k+1},k=1,2,…,n-1\1,,,,,,,x_nleq xend{cases} ]

高斯混合模型

混合分佈的定義為將一些簡單的已有的概率分佈來定義新的概率分佈。其中非常強大且常見的混合模型是高斯混合模型。它的混合的組件是高斯分佈（正態分佈）。這個話題展開來說問題太多了，不適合在本處展開，但是要記住這個問題非常重要。

常用函數有用性質

logistic sigmoid 函數

[sigma(x)=frac{1}{1+e^{-x}}=frac{e^x}{e^x+1} ]

邏輯回歸函數。logistic 函數或者 sigmoid 函數對應的圖像是 sigmoid 曲線，是一條 S 形曲線。值域：(0, 1)，從這裡是不是就可以理解為什麼我們之前的電影評論是好是壞二分類問題的最後一層激活函數用 sigmoid 了。

softplus 函數

[zeta(x)=ln(1+e^x) ]

值域是 0 到正無窮。它的作用是用來產生正態分佈的參數，在處理 sigmoid 函數的表達式時，也會出現。

貝葉斯規則

[P(x|y)=frac{P(x)P(y|x)}{P(y)} ]

總結

如上這些內容是《Deep Learning》中涉及到的概率論相關的知識，內容有些分散，但是要記住，日後發現弄不懂的問題可以回來查看。這一篇就到這裡。

本文首發自公眾號：RAIS，期待你的關注。