緒論|機器學習推導系列(一)
一、頻率派 vs 貝葉斯派
機器學習主要解決從數據中獲取其概率分布的問題,通過一些機器學習的演算法可以從大量數據中找到一定的規律,從而建立模型來解決實際問題,因此機器學習中主要使用數據來求解其參數:
data:X
X=
\left[
\begin{matrix}
x_1 & x_2 & \cdots & x_N\\
\end{matrix}
\right]^T_{N \times p}
=
\left[
\begin{matrix}
x_{11} & x_{12} & \cdots & x_{1p}\\
x_{21} & x_{22} & \cdots & x_{2p}\\
\vdots & \vdots & \ddots & \vdots \\
x_{N1} & x_{N2} & \cdots & x_{Np}\\
\end{matrix}
\right]_{N \times p}
parameter: \theta
頻率派認為參數\theta是一個固定的常數(constant),而數據X是隨機變數,而貝葉斯派認為參數\theta是隨機變數(random variable),其服從某個概率分布P(\theta),這個概率分布稱為先驗。
二、頻率派
頻率派認為參數\theta是一個固定的常數(constant),頻率派常用的求解方法為極大似然估計法:
極大似然估計:
\theta_{MLE}=\underset{\theta}{argmax}logP(X|\theta),其中L(\theta)=logP(X|\theta)。
頻率派的求解步驟為:1.建立模型;2.定義損失函數;3.最優化損失函數。
三、貝葉斯派
貝葉斯學派認為參數\theta是一個隨機變數(random variable),其擁有一個概率分布P(X),稱為先驗分布,在取樣結果為X時,其後驗概率:
\underset{posterior} {\underbrace{P(\theta |X)}}=\frac{\overset{likelihood}{\overbrace{P(X|\theta)}}\overset{prior}{\overbrace{P(\theta )}}}{P(X)} \\其中P(X)=\int_{\theta }P(X|\theta )P(\theta )\mathrm{d}\theta \\所以{P(\theta |X)}\propto P(X|\theta)P(\theta )
最大後驗估計MAP:
\theta _{MAP}=\underset{\theta}{argmax}P(\theta|X)=\underset{\theta}{argmax}P(X|\theta)P(\theta )