分類|深度學習(李宏毅)(二)
一、生成模型
假設有兩個類別
二、計算某一類樣本的高斯分布
根據已有的標籤數據可以求得每一類均值和方差的估計,由於該類樣本服從高斯分布,則其似然如下:
求解可得:
三、邏輯回歸(判別模型)推導
這裡的推導假設
後驗概率
另外
其中
同理
因為前面假設
則
在使用生成模型時需要估計
四、邏輯回歸的損失函數
1. 交叉熵損失函數
令
上式中
上式即為交叉熵損失函數:
接下來對參數進行求導:
所以
更新梯度
2. 均方誤差損失函數
接下來對參數進行求導:
由於上式紅色部分的存在會導致當
交叉熵與均方誤差的影像如下:
3. 總結
關於為什麼使用交叉熵而不使用均方誤差,總結如下:
-
神經網路中如果預測值與實際值的誤差越大,那麼在反向傳播訓練的過程中,各種參數調整的幅度就要更大,從而使訓練更快收斂,如果預測值與實際值的誤差小,各種參數調整的幅度就要小,從而減少震蕩。
-
使用平方誤差損失函數,誤差增大參數的梯度會增大,但是當誤差很大時,參數的梯度就會又減小了。
-
使用交叉熵損失是函數,誤差越大參數的梯度也越大,能夠快速收斂。
五、判別模型 vs 生成模型
判別模型會直接估計
生成模型會估計
一般情況下兩種
生成模型的優點:
-
因為生成模型有一個先驗的假設,所以需要更少的訓練數據,而且對雜訊有更高的魯棒性。
-
先驗分布和類別依賴的概率分布可以從不同的來源估計。