分類|深度學習(李宏毅)(二)
一、生成模型
假設有兩個類別,其中為先驗分布,都是高斯分布,服從以下分布:
二、計算某一類樣本的高斯分布
根據已有的標籤數據可以求得每一類均值和方差的估計,由於該類樣本服從高斯分布,則其似然如下:
求解可得:
三、邏輯回歸(判別模型)推導
這裡的推導假設具有同樣的方差,且是對角線矩陣(即假設特徵之間相互獨立),證明如下:
後驗概率
即是sigmoid函數,其影像為:
另外,其中
其中
同理
因為前面假設,所以,則
則
在使用生成模型時需要估計,現在可以直接估計和。
四、邏輯回歸的損失函數
1. 交叉熵損失函數
令,則邏輯回歸的損失函數(即似然)為:
上式中
上式即為交叉熵損失函數:
接下來對參數進行求導:
所以
更新梯度
2. 均方誤差損失函數
接下來對參數進行求導:
由於上式紅色部分的存在會導致當時,而當時也有。
交叉熵與均方誤差的影像如下:
3. 總結
關於為什麼使用交叉熵而不使用均方誤差,總結如下:
-
神經網路中如果預測值與實際值的誤差越大,那麼在反向傳播訓練的過程中,各種參數調整的幅度就要更大,從而使訓練更快收斂,如果預測值與實際值的誤差小,各種參數調整的幅度就要小,從而減少震蕩。
-
使用平方誤差損失函數,誤差增大參數的梯度會增大,但是當誤差很大時,參數的梯度就會又減小了。
-
使用交叉熵損失是函數,誤差越大參數的梯度也越大,能夠快速收斂。
五、判別模型 vs 生成模型
判別模型會直接估計。
生成模型會估計,其中
一般情況下兩種不一定相同。
生成模型的優點:
-
因為生成模型有一個先驗的假設,所以需要更少的訓練數據,而且對雜訊有更高的魯棒性。
-
先驗分布和類別依賴的概率分布可以從不同的來源估計。