分類|深度學習(李宏毅)(二)

李宏毅老師深度學習系列2020

一、生成模型

假設有兩個類別其中為先驗分布,都是高斯分布,服從以下分布:

二、計算某一類樣本的高斯分布

根據已有的標籤數據可以求得每一類均值和方差的估計,由於該類樣本服從高斯分布,則其似然如下:


求解可得:


三、邏輯回歸(判別模型)推導

這裡的推導假設具有同樣的方差,且是對角線矩陣(即假設特徵之間相互獨立),證明如下:

後驗概率


即是sigmoid函數,其影像為:

另外,其中




其中

同理

因為前面假設,所以,



在使用生成模型時需要估計,現在可以直接估計

四、邏輯回歸的損失函數

1. 交叉熵損失函數
,則邏輯回歸的損失函數(即似然)為:


上式中

上式即為交叉熵損失函數:

接下來對參數進行求導:


所以
更新梯度

2. 均方誤差損失函數

接下來對參數進行求導:

由於上式紅色部分的存在會導致當,而當時也有

交叉熵與均方誤差的影像如下:

3. 總結
關於為什麼使用交叉熵而不使用均方誤差,總結如下:

  • 神經網路中如果預測值與實際值的誤差越大,那麼在反向傳播訓練的過程中,各種參數調整的幅度就要更大,從而使訓練更快收斂,如果預測值與實際值的誤差小,各種參數調整的幅度就要小,從而減少震蕩。

  • 使用平方誤差損失函數,誤差增大參數的梯度會增大,但是當誤差很大時,參數的梯度就會又減小了。

  • 使用交叉熵損失是函數,誤差越大參數的梯度也越大,能夠快速收斂。

五、判別模型 vs 生成模型

判別模型會直接估計
生成模型會估計,其中

一般情況下兩種不一定相同。

生成模型的優點:

  • 因為生成模型有一個先驗的假設,所以需要更少的訓練數據,而且對雜訊有更高的魯棒性。

  • 先驗分布和類別依賴的概率分布可以從不同的來源估計。

參考資料

ref:分類問題為什麼要使用交叉熵損失函數而不是均方誤差

Exit mobile version