分類|深度學習（李宏毅）（二）

2021 年 1 月 20 日
AI
其他, 文本分類, 深度學習

李宏毅老師深度學習系列2020

一、生成模型

假設有兩個類別，其中為先驗分布，都是高斯分布，服從以下分布：

二、計算某一類樣本的高斯分布

根據已有的標籤數據可以求得每一類均值和方差的估計，由於該類樣本服從高斯分布，則其似然如下：

求解可得：

三、邏輯回歸（判別模型）推導

這裡的推導假設具有同樣的方差，且是對角線矩陣（即假設特徵之間相互獨立），證明如下：

後驗概率

即是sigmoid函數，其影像為：

另外，其中

其中

同理

因為前面假設,所以,則

則

在使用生成模型時需要估計，現在可以直接估計和。

四、邏輯回歸的損失函數

1. 交叉熵損失函數
令，則邏輯回歸的損失函數（即似然）為：

上式中

上式即為交叉熵損失函數:

接下來對參數進行求導：

所以
更新梯度

2. 均方誤差損失函數

接下來對參數進行求導：

由於上式紅色部分的存在會導致當時，而當時也有。

交叉熵與均方誤差的影像如下：

3. 總結
關於為什麼使用交叉熵而不使用均方誤差，總結如下：

神經網路中如果預測值與實際值的誤差越大，那麼在反向傳播訓練的過程中，各種參數調整的幅度就要更大，從而使訓練更快收斂，如果預測值與實際值的誤差小，各種參數調整的幅度就要小，從而減少震蕩。
使用平方誤差損失函數，誤差增大參數的梯度會增大，但是當誤差很大時，參數的梯度就會又減小了。
使用交叉熵損失是函數，誤差越大參數的梯度也越大，能夠快速收斂。

五、判別模型 vs 生成模型

判別模型會直接估計。
生成模型會估計，其中

一般情況下兩種不一定相同。

生成模型的優點：

因為生成模型有一個先驗的假設，所以需要更少的訓練數據，而且對雜訊有更高的魯棒性。
先驗分布和類別依賴的概率分布可以從不同的來源估計。

參考資料

ref:分類問題為什麼要使用交叉熵損失函數而不是均方誤差

Tags: 其他文本分類深度學習

Previous post

深度網路訓練技巧|深度學習（李宏毅）（三）

Next post

Nacos集成學習入門

Exit mobile version