秋招常見問題匯總
一. 深度學習
1. 常見的激活函數特點是什麼?比較tanh、sigmoid以及relu。
參考[//blog.csdn.net/weixin_36558054/article/details/90214751]
sigmoid函數的主要特點(缺點):
- 反向傳播時,很容易就會出現梯度消失的情況,從而無法完成深層網路的訓練;
- Sigmoids函數收斂緩慢。
- 函數的輸出不是以0為均值,將不便於下層的計算。
tanh的特點:
- tanh 是 0 均值的,彌補了sigmoid函數均值為0.5的缺點;在0附近有更大的梯度,使模型收斂速度更快。
- tanh函數的缺點:同sigmoid函數的第一個缺點一樣,當z很大或很小時,導數都接近於0,會導致梯度很小,權重更新緩慢,即梯度消失現象。
relu的特點:
- 在輸入為正數的時候(對於大多數輸入z空間來說),不存在梯度消失問題。
- 計算速度要快很多。ReLU函數只有線性關係,不管是前向傳播還是反向傳播,都比sigmod和tanh要快很多。(sigmod和tanh要計算指數,計算速度會比較慢)
- 缺點:當輸入為負時,梯度為0,會產生梯度消失問題。
Leaky ReLU:
- Leaky ReLU函數解決了ReLU函數在輸入為負的情況下產生的梯度消失問題。
二. 機器學習
1. 講一講熵
資訊熵:H(X)被稱為隨機變數x的熵,它是表示隨機變數不確定的度量,是對所有可能發生的事件產生的資訊量的期望。
資訊熵是衡量隨機變數分布的混亂程度,是隨機分布各事件發生的資訊量的期望值,隨機變數的取值個數越多,狀態數也就越多,資訊熵就越大,混亂程度就越大。當隨機分布為均勻分布時,熵最大;資訊熵推廣到多維領域,則可得到聯合資訊熵;
交叉熵:訓練數據上模型學到的分布 P(model)和真實數據的分布P(real)越接近越好,所以我們可以使其相對熵最小。
相對熵 (Relative entropy),也稱KL散度 (Kullback–Leibler divergence):相對熵可以用來衡量兩個概率分布之間的差異.
交叉熵和KL散度之間的關係:當 H(p)為常量時(註:在機器學習中,訓練數據分布是固定的),最小化相對熵DKL(p||q)等價於最小化交叉熵 H(p,q)也等價於最大化似然估計。