秋招常見問題匯總

一. 深度學習

參考[//blog.csdn.net/weixin_36558054/article/details/90214751]

sigmoid函數的主要特點（缺點）：

tanh的特點：

relu的特點：

在輸入為正數的時候（對於大多數輸入z空間來說），不存在梯度消失問題。
計算速度要快很多。ReLU函數只有線性關係，不管是前向傳播還是反向傳播，都比sigmod和tanh要快很多。（sigmod和tanh要計算指數，計算速度會比較慢）
缺點：當輸入為負時，梯度為0，會產生梯度消失問題。

Leaky ReLU:

參考：//www.cnblogs.com/kyrieng/p/8694705.html

資訊熵：H(X)被稱為隨機變數x的熵,它是表示隨機變數不確定的度量，是對所有可能發生的事件產生的資訊量的期望。

資訊熵是衡量隨機變數分布的混亂程度，是隨機分布各事件發生的資訊量的期望值，隨機變數的取值個數越多，狀態數也就越多，資訊熵就越大，混亂程度就越大。當隨機分布為均勻分布時，熵最大；資訊熵推廣到多維領域，則可得到聯合資訊熵；

交叉熵：訓練數據上模型學到的分布 P(model)和真實數據的分布P(real)越接近越好，所以我們可以使其相對熵最小。

相對熵 (Relative entropy)，也稱KL散度 (Kullback–Leibler divergence):相對熵可以用來衡量兩個概率分布之間的差異.

交叉熵和KL散度之間的關係：當 H(p)為常量時（註：在機器學習中，訓練數據分布是固定的），最小化相對熵DKL(p||q)等價於最小化交叉熵 H(p,q)也等價於最大化似然估計。