秋招常见问题汇总

一. 深度学习

1. 常见的激活函数特点是什么?比较tanh、sigmoid以及relu。

参考[//blog.csdn.net/weixin_36558054/article/details/90214751]

sigmoid函数的主要特点(缺点):

  • 反向传播时,很容易就会出现梯度消失的情况,从而无法完成深层网络的训练;
  • Sigmoids函数收敛缓慢。
  • 函数的输出不是以0为均值,将不便于下层的计算。

tanh的特点:

  • tanh 是 0 均值的,弥补了sigmoid函数均值为0.5的缺点;在0附近有更大的梯度,使模型收敛速度更快。
  • tanh函数的缺点:同sigmoid函数的第一个缺点一样,当z很大或很小时,导数都接近于0,会导致梯度很小,权重更新缓慢,即梯度消失现象。

relu的特点:

  • 在输入为正数的时候(对于大多数输入z空间来说),不存在梯度消失问题。
  • 计算速度要快很多。ReLU函数只有线性关系,不管是前向传播还是反向传播,都比sigmod和tanh要快很多。(sigmod和tanh要计算指数,计算速度会比较慢)
  • 缺点:当输入为负时,梯度为0,会产生梯度消失问题。

Leaky ReLU:

  • Leaky ReLU函数解决了ReLU函数在输入为负的情况下产生的梯度消失问题。

二. 机器学习

1. 讲一讲熵

参考://www.cnblogs.com/kyrieng/p/8694705.html

信息熵:H(X)被称为随机变量x的熵,它是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。

信息熵是衡量随机变量分布的混乱程度,是随机分布各事件发生的信息量的期望值,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大;信息熵推广到多维领域,则可得到联合信息熵;

交叉熵:训练数据上模型学到的分布 P(model)和真实数据的分布P(real)越接近越好,所以我们可以使其相对熵最小。

相对熵 (Relative entropy),也称KL散度 (Kullback–Leibler divergence):相对熵可以用来衡量两个概率分布之间的差异.

交叉熵和KL散度之间的关系:当 H(p)为常量时(注:在机器学习中,训练数据分布是固定的),最小化相对熵DKL(p||q)等价于最小化交叉熵 H(p,q)也等价于最大化似然估计。