直观理解深度学习基本概念 | 小白入门深度学习

想入门深度学习吗？从最基本的概念理解开始吧！

深度学习基本理念

深度学习的基本理念是：通过数学的方法，在不知道某个函数的原理的情况下，通过已知的x和y反向构建出这个函数。

类似你小时候买小浣熊干脆面及水浒人物卡，你在A小卖店总是买不到林冲但能买到宋江，B小卖店买不到宋江但能买到林冲，所以你估计出AB两小卖店上货渠道不同，但你并不知道他们具体怎么上货在哪上货的。

Cost函数

Cost，中文翻译为花费/消耗的意思，就是使用神经网络模拟出来的函数和真正的结果的差。

我们当然希望这个差越小越好，这个cost函数就作为调试参数的终极标准。所有的努力都是让cost函数最小。

梯度下降

二次函数y=x^2你知道他长什么样，那如果你想求这个函数最小值，你就沿着曲线往斜率越来越接近0的地方找，肯定能找到最小值。

但cost函数在高维空间，他长什么样咱们不知道也想象不出来，因为我们没有高维空间的生活经验。

在高维空间找cost函数最小值这件事，有点像在夜晚在伸手不见五指的大草原上找宝藏，你知道的唯一线索是宝藏藏在草原上的最低点。

你手上又没有电子地图，又没有照明设备看不清前方地形起伏，你怎么办？你只能一步一步、深一脚浅一脚的摸索，感觉这一脚踩在比上一脚低的地方，说明地势正在往低走，这样一步步到达最低点。

那你每走一步怎么判断选哪个方向？很简单，你知道你当前站的这个地方地势走向，你就沿着当前地点往低的地势走，即你在当前位置对w和b求偏导。

学习率

就是你在找宝藏的时候一步迈多远。

想象一下你身高10米，一步干出去5，6米，你这个步长很可能一步就错过最低点了。

而如果你步长太小，一次蹭一分米，估计草都秃了你也到不了目的地。所以要选取适当的学习率。

学习率衰减

这个更直观了，就是让学习率随着训练而慢慢变小。

因为可能越接近宝藏地点，那里的地势越是一个深坑，搞不好你一步就给迈过去了，这样永远发现不了，所以一开始大步流星，但后来就要一点一点蹭。

优化算法

优化算法有很多，比如Momemtum，RSProp，Adam等。这些算法都是为了帮助你更快的训练，即更快的到达函数最低点。

在实际训练过程中，你接近最低点的轨迹可能是非常杂乱无规律的，而不是一条平滑的快速接近最低点的曲线。

原因在于你每次都是在一个点上取最优的梯度，而忽略了大方向。

这些算法的思路很简单，就是对你之前走过的所有方向都取一个指数加权平均，告诉你别毛毛躁躁乱窜，而是决定走下一步时，要同时参考以前的方向，这样更可能平滑快速的接近目的地。