直观理解深度学习基本概念 | 小白入门深度学习

  • 2019 年 10 月 7 日
  • 笔记

想入门深度学习吗?从最基本的概念理解开始吧!

深度学习基本理念

深度学习的基本理念是:通过数学的方法,在不知道某个函数的原理的情况下,通过已知的x和y反向构建出这个函数。

类似你小时候买小浣熊干脆面及水浒人物卡,你在A小卖店总是买不到林冲但能买到宋江,B小卖店买不到宋江但能买到林冲,所以你估计出AB两小卖店上货渠道不同,但你并不知道他们具体怎么上货在哪上货的。

Cost函数

Cost,中文翻译为花费/消耗的意思,就是使用神经网络模拟出来的函数和真正的结果的差。

我们当然希望这个差越小越好,这个cost函数就作为调试参数的终极标准。所有的努力都是让cost函数最小。

梯度下降

二次函数y=x^2你知道他长什么样,那如果你想求这个函数最小值,你就沿着曲线往斜率越来越接近0的地方找,肯定能找到最小值。

但cost函数在高维空间,他长什么样咱们不知道也想象不出来,因为我们没有高维空间的生活经验。

在高维空间找cost函数最小值这件事,有点像在夜晚在伸手不见五指的大草原上找宝藏,你知道的唯一线索是宝藏藏在草原上的最低点。

你手上又没有电子地图,又没有照明设备看不清前方地形起伏,你怎么办?你只能一步一步、深一脚浅一脚的摸索,感觉这一脚踩在比上一脚低的地方,说明地势正在往低走,这样一步步到达最低点。

那你每走一步怎么判断选哪个方向?很简单,你知道你当前站的这个地方地势走向,你就沿着当前地点往低的地势走,即你在当前位置对w和b求偏导。

学习率

就是你在找宝藏的时候一步迈多远。

想象一下你身高10米,一步干出去5,6米,你这个步长很可能一步就错过最低点了。

而如果你步长太小,一次蹭一分米,估计草都秃了你也到不了目的地。所以要选取适当的学习率。

学习率衰减

这个更直观了,就是让学习率随着训练而慢慢变小。

因为可能越接近宝藏地点,那里的地势越是一个深坑,搞不好你一步就给迈过去了,这样永远发现不了,所以一开始大步流星,但后来就要一点一点蹭。

优化算法

优化算法有很多,比如Momemtum,RSProp,Adam等。这些算法都是为了帮助你更快的训练,即更快的到达函数最低点。

在实际训练过程中,你接近最低点的轨迹可能是非常杂乱无规律的,而不是一条平滑的快速接近最低点的曲线。

原因在于你每次都是在一个点上取最优的梯度,而忽略了大方向。

这些算法的思路很简单,就是对你之前走过的所有方向都取一个指数加权平均,告诉你别毛毛躁躁乱窜,而是决定走下一步时,要同时参考以前的方向,这样更可能平滑快速的接近目的地。