深度学习的数学基础-《梯度下降法的基础：多变量函数的近似公式》 - ⎝⎛CodingNote.cc ⎞⎠

深度学习的数学基础-《梯度下降法的基础：多变量函数的近似公式》

2020 年 11 月 19 日
AI
深度神经网络

梯度下降法是确定神经网络的一种代表性的方法。在应用梯度下降法时，需要用到多变量函数的近似公式。

注：所考察的函数是充分光滑的函数。

单变量函数的近似公式

首先我们来考察单变量函数y=f(x)。如果x作微小的变化，那么函数值y将会怎样变化呢？答案就在导函数的定义式中。

在这个定义式中，∆x为“无限小的值”，不过若将它替换为“微小的值”，也不会造成很大的误差。因而，下式近似成立。

将上式变形，可以得到以下单变量函数的近似公式。

例1
当时，求x=0附近的近似公式。
将指数函数的求导公式f'(x)=ex，应用在式(1)中，如下所示。

取x=0，重新将∆x替换为x，可得。

这就是例1的解答。

下面的图像是将y=ex与y=1+x画在一张图上。在x=0附近两个函数的图像重叠在一起，由此可以确认例1的解答是正确的。

在x=0附近，与的图像重叠。

多变量函数的近似公式

下面我们将单变量函数的近似公式(1)扩展到两个变量的函数。如果x、y作微小的变化，那么函数z=f(x, y)的值将会怎样变化呢？答案是以下的近似公式。∆x、∆y为微小的数。

例2
当时，求x=y=0附近的近似公式。

将指数函数的求导公式应用在式(2)中，可得
（∆x、∆y为微小的数）
取x=y=0，重新将∆x替换为x，将∆y替换为y，可得

以上就是例2的解答。下面我们试着化简式(2)。首先定义如下的∆z。
∆z=f(x+∆x, y+∆y)-f(x, y)
上式表示当x、y依次变化∆x、∆y时函数z=f(x, y)的变化，于是式(2)可以像下面这样简洁地表示。

通过这样的表示方式，就很容易将近似公式(2)进行推广。例如，变量z为三个变量w、x、y的函数时，近似公式如下所示。

近似公式的向量表示

三个变量的函数的近似公式(4)可以表示为如下两个向量的内积∇z·∆x的形式。

注：∇通常读作nabla。

我们可以很容易地想象，对于一般的n变量函数，近似公式也可以像这样表示为内积的形式。这个事实与下一节要考察的梯度下降法的原理有关。

备注泰勒展开式
将近似公式的一般化公式称为泰勒展开式。例如，在两个变量的情况下，这个公式如下所示。

在泰勒展开式中，取出前三项，就得到式(2)。

此外，我们约定

Tags: 深度神经网络

Previous post

驾考作弊新招数：用无人机帮200多学员考科目二

Next post

无需依赖英语数据，100种语言互译，脸书推出“ M2M-100”模型