深度学习的数学基础-《梯度下降法的基础:多变量函数的近似公式》

梯度下降法是确定神经网络的一种代表性的方法。在应用梯度下降法时,需要用到多变量函数的近似公式。

注:所考察的函数是充分光滑的函数。

单变量函数的近似公式

首先我们来考察单变量函数y=f(x)。如果x作微小的变化,那么函数值y将会怎样变化呢?答案就在导函数的定义式中。
image.png

在这个定义式中,∆x为“无限小的值”,不过若将它替换为“微小的值”,也不会造成很大的误差。因而,下式近似成立。
image.png

将上式变形,可以得到以下单变量函数的近似公式
image.png

例1
image.png时,求x=0附近的近似公式。
将指数函数的求导公式f'(x)=ex,应用在式(1)中,如下所示。
image.png
取x=0,重新将∆x替换为x,可得image.png

这就是例1的解答。

下面的图像是将y=ex与y=1+x画在一张图上。在x=0附近两个函数的图像重叠在一起,由此可以确认例1的解答是正确的。
image.png

在x=0附近,image.pngimage.png的图像重叠。

多变量函数的近似公式

下面我们将单变量函数的近似公式(1)扩展到两个变量的函数。如果x、y作微小的变化,那么函数z=f(x, y)的值将会怎样变化呢?答案是以下的近似公式。∆x、∆y为微小的数。
image.png

例2
image.png时,求x=y=0附近的近似公式。

将指数函数的求导公式image.png应用在式(2)中,可得
image.png(∆x、∆y为微小的数)
取x=y=0,重新将∆x替换为x,将∆y替换为y,可得
image.png
以上就是例2的解答。下面我们试着化简式(2)。首先定义如下的∆z。
∆z=f(x+∆x, y+∆y)-f(x, y)
上式表示当x、y依次变化∆x、∆y时函数z=f(x, y)的变化,于是式(2)可以像下面这样简洁地表示。
image.png
通过这样的表示方式,就很容易将近似公式(2)进行推广。例如,变量z为三个变量w、x、y的函数时,近似公式如下所示。
image.png
近似公式的向量表示

三个变量的函数的近似公式(4)可以表示为如下两个向量的内积∇z·∆x的形式。
image.png
注:∇通常读作nabla。

我们可以很容易地想象,对于一般的n变量函数,近似公式也可以像这样表示为内积的形式。这个事实与下一节要考察的梯度下降法的原理有关。

备注泰勒展开式
将近似公式的一般化公式称为泰勒展开式。例如,在两个变量的情况下,这个公式如下所示。
image.png

在泰勒展开式中,取出前三项,就得到式(2)。

此外,我们约定
image.png