深度学习的数学基础-《梯度下降法的基础:多变量函数的近似公式》
梯度下降法是确定神经网络的一种代表性的方法。在应用梯度下降法时,需要用到多变量函数的近似公式。
注:所考察的函数是充分光滑的函数。
单变量函数的近似公式
首先我们来考察单变量函数y=f(x)。如果x作微小的变化,那么函数值y将会怎样变化呢?答案就在导函数的定义式中。
在这个定义式中,∆x为“无限小的值”,不过若将它替换为“微小的值”,也不会造成很大的误差。因而,下式近似成立。
将上式变形,可以得到以下单变量函数的近似公式。
例1
当时,求x=0附近的近似公式。
将指数函数的求导公式f'(x)=ex,应用在式(1)中,如下所示。
取x=0,重新将∆x替换为x,可得。
这就是例1的解答。
下面的图像是将y=ex与y=1+x画在一张图上。在x=0附近两个函数的图像重叠在一起,由此可以确认例1的解答是正确的。
在x=0附近,与
的图像重叠。
多变量函数的近似公式
下面我们将单变量函数的近似公式(1)扩展到两个变量的函数。如果x、y作微小的变化,那么函数z=f(x, y)的值将会怎样变化呢?答案是以下的近似公式。∆x、∆y为微小的数。
例2
当时,求x=y=0附近的近似公式。
将指数函数的求导公式应用在式(2)中,可得
(∆x、∆y为微小的数)
取x=y=0,重新将∆x替换为x,将∆y替换为y,可得
以上就是例2的解答。下面我们试着化简式(2)。首先定义如下的∆z。
∆z=f(x+∆x, y+∆y)-f(x, y)
上式表示当x、y依次变化∆x、∆y时函数z=f(x, y)的变化,于是式(2)可以像下面这样简洁地表示。
通过这样的表示方式,就很容易将近似公式(2)进行推广。例如,变量z为三个变量w、x、y的函数时,近似公式如下所示。
近似公式的向量表示
三个变量的函数的近似公式(4)可以表示为如下两个向量的内积∇z·∆x的形式。
注:∇通常读作nabla。
我们可以很容易地想象,对于一般的n变量函数,近似公式也可以像这样表示为内积的形式。这个事实与下一节要考察的梯度下降法的原理有关。
备注泰勒展开式
将近似公式的一般化公式称为泰勒展开式。例如,在两个变量的情况下,这个公式如下所示。
在泰勒展开式中,取出前三项,就得到式(2)。
此外,我们约定