深度学习的数学基础-神经网络的数学基础

神经网络所需的函数

一次函数

在数学函数中最基本、最重要的就是一次函数。它在神经网络的世界理也同样重要。这个函数可以用下式表示。
image.png
一次函数y=ax+b的图像为直线。
a称为斜率,b称为截距

当两个变量x、y满足式(1)的关系时,称变量y和变量x是一次函数关系

一次函数的图像如下图的直线所示。
image.png

例1

一次函数y=2x+1的图像如下图所示,截距为1,斜率为2.
image.png

以上是一个自变量的情形。这个一次函数关系也同样适用于多个自变量的情形。例如,有两个变量x1、x2,当它们满足下式的关系时,称y和x1、x2是一次函数关系

y=ax1+bx2+c(a、b、c为常数,a≠0, b≠0)

后面会讲到,在神经网络中,神经单元的加权输入可以表示为一次函数关系。例如,神经单元有三个来自下层的输入,其加权输入z的式子如下所示。
z=w1x1+w2x2+w3x3+b

如果把作为参数的权重w1、w2、w3与偏置b看作常数,那么加权输入z和x1、x2、x3是一次函数关系。另外,在神经单元的输入x1、x2、x3作为数据值确定了的情况下,加权输入z和权重w1、w2、w3以及偏置b是一次函数关系。用误差反向传播法推导计算式时,这些一次函数关系使得计算可以简单地进行。

问题1

作出一次函数y=-2x-1的图像。
image.png
解如右图所示,截距是-1,斜率是-2。

备注 自变量

有两个变量x和y,如果对每个x都有唯一确定的y与它对应,则称y是x的函数,用y=f(x)表示。此时,称x为自变量,y为因变量

二次函数

在数学函数中,二次函数与一次函数同样重要。本系列博文中的代价函数使用了二次函数。二次函数由下式表示。
image.png

二次函数的图像是把物体抛出去时物体所经过的轨迹,也就是抛物线(下图)。这个图像中重要的一点是,a为正数时图像向下凸,从而存在最小值。这个性质是后面讲到的最小二乘法的基础。
image.png

例2

二次函数y=(x-1)2+2的图像如下图所示。从图像中可以看到,当x=1时,函数取得最小值2。
image.png
以上考察了一个自变量的情形。这里考察的性质在推广到多个自变量的情形时也是不变的。例如,有两个自变量x1、x2时,称下面的函数为关于x1、x2的二次函数。

例3

image.png
这里,a、b、c、p、q、r为常数,a≠0, c≠0。
对于有两个以上的自变量的情形,就难以在纸面上画出图像了。例如,只能像右图那样画出式(3)的图像。
image.png
实际的神经网络需要处理更多变量的二次函数。不过,记住这里考察的二次函数的图像后,在理解多变量的情形时应该不难。

注:式(3)所示的图像并不仅限于上图所示的抛物面。

问题2

试作出二次函数y=2×2的图像。
解图像如下图所示。
image.png

单位阶跃函数

神经网络的原型模型是用单位阶跃函数作为激活函数的(详见《激活函数:将神经元的工作一般化》),它的图像如下所示。
image.png
单位阶跃函数的图像。在应用数学的世界里,这个函数活跃于线性响应理论之中。

我们用式子来表示单位阶跃函数。
image.png
从这个式子我们可以知道,单位阶跃函数在原点处不连续,也就是在原点不可导。由于这个不可导的性质,单位阶跃函数不能成为主要的激活函数。

问题3

在单位阶跃函数u(x)中,求下面的值。
① u(-1) ② u(1) ③ u(0)

解 答案依次为0、1、1。

指数函数与Sigmoid函数

具有以下形状的函数称为指数函数
y=ax(a为正的常数,a≠1)
常数a称为指数函数的底数纳皮尔数e是一个特别重要的底数,其近似值为e=2.71828 …
这个指数函数包含在以下的Sigmoid函数σ(x)的分母中。Sigmoid函数是神经网络中具有代表性的激活函数。
image.png

注:exp是exponential function(指数函数)的简略记法,exp(x)表示指数函数ex。

这个函数的图像如下图所示。可以看出,这个函数是光滑的,也就是处处可导。函数的取值在0和1之间,因此函数值可以用概率来解释。
image.png
Sigmoid函数的图像。

问题4

在Sigmoid函数σ(x)中,求以下函数值的近似值。
① σ(-1) ② σ(0) ③ σ(1)

解取e=2.7作为近似值,答案依次为0.27、0.5、0.73。

正态分布的概率密度函数

用计算机实际确定神经网络时,必须设定权重和偏置的初始值。求初始值时,**正态分布(normal distribution)**是一个有用的工具。使用服从这个分布的随机数,容易取得好的结果。

正态分布是服从以下概率密度函数f(x)的概率分布。
image.png

其中常数µ称为期望值(平均值), σ称为标准差。它的图像如下图所示,由于形状像教堂的钟,所以称为钟形曲线。

image.png

期望值为μ,标准差为σ的正态分布。另外,这个σ与Sigmoid函数名σ的含义不同。

问题5

试作出期望值µ为0、标准差σ为1的正态分布的概率密度函数的图像。

解 如下图所示,这个正态分布称为标准正态分布

image.png
*μ=0,σ=1的正态分布概率密度函数的图像。*

按照正态分布产生的随机数称为正态分布随机数。在神经网络的计算中,经常用到正态分布随机数作为初始值。

备注Excel中的正态分布随机数
在Excel中,可以像下面这样产生正态分布随机数。
=NORM.INV(RAND(), µ, σ) (µ、σ是期望值和标准差)