深度学习的数学基础-神经网络的数学基础 - ⎝⎛CodingNote.cc ⎞⎠

深度学习的数学基础-神经网络的数学基础

2020 年 11 月 6 日
AI
深度神经网络

神经网络所需的函数

一次函数

在数学函数中最基本、最重要的就是一次函数。它在神经网络的世界理也同样重要。这个函数可以用下式表示。

一次函数y=ax+b的图像为直线。
a称为斜率，b称为截距。

当两个变量x、y满足式（1）的关系时，称变量y和变量x是一次函数关系。

一次函数的图像如下图的直线所示。

例1

一次函数y=2x+1的图像如下图所示，截距为1，斜率为2.

以上是一个自变量的情形。这个一次函数关系也同样适用于多个自变量的情形。例如，有两个变量x1、x2，当它们满足下式的关系时，称y和x1、x2是一次函数关系。

y=ax1+bx2+c（a、b、c为常数，a≠0, b≠0）

后面会讲到，在神经网络中，神经单元的加权输入可以表示为一次函数关系。例如，神经单元有三个来自下层的输入，其加权输入z的式子如下所示。
z=w1x1+w2x2+w3x3+b

如果把作为参数的权重w1、w2、w3与偏置b看作常数，那么加权输入z和x1、x2、x3是一次函数关系。另外，在神经单元的输入x1、x2、x3作为数据值确定了的情况下，加权输入z和权重w1、w2、w3以及偏置b是一次函数关系。用误差反向传播法推导计算式时，这些一次函数关系使得计算可以简单地进行。

问题1

作出一次函数y=-2x-1的图像。

解如右图所示，截距是-1，斜率是-2。

备注自变量

有两个变量x和y，如果对每个x都有唯一确定的y与它对应，则称y是x的函数，用y=f(x)表示。此时，称x为自变量，y为因变量。

二次函数

在数学函数中，二次函数与一次函数同样重要。本系列博文中的代价函数使用了二次函数。二次函数由下式表示。

二次函数的图像是把物体抛出去时物体所经过的轨迹，也就是抛物线（下图）。这个图像中重要的一点是，a为正数时图像向下凸，从而存在最小值。这个性质是后面讲到的最小二乘法的基础。

例2

二次函数y=(x-1)2+2的图像如下图所示。从图像中可以看到，当x=1时，函数取得最小值2。

以上考察了一个自变量的情形。这里考察的性质在推广到多个自变量的情形时也是不变的。例如，有两个自变量x1、x2时，称下面的函数为关于x1、x2的二次函数。

例3

这里，a、b、c、p、q、r为常数，a≠0, c≠0。
对于有两个以上的自变量的情形，就难以在纸面上画出图像了。例如，只能像右图那样画出式(3)的图像。

实际的神经网络需要处理更多变量的二次函数。不过，记住这里考察的二次函数的图像后，在理解多变量的情形时应该不难。

注：式(3)所示的图像并不仅限于上图所示的抛物面。

问题2

试作出二次函数y=2×2的图像。
解图像如下图所示。

单位阶跃函数

神经网络的原型模型是用单位阶跃函数作为激活函数的（详见《激活函数：将神经元的工作一般化》），它的图像如下所示。

单位阶跃函数的图像。在应用数学的世界里，这个函数活跃于线性响应理论之中。

我们用式子来表示单位阶跃函数。

从这个式子我们可以知道，单位阶跃函数在原点处不连续，也就是在原点不可导。由于这个不可导的性质，单位阶跃函数不能成为主要的激活函数。

问题3

在单位阶跃函数u(x)中，求下面的值。
① u(-1) ② u(1) ③ u(0)

解答案依次为0、1、1。

指数函数与Sigmoid函数

具有以下形状的函数称为指数函数。
y=ax（a为正的常数，a≠1）
常数a称为指数函数的底数。纳皮尔数e是一个特别重要的底数，其近似值为e=2.71828 …
这个指数函数包含在以下的Sigmoid函数σ(x)的分母中。Sigmoid函数是神经网络中具有代表性的激活函数。

注：exp是exponential function（指数函数）的简略记法，exp(x)表示指数函数ex。

这个函数的图像如下图所示。可以看出，这个函数是光滑的，也就是处处可导。函数的取值在0和1之间，因此函数值可以用概率来解释。

Sigmoid函数的图像。

问题4

在Sigmoid函数σ(x)中，求以下函数值的近似值。
① σ(-1) ② σ(0) ③ σ(1)

解取e=2.7作为近似值，答案依次为0.27、0.5、0.73。

正态分布的概率密度函数

用计算机实际确定神经网络时，必须设定权重和偏置的初始值。求初始值时，**正态分布（normal distribution）**是一个有用的工具。使用服从这个分布的随机数，容易取得好的结果。

正态分布是服从以下概率密度函数f(x)的概率分布。

其中常数µ称为期望值（平均值）, σ称为标准差。它的图像如下图所示，由于形状像教堂的钟，所以称为钟形曲线。

期望值为μ，标准差为σ的正态分布。另外，这个σ与Sigmoid函数名σ的含义不同。

问题5

试作出期望值µ为0、标准差σ为1的正态分布的概率密度函数的图像。

解如下图所示，这个正态分布称为标准正态分布。

*μ=0，σ=1的正态分布概率密度函数的图像。*

按照正态分布产生的随机数称为正态分布随机数。在神经网络的计算中，经常用到正态分布随机数作为初始值。

备注Excel中的正态分布随机数
在Excel中，可以像下面这样产生正态分布随机数。
=NORM.INV(RAND(), µ, σ) （µ、σ是期望值和标准差）

Tags: 深度神经网络

Previous post

译站校对审核规范

Next post

xmppmini 项目详解：一步一步从原理跟我学实用 xmpp 技术开发 4.字符串解码秘笈与消息包