【深度学习理论】Model的Errors来自哪里?

1.前言

机器学习的本质是从一个function set中挑选一个最优的functionf^*又称为model)来拟合样本(设样本的真实分布为\hat{f})。因此,影响f^*质量的因素为:

  1. function set是否包含\hat{f}
  2. function set中挑选的f^*是否能有效的拟合样本;

本文从以上两点分析机器学习中影响model效果的因素。

2. 实验

找到一个模型判断 Pokemon 当前 CP 值与进化之后的 CP 值直接的关系。
现给定三个function set

  1. function set1:y=w*x_{cp}+b
  2. function set2:y=w_{1}*x_{cp}+w_2*x_{cp}^2+w_3*x_{cp}^3
  3. function set3:y=w_{1}*x_{cp}+w_2*x_{cp}^2+w_3*x_{cp}^3+w_4*x_{cp}^4+w_5*x_{cp}^5

由上可知:set1 \sub set2 \sub set3,即set3囊括的范围最大,set2次之,set1最小。

2.1 Variance

先对三个function set从样本空间中进行 100 次随机采样训练,得到的效果图如下所示:
在这里插入图片描述
从上图可以看出:function set3选出的f^*的离散程度(方差,Variance)最大,function set2次之,function set1最小。由此可以得出:模型越复杂,Variance(方差)越大。
在这里插入图片描述

2.2 Bias

假设样本的真是分布\hat{f}的函数图像如下:
在这里插入图片描述
上述三个function set的均值如下图蓝色线所示:
在这里插入图片描述
从上图可以看出:function set3选出的f^*均值与\hat{f}的偏移程度(偏置,Bias)最小,function set2次之,function set1最大。由此可以得出:模型越简单,Bias(偏置)越大。

在这里插入图片描述

3. 分析

3.1 Bias VS Variance

有以上实验可知,Modelerror来自与VarianceBias,而VarianceBias又与Model的复杂程度有关。梳理如下:

  1. Model越复杂(function set的范围大),Variance越大,Bias越小;
  2. Model越简单(function set的范围小),Variance越小,Bias越大;

在这里插入图片描述

3.2 Underfitting VS Overfitting

Underfitting(欠拟合)是指:当Modeltraining data set中无法获得好的效果时,此时Model有一个Large Bias。有两种常用的方案可以解决此问题:

  1. 增加更多的features(特征)
  2. 增大Model的复杂程度;

Overfitting(过拟合)是指:当Modeltraining data set中有很好的效果,但是在testing data set中效果不佳,此时Model有一个Large Variance。有两种常用方案可以解决此问题:

  1. 使用更多的数据进行训练;
  2. 正则化;