为什么深度学习是非参数的?
- 2022 年 3 月 28 日
- AI
-
首先简单地思考一下如何将问题设置成分类的形式; -
接下来回顾偏差-方差分解,并在偏差-方差权衡的背景下,在VC-维数和非参数上进行探讨; -
研究一些关于插值神经网络和双下降的文献; -
在文末做一个非常简单的实验,用图形直观地讲解为什么双下降现象会发生。
-
分布Px,y固定且未知。对于i = 1……N来说,可获得样本,。 -
数学分析通常假设样本是独立的。 -
通常来说,我们需要假设标签y和输入x间有y= 的函数关系,即是说,标签是精确的、没有歧义的,但并非总是如此。
对偏差-方差分解和偏差-方差平衡的简单介绍
增加候选函数的集合
非参数估计:正则化
赞美VC界
贝叶斯放一边
-
M. Belkin等人把条件中的“传统(classical)”和“现代(modern)”等限定词用引号括了起来。“现代”条件是一种十分之非参数的学习,具有一种我们还需要更加深入理解的正则化。 -
在多参数的条件下,偏差-方差思维似乎仍然是完全适用的,但非参数回归可能是比“限制容量”的候选集更好的参考框架。
-
在最左边width(参数)值1到5附近,我们的原型比类少,模型拟合程度不高(欠拟合),因为模型不能代表所有的类。 -
在width5附近,我们有10个(或者适当地更多)原形,但是,在每一个原型的训练中损坏标签都被挤出了,所以这些损坏标签没有发挥作用。 -
在width5到10这个范围,原型收集损坏的标签。由于每个原型都有一个用在推断阶段的“影响范围”,所以存在一个相当大的空间,在这个空间中损坏原型与测试是非常相关的。 -
在width10以外的范围,我们增加了更多的原形。原型之间变得更近,在推断阶段中损坏的标签原型也被“挤出”,因此它们的“影响范围”就会变得更小(因为比起拥有3个损坏原形,同一个类拥有5个非损坏原型中的3个的概率更大)。
在插值条件中挤出错误标记的数据
对抗示例
特征噪声类似于标签噪声
-
在我看来,噪音需要在推断阶段而不是在训练阶段挤出特征,由此我们看出深度学习模型的本质是非参数的。这与KDE实验非常接近。 -
即使我们有很好的标签(你有的,对吧?),深度学习中的高特征维度会导致特征中的噪音,而这些噪音的行为与标签中的噪音类似。
雷峰网