Google AI 最新博文:模型的不确定性是否可信?

  • 2020 年 2 月 21 日
  • 筆記

在实际应用中,机器学习模型遇到的数据并不总是具有相同的分布。在这种情况下,模型的精度会如何变化?近日,Google AI 发布了一篇博文,讨论了这个问题,他们认为,在数据集转移的情况下,不确定性的质量会下降,但是一些有希望的研究方法可以缓解这种情况。原文大意如下:

在理想情况下,机器学习方法(如深度学习)被用来对与训练数据分布相同的数据进行预测。但实际情况可能大不相同:相机镜头变得模糊,传感器退化等问题,都可能导致训练模型与应用模型数据分布之间的差异,从而导致所谓的协变量偏移。例如,最近有人观察到,接受过胸部 x 光检查肺炎训练的深度学习模型,在根据以前没遇到过的医院数据进行评估时,其精确度水平将大不相同,部分原因是图像采集和处理方面的细微差异。

在 NeurIPS 2019 上,我们的论文「Can you trust your model’s uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift(https://arxiv.org/abs/1906.02530)」对最先进的深度学习模型的不确定性进行了基准测试,因为它们暴露于不断变化的数据分布和分布外的数据。在这项工作中,我们考虑各种输入模式,包括图像、文本和在线广告数据,将这些深度学习模型用于不断变化的测试数据中,同时仔细分析其预测概率的行为。我们还比较了各种不同的方法来提高模型的不确定性,看看哪些策略表现最好。

什么是分布外数据?


深度学习模型为每个预测提供一个概率,这个概率表示模型的可信度或不确定性。因此,当数据不在原始训练数据集的范围内时,它们可以表达它们不知道的内容,避免预测。在协变量移位的情况下,不确定性理想情况下会随着精度的任何降低而成比例增加。一个更极端的情况是,数据不在分布范围内(OOD)。例如,你可以设想一下,当一个猫狗图像分类器遇到飞机图像时会发生什么。这个模型是自信地预测错误,还是根据概率进行分类?在此前的文章中,我们最近讨论了我们开发的识别此类 OOD 示例的方法(https://ai.googleblog.com/2019/12/improving-out-of-distribution-detection.html)。在这项工作中,我们分析了分布外模型的预测不确定性,并转移了实例,以查看模型预测概率是否反映了它们对此类数据的预测能力。

量化不确定度的质量


一个模型比另一个模型更能反映其不确定性意味着什么?虽然这可能是一个细致入微的问题,通常是由下游任务定义的,但有一些方法可以定量评估概率预测的总体质量。例如,气象界仔细考虑了这一问题,并制定了一套适当的评分规则,天气预报的概率比较函数应满足这些规则,以便能够很好地进行校准,同时也有利于提高准确度。我们应用了一些适当的评分规则,如 Brier 评分和负对数似然(NLL),以及更直观的启发式方法,如预期校准误差(ECE),来了解不同的 ML 模型如何处理数据集移位情况下的不确定性。

实验


我们分析了数据集移位对各种数据模式(包括图像、文本、在线广告数据和基因组学数据等)不确定性的影响。举个例子,我们演示了数据集移位对 ImageNet 数据集的影响。ImageNet 将 100 多万张图像分为 1000 个不同的类别。一些人现在认为这一挑战已经基本解决,并且已经开发出更难的变体,例如损坏的 Imagenet(或 Imagenet-C),其中数据有 16 种不同的损坏,每种损坏的强度分为 5 种。

我们探讨了在数据分布变化时,模型不确定性如何变化

我们使用这些损坏的图像作为移位数据的例子,并检查深度学习模型在处理损坏强度增加的移位数据时的预测概率。下面我们展示了每一级损坏(包括未损坏的测试数据)的准确度和 ECE 的方框图,其中每个方框图综合了 ImageNet-C 中所有损坏类型,每个颜色代表不同类型的模型。

增加 ImageNet-C 上数据集偏移强度的精度(上)和预期校准误差(下)。我们观察到,精度的降低并不是由模型不确定度的增加反映的,这表明精度和 ECE 都在变差。

随着损坏强度的增加,每个模型的各个损坏方法的精度偏差如预期的那样增加,并且总精度降低。理想情况下,这将反映在模型的不确定性增加,并且保持预期校准误差(ECE)不变。然而,从 ECE 的较低曲线图来看,情况并非如此,而且校准通常也会受到影响。我们观察到 Brier 分数和 NLL 的类似恶化趋势,这表明模型并没有随着数据损坏的增加而变得越来越具有不确定性,而是自信地进行错误的判断。

改进校准的一种常用方法是温度标度法,它是 Platt 标度法的一种变体,它涉及到在训练后使用在有效数据集上的性能来平滑预测。我们观察到,虽然这改进了标准测试数据的校准,但它常常损坏数据的情况更糟!因此,应用这一技术的实践者应该警惕分布的变化。

幸运的是,有一种方法在不确定性方面的退化比其他方法要优雅得多。Deep-ensembles(图中绿色部分)是一种简单的策略,它对一系列模型的预测进行平均化,显著提高了对移位的鲁棒性,并优于所有其他测试方法。

总结和建议的最佳做法


在本文中,我们探索了在跨图像、文本、在线广告数据和基因组学的数据集转移下,最新模型的行为。在这些不同类型的数据中,我们的发现基本一致。在数据集转移的情况下,不确定性的质量会下降,但是一些有希望的研究方法可以缓解这种情况。我们希望深度学习的用户从我们的研究中获得以下信息:

  1. 数据集转移下的不确定性是训练模型时需要考虑的一个现实问题。
  2. 在分布内的测试集上提高校准和精度,通常不能转化为对移位数据的改进校准。
  3. 在我们考虑的所有方法中,Deep-ensembles 对数据集转移来说最具有稳健性,相对较小的集合大小(如 5)就足够了。其有效性为改进其他方法提供了有趣的途径。

提高深度学习模型的预测不确定性仍然是 ML 研究的一个活跃领域,我们已经发布了该基准的所有代码和模型预测,希望对社区推动和评估未来这一重要课题的工作有帮助。

代码和模型网址:https://github.com/google-research/google-research/tree/master/uq_benchmark_2019

via:https://ai.googleblog.com/2020/01/can-you-trust-your-models-uncertainty.html