Abstract
本文考虑样本检测中两个相关的问题:误分类和OoD。作者利用来自softmax分布的概率提出了一个检测的baseline。相比于错误分类的样本和OoD的样本,被正确分类的样本倾向于有更大的maximum softmax概率(后文统称为置信度)。接着,baseline的各方面性能通过关于计算机视觉、自然语言处理、自动语音识别的一些任务被进行评估。作者然后说明了baseline有时是可以被超越的,展示了这个检测领域的任务未来可探索的空间。
Introduction
当训练分布和测试分布有差异的时候,应用于现实任务的机器学习分类器往往会工作失败。更糟糕的是,面对错误,这些分类器仍然会给出较高的置信度而不会报错,即使错的离谱。分类器如果不能指出自己什么时候可能是错的,它的使用就会收到限制并可能导致严重事故。例如,一个医学的诊断模型可能始终以较高的置信度进行归类,即使模型应该把不太确定的困难样本标记并留给人工处理。由此导致的未标记的错误诊断会阻碍机器学习技术未来在医疗领域的发展。作者还指出一个更普遍而重要的事情:评估一个模型何时发生错误在人工智能安全领域中饱受关注。
softmax输出经常产生高置信度的预测,这是因为softmax概率是由快速递增的指数函数所计算的。 因此给softmax的输入(logits)一个微小的增量,会导致输出分布的质变。因为softmax函数是指示函数的平滑近似,所以OoD样例输出一个均匀分布并不常见。实际上,随机高斯噪声输入到一个MNIST图像分类器会得到一个高达91%的预测置信度。作者在实验中表明softmax的预测概率和可信度相关性很弱。