0%

Abstract

本文考虑样本检测中两个相关的问题:误分类和OoD。作者利用来自softmax分布的概率提出了一个检测的baseline。相比于错误分类的样本和OoD的样本,被正确分类的样本倾向于有更大的maximum softmax概率(后文统称为置信度)。接着,baseline的各方面性能通过关于计算机视觉、自然语言处理、自动语音识别的一些任务被进行评估。作者然后说明了baseline有时是可以被超越的,展示了这个检测领域的任务未来可探索的空间。

Introduction

当训练分布和测试分布有差异的时候,应用于现实任务的机器学习分类器往往会工作失败。更糟糕的是,面对错误,这些分类器仍然会给出较高的置信度而不会报错,即使错的离谱。分类器如果不能指出自己什么时候可能是错的,它的使用就会收到限制并可能导致严重事故。例如,一个医学的诊断模型可能始终以较高的置信度进行归类,即使模型应该把不太确定的困难样本标记并留给人工处理。由此导致的未标记的错误诊断会阻碍机器学习技术未来在医疗领域的发展。作者还指出一个更普遍而重要的事情:评估一个模型何时发生错误在人工智能安全领域中饱受关注。

softmax输出经常产生高置信度的预测,这是因为softmax概率是由快速递增的指数函数所计算的。 因此给softmax的输入(logits)一个微小的增量,会导致输出分布的质变。因为softmax函数是指示函数的平滑近似,所以OoD样例输出一个均匀分布并不常见。实际上,随机高斯噪声输入到一个MNIST图像分类器会得到一个高达91%的预测置信度。作者在实验中表明softmax的预测概率和可信度相关性很弱。

阅读全文 »

Abstract

作者在本文提出了一种新的OoD检测方法,不需要OoD的训练样本。检测器是一个单分类器,用原始网络的前几层的输出结果训练的。测试时使用的高维和低维的测试集,和其他先进的(state of art)方法比较,有出色的结果。

Introduction

DNN在现代软工中是不可或缺的部分,如自动驾驶、物联网、医疗等领域。深度神经网络在分类这件人类经常接触的问题上性能远超于人。

DNN在I.I.D假设下工作良好,但遇到OoD样本时往往过分自信(给出偏高的分类置信度),这阻碍了在安全要求很高的系统中DNN的可采用性。例如,训练集中没有自行车,但汽车的分类器会错分类骑自行车的人。因此分类器需要加强分辨ID和OoD的机制。以往的论文中也提到了类似地检测不同域的样本的方法,例如outlier and novelty detection。

阅读全文 »

RAM模型的引入

计算的基本概念

  • 计算的关键特征:基于有限种类操作的灵活组合完成复杂的计算任务
  • 算法的宏观定义:一组计算机操作的序列,遵循算法的指示,计算机对任意合法输入执行一系列操作,并给出正确结果。

计算模型的基本概念

  • 算法掌握的一种抽象原则,与编程语言和机器无关,假设在抽象机器上完成算法设计和分析。
  • 在不同具体机器上实例化算法时,虽然底层提供的基本操作不同,但是总是常数倍的关系,本质相同。
  • 上述的抽象机器就是计算模型,是抽象算法设计与分析的基础。图灵机是描述能力很强的计算模型,对于算法设计分析的基础知识来说,RAM模型更简单易用。
阅读全文 »

欢迎来到我的博客。

搭建博客的初衷,一方面是个人知识体系的总结与分享;其次是平时工作学习的记录和自我反馈。

文章中有任何问题需要交流,都可以在博客评论区留言。

本人邮箱:401986905@qq.com。