论文笔记-baseline for OOD

paper: A baseline for detecting misclassified and out-of-distribution examples

Motivation

文章开头先说到,通过 softmax 预测得到的各个类别的概率分布 (prediction probability) 和 置信度之间的对应关系并不是很直接 (have a poor direct correspondence to confidence)。这是因为 softmax 的计算使用了指数函数(fast-growing exponential function),这就会导致一个很小的额外附加输入,都会使得接下来的输出分布(output distribution) 发生改变。事实上,之前也有人做了相当一部分实验,证明了一个高斯随机噪声加入到一个 MNIST 图像之后,会让这个图像获得 91% 的预测概率。

尽管如此,然而,这篇文章作者依旧认为 错误的类别 或 OOD(incorrect and out-of-distribution) 更倾向于具有较低的预测概率,相对于正确的样本。因此,获得关于正确的或者 in-sample 样本的预测概率的统计,通常来说足够去检测出 错误或不正常(error or abnormal),即使单独来看预测概率可能会有误导。也就是从统计的角度,softmax 得到的概率分布还是可信的。

这篇文章在很多任务上进行了实验,并不都是 SOTA, 所以只是提供了一个新的方法用来验证一个神经网络能否有效的区分出 abnormal,作为 baseline method.

除了这个 baseline method,作者还制定了标准的任务和指标,用来评价对 错误和OOD 的自动检测 .

所以看这篇文章的目的就是
- baseline mathod 是什么?也就是怎么去评价一个模型自动区分出 OOD 的能力。
- 作者给出的标准任务和数据

Baseline method

这篇文章的主要解决的两个问题:
- error and success prediction: 能否正确的对一个样本分类
- in- and out-of-distribution detection: 能否正确的检测出 OOD

通常来说,OOD 和 in sample 来说,样本数量差异会很大,比如疾病检测,未见过的罕见疾病 OOD 就很少; 又比如对一个猫狗分类器,他在测试时,OOD 就很大。所以对于这种数据不均衡的问题,accuracy 已经无法满足这类问题了。

metric1: AUROC

作者使用了 AUROC(Area Under the Receiver Operating Characteristic curve). 其实这个在前面的笔记中有详细介绍过,这里再复习遍~ 机器学习-常用指标总结

ROC 曲线是依赖于阈值的性能验证指标 (metric which is a threshold-independent performance evalution). 因为在这类不均衡问题中,我们关注的是 positive label. 所以我们关注的指标是 真正类率 TPR, 负正类率 FPR.

  • TPR, 真正类率(true positive rate ,TPR),: 如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),真正类率是指分类器所识别出来的 正实例占所有正实例的比例。就是正类的 Recall 吧~ TPR = TP / (TP + FN)
  • FPR, 负正类率: 分类器错认为正类的负实例占所有负实例的比例,FPR = FP / (FP + TN)

还是不太明白为啥 TPR + FPR = 1????

metric2: AUPR

Area Under the Precision-Recall curve (AUPR)

The PR curve plots the precision (tp=(tp+fp)) and recall (tp=(tp + fn)) against each other. 对于 PR 曲线,选择哪个类别作为 positive 类,非常重要。