天天看点

ICLR2023oral:对图像分类中故障检测评价实践的思考

作者:小小cv笔记
ICLR2023oral:对图像分类中故障检测评价实践的思考

论文题目:

A CALL TO REFLECT ON EVALUATION PRACTICES FOR FAILURE DETECTION IN IMAGE CLASSIFICATION

摘要

基于机器学习的决策系统在野外的可靠应用是该领域目前研究的主要挑战之一,大部分已建立的方法旨在通过分配置信度分数来检测错误的预测。这种置信度可以通过量化模型的预测不确定性、学习明确的评分函数或评估输入是否符合训练分布来获得。奇怪的是,虽然这些方法都是为了解决在实际应用中检测分类器故障的最终目标,但它们目前在很大程度上构成了独立的研究领域,具有单独的评估协议,这些协议要么排除了相关方法的很大一部分,要么忽略了相关故障源的很大一部分。在这项工作中,我们系统地揭示了由这些不一致引起的当前陷阱,并得出了对故障检测进行全面和现实评估的需求。为了证明这种统一视角的相关性,我们首次提出了一项大规模的实证研究,使基准信心评分函数与所有相关方法和失败来源无关。揭示了一个简单的softmax反应基线作为整体表现最好的方法,强调了目前的评估在大量公开的研究信心评分的巨大缺陷。代码和训练过的模型在https://github.com/IML-DKFZ/fd-shifts。

1介绍

“当测试数据分布与训练数据不同时,基于神经网络的分类器可能会无声地失败。因此,对于医疗诊断或自动驾驶等关键任务,基于分类器是否可能失败的指示来检测错误的预测是至关重要的。”这样或类似的使命陈述预示着错误分类检测(MisD)领域的许多出版物,选择性分类(SC) ;预测不确定性量化(PUQ) ,暗示所有这些方法都旨在实现相同的最终目标:通过故障检测实现分类系统的安全部署,即根据相关置信度评分的排名检测或过滤错误预测。在这种情况下,任何函数的连续输出旨在将分类器的失败从正确的预测中分离出来,都可以被解释为置信度评分函数(CSF),并表示实现既定目标的有效方法。这种故障检测的整体视角揭示了当前评估协议的广泛缺陷,这些缺陷构成了使分类器适合实际场景应用的主要瓶颈。我们的工作是呼吁相应的社区反思当前的做法,并提供统一评估协议的技术推导,基于大规模研究的经验见解列表,以及为研究人员提供实际建议,以促进该领域的进展。

2当前评估实践的陷阱

图1概述了故障检测研究的现状及其与之前的故障预防任务的关系,这是通过分类器鲁棒性来衡量的。这个视角揭示了三个主要的陷阱,从中我们得出了在故障检测中进行全面和现实评估的三个要求R1-R3:

ICLR2023oral:对图像分类中故障检测评价实践的思考

图1:故障检测的整体视图 检测故障应该在防止分类器静默故障的总体目标上下文中进行,该目标包括两个任务:首先通过分类器的“鲁棒性”来防止故障(任务1),并通过csf来检测不可预防的故障(任务2,本工作的重点)。对于跨分布转移的故障预防,存在一致的任务公式(以准确性为主要评估指标),并且已经发布了各种基准,涵盖了各种实际转移(例如图像损坏转移,子类转移或域转移)。相比之下,利用csf检测非可预防故障的后续任务的进展目前受到以下三个陷阱的阻碍:1)存在一套多样化且不一致的csf评估协议(MisD, SC, PUQ, OoD-D),阻碍了全面竞争。2)仅涵盖了实际分布变化的频谱的一小部分,因此潜在的故障源减少了评估的实际相关性。3) OoD-D中的任务制定从根本上偏离了检测分类故障的既定目的。总的来说,故障检测的整体观点表明,显然需要一个统一和全面的评估协议,类似于当前的鲁棒性基准,以使分类器适合安全关键型应用程序。缩写:CSF: Confidence Scoring Function, OoD-D: out - distribution Detection, MisD: Misclassification Detection, PUQ: Predictive Uncertainty Quantification, SC: Selective Classification。

陷阱1:异构和不一致的任务定义 为了实现有意义的评估,所有与既定目标相关的解决方案都必须成为竞赛的一部分。在故障检测的研究中,目前存在四个独立的领域,每个领域都有各自的度量和基线来评估所提出的方法。不完全竞争首先是研究领域之间历史演变的划界问题,到目前为止,所采用的指标被设计限制在某些方法中。MisD: MisD中的评估(见B.2.1节的正式任务定义)通过AUROC等排名指标专门衡量分类器成功与失败案例的区别。该协议从比较中排除了相关CSF的很大一部分,因为任何影响底层分类器的CSF(例如,通过引入dropout或替代损失函数)都会改变分类器故障集,即基础真值标签,从而创建其单独的测试集(对于该陷阱的可视化,请参见图4)。对分类器准确性产生负面影响的CSF可能会在其测试集中增加易于检测的故障,并以高AUROCf分数的形式受益。如图1所示,我们认为检测故障的任务不是目的,但是在努力避免无声分类故障时,预防和检测故障是同一枚硬币的两面。因此,CSFs应该作为与相关分类器共生系统的一部分进行评估。同时额外报告与每个CSF相关的分类器准确性为了使这些效果透明,在基于单个分数对csf进行排名时,需要对这两个指标进行重要的加权。PUQ: PUQ的研究往往对提取的不确定性的具体应用保持模糊,这些不确定性陈述了“有意义的置信度值”的目的,它合并了故障检测和置信度校准的相关但独立的用例。这个(可以说是模糊的)目标反映在评估中,通常严格正确的评分规则,如负对数似然评估分数的排名和校准的组合。然而,对于故障检测用例,需要对故障检测性能进行明确的评估(参见附录C关于校准如何与故障检测相关的讨论)。此外,这些指标是专门针对概率预测输出(如softmax分类器)量身定制的,并将所有其他csf排除在比较之外。

→要求1 (R1):综合评价需要一个单一的标准化分数,该分数适用于任意csf,同时考虑其对分类器的影响。

陷阱2:忽略相关故障来源的主要部分 正如引言中所述,故障检测研究通常期望在应用输入与训练数据分布不同时发生分类故障。如图1所示,我们区分了“协变量移位”(保持标签的移位)和“新类别移位”(改变标签的移位)。对于不同故障源的详细表述,请参见附录a。事实上,在防止故障的相关任务中,已经在各种数据集和领域上发布了无数细微的协变量位移催化分类器鲁棒性在现实世界的进步,这就引出了一个问题:如果模拟现实的分类失败是如此微妙和广泛的工作,为什么在检测失败的研究中没有类似的基准测试工作?相比之下,csf目前几乎完全在i.i.d测试集(MisD, PUQ, SC)上进行评估。例外情况(见图1中所示区域)是PUQ研究,其特征是腐败转移,或在子类转移上评估的SC(比较不同分类器下的固定CSF) ,并应用于域转移下的问题回答。此外,OoD-D中的研究(见B.2.2节的正式任务定义)专门评估了一个有限部分故障来源下的方法:新类(见图2(右面板)中的图像7和8)。该领域最近的一个趋势是关注“近OoD”场景,即影响语义图像特征但保持上下文不变的变化。虽然细微的变化可能比巨大的上下文切换具有更实际的相关性的概念似乎是合理的,但术语“近”是误导性的,因为它忽略了甚至“更近”的整个范围,因此可能更相关的协变量变化,这是OoD-D方法没有测试的。我们认为,对于大多数应用程序,它是不现实的,完全假设分类失败从标签改变移位和没有失败引起的标签保留移位。

→需求2 (R2):类似于鲁棒性基准,故障检测的进展需要对一组细微的和不同的故障源进行评估。

陷阱3:陈述的目的和评估不一致 所描述的OoD-D评估的局限性只是一个更深层次问题的症状:测试方法不是为了预测分类器的故障,而是为了预测一个外部的,即与分类器无关的“离群值”标签。在某些情况下,该公式反映了给定问题的固有性质,例如在异常检测中,没有定义底层任务,数据集可能未标记。然而,大多数关于ood检测的工作都带有一个定义好的分类任务,包括训练标签和状态检测分类器的故障作为其主要目的。然而,这一行的工作不足以证明为什么相关的方法随后没有被显示来检测上述故障,而是在检测数据中的分布变化的代理任务上进行测试。图2显示,对于定义我们希望过滤哪些情况,异常值标签构成了一个糟糕的工具,因为“什么是异常值?”这个问题对于协变量移位来说是非常主观的(请参阅紫色问号)。标签的模糊性扩展到“内隐器”的概念(数据变化的程度仍然被认为是i.i.d ?),协议奖励保留它们,而不管它们是否导致分类器失败(参见紫色闪电)。

ICLR2023oral:对图像分类中故障检测评价实践的思考

图2:左:OoDDetection中通常陈述的目的和评估之间的差异。检测分类器的错误预测的最终目的由二进制“故障标签”及其相关的事件空间(上图)表示。然而,在实践中,这个目标仅仅是通过评估分布移位的检测来近似实现的,即根据一个二元“离群值标签”来分离情况,而不管分类器的正确性(下图)。右图:不同类型故障源下的典型故障检测研究。在相关分布移位的整个范围内,对8幅图像评估了一个训练来区分“猿”和“熊”的假设分类器:例如,图像5和6描绘的是猿,但它们不在训练数据中的品种中,因此构成子类移位。图7和图8描述了完全看不见的类别,但是“meerkat”停留在任务上下文中(“语义”,“近OoD”),“门牌号码”代表了一个巨大的上下文切换(“非语义”,“远OoD”)。

→需求3 (R3):如果有一个已定义的分类器,其不正确的预测将被检测到,则应使用其各自的故障信息来评估与声明目的无关的csf,而不是替代任务,如分布移位检测。

3统一任务制定

解析第1节开头引用的目的语句会得到以下任务公式:给定一个大小为N的数据集{(xi,ycl,i)}Ni=1,其中(xi,ycl)是X×Y和ycl的独立样本,并给定一对函数(m,g),其中g:X→ R是CSF,m(·,w):X→ Y是包括模型参数w的分类器,故障检测后的分类输出定义为:

ICLR2023oral:对图像分类中故障检测评价实践的思考

当g(x)下降到阈值τ以下时,会触发滤波(“检测”)。为了执行有意义的故障检测,需要CSF g(x)基于二进制故障标签输出正确预测的高置信度分数和错误预测的低置信度分数

ICLR2023oral:对图像分类中故障检测评价实践的思考

其中,x_ym=argmaxc∈YPm(ycl=c|x,w),并且I是恒等函数(对于真事件为1,对于假事件为0)。

尽管准确地形式化了MisD、OoD-D、SC和PUQ中许多方法的既定目的,并允许对任意CSFs g(x)进行评估,但这种通用任务公式目前仅在SC研究中进行了说明(本工作中考虑的所有方案的详细技术描述见附录B)。为了推导公式化任务的适当评估指标,我们从g(x)的排名要求开始,例如通过MisD中的AUROC进行评估,导致第2节中描述的陷阱。遵循R1并修改AUROC以考虑分类器性能,可以让我们自然地收敛(技术流程见附录B.2.5)到一个度量,该度量以前曾作为副产品在SC中提出,但未广泛用于评估:风险覆盖曲线下的面积(AURC,见等式31)。我们建议使用AURC作为所有方法的主要度量,以达到故障检测的目的,因为它满足了所有三种方法过滤之后)或者甚至单个风险覆盖工作点可能是合适的。在附录F中,我们提供了一个AURC的开源实现,修复了以前版本的几个缺点。

3.1当前协议所需的修改

从当前协议转变为全面和现实的故障检测评估所需的一般修改,即满足要求R1-R3,对于考虑的领域(SC, MisD, PUQ, OoD-D)来说是直截了当地的:研究人员可以简单地考虑根据AURC和基准提出的方法报告性能,这些方法与所有先前分离的领域的相关基线以及实际的各种故障源(即分布转移)相比较。

SC还需要考虑另一个方面,其任务是同时解决故障预防和故障检测(参见图1中的任务1和任务2),即目标是最小化绝对AURC分数。该设置包括在固定CSF时比较不同分类器的研究。相反,对故障检测的评估意味着关注CSFs的性能(图1中的任务2),同时作为要求(R1)监控分类器性能,以确保对任意CSFs进行公平比较。这种焦点的转移反映在分类器体系结构以及训练过程在所有比较的csf中都是固定的(除了附录E.4中描述的一些例外)。通过这种方式,分类器配置的外部变化可以作为CSF评估中的一个干扰因素被去除,并且可以隔离CSF对分类器训练的直接影响,从而实现AURC分数的相对比较。

对于新类别转移的评估(目前在OoD-D中执行),需要进一步修改:当前的OoD-D协议奖励未检测到早期错误分类的csf(见图2)。另一方面,惩罚未检测到这些情况的csf(由AURC处理)将稀释对新类别转移的期望评估重点。因此,我们建议在报告CSF在新类别转换下的表现时,从评估中去除早期错误分类。图5显示了建议的修改。值得注意的是,所提出的方案仍然考虑了CSF对分类器性能的影响(即不违背R1),因为更高的分类器精度仍然会导致更高的AURC分数(见式29-31)。

3.2在存在选择性分类的情况下自己的贡献

鉴于方程1中的任务定义以及AURC度规主张本文之前已经制定SC(见附件的技术细节对当前评估有SC)),重要的是要强调我们的工作不仅限于推进的相关性研究SC,但是,旁边的转移关注3.1节中描述的模型,我们阐明调用其他社区(MisD、OoD-D PUQ)反思当前的实践。换句话说,我们工作的相关性来自于在以前分离的研究领域中为SC协议的必要性提供证据,以及扩展其评估范围(包括当前的SC范围)w.r.t.比较方法和考虑的失败来源。

4实证研究

为了证明故障检测的整体视角的相关性,我们进行了大规模的实证研究,我们称之为FD-shifts。这是第一次,来自MisD, OoD-D, PUQ和SC的最先进的csf相互进行基准测试。与最近的鲁棒性研究类似,CSFs第一次在各种细微的分布变化上进行评估,以覆盖故障源的整个频谱。

4.1使用的数据集

附录E详细介绍了所有使用的数据集,附录A描述了考虑的分布变化。FD-Shift在CAMELYON-17-Wilds、iWildCam-2020Wilds和BREEDS-ENTITY -13上的基准CSFs,这些基准fs最初被提出用于评估各个领域子类转移下分类器的鲁棒性(图1中的任务1)。进一步的子类转移以CIFAR-100的超类形式考虑,在训练过程中,每个超级类别随机安排一个类别。为了研究腐败转移,我们报告了hendricks和Dietterich基于CIFAR-10和CIFAR-100提出的15种腐败类型和5种腐败强度水平的结果。关于新类转换,我们以旋转方式在SVHN、CIFAR-10/100和TinyImagenet 上进行测试,同时将CIFAR数据集之间的转换视为语义转换,而将其他转换视为非语义转换。最后,我们通过在SVHN和iWildCam-2020-Wilds上测试闲置的训练类别(随机抽取所有训练类别的40%)来创建额外的语义新类转换场景。

4.2比较方法

我们比较以下CSFs:从分类器的softmax输出计算的最大softmax响应(MSR)。PUQ:基于softmax输出(PE)的预测熵和基于蒙特卡罗Dropout (MCD)的三个预测不确定性度量:平均softmax (MCD- msr),预测熵(MCD-PE)和期望熵(MCD- ee)(技术公式见附录1)。对于MCD,我们在测试时取50个样本。MisD:我们包括confethnet,它被训练为分类器的扩展,并使用其回归的真类概率作为CSF。SC:我们包括DeepGamblers (DG),它使用基于投资组合理论的损失衰减来学习类似信心的保留分数(DG- res) 。由于DG的训练范式的损失衰减可能对分类器本身有积极的影响,我们额外评估了softmax输出(DG- mcd - msr)。OoD-D:我们收录了DeVries和Taylor的作品。值得注意的是,ConfidNet, DG和Devries等人的工作都是人为地将以前的评价分开的极好例子,因为尽管这三种评价在概念和技术上有很大的相似之处,但以前从未对它们进行过比较。我们评估了(Vaze等人,2022)提出的语义新类转换的最大Logit分数(MLS),他们认为softmax操作抵消了与OoD-D相关的特征大小(我们还将MCD样本的平均MLS分数添加到基准:MCD-MLS。最后,我们包括最近报道的最先进的方法:在ImageNet上预训练的视觉变压器(ViT)的表示上测量的Mahalanobis距离(MAHA)。分类器:由于分类器的这种变化会使csf的比较产生偏差,因此我们在与ViT分类器一起训练时,还会报告所选csf的结果。由于从重新实施的基线中得出结论必须谨慎,我们报告了所有基线的可重复性结果,包括附录J中所有超参数偏离原始配置的理由。

4.3结果

这项工作的广泛范围反映在我们所做的经验观察的类型上:我们将整体任务协议视为未来研究的推动者,因此我们展示了各种研究问题和主题,而不是对单个观察提供深入分析。附录G.1讨论了本研究如何从经验上证实第2节中所述的R1-R3。

表1显示了以AURC分数衡量的FD-Shifts基准的结果,附录J中的可重复性研究证实,所观察到的效应都不是由错误的重新实现引起的。

ICLR2023oral:对图像分类中故障检测评价实践的思考

在实际的故障源范围内,文献中评估的方法都没有超过简单的Maximum Softmax Response基线。对于两个分类器(CNN和ViT), softmax基线(MSR或MCD-MSR)在所有i.i.d上都显示出最佳或接近最佳的性能。考虑到MisD, SC和OoD-D的文献声明,这是令人惊讶的:所有三种基于cnn分类器(DG-Res, Devries和confidenet)的测试方法都不能推广到他们提出的场景之外,即更复杂的数据集(如iWildCam或breed)和协变量分布转移(腐败和子类)即使在他们提出的测试数据上,这三种方法都难以超越简单的基线。

这些发现表明,迫切需要评估新提出的csf在各种数据集和分布变化中的故障检测,以便得出一般的方法学结论。

流行的OoD-D方法仅适用于分布变化的狭窄范围 拟议的评估方案首次允许研究主要的OoD-D方法在实际分布变化范围内的相关性。虽然对于非语义的新类转移(“远OoD”),来自OoD- d的流行方法(MLS, MCD-MLS, MAHA)在两个分类器上都表现出最佳性能,但它们的优势在语义新类转移上已经消失了(只有SVHN上基于vitd的MAHA表现出最佳性能)。然而,在更细微的(有争议的更现实的)协变量位移的广泛范围内,OoD-D方法的表现远远优于softmax基线。这一发现指出了一个有趣的未来研究方向,即开发能够在整个分布转移范围内检测故障的csf。

AURC能够解决以前分类器鲁棒性和CSF性能之间的模糊问题 ConfidNet 的结果提供了一个生动的例子,在评估CSFs时,评估分类器性能和置信度排名在单个分数中的相关性。原始出版物报告了与MisD度量AUROCf测量的MCD-MSR基线相比,CIFAR-10和CIFAR-100的结果更好。这些结果在表9中得到了证实,但我们观察到MCD对分类器训练的有益影响,从而提高了准确率(见表8)。这就提出了一个问题:两种方法(confetnet或MCD- msr)中哪一种最终会导致更少的分类器无声故障?一种方法直接帮助分类器产生更少的故障,而另一种方法似乎更善于检测现有的故障(至少在具有更容易预防的故障的测试集中)?《AURC》通过在一个分数中表达这两种效果来回答这个问题,这直接关系到防止无声失败的总体目标。这表明MCD-MSR基线在CIFAR-10和CIFAR-100的i.i.d测试集上优于confetnet。

ViT在大多数数据集上优于CNN分类器 图8显示了ViT和CNN分类器在几个指标上的比较分析。对于AURC,除了iWildCam之外,ViT在所有数据集上的表现都优于CNN,这表明imagenet预训练表征的域间隙对于这个任务来说可能太大了。这是一个有趣的观察结果,因为CAMEL YON的特征图像来自生物医学领域,可以直观地表示更大的领域差距。进一步观察准确性和AUROCf性能,我们看到性能的提高明显源于分类器准确性的提高5,但CSF排名性能与ViT和CNN相当(尽管与CNN相比,ViT的故障检测任务可能更难,因为可检测的故障较少)。

不同类型的不确定性在经验上是无法区分的 考虑到文献中不确定性测量与特定类型的不确定性之间的关联(见附录1),我们对这种关系在多大程度上可以通过我们实验中的经验证据来证实感兴趣。作为一个例子,我们期望互信息(MCD-MI)在模型不确定性应该很高的新类转移上表现良好,期望熵(MCD-EE)在数据中固有的不确定性(在训练期间看到)被认为是普遍的不确定性类型的i.i.d情况下表现良好。虽然,正如预期的那样,MCD-EE在i.i.d测试集上的表现通常比MCD-MI好,但在分布变化中却没有观察到相反的行为。因此,基于相关不确定性措施的预期收益,不能明确区分任意不确定性和认知不确定性。此外,与简单的MCD-MSR基线相比,没有观察到基于熵的不确定性测量的一般优势。

超过最大Softmax响应的CSFs产生校准良好的分数 我们主张在与置信度评分相关的研究中有一个明确的目的声明,这对于大多数情况意味着置信度校准和置信度排序任务的分离(参见第2节)。然而,为了证明我们整体视角的相关性,我们扩展FD-Shifts来评估校准误差,这是一种以前专门应用于softmax输出的测量,所有考虑的csf。Platt缩放用于校准自然输出范围超过[0,1]的csf 。表10报告了csf的校准误差,表明目前被忽视的超过MSR的csf提供了竞争性校准(例如CNN上的MCD-PE或ViT上的MAHA),因此构成了用户直接解释的适当置信度分数。

这一观察指出了一个潜在的研究方向,其中,类似于寻求在置信度排名中优于softmax基线的csf,可能有可能确定在广泛的分布位移范围内与softmax输出相比产生更好校准的csf。

最大Softmax响应基线由于标准设置中的数值误差而处于不利地位 运行我们的实证研究的推理产生tb级的输出数据。当试图通过将logit存储为16位精度浮点数而不是32位精度浮点数来节省磁盘空间时,我们发现MSR基线的可信度排名性能大幅下降(降低了AURC和AUROCf分数)。这种影响是由数字错误引起的,在softmax操作期间,高logit分数被四舍五入到1,从而丢失了四舍五入分数之间的排名信息。

令人惊讶的是,当返回到32位精度时,我们发现舍入误差发生的比率仍然很大,特别是在ViT分类器上(与CNN相比,它具有更高的准确性和置信度得分),表2显示了不同浮点精度的错误率以及受影响的指标。至关重要的是,即使在默认的32位精度设置下,ViT分类器上的置信度排名仍然受到舍入误差的影响(CNN的影响在AURC分数中是微不足道的),例如CIFAR-10上的AUROCf下降了9%,在BREEDS上下降了5.47%(即ImageNet数据)。这一发现对用于置信度排序任务(包括当前的OoD-D文献)的任何基于vita的MSR基线都具有深远的影响。

ICLR2023oral:对图像分类中故障检测评价实践的思考

我们建议将logits转换为64位精度(在我们的研究中执行),或者在softmax操作之前执行温度缩放,以尽量减少舍入误差。

进一步的结果 尽管与应用相关,但在研究中往往忽略了故障检测的最后一步,即置信度评分的决策阈值的定义。在附录D中,我们提出了一种不需要校准分数的方法,并分析了其在分布移位下的可靠性。此外,附录G列出了所有实验的准确性和AUROCf结果。关于失效案例的定性研究,见附录H。

5结论和要点

这项工作并没有提出一种新的方法、度量或数据集。相反,在呼吁对现有方法进行更严格的理解之后和评估陷阱,其相关性来自于提供令人信服的理论和经验证据,表明所有旨在检测分类失败的研究都需要对当前评估实践进行审查。我们的结果生动地表明,对该领域的反思的需求超过了对新颖性的需求:在文献中提出的流行方法中,没有一种能够在一系列实际故障源中优于softmax基线。因此,我们的关键信息是:

1.对信心评分(包括MisD、OoD-D、PUQ、SC)的研究应该有一个明确定义的用例,并采用一个直接反映这一目的的有意义的评估协议。

2. 如果声明的目的是检测分类器的故障,则评估需要考虑对分类器性能的潜在影响。我们推荐将AURC作为主要指标,因为它在一个分数中结合了这两个方面。

3.类似于故障预防(“鲁棒性”),故障检测的评估应该包括覆盖潜在故障源的一组现实的、细微的分布移位。

4. 故障检测的综合评估需要比较所有针对同一目标的相关解决方案,包括以前分离的领域的方法。

5. 我们的结果在数据集上的不一致性表明需要在各种不同的数据集上评估故障检测。

6. 对于任何与排名相关的任务,在softmax操作之前,logit应该转换为64位精度或温度缩放,以避免低于标准的softmax基线。

7. 超出softmax输出的置信度评分函数的校准应被视为一项独立的任务。

8. 我们的开源框架具有基线、度量和数据集的实现,允许研究人员执行有意义的信心评分函数的基准测试。

继续阅读