論文題目:
A CALL TO REFLECT ON EVALUATION PRACTICES FOR FAILURE DETECTION IN IMAGE CLASSIFICATION
摘要
基于機器學習的決策系統在野外的可靠應用是該領域目前研究的主要挑戰之一,大部分已建立的方法旨在通過配置設定置信度分數來檢測錯誤的預測。這種置信度可以通過量化模型的預測不确定性、學習明确的評分函數或評估輸入是否符合訓練分布來獲得。奇怪的是,雖然這些方法都是為了解決在實際應用中檢測分類器故障的最終目标,但它們目前在很大程度上構成了獨立的研究領域,具有單獨的評估協定,這些協定要麼排除了相關方法的很大一部分,要麼忽略了相關故障源的很大一部分。在這項工作中,我們系統地揭示了由這些不一緻引起的目前陷阱,并得出了對故障檢測進行全面和現實評估的需求。為了證明這種統一視角的相關性,我們首次提出了一項大規模的實證研究,使基準信心評分函數與所有相關方法和失敗來源無關。揭示了一個簡單的softmax反應基線作為整體表現最好的方法,強調了目前的評估在大量公開的研究信心評分的巨大缺陷。代碼和訓練過的模型在https://github.com/IML-DKFZ/fd-shifts。
1介紹
“當測試資料分布與訓練資料不同時,基于神經網絡的分類器可能會無聲地失敗。是以,對于醫療診斷或自動駕駛等關鍵任務,基于分類器是否可能失敗的訓示來檢測錯誤的預測是至關重要的。”這樣或類似的使命陳述預示着錯誤分類檢測(MisD)領域的許多出版物,選擇性分類(SC) ;預測不确定性量化(PUQ) ,暗示所有這些方法都旨在實作相同的最終目标:通過故障檢測實作分類系統的安全部署,即根據相關置信度評分的排名檢測或過濾錯誤預測。在這種情況下,任何函數的連續輸出旨在将分類器的失敗從正确的預測中分離出來,都可以被解釋為置信度評分函數(CSF),并表示實作既定目标的有效方法。這種故障檢測的整體視角揭示了目前評估協定的廣泛缺陷,這些缺陷構成了使分類器适合實際場景應用的主要瓶頸。我們的工作是呼籲相應的社群反思目前的做法,并提供統一評估協定的技術推導,基于大規模研究的經驗見解清單,以及為研究人員提供實際建議,以促進該領域的進展。
2目前評估實踐的陷阱
圖1概述了故障檢測研究的現狀及其與之前的故障預防任務的關系,這是通過分類器魯棒性來衡量的。這個視角揭示了三個主要的陷阱,從中我們得出了在故障檢測中進行全面和現實評估的三個要求R1-R3:
圖1:故障檢測的整體視圖 檢測故障應該在防止分類器靜默故障的總體目标上下文中進行,該目标包括兩個任務:首先通過分類器的“魯棒性”來防止故障(任務1),并通過csf來檢測不可預防的故障(任務2,本工作的重點)。對于跨分布轉移的故障預防,存在一緻的任務公式(以準确性為主要評估名額),并且已經釋出了各種基準,涵蓋了各種實際轉移(例如圖像損壞轉移,子類轉移或域轉移)。相比之下,利用csf檢測非可預防故障的後續任務的進展目前受到以下三個陷阱的阻礙:1)存在一套多樣化且不一緻的csf評估協定(MisD, SC, PUQ, OoD-D),阻礙了全面競争。2)僅涵蓋了實際分布變化的頻譜的一小部分,是以潛在的故障源減少了評估的實際相關性。3) OoD-D中的任務制定從根本上偏離了檢測分類故障的既定目的。總的來說,故障檢測的整體觀點表明,顯然需要一個統一和全面的評估協定,類似于目前的魯棒性基準,以使分類器适合安全關鍵型應用程式。縮寫:CSF: Confidence Scoring Function, OoD-D: out - distribution Detection, MisD: Misclassification Detection, PUQ: Predictive Uncertainty Quantification, SC: Selective Classification。
陷阱1:異構和不一緻的任務定義 為了實作有意義的評估,所有與既定目标相關的解決方案都必須成為競賽的一部分。在故障檢測的研究中,目前存在四個獨立的領域,每個領域都有各自的度量和基線來評估所提出的方法。不完全競争首先是研究領域之間曆史演變的劃界問題,到目前為止,所采用的名額被設計限制在某些方法中。MisD: MisD中的評估(見B.2.1節的正式任務定義)通過AUROC等排名名額專門衡量分類器成功與失敗案例的差別。該協定從比較中排除了相關CSF的很大一部分,因為任何影響底層分類器的CSF(例如,通過引入dropout或替代損失函數)都會改變分類器故障集,即基礎真值标簽,進而建立其單獨的測試集(對于該陷阱的可視化,請參見圖4)。對分類器準确性産生負面影響的CSF可能會在其測試集中增加易于檢測的故障,并以高AUROCf分數的形式受益。如圖1所示,我們認為檢測故障的任務不是目的,但是在努力避免無聲分類故障時,預防和檢測故障是同一枚硬币的兩面。是以,CSFs應該作為與相關分類器共生系統的一部分進行評估。同時額外報告與每個CSF相關的分類器準确性為了使這些效果透明,在基于單個分數對csf進行排名時,需要對這兩個名額進行重要的權重。PUQ: PUQ的研究往往對提取的不确定性的具體應用保持模糊,這些不确定性陳述了“有意義的置信度值”的目的,它合并了故障檢測和置信度校準的相關但獨立的用例。這個(可以說是模糊的)目标反映在評估中,通常嚴格正确的評分規則,如負對數似然評估分數的排名和校準的組合。然而,對于故障檢測用例,需要對故障檢測性能進行明确的評估(參見附錄C關于校準如何與故障檢測相關的讨論)。此外,這些名額是專門針對機率預測輸出(如softmax分類器)量身定制的,并将所有其他csf排除在比較之外。
→要求1 (R1):綜合評價需要一個單一的标準化分數,該分數适用于任意csf,同時考慮其對分類器的影響。
陷阱2:忽略相關故障來源的主要部分 正如引言中所述,故障檢測研究通常期望在應用輸入與訓練資料分布不同時發生分類故障。如圖1所示,我們區分了“協變量移位”(保持标簽的移位)和“新類别移位”(改變标簽的移位)。對于不同故障源的詳細表述,請參見附錄a。事實上,在防止故障的相關任務中,已經在各種資料集和領域上釋出了無數細微的協變量位移催化分類器魯棒性在現實世界的進步,這就引出了一個問題:如果模拟現實的分類失敗是如此微妙和廣泛的工作,為什麼在檢測失敗的研究中沒有類似的基準測試工作?相比之下,csf目前幾乎完全在i.i.d測試集(MisD, PUQ, SC)上進行評估。例外情況(見圖1中所示區域)是PUQ研究,其特征是腐敗轉移,或在子類轉移上評估的SC(比較不同分類器下的固定CSF) ,并應用于域轉移下的問題回答。此外,OoD-D中的研究(見B.2.2節的正式任務定義)專門評估了一個有限部分故障來源下的方法:新類(見圖2(右面闆)中的圖像7和8)。該領域最近的一個趨勢是關注“近OoD”場景,即影響語義圖像特征但保持上下文不變的變化。雖然細微的變化可能比巨大的上下文切換具有更實際的相關性的概念似乎是合理的,但術語“近”是誤導性的,因為它忽略了甚至“更近”的整個範圍,是以可能更相關的協變量變化,這是OoD-D方法沒有測試的。我們認為,對于大多數應用程式,它是不現實的,完全假設分類失敗從标簽改變移位和沒有失敗引起的标簽保留移位。
→需求2 (R2):類似于魯棒性基準,故障檢測的進展需要對一組細微的和不同的故障源進行評估。
陷阱3:陳述的目的和評估不一緻 所描述的OoD-D評估的局限性隻是一個更深層次問題的症狀:測試方法不是為了預測分類器的故障,而是為了預測一個外部的,即與分類器無關的“離群值”标簽。在某些情況下,該公式反映了給定問題的固有性質,例如在異常檢測中,沒有定義底層任務,資料集可能未标記。然而,大多數關于ood檢測的工作都帶有一個定義好的分類任務,包括訓練标簽和狀态檢測分類器的故障作為其主要目的。然而,這一行的工作不足以證明為什麼相關的方法随後沒有被顯示來檢測上述故障,而是在檢測資料中的分布變化的代理任務上進行測試。圖2顯示,對于定義我們希望過濾哪些情況,異常值标簽構成了一個糟糕的工具,因為“什麼是異常值?”這個問題對于協變量移位來說是非常主觀的(請參閱紫色問号)。标簽的模糊性擴充到“内隐器”的概念(資料變化的程度仍然被認為是i.i.d ?),協定獎勵保留它們,而不管它們是否導緻分類器失敗(參見紫色閃電)。
圖2:左:OoDDetection中通常陳述的目的和評估之間的差異。檢測分類器的錯誤預測的最終目的由二進制“故障标簽”及其相關的事件空間(上圖)表示。然而,在實踐中,這個目标僅僅是通過評估分布移位的檢測來近似實作的,即根據一個二進制“離群值标簽”來分離情況,而不管分類器的正确性(下圖)。右圖:不同類型故障源下的典型故障檢測研究。在相關分布移位的整個範圍内,對8幅圖像評估了一個訓練來區分“猿”和“熊”的假設分類器:例如,圖像5和6描繪的是猿,但它們不在訓練資料中的品種中,是以構成子類移位。圖7和圖8描述了完全看不見的類别,但是“meerkat”停留在任務上下文中(“語義”,“近OoD”),“門牌号碼”代表了一個巨大的上下文切換(“非語義”,“遠OoD”)。
→需求3 (R3):如果有一個已定義的分類器,其不正确的預測将被檢測到,則應使用其各自的故障資訊來評估與聲明目的無關的csf,而不是替代任務,如分布移位檢測。
3統一任務制定
解析第1節開頭引用的目的語句會得到以下任務公式:給定一個大小為N的資料集{(xi,ycl,i)}Ni=1,其中(xi,ycl)是X×Y和ycl的獨立樣本,并給定一對函數(m,g),其中g:X→ R是CSF,m(·,w):X→ Y是包括模型參數w的分類器,故障檢測後的分類輸出定義為:
當g(x)下降到門檻值τ以下時,會觸發濾波(“檢測”)。為了執行有意義的故障檢測,需要CSF g(x)基于二進制故障标簽輸出正确預測的高置信度分數和錯誤預測的低置信度分數
其中,x_ym=argmaxc∈YPm(ycl=c|x,w),并且I是恒等函數(對于真事件為1,對于假事件為0)。
盡管準确地形式化了MisD、OoD-D、SC和PUQ中許多方法的既定目的,并允許對任意CSFs g(x)進行評估,但這種通用任務公式目前僅在SC研究中進行了說明(本工作中考慮的所有方案的詳細技術描述見附錄B)。為了推導公式化任務的适當評估名額,我們從g(x)的排名要求開始,例如通過MisD中的AUROC進行評估,導緻第2節中描述的陷阱。遵循R1并修改AUROC以考慮分類器性能,可以讓我們自然地收斂(技術流程見附錄B.2.5)到一個度量,該度量以前曾作為副産品在SC中提出,但未廣泛用于評估:風險覆寫曲線下的面積(AURC,見等式31)。我們建議使用AURC作為所有方法的主要度量,以達到故障檢測的目的,因為它滿足了所有三種方法過濾之後)或者甚至單個風險覆寫工作點可能是合适的。在附錄F中,我們提供了一個AURC的開源實作,修複了以前版本的幾個缺點。
3.1目前協定所需的修改
從目前協定轉變為全面和現實的故障檢測評估所需的一般修改,即滿足要求R1-R3,對于考慮的領域(SC, MisD, PUQ, OoD-D)來說是直截了當地的:研究人員可以簡單地考慮根據AURC和基準提出的方法報告性能,這些方法與所有先前分離的領域的相關基線以及實際的各種故障源(即分布轉移)相比較。
SC還需要考慮另一個方面,其任務是同時解決故障預防和故障檢測(參見圖1中的任務1和任務2),即目标是最小化絕對AURC分數。該設定包括在固定CSF時比較不同分類器的研究。相反,對故障檢測的評估意味着關注CSFs的性能(圖1中的任務2),同時作為要求(R1)監控分類器性能,以確定對任意CSFs進行公平比較。這種焦點的轉移反映在分類器體系結構以及訓練過程在所有比較的csf中都是固定的(除了附錄E.4中描述的一些例外)。通過這種方式,分類器配置的外部變化可以作為CSF評估中的一個幹擾因素被去除,并且可以隔離CSF對分類器訓練的直接影響,進而實作AURC分數的相對比較。
對于新類别轉移的評估(目前在OoD-D中執行),需要進一步修改:目前的OoD-D協定獎勵未檢測到早期錯誤分類的csf(見圖2)。另一方面,懲罰未檢測到這些情況的csf(由AURC處理)将稀釋對新類别轉移的期望評估重點。是以,我們建議在報告CSF在新類别轉換下的表現時,從評估中去除早期錯誤分類。圖5顯示了建議的修改。值得注意的是,所提出的方案仍然考慮了CSF對分類器性能的影響(即不違背R1),因為更高的分類器精度仍然會導緻更高的AURC分數(見式29-31)。
3.2在存在選擇性分類的情況下自己的貢獻
鑒于方程1中的任務定義以及AURC度規主張本文之前已經制定SC(見附件的技術細節對目前評估有SC)),重要的是要強調我們的工作不僅限于推進的相關性研究SC,但是,旁邊的轉移關注3.1節中描述的模型,我們闡明調用其他社群(MisD、OoD-D PUQ)反思目前的實踐。換句話說,我們工作的相關性來自于在以前分離的研究領域中為SC協定的必要性提供證據,以及擴充其評估範圍(包括目前的SC範圍)w.r.t.比較方法和考慮的失敗來源。
4實證研究
為了證明故障檢測的整體視角的相關性,我們進行了大規模的實證研究,我們稱之為FD-shifts。這是第一次,來自MisD, OoD-D, PUQ和SC的最先進的csf互相進行基準測試。與最近的魯棒性研究類似,CSFs第一次在各種細微的分布變化上進行評估,以覆寫故障源的整個頻譜。
4.1使用的資料集
附錄E詳細介紹了所有使用的資料集,附錄A描述了考慮的分布變化。FD-Shift在CAMELYON-17-Wilds、iWildCam-2020Wilds和BREEDS-ENTITY -13上的基準CSFs,這些基準fs最初被提出用于評估各個領域子類轉移下分類器的魯棒性(圖1中的任務1)。進一步的子類轉移以CIFAR-100的超類形式考慮,在訓練過程中,每個超級類别随機安排一個類别。為了研究腐敗轉移,我們報告了hendricks和Dietterich基于CIFAR-10和CIFAR-100提出的15種腐敗類型和5種腐敗強度水準的結果。關于新類轉換,我們以旋轉方式在SVHN、CIFAR-10/100和TinyImagenet 上進行測試,同時将CIFAR資料集之間的轉換視為語義轉換,而将其他轉換視為非語義轉換。最後,我們通過在SVHN和iWildCam-2020-Wilds上測試閑置的訓練類别(随機抽取所有訓練類别的40%)來建立額外的語義新類轉換場景。
4.2比較方法
我們比較以下CSFs:從分類器的softmax輸出計算的最大softmax響應(MSR)。PUQ:基于softmax輸出(PE)的預測熵和基于蒙特卡羅Dropout (MCD)的三個預測不确定性度量:平均softmax (MCD- msr),預測熵(MCD-PE)和期望熵(MCD- ee)(技術公式見附錄1)。對于MCD,我們在測試時取50個樣本。MisD:我們包括confethnet,它被訓練為分類器的擴充,并使用其回歸的真類機率作為CSF。SC:我們包括DeepGamblers (DG),它使用基于投資組合理論的損失衰減來學習類似信心的保留分數(DG- res) 。由于DG的訓練範式的損失衰減可能對分類器本身有積極的影響,我們額外評估了softmax輸出(DG- mcd - msr)。OoD-D:我們收錄了DeVries和Taylor的作品。值得注意的是,ConfidNet, DG和Devries等人的工作都是人為地将以前的評價分開的極好例子,因為盡管這三種評價在概念和技術上有很大的相似之處,但以前從未對它們進行過比較。我們評估了(Vaze等人,2022)提出的語義新類轉換的最大Logit分數(MLS),他們認為softmax操作抵消了與OoD-D相關的特征大小(我們還将MCD樣本的平均MLS分數添加到基準:MCD-MLS。最後,我們包括最近報道的最先進的方法:在ImageNet上預訓練的視覺變壓器(ViT)的表示上測量的Mahalanobis距離(MAHA)。分類器:由于分類器的這種變化會使csf的比較産生偏差,是以我們在與ViT分類器一起訓練時,還會報告所選csf的結果。由于從重新實施的基線中得出結論必須謹慎,我們報告了所有基線的可重複性結果,包括附錄J中所有超參數偏離原始配置的理由。
4.3結果
這項工作的廣泛範圍反映在我們所做的經驗觀察的類型上:我們将整體任務協定視為未來研究的推動者,是以我們展示了各種研究問題和主題,而不是對單個觀察提供深入分析。附錄G.1讨論了本研究如何從經驗上證明第2節中所述的R1-R3。
表1顯示了以AURC分數衡量的FD-Shifts基準的結果,附錄J中的可重複性研究證明,所觀察到的效應都不是由錯誤的重新實作引起的。
在實際的故障源範圍内,文獻中評估的方法都沒有超過簡單的Maximum Softmax Response基線。對于兩個分類器(CNN和ViT), softmax基線(MSR或MCD-MSR)在所有i.i.d上都顯示出最佳或接近最佳的性能。考慮到MisD, SC和OoD-D的文獻聲明,這是令人驚訝的:所有三種基于cnn分類器(DG-Res, Devries和confidenet)的測試方法都不能推廣到他們提出的場景之外,即更複雜的資料集(如iWildCam或breed)和協變量分布轉移(腐敗和子類)即使在他們提出的測試資料上,這三種方法都難以超越簡單的基線。
這些發現表明,迫切需要評估新提出的csf在各種資料集和分布變化中的故障檢測,以便得出一般的方法學結論。
流行的OoD-D方法僅适用于分布變化的狹窄範圍 拟議的評估方案首次允許研究主要的OoD-D方法在實際分布變化範圍内的相關性。雖然對于非語義的新類轉移(“遠OoD”),來自OoD- d的流行方法(MLS, MCD-MLS, MAHA)在兩個分類器上都表現出最佳性能,但它們的優勢在語義新類轉移上已經消失了(隻有SVHN上基于vitd的MAHA表現出最佳性能)。然而,在更細微的(有争議的更現實的)協變量位移的廣泛範圍内,OoD-D方法的表現遠遠優于softmax基線。這一發現指出了一個有趣的未來研究方向,即開發能夠在整個分布轉移範圍内檢測故障的csf。
AURC能夠解決以前分類器魯棒性和CSF性能之間的模糊問題 ConfidNet 的結果提供了一個生動的例子,在評估CSFs時,評估分類器性能和置信度排名在單個分數中的相關性。原始出版物報告了與MisD度量AUROCf測量的MCD-MSR基線相比,CIFAR-10和CIFAR-100的結果更好。這些結果在表9中得到了證明,但我們觀察到MCD對分類器訓練的有益影響,進而提高了準确率(見表8)。這就提出了一個問題:兩種方法(confetnet或MCD- msr)中哪一種最終會導緻更少的分類器無聲故障?一種方法直接幫助分類器産生更少的故障,而另一種方法似乎更善于檢測現有的故障(至少在具有更容易預防的故障的測試集中)?《AURC》通過在一個分數中表達這兩種效果來回答這個問題,這直接關系到防止無聲失敗的總體目标。這表明MCD-MSR基線在CIFAR-10和CIFAR-100的i.i.d測試集上優于confetnet。
ViT在大多數資料集上優于CNN分類器 圖8顯示了ViT和CNN分類器在幾個名額上的比較分析。對于AURC,除了iWildCam之外,ViT在所有資料集上的表現都優于CNN,這表明imagenet預訓練表征的域間隙對于這個任務來說可能太大了。這是一個有趣的觀察結果,因為CAMEL YON的特征圖像來自生物醫學領域,可以直覺地表示更大的領域差距。進一步觀察準确性和AUROCf性能,我們看到性能的提高明顯源于分類器準确性的提高5,但CSF排名性能與ViT和CNN相當(盡管與CNN相比,ViT的故障檢測任務可能更難,因為可檢測的故障較少)。
不同類型的不确定性在經驗上是無法區分的 考慮到文獻中不确定性測量與特定類型的不确定性之間的關聯(見附錄1),我們對這種關系在多大程度上可以通過我們實驗中的經驗證據來證明感興趣。作為一個例子,我們期望互資訊(MCD-MI)在模型不确定性應該很高的新類轉移上表現良好,期望熵(MCD-EE)在資料中固有的不确定性(在訓練期間看到)被認為是普遍的不确定性類型的i.i.d情況下表現良好。雖然,正如預期的那樣,MCD-EE在i.i.d測試集上的表現通常比MCD-MI好,但在分布變化中卻沒有觀察到相反的行為。是以,基于相關不确定性措施的預期收益,不能明确區分任意不确定性和認知不确定性。此外,與簡單的MCD-MSR基線相比,沒有觀察到基于熵的不确定性測量的一般優勢。
超過最大Softmax響應的CSFs産生校準良好的分數 我們主張在與置信度評分相關的研究中有一個明确的目的聲明,這對于大多數情況意味着置信度校準和置信度排序任務的分離(參見第2節)。然而,為了證明我們整體視角的相關性,我們擴充FD-Shifts來評估校準誤差,這是一種以前專門應用于softmax輸出的測量,所有考慮的csf。Platt縮放用于校準自然輸出範圍超過[0,1]的csf 。表10報告了csf的校準誤差,表明目前被忽視的超過MSR的csf提供了競争性校準(例如CNN上的MCD-PE或ViT上的MAHA),是以構成了使用者直接解釋的适當置信度分數。
這一觀察指出了一個潛在的研究方向,其中,類似于尋求在置信度排名中優于softmax基線的csf,可能有可能确定在廣泛的分布位移範圍内與softmax輸出相比産生更好校準的csf。
最大Softmax響應基線由于标準設定中的數值誤差而處于不利地位 運作我們的實證研究的推理産生tb級的輸出資料。當試圖通過将logit存儲為16位精度浮點數而不是32位精度浮點數來節省磁盤空間時,我們發現MSR基線的可信度排名性能大幅下降(降低了AURC和AUROCf分數)。這種影響是由數字錯誤引起的,在softmax操作期間,高logit分數被四舍五入到1,進而丢失了四舍五入分數之間的排名資訊。
令人驚訝的是,當傳回到32位精度時,我們發現舍入誤差發生的比率仍然很大,特别是在ViT分類器上(與CNN相比,它具有更高的準确性和置信度得分),表2顯示了不同浮點精度的錯誤率以及受影響的名額。至關重要的是,即使在預設的32位精度設定下,ViT分類器上的置信度排名仍然受到舍入誤差的影響(CNN的影響在AURC分數中是微不足道的),例如CIFAR-10上的AUROCf下降了9%,在BREEDS上下降了5.47%(即ImageNet資料)。這一發現對用于置信度排序任務(包括目前的OoD-D文獻)的任何基于vita的MSR基線都具有深遠的影響。
我們建議将logits轉換為64位精度(在我們的研究中執行),或者在softmax操作之前執行溫度縮放,以盡量減少舍入誤差。
進一步的結果 盡管與應用相關,但在研究中往往忽略了故障檢測的最後一步,即置信度評分的決策門檻值的定義。在附錄D中,我們提出了一種不需要校準分數的方法,并分析了其在分布移位下的可靠性。此外,附錄G列出了所有實驗的準确性和AUROCf結果。關于失效案例的定性研究,見附錄H。
5結論和要點
這項工作并沒有提出一種新的方法、度量或資料集。相反,在呼籲對現有方法進行更嚴格的了解之後和評估陷阱,其相關性來自于提供令人信服的理論和經驗證據,表明所有旨在檢測分類失敗的研究都需要對目前評估實踐進行審查。我們的結果生動地表明,對該領域的反思的需求超過了對新穎性的需求:在文獻中提出的流行方法中,沒有一種能夠在一系列實際故障源中優于softmax基線。是以,我們的關鍵資訊是:
1.對信心評分(包括MisD、OoD-D、PUQ、SC)的研究應該有一個明确定義的用例,并采用一個直接反映這一目的的有意義的評估協定。
2. 如果聲明的目的是檢測分類器的故障,則評估需要考慮對分類器性能的潛在影響。我們推薦将AURC作為主要名額,因為它在一個分數中結合了這兩個方面。
3.類似于故障預防(“魯棒性”),故障檢測的評估應該包括覆寫潛在故障源的一組現實的、細微的分布移位。
4. 故障檢測的綜合評估需要比較所有針對同一目标的相關解決方案,包括以前分離的領域的方法。
5. 我們的結果在資料集上的不一緻性表明需要在各種不同的資料集上評估故障檢測。
6. 對于任何與排名相關的任務,在softmax操作之前,logit應該轉換為64位精度或溫度縮放,以避免低于标準的softmax基線。
7. 超出softmax輸出的置信度評分函數的校準應被視為一項獨立的任務。
8. 我們的開源架構具有基線、度量和資料集的實作,允許研究人員執行有意義的信心評分函數的基準測試。