天天看點

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

上海交通大學聯合華為諾亞方舟實驗室 AI 基礎理論團隊和香港科技大學近期發現:多元度 OoD 現象在多個資料集廣泛存在。和之前論文 Domainbed 的研究結論 OoD 算法無法打敗 ERM 不同,現有的 OoD 算法大部分隻能在一個次元的 OoD 問題上打敗 ERM 算法,在另一個次元的 OoD 問題上則無法打敗 ERM 算法。

團隊提出一種新的面向非獨立同分布域泛化問題的評價名額 OoD-Bench 《OoD-Bench: Benchmarking and Understanding Out-of-Distribution Generalization Datasets and Algorithms》, 已投稿 。該工作提出了一種更好更全面的評價 Out-of-Distribution (OoD)算法的名額,同時對 OoD 領域建構了一個統一的架構。

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?
論文連結: https://arxiv.org/pdf/2106.03721v1.pdf

研究背景

傳統的機器學習算法,通常假設訓練樣本和測試樣本來自同一機率分布 Independent and Identically Distributed (i.i.d.)。但是對于 Out-of-Distribution (OoD)場景,即訓練樣本的機率分布和測試樣本的機率分布不同的情況,訓練出的模型很難在目标域取得良好的表現。現有機器學習系統的可靠性已經在多個重要應用領域收到廣泛關注比如醫學圖像處理,自動駕駛場景及安全系統。

盡管近年來已經有許多 OoD 算法被提出,如何了解訓練資料以及更好的衡量 OoD 算法仍然是一項具有挑戰性的任務。本文識别和度量出兩種在現實生活中 OoD 資料集廣泛存在的 correlation shift 和 diversity shift 資料偏移問題,通過大量實驗分析現有 OoD 算法在這兩類基準資料集上的表現。同時,本文将多種之前聯系較少的不同領域算法與資料集統一在 OoD 研究的架構之下,為之後對人工智能内在機制的研究提供統一的基準和衡量名額。

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

圖 1:不同的資料集存在多種次元的資料偏移:左右兩邊分别是典型的包含 Diversity shift 和 Correlation shift 的資料集,此外,現實中有很多 OoD 資料集是同時包含了這兩種資料偏移。

深度學習中的分布外 (OoD) 泛化是指模型在分布變化的場景下進行泛化的任務。我們假設在訓練的過程中模型可以接觸到相同任務但來自于不同環境與實驗條件的資料集。OoD 泛化算法的目标是提取這些訓練的不變性表征,假設這種不變性表征也能在未知的測試環境中保持。近年來,許多相關 OoD 算法被提出并聲稱在特定類型的基準測試集上超越了所有先前的工作。然而,最近的一項工作表明,目前大多數為 OoD 泛化設計的學習算法,仍然與經典的經驗風險最小化方法 ERM 相當。

本文通過大量實驗驗證現有 OoD 算法的有效性,并揭示了一個看起來并不比 ERM 好很多的可能原因。事實表明,表現出分布變化的現有資料集通常可以分為具有不同特點的兩類,如圖 1 所示,大多數算法隻能最多在其中一個類别資料集中超過 ERM。研究假設這種現象是由于兩種不同的分布偏移的影響,即多樣性遷移

(Diversity shift) 和相關性遷移(Correlation shift),而先前的工作往往隻關注其中之一。

基于大量的實驗和分析,本文為之後的 OoD 泛化研究提出了三點建議:

  1. OoD 算法應在兩種類型的資料集上進行全面的評估,一種以多樣性偏移 (Diversity shift) 為主,另一種以相關性偏移 (Correlation shift) 為主。這兩種分布可以通過該研究的量化方法測量偏移;
  2. 在設計 OoD 算法之前可以先探究所要解決的 OoD 問題中分布偏移 (Distribution shift) 的性質,對于不同類型分布偏移的最佳處理方式可能不同;
  3. 設計能夠更巧妙地捕捉現實世界分布變化的大規模資料集。該研究的實驗與分析顯示,人眼難以察覺的分布變化對于神經網絡的可靠性也有很明顯的影響。

方法概述

在監督式學習的設定下,不妨假設:輸入變量 X 是由一系列潛變量決定的,可以把這些潛變量一分為二,記作 Z1 和 Z2,其中隻有 Z1 才能決定目标變量 Y 。

給定訓練和測試環境及其相關的機率密度函數 p 和 q,在假設不存在 label shift 的前提下,符合下列條件的 Z1 的存在使分布外泛化成為可能:

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

另一方面,符合相反條件的 Z2 的存在使分布外泛化變得困難:

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

Diversity shift 就是由滿足 Z2 第一個條件的特征所引發的,而 correlation shift 則是由滿足第二個條件的特征所引發的。

Diversity shift 的标志是僅出現在訓練環境,沒有出現在測試環境中的特征(或者相反)。例如在 PACS 裡,照片中的色彩在速寫中完全消失。可以把這些特征記作:

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

于是 diversity shift 就被定義為:

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

當 n=1 時,它們的含義可以被描繪如下:

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

圖 2:Diversity shift 和 correlation shift 的描繪。

Diversity shift 等于左圖彩色區域面積總和的一半。Correlation shift 是在點集上的積分,每個被積分式的值可以被看作右圖彩條高度之和的一半,乘上作為權重的兩機率值乘積的平方根。

實際計算時,通過訓練一個神經網絡來提取計算所需的特征,以便進行估算。在各種資料集上的估算結果如下:

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

圖 3:對于多種不同資料集度量 diversity shift 和 correlation shift。

這一結果與直覺相符:現有的大多數分布外泛化基準資料集都落在坐标軸之上或附近,意味着它們都隻被兩者之一所主導。對于存在不明分布偏移(distribution shift)的資料集,例如 ImageNet-A,ImageNet-R 和 ImageNet-V2,該研究的方法成功地将其所具有的偏移分解到 diversity 和 correlation 兩個次元上,是以可以通過該研究的估計結果來針對不同的資料集選擇合适的算法。

如接下來的 benchmark 結果所示,這類算法選擇可能是關鍵的,因為大多數分布外泛化算法不能同時在兩類資料集上都表現好,一類是被 diversity shift 所主導,另一類是被 correlation shift 所主導。

實驗

該研究對 16 種不同算法 (ERM、GroupDRO、Mixup、 MLDG、DANN、CORAL、MMD、IRM、VREx、ARM、MTL、 SagNet、RSC、ANDMask、IGA、ERDG) 在 7 種不同 OoD 資料集 (PACS、 OfficeHome、Terra Incognita、WILDS-Camelyon17、Colored-MNIST、 NICO、CelebA) 上的表現進行了測試和分析。

實驗結果

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

表 1:ERM 和 OoD 算法在偏向 Diversity shift 資料集上的結果。

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

表 2:ERM 和 OoD 算法在偏向 Correlation shift 資料集上的結果。

基準測試結果如表 1 和表 2 所示,除了平均準确度和标準誤差,該研究還計算了每個算法相對于 ERM 的排名分數。具體來說,對于每個資料集 - 算法對,每個算法與 ERM 相比分别賦予分數: -1(低于),0(相當),1(高于)。最後将表中所列出的資料集分數相加得出排名分數。該排名分數反映了 Diversity shift 與 Correlation shift 的相對程度魯棒性。從中可以看出,多數現有的 OoD 算法與 ERM 相比,并不能取得持續的性能提升。比如在 diversity shift 主導的資料集上 MMD、RSC、IGA 和 SagNet 的結果比 ERM 要高,但是在 correlation shift 主導的資料集上與 ERM 相比會低。

是以,該研究提出了衡量一個 OoD 算法的有效性,應該同時測試 diversity shift 和 correlation shift 兩個次元的 OoD 性能。

可視化分析

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

圖 4: Attention 可視化效果圖。

圖 4 展示了不同算法所學到表征的可視化效果。由于篇幅所限,這裡選擇展示了兩個具有代表性的算法: RSC 和 VREx,用于與 ERM 作比較。左邊兩列是來自 PACS 的圖檔,RSC 顯示出比 ERM 和 VREx 更好的效果,因為 RSC 具有更廣的關注範圍,是以能捕捉到更多的全局結構資訊而不是局部細節。右邊的兩列是來自 NICO 的樣本,從圖中可以看出,RSC 的注意力被非因果和局部特征(如背景和身體部分)吸引。相比之下,ERM 覆寫了更多的區域,包括感興趣的目标位置,而 VREx 的注意力更加多樣化,覆寫分散在整個圖像中的不同區域。此外,注意力強度較弱,表明 VREx 不容易對虛假相關性過度自信。

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

圖 5: 對于 Colored MNIST 資料集,在不同的色彩分布下,估測 diversity shift 和 correlation shift。

圖 5 是對多樣性偏移與相關性偏移的估計。為了驗證本文量化估計方法的魯棒性,該研究對 Colored-MNIST 資料集進行消融實驗研究,以檢查是否可以産生穩定的結果,反映改變顔色變化時的預期趨勢。

對比實驗

分布外泛化,「經驗風險最小化ERM」真的是最好的算法麼?

表 3:在隻有一個訓練環境的情況下對于 Colored MNIST 資料集測量 diversity shift。

該研究還将 OoD-Bench 與其他測量方法進行比較,表 3 顯示了在 Colored-MNIST 資料集上的結果。結果發現,一般用于衡量分布之間差異的名額,比如 EMD 和 MMD,對 OoD 資料集中的相關性偏移不敏感,而 EMD 資料集同時對多樣性變化不敏感。雖然 NI 可以在相關性偏移上産生比較結果,但它仍像 EMD 和 MMD 一樣是一維的,無法區分資料集中存在的各種分布變化。該研究的方法提供了更穩定和可解釋的比較結果。

總結

本文識别和量化 OoD 資料集兩種主要的分布偏差: diversity shift 和 correlation shift,并闡明了一些真實世界的資料,未知分布變化的本質。此外,該研究還通過大量實驗,展示了現有 OoD 算法的優勢與劣勢。結果表明,未來的算法必須同時在兩種類型資料集進行綜合評估,以便完整的評估 OoD 算法的性能。

繼續閱讀