天天看點

CVPR2023:圖像分類中的學習瓶頸概念

作者:小小cv筆記
CVPR2023:圖像分類中的學習瓶頸概念

論文題目:

Learning Bottleneck Concepts in Image Classification

摘要

解釋深度神經網絡的行為對于許多任務都是至關重要的,可解釋的AI提供了一種解決這一挑戰的方法,主要是通過為決策提供逐像素相關性。然而,解釋這些解釋可能需要專業知識。最近一些對可解釋性的嘗試采用了基于概念的架構,在一些概念和模型決策之間給出了更高層次的關系。本文提出瓶頸概念學習者(BotCL),它僅通過在目标任務上訓練學習到的概念的存在/不存在來表示圖像,而不需要對概念進行明确的監督。它使用自我監督和定制的正則化器,使學習到的概念可以被人類了解。使用一些圖像分類任務作為我們的測試平台,我們展示了BotCL重建神經網絡以獲得更好的可解釋性的潛力。

1. 介紹

了解深度神經網絡(dnn)的行為是可解釋人工智能(XAI)領域的一個主要挑戰,特别是在醫療應用、識别dnn中的偏差等方面。大量的研究工作已經投入到事後解釋的事後範式中。這個範例産生一個關聯映射,以在輸入圖像中發現與模型決策互動的區域。是以,相關性映射隻告訴低級(或逐像素)關系,而不顯式地傳達決策背後的任何語義,解釋相關圖可能需要專業知識。

基于概念的架構的靈感來自于人類通過(下意識地)尋找更細粒度的概念來學習新概念的能力,并以不同的方式重用它們以獲得更好的識别。這個架構不是給出逐像素的相關性,而是在圖像和決策之間提供了由有限數量的概念介導的更高層次的關系。也就是說,通過給出圖像中的一組概念來解釋決策。是以,一旦對每個概念的解釋确定下來,對判決的解釋就很簡單了。

一些作品将概念用于事後範式,以便更好地解釋決策,而決策與圖像中的概念之間的聯系并不明顯。概念瓶頸結構使用概念的存在/缺失作為圖像表示(稱為概念激活)。分類器隻能通路概念激活,是以決策與概念緊密相關。這種瓶頸結構已經成為基于概念的架構的主流。

這個架構的一個主要困難是設計一組适合目标任務的概念,一種很有前途的方法是手工制作它們,這在本質上提供了更好的可解釋性,但代價是對概念進行額外的注釋,最近的嘗試自動發現概念。這些概念可能并不總是與人類(或模型)看待世界的方式一緻,并且可能需要一些努力來解釋它們,但是在沒有監督的情況下發現概念是一個顯著的優勢。

受這些工作的啟發,我們提出了瓶頸概念學習器(BotCL),用于同時發現概念和學習分類器。BotCL為給定的目标圖像分類任務優化概念,而不需要對概念進行監督。圖像僅由概念的存在來表示,并使用它們進行分類。我們采用了一種基于槽注意的機制來識别每個概念所在的區域。這為解釋決策提供了一個額外的信号,因為人們可以很容易地看到每個學習到的概念代表什麼,通過集體顯示訓練圖像與檢測到的概念。圖1顯示了來自ImageNet的示例。BotCL在資料集中發現了預定義數量的概念,這些概念通過幾個帶有注意圖的圖像來舉例說明。大白鲨的圖像由嘴的右側(圖1)和鳍(圖3)代表。BotCL使用單個全連接配接(FC)層作為分類器,這很簡單,但足以對每個概念和每個類的共存進行編碼。

CVPR2023:圖像分類中的學習瓶頸概念

貢獻 為了更好地發現概念,我們建議對概念使用自監督,靈感來自最近表征學習的成功。我們的消融研究表明,通過對比損失進行自我監督是關鍵。我們還嘗試了對概念本身的一些限制,即個體一緻性,使概念更具選擇性和互相獨特性,以便更好地覆寫各種視覺元素。這些額外的限制規範了訓練過程,并幫助模型學習更高品質的概念。

2. 相關工作

2.1. 可解釋的人工智能

XAI專注于揭示黑盒深度神經網絡。一個主要的方法是生成一個關聯圖,為模型的決策指明重要的區域。已經為特定的架構設計了各種方法,例如,用于卷積神經網絡的CAM和GradCAM;然而,相關圖的解釋可能并不總是顯而易見的,這就催生了不同的方法,包括基于上下文的方法。

2.2. 基于概念的可解釋性架構

為目标任務定義一組概念的直接方法是利用人類知識,這些概念可以量化它們對決策的重要性。大量的概念語料庫有利于深入研究dnn中的隐藏語義。這些方法屬于post-hoc XAI範式,但手工制作的一組概念也可以用作具有概念瓶頸結構的模型的額外監督。

手工制作一組概念可以提供更好的解釋性,因為它們符合人類的感覺;然而,注釋成本是不可忽略的。此外,這種手工制作的概念可能并不總是對dnn有用。這些問題激發了自動概念發現。超像素是查找低級語義的友善機關,概念是通過聚類來定義的。另一個有趣的方法是設計一組概念作為原始DNN特征的充分統計。這些方法純粹是為解釋而設計的,概念發現是在目标任務的訓練之外進行的。

概念瓶頸結構允許為目标任務優化一組概念,ProtoPNet采用這種結構,根據特征與概念之間的距離來識别概念,SENN使用重構損失的自我監督進行概念發現。SENN啟發我們使用自我監督,但我們采用的不是重建損失,而是量身定制的對比損失。對于自然圖像分類任務,這種對比損失對于概念發現至關重要。

3.模型

給定一個資料集D = {(xi, yi)|i = 1,2,…N},其中xi為圖像,yi為與xi相關的集合Ω中的目标類标簽。BotCL在學習原始分類任務的同時學習一組k個概念。圖2a顯示了BotCL的訓練方案概述,包括概念提取器、正則器和分類器,以及自我監督(對比和重建損失)。

CVPR2023:圖像分類中的學習瓶頸概念

對于新圖像x,我們使用骨幹卷積神經網絡Φ提取特征映射F = Φ(x)∈Rd×h×w。然後将F輸入到概念提取器gC中,其中C是一個矩陣,每個矩陣的κ-列向量cκ是一個待學習的概念原型。概念提取器産生概念瓶頸激活t∈[0,1]k,表示每個概念的存在,以及每個概念存在的區域的概念特征V∈Rd×k。t中的概念激活用作分類器的輸入,以計算分數s∈[0,1]|Ω|。我們使用自我監督和正則化器進行訓練,以t和V作為輸入來限制概念原型。

3.1. 概念提取器

概念提取器使用基于slot attention的機制來發現d中的視覺概念。我們首先在feature map F中加入位置嵌入P來保留白間資訊,即F ' = F + P。F '的空間次元是平坦的,是以其形狀為l × d,其中l = hw。slot-attention從cκ和F '中計算概念κ在空間次元上的注意力。設Q(cκ)∈Rd, K(F ')∈Rd×l分别表示cκ和F '的非線性變換,以具有三個FC層和一個ReLU非線性的多層感覺器給出。注意,akk∈[0,1]l使用歸一化函數φ(參考供應材料)為

CVPR2023:圖像分類中的學習瓶頸概念

這種注意表明了概念κ在圖1中出現的位置。如果概念κ不存在,則對應的akk項都接近于0。我們将每個概念的存在歸結為概念激活tκ,将akk的空間維數降為tκ = tanh(Σm aκm),其中aκm是akk的第m個元素。

3.2. 特征聚合

對于訓練,我們也将F中對應概念κ的特征聚合成概念特征vκ by

CVPR2023:圖像分類中的學習瓶頸概念

它給出了圖像特征在以注意力為權重的空間次元上的平均值。

3.3. 分類器

我們使用沒有偏置項的單個FC層作為分類器,并且概念激活t = (t1,…。, tk)為唯一輸入,作為概念瓶頸。形式上,設W為可學習矩陣,預測y∈R|Ω|由式給出

CVPR2023:圖像分類中的學習瓶頸概念

這個分類器可以大緻了解為學習類和概念之間的相關性。設wω為類ω∈Ω對應的W的原始向量,wωκ為其第κ-th元素。ωκ的正值意味着概念κ與資料集中的類ω共出現,是以它在新圖像中的存在積極支援類ω。同時,負值意味着概念很少同時出現。

4. 訓練

4.1. 概念發現的自監督

概念标簽的缺失促使我們将自監督融入到概念發現中。我們對不同類型的目标任務使用兩種損失。

重建損失 SENN使用類似自編碼器的結構來學習更好的表示。我們假設這種結構在視覺元素與位置緊密聯系的情況下工作得很好,因為即使是離散的概念也應該有足夠的資訊來重建原始圖像。基于這一假設,我們設計了一個自監督的重建損失。如圖2b所示,解碼器D隻将t作為輸入,對原始圖像進行重構。我們将重建損失定義為、

CVPR2023:圖像分類中的學習瓶頸概念

對比損失 自然圖像的構成具有很大的随意性,是以t中的資訊不足以重建原始圖像。是以,我們設計了一個簡單的損失作為替代方案,借用了最近成功的自監督對比學習的想法。

我們利用目标分類任務的圖像級标簽,設t = 2t−1k,其中1k為所有元素為1的k維向量。如果一對(t, t ')的概念激活屬于同一類(即y和y '對應于t和t '),它們應該彼此相似,因為對應的圖像中應該有一組相似的概念,否則不相似。類的數量|Ω|可以小于一個小批進行中圖像的數量|B|,這樣一個小批處理可以有多個相同類的圖像。是以,我們使用sigmoid代替softmax,導緻

CVPR2023:圖像分類中的學習瓶頸概念

其中α是減輕類不平衡問題的權重(參見補充材料)和

CVPR2023:圖像分類中的學習瓶頸概念

4.2 正則化概念

我們還使用概念正則化器來促進訓練,它們通過{vκ}限制概念原型{cκ}

個體的一緻性 為了更好的可解釋性,每個學過的概念不應該有很大的變化。即當tκ接近于1時,不同圖像的概念特征vκ和v ' κ應該是相似的。設Hκ為一個minibatch中不同圖像的所有概念特征的集合,其激活值大于經驗門檻值ξ,動态計算為一個mini-batch中tκ的均值。使用餘弦相似度sim(·,·),我們定義一緻性損失為:

CVPR2023:圖像分類中的學習瓶頸概念

其中第二次求和是對概念特征vκ和v ' κ的所有組合進行計算。這種損失會損害vκ和v ' κ之間較小的相似性。

共同的特殊性 為了捕捉圖像的不同方面,不同的概念應該涵蓋不同的視覺元素。這意味着在一個mini-batch中,由¯vκ = P vκ∈Hκ vκ給出的概念κ的平均圖像特征應該不同于任何其他vκ '。我們可以把它編碼成損失項

CVPR2023:圖像分類中的學習瓶頸概念

對所有概念的組合進行求和,注意,如果小批圖像中沒有概念κ,則概念κ被排除在此損失之外。

4.3. 量化損失

概念激活t可以用二值充分表示,但我們使用連續值進行訓練。我們設計了一個量化損失保證值接近于0或1,由

CVPR2023:圖像分類中的學習瓶頸概念

式中,abs(·)給出單元絕對值,∥·∥給出歐幾裡得範數。

4.4. 全部損失

我們使用softmax交叉熵來處理目标分類任務的損失,該損失由lcl提供。BotCL的總損失由上述損失組合定義為

CVPR2023:圖像分類中的學習瓶頸概念

其中lR是lrec或lret,取決于目标域,λqua, λcon, λdis和λR是平衡每一項的權重。

5. 結果

5.1. 實驗設定

我們在MNIST、CUB200和ImageNet上評估了BotCL。為了評估發現的概念,我們重新生成了一個合成形狀資料集(synthetic)。

對于MNIST,我們對骨幹網和概念解碼器應用了與[1]相同的網絡。對于CUB200(與[22]相同的資料分割)和ImageNet,我們使用預訓練的ResNet作為主幹,使用1 × 1的卷積層将通道數(ResNet-18為512,ResNet-101為2048)減少到128。我們為MNIST選擇了k = 20的概念數,為其他自然圖像資料集選擇了k = 50的概念數。為了生成Synthetic,我們遵循[46]的設定,其中生成18,000張圖像用于訓練,2,000張用于評估。我們使用k = 15和ResNet-18骨幹網。

圖像被調整為256 × 256,裁剪為224×224(合成中的圖像直接調整為224×224)。在訓練過程中,隻使用随機水準翻轉作為資料增強。每個損失的權重預設為λqua = 0.1, λcon = 0.01, λdis = 0.05, λR = 0.1。

5.2. 分類性能

我們将BotCL的性能與相應的基線(LeNet用于MNIST, ResNet-18用于其他具有線性分類器的基線)、我們重新實作的k-means和PCA以及最先進的基于概念的模型進行了比較。表1總結了結果,具有對比損失的BotCL (BotCLCont)在CUB200、ImageNet和Synthetic上達到了最好的準确率,優于基線線性分類器。它也可以與MNIST和Synthetic上的最先進技術相媲美。具有重建損失的BotCL (BotCLRec)的性能比CUB200、ImageNet和Synthetic有所下降,但在MNIST上優于BotCLCont。這種行為支援了我們的假設,即隻有當概念與其空間位置緊密相關時,重建損失才有用。否則,t不足以重建原始圖像,BotCL失敗,對比自我監督是促進概念發現的關鍵。

CVPR2023:圖像分類中的學習瓶頸概念

我們還探讨了類的數量和BotCL在CUB200和ImageNet上的準确率之間的關系,我們使用小型和大型ResNet變體作為主幹。我們提取了由前n個類和類id組成的資料集的子集。圖3顯示,當類的數量少于200時,BotCL具有競争力的性能。我們得出結論,BotCL幾乎不會降低小型或中型資料集的分類性能。然而,對于n > 200的情況就不是這樣了(對于較大的n和不同的k,請參考參考資料)。

CVPR2023:圖像分類中的學習瓶頸概念

5.3. 可解釋性

5.3.1對發現的概念進行定性驗證

圖4a顯示了在MNIST上的κ,在圖像中顯示了概念κ。我們從訓練集中最頻繁激活(即tκ > 0.5)的20個概念中選擇了5個概念。以數字0和9為例,我們可以看到它們共享Cpts.3-5,唯一的差別是位于9垂直筆畫的下緣的Cpt.2。這個筆劃是針對數字9的。我們使用了BotCLRec,是以我們可以在重建之前删除Cpt.2,這将生成一個類似于0的圖像(參見第5.3.3節)。有些概念與人類的直覺不相容;然而,我們可以解釋這樣的概念(例如,Cpt.1可能關注完成一個圓的缺失筆畫)。

CVPR2023:圖像分類中的學習瓶頸概念

對于CUB200,我們用n = 50和k = 20來訓練BotCLConst。圖5a為黃頭黑鳥圖像的注意圖。我們可以觀察到Cpts.1-5的注意覆寫了不同的身體部位,包括頭,翅膀,背,腳,這證明BotCL也可以從自然圖像中學習有效的概念。補充材料例證了從MNIST和CUB200中發現的所有概念。

CVPR2023:圖像分類中的學習瓶頸概念

5.3.2各概念的一緻性和獨特性

BotCL的目的是發現單獨一緻和互相獨特的概念,我們通過在圖4b中顯示每個概念及其前5個激活圖像5和注意圖來定性地驗證這一點。對于MNIST,不同的概念涵蓋不同的模式,每個概念涵蓋不同樣本(甚至不同類的樣本)中的相同模式。圖5b顯示了BotCL在CUB200資料集上呈現了類似的行為;也就是說,前5個概念負責不同的模式,并且每個概念都是一緻的。

5.3.3每個概念在推理中的貢獻

我們可以定性地看到每個概念的貢獻,通過去除概念,看到相應的自我監督任務輸出的變化。如圖4c所示,當我們将Cpt.2(負責數字9的垂直筆畫)的激活設定為0時,重建的圖像看起來像數字0。當Cpt.1(代表數字7的圓不存在)去激活(即t1設為0)時,重構圖像的上部出現一個圓。生成的圖像看起來更像數字9。

對于圖5c所示的CUB200,我們在資料集中顯示了與圖5a中輸入圖像最相似的圖像,以tut - tut '為标準,并對每個概念進行了消融。當Cpt.1(負責黃頭)被停用時,更多的黑頭鳥圖像出現在前8張圖像中。Cpt.5覆寫了鳥類的腳,在大多數鳥類中都很常見。停用這個概念不會改變前8個圖像。這些觀察結果表明,盡管一些概念對分類性能沒有貢獻,但概念組合可以成功地表示圖像。

5.4. 合成物定量評價

基于概念的方法的一個問題是缺乏對概念的既定定量評價,因為概念的選擇可能是任意的,并且可以用不同的概念集實作相同水準的可表征性。單個預定義的概念集不足以評價所發現概念的好壞。文獻對概念進行了定性評估(如第5.3節)或通過使用者研究(如第5.5節)。

我們決定使用Synthetic對概念進行定量評估。這個任務是一個涉及15個形狀的多标簽分類。5個形狀的組合(如圖6a, S.1至S.5所示)形成15個類,其他10個形狀為噪聲6。當形狀的面積和概念κ的面積(BotCL中akk > γ的面積,其中γ = 0.9是預定義門檻值)重疊時,我們認為形狀被概念κ覆寫,設hsκ = 1表示形狀s與概念κ重疊,否則設hsκ = 0。概念κ對s的覆寫由下式給出

CVPR2023:圖像分類中的學習瓶頸概念

其中,對概念κ激活的測試集中的圖像計算期望。概念和5個形狀作為組合優化問題相關聯,以便coveragesk / s的總和最大化。

我們使用k = 15來訓練BotCL,圖6a顯示了與每個形狀相關的概念。對于具有最高概念激活tκ的6幅圖像,一個概念由akk定位。這些概念涵蓋了相對較小區域的相關形狀,但一個概念通常涵蓋多個形狀。這在顯示Coveragesκ的圖6b中可以進一步證明。Cpt.8隻涵蓋了S.3,而Cpt.1和Cpt.13涵蓋了多個形狀。

CVPR2023:圖像分類中的學習瓶頸概念

我們使用除準确性之外的三個名額來評估概念發現的性能8:(i)完整性衡量概念在資料集中覆寫其相關形狀的程度。(ii)純潔性表明有能力發現隻涉及單一形狀的概念。獨特性根據覆寫範圍對概念之間的差異進行量化。

對比損失的BotCL與ACE進行比較,并比較了兩個基線PCA和k-means。我們在空間次元平坦化後,對資料集中所有圖像的F應用k-means或PCA。聚類中心或主成分被視為概念。注意圖可以通過歐氏距離或餘弦相似度來計算,一旦獲得了注意圖,我們就按照BotCL的過程進行分類。

如表2所示,BotCL比比較方法具有更好的完整性、獨特性和準确性得分。雖然k-means能夠發現概念,但沒有針對目标分類任務進行優化,性能較低。正如我們所讨論的,BotCL學習的概念往往涵蓋多個目标形狀,導緻純度相對較低。k-means的聚類中心以完整性為代價隻能捕獲一種形狀。我們還可以觀察到,所有方法都受到概念數k的影響,通常較大的k可以確定在所有名額上具有更好的性能。這個結果并不令人驚訝,但是我們證明了較大的k對于更好的可解釋性是可取的。我們詳細介紹了資料集的生成,PCA和k-means的實作,以及供應材料中度量标準的正式定義。

CVPR2023:圖像分類中的學習瓶頸概念

5.5. 使用者研究

我們的使用者研究旨在用現實資料集評估BotCL,以應對人類了解的挑戰。參與者被要求觀察帶有概念κ注意圖(參見5.3.2節)的測試圖像,并在預定義的詞彙表中選擇一些最能描述概念的短語(即被關注的區域)。如果他們找不到任何一緻的視覺元素,他們也可以選擇None。我們為MNIST的每個概念招募了20名參與者,為使用Amazon Mechanical Turk的CUB200招募了30名參與者。

我們定義了三個名額來總結參與者的反應。(i)概念發現率(CDR):不是None的回應與所有回應的比率。更高的CDR意味着參與者可以為許多概念找到一些一緻的視覺元素。(ii)概念一緻性(CC):在所有對參與者的回答中精确比對的比率。高值意味着許多參與者使用相同的短語來描述一個概念。(iii)概念之間的互相資訊(MIC):在所有可能的概念對上計算的響應分布的相似性。當包含多個概念時,此值很高相同的視覺元素;是以,越低越好。

為了進行比較,我們還對相同的圖像評估了手動注釋和随機塗鴉。表3顯示了BotCL在兩個資料集(接近手動注釋)上的所有名額上都獲得了很好的分數,表明學習到的概念對人類來說是可解釋的(來自CDR)、一緻的(來自CC)和互相不同的(來自MIC)。更多細節見補充材料。

CVPR2023:圖像分類中的學習瓶頸概念

5.6. 消融實驗

我們使用預設的超參數進行消融研究,除了待探查的超參數。由于對CUB200和ImageNet沒有ground truth概念,是以隻評估精度(圖7a)。對于Synthetic,精确度和5.4節中的三個名額被采用(圖7b)。

CVPR2023:圖像分類中的學習瓶頸概念

k的影響 較小的k會降低準确性和其他名額,這意味着需要搜尋最少數量的概念。此外,當k很大時,對所有資料集的訓練都傾向于失敗(詳見補充材料)。概念的數量應該針對每個資料集進行調整,這種敏感性是BotCL的局限性之一。

λqua的影響 這個超參數控制t與二進制的接近程度,當λqua逐漸增加時,精度和其他名額變差。BotCL将一些資訊編碼到t中(比如一個概念占用的面積),在較大的λqua中丢失,極值也可能導緻梯度消失。

λcon和λdis的影響 個體一緻性和互相顯著性損失幾乎不會影響CUB200和ImageNet上的性能,盡管我們可以看到當CUB200的值為零時略有下降。對于Synthetic,性能名額根據其設計而變化。同時,精度對這些超參數相對不敏感。概念的選擇可能是高度任意的、不同的概念集可能實作相似的分類性能,這種随意性可能允許為目标任務設計專用的概念正則化器。然而,當訓練目标設定得很大時,訓練失敗就會發生,小值有益于訓練。

λR的影響 由于重構損耗的性能較低,我們隻研究了對比損耗的影響,對比損失幾乎總能提高分類精度。在CUB200和Synthetic中,性能提升非常顯著。由于ImageNet有更多的訓練資料,這可能意味着在訓練樣本有限的情況下,自我監督對概念的學習有很大的幫助。這些結果證明了對比損耗的重要性。這很有趣,因為這種損失與分類損失使用相同的标簽。

6. 結論

本文提出了學習瓶頸概念的BotCL,我們的定性和定量評估表明,BotCL能夠在沒有明确監督的情況下,通過目标分類任務的訓練來學習概念,我們還證明了BotCL可以提供其決策和學習概念本身的可解釋性的局限性。BotCL的一個限制是它需要為每個資料集調整k個概念的數量,估計k可能是一個有趣的研究方向,例如,基于給定分類任務中的類數,我們将調查這一現象以緩解這一問題。

繼續閱讀