CVPR 2024｜FairCLIP：首個多模态醫療視覺語言大模型公平性研究

作者 | 哈佛大學、紐約大學團隊

編輯 | ScienceAI

公平性在深度學習中是一個關鍵問題，尤其是在醫療領域，這些模型影響着診斷和治療決策。盡管在僅限視覺領域已對公平性進行了研究，但由于缺乏用于研究公平性的醫療視覺-語言(VL)資料集，醫療VL模型的公平性仍未被探索。

為了彌補這一研究空白，我們介紹了第一個公平的視覺-語言醫療資料集（FairVLMed），它提供了詳細的人口統計屬性、真實标簽和臨床筆記，以便深入檢查VL基礎模型中的公平性。

使用FairVLMed，我們對兩個廣泛使用的VL模型（CLIP和BLIP2）進行了全面的公平性分析，這些模型在自然圖檔和醫療圖檔領域都有預訓練，涵蓋了四個不同的受保護屬性資訊。

我們的結果突出顯示了所有VL模型中的顯著偏見，亞洲人、男性、非西班牙裔和西班牙語者分别是種族、性别、族裔和語言這些受保護屬性中的首選組别。為了減輕這些偏見，我們提出了FairCLIP，一種基于optimal-transport的方法，通過減少整體樣本分布與每個人口統計組之間的Sinkhorn距離，實作了性能和公平性之間的有利折衷。

作為首個研究公平性的VL資料集，FairVLMed對研究模型公平性實作既具有倫理意識又在臨床上有效的機器學習模型的潛力。

在這裡分享一篇哈佛大學和紐約大學研究團隊的CVPR 2024論文：「FairCLIP: Harnessing Fairness in Vision-and-Language Learning」。

在本次工作中, 我們提出了開創性的關于多模态視覺語言大模型的公平性的研究，針對這項研究我們收集了第一個帶有公平性族裔名額的視覺語言醫療大型資料集，并且提出了針對視覺語言預訓練的方法FairCLIP來嘗試提升不同組别的公平性（讓不同組别的準确率接近）。

論文位址: https://arxiv.org/pdf/2403.19949.pdf

代碼位址: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP

資料集網站：https://ophai.hms.harvard.edu/datasets/harvard-fairvlmed10k/

資料集下載下傳連結: https://drive.google.com/drive/u/1/folders/1bkeifigwOAfnsLvup9mJOSNeA3WsvA2l

Harvard-Ophthalmology-AI-Lab 緻力于提供高品質公平性資料集更多公平性資料集。

Lab的資料集首頁：https://ophai.hms.harvard.edu/datasets/

研究背景

近年來，公平性在深度學習領域受到了越來越多的關注。這一點尤其重要，特别是在醫療領域，這些深度學習模型影響着診斷和治療決策。這些模型中與種族、性别或社會經濟地位等因素相關的偏見可能導緻醫療服務差距和不利的患者結果。

是以，確定這些模型無偏見不僅是道德和法律要求，也是確定患者安全和醫療公平的必要條件。這使得在醫療計算機視覺領域中的公平性成為一個關鍵且迫切的問題，對于提供公平的醫療服務至關重要。

先前的研究已經發現了基于深度學習的醫學圖像模型中的偏見，主要集中在胸部X光診斷上。與這些僅限視覺的模型不同，近期視覺-語言（VL）基礎模型的興起設定了跨越廣泛任務領域的新基準。然而，盡管這些VL模型表現出色，它們的公平性仍然不明确。

鑒于僅限視覺的模型存在偏見，以及臨床醫學報告的人工編寫特性，VL模型可能會進一步加劇公平性問題。是以，随着深度學習領域向多模态基礎模型的轉移，審視視覺和文本的互相作用如何影響算法結果的公平性變得越來越關鍵。然而，進行此類調查的目前環境受限于缺乏包含全面人口統計資訊的VL資料集，現有的公共VL資料集主要關注胸部X光。

先前的研究已經突出顯示，使用這些資料集研究公平性面臨挑戰，因為它們的真實标簽是從放射學報告中自動提取的，可能由于标簽噪聲導緻不準确的公平性結論。此外，由于這些資料集主要不是為了公平性設計的，它們隻提供少數人口統計特征，限制了進行跨多個次元的全面公平性研究的潛力。更進一步，放射學報告主要關注對成像資料的直接觀察，很少包含額外的特定于患者的資訊，不代表大多數臨床文本，是以限制了它們在醫學VL模型公平性研究中的實用性。

為了彌補這一研究差距，我們介紹了第一個用來研究公平性的視覺-語言醫療資料集（簡稱FairVLMed），它提供了詳細的人口統計屬性、真實标簽和臨床醫學報告，以促進對VL基礎模型内公平性的深入檢查。

FairVLMed包含了10,000名患者的記錄，每個記錄都與一張SLO視網膜圖像和一份用于診斷青光眼的臨床醫學報告配對，同時包括如年齡、性别、種族、族裔、首選語言和婚姻狀況等詳細的受保護屬性。

與放射學報告不同，我們資料集中的臨床醫學報告提供了更為詳細的資訊，不僅包括圖像描述，還包括藥物、非影像測試結果和家族史等豐富的非影像臨床資訊。是以，這些臨床醫學報告更具代表性，更适合用于研究醫學VL模型的公平性。

青光眼影響着全球數百萬人，它展現了公平診斷模型的需求。及時檢測對于避免不可逆轉的視力損失至關重要。然而，許多患者由于這種疾病的無症狀性質和眼科護理的障礙而未被診斷。此外，未診斷的問題在少數族裔中尤為突出。例如，以往的研究表明，相比于白人群體，黑人社群的個體未診斷和未治療的青光眼的可能性高4.4倍，這凸顯了解決醫療差異的重要性。

深度學習系統對于改善醫療保健具有重大潛力。然而，在這些深度學習系統臨床實施之前，解決潛在的公平性問題是必要的，以確定公平的醫療服務提供。

在這項工作中，我們使用兩種廣泛使用的VL方法（即CLIP和BLIP2）在FairVLMed上進行了廣泛的公平性分析。我們的實驗結果揭示了基于種族、性别、族裔和語言的各種群體之間存在顯著準确性差異。

為了解決這些公平性問題，我們引入了一種基于optimal transport的方法，命名為FairCLIP。FairCLIP旨在通過優化Sinkhorn距離來增強公平性，進而使整體樣本特征分布與每個人口統計組的特征分布對齊。

我們的主要貢獻可以總結如下：

我們介紹了第一個公平的視覺-語言醫療資料集（FairVLMed），它具有詳細的人口統計屬性、真實标簽和臨床醫學報告，用于研究VL基礎模型的公平性。
使用FairVLMed，我們對兩個廣泛使用的VL模型（即CLIP和BLIP2）進行了全面的公平性分析，這些模型在自然和醫療領域都進行了預訓練，涉及四個不同的受保護屬性。
我們的結果突出顯示了所有VL模型中的顯著偏見，亞洲人、男性、非西班牙裔和西班牙語者分别是種族、性别、族裔和語言這些受保護屬性中的首選亞組。
我們提出了一種名為FairCLIP的基于optimal transport的方法，它在性能和公平性方面都顯著優于CLIP。

如何獲得大量的配對的視覺語言醫療資料

本研究中的資料來自2015至2022年間青光眼服務的受試者來自哈佛醫學院的馬薩諸塞眼耳醫院。本研究将包含了三類資料：（1）掃描雷射眼底攝影（SLO）眼底圖像；（2）人口身份群體資訊；以及（3）由眼科醫生撰寫的去辨別化臨床筆記，以提供青光眼診斷的總結。

SLO眼底圖像是評估青光眼等疾病引起的視網膜損傷的有價值标志。每張SLO眼底圖像都與六個人口身份屬性相關聯，包括年齡、性别、種族、族裔、首選語言和婚姻狀況。附帶的臨床筆記長度不一，這些筆記可能較長的描述評估、治療計劃和診斷政策，并被認為與SLO眼底圖像中的視覺語義相對應。

圖1展示了兩個SLO眼底圖像及臨床筆記的示例。受試者被分為非青光眼（通過視野（VF）測試測量的視覺功能正常：VF平均偏差≥-1 dB且VF青光眼半視野測試和模式标準偏差（PSD）結果正常）和青光眼類别（通過VF測試測量的視覺功能異常：VF平均偏差<-3 dB且VF青光眼半視野測試和PSD結果異常）。

受保護資訊Deidentify

原始臨床筆記可能包含受保護的敏感資訊，如青光眼診斷日期、患者姓名、電話号碼、電子郵件位址、實體位置、機構等。我們通過以下三個步驟去辨別這些敏感資訊。

首先，我們使用Microsoft的Presidio工具對所有臨床筆記進行匿名處理，将敏感資訊替換為相應的占位符（例如，PERSON NAME, PHONE NUMBER, LOCATION），以便保持原始句子結構和連貫性。

然後，我們使用規則比對并去辨別Presidio未完全識别的受保護資訊（例如，實體位址）。

最後，去辨別化的臨床醫學報告由四位醫學專家進一步驗證。特别是，每份臨床筆記都由一位專家檢查，必要時将敏感資訊手動替換為相應的占位符。

資料特征

FairVLMed資料集包括來自10,000名受試者的10,000個樣本。它被劃分為7,000個訓練樣本、1,000個驗證樣本和2,000個測試樣本。

資料集的平均年齡為60.9 ± 16.2歲。資料集包括來自三個主要群體的樣本：亞洲人，819個樣本；黑人，1,491個樣本；白人，7,690個樣本。在性别方面，女性占受試者的56.3%，其餘為男性。種族分布以90.6%的非西班牙裔、4.0%的西班牙裔和5.4%的未指定為特點。

在首選語言方面，92.5%的受試者偏好英語，1.7%偏好西班牙語，0.8%偏好其他語言，5.0%未知。從婚姻狀況角度看，57.4%已婚或有伴侶，26.4%單身，6.6%經曆過離婚，1.0%法律分居，6.1%喪偶，2.5%未指定。去辨別化後，臨床筆記的詞數從11到332詞不等，平均詞數為147詞。

用來提升視覺語言基礎模型公平性的方法FairCLIP

如上圖所示，我們提出的FairCLIP架構旨在預訓練階段提高公平性。這是通過最小化不同種族群體（或其他基于屬性的群體）之間視覺和語言特征相關性M_{I,i}的機率分布之間的差異來實作的。

其中 d 是一個距離函數是計算上不可行的潛在分布。我們在方程中使用基于批次的分布，B_a表示批次中的樣本來自群體 a。

為了優化目标，一種直接的方式是最小化兩個分布之間的Kullback–Leibler (KL) 散度。然而，KL散度不對稱且不滿足三角不等式，是以不是真正的距離度量。相反，我們遵循文獻引用，最小化兩個分布之間的Sinkhorn距離。Sinkhorn距離是一種機率度量和Wasserstein距離的變種。兩個分布之間的Sinkhorn距離定義為：

Sinkhorn損失将被添加到CLIP在預訓練階段使用的損失中，以優化CLIP的公平性。

實驗

我們采用兩種類型的評估政策——– linear probing and zero-shot transfer。對于linear probing，我們遵循官方的MAE實作，在CLIP和BLIP2的視覺特征上分别訓練一個線性分類器。類似于MAE，線上性分類器前我們使用了一個BatchNorm層，并采用了LARS優化器，基礎學習率為0.1，權重衰減為0，批量大小為512。對于zero-shot transfer ，我們采用了和CLIP原文一緻的做法。

表2展示了linear probing的結果，檢查了各種性能（AUC）和公平性（DPD、DEOdds、ES-AUC）名額，以及在每個四個受保護屬性内的個别子群體中報告了群組AUC得分。我們主要關注随後分析中的ES-AUC名額，因為它捕捉到了整體性能以及公平性的概念——這兩者對于安全關鍵的醫療應用都很重要。表2展示了各種受保護屬性中VL性能的差異，以及不同VL預訓練領域（自然圖像 vs. 醫療圖像）和VL預訓練方法（CLIP vs. BLIP2）對模型性能和公平性的影響。

表3比較了CLIP與FairCLIP在兩種不同架構（ViTB/16和ViT-L/14）以及四種不同受保護屬性上的zero-shot transfer的準确性。CLIP和FairCLIP都是通過不帶監督資訊（即标簽）的圖像和臨床筆記對進行微調的。然後，得到的模型在分類任務中進行評估。CLIP在種族、性别、族裔和語言等屬性的群組AUC中表現出顯著差異，表明在青光眼檢測中存在偏見。總體而言，FairCLIP在公平性名額（DPD、DEOdds）以及各種人口子群的ES-AUC和AUC分數方面，都顯著優于CLIP。

表5顯示了更多的端到端微調結果，進一步驗證了FairCLIP的有效性。這些實證發現表明，優化整體樣本分布與特定子群分布之間的距離，有效地提高了公平性，表明了一個在解決和減輕固有偏見方面有前景的方向。

為了解耦圖像和文本特征的好處，我們對BLIP2預訓練模型進行線性探測，使用僅限視覺或（視覺+語言）特征。表4展示了以ES-AUC為衡量标準的性能-公平性權衡。我們注意到，除了語言外，多模态特征在所有受保護屬性上都一緻地改善了性能-公平性權衡。這凸顯了VL模型有效利用了臨床文本特征，尤其是在種族屬性上觀察到最顯著的收益。

為了調查不同視覺編碼器對BLIP2模型公平性的影響，我們使用了兩種不同的預訓練編碼器——1）在自然領域訓練的CLIP，而2）在醫療領域訓練的PMC-CLIP。圖3b中的結果顯示，PMC-CLIP在所有四個受保護屬性上都優于CLIP，尤其是在種族子群上的收益最為顯著。我們注意到，專門針對醫療的LLM摘要器和視覺編碼器一緻地改善了VL模型的性能-公平性權衡，尤其是在種族屬性上的改善最為顯著。

Beutel等人引入了一種公平性方法，該方法使用對抗性損失來防止模型不準确地預測敏感屬性。這種方法旨在確定模型在不依賴其敏感屬性的情況下預測圖像的标簽，進而減少分類中的偏見。圖3c展示了CLIP、帶對抗性損失的CLIP（CLIP w/ Adv）和FairCLIP之間的性能比較。帶對抗性訓練的CLIP（CLIP w/ Adv）的性能并不一緻地超過所有屬性中标準CLIP的性能。相反，FairCLIP一緻地優于CLIP。這種性能上的變化可以歸因于對抗性訓練在保持每個屬性等同預測準确性方面的固有挑戰。另一方面，FairCLIP使用Sinkhorn損失，有效地鼓勵所有樣本的分布相對于每個組的分布的均勻性。

下面展示了更多的結果在文章補充材料之中。

總結

鑒于醫療領域對公平性的關鍵需求，我們引入了第一個研究公平性的視覺-語言醫療資料集（FairVLMed），用于研究醫療VL基礎模型的公平性。

我們對FairVLMed的全面公平性分析揭示了所有VL模型中存在的顯著偏見。為了解決這些偏見，我們提出了FairCLIP，一種基于optimal transport的方法，有效地平衡了性能和公平性。

注：封面來自網絡

CVPR 2024｜FairCLIP：首個多模态醫療視覺語言大模型公平性研究

繼續閱讀

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代

大模型價格普降，網際網路式“地盤争奪戰”再現大廠真的會虧錢嗎？

中國大模型資本往事：20位大模型局中人走上“生死牌桌”

AI大模型價格戰開打，一年決勝負？

百度首款文心大模型學習機 Z30 開售，8G +256G 售 6694 元

OpenAI官宣啟動“下一代前沿模型”訓練！訓練參數預計将得到更大提升，或整合“文生視訊”模型Sora

大模型競賽，中美科技巨頭為何卷向不同方向？

A股尾盤突發！中國神華、邁瑞醫療等多股集體“跳水”，發生了什麼

多語言大模型新SOTA！最新開源Aya-23：支援23種語言，8B/35B可選

重組膠原蛋白出海創健醫療先行一步

探讨|石塊撞擊橋墩的第二個模型，子彈能不能擊斷橋墩？

越鬧越大！官方通報懷胎7月女大學生醫療事故:未說實情和漏診誤診

毫末智行CEO顧維灏：AI大模型是自動駕駛實作的唯一路徑

首個智慧城市大模型UrbanGPT，全面開源開放｜港大&百度

六位一線AI工程師總結爆火！大模型應用摸爬滾打一年心得公開

周日靜學（152）：期刊論文基于Stackelberg博弈的公平關切模型