編者按:歡迎閱讀“科研上新”欄目!“科研上新”彙聚了微軟亞洲研究院最新的創新成果與科研動态。在這裡,你可以快速浏覽研究院的亮點資訊,保持對前沿領域的敏銳嗅覺,同時也能找到先進實用的開源工具。
「 本期内容速覽 」
01 MedVTAB:大規模醫學視覺任務适應基準
02 對齊視覺模型與人類美學:算法與評估
03 GLC:基于生成式特征編碼的極低碼率圖像編解碼器
04 MH-MoE:多頭混合專家網絡
1️⃣ MedVTAB:大規模醫學視覺任務适應基準
論文連結:https://arxiv.org/abs/2404.12876
近年來,深度學習的顯著進步極大地推動了計算機視覺領域的發展,尤其是視覺 Transformer(ViT) 的引入。經過大規模資料集預訓練後,這些模型在各種視覺任務上表現出了卓越的性能。通過引入專門的可學習層或标記,ViT 在特定下遊任務中的适應性(稱為視覺任務适應性)為任務特定模型的優化開辟了新的途徑。這種适應性允許對預訓練模型進行微調,以适應特定任務的細微差别,進而提升模型的性能和适用性。
盡管這些進步顯著,但視覺任務适應性在醫學領域的應用仍未得到充分探索,特别是在多種醫學影像模态(如彩色圖像、X 光片和 CT 掃描)中的應用。醫學影像領域面臨着獨特的挑戰,包括資料的異質性、對高精度的迫切需求以及模型在不同器官和疾病之間的泛化能力。此外,視覺任務适應性在系統和大規模方式下利用醫學和非醫學領域的現有知識的潛力尚未得到充分研究。
為填補這一空白,研究員們引入了一個綜合性的醫學視覺任務适應性基準資料集 Med-VTAB,希望促進視覺任務适應性技術在醫學影像領域的探索和評估。Med-VTAB 涵蓋了168萬張醫學圖像,包括10個重要器官和5種在真實世界醫學場景中具有挑戰性的模态,使其成為最廣泛的同類基準之一。該基準旨在探讨視覺任務适應性政策的有效性,并研究醫學影像适應中的擴充規律。
圖1:Med-VTAB 資料集概覽作為大規模的醫學影像适應性基準資料集概覽
随後,研究員們考察了醫學提示調優中可調參數數量與模型性能之間的關系,以及來自醫學和非醫學預訓練權重的适應性的泛化能力。并且,研究員們還對患者 ID 分布變化影響适應模型性能進行了研究,這是醫學應用中模型對新患者資料魯棒性至關重要的一個方面。
除了這些探索之外,研究員們還提出了一種新的适應技術,即門控專家混合擴充卡(GMoE-Adapter)。它利用了來自醫學和通用視覺預訓練的見解,在醫學視覺任務适應中實作了最先進的性能。GMoE-Adapter 展示了結合領域特定知識與來自多種來源的廣泛、通用學習的混合适應政策的潛力。
圖2:門控專家混合擴充卡(GMoE-Adapter)架構與标準擴充卡和 MoE-Adapter 方法的對比
通過 Med-VTAB 基準和對适應政策與擴充規律的研究,這項工作将為醫學視覺任務适應研究設立新的标準。而通過強調定制适應技術的重要性和對新穎适應方法的探索,研究員們希望可以提高診斷準确性以及提升患者的治療效果。
2️⃣ 對齊視覺模型與人類美學:算法與評估
論文連結:https://arxiv.org/abs/2406.09397
現有的大規模視覺-語言模型需要在網絡級大規模的資料上進行預訓練。但資料參差不齊,得到的模型往往面臨價值對齊的問題。在文本-圖像檢索任務中,可能表現為美學品質過低,細粒度要求不符,帶有有害偏見等問題。由于這類問題主觀性較高,目前缺乏有效的方式進行評估和改進。
是以,研究員們選擇了最為主觀的任務之一——美學作為代表,來研究價值對齊的問題。根據美學的定義和研究,美學可以劃分為主觀的美學了解(象征性、文化性等)和客觀的視覺吸引力(色彩、分辨率、飽和度等),其它對齊任務也類似。研究員們發現,人類對美學的了解由于存在于大量的文獻和著作中,是以能夠被大語言模型學習,進一步地,通過使用大語言模型為使用者查詢、擴充美學期望,進而能極大地提高美學效果。
研究員們公平地評估了各種提示詞下的大語言模型和美學模型,證明了大語言模型帶來美學了解的有效性和美學模型所包含圖像先驗的有效性和互補性。為了實作端到端的高效檢索系統,研究員們提出一個基于排序的強化學習算法來微調視覺模型,并從大語言模型和美學模型中蒸餾知識。
在評估時,研究員們首先建構了一個美學偏好資料集 HPIR,由于美學的主觀性,每條樣本都要經過30次标注的投票,并給出置信度。利用 HPIR,研究員們還驗證了 GPT-4V 作為美學評判器的可行性。最終的實驗在 HPIR、GPT-4V 評判和人類評判三個機制下共同驗證,經過美學對齊微調後的端到端檢索模型可以和內建了大語言模型和美學模型的多階段系統取得相似的成績,這極大地簡化了高品質檢索系統的複雜度,減輕了維護代價和檢索時延。
圖3:從大語言模型和美學模型中用強化學習蒸餾美學了解和視覺先驗
3️⃣ GLC:基于生成式特征編碼的極低碼率圖像編解碼器
論文連結:https://openaccess.thecvf.com/content/CVPR2024/papers/Jia_Generative_Latent_Coding_for_Ultra-Low_Bitrate_Image_Compression_CVPR_2024_paper.pdf
目前主流的圖像編解碼器通常在像素空間直接對圖像編碼。然而,圖像像素的失真度量名額并非總是與人類的視覺一緻,尤其在圖像編碼失真較為嚴重的極低碼率壓縮場景中。是以,實作更符合人類視覺的圖像編碼是一項關鍵挑戰。
微軟亞洲研究院的研究員們發現,相比于原始像素,生成式 VQ-VAE 的特征具有更高的主觀視覺一緻性、更低的熵和更高的魯棒性,是以更适合高主觀品質的極低碼率編碼。基于這一觀察,研究員們提出了可以在生成式 VQ-VAE 的特征空間進行編碼的模型 GLC。
圖4:GLC 與之前 SOTA 圖像編碼器的視覺品質對比
具體來說,GLC 首先使用 VQ-VAE 的編碼器将圖像編碼為生成性特征,然後通過變換編碼網絡對這些特征進行編碼,最後将解碼的特征通過 VQ-VAE 的解碼器重建為圖像。在編碼圖像時,GLC 不需要使用 VQ 編碼,而是設計了一個變換編碼網絡用于特征壓縮。這種設計不僅提高了 GLC 的壓縮率,還使其可以支援可變碼率編碼。
為了提高壓縮性能,GLC 在變換編碼的邊資訊編碼中設計了一種基于矢量碼本的先驗模型。與傳統的可分離先驗相比,這種先驗能夠以更低的碼率編碼更強的語義資訊。GLC 還在訓練中使用了一個輔助網絡,根據解碼特征預測原圖所對應的 VQ 索引,進而提高解碼特征與原圖的語義一緻性。
實驗結果表明,GLC 在多個測試基準中實作了最高的壓縮性能。GLC 可以以平均每像素0.03比特的極低壓縮率實作高品質的圖像壓縮。與基于像素空間壓縮的 SOTA 編碼器 MS-ILLM 相比,GLC 在相同的 FID 名額下節省了超過45%的比特。另外,通過利用其特征空間,GLC 可以在壓縮圖像的同時實作圖像恢複、風格遷移等功能。
4️⃣ MH-MoE:多頭混合專家網絡
論文連結:https://arxiv.org/abs/2404.15045
進一步提升如大型語言模型(LLMs)和大型多模态模型(LMMs)等大型容量模型(large capacity models)的性能,有一個可靠的方法就是通過增加參數數量來擴充它們。然而,這些模型的龐大尺寸顯著降低了推理速度,進一步限制了它們的實用性。在此背景下,稀疏混合專家(SMoE)的方法被提出,它在減輕計算成本的同時促進了模型的可擴充性,但仍然面臨專家激活率低、缺乏細粒度的分析能力等缺點。
是以,微軟亞洲研究院的研究員們提出了一個名為多頭混合專家網絡(Multi-Head Mixture of Experts, MH-MoE)的高效變體結構來緩解上述問題。多頭混合專家網絡采用多頭機制将每個輸入的令牌分割成多個子令牌,這些子令牌随後會被配置設定給不同的專家網絡并行處理,最終無縫地重新整合回原始令牌形式。
圖5:MH-MoE 在視覺和語言資料上的工作流
MH-MoE 有如下優點:
- 更高的專家激活效率。如圖6所示,SMoE 有許多未被激活的專家(暗色),而 MH-MoE 則顯著提高了這些專家的使用率,達90.71%。
圖6:稀疏混合專家網絡層(左)和多頭混合專家網絡層(右)
- 更精細的了解能力。如圖7所示,子符号被 MH-MoE 配置設定給了更多不同的專家(亮區),使不同專家能夠共同關注來自不同表征空間的資訊,最終實作更好的細粒度了解能力。
圖7:MH-MoE 對子符号的配置設定,亮區-配置設定給了不同專家,暗區-配置設定給了相同專家。
除此之外,MH-MoE 實作簡單,可與其他稀疏混合專家網絡優化方法解耦,易于內建到其他稀疏混合專家網絡模型中以提高性能。
研究員們還在三個預訓練任務及其下遊任務上進行了廣泛的實驗,結果表明,該方法不僅顯著提升了專家混合網絡在上遊預訓練任務和下遊任務中的表現,還在很大程度上緩解了專家激活率低的問題,使模型更加高效。
微軟亞洲研究院,專注科研25年,盛産黑科技
歡迎點贊、轉發、關注哦