多模态AI是醫學的未來，谷歌三個新模型，Med-Gemini迎來大更新

編輯 | 白菜葉

許多臨床任務需要了解專業資料，例如醫學圖像、基因組學，這類專業知識資訊在通用多模态大模型的訓練中通常不存在。

在上一篇論文的描述中，Med-Gemini 在各種醫學成像任務上超越 GPT-4 系列模型實作了 SOTA！

在這裡，Google DeepMind 撰寫了第二篇關于 Med-Gemini 的論文。

在 Gemini 的多模态模型的基礎上，該團隊為 Med-Gemini 系列開發了多個模型。這些模型繼承了 Gemini 的核心功能，并通過 2D 和 3D 放射學、組織病理學、眼科、皮膚病學和基因組資料的微調，針對醫療用途進行了優化：

1、Med-Gemini-2D：能夠處理放射學、病理學、皮膚科、眼科圖像；

2、Med-Gemini-3D：能夠處理 CT 圖像；

3、Med-Gemini-Polygenic：能夠處理基因組「圖像」。

該研究以「Advancing Multimodal Medical Capabilities of Gemini」為題，于 2024 年 5 月 6 日釋出在 arXiv 預印平台。

來自生物樣本庫、電子健康記錄、醫學成像、可穿戴裝置、生物傳感器和基因組測序等不同來源的醫療資料正在推動多模态人工智能解決方案的開發，進而更好地捕捉人類健康和疾病的複雜性。

雖然醫學領域的人工智能主要專注于具有單一輸入和輸出類型的狹窄任務，但生成人工智能的最新進展顯示出在解決醫療環境中的多模态、多任務挑戰方面的前景。

以 Gemini 等強大模型為代表的多模态生成人工智能擁有徹底改變醫療保健的巨大潛力。雖然醫學是這些新模型快速疊代的資料來源，但由于其高度專業化的資料，通用模型在醫學領域應用時通常表現不佳。

基于 Gemini 的核心功能，DeepMind 推出了 Med-Gemini 系列的三個新模型，Med-Gemini-2D、Med-Gemini-3D、Med-Gemini-Polygenic。

圖示：Med-Gemini 概述。（來源：論文）

來自 370 萬張醫學圖像和病例的超過 700 萬個資料樣本用于訓練模型。使用各種視覺問答和圖像字幕資料集，包括一些來自醫院的私人資料集。

為了處理 3D 資料 (CT)，使用了 Gemini 視訊編碼器，其中時間次元被視為深度次元。為了處理基因組資料，各種性狀的風險評分被編碼為圖像中的 RGB 像素。

圖示：使用個人的 PRS 圖像和人口統計資訊預測冠狀動脈疾病的示例。（來源：論文）

Med-Gemini-2D

Med-Gemini-2D 根據專家評估，為基于人工智能的胸部 X 射線（CXR）報告生成制定了新标準，超過了之前兩個獨立資料集的最佳結果，絕對優勢為 1% 和 12%，其中 AI 的正常病例報告為 57% 和 96%，異常病例報告為 43% 和 65%，與原始放射科醫生的報告相比品質「相當」甚至「更好」。

圖示：Med-Gemini-2D 在胸部 X 射線分類任務上的性能。（來源：論文）

Med-Gemini-2D 在分布胸部 X 射線分類任務上優于通用的較大 Gemini 1.0 Ultra 模型（在訓練期間看到了來自同一資料集的示例）。對于分布外的任務，性能各不相同。

圖示：Med-Gemini-2D 組織病理學圖像分類性能。（來源：論文）

在組織病理學分類任務上，Med-Gemini 的表現大多優于 Gemini Ultra，但未能超越病理學特定的基礎模型。

圖示：PAD-UFES-20 分類任務的性能。（來源：論文）

在皮膚病變分類上，觀察到類似的趨勢（特定領域模型 > Med-Gemini > Gemini Ultra），盡管 Med-Gemini 與特定領域模型非常接近。

圖示：Med-Gemini-2D、Gemini Ultra 和使用眼底圖像分類附加資料進行訓練的監督模型的性能比較。（來源：論文）

對于眼科分類，再次看到類似的情況。請注意，特定領域模型是在約 200 倍的資料上進行訓練的，是以相比之下，Med-Gemini 的表現相當不錯。

圖示：VOA 任務的評估詳細資訊。（來源：論文）

該團隊還評估了醫學視覺問答（VQA）方面的 Med-Gemini-2D 模型。在這裡，他們的模型在許多 VQA 任務上都非常強大，經常擊敗 SOTA 模型。Med-Gemini-2D 在 CXR 分類和放射學 VQA 方面表現良好，在 20 項任務中的 17 項上超過了 SOTA 或基線。

圖示：評估詳細說明了胸部 X 光檢查報告的生成。（來源：論文）

除了對醫學圖像的簡單狹義解釋之外，作者還評估了 Med-Gemini-2D 在胸部 X 射線放射學報告生成方面的表現，并觀察到它根據放射學專家的評估實作了 SOTA！

Med-Gemini-3D

圖示：頭部 CT 體積報告生成的人工評估結果。（來源：論文）

Med-Gemini-3D 不僅僅适用于 2D 圖像，還應用于自動化端到端 CT 報告生成。根據專家評估，其中 53% 的 AI 報告被認為是臨床可接受的，盡管需要進行額外的研究來滿足專家放射科醫生的報告品質，但這是第一個能夠完成此任務的生成模型。

Med-Gemini-Polygenic

最後，根據各種性狀的多基因風險評分，對 Med-Gemini-Polygenic 的健康結果預測進行了評估。該模型通常優于現有基線。

圖示：使用 Med-Gemini-Polygenic 與分布不均和分布外結果的兩個基線進行比較的健康結果預測。（來源：論文）

以下是 Med-Gemini 支援的多模态對話的一些示例！

圖示：通過開放式問答的 2D 醫學圖像對話示例。（來源：論文）

在組織病理學、眼科和皮膚科圖像分類中，Med-Gemini-2D 在 20 項任務中的 18 項中超越了基線，并接近特定任務的模型性能。

結語

總體而言，這項工作在通用多模态醫療人工智能模型方面取得了有益的進展，但顯然還有很大的改進空間。許多特定領域模型的性能優于 Med-Gemini，但 Med-Gemini 能夠在資料較少和更通用的方法下表現良好。有趣的是，Med-Gemini 在依賴更多語言了解的任務（例如 VQA 或放射學報告生成）上似乎表現得更好。

研究人員設想未來所有這些單項功能都內建到綜合系統中，進而執行一系列複雜的多學科臨床任務。AI 與人類一起工作，進而最大限度地提高臨床療效并改善患者的治療結果。

論文連結：https://arxiv.org/abs/2405.03162

相關内容：https://twitter.com/iScienceLuvr/status/1789216212704018469

多模态AI是醫學的未來，谷歌三個新模型，Med-Gemini迎來大更新

繼續閱讀

芯原執行副總裁、IP事業部總經理戴偉進：大模型正在進入邊緣端側，手機，PC和汽車是主力。芯原的CPU,GPU，NPU，V

2024 年 19 種最佳大型語言模型

資料分析十大模型之一：漏鬥模型

誰才是新能源汽車座艙天花闆？鴻蒙座艙名聲在外，但新的挑戰者已經出現了！#智能座艙#6月12日，長城汽車釋出CoffeeO

今日競價打闆總結（6月13日）1-3号日線結構壓力較大，競價有瑕疵或有誘多嫌疑，都沒入場，但最終全都封闆。4号競價尚可，

大模型“價格戰”打響，AI界迎來大變天？

大模型應用之路：從提示詞到通用人工智能（AGI）

給九邊開中藥不成啊，邱醫生[奸笑]因為會暴露患者隐私，還含有醫療導購、醫學建議，百家稽核不通過啊[狗頭]笑死我了哈哈哈[

首批通過！商湯小浣熊獲信通院代碼大模型評估最高評級

任曉平院士一直有一個大膽的想法：如果換了頭，人還會是原來的人嗎？為了證明這一想法，他決定在猴子身上做一個前所未有的嘗試—

iPhone 16會殺死大模型APP嗎？

華為開發者大會：HarmonyOS Next系統、盤古5.0大模型等技術亮相

大模型在持續學習領域的最新研究進展與綜述

【好文轉發】大模型為什麼能把業務系統拉通?

阿裡通義Qwen2拿下大模型最新測評全球開源第一周鴻祎發文祝賀：未來開源模式一定會超過閉源

AI手機風口下，位元組選擇做手機廠商的大模型供應商