未來的重點将是醫療AI的障礙。到目前為止,我們已經讨論了醫療中斷的一些外部障礙,如監管和自動化率,但是我們甚至還沒有涉及可能減緩醫生更換的技術挑戰。
今天我們要研究一個絕對是最先進的研究論文。在此我非常感謝論文作者之一 Dr Lily Peng,她徹底回答了我所提出的方法論問題。
針對TL:DR人群,我将在最後總結關于我對這項研究的想法。
首先,我想提醒大家——自從2012以來,深度學習就一直作為一種實用的方法。是以,我們甚至沒有五年的時間在醫學上使用這種資料,而我們醫學界人士通常落後一些。有了這個觀點,其中一些結果更是令人難以置信,但我們應該承認這隻是一個開始。
我要回顧一下我認為是醫療自動化突破的證據的論文,或者增加一些有用的對話。 我會描述研究,但花時間讨論幾個關鍵要素:
任務——這是一項臨床任務嗎? 如果自動化,醫療實踐可能會有多大的幹擾? 為什麼選擇這個特定的任務?
資料——資料如何收集和處理? 它如何适應醫學試驗和監管要求? 我們可以更廣泛地了解醫療AI的資料需求。
結果——是兩者平等還是醫生被打敗? 他們測試了什麼? 我們還能收集到什麼?
結論——這個交易有多大? 我們可以更廣泛地推斷出什麼呢?
<b>任務:</b>
糖尿病視網膜病變是緻盲的主要原因,是由于眼睛後部的細血管受損造成的。這可以通過觀察能夠看到血管的眼球後部來判斷,這是一項靠感覺的任務。

圖1.例如,DL系統可能學會識别白色斑點的“棉絮斑”的例子
他們訓練了一個深度學習系統來完成與糖尿病視網膜病變評估有關的一些任務。總的結果是“參考”糖尿病視網膜病變的評估,這是中度或嚴重的眼睛疾病的檢測(在本組患者的管理不同于那些“非參考“眼病)。他們還評估了鑒别嚴重視網膜病變和發現黃斑水腫的能力。
<b>資料:</b>
他們使用了130000視網膜照片來訓練系統,每個等級由3到7的眼科醫生用決定性的投票以多數票決定。圖像是來自從4個地點(美國地EyePACS,3家的印度醫院)的回顧性臨床資料集,使用各種相機拍攝的。
開發/訓練資料有55%視網膜病變的患病率,8%嚴重惡化。驗證資料的患病率遠遠低于一般的患病率,隻有19.5%的患病率隻有1.7%的嚴重或惡化。這是有意的,開發集中有很多陽性病例(他們增加了病例,比通常發生在臨床人群中更多)。
關于資料品質,視網膜照片的分辨率通常在1.3到350萬像素之間。 這些圖像縮小到299像素平方,也就是0.08百萬像素(少于94%和98%之間的像素!)。 這是他們所應用的網絡架構中的一個特性,其他的圖像大小不能使用。
<b>網絡:</b>
<b>結果:</b>
本文是我認為醫學深度學習的第一重大突破。他們從個人眼科醫生以及“中級”眼科醫生提出比較的小組中獲得了相當的表現。
圖2.這就是所謂的ROC的曲線,是判斷診斷系統的最佳方式之一。曲線下面積(AUC)結合在一個單一的名額的敏感性和特異性。99.1%是非常好的。
彩色點是眼科醫生,黑線是深度學習系統。 如你所見,如果連接配接彩色點,實際的眼科醫生定義了非常相似的ROC曲線*。 如果你不了解ROC曲線,你可以相信我,這是一個有效的方式來表明性能是相同的(FDA将同意我的看法)。
他們的系統檢測黃斑水腫非常好,在嚴重視網膜病變絕對值(AUC值)方面差了些,但與眼科醫生的正面比較沒有公布這些任務。
<b>讨論:</b>
有一些有趣的事情可以讨論這項研究。
<b>費用</b>:他們雇用了一組眼科醫生來标注他們的資料。我應該不需要說明一個外科醫生的時間是多麼昂貴了吧?那麼他們總共有50萬個标簽。 如果他們按正常利率支付,我們可以說這需要數百萬美元。 這比現在這個領域大多數創業公司的現金更多,而且他們肯定無法承擔一個單一的标簽任務。
統計上來說,資料是權力。對于醫療AI,錢制造資料。是以,錢是權力,謹此作答。
<b>任務</b>:他們從眼睛照片中檢測到二進制“參考眼病”(中度視網膜病變或惡化),嚴重的視網膜病變和黃斑水腫。 這些是有用的,是臨床上重要的任務。 最重要的是,這些任務涵蓋了大多數醫生在看糖尿病患者眼睛時所做的工作。 當然,這個系統會錯過罕見的視網膜黑色素瘤,但是對于眼睛檢查的日常工作,這似乎是一個很好的模拟人類的做法。
<b>資料</b>:資料很有趣,原因有二:品質和數量。
我們可以看到他們需要的數量,因為他們進行了一些實驗。 他們用不同數量的訓練執行個體測試了他們的系統執行情況。
這給我們一些非常有趣的東西。 他們的訓練(至少在97%的靈敏度工作點)上限為6萬例。 值得注意的是,這比公開的資料集大一到兩個數量級,如果你超過97%的靈敏度,我不懷疑資料的需求會增加。
結果也告訴我們有關資料大小的其他内容。 當他們試圖靈感度為90%,但嚴重或更嚴重疾病隻有84%的靈感度。 識别嚴重疾病的任務可能更為困難,但我确實注意到“中度或更嚴重”疾病的訓練資料是3到4倍。 絕對資料較少(約9500例vs 34000例),并且患病率也較少(9%為陽性vs30%為陽性)。
機器學習系統與不平衡的資料作鬥争,在我的經驗中,不平衡比30/70更難處理。它不僅使訓練更困難(更少的病例=更少的學習),但它使實際診斷更加困難(這些系統嚴重偏重于對預測大多數類)。
我們可以看到他們試圖處理這個問題。 在篩選人群中,“參考”疾病的患病率在10%以下,是以這是非常不平衡的任務。 該隊豐富了訓練集和設定額外的陽性病例,是以患病率約為30%。 這似乎很有效,系統對驗證隊列(其臨床普遍性約為8%)上表現很好。 記住,這種方法(少數類的濃縮)隻有在有更多的積極的情況下才有效,這是非常罕見的。其他解決不平衡資料的方法仍然存在,但是在解決這個問題的最佳方法上沒有真正的共識。
有關于資料品質的兩個有趣的東西。
首先,采樣/圖像縮小。這是不是很荒謬,這個系統可以執行以及減少98%的像素就像人類的專家一樣?我們可以說,之是以這個系統執行得如此之好,是因為大部分被丢棄的像素必須是無用的噪音,否則将加深對深層學習系統的訓練。毫無疑問,人類比計算機更善于忽視視覺噪音,是以這可能是真的。
但是也可能已經丢棄了有用的資訊,并且系統可以在高分辨率圖像上表現更好。 我們不可能知道,因為它們無法測試——這個模型需要減小尺寸。
這個含義實際上是更廣泛的。 由于深度學習系統已經大部分用于解讀小型照片,是以深度學習從未真正顯示出以百萬像素大小的圖像**的效果。 實際上可能是更高分辨率的圖像是不可用的,即使它們包含更多有用的資訊。
是以下抽樣提出了幾個問題。 深度學習能更好地表現出更好的分辨率嗎? 低分辨率是否适合所有醫療任務? 我們甚至可以從技術角度使用更高分辨率的圖像進行深層學習嗎?我們不知道這些問題的答案,盡管我們将在接下來的幾周裡看一些其他的論文來縮小這個問題。
有趣的資料品質的第二個方面是标簽的品質。 在機器學習中,我們需要一個很好的理性。 這意味着我們希望訓練資料被正确标注,是以視網膜病變的執行個體實際上有視網膜病變。 這比說起來更難,因為醫生不同意。作者再次提供資料。
你可以看到,對于中度或以上的疾病,在80%的時間裡至少有一個醫生與共識有不同的解釋。這就是為什麼使用了一緻的标簽,這是為了減少個人所犯的錯誤。
标記錯誤将始終存在于這些資料集中,并且會損害模型性能。 深度學習可以學習任何你給它的東西,如果你給它錯誤的标簽,它會學會做錯誤的診斷。
共識并不是解決這個問題的唯一方法。 一些任務有更好的基礎真理,下周我将會看一篇關于皮膚病變的論文。 該論文中的每個病變都有活檢證明的診斷,這仍然是由病理學家解釋,但變化不大。 在極端的情況下,一些任務有完美的标簽。 我自己的一個項目盯着一個不能被誤解的标簽——死亡率。
我認為關于标簽的關鍵在于你得到你所投入的東西。如果你使用個别醫生的标簽,充其量你會像那個醫生一樣好。如果你使用共識報告,你應該能稍微勝過個人。如果你使用了完全明确的事實,你也許能完美地完成這項任務。
<b>影響</b>:像這樣的東西可以很好地作為一個篩選工具,我真的很欣賞作者送出他們的結果的方式。他們展示了機器操作就像一個眼科醫生的結果(假陽性率較低,但缺少一些陽性病例),并且還展示了系統優化篩選時的結果(識别幾乎所有陽性病例,但還有一些假陽性)。
這是一件很重要的事情。這些系統比人類醫生有一個主要的優勢:人類醫生在假設的ROC曲線上有一個單一的操作點,這是基于他們的經驗的靈敏度和特異性的平衡,并且是非常難以任何可預測的方式改變的。 相比之下,這些系統可以在其ROC曲線的任何地方運作,無需額外的教育訓練。你可以在診斷和篩選模式之間進行切換,而不需要額外的費用,并且知道如何進行進一步的實驗取舍。這種靈活性非常酷,在為實際臨床情況設計測試時非常有用。
在醫療費用方面,這項任務的影響是中等的。眼科并不是醫學的一大部分,成本很高,并且檢查眼睛在眼科預算中并不是一個大項目。
人類的影響可能是巨大的。開發中國家的糖尿病越來越流行,眼科專家大量短缺,是以這種技術有着強烈的人道主義作用。考慮到處理圖像的低分辨率要求,如果你将該系統與低成本且易于使用的手持式視網膜錄影機配對,可以拯救數百萬人的生命。
最終,即使視網膜病評估是自動化的,對醫療工作的影響也相當有限。事實上,我認為這是一種任務,當它是自動化時很容易導緻對醫生的需求增加,因為以前未确診的病人現在需要進一步的評估和治療。
然而這僅僅是視網膜病變的評估。 在我們再看幾篇論文之後,我們将能夠考慮一些對醫療自動化軌迹的一般含義。
接下來我會看看斯坦福大學聲稱他們的深入學習系統可以實作“皮膚病學家水準對皮膚癌的分類”的論文。
1.Google(和合作者)訓練了一個系統,以檢測糖尿病視網膜病變(其導緻全世界5%的失明),與一組眼科醫生共同完成。
2.這是一個有用的臨床任務,這可能不會節省大量資金,也不會取代醫生,但具有很強的人道主義動機。
3.他們使用130,000個視網膜圖像進行訓練,比公開的資料集大1到2個數量級。
4.他們用更積極的案例豐富了他們的訓練集,大概是為了抵消訓練對不平衡資料的影響(一個沒有共識解決的問題)。
5.由于大多數深入學習模型都針對小型照片進行了優化,圖像被大量采樣,丢棄了90%以上的像素。我們還不知道這是否是一件好事。
6.他們使用一組眼科醫生來标注資料,可能花費數百萬美元。這是為了實作比任何單個醫生的解釋更準确的“ground-truth”。
7.第5點和第6點是所有目前醫學深度學習系統的錯誤來源,而且這個話題知之甚少。
8.深度學習系統比醫生有優勢,因為它們可以用于各種“操作點”。相同的系統可以執行高靈敏度篩選和高特異性診斷,而無需再訓練。所涉及的權衡是透明的(不像醫生)。
9.這是一項極好的研究。這是令人難以置信的可讀性,并包含在文本和補充大量的有用的資訊。
10.該研究似乎符合目前FDA對510(k)準許的要求。雖然這項技術不太可能通過這一過程,但是該系統或衍生物完全可能在未來一兩年内成為臨床實踐的一部分。
*沿曲線的眼科分布對我來說非常令人驚訝,因為這意味着不同的醫生做出非常不同的預測。 其中一些醫生有0個假陽性,其他人則有10%的假陽性。 這是一個非常廣泛的範圍。
**已經使用了一些解決方案,例如首先将圖像切割成更新檔。但這通常會大量增加負面例子的數量,加劇了資料不平衡的問題。
文章原标題《The End of Human Doctors – The Bleeding Edge of Medical AI Research (Part 1)》,作者:Luke Oakden-Rayner,南澳大學醫學專家 ,譯者:董昭男,審校:海棠