天天看點

新冠肺炎“識别”戰,AI算法落地有多難?

新冠肺炎“識别”戰,AI算法落地有多難?

作者 | 蔣寶尚

編輯 | 賈偉

人工智能從來沒有像現在這麼重要過!

這段時間的疫情猛烈,AI每一次在醫療領域的落地都在幫助白衣天使拯救生命。從疫情預測到檢測體溫再到藥物開發,人工智能争分奪秒,蓄勢待發。

更為準确的說是醫療AI公司們站了出來,為醫護人員鑄造了一面堅強的後盾。

1月28日,依圖醫療的第一版新冠肺炎産品在上海公衛上線,2月5日在武漢的協和醫院、中南醫院、武漢大學人民醫院以及荊州市第一人民醫院完成部署。

1月31日,推想科技宣布推出針對新冠肺炎篩查産品。

2月15日,阿裡巴巴宣布:達摩院聯合阿裡雲針對新冠肺炎臨床診斷研發了一套全新AI診斷技術,AI可以在20秒内準确地對新冠疑似案例CT影像做出判讀,分析結果準确率達到96%。

.... ...

相對于巡邏機器人的檢測體溫,CT影像的自動檢測才能代表AI在醫療領域的最高水準,但也更難大規模應用,這裡面不僅包含算法難關,更存在着不斷疊代的需求。

但此技術又不得不加緊落地!因為在2月5日,國家衛健委發文表示:在湖北省内,CT影像結果要作為新型冠狀病毒感染“臨床診斷病例”的判定依據。

那麼AI技術在從算法到應用層面有哪些難點呢?

具體算法,遍地開花

新冠肺炎“識别”戰,AI算法落地有多難?

在2017年春節期間,斯坦福大學工程學院和醫學院合作團隊在《自然》上釋出了在皮膚癌診斷領域的最新突破。他們在谷歌用于識别貓和狗算法的基礎上,經過13萬張皮膚病變的圖像訓練後,開發出了可用于識别皮膚癌的AI系統。

吳恩達教授也在2017年發表相關研究,其使用CheXNet算法訓練的模型可以診斷14種病症,尤其在肺炎診斷方面,比放射科專家單獨診斷的準确率更高。

2018年Google的Gulshan團隊采用近13萬張已由54位美國專家标注過的視網膜眼底圖像,對深度學習網絡進行訓練,檢測準确率達到曲線下面積91%。

同年, 國家千人計劃“入選者張康教授率領中國研究團隊在頂級期刊《細胞》上發表了一篇AI在醫療領域應用,即基于深度學習開發出一個能診斷眼病和肺炎兩大類疾病的AI系統,就準确性來說能夠匹敵頂尖醫生。

值得一提的是,張康教授的那項研究也是世界範圍内首次使用龐大的标注好的高品質資料進行遷移學習。

遷移學習可以解決訓練資料不足的局限。

那麼這麼多突破性的研究,這麼多表現良好的算法模型為什麼卻在實際應用效果不佳呢。

首先在胸片上發現肺炎非常困難,即使對放射科醫師來說,他們眼中的胸透圖像的肺炎特征也是模糊的,容易和許多其他的良性異常相混淆。

也就是說人工智能系統對肺部CT影像的片狀陰影不夠敏感,而片狀陰影是新型冠狀病毒肺炎的主要病竈。

而要想要鑒别新冠肺炎影像與普通病毒性肺炎影像也并不容易,臨床上影像科的醫生有自己的判别标準,擁有這個标準的開發人員會嘗試不同的方法提升自己的模型,但是一些算法的訓練研究員并不具有放射科的背景,另外這個标準也并不是容易量化。

對于訓練資料來說,資料量的多少不是關鍵,關鍵的是有代表性的以及疑難的資料有多少,一個基于學習而不是規則的算法本身需要大量的類似資料才能學習到正确的知識。在AI在檢測新冠狀肺炎肺炎的時候,由于缺少“疑難雜症”樣本資料,即使識别了99%的病人,但是可能真正有威脅的是那沒有識别出了1%。

目前深度學習訓練過程中所采用的解釋性的方法基本都是可視化方法,看哪些部位對患病機率的貢獻比較大,而這個機率隻根據CT影像獲得的。但是醫生在具體判斷時候,還要結合病史,遺傳,生活習慣等等做出推斷。

再有,如果疾病發生新的變異或變化,那麼原來的算法模型還能使用麼?

考慮到實際情況,各地的CT裝置并不是非常統一,也就是說對原算法模型的驗證效果很難都達标,甚至可能非常低。即使在原模型基礎上進行微調,也可能需要某個型号的CT裝置提供的非常多的資料。各地的檢測環境也不是非常統一,最差的情況可能會需要對每一台機器進行微調來保證準确率,但這樣特殊的資料真的很好采集嗎?

參考來源:

https://www.zhihu.com/question/372335557

https://mp.weixin.qq.com/s/Q0H0s1aL8V06p7o2rlf2MQ