同盾科技李曉林：可信AI生态系統，将成為下一代AI醫療的“基礎設施”

隐私計算，能否讓醫療資料釋放應有的價值？

4月12日-15日，雷峰網《醫健AI掘金志》以《隐私計算，讓AI釋放醫療資料的價值》為話題，邀請了四位隐私計算企業CXO，以線上雲峰會的形式，讨論隐私計算的技術路線和在醫療場景下的實際應用前景，以及推演該産業的未來趨勢。

此次醫療隐私計算雲峰會中，同盾科技合夥人，中科院醫學所首席科學家兼知識聯邦産學研聯盟理事長李曉林教授，做了首期分享。

他以《可信AI賦能醫療：讓資料流通，讓知識共享》為題，依次分享了可信AI平台建設的背景、可信AI平台架構，理論及實踐、可信AI平台産品、可信AI平台在醫藥場景下的應用等四個方面。

他表示，資料已經成為醫療數字化轉型更新的核心要素，但在隐私計算的商業化落地中，由于不同廠商技術方案和平台産品的差異，資料呈現出類似“聯盟A”和“聯盟B”的分裂，原本的“資料孤島”成為了新的“資料群島”。

目前，不同行業和領域都亟需一個通用的可信AI平台，在保護資料隐私、合法合規、保護資料價值的前提下，打通一個個資料群島。

以下為李曉林的分享内容，雷峰網&《醫健AI掘金志》作了不改變原意的編輯及整理。

可信AI平台建設的背景

醫療領域有各種各樣的場景，不同場景下的醫療資料應運而生。

具體來看，醫療資料可分為組學資料庫、藥物化學資料庫、疾病資料庫，電子病曆資料庫、醫學影像資料庫，穿戴裝置資料庫等六類。

這些醫療資料被很多平台收集和使用，但在價值産生的過程中，它們也需要被嚴格保護。如今，資料隐私保護已經成為法律、政策檔案的關注重點。從去年開始，資料安全法，個人資訊保護法相繼出台，資料隐私保護逐漸被社會所重視。

與此同時，資料隐私保護也加劇了醫療行業資料共享難、資料分析難的困境。

如今，我們一方面要保護資料隐私，另一方面也要打破資料屏障，尤其在以深入學習所引領的新一代人工智能的背景下，資料已經成為醫療數字化轉型更新的核心要素。

但問題是，醫療資料不僅面臨資料隐私難題，同時也面臨門檻高、資料異構、類型複雜等問題。我們要将每一個醫療領域積累多年的組學、基因、 DNA、影像等資料集合起來，難度非常大。

此外，在整合過程中，不同病人、不同醫院之間涉及到多方資料權益和多重資料标準，也讓資料共享變得更具挑戰。

那麼隐私計算如何解決資料共享和資料流通的問題？

為了保護資料隐私，還要發揮資料價值，實作資料的安全合規流通，70年代開始，業界已經推出了一系列的隐私計算技術手段，比如同态加密、秘密分享等一系列資料“可用不可見”的思想。80年代，則衍生出多方安全計算、MPC等思想。

而在近幾年，又出現了三種新思想，比如可信執行環境（TEE，Trusted Execution Environment），聯邦學習（FL，Federated Learning），知識聯邦（KF，Knowledge Federation）。它們共同把隐私計算推到了下一代可信AI的高度。

但與此同時，在隐私計算的商業化落地中，因為不同廠商技術方案和平台産品的差異，資料呈現出類似“聯盟A”和“聯盟B”的分裂，原本的“資料孤島”又成為了新的“資料群島”。

是以，各行各業亟需建設一個可信AI平台。在保護資料隐私、合法合規、保護資料價值的前提下，連通資料群島。

目前，市場中的開源架構、主流研究聚焦在聯邦算法層級的研發，并不能徹底解決“群島”割裂的瓶頸。

想要充分地共享資料，共享知識，保持資料流通，首要問題是要有“一緻性的保障”。

即聯邦中的多個成員節點，在約定協定的保障下，對一系列操作的處理結果達成“某種程度”的認同。比如連接配接上保持任務、節點、狀态一緻；流通上保持參數、算法、模型、加密、應用、監管日志一緻。

可信AI平台架構、理論及實踐

為解決不同聯邦系統的互聯互通問題，以及在更大範圍内建立聯邦生态網絡，同盾科技打造了基于隐私計算的開放AI平台。

首先是這個平台的架構。

為充分發揮資料流通的價值，同盾科技打造了一套基于隐私計算的開放共享智能平台，其核心是智邦平台iBond，底層是智邦的核心iCore。

此外，同盾科技還打造了全面互聯互通參考模型FIRM模型（open Federated system Interconnection/ReferenceModel，即圖右架構）。

這是一個多層次的互聯互通參考模型，把互聯互通分為四個層次，包括通信層（Ionic）、資料交換層（FLEX）、算法層（Caffeine）、應用層（SAFE）。其中，通信層、資料交換層，是參與方進行安全資料交換的基礎。

理論上，FIRM中每一層都建立在它的下層之上，向它的上一層提供一定的服務，并把如何實作這一服務的細節對上一層加以屏蔽。

為此，需要針對每一層定義标準化的協定規範，并在協定中較長的描述該層所提供的服務和動作，以保證提供有效的服務。

而且，每層的功能定義與實作細節相區分，進而使得模型具有普遍的适應能力。

其次是這個平台的理論--知識聯邦。

知識聯邦的理論架構包括4個層次：

底層是資訊層，從資料提煉成資訊，可以通過一定的計算或者查詢，甚至是一些密文的相對簡單的統計資訊；

模型層可以做一些聯合模組化，做一些相對複雜的一些機器學習模型，或者深度學習的模型；

認知層是一個中間狀态的集合層，可以支援遷移學習，內建學習，知識蒸餾等等；

知識層可以做一些知識推理和知識的發現表達。

這四層全方位融合了多方安全計算（MPC）、聯邦學習（FL）、可信執行環境（TEE）等多種技術，實作了資料可用不可見、知識共創可共享，并首次将認知和知識引入隐私計算範疇，目标是實作下一代可信、可解釋、可推理、可決策的人工智能。

目前，知識聯邦支援安全多方查詢、計算、學習、推理等多種功能。從技術上看，知識聯邦在借鑒一些相關技術的同時，也具有一定的獨創性，尤其是認知層和知識層聯邦都屬于國内自主創新，超越了國外的初級聯邦學習。

最後是該平台的實踐--資料安全交換協定FLEX。

資料安全交換協定的FLEX(Federated Learning Exchange）是一套開源的标準化聯邦協定。

FLEX協定約定了聯邦過程中參與方之間資料交換順序，以及在交換前後采用的資料加解密方法。就像HTTP協定承載了我們今天看到的極度豐富的網際網路應用一樣，聯邦協定也是建立聯邦學習應用所必不可少的基礎協定。

有了這個協定才能使得聯邦學習應用得以标準化，使得聯邦學習過程中的資料安全、模型性能得到有效的保障。

它的實作方式是通過約定聯邦過程中參與方之間資料交換順序，以及在交換前後采用地資料加解密方法，進而打破平台孤島。

目前我們已釋出《知識聯邦資料安全交換（FLEX）白皮書》，展現了兩層協定：

一是應用協定，面向聯邦算法的，為聯邦算法提供多方資料交換的應用支撐。聯邦過程中采用的通信協定也會被封裝在這裡。

二是公共元件，是上層應用協定所依賴的基礎密碼算法和安全協定，比如同态加密、秘密分享等。

可信AI平台産品

首先，為了讓知識聯邦得到更好地應用，我們基于知識聯邦理論架構和FLEX交換協定，打造了平台産品--智邦iBond。

它包括一系列的工業界應用場景，都以資料可用不可見的方式執行，比如發起聯邦和MPC、排程任務、注冊資料等。

對于使用者來說，既可以從算法庫裡面直接調用簡單算法，也可以自己定制。接下來，使用者可以把任務遞交給智邦平台做排程和執行，并對輸出的結果做出評測，比如性能評測，功能評測，日志檢查等。

此外，使用者也可以遞交應用、資料、算法、通訊協定到我們的資料要素市場，用于替換我們的底層資料通信層。

其次，基于合規的互聯互通，我們進一步打造出資料的要素市場，即智邦iData。

各方資料可以在這個統一平台上，以安全合規的方式做交換、交易，共享。

以資料交易舉例，智邦iData将不用的使用者劃分為資料提供方、資料使用方；應用開發者、應用提供方、使用方。各方将資料、應用釋出在iData上，按照貢獻度、使用量或者市場機制給予資料定價，進而實作資料價值變現。

比如在國内醫罕見病的治療上，就可以将全國各地醫院和科研小組的罕見病資料都放到iData資料要素市場，進而極大提高某一罕見病的醫療資料，進而進一步提高疾病診療模型。

在這些工作的基礎上，我們希望能夠建成一個真正的醫療可信AI平台：國内各種醫療機構能夠安全、合法合規地共享醫療資料，最大化生産資料的潛力，促進新的診斷算法和新的醫療生态誕生。

可信AI平台在醫藥場景下的應用

在智慧醫療、普惠醫療和藥物創新領域，可信AI平台能夠提供哪些幫助？

第一個應用案例是用密文計算做醫療輔助診斷。

對人工智能輔助診療來說，根本上是以大資料作為訓練基礎，不僅需要豐富多元的醫療大資料，還需要打上大量的資料标注。對小型醫療機構或者偏遠地區的醫療機構來說，它們并不具備模型訓練能力。

但對于很多大型醫療機構，它們既有能力采購高精裝置，還擁有豐富的患者病例，進而沉澱出高品質标記資料和AI輔助診斷模型。

小型醫院就可以通過智邦平台将加密資料提供給大型醫療機構，利用大型醫療機構的資料優勢提升AI模型的診斷能力。

無論是通過同态加密、MPC、聯邦學習，還是大模型的共享模型做資料共享，小型醫療結構都可以獲得相當高的資料精度，而不會受限于小資料或者小模型的難題。

第二個應用案例是通過安全SQL來查詢，做健康險風險等級評估。

在對投保人的健康做風險評估中，查詢方為保險機構，被查詢方是持有投保意向使用者的ID資訊醫療的大資料機構。

當評估風險時，一般需要在保護使用者隐私且保證資料安全的前提下綜合分析BMI和年齡。當“投保人BMI ≤25且年齡＜50歲”，則被認為是具有較高信用的投保人。

在實際操作中，我們就可以用到隐私計算，通過SQL語句和PSI對投保人進行風險評估。這樣既不會洩露使用者隐私，又能夠得到精确評估結果，是一舉雙得的結果。

同樣，也可以通過聯邦模組化對某種疾病患者的社會行為做出風險評估。比如警察局或者衛健委，通過多方聯合模組化實作對重性酒精依賴疾病患者肇事肇禍動态風險評估，進而分級分類監管，精準預判，提升居民公共安全等級。

第三個案例是通過聯邦模組化，實作個性化智能診療。

比如很多有基礎病的老年人确診新冠，這時候他們會出現什麼并發症，每種并發症出現的可能性有多大？

現如今，通過機器學習對患者手術前後做出個性化的并發症預測，是一種顯著提高患者可救性的一種方式。通過對真實臨床大資料進行聯邦模組化，在資料清洗、臨床特征提取和結構化資料基礎上建構預測模型，具有強大的風險預測能力，且能夠準确分類不同風險級的患者，幫助醫生科學決策。

此外，隐私計算也能适應于罕見病的治療上。

比如每個醫院在一些罕見病資料上有一定的保密，病人資訊也會涉及到個人隐私，那麼我們可以通過多家醫院協同共創一個隐私計算大模型來共享資料，進而提高罕見病的治療能力。

目前我們已經推出醫生專家與可信AI平台協同互補（人機協同，human in the loop）的診斷模式，醫生專家可以在輔助診斷的基礎上對病人做出一些判斷，同時提升可信AI平台上的算法或者模型的預測精度。

第四個案例是認知層的聯邦學習，通過知識蒸餾，協作藥物發現。

制藥領域也通常面臨非常複雜的知識産權和經濟利益問題，使得制藥機構之間進行資料直接共享和合作幾乎不可能。但同時，基于神經網絡的藥物發現模型所需的參數量較大，在進行參數聚合時，模型訓練時間随着資料量成指數倍增。

是以，藥物發現過程的資料變得極為珍貴和稀缺。

那麼有什麼方式能夠共享藥物發現資料？

一是通過聯邦學習，解決多個制藥機構利用NN模型進行協作藥物發現的問題，效果顯著優于單機構僅使用私有資料本地NN模組化；

二是通過蒸餾學習，解決參與聚合的模型參數量過大的問題，并獲得與直接整合各機構藥物分子結構資料進行NN模組化相同/近似的模型效果；

三是采用認知層聯邦，對各參與方的知識進行遷移學習，可在保護藥物分子結構隐私的前提條件下，解決領域适應和資料集偏移問題。

而且，針對一些藥物失敗的案例，這部分資料也能做資源共享，進而避免廣譜地、随機地選擇藥物試驗病人。

整體來講，通過可信AI的平台能夠解決多個制藥機構、藥物研發機構，研究院所或者研究小組的資料問題，幫助各方提升自己本地的藥物發現的精度和成功率，甚至提高藥物臨床表現。

第五個案例是通過FPGA，高效隐私保護機器學習。

多方聯合模組化時，往往通過同态加密技術對傳輸/聚合的參數進行保護。但密文加解密及基于密文上的運算，計算速度常常是模組化的瓶頸問題之一。

如果采用軟體+硬體(如: FPGA、 GPU、加密卡等)複合技術，建構基于加解密晶片的聚合器，把FPGA嵌入到聯邦學習系統，則能夠顯著提高加密算法(如Paillier) 的執行速度和并行度，進而提高資料加密和解密的效率，減少訓練的疊代時間。

這一方法可用于可信AI平台在醫療領域的使用，比如醫療影像的資料非常龐大，如果能夠通過硬體加速來全方位提升運算效率，那麼将很大程度地推進醫療隐私計算和資料安全交換等應用。

以上就是我的分享，謝謝大家。

同盾科技李曉林：可信AI生态系統，将成為下一代AI醫療的“基礎設施”

繼續閱讀

英偉達、微軟等大廠布局、投資不斷，東南亞成為人工智能新熱土

為什麼人工智能可以給數學帶來革命性變化

人類如何掙脫被人工智能替代的命運？

【意·調查】越來越多意大利學生使用人工智能做作業

梁建章：人工智能并沒有像移動網際網路具有颠覆性，人類還是會主導創新活動【附人工智能行業現狀分析】

金羊網評：人工智能高品質發展要算好三筆賬打好三套拳

單季淨賺 500 億，高管：騰訊将成為部署人工智能的「最大受益者」

人工智能熱席卷全球，AI概念闆塊誰是英雄？ | 年報研究專題

人工智能熱席卷全球，AI概念闆塊誰是英雄？ | 年報研究專題

生成式人工智能浪潮下，國外AI初創公司都在做什麼？

NetApp推出專為人工智能時代打造的統一資料存儲

生成式人工智能的風險與治理——以ChatGPT為例

GPT-4o：人工智能的全能革命

AI到底有多可怕？人工智能繪畫Midjourney火了

劉澍泉對話周光:順應人工智能2.0，端到端讓自動駕駛更有“人味”

人工智能會搶走工作嗎？