天天看點

為資料而生,為隐私而戰:隐私計算産業加速崛起

作者:機器之心Pro

機器之心報道

機器之心編輯部

在充分保護隐私的同時盡可能多地挖掘資料價值,不僅理論上可行,實踐中也有越來越多的團隊為之努力并取得進展。

數字經濟時代,資料作為新的生産要素和戰略性資源,是科技進步、政策制定和經濟發展的重要動力。但是,隻有在隐私和安全得到保障的前提下,資料的價值才能最大化。

近年來,随着《網絡安全法》《資料安全法》和《個人資訊保護法》的頒布與實施,國家、行業、地方相繼出台了一系列資料安全相關配套性政策檔案,完善資料要素治理制度,保障資料流通交易安全。特别是 2022 年底釋出的「資料二十條」,進一步推動了公共資料、企業資料、個人資料合規高效流通使用,資料「可用不可見」「可控可計量」成為法定要求。

在推動資料二十條理念落地的途徑中,隐私計算作為平衡資料流通與價值釋放的關鍵「技術解」,得到了越來越多的重視。在 2022 年 Gartner 技術成熟度曲線列出的 25 項值得關注的新興技術中,有 6 項與隐私計算相關,足見其價值與潛力。

為資料而生,為隐私而戰:隐私計算産業加速崛起

圖檔來源:gartner.com

今年 1 月,工信部、國家網信辦、國家發改委等 16 部門印發《關于促進資料安全産業發展的指導意見》,明确提出加強隐私計算、資料流轉分析等關鍵技術攻關,加強資料品質評估、隐私計算等産品研發。

隐私計算産業也在加速崛起。中國資訊通信研究院報告指出,預計到 2025 年,中國的隐私計算市場規模将達到百億元人民币。

隐私計算技術發展情況

隐私計算是隐私保護計算(Privacy-preserving Computation)的簡稱,它能夠在保證資料提供方不洩露原始資料的前提下,對資料進行分析、處理和使用,是一個廣義的概念,涉及人工智能、密碼學、資料科學等衆多學科和領域的交叉融合,涵蓋了安全多方計算、同态加密、差分隐私、零知識證明、聯邦學習、可信執行環境等衆多技術子項,以及這些技術子項的組合及相關産品方案。

根據目前中國業界共識,隐私計算主要分為以安全多方計算為代表的密碼學路徑、以機密計算為代表的可信執行環境(硬體)路徑,以及以聯邦學習為代表的人工智能路徑。

安全多方計算(Secure Multi-Party Computation)

由圖靈獎得主姚期智院士于 1982 年通過提出和解答「百萬富翁問題」而創立。安全多方計算能保證各參與方僅獲得正确計算結果,無法獲得除計算結果之外的任何資訊,是多種密碼學基礎工具的綜合應用,除混淆電路、秘密分享、不經意傳輸等密碼學原理構造的經典多方安全計算協定外,其他所有用于實作多方安全計算的密碼學算法(如同态加密、零知識證明),都可以構成多方安全計算協定。經過 30 多年的理論研究,安全多方計算在技術上已趨成熟,在需要識别共同客戶或興趣但又要保護其他資料的場景下,例如醫療領域進行共同研究,或是企業之間分享資料以提高業務效率,已經發揮出重要的應用價值。

機密計算(Confidential Computing)

機密計算的基本原理是将需要保護的資料或代碼存儲在可信執行環境(Trusted Execution Environment,TEE)中,對這些資料和代碼的任何通路都必須經過基于硬體的通路控制,防止其在使用中未經授權被通路或修改,進而實作對資料處理流程的可驗證與控制,增強資料的安全性。其中,可信執行環境定義為可在資料機密性、資料完整性和代碼完整性三方面提供一定保護水準的環境,也包括雲環境。機密計算可追溯至 2002 年 ARM 推出 TrustZone 技術,2015 年Intel 推出 SGX 技術标志着機密計算進入快速發展階段,如今 AMD、華為等廠商也推出了各自的機密計算技術。

為資料而生,為隐私而戰:隐私計算産業加速崛起

使用聯邦學習在多個移動端聯合訓練機器學習模型。圖檔來源:Wikipedia

聯邦學習(Federated Learning)

聯邦學習由 Google 在 2016 年提出,其核心思想是允許兩個或多個參與方在資料不出域的情況下,協同完成模型的建構與使用,強調「資料不動模型動,資料可用不可見」,适用于參與使用者多、資料特征多且分布廣泛的聯合計算應用場景。根據參與計算的資料在資料方之間分布的情況不同,可以分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。通常情況下,聯邦學習需要與其他隐私保護技術聯合使用,才能在計算過程中實作對資料的保護。

中國網際網路巨頭隐私計算産業落地情況

目前,隐私計算正處于飛速發展階段,單點技術持續優化,在實際應用中呈現出多技術融合的态勢,以應對不同場景下的資料安全和隐私保護需求。根據 Gartner《2022 隐私技術成熟度曲線》報告,預計未來 5-10 年隐私計算技術會被大規模商業化應用,到 2025 年 60% 以上的大型組織将在資料分析、商業智能或雲計算中使用一種或多種隐私計算技術。

随着技術增益與商業落地場景逐漸豐滿,大資料、人工智能、區塊鍊、雲服務等類型的企業紛紛入局隐私計算,各類玩家在積極推高技術滲透率與拓展應用邊界的過程中,一同構成中國隐私計算産業圖景。

其中,騰訊、螞蟻、阿裡、百度、位元組跳動等網際網路巨頭有強大的技術實力,龐大的使用者群與合作夥伴,坐擁海量高價值資料,是隐私計算入局者中不可忽視的力量。這些企業不僅能推動隐私計算技術加速發展,催生出新的産業機會與發展空間,還有望重塑企業與使用者之間的關系,甚至影響行業力量對比與市場格局。

騰訊

騰訊早在 2009 年便自主研發大資料處理平台, 2015 年釋出高性能計算架構 Angel,支援 10 億次元的算法訓練和非結構化資料處理,被廣泛用于微信支付、QQ、騰訊視訊等業務。為了更好應對資料安全和隐私保護需求,騰訊積極探索隐私計算技術,在 2019 年組建了專門的研發團隊,并發力内部人才培養。2021 年,騰訊第四代大資料平台「天工」釋出,旨在以安全的形式打通資料孤島,打造安全、智能、統一的新型資料基礎設施。其中,隐私計算作為核心技術,確定機器學習和大資料分析在各個場景中落地時調用資料的安全。

天工平台的核心産品 Angel PowerFL 安全聯合計算平台,是騰訊聚焦隐私計算前沿技術領域的落地成果,目前已認證中國金融認證中心(CFCA)、中國信通院等權威組織機構評測,在金融、廣告、醫療、政務等場景落地,并取得了較好的應用效果。另一個核心産品騰訊雲安全隐私計算平台,是一個基于聯邦學習、多方安全計算、區塊鍊、TEE 等安全技術的分布式計算平台,依托 Angel PowerFL 能力支援,圍繞強安全、高性能、強穩定、易使用四大核心能力特性,使原始合作資料不出本地便可實作聯合模組化、安全求交(PSI)、隐匿查詢、安全統計分析等功能,助力産品應用層全方位滿足行業需求與使用者的痛點,已實際應用于跨機構資料合作、銀行信貸、保險、政務、線上教育等多個場景。

騰訊 Angel PowerFL 隐私計算團隊也是國内較早開展隐私計算與聯邦學習技術研究和應用的團隊,在大資料、分布式計算、分布式機器學習、分布式消息中間件、多方安全計算、應用密碼學等領域都有豐富的研發和應用經驗,已發表近 10 篇隐私計算研究論文,送出了 60 多件隐私計算技術發明專利申請,有多個商用隐私計算和聯邦學習的平台産品目前已經通過騰訊雲對外開放。團隊連續三年獲得隐私計算業内最具影響力的權威獎項,分别是 2020 年 iDASH 國際隐私計算大賽可信計算賽道冠軍、2021 年 iDASH 聯邦學習賽道冠軍、2022 年 iDASH 同态加密賽道冠軍。

目前,騰訊隐私計算彙聚了來自騰訊大資料、騰訊安全、騰訊計費、騰訊雲、騰訊廣告 AI,華中科技大學的密碼學、隐私計算、大資料和機器學習領域的技術專家。通過結合騰訊多元的科技能力,深度融合聯邦學習、安全多方計算、區塊鍊等技術,幫助客戶打破資料孤島,激活資料使用的最大價值。未來将繼續融合隐私計算與雲上 AI 安全技術,并與其他企業和機構合作,推動隐私計算更廣泛的落地。

為資料而生,為隐私而戰:隐私計算産業加速崛起

螞蟻

螞蟻集團從 2016 年起布局隐私計算,在技術研發、産品服務、生态共建等方面取得諸多成果。螞蟻擁有業内第一的隐私計算專利數量,并且提出了可信密态計算、受控匿名化等新的技術。産品和服務方面,開源可信隐私計算架構隐語(SecretFlow),支援目前幾乎所有主流的隐私計算技術,并且積極支援互聯互通;開源可信執行環境隐私計算作業系統 Occlum,相容 Linux 環境的 API,使現有應用幾乎不需改造即可運作于可信執行環境,大幅降低 TEE 應用開發門檻;商用方面,螞蟻隐私計算一體機,提供集軟硬體全棧可信于一體的系統平台,為組織機構之間的資料聯合計算提供一站式安全解決方案;大規模多方安全計算商用平台螞蟻鍊摩斯,是業内首家通過多方安全計算産品測評(信通院 MPC 測評)和首批通過金标委 MPC 測評的産品,截止 2022 年 2 月已服務 150 餘家行業客戶。生态方面,螞蟻也積極推動國際國内的行業标準制定,是多項重要标準的牽頭機構。

阿裡

阿裡集團在隐私計算領域廣泛涉足,旗下的阿裡安全、阿裡雲和達摩院均開展相關研究。阿裡安全的雙子座實驗室專注于同态加密、安全多方計算等方向,其研發技術已廣泛應用于阿裡系業務,部分技術達到業界領先。阿裡雲在 2020 年首次釋出基于晶片安全的可信虛拟化執行個體,2021 年釋出 DataTrust 隐私增強計算平台,基于同态加密與可信執行環境,在保障資料安全和隐私的同時支援多方資料協同分析與預測,不受資料規模或複雜性影響,是國内首個公有雲原生加密計算産品。達摩院在 2022 年釋出了 FederatedScope 聯邦學習架構并開源,支援在豐富應用場景中進行大規模、高效率的聯邦學習異步訓練,能相容 PyTorch、Tensorflow 等不同裝置運作環境,大幅降低了聯邦學習在科研與實際應用中的開發難度和成本。

百度

百度 2012 年便釋出《資料安全政策》,2018 年成立資料隐私保護委員會,目前隐私計算作為底層基礎技術,在百度智能雲、百度安全、百度超級鍊等平台上部署,并結合多種技術推出解決方案實作應用落地。百度智能雲還與區塊鍊平台融合,通過将區塊鍊技術納入雲計算與隐私計算的過程,推動隐私計算在各種場景中落地。百度大腦旗下的大資料服務平台百度點石,基于聯邦學習、多方安全計算、可信執行環境等主流隐私計算技術,安全高效實作資料賦能,助力客戶提升資料價值。百度點石安全計算平台(MesaTEE)是百度安全在隐私計算面向企業落地的重要平台。基于百度飛槳開發的開源聯邦學習架構 PaddleFL,讓企業之間的合作能夠在資料層面安全開展。PaddleFL 提供多種聯邦學習政策及其在計算機視覺、自然語言處理、推薦算法等領域的應用。

位元組跳動

位元組跳動在隐私計算領域布局較為集中,最主要的産品是 Fedlearner 聯邦學習平台。該項目于 2019 年啟動,最初是針對單個企業進行定制化适配,基于神經網絡縱向聯邦學習技術,幫助企業提高廣告投放效率,後續通過疊代,逐漸在電商、網際網路金融和教育領域落地。2020 年,Fedlearner 開源,支援多類聯邦學習模式,整個系統包括控制台、訓練器、資料處理、資料存儲等子產品,各子產品對稱部署在參與聯邦的雙方叢集上,透過代理互相通信實作訓練。位元組跳動作為隐私計算聯盟(CCC)成員之一,也參與推動隐私計算市場的發展,影響技術和法規标準,協助提高下一代網際網路的計算信任度和安全性。

結語

随着資料安全合規流通成為必然,隐私計算作為當下實作資料「可用不可見」的唯一技術解,對未來的科技産業以及實體經濟的關鍵領域将産生重要影響。除了典型的金融、醫療等場景,隐私計算也被探索用于越來越多的行業與領域。

例如,電力公司通過隐私計算,可實作對電網資料的全生命周期進行保護,使得資料能夠安全上雲,或外包給計算服務方進行計算,實作電力企業的降本增效。廣告平台使用隐私計算對使用者資料進行加密,讓原始資料不可識别,進而在不揭示個人資訊的前提下完成廣告定向和個性化推薦,運用聯邦學習等技術,可以在不共享原始使用者資料的前提下多方共同訓練一個機器學習模型,還能在使用者終端内完成個性化推薦,確定推薦效果的同時最大限度保護使用者隐私。未來,創新的隐私保護方案,包括用于移動裝置的可信執行環境,能在移動個性化推薦服務中實作令人滿意的使用者體驗并保護使用者隐私,真正實作雙赢。出行領域,隐私計算使營運商與服務提供商可在加密狀态下使用線上資料,對城市交通狀況與出行需求進行分析與預測,為交通排程與新業務創新提供基礎,同時保護使用者隐私和資料安全。

我們已經看到,充分釋放資料的價值能夠推動革命性的創新,試想一個個比 ChatGPT 更加智能的産品進入生活,了解我們的興趣與習慣,提供定制化服務,讓工作和生活變得前所未有的便利與個性化。在這一過程中,隐私計算将作為新技術應用中不可或缺的一部分,讓資料在創造價值的同時保持安全可控,守護人們對隐私保護的合理預期。

參考資料

Gartner《2022 年新興技術成熟度曲線》

中國資訊通信研究院《隐私計算白皮書(2022年)》

《網絡安全技術和産業動态》2022年第10期,總第28期

CB Insights China《2022年中國隐私計算技術與市場發展研究報告》

繼續閱讀