天天看點

易用、開源、生态 可信隐私計算是如何為資料要素流通保駕護航的?

作者:數科社

今天,伴随着技術的不斷疊代與進步,大資料分析和人工智能技術已經應用到各行各業之中,新一代人工智能算法依靠海量的資料和算力,在很多領域取得了非凡的突破。大資料、算力、大模型等正在深刻改變着人們的生活。科技的重要性可想而知,但比科技的重要性更為深入的是,科技是把雙刃劍,成就了人類,但風險也如影随形,敏感資訊處理、隐私洩露等資料安全問題帶來的挑戰,正在蠶食數字科技時代的發展成果。

尤其是,人工智能模組化時通路與使用的資料越多、資料的來源越多樣化,模型輸出的準确率越高。于是跨組織、跨行業的資料共享成為智能化系統精度提升的重要手段。而資料共享必須建立在隐私安全的前提下。2023年7月7日,由世界人工智能大會組委會辦公室指導,螞蟻集團、機器之心和隐語開源社群聯合主辦的 2023WAIC 資料要素與隐私計算高峰論壇在上海世博會議中心舉行。論壇呈現了隐私計算新理論、新技術、新成果,連通政産學研用各界,共探資料要素流通與安全的平衡點,意在助力資料要素市場體系建設,推動數字經濟安全合規高品質發展

01丨失效的“最優解”

隐私計算技術本質上是一個促進資料流通、降低資料流通摩擦力的技術,可以在保護使用者隐私的前提下給行業帶來新鮮的、安全的、深度的資料,釋放資料要素的生産力,促進數字經濟的發展。

在以前,隐私計算或者說是隐私保護計算,被視為從技術角度實作了資料流通與隐私保護之間的平衡的最優解,當是做到了資料的“可用不可見”,既實作了資料價值的流通與共享,又實作了資料的隐私保護。 “不可見”指的從技術角度屏蔽了敏感資訊和隐私資料,為不可分享或者不能的資料加上一層安全的“防護罩”,以實作事實上對隐私資料的保護,也就是不明文洩露、不直接明示。

不過,從實踐來看,前期的技術賦能并不是“最優解”。上述隻能解決流通過程中的安全問題,在資料流通之前和之後的權屬和收益問題仍不明确。

通過密碼學或者是分布式機器學習加密碼的方式,來對于資訊加密傳輸到中心再進行解密,解密過程和加密過程全部在計算機系統内完成,确實可以實作可用不可見,但實際處理過程中仍存在大量安全隐患,比如有的密文可以被反推出明文。另外“隐私計算”技術産品的安全分級标準與行業信任共識也有待建立。

西方世界知名的網絡視訊平台奈飛曾經就保護使用者隐私做過一次算法的印證和比賽。當時奈飛公布了一部分做了去辨別脫敏處理的使用者評分,結果被UTAustin的兩位研究者關聯到了相應使用者的ID,并識别出了其中一些使用者身份。2010年 Netflix為此被罰款900萬美金。此前的2006年,為了學術研究,“是美國線上”(AOL)公開了一些做了去辨別和脫敏處理的匿名化的搜尋記錄。但是《紐約時報》通過這些記錄,找到了真實世界中對應的一個人。後來AOL遭到起訴,為此賠償了大概總額高達500萬美金的罰款。

上述案例中,匿名化實作主要表現在個人身份識别資訊(PII)的洩露,和個人的屬性行為資料導緻的個人身份洩露。由于某些個人屬性行為資料的獨特性,可以間接識别出特定自然人的身份。 也就是說,資料還是要從使用者自己持有的終端,例如手機上傳到網站或者機構的伺服器再進行後續計算操作,這一過程資料會在一個開放空間中存在,那麼隻要掌握足夠多的資料,就可以跟脫敏後的資料進行關聯來查找相關性,最終可能會通過各種算法找到真正能對應的人。

資料要素流通與安全的平衡到底如何實作?有沒有一個行業安全分級标準來助力解決資料流通與資料安全的全球性行業難題?

02丨可信、易用的開源基建

在“可用不可見”的基礎上,隐私計算技術達到“可算不可識”,才是實作個人隐私保護和資料要素行業發展平衡的關鍵。 螞蟻集團副總裁&首席技術安全官 韋韬曾指出,隐私計算首先要滿足匿名化的要求,不能夠識别到特定的自然人;另外,要可算,假如說資料完全沒有辦法計算,沒有辦法産生資料價值,那麼這個資料要素行業也無法發展。

“可算不可識”,整個過程并不傳輸資料,隻是通過加密性的算法調整,同時對符合标準的個人資料進行分散式的計算,最終将計算結果傳遞到平台,而不是傳導隐私資料本身。

當然,在具體的實踐中,資料要素價值要實作“可算不可識”強依賴于安全的受控環境。需要對所有可能産生資料關聯的通道進行強管控:包括研發過程的中間資料,可以通過如動态匿名等方法防止重識别;另外在結果輸出的時候,要防止輸出結果由于精度過高,有機會導緻原始屬性行為資料通過資料資訊傳導導緻個人身份的間接洩露。

總之,在人工智能大規模資料流轉中,守護資料安全與使用者隐私是數字化的基石。可信隐私計算被認為是解決這一問題的支撐性技術。

在此背景下,自2016年起,螞蟻集團開始打造隐語可信隐私計算技術棧,旨在實作資料密态流通,将資料要素持有權和使用權、營運權分離,以支援資料要素産業安全健康的發展。

據介紹,可信隐私計算架構隐語是隐私計算技術中的底層技術,最初是由可信計算組(TCG)推動和開發的技術,可以在計算機啟動時刻就開始進行安全度量,而且有硬體可信子產品TPM/TCM以及軟硬體協同保障的完整的驗證鍊。在國内已得到了廣泛推廣,并成為等保四級的關鍵支撐技術。

如果說隐語架構開源是旨在彙聚開發者技術合力,共建隐私計算技術社群,那麼隐語開放平台則是讓需要用這個技術的“使用者”低門檻操作,讓隐私計算這一技術在終端需求側的應用更簡單、更廣泛。2022年7月,可信隐私計算架構隐語正式開源。又一年的技術沉澱後,隐語在各個緯度不斷疊代更新,2023年第六屆世界人工和智能大會上,螞蟻集團重磅釋出隐語開源架構 1.0 版本,共享 kuscia 隐私計算應用編排架構成果、推出面向隐私計算初學者的功能體驗工具 MVP 部署包,推動隐私計算技術互聯互通與易用性共建。

螞蟻集團認為,人工智能的深度應用,不僅對資料、算法、算力提出了更高要求,也對安全、隐私、倫理提出更多挑戰。在確定資料安全和隐私保護、健全人工智能倫理與安全的前提下,才能讓AI技術真正地釋放應用價值。隐私計算作為其重要技術支撐,正在迎來技術突破和産業發展的新動力,但易用通用性一直是行業掣肘。

隐語新版本有三大優勢:首先,開源Kuscia隐私計算任務編排架構,可以解決業務在使用隐語時端口合并、API接入等內建問題,支援通過互聯互通或者内置部署第三方系統等不同模式與第三方系統互通。 其次,新增支援SS-LR開放算法協定,緻力于打造黑白盒全棧互聯互通能力 。

同時,隐語1.0推出了“開箱即用”輕量化部署體驗包,再次降低了隐私計算應用門檻。讓可信隐私技術能幫助更多技術公司和機構。

03丨開放助力數智生态

在本次論壇上,螞蟻也正式開源了基于TEE技術的金融安全級方案“HyperEnclave”。TEE是隐私計算的技術路線之一,被認為是數字化時代資料安全上雲和隐私保護計算的最有效技術手段。據了解,HyperEnclave的優勢是安全、相容。它支援國内外主流CPU硬體平台,提供統一TEE抽象,核心代碼經過形式化驗證。

同時,HyperEnclave将硬體技術最重要的信任根托管在可信權威機構,滿足國産自研要求,已具備規模化商業場景的落地經驗。此次開源也有望為行業帶來更透明、更可信、更統一、更通用的國産TEE技術方案。

韋韬表示,“曆史的機遇、技術的變革,将資料智能推向了前所未有的高潮,也帶來了更加嚴峻的資料安全挑戰,資料流通邁向密态化是未來趨勢。資料密态要求下,隐私計算的方法體系、平台架構、技術标準都面臨全新變革”。韋韬也呼籲更多的同行參與到開源和生态建設工作當中,“開源隐私計算核心産品一直是我們對行業的态度,未來螞蟻将持續加大隐私計算的開放力度和廣度,與行業一道構築AI智能時代資料安全護城河 。”

本次論壇還重磅釋出 IEEE 首個「可信執行環境安全」國際标準 IEEE 2952-2023《Standard for Secure Computing Based on Trusted Execution Environment》,邁出探索資料跨境管理規範的重要一步。

該标準由螞蟻集團牽頭制定,制定了基于可信執行環境(TEE)的安全計算系統的技術架構,從隔離性、保密性、相容性、性能、可用性和安全性等方面定義了通用安全計算平台的技術要求,并指定了安全計算技術的用例和場景。為了更好地落地相關标準,各界代表還将進一步探讨了「隐私計算标準如何更好推動産業發展」相關話題。為隐私計算如何護航AI智能、助力數字經濟發展提供更加明确的前進方向。​

繼續閱讀