韋韬：“可算不可識”是實作個人隐私保護和資料産業發展的平衡點

《個人資訊保護法》頒布後，企業如何通過技術手段按照法律要求保護個人隐私？

2021年（第七屆）中國網際網路法治大會順利閉幕。大會圍繞“守正創新依法強網”主題，展示網際網路法治前沿技術，總結網際網路法治創新成果，共話網際網路法治趨勢熱點，同繪網際網路法治發展藍圖。

大會上，螞蟻集團副總裁、螞蟻集團安全隐私科技委員會主席韋韬受邀圍繞“資料安全和個人隐私保護”做了主論壇演講。韋韬提出：通過隐私計算技術達到“可算不可識”是實作個人隐私保護和資料要素行業發展平衡的關鍵。這也是資料安全領域業界專家首次在隐私計算領域提出“可算不可識”的概念。

個保法建構了全新的授權牆

隐私最初出現在《民法典》，《個保法》（個人資訊保護法）逐漸的把它從民法的理念發展成一個可以進行技術管控的，更加有技術成分可管控的技術目标。隐私保護的核心的技術目标還是個人資訊使用的管控。個人資訊的本質是個人身份到個人的屬性和行為資料的映射關系，而對它的管控離不開整個資訊處理的環境。

《個保法》對于個人資訊的使用出現了27次同意，這27個同意建構了全新的授權牆，這個授權牆為整個的隐私權益建構了一個非常堅實的保障基礎。這是對個人隐私權益保障的一個非常巨大的進步。

同時，授權牆也給資料要素的使用和價值流通帶來的新的技術挑戰。比如在人工智能領域，資料要素是關鍵生産資料。機器學習模型訓練需要無偏見的訓練資料，否則産生的模型效果會非常差。這需要我們在技術上找到解決方案，避免給資料要素在人工智能領域的應用帶來嚴重制約。

《個保法》對于個人資訊的合規使用有很好的思考。它明确指出：匿名化處理後的資訊是不包括在個人資訊裡面的。而匿名化是指個人資訊經過處理，無法識别特定自然人且不能複原這樣的過程。我們認為未來整個行業需要這樣的一個平衡點，在堅持《個保法》授權牆對個人隐私權益保障的同時，要能夠提升各領域對資料要素應用的能力，推動整個資料要素行業發展。

“可算不可識”是

個人資訊保護和行業發展的平衡點

在這裡，我們要提一個概念：“可算不可識”。首先要滿足匿名化的要求，不能夠識别到特定的自然人。另外，要可算，假如說資料完全沒有辦法計算，沒有辦法産生資料價值，那麼這個資料要素行業也無法發展，是以我們認為“可算不可識”是未來一個關鍵的行業發展的平衡點。

相比于産業界目前提得比較多的“可用不可見”、“原始資料不出域”而言，“可算不可識”是一個另外獨立次元的要求。“可用不可見”和“原始資料不出域”都是關于資料如何處理的次元，而“可算不可識”則集中在資料無授權的情況下如何來保障個人資訊隐私權益。

在資料要素使用和價值流通過程中有很多場景，包括像機器學習的模型訓練場景，像非模型類的規則訓練場景以及其他的大資料處理場景，比如像統計、趨勢預測等等。這些都要通過“可算不可識”技術來保障特定自然人身份不能夠被識别。

個人資訊隐私保護

強依賴于安全的受控環境

匿名化在學術界和工業界經過幾十年的研究和實踐，逐漸意識到在開放空間裡高維關聯之下是沒有辦法做到絕對的匿名化。

舉兩個例子。

一個“是美國線上”（AOL）。2006年，為了學術研究，AOL公開了一些做了去辨別和脫敏處理的匿名化的搜尋記錄。但是《紐約時報》通過這些記錄，找到了真實世界中對應的一個人。後來AOL遭到起訴，為此賠償了大概總額高達500萬美金的罰款。

無獨有偶，Netflix是大家非常熟悉的美國網絡影視公司，它也是為了舉辦一個預測算法比賽，公布了一部分做了去辨別脫敏處理的使用者評分，結果被UTAustin的兩位研究者關聯到IMDb，識别出了其中一些使用者身份。2010年 Netflix為此被罰款900萬美金。

即便是把資料做了去辨別和脫敏，但是它是在一個開放空間中公開的，那麼全球的人都可以使用無限制的資料來做關聯。在這種條件下，是沒有辦法保障絕對的匿名化的。也就是說，開放的高維關聯之下，絕對的匿名化意味着從個體顆粒度的資料要素在價值上是要絕對的毀損，否則難以避免關聯出它背後特定自然人，沒有辦法絕對避免這種機率。

業界逐漸形成了共識：未來行業發展出路在于相對匿名化，相對匿名化并不是說最後效果機率的大小的問題，而是說對環境的控制的問題。它不是一個絕對開放空間中的匿名化保證，而是在一個受控環境中提供的嚴格匿名化的保障。我們認為安全的受控環境是相對匿名化的一個必要的條件，在這樣的環境裡對資料處理和關聯，要做到可管控、可審計、可驗證。

匿名化的失效，即重新識别特定自然人，主要通過兩個途徑：一個是個人身份識别資訊（PII）。比如PII洩露，就是個人身份識别資訊洩露直接可以找到某一個特定的自然人，比如身份證号、手機号、銀行卡号等等；另外是通過個人的屬性行為資料導緻的個人身份洩露。由于某些個人屬性行為資料的獨特性，是可以間接識别出特定自然人的身份。

本質上，這些洩漏都是個人相關資料的獨特性洩露導緻。我們認為在未來的實踐中，資料要素價值要實作“可算不可識”強依賴于安全的受控環境。

在這個環境中主要對幾點進行管控：資料的過程，結果和生命周期。在這裡面要對所有可能産生資料關聯的通道進行強管控：包括研發過程的中間資料，可以通過如動态K匿名等方法防止重識别；另外在結果輸出的時候，要防止輸出結果由于精度過高，有機會導緻原始屬性行為資料通過資料資訊傳導導緻個人身份的間接洩露。

在受控環境中，要通過加入差分隐私噪音或者是泛化/有效位截斷等方式來實作隐私保障。另外，受控環境需要在存儲和傳輸的時候要做資料的全鍊路加密，來防止存儲和網絡的帶外信道緻資訊洩露。

可信計算技術

實作“可算不可識”

為了實作這些要求，核心訴求還是資料的處理和輸出是能夠嚴格按照規範或者共識來做管控的。現在很多同行也在讨論相關的問題和技術。

比如，是不是一定要用中心化環境？我們能看到随着技術引進，可以是分布式的，不一定是中心化的。另外，區塊鍊是可以協助固化最終審計結果。但區塊鍊自身并不能保障上報資料和審計結果真實可信，還需要更基礎性的技術支援。此外，多方安全計算和同态加密是資料的安全處理方法，它并不能改變個人資料被使用本質。

相對匿名化需要受控環境與外部進行有效的隔離，防止産生開放的資料關聯。另外，資料處理和輸出的管控機制是可以遠端驗證的。實際場景中有很多分布環境，可能你用來處理資料的機器并不是直接歸你管控的資産。我們需要有可以進行遠端驗證的機制來保障它是符合你的安全要求的，保障資料處理和和輸出的過程和結果是可以遠端審計的。

在技術發展到今天，我們認為，可信計算技術能夠為相對匿名化提供非常好的安全管控的環境。

可信計算技術是隐私計算技術中的底層技術，最初是由可信計算組(TCG)推動和開發的技術，在國内也得到了非常廣泛的推廣，已經成為等保四級的關鍵支撐技術。

可信計算在計算機啟動時刻就開始進行安全度量，而且有硬體可信子產品TPM/TCM以及軟硬體協同保障的完整的驗證鍊。可信計算技術可以保障運作在可信裝置上的代碼行為符合安全設計和共識要求，支援包括對運作環境的隔離，防止惡意應用幹擾可信裝置中應用的執行；支援做遠端驗證，能夠确認網絡上的裝置是符合我們規範軟硬體要求的可信方，進而可以有效支援多中心和分布式的計算部署。

我們将可信計算技術應用在相對匿名化領域，大家可以看到這事非常好的一個契合：它能夠提供運作環境隔離，能夠把資料的存儲、傳輸和處理有效的和外部隔離，能夠支撐技術保障的遠端驗證能力，能夠使得資料的處理輸出管控機制可以遠端驗證和審計，而且支援後期上鍊等操作。

結語

我們相信個人資訊保護和資料要素的協同發展，需要全行業的共同支援和努力。我們認為，相對匿名化将是一個關鍵的行業選擇。可信計算技術能夠為相對匿名化提供包括共識審計、遠端驗證和安全隔離等能力的安全受控環境，進而支援業界在此基礎之上實作“可算不可識”，即在滿足匿名化要求的同時，來提升資料要素應用的能力，最終實作隐私保護和資料要素行業發展的平衡點。

《個保法》給法律界和技術領域的同行們提供了全新的很有意義的挑戰，還有很多的工作需要行業專家更多的交流探讨，後繼的标準規範也需要全行業共同的努力。

韋韬：“可算不可識”是實作個人隐私保護和資料産業發展的平衡點

繼續閱讀

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

9.spark Core 進階2--Cashe

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希