天天看點

數字法治|趙精武:個人資訊匿名化的理論基礎與制度建構

作者:中視聯播
數字法治|趙精武:個人資訊匿名化的理論基礎與制度建構

趙精武

北京航空航天大學法學院副教授

一、問題的提出

在推動資料要素市場化配置的大背景下,個人資訊如何安全地商業化利用成為一個重要問題。雖然《個人資訊保護法》将匿名化處理的資訊排除在個人資訊範疇之外,為個人資訊商業化利用提供了合法性的判斷标準,但其第73條卻将“匿名化”技術效果界定為“無法識别特定自然人”且“不能複原”。此種規定實際上與主流觀點所認可的匿名化技術效果相去甚遠,因為在資訊技術創新發展的當下,所謂的完全匿名僅僅可能存在于理想的技術場景中,實踐中隻能實作相對匿名化的處理效果。如果嚴格按照文義解釋的方法,《個人資訊保護法》第73條所界定的匿名化無法在商業實踐中找到與之比對的技術方案。為了避免将匿名化制度的實際功能和價值架空,當下最穩妥的方案便是将“不能複原”進行補充解釋,亦即匿名化處理的個人資訊無法被複原或者複原的成本和難度遠遠超出複原之後所能獲得實際收益。如此一來,匿名化制度的理論難題似乎得到了徹底解決。然而,問題遠未就此止步,因為既然普遍承認法律所規定的匿名化處理是一種相對匿名化效果,那麼這種“相對性”當如何解釋仍有疑問。如果僅僅停留于按照具體的匿名化處理場景進行“具體問題具體分析”式的探讨,那麼匿名化制度的适用問題并沒有得到徹底解決,隻不過是将一個概念模糊的問題轉變為一個标準模糊的問題。國内外學者對于匿名化存在諸如“功能性匿名化”“主客觀匿名化”以及“相對不可識别說”等解釋方案,這也導緻在制度層面遲遲難以正面回應何種匿名資訊可以不受《個人資訊保護法》調整。如此看來,匿名化制度的相關問題遠沒有就此得到妥善解決,尤其對于監管機構而言,零風險的偏好使其難以對匿名化技術保持信任。理想中的匿名化制度建構應當是一種風險可控的相對匿名化,即通過相應的匿名化處理能夠有效切斷個體資訊與其他存在社交關聯個體資訊之間的關系。是以,為了正面回答匿名化資訊的基本概念、匿名化效果以及重新識别風險等判斷難題,同時澄清匿名化制度是否涉及再識别風險機率計算的問題,有必要從匿名化制度的基礎理論出發,明确大陸匿名化制度的内在邏輯和建構方向。

二、匿名化制度的學說争議澄清

(一)國内匿名化制度的理論共識與分歧

《個人資訊保護法》頒布前後,學界曾就匿名化制度的理論基礎和具體内容興起過一陣讨論熱潮,但是伴随着個人資訊保護相關配套制度的出台,相關探讨反而有所衰減。這并非因為後續的配套制度已經基本解決了資料安全和資料利用的平衡問題,而是因為學界所達成的共識以及難以調和的分歧使得匿名化制度的相關研究陷入瓶頸。隐私計算技術的出現更是直接以“資料可用不可見”的技術方案解決了資料安全和資料利用的平衡問題,繼續探讨匿名化制度的現實意義似乎有所不足。當然,此種觀點混淆了匿名化技術與隐私計算技術之間的概念關系,隐私計算技術處理資料的性質依然是匿名化處理,匿名化技術并不是一項内容固定、方式單一的資料處理技術。

在共識層面,學界普遍承認個人資訊的匿名化是相對的,因為現有的資料分析技術以及不同管道的資料公開或洩露均有可能導緻匿名化資訊再識别特定自然人的可能性,沒有任何技術能夠實作完全匿名化的技術效果。此外,這種再識别風險客觀上難以進行量化計算,并且在很大程度上受到匿名化處理過程、技術方案以及應用場景的影響。即便有學者從技術層面對匿名化再識别風險進行整體性評估,意圖劃定再識别風險的機率區間,但這種區間評估模式客觀上無法解釋個人資訊處理者的匿名化技術标準,即究竟是按照區間下限的标準進行匿名化處理,還是隻要保證匿名化再識别風險不超過最大值即可。基于“匿名化是相對的”和“再識别風險量化是不具可操作性的”兩種共識,匿名化制度的理論探讨進入到下一個階段:以風險可控作為匿名化處理的法定标準。既然再識别風險機率難以精準計算,并且該風險也不可能徹底根除,那麼倒不如按照風險管理的基本邏輯解釋個人資訊處理者是否達到符合法定要求的匿名化處理效果。這種“基于風險”的治理思路強調應當在資料處理全生命周期的各個環節均采取預防再識别的保障措施,并輔之以相應的安全技術标準,最大限度地降低再識别風險的發生機率。遺憾的是,學界有關“風險可控”的相關探讨大多是在制度建構層面予以回應,主流觀點所提及的“設定禁止再識别義務”“設定防範再識别風險義務”“設計匿名化行為準則”“設定再識别風險評估機制”等主張并未能在可操作性層面解釋這些機制能夠實作何種程度的“風險可控”。

在分歧層面,鑒于再識别風險的不可根除性以及資料挖掘能力的躍遷式發展,部分學者開始質疑匿名化制度在個人資訊保護立法架構下是否仍有讨論的必要性。因為《個人資訊保護法》第73條所要求的“不能複原”和“無法識别”導緻實踐層面的匿名化處理技術無法使用,這使得個人資訊保護義務履行機制陷入兩難境地:一方面,倘若企業對個人資訊進行匿名化處理,但由于匿名化後的資訊仍然存在能夠複原的可能性,故而匿名化後的資訊仍然屬于個人資訊,企業采取匿名化處理技術似乎“多此一舉”;另一方面,倘若企業真正實作了“不能複原”的匿名化處理,那麼其采取的匿名化方案顯然是删除、替換或加密大量的識别符或準識别符,由此導緻資料的商業效用喪失,企業匿名化處理的商業目的無法達成。這種兩難境地正在逐漸淡化匿名化制度的理論價值與現實意義,故而有部分學者提出改變“因匿名化後的資訊不屬于個人資訊而可以自由處理”的立法邏輯,明确企業仍然需要對匿名化後的資訊承擔後續必要的安全保護義務。但這種改良方案又會導緻新問題——企業應當對匿名化後的資訊承擔何種程度的個人資訊保護義務?在現有技術不可能達成完全匿名化的背景下,以“危險制造者”的歸責邏輯要求企業繼續對匿名化後的資訊承擔保護義務看似符合權利義務對等的基本内涵,但忽視了匿名化處理的根本目的正是以非個人資訊的形式最大化資料利用效率。更麻煩的是,再識别的發生往往并不是單純因為個人資訊處理者匿名化處理不符合法定要求或技術标準所導緻的,而是受到“其他具有關聯性資料集合的公開和使用”“第三方惡意識别”等外部因素的影響。暫且不提匿名化資訊的後續安全保護義務等類似主張存在二次劃分義務履行标準的偏差邏輯,僅僅是在因果關系和過錯要件層面就難以證成企業故意導緻匿名化後的資訊被再識别事件的侵權責任。

(二)國外匿名化制度研究的遲滞原因

國外有關匿名化制度的研究興起于個人隐私保護領域,最早是與人口統計活動相關。這些研究普遍是以匿名化處理統計資料為範例,論證如何減少統計資料公開後可能造成的隐私洩露風險。并且,國外學者普遍将匿名化處理視為一種隐私保護過程,而不是一種純粹的安全保障技術。基于此種立場,匿名化處理的理論研究也與具體的應用場景、資料處理目标等因素相關,故而也延伸出匿名化再識别風險是否可以量化評估的學術争議,如從統計學角度測算特定資料庫經匿名化處理後的再識别風險低于0.1%,以此證明“公平的匿名化”确實存在。在立法層面,學者們常将歐美中的匿名化法律标準模式分别總結為“窮盡所有可能性标準”“隐私權類型保護标準”以及“不可識别和複原标準”。

歐盟作為匿名化技術應用的典型範例,其公布的匿名化技術标準和監管要求常被學者們予以引用與分析。而美國則傾向于在各個行業領域規定各自的“去辨別化”技術要求,如《健康保險流通和責任法》(Health Insurance Portability and Accountability Act,HIPAA)第164.514(b)條規定“受保護健康資訊的去辨別化标準”,《加州隐私保護法案》(California Consumer Privacy Act,CCPA)第1798.140(m)條規定的“去辨別化”(deidentified)。如若按照歐盟相關規範性檔案的公布時間為節點,國外匿名化制度研究大緻可以分為三個階段:第一個階段是早期匿名化研究,多以個人隐私保護為重心。第二個階段則是以歐盟第29條工作組在2014年釋出的《關于匿名化技術的意見》為起點,圍繞匿名化技術的實際效果開始了形式主義與實用主義之間的争論。第三個階段則是以歐盟《通用資料保護條例》(General Data Protection Regulation,GDPR)在2018年正式生效為起點,剖析歐盟模式的匿名化機制弊端,匿名化制度的研究重心轉至如何在法律與技術交叉視角下解決再識别風險問題。在司法實踐中,域外法院大多将再識别風險的認定标準限定為“采用所有可能合理措施方可識别”,如在英國的Common Services Agency v. Scottish Information Commissioner一案中,法院認為再識别的可能性應當考慮識别主體可能擷取的所有外部資訊并加以判斷。這類标準看似解決了再識别風險問題,但本質上依然未能為産業實踐提供更為操作可行的具體标準或規範化業務流程。

在上述三個階段中,類似于大陸的“匿名化是否仍有實際意義”的探讨同樣存在,尤其是在第二個階段,國外學者逐漸發現有關匿名化的學理争論已經停滞不前,論證重心側重于因“正确的外部資訊而被去匿名化”而存在的風險,相關研究活動對個人隐私保護的促進作用微乎其微。有學者對現有匿名化的争論進行了總結:因為輔助資訊的存在,使得匿名化後的資訊仍然存在再識别的風險,這也導緻了兩種針對匿名化是否仍有實踐意義的對立學說——實用主義者認為在實踐中,所謂的輔助資訊并不是那麼容易獲得,卻忽視了“資料主體是可區分的”和“資料主體能夠被再識别”兩個概念,其論證邏輯是通過預設各種場景去量化具體的再識别風險,其結果也是傾向匿名化仍然對隐私保護具有重要意義。形式主義者則認為量化匿名化的有效性或再識别風險是不科學的,因為這種量化的前提基礎是預設匿名化破解主體會選擇何種技術方案,其結論是不應當過高地期待匿名化在隐私保護領域的預期作用,重要的是如何盡可能降低再識别風險。關于這兩種學說争論的根源,有學者言簡意赅地指明是“學科視角的差異性導緻的”,因為形式主義者對于量化技術有效性或風險機率的出發點是以“數學的嚴謹性”為基礎,但其結論也是以缺乏相應的實踐可操作性;而實用主義者則是将統計學的方法應用于具體場景,雖具有可操作性卻面臨着适用範圍的局限性。這階段的匿名化制度的治理邏輯可以歸結為“基于損害”“基于風險”和“基于流程”以及三者融合的中間路徑,但這些治理邏輯還是将再識别風險作為核心内容。

事實上,形式主義和實用主義的學說之争一直持續到第三個階段也未能解決,這兩種學說背後的學科視角差異也引發了學者們對方法論的審視與反思,進而開始尋求法律與技術結合的解釋工具。事實上,國内外研究也均存在資料安全立法與資訊技術創新之間的發展不同步問題,這種不同步的根源除了法律無法客觀預測技術發展走向之外,還表現為法律與技術針對同一客體的概念基礎存在顯著差異。基于這種考慮,國外學者主張建構技術與法律規範的混合概念,并以歐盟GDPR序言第26條提及的“篩選”(singling out)為例。該概念原本是指一組資料記錄中的特征資料組合能夠唯一描述個人,并且不會在人群中偶然出現,那麼就會出現“篩選”現象。是以,這些學者主張“資料處理者應當采取适當的保護性披露限制技術預防篩選風險”,其中的“保護性披露限制技術”是指,在法律層面應當至少滿足“特征組合在匿名資料集合中出現頻率最小化”和“匿名化處理不會顯著增加原始資料與其他資料之間的區分可能性”中的一個條件;而在技術層面,“頻率最小化”和“顯著增加區分度”顯然不可能以一個具體數值予以規範,而是需要結合具體的資料效用分别設定“0.1%—1.0%”的最小組合識别機率門檻值和“5%—20%”的最大組合識别機率門檻值,以便實作納入立法中的“篩選”規範具有技術層面的可操作性。當然,也有學者則認為法律層面的匿名化與技術層面的匿名化并不具有可協同性,因為很難将法律植入計算機代碼之中,法律意義上的匿名化更像是一種風險緩解政策,降低隐私洩露的擔憂,更重要的是,匿名化法定标準越高,意味着立法者希望隐藏更多的個人資料,而資料集合的效用會顯著降低。

(三)匿名化制度理論分歧的根源:為何匿名化?

從各國匿名化立法差異性來看,各國對于匿名化、去識别化乃至假名化的概念界定并不完全相同。中國《個人資訊保護法》将匿名化資訊的特征限定為“無法識别”和“不能複原”。歐盟GDPR第4(5)條強調了匿名資料在沒有借助額外資訊的情況下無法識别資料主體的技術效果,亦即匿名資料本身的無法識别。大陸與歐盟均選擇将匿名化資料排除在個人資訊範疇之外,但由于大陸強調的是匿名資料的“不能複原”,即匿名資料如若能和其他資料結合“複原”則仍屬于個人資訊範疇,導緻大陸的匿名化制度陷入适用困境。而美國在其立法中更常采用去辨別化概念,并且2020年的《加州隐私權法案》(The California Privacy Rights Act,CPRA)還規定了個人資訊處理者負有禁止再識别的義務,承認了去辨別化的資料存在再識别的安全風險。CPRA并沒有選擇“全有或全無”的方式将去辨別化技術作為免于承擔資料安全責任的“安全港”,故而也就不存在大陸《個人資訊保護法》中匿名化技術的法定概念與實際技術效果脫節的問題。由此可見,大陸匿名化制度困局的根源之一在于匿名化技術的法定概念與“全有或全無”模式背後的義務内容存在沖突,解決路徑也應當是對《個人資訊保護法》的匿名化概念作出補充性解釋。

從國内外匿名化制度的理論分歧來看,主要的争議焦點可以總結為“匿名化技術是否仍然具有保護個人資訊的實踐意義”“匿名化規範如何兼顧法律與技術”以及“匿名資料對應着何種義務内容”三個問題。這些問題彼此之間看似毫無關聯,但是其核心均是以再識别風險為論證導向。其一,鑒于無法實作完全的匿名化技術效果,并且商業實踐也并沒有反映出匿名化能夠在保障資料效用的前提下實作資料安全,尤其是出現了諸如“美國線上公司(AOL)公布的匿名化搜尋記錄被《紐約時報》反向識别特定個人”“美國醫療機構公布的醫療資料集合能夠與其他機構公布的選民登記表進行關聯并識别個人”等匿名化失敗案例,部分學者将匿名化的失敗歸因于不可控、不可量化的再識别風險,這也就導緻了第一個争議焦點。

其二,由于匿名化處理方案與資料結構、資料環境等外部因素相關,加之資料的外部共享、内部使用等差異化的資料處理目的,意圖利用抽象凝練的法律規範對複雜多變的技術方案進行完整的描述存在一定難度,這也就導緻了第二個争議焦點。并且,這種複雜性更使得匿名化資訊的判斷标準具有動态性、場景化特征,如在Breyer v. Bundesrepublik Deutschland案中,歐盟法院考量了動态IP位址的技術原理、資料采集方合理識别特定自然人可能性以及《德國國家安全法》規定的平台配合執法機構确認使用者身份等要素,最終将涉案的動态IP位址認定為個人資訊而非匿名化資訊,這也恰恰反映了法定的匿名化效果同樣需要結合個案判斷。

其三,主流觀點大多贊同個人資訊處理者無需對匿名資料承擔原有的個人資訊保護義務,前提正是匿名資料已經不具有立法者所擔憂的侵害個人資訊權益之風險,但是客觀存在的再識别風險卻使得“匿名資料不屬于個人資訊”這個結論受到質疑,進而導緻了第三個争議焦點。可以說,再識别風險問題的解決已經成為匿名化理論研究不可回避的關鍵問題,并且對于該問題的關注點也從最初的風險是否可量化評估轉變成了風險成因及其預防可能性的探讨。

無論是制度差異,還是理論分歧,匿名化制度的相關研究大抵依循“是什麼——為什麼——怎麼樣”的論證邏輯,并根據預設的匿名化概念提出不同的匿名化制度規範。但是,在實際的研究過程中,學者們總是下意識地忽略或淡化“為什麼要匿名化”這個關鍵問題,僅僅是以協調個人資訊保護與資料效用作為理由,進而轉向具體的制度方案探讨。即便有學者将匿名化處理的理論基礎歸納為“必要性原則”“目的限制原則”和“區分對待原則”,依然未能觸及匿名化制度建構的理論根據。這種研究重心的遺漏本質上屬于忽視了隐私時代和個人資訊保護時代的匿名處理目的的差異。個人隐私和個人資訊在特定情形下可能交叉重疊,但是從權益的角度來看,兩者意味着不同的風險形式和權利保護方式。國内學者在援引國外觀點學說時,未曾注意到美歐學者更側重從隐私保護的角度探讨匿名化目标的實作,進而也未能區分個人隐私保護與個人資訊保護語境下的匿名化差異。以個人隐私保護為導向時,由于個人隐私的保護邏輯是避免隐私資訊被擅自公開,是以匿名化處理的目的是保障涉及隐私内容的資訊保持私密性。而以個人資訊保護為導向時,由于完全隐匿自己在網絡上的資料活動根本不可能,并且事實層面的個人完全控制個人資訊流向也近乎“烏托邦式幻想”,是以匿名化處理目的更側重特定範圍和條件下的原始資訊不可見,亦即“相對匿名化”。并且,匿名化機制的功能是複合性的,在保障個人資訊安全的同時,更要促進資料的高效利用,而不是限制資料處理活動。

三、匿名化制度的理論基礎再思考

(一)匿名化處理的技術特征與法律性質

匿名化處理的技術原理實際上是将一組資料或資料集合中能夠關聯到特定自然人的識别要素予以篩除或隐藏,可以說是一種“隐藏個人身份”和“避免從資料集合中發現特定個人”的資訊技術。在技術層面,匿名化處理的關鍵環節便是如何控制和阻斷匿名化後的資訊與其他資料之間的關聯性,既包括基于家庭、工作等社會活動所形成的社會關聯性,也包括基于共同偏好等形成的群體關聯性。歐盟《關于匿名化技術的意見》總結了匿名化處理的四個基本特征:一是匿名化處理的目的在于防止識别資料主體的具體身份,且過程不可逆轉;二是不同的匿名化技術存在不同的适用場景;三是匿名化處理需要考慮到資料控制者和任何第三方識别資料主體所可能采取的一切合理措施;四是匿名化處理存在固有風險,需要事前進行評估。美國的去辨別化技術更側重對于直接識别符、間接識别符的删除和隐匿,在其2010年釋出的《個人資訊保護指引》中直接将去辨別化界定為“通過移除足夠的個人可識别資訊以至于剩餘的資訊不能識别特定個人,并且沒有合理理由相信這些資訊能被用于識别特定個人”。當然,技術層面的匿名化處理并非僅限于姓名、身份證号、聯系電話等識别符的删減,随着隐私保護技術的創新發展,資料聚合、差分隐私、資料噪音添加等技術方案也逐漸成為主流。但無論匿名化技術方案如何設計,其底層邏輯大抵可以分為兩類:一是直接修改資料組合與特定個人之間的關聯程度,犧牲的資料效用主要以資料真實性為限;二是間接淡化或模糊特定個人對應的資料要素,如将個人的出生日期聚合為特定年份出生的群組,犧牲的資料效用主要以資料準确性為限。

前述技術原理僅僅反映了匿名化處理達成匿名效果的基本路徑,但實踐中還需要考量具體的匿名化資料類型和匿名化目的。因為結構化資料與非結構化資料對應着不同的技術方案:結構化資料主要包括常見的各類統計表等,因為該類資料能夠反映完整全面的個人狀況,且無需企業進行資料歸集、清洗和挖掘等處理活動,故而匿名化處理的基本邏輯主要是通過删除直接識别符、準識别符、根據場景限定特定資料字段等方式消除資料再識别的可能性。如美國HIPPA法案所列舉的包括姓名、電話号碼、社保号、銀行賬号等在内的18類直接識别符,該法的調整對象隻要删除了這些直接識别符就即可被認定為完成了資料的“去辨別化”。非結構化資料則是指資料要素之間并不存在直接的邏輯關系和固定結構,其匿名化處理方式則面臨着諸多問題。以汽車資料的匿名化為例,一是智能網聯汽車生成的包含圖檔、視訊等非結構化資料脫敏難度較高,二是匿名化處理過程中難以把控脫敏的個案标準/程度,因為在脫敏的過程中還需要保留用于安全駕駛的基礎資訊,例如行人、車輛的資訊。中國汽車工業協會釋出的《汽車傳輸視訊及圖像脫敏技術要求與方法》和國家标準《智能網聯汽車資料通用要求》則對匿名化處理結果提出相應的評估方案,即“敏感區域不可恢複”“多幀無法還原資訊”“脫敏區域和實際人臉/車牌區域的交并比應當滿足50%—75%”等。

無論是國内外有關匿名化技術概念的界定差異,還是技術層面匿名化處理模式的場景化特征,其實都說明一個關鍵事實:法律與技術層面的匿名化概念存在“鴻溝”,而且匿名化處理并不是一個固定的技術方案或者總能保持同等效果的技術措施。探讨匿名化技術原因的目的在于重新理清法律與技術話語體系下匿名化概念的實質差別,學界久争不決的根源恰恰是将法律話語體系下的匿名化效果強行捆綁于技術話語體系下的匿名化技術特征。從前述事實不難發現,法律文本中多習慣以“不可複原”“不可再識别”等修飾詞作為匿名化處理的基本要求,殊不知這種修飾詞天然地與匿名化處理的個性化特征格格不入,因為以同一個标準去規範不同場景、不同類型的匿名化處理不可避免地存在“削足适履”的問題,而這也是大陸《個人資訊保護法》中匿名化概念界定的問題之一。進一步而言,“根據法定要求實施滿足相應标準的匿名化措施”和“采取具有相同安全效果的匿名化措施”本質上是兩個層面的問題,而理論争議中往往存在将前者異化為後者的邏輯誤區,匿名化措施所遵循的技術原理是盡可能消除資料之間的關聯性,而不是徹底切斷資料之間的關聯性,這也是緣何需要重新審視匿名化處理義務理論基礎的原因之一。

(二)匿名化制度的理論基礎證成:資料關系理論

現有的匿名化制度研究争議之一是資料自由使用與個人資訊安全利益之間的平衡問題,倘若僅在純粹的法律價值層面進行讨論,無助于解決匿名化後再識别等實踐問題,故而問題的解決思路則回到了如何控制資料結合所産生的不确定風險。在使用者畫像模式中,使用者标簽雖然不屬于個人資訊,但數個使用者标簽的組合卻有可能識别到特定自然人。國外學者為了應對大資料分析技術對個人資訊、個人隐私保護模式的影響,在愛德華·布魯斯汀(Edward Bloustein)提出的“群體隐私”(group privacy)基礎上延展論證了具有數字時代特征的群體隐私理論。國外學者也發現集體行動對傳統個人隐私保護效果的影響,提出“集體隐私”(collective privacy)的概念。因為基于資料分析技術,單一來源的保密資訊(如臉書等平台的使用者标簽)能夠解釋多個個人隐私資訊,進而對這些資訊傳播的合法性存在諸多争議。部分學者将群體隐私劃分為兩個群體隐私類型,一種是基于特定社會關系(如家庭等)形成的群體,這些群體成員對該類隐私共同享有權利,但個體成員無法直接主張該權利;另一種則是基于算法分組所形成的群體,這些群體共同具有的社會交往活動資訊,也被稱為“推導類隐私”。不過,國外學者認為經由資料分析擷取特定群體的社會交往行為規律或者個人行為模式選擇屬于數字社會必要的技術活動,故而“推導類隐私”并不能像布魯斯汀所主張的群體隐私權那般作為一項絕對權存在,更适宜作為一種道德權利。進一步而言,推導類隐私在某種程度上與能夠反映特定群體在社會互動活動方式的群體特征資訊(如使用者标簽等)具有相似性,兩者均是通過資料結合分析的方式還原特定群體或特定個人的社會交往活動。核心差別在于,國外學者的推導類隐私的内容是以隐私資訊為主,群體特征資訊所結合推導的資訊内容是以個人資訊為主。不過,推導類隐私作為一項道德權利之論斷也能夠為匿名化制度提供一種觀察視角:匿名化後再識别風險的預防雖然需要重點關注資料與資料之間的結合分析,但是這種結合分析的幹涉應當存在相對明确的邊界,法律不可能為了控制再識别風險而禁止所有的資料分析行為。

從商業實踐的角度來看,所有的資料收集、處理行為都隻存在一個經濟性目的,即建構自然人與自然人之間的群體性特征關系。具備一定經濟價值的資料集合必然包括自然人一定數量的身份屬性值,“少于三個屬性點的資料集合毫無價值”。事實上,國外學者已經注意到個人資訊保護領域的賦權弊端,如美國薩洛梅·維爾約恩(Salomé Viljoen)基于“将資訊法益弱化為個人立場的權利訴求”,提出資料治理的關系理論。其理論價值在于回答兩個資料治理領域的核心問題,一是資料之間的關聯性在資料治理領域有何特殊意義,二是這種基于關聯的資料社會關系包含哪些内容。對于第一個問題,維爾約恩認為個人資料權利保護模式忽視了數字經濟中資料收集行為的主要目的,即單一個體的資料經濟價值微不足道,企業收集使用者個人資訊的根本目的是盡可能發現資料的關聯性,而這種關聯性可以轉變為以使用者畫像、個性化推薦、同類客戶挖掘等常見的盈利業務模式。對于第二個問題,薩洛梅·維爾約恩将資料關聯劃分為縱向與橫向的資料關系,縱向的資料關系是指個體層面的資料主體與資料處理者之間的資料關系,用以解釋為何需要設定個人資料權利以及特殊的資料處理義務,橫向的資料關系則是指“不同資料主體之間的關聯性以及與其具有相同群體特征的其他主體”之間的資料關系。舉例而言,IP位址資訊具有唯一辨別性,能夠與更少的資訊要素組合識别到特定自然人,如“IP位址資訊+姓名”“IP位址資訊+某天上網時間”等;但是,IP屬地資訊在橫向資料關系層面需要更多的資訊要素組合才能識别到特定自然人,如“IP屬地資訊+姓名+聯系電話”才能準确識别到特定自然人。

與國内個人資訊保護的主流觀點相比,資料關系理論将橫向的資料關系缺位作為個人資訊安全與使用法益失衡的根本原因。并且,國内少數學者已經注意到個人資訊識别背後的資料關系問題,進而将個人資訊保護制度解釋為“由私主體及公私主體間霍菲爾德法律關系構成的法律關系網絡”。因為個人資訊保護對應的法益并不是财産性利益,而個人資訊之間的關聯性才是商業活動所需要的财産性利益,是以導緻在論及法益平衡時,縱向層面的個人資訊權利與橫向層面的商業利益被強制置于同一次元内予以權衡比較,其結果也必然是籠統層面的價值比較。進一步而言,相對匿名化的判斷标準問題實際上也是基于資料關聯性進行資料分析活動的法律幹涉問題。例如,在交通管控領域,分析特定路段行車路線、行車習慣、起點與終點等資料進而針對性地進行道路疏導,這類資料分析行為雖具有識别個人資訊的可能性,但從降低交通事故、解決道路擁堵等社會公共利益層面來看,又是合理且必要的。之是以将匿名化制度的理論基礎解釋為資料關系理論,原因有三:第一,匿名化制度的技術原理即盡可能消除具有關聯第三方的群體性特征,淡化借由社會關系再識别自然人的可能性,而資料關系理論也恰恰是将資料主體關聯性所對應的資料關系作為資料治理的核心内容。第二,資料關系理論為安全與利用的法益平衡提供了相對具體的解釋标準。倘若将個人資訊自決權保護作為匿名化制度的理論基礎,其結論必然是“消除所有再識别可能的匿名化效果符合法律規定”,這也意味着匿名化資訊喪失了企業所需的經濟價值,因為達到這一匿名化效果必然需要清除所有可能關聯到特定自然人的識别符。然而,在資料關系理論中,匿名化制度滿足安全與利用雙重法益的原因被解釋為匿名化處理能夠保留企業所需的基本經濟價值,而不是清除所有具有社會關聯意義的識别符。進一步而言,匿名化義務的履行同樣可以将“橫向資料關系的顯著程度”作為認定标準。隻有滿足“基于顯著的資料關系能夠再次識别特定自然人”以及“識别難度和識别成本屬于合理預見範圍”這兩個條件,才可以認定匿名化處理符合《個人資訊保護法》的基本要求。第三,資料關系理論能夠解釋在特殊場景中“匿名化資訊為何不是個人資訊”。橫向資料關系的存在使得“個人資訊”概念在商業實踐中“舉步維艱”,由于資料分析技術的疊代優化,使得任何存在關聯的不同資料在理論層面具有識别特定自然人的可能,所謂的“不屬于個人資訊的匿名化資訊”也被視為技術空想。但在資料關系理論下,以“識别”為關鍵要素的個人資訊認定模式則轉變為以“識别可能性”與“顯著關聯程度”的綜合認定模式。換言之,匿名化資訊之是以不屬于個人資訊,不是因為“不具有識别性”,而是因為“不具有識别特定社會關聯的能力”。

(三)資料關系理論在匿名化制度的适用

資料關系理論在解釋匿名化制度目标時,其核心作用在于能夠提供相對明确的判斷标準。既然再識别風險不可能徹底消除已成共識,那麼匿名化制度的建構重心便成為“法律認可的匿名化處理效果如何解釋”或“如何将再識别風險控制在可接受範圍内”。基于隐私權保護的匿名化處理與基于個人資訊保護的匿名化處理實屬兩種治理路徑:對于前者,因為隐私資訊的特性在于高度的私密性,故而匿名化處理應當滿足“完全不可複原”之效果。對于後者,因為在萬物互聯的網絡空間中,資料一旦集聚,就有可能産生重新識别的可能性,故而匿名化處理應當滿足“不存在能夠識别到特定自然人的顯著關聯資訊”。結合資料關系理論來看,橫向資料關系決定了匿名化處理方案具有顯著的“個性化特征”,即在技術層面需要考慮所處理個人資訊的資訊系統環境,阻斷能夠輕易發現群體性特征的橫向關聯資料,實作“最适合”而非“最先進”的匿名化處理效果。那麼。在後者的治理路徑中,“不具有識别性”這一判斷标準難以為商業實踐提供明确清晰的指引,而“不具有識别特定社會關聯的能力”則能夠在技術方案層面解決這一問題:其一,根據資料關系理論,個人資訊處理者在選擇匿名化技術方案之前,需要明确待處理個人資訊所包含的群體性特征,并且将群體性特征所反映的“共同行為特征”或“社交關聯屬性”納入再識别風險影響因子。其二,明确資訊系統環境安全性、其他資料處理者的資料安全保障能力等場景化要件,進而分析上一步的風險影響因子是否會使風險作用力顯著提升。例如,待處理的個人資訊為“使用者ID号碼+近期消費購物類型+購物時間段”,那麼,“購物類型”和“購物時間段”則屬于群體性特征。倘若電商平台打算以此分析近5年的購物偏好,那麼“購物類型”和“購物時間段”就會因為5年内的使用者消費資料聚集而導緻再識别風險顯著增加。但是,倘若電商平台僅僅打算以此分析使用者一年内的消費頻率,那麼“購物時間段”而非“購物類型”才會增加再識别風險。在明确風險增加的來源之後,則需要阻斷或降低橫向資料關系的顯著性。繼續以前述例子為基礎,在分析近5年購物偏好的目标下,匿名化處理的效果應當表現為阻斷和降低“購物類型”和“購物時間段”兩個橫向資料的關聯性:如存在“購物類型”資訊要素時,則需要選擇消除、泛化“購物時間段”,将原來的“晚上10點購物”這類資訊内容處理為“晚上購物”等。

進一步而言,從阻斷和降低橫向資料關聯性的目标來看,匿名化處理模式至少應當滿足隐藏資料屬性、分離資料關系、擾亂資料排序三個效果,即實作遮蔽、切斷和打亂橫向資料關系的效果。隐藏資料屬性主要表現為泛化和抑制特定資料屬性,泛化是指将原有的資料屬性值用父值替代,如個人的居住地在海澱區清河街道,采用資料泛化的結果是用北京市替代海澱區清河街道;抑制是指對具有唯一辨別性的資料屬性值直接予以删除,例如在教育部門公布錄取名單時,不公布身份證号碼,隻公布準考證号末尾數。分離資料關系主要表現為分離其他資料屬性值與敏感屬性值之間的關聯程度,既包括無法與匿名化資訊中的其他屬性值互相結合再識别,也包括無法将匿名化資訊的部分屬性值與其他資料集合中的敏感屬性值予以直接關聯。擾亂資料排序則是指采用增加資料噪聲、平均值或者合成資料等技術措施導緻第三方無法判斷原始資料的屬性與數值的對應關系。當然,這些技術效果主要還是面向匿名化處理方案的選擇,此外,匿名化處理過程中還需要在處理環境、處理溯源以及方案比較層面進行明确相關的技術标準的明确,即在安全可控的資料處理環境下進行匿名化處理,并且匿名化處理所涉及的原始資料、匿名資料流動應當能夠溯源和記錄,在多個匿名化處理方案中比較并選擇最優化方案。

需要說明的是,基于資料關系理論所确定的匿名化判斷标準與傳統的匿名化、去辨別化相比,優勢在于能夠結合再識别風險成因和作用機制形成較為明确的業務合規模式。一方面,相較于傳統的匿名化,《個人資訊保護法》所規定的“無法被識别或關聯”“不能被複原”之标準與實踐中的技術效果并不完全貼合,在法律适用過程中仍然需要進一步解釋。另一方面,《個人資訊安全規範》将“去辨別化”界定為“使處理後的個人資訊在不借助額外資訊的情況下,無法識别或者關聯個人資訊主體的過程”,其内在邏輯是降低資訊區分度,而這些資訊一旦與其他資訊一并處理,并不排除重新識别的可能性。此外,還需要予以澄清的是,匿名化技術是一個寬泛的概念,并不存在唯一的技術标準。是以,在法律制度層面探讨匿名化技術更多的是探讨如何選擇更為恰當的匿名化技術方案,而不是對現有技術工具提出一個完全無法實作的技術目标。換言之,在資料關系理論架構下,匿名化處理所采用的具體技術仍然以泛化技術、随機化技術、K-匿名模型等為主,唯一不同的是,相應的匿名化制度内容則表現為一套匿名化處理流程行為規範。例如,在團體标準《網際網路廣告匿名化實施指南》中,匿名化處理則表現為包括“環境維護、确定目标、技術處理、效果評估、行為控制和過程監督”等在内的綜合性匿名化業務流程。

(四)匿名化再識别風險問題的解釋路徑

匿名化處理的再識别風險判斷問題實質上并非一個純粹機率量化問題,讨論風險機率的多少、風險可接受程度以及是否能夠做到完全預防再識别風險無助于解決現實問題,匿名化處理的法定标準應當從完全風險控制轉向至相對風險預防。匿名化處理針對的是橫向資料關系,在消除這類資料關系顯著識别性的同時,確定橫向資料關系的經濟價值,故而匿名化處理是否符合法定要求的判斷依據應當兼顧處理過程與處理結果。匿名化處理過程應當采取盡可能安全可靠的技術方案消除具有顯著識别功能的辨別符,匿名化處理結果應當滿足資料處理者無法通過可以預見的技術措施或其他輔助資料集合重新确定匿名化資訊存在的橫向資料關系。事實上,國内外也有不少學者主張匿名化資訊再識别風險應當限定為相對風險的控制,但大多因為無法解釋所謂的“相對”程度而難以自圓其說。即便以“采取所有合理、可能的手段仍無法識别”“再識别成本難度較大”等細化标準予以補充說明并限定“相對風險”區間,在适用過程中仍難以同時滿足特定場景下特定主體匿名化處理的特殊需求。此外,也有學者以歐美等模式為範本,提出包含“可以防止資料集中再次識别”“可以防止通過連結同一自然人的資料屬性再次識别”和“可以防止從資料集合中單獨推斷識别”三項有效匿名化标準,但是這仍屬于最基本的判斷标準。

這其中部分原因在于學者們僅僅作出了相對風險的學理性解釋,忽視了匿名化制度本身兼具技術屬性與法律屬性,未能同時作出與學理性解釋配套的一般性技術标準,最終導緻匿名化制度的再識别風險遲遲未能得到真正解決。在資料關系理論架構下,匿名化資訊相對再識别風險的預防邏輯表現為盡可能使得第三方無法或難以明确具體的橫向資料關系,包括資料集合所反映的社交關系、群體性特征等關系類型。

在法律話語體系下,匿名化資訊識别風險的預防效果應當分别從識别難度、識别成本以及識别來源三個角度綜合考量,部分國外學者也提出了身份識别的貨币成本、所需時間、可用技術以及技術發展等類似的判斷标準,其目的也是為了協調法律與技術層面有關再識别風險的不同認知差異。首先,識别難度是指第三方再識别出特定自然人需要采取較高标準的技術手段和輔助資料集合。因為法律層面的識别不僅僅包括人為地主觀推斷匿名化資訊對應的個人資訊,還包括機器結合唯一識别符與其他辨別符形成的特定資料關系,從資料集合中區分特定個體,是以識别難度主要展現在“利用常見的資料分析技術難以識别”。其次,識别成本則是指再識别所需要的成本遠高于再識别所能獲得的經濟利益。通常而言,第三方之是以惡意再識别匿名化資訊,其根本目的是通過将再識别的資訊進行售賣等活動擷取相應的經濟利益,但是如果識别成本過高,例如需要花費一定的技術成本破解加密方案、用于輔助間接識别的其他資料擷取難度大、可再識别的資料規模較小等,那麼行為人就會缺乏主動進行資料分析和重新識别特定個人資訊的經濟動機。相對應的,大範圍、規模化的匿名資訊再識别安全事件發生機率也會随之降低。最後,識别來源主要針對的是意圖再識别的行為主體類型。在既有的學說假設中,常存在重視再識别可能性而忽視再識别主體的現象,這會導緻泛化可能發生的再識别風險。是以,匿名化處理模式的選擇以潛在的再識别行為主體為基礎,充分評估可能存在的再識别風險類型,這也是為何需要引入資料關系理論作為匿名化制度的理論基礎。

四、基于資料關系理論的匿名化制度建構路徑

(一)《個人資訊保護法》中匿名化制度的體系定位

匿名化處理無法徹底預防再識别風險并不意味着“匿名化已死”,即便是隐私計算等新興技術也無法滿足理想狀态下的完全匿名效果。匿名化技術僅能實作相對範圍的再識别風險預防,基于資料關系理論的匿名化制度則是以促進資料商業化利用和減少對個人資訊權益的損害為基本目的,其功能定位并非傳統的意義上的個人資訊保護制度,而是要求資料處理者以最大化、最優化的方式履行個人資訊保護義務,借由個人資訊的安全保障實作無障礙的資料流動和交易。恰如前文所提及的,對于監管機構而言,最大的擔憂莫過于匿名化制度成為資料處理者不履行個人資訊保護義務的“避風港”。但是,既然明确了匿名化技術預防再識别風險僅以相對風險為限,那麼這種擔憂也将得到充分解決:一方面,匿名化處理效果未能滿足法定義務标準和技術安全标準,即便資訊經過匿名化處理,也不能當然認定該資訊屬于匿名資訊,而非個人資訊;另一方面,匿名化處理所能夠預防的再識别風險主要是以精準識别橫向資料關系為主,在絕大多數情況下,匿名化資訊能夠滿足此種技術效果,再識别的難度、成本無疑會遠超能夠獲得的實際成本,能夠有效降低第三方再識别的經濟動機,故而也能在一定程度上解決匿名化制度成為過度處理個人資訊的“免責事由”。

《個人資訊保護法》将匿名化資訊排除在個人資訊範疇之外,雖然意味着匿名化資訊的處理活動不必遵守《個人資訊保護法》的強制性規定,但是這種制度效果不應當簡單解釋為“全有或全無”的規定模式。因為匿名化制度的制度目的并不是提供資料商業化利用的免責事由,而是提供一種兼顧安全和利用的技術方案,以制度的形式要求個人資訊處理者按照最優化方式充分履行匿名化制度所要求的個人資訊安全保護義務,也有學者将匿名化的功能與價值歸結為“排除個人資訊以發揮資訊效用”和“控制資訊風險以履行法律義務”。進一步而言,匿名化處理并沒有免除個人資訊處理者的法定義務,而是将這種法定義務嵌入匿名化處理過程中。前文提及的匿名化處理标準就是以阻斷橫向資料關系的識别為核心内容,在實作法律與技術雙重标準的匿名化處理活動後,個人資訊處理者的法定義務也得到充分履行,故而《個人資訊保護法》也無必要重複要求履行相同目的的個人資訊保護義務。并且,倘若個人資訊處理者未能充分履行匿名化制度的基本要求,那麼即便處理後的資訊在事實層面具有匿名效果,且暫時未被第三方再次識别,也不等同于個人資訊保護義務的履行完畢。因為不符合法定要求和技術标準的匿名化資訊仍然存在相當程度的再識别風險,風險尚未發生并不意味着風險不會發生,故而《個人資訊保護法》的相關内容仍得以适用。

是以,匿名化制度的功能定位在于最大程度保障匿名化技術的可靠性與安全性,并且,該項制度以“重新識别橫向資料關系”為内容,恰好能夠與其他個人資訊保護制度予以銜接。其一,匿名化制度與個人資訊保護影響評估、資料安全風險評估機制銜接。盡管匿名化資訊不屬于個人資訊,但匿名化處理過程作為能夠對“個人權益有重大影響的個人資訊處理活動”,屬于《個人資訊保護法》第55條第5項情形,故而在匿名化處理之前應當進行《個人資訊保護法》第56條規定的個人資訊保護影響評估。并且,對于規模化的匿名化處理活動,因為待處理的海量個人資訊可能構成“重要資料”,符合《資料安全法》第30條提及的“對資料處理活動定期開展風險評估”的情形,故而需要進行資料安全風險評估。其二,因為匿名化處理的技術原理是淡化或消除顯著的橫向資料關系,故而需要考量公開可擷取的輔助資料集合。而在實踐中,最能夠反映橫向資料關系的資料集合屬開放的公共資料,囊括了各類社會活動所形成的社會關系。是以,在進行匿名化處理活動中,公共資料的脫敏處理方案以及公開範圍和方式均屬于匿名化處理需要考量的重點事項。其三,匿名化制度也與資料洩露通知義務相關,因為資料洩露事件的發生往往意味着具有關聯性的原始資料可擷取,第三方再識别匿名化資訊的風險顯著增加,故而需要将這類風險可能導緻的損害作為洩露通知的重要事項。

(二)匿名化制度的建構模式選擇:單行立法抑或補充解釋

在匿名化制度實施層面,存在單行立法和補充解釋兩種路徑用以解決現階段《個人資訊保護法》中匿名化制度“存而不用”的尴尬境地。單行立法路徑的優勢在于,通過細化匿名化處理的具體規則,将《個人資訊保護法》規定的法定義務以預防部分再識别風險的形式轉化為同等效果的匿名化處理義務,通過體系化的匿名化規則滿足個人資訊安全監管的要求。補充解釋的優勢則在于,通過對《個人資訊保護法》第73條第4項“匿名化”概念進行補充解釋,填補匿名化技術的實際功能與法定要求中“無法識别”和“不能複原”之間的不适配。不過,從目前立法現狀而言,有關匿名化制度的具體内容少之又少,似乎單行立法這一路徑或将成為最佳選擇。然而,這一路徑也面臨着諸多難題:一是現有的匿名化規則體系并不足以支撐一部單行立法的法條容量,并且相關條款内容會與《個人資訊保護法》互相重疊。二是大陸目前已經制定諸如《網際網路廣告匿名化實施指南》等匿名化相關的技術标準,面對更為複雜的資料安全風險,技術标準的靈活性與專業性可能更符合當下匿名化制度适用的實踐需求。三是匿名化制度具有較強的技術屬性,該項技術的更新疊代可能無法從内部穩定的法律制度得到展現。綜合來看,現階段以“補充解釋+技術标準+實施指南”的方式更能滿足靈活性與實踐性的制度需求。

此外,在少之又少的匿名化資訊相關案例中,法院認定匿名化資訊的依據還是以“是否可識别”為核心,更确切地說,法院實際上是将“個人資訊”與“匿名化資訊”作為一對非此即彼的二分化概念關系。例如,在“美景資訊科技有限公司、淘寶(中國)軟體有限公司商業賄賂不正當競争糾紛案”中,法院認定涉案“生意參謀”資料産品所使用的使用者資訊經過匿名化脫敏處理後已無法識别特定個人且不能複原;在“上訴人北京百度網訊科技有限公司與被上訴人朱烨隐私權糾紛一案”中,法院認定涉案資料資訊的匿名化特征不符合“個人資訊”的可識别要求,其認定的邏輯可以總結為,按照法定的個人資訊概念界定,涉案的cookie資訊等并沒有與使用者身份予以綁定,無法确定具體的資訊規劃主體,故而可以認定涉案資料資訊所實作的匿名化效果不滿足“個人資訊”的概念界定。這種二分法的解釋方式除了存在“用靜态思路假設資料匿名化結果”的弊端之外,還在混淆了“個人資訊”和“匿名化資訊”之間的差異性之問題,其潛在的邏輯是,隻要不符合個人資訊概念所要求的“識别性”就屬于匿名化資訊,而這一邏輯的必然推論是,因為匿名化資訊不滿足個人資訊的概念要求,那麼就無需遵守《個人資訊保護法》的所有内容,進而再度陷入“全有或全無”的制度困境之中。

是以,匿名化制度的實施路徑更應當對《個人資訊保護法》第73條第4項規定的“匿名化資訊”概念進行法教義學解釋。第一,“經過處理”泛指各類匿名化處理技術,而不單一限定某一類特定技術方案。這裡的“處理”與個人資訊“處理”所包含的加工、傳輸、共享等常見環節并不相同,更側重展現匿名化處理的技術特征,即應當以橫向資料關系為對象的處理活動。有意思的是,在國外司法實踐中,法院對于匿名化處理的認定是排除一般的資料處理行為,如英國法院結合彼時1998年的《個人資料保護法案》中寬泛的“個人資料處理行為”定義,以匿名化處理導緻個人資訊喪失與特定個人之間的關聯而不受立法調整為由,将該處理活動排除在法定的“處理行為”之外。第二,“無法識别”與“不可能識别”“完全不能識别”并不相同,實際強調的是一種“個人資訊經過匿名化處理後難以再次被識别”的技術狀态。需要注意的是,“無法識别”的内涵除了再識别的可能性屬于可接受範圍之外,還包括采用了所有合理可行的匿名化技術用以保障匿名化資訊無法被再次識别。此外,“無法識别特定自然人”這裡應當作擴大解釋,如果以《個人資訊保護法》第4條有關“個人資訊”概念界定作為解釋标準,則會使得匿名化資訊與個人資訊在概念界定層面具有二分化的對應關系。是以,“無法識别特定自然人”既包括無法識别特定個體,也包括無法識别與特定個體顯著相關的資料關系。第三,“不能複原”是指匿名化資訊無法恢複到原始狀态,不包括部分資訊要素的複原。從立法目的來看,倘若匿名化資訊能夠複原至原始狀态,意味着匿名化處理并不符合資料安全監管要求,且更能夠輕易再次識别到特定自然人。相對地,如果将“不能複原”解釋為“任何形式的部分複原或全部複原”,則顯然超過了匿名化處理客觀能夠實作的技術效果。

(三)匿名化制度的治理功能銜接:法律與技術

與個人資訊保護影響評估、知情同意等個人資訊保護規則相比,匿名化制度的特殊性表現為法律話語體系與技術話語體系的融合,單純以籠統抽象的價值評斷隻能解決“匿名化義務是否履行”的判斷問題,而無法解決“匿名化義務是否充分履行”的判斷問題。因為匿名化制度的再識别風險預防邏輯是一種相對風險預防,為了盡可能降低再識别風險可能導緻的安全事件,個人資訊處理者的義務履行方式需要以“充分履行”為标準。進一步而言,匿名化制度需要兼顧法律的規範性作用和技術的實用性功能,這也是将技術标準、實施指南等作為匿名化制度實施路徑的原因之一。由于法律話語體系的簡潔性、抽象性與技術話語體系的具體性、明确性,簡單地在規範性檔案中事無巨細地設定具體的匿名化操作流程和技術方案并不能實作法律與技術兼顧的目标。更确切地說,法律與技術的話語體系融合應當表現為“以立法目标作為技術措施是否充分的判斷依據,以技術原理作為條款内容的創設依據”,也就是說,匿名化制度的内容建構并不需要以具體的技術細節作為核心内容,而是提供一種技術方案選擇和實施的規範化流程,至于具體的技術細節則由義務履行者根據自身的技術能力、經營成本等因素進行選擇。

具體而言,在實施指南層面,匿名化制度的體系内容主要以淡化和消除橫向資料關系為目标,同時結合相對再識别風險的預防邏輯,可以将匿名化處理流程劃分為5個主要業務流程,以此滿足大陸個人資訊保護以及資料安全領域“全生命周期安全”的治理理念。

第一步,進行資料安全評估,其目的是充分預見和評估可能的再識别風險來源以及再識别所采取的技術方案,并以此作為是否充分預防再識别風險的判斷依據。具體的評估事項包括已經公開且與匿名化資訊顯著相關的輔助資料集合、匿名化處理的個人資訊是否屬于重要資料、采取特定匿名化處理方案可以被哪些技術措施進行反向識别、是否存在與匿名化資訊相關的資料洩露事件等。

第二步,預先确定數個匿名化處理技術方案,并評估和比較各個處理方案的優劣勢。該環節看似增加了企業匿名化處理的業務成本,但匿名化處理本身具有針對性的技術特征,并不是采用同一種匿名化方案即可滿足所有個人資訊保護需求。是以,要求個人資訊處理者确定數個匿名化處理技術方案本身即“充分履行義務”的一種直覺展現,并且也滿足了匿名化制度所要求的“選擇最優化方案”。

第三步,匿名化處理内部管理制度實施情況評估,其目的是預防因内部員工操作不當、資訊系統安全漏洞等内部原因導緻的資料安全事件,以封閉式的處理環境保障匿名化資訊的不可複原。客觀而言,匿名化處理的安全性除了技術本身的安全可靠之外,還表現為處理環境的安全可信,如資訊系統設定通路權限、為匿名化處理設定内部安全合規審計、匿名化處理的原始資料與外部網絡隔離、匿名化處理操作流程及其業務人員身份記錄與留檔等。簡言之,主要包括處理方式、操作人員、内部洩露、通路設定以及結果公開五個事項的安全。

第四步,模拟再識别事件發生可能産生的負面影響以及應對措施,其目的是進一步判斷匿名化處理所能預防的再識别風險是否屬于社會可接受範圍。事實上,英國2012年釋出的《匿名化:資料保護風險管理實踐準則》所采用的“蓄意侵入者檢驗”标準就是一種假設模式,即假設侵入者的識别動機、識别能力,并将具體的識别标準設定在介于“普通公衆”和“具有一定專業知識和技能的專業人士”之間。前述步驟本質上還是在事前階段采取各種管理措施或技術措施消解潛在的安全風險,模拟再識别安全事件導緻的負面影響則是驗證采用的匿名化處理技術是否能夠最大限度減少規模化的資料安全事件,并且提前确定應對措施也能夠盡可能減少再識别可能導緻的二次損害。

第五步,定期審查匿名化處理技術方案的安全可靠性,其目的是應對經優化疊代的再識别技術緻使原有的匿名化技術方案不再安全的問題,同時也是為了應對其他資料源開放資料可能導緻的橫向資料關系再識别問題,亦即“處理完成後的再識别風險”。匿名化制度所确立的匿名化效果應當是一種動态匿名效果,即匿名化的判斷标準并不以匿名化處理完畢時的實際效果為限,同時也包括匿名化處理是否能夠應對未來潛在的再識别風險。

表 1

數字法治|趙精武:個人資訊匿名化的理論基礎與制度建構

五、結語

既然絕對匿名化根本無法實作,那麼為了解決資料使用與資料安全之間固有的利益沖突,則需要以匿名化的最核心風險為基礎,阻斷匿名化後資訊與其他群體資訊之間的社會關聯性。在實際的資料交易活動中,匿名化制度能夠成為避免企業過度擔心資料安全不合規、未履行個人資訊保護義務的重要技術處理路徑。大陸目前的資料治理模式正在從單一強調資料安全轉型至以資料安全促進資料流動,故而不能簡單地将匿名化制度功能解釋為保障個人資訊安全,而是應當以匿名化處理所針對的資料關系為起點,将匿名化制度的功能定位為實作更大範圍的資料商業化利用。從資料關系理論來看,資料的經濟價值來自資料與資料之間所能反映的社會活動關系以及群體特征,并且這些資料關系能夠應用于使用者畫像、個性化推薦、客戶挖掘、産品定制化更新等諸多業務活動。匿名化處理的對象正是這些具有經濟價值的資料關系,因而匿名化制度才能夠在理論和實踐層面達到安全和利用的法益平衡。并且,在資料關系理論下,匿名化資訊的再識别風險争議同樣值得重新審視。既然現在以及未來的任何一種資訊技術均無法實作完全意義上的不可再識别,那麼繼續以再識别風險作為“匿名化制度已死”或“匿名化資訊無法實作匿名化”的論證理由顯然毫無意義。更重要的是,如果以匿名化資訊不适用《個人資訊保護法》且該類資訊仍然有可能被再識别為由,限制匿名化制度的實施,則會導向更為嚴重的偏差結論,即任何以匿名、去辨別等為目的的資訊技術均不能構成個人資訊處理行為的免責事由,并且也不能以匿名處理為由交易包含個人資訊的匿名資料集合,因為這些資訊技術無法保障絕對無法再識别。是以,需要明确的是匿名化處理僅能夠預防可以合理預見且具有一定發生可能性的再識别風險,而不是停留于理論假設層面的所有風險類型。在大陸匿名化制度的實施過程中,這種相對風險預防的可接受性并不直接表現為在制度或技術标準層面設定可以量化的風險機率區間,而是将匿名化技術效果作為匿名化制度的主要内容,通過将匿名化處理過程規範化和子產品化,将再識别風險預防目标拆解成具體的個人資訊安全保護目标,以此達成匿名化制度的立法目标。此外,與再識别風險更為相關的是公共資料開放制度,這些資料集合往往包含了更為系統全面的資料關系,模式單一的公共資料開放路徑可能會加劇匿名化資訊再識别的可能性,故而匿名化制度的實施并不單純是匿名化處理的業務流程和技術标準問題,同樣也是該項制度與其他資料安全保護制度之間的體系銜接問題。

數字法治|趙精武:個人資訊匿名化的理論基礎與制度建構

專題統籌:秦前松

繼續閱讀