在上一篇文章個保法下的資料中台建設（一）：《個人資訊保護法》解讀中，我們整體解讀了下《個人資訊保護法》，從該篇文章開始，我們聚焦在具體的領域中解決企業資料安全落地中的問題。

本文我們先來看一個最重要的功能：資料去辨別化。

一、去辨別化

在講解去辨別化的應用之前，我們先來看下個保法中，對于去辨別化、匿名化、個人資訊是怎麼解釋的：

去辨別化，是指個人資訊經過處理，使其在不借助額外資訊的情況下無法識别特定自然人的過程。

匿名化，是指個人資訊經過處理無法識别特定自然人且不能複原的過程。

個人資訊是以電子或者其他方式記錄的與已識别或者可識别的自然人有關的各種資訊，不包括匿名化處理後的資訊。

我們可以得到兩個關鍵資訊：

1、完全匿名化處理的資訊，不屬于個人資訊範疇。是以，如果不是為了目前的業務訴求，而是為了分析、算法訓練等場景，是可以儲存個人資訊的，前提是個人資訊已經匿名化，如使用内部ID代替手機号碼來進行算法訓練。

2、匿名化比去辨別化的程度更深。去辨別化後的資料借助額外資訊可以識别到特定自然人，匿名化後的資料無法識别且不能複原。

但是對于什麼樣的技術手段算是去辨別化，什麼樣的技術手段算是匿名化目前還沒有明确的進行界定，且部分情況下兩者的界限并不明顯，是以對于這類操作，我們目前統稱為去辨別化。後續如果國家出具了更加詳細的規定，我們在新文章裡在進行解讀。

二、去辨別化的方法與場景

首先，我們先來看下去辨別化的方法。根據我們處理方式的不同，去辨別化的方法也多種多樣，以下列舉了常用的去辨別化的手段：

去辨別化方法	使用場景
脫敏-遮蓋脫敏	遮蓋脫敏适用于臨時的、僅檢視的資料脫敏，因為資料脫敏後無法複原，且不同的内容脫敏後可能是同樣的結果，是以遮蓋脫敏并不适用于數倉等場景。舉例：如姓名遮蓋，“張三” 變成 “*三” 适用場景：資料檢視、動态脫敏
脫敏-哈希脫敏	雖然存在潛在的撞庫風險，但是哈希脫敏後的結果可以認為是不可複原的，尤其是加鹽哈希脫敏之後的資料，可以認為除了知道算法和鹽值的人之外，幾乎無法碰撞出原值，有很好的保密性能。同時哈希脫敏之後的值具有較好的區分性，可以用來進行碰撞等操作，是以也适用于不需要原值的資料倉庫業務。舉例：SHA算法、MD5算法和對應的加鹽算法适用場景：資料檢視、動态脫敏、資料倉庫（不需要複原 / 不允許複原）
加解密	加解密方案支援使用算法對資料做完整的加密和解密操作，在隐藏敏感資訊的前提下，能完整的對資料進行分析和加工處理，同時在有需要的時候，還可以對資料進行解密，是整體上最為推薦的方案。舉例：對稱加密算法AES、非對稱加密算法RSA等适用場景：資料檢視、動态脫敏、資料倉庫（需要複原）
映射替換	映射替換是在資料入庫前，對資料的關鍵資訊進行表的映射，并将映射表單獨加密儲存。常見的比如将使用者注冊的手機号使用使用者賬号或者使用者id存儲進資料倉庫，進行資料分析；業務需要使用時，再出庫關聯回原來的手機号等，這樣既可以做到敏感資料的脫敏，也可以正常實作業務的分析。舉例：将手機号17816812345替換為内部ID12345
統計彙總	統計彙總是指直接抹去和個人有關的資訊，僅保留業務部分的内容，比如時間、門店、金額；或者将業務所需要的資訊，按照所需粒度，統計為最終資料之後才進入資料倉庫，比如不同地區、不同日期的營業額；該方法會損失大量原始資料，僅适用于小部分對詳情不敏感的統計類業務。舉例：10個使用者的消費賬單，轉化為當天的總收入。适用場景：少部分的資料分析場景

而在資料的進行中，有以下幾個場景需要對敏感資料做到保護：

去辨別化場景	詳情
資料內建	資料內建是資料批量輸入輸出的接口，是對資料去辨別化要求最高的場景。通用的做法是對入庫的資料按照資料中台的标準進行加密，在出庫時按照中台的标準或者業務系統的标準進行相應的加密/解密。
資料服務	資料服務一般是資料對外服務的視窗，經常涉及到明細資料或者彙總資料的查詢，一般來說資料服務都是根據業務場景和合規情況進行設計的，且一般都會比較重視性能，通過權限控制即可；在影響重大的場景，則可能需要對資料進行單獨的加密/脫敏。
資料開發	對于資料中台内的資料開發場景，則會有很多中靈活的處理方式。對于絕密資料，可能入庫進行加密，隻有少部分人才能夠進行解密操作；對于一般保密的資料，則可以通過加密或者動态脫敏的辦法，進行敏感資料的保護。

需要注意的是，在完整的安全方案中，都會有一個不穩定的因素，也就是每個場景下操作的“人員”。是以，在安全的技術方案之外，想要達到理想的安全保障，對于人員的權限體系，也要做嚴格的權限控制和配置設定。

三、去辨別化方案

以下用資料內建和資料研發為例，講解在資料中台建設中的去辨別化方案。如上文所訴，因為個保法釋出後，我們認為資料進入中台前最好是經過去辨別化的，是以我們用加解密來進行方案的解釋。如果實際業務中不需要這麼複雜的功能，比如隻需要進行脫敏或者映射替換，則可以根據實際情況靈活調整。

1、透明加密方案（含出庫脫敏）

個保法下的資料中台建設（二）：資料去辨別化與匿名化（加解密方案）一、去辨別化二、去辨別化的方法與場景三、去辨別化方案

1、方案原理

目前大部分資料源在底層存儲上，都支援加密存儲，有一些還提供透明加解密能力（資料入庫自動加密，資料出庫時對白名單自動解密，其他隻能讀取到加密資料），比如阿裡雲的Maxcompute，而我們就可以借助資料源的透明加解密功能，結合Dataphin的敏感資料保護功能一起，實作敏感資料的去辨別化。

2、優缺點分析

優點：借助資料源能夠快速實作入庫資料加密；同時借助資料源的底層能力，在性能上有一定優化。

缺點：在加解密的靈活性上，如靈活指定加解密算法和密鑰、資料出庫加密等需求上存在一些差距；同時部分資料源不支援透明加解密、需要解決方案和實施的同學提前溝通好資料加解密形式；同時因為是整庫加密，無法隻針對敏感資料加解密等

3、Dataphin提供的能力：

3.1、對于敏感資料，提供敏感資料識别和脫敏功能，保證日常開發過程中（即席查詢，開發寫生産），敏感資料不洩漏

3.2、對于需要輸出到業務系統的資料，提供靜态加密能力，可以自定義上傳UDF，通過代碼任務生成自定義加密的資料，然後通過內建将加密後的資料輸送到業務系統

2、獨立加密方案

支援完整的加解密算法和密鑰的管理；在代碼任務和內建任務中，支援加解密算法、密鑰的調用；在資料開發任務中，支援更加靈活的加解密工具和動态脫敏等方式實作資料的去辨別化

優點：方案完整，客戶完全可控（包括加密方式、密鑰等），不會受到底層資料源能力的限制

缺點：對部分複雜的加密算法來說，性能上存在一定的損耗

3、Dataphin提供的能力

3.1、内置的加解密函數

3.2、支援在資料內建、資料開發中調用資料加解密算法

3.3、支援密鑰的生成、注冊、權限管理和調用（1期優先支援內建任務，支援全局參數之後支援代碼任務）

3.4、同時支援資料的分類分級和動态脫敏等功能的使用

備注：

方案1和方案2并不是互斥關系，方案2（獨立加密）也可以是方案1（透明加密）的更新版，即在透明加解密的基礎上，在關鍵節點自定義加解密方案。

以上就是對于資料中台場景下進行資料去辨別化的一些場景解讀和實施方案的分享，歡迎大家來評論區讨論或者私信進一步溝通Dataphin的資料安全方案。對于個保法下資料中台建設的進一步解讀，也可以關注後續系列文章，感謝大家。

個保法下的資料中台建設（二）：資料去辨別化與匿名化（加解密方案）一、去辨別化二、去辨別化的方法與場景三、去辨別化方案

一、去辨別化

二、去辨別化的方法與場景

三、去辨別化方案

1、透明加密方案（含出庫脫敏）

2、獨立加密方案

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希