天天看點

幹貨分享 | CloudQuery 資料保護能力之動态資料脫敏!

作者:BinTools圖爾茲

在企業數字化轉型的過程中,尤其随着網際網路+、雲計算、大資料等資訊技術與通信技術的迅猛發展,海量資料在各種資訊系統上被存儲和處理,其中包含大量有價值的敏感資料,這意味着資料洩露的風險也不斷增加。

資料洩露可能由各種因素引起,包括惡意攻擊、黑客入侵、員工失誤、裝置丢失或盜竊等。一旦資料洩露,個人隐私将面臨洩露風險,可能導緻身份盜竊、金融欺詐、個人資訊濫用等問題。此外,一些行業和法規要求組織必須采取措施來保護敏感資料,例如金融機構需要保護客戶的個人身份資訊,醫療機構需要保護患者的病曆資料。

為了應對這些挑戰,資料脫敏技術應運而生。資料脫敏是一種資料保護方法,通過對敏感資料進行修改、轉換或隐藏,以保護資料的安全性和隐私性。脫敏後的資料仍然保留其原始資料的結構和格式,但不包含直接識别個人的敏感資訊。

資料脫敏也成為大部分企業在資料管控中的必修課。

CloudQuery 的資料脫敏能力

CloudQuery 目前已經搭載了靜态脫敏和動态脫敏兩種資料脫敏方式。

靜态脫敏是一種在資料存儲或傳輸過程中對資料進行脫敏處理的方法,采用“先脫敏-後分發”的方式。它通常在資料收集和存儲階段對敏感資訊進行脫敏,以確定資料在存儲和傳輸過程中的安全性。靜态脫敏的目标是通過對敏感資訊進行不可逆的處理,使其無法還原為原始資料,以保護個人隐私。

而動态脫敏一種在資料使用過程中動态地對敏感資訊進行脫敏處理的方法。與靜态脫敏不同,動态脫敏是在需要使用敏感資訊時進行加密,其他情況下仍保持資料的明文狀态。可以說,動态脫敏的核心概念是根據實際需求和使用場景,在資料使用過程中靈活調整脫敏級别和方式,以實作更進階别的隐私保護和資料可用性的平衡。

動态資料脫敏和靜态資料脫敏适用于不同的場景,兩者之間沒有優劣之分,主要是以使用場景來選擇合适的脫敏模式。目前 CloudQuery 靜态脫敏功能僅對企業版客戶開放,本文将主要介紹幾個版本的通用能力——動态脫敏。

CloudQuery 動态脫敏解決方案

目前主流的動态脫敏技術路線分為「結果集解析」和「語句改寫」兩條路徑:

  • 結果集解析: 不改寫發給資料庫的語句,需要提前獲悉資料表結構,待資料庫傳回結果後再根據表結構判斷集合内哪些資料需要脫敏,并逐條改寫結果資料。
  • 語句改寫: 将包含敏感字段查詢的語句改寫,對于查詢中涉及的敏感字段(表列)通過外層嵌套函數的方式改寫,使得資料庫運作查詢語句時傳回不包含敏感資料的結果集。

但兩種方法各有優劣。「結果集解析」具備更高的靈活性和資料可用性,但同時在處理大規模資料時會帶來一定的性能開銷。「語句改寫」效率更高,其在查詢語句中改寫敏感字段的方式更確定敏感資料不會傳輸到應用層或其他環節,保證較高的資料安全性,同時語句改寫還具備良好的可移植性。但相對的,因為在查詢語句中進行修改,「語句改寫」勢必會限制一些複雜查詢,其可定制性較弱。

針對兩種方法的不同,CloudQuery 在動态脫敏的實作上融合了 SQL 語句改寫與結果集改寫兩種技術路線優點,實作了性能和适用性的平衡,使用者可基于不同的場景根據 SQL 語句的不同,觸發不同方式的脫敏,全面覆寫運維場景和業務場景下資料實時脫敏需求。

例如:select * from table1;

該語句由于語句中是查詢的所有列,這時我們不會進行前置脫敏,轉而在執行結束之後,對比結果集中的列名,判斷與已配置的列名是否相同,去進行結果集解析的脫敏。

而下面這種:select a from table1;

在語句中有顯式的查詢 a 這個列,則會對 a 進行改寫,将語句改寫成select func(a) from table1;

去執行,這樣就隻會使用前置脫敏,而不用去周遊結果集。

使用過程中可以根據資料量和性能要求使用不同的 SQL 語句去查詢。

CQ 的動态脫敏功能如何使用?

CloudQuery 社群版 v2.0.0 的動态脫敏功能無須改變生産資料庫中的資料,即可依據使用者級别、資料級别,對資料庫傳回資料進行差異化脫敏。可以確定不同角色的使用者能夠差異化地通路資料庫中的敏感資料。支援截取、加密、隐藏、替換等脫敏算法。

在 CloudQuery 的首頁面點選「資料保護管理」菜單按鈕可進入資料保護設定頁面。

幹貨分享 | CloudQuery 資料保護能力之動态資料脫敏!

我們這裡給 AAA 字段設定一個保留前三位的截取算法。

之後也可在該處或者該表的父級節點選擇是否開啟規則。

幹貨分享 | CloudQuery 資料保護能力之動态資料脫敏!

改寫前後如下圖所示:

(改寫前)

幹貨分享 | CloudQuery 資料保護能力之動态資料脫敏!

(改寫後)

幹貨分享 | CloudQuery 資料保護能力之動态資料脫敏!

CloudQuery 動态脫敏展望

在之後的版本中,CloudQuery 會陸續推出更多功能來完善動态資料脫敏圖譜,如:

  • 自定義結果集資料解析規則: 即在一個 schema 下指定一個正規表達式,如手機号碼或身份證号,如果查詢結果有符合格式的資料,則會按照相應改規則進行脫敏。并且支援内置脫敏規則的自定義添加,該方式可以捕捉到沒有被配置的脫敏算法攔截到的敏感資料,進一步保障資料安全。
  • 通過分級方式脫敏: 即支援對字段設定等級,對使用者設定等級。不同使用者隻能查詢到其對應等級的資料,不符合要求的資料則會被脫敏,提供更加個性化和精确的隐私保護能力。
  • 資料掃描: 自動識别敏感資料項和敏感資料的位置,掃描後資料可被分類為不同的敏感級别或類别,以便為每個類别應用相應的脫敏規則。同時,資料掃描可以分析敏感資料之間的關聯性,確定在脫敏過程中保持資料的一緻性和完整性。通過了解敏感資料之間的關系,可以確定脫敏後的資料仍然具有可用性和實用性。
  • 字段脫敏算法推薦: 針對不同的應用場景和需求推薦不同的字段脫敏算法,結合多種算法和政策,以實作對不同類型的敏感資料進行靈活、安全和高效的脫敏處理。

動态資料脫敏是 CloudQuery 資料保護管理能力裡的重要組成部分。通過實時對敏感資料進行脫敏處理,在資料使用和共享的過程中減少了對敏感資訊的可見性,進而降低了資料洩露和濫用的風險。

後續 CloudQuery 不僅會完善動态脫敏功能,更會不斷補充資料保護能力。目前在 CloudQuery 企業版中就已經實作了國密支援、審計日志、資料備份等能力。綜合運用這些資料保護措施,企業可以建立起完善的資料安全和隐私保護體系,保障資料的安全性、完整性和可用性。

繼續閱讀