天天看點

中安威士大資料脫敏解決方案

  1. 大資料安全現狀分析

基于Hadoop生态系統的大資料平台随着企業的不斷采用及開源組織的持續的優化、增強,已逐漸成為大資料平台建設的标準産品。然而Hadoop最初的設計并未考慮其安全性,這些平台專注于發展資料處理能力,忽視了其他能力的發展,但Hadoop生态系統作為一個分布式系統,承載了豐富的應用,集中了海量的資料,如何管理和保護這些資料充滿了挑戰,目前市場上,大資料平台在資料本身的安全管控方面普遍存在嚴重缺失和較大的漏洞。

從企業内部來說,大資料平台的安全管控能力缺失,使得平台在資料存儲、處理以及使用等各環節造成資料洩露的風險較大,安全風險面廣,且缺乏有效的處理機制;另一方面,企業敏感資料的所有權和使用權缺乏明确界定和管理,可能造成使用者隐私資訊的洩露和企業内部資料的洩露,直接造成企業聲譽和經濟的雙重損失。

  1. 方案目标

(1)針對大資料敏感資料資訊,設計并落實敏感資料安全解決方案,實作敏感資料的模糊化,確定敏感資料資訊安全可靠;

(2)通過大資料平台安全方案的建設,填補大資料平台資料安全防護方面的空缺,有效降低大資料安全管控方面的風險。

  1. 大資料脫敏方案

本方案适用于基于開源Hadoop架構的大資料平台環境,包括Mapreduce、HDFS、Hive、HBse等大資料元件。

3.1大資料脫敏設計架構

大資料平台脫敏及模糊化子產品主要包括兩大功能:敏感資料發現和敏感資料脫敏。架構設計如下圖所示:

中安威士大資料脫敏解決方案

(1)敏感資料發現:通過設定敏感資料發現政策,平台自動識别敏感資料,發現敏感資料後産生報警,保障資料在産生階段安全。敏感資料發現功能包括如下内容:

·  敏感資訊規則庫建立

   ·  關系型資料檢測

   ·  敏感内容描述檢測
           

(2)敏感資料脫敏:針對Hadoop平台Hive、Hbase大資料存儲元件結合使用者權限提供動态資料脫敏功能,保障敏感資料通路安全,同時基于大資料安全分析技術,發現敏感資料通路的異常行為,并提供敏感資料視圖,實作全局化資料管理和對各種類别敏感資料脫敏的精細化管理。

資料脫敏及模糊化功能子產品是在資料庫層面對資料進行屏蔽、加密、隐藏、審計或封鎖通路途徑的方式。該子產品作為一個網關形式部署,所有需要進行敏感資料動态脫敏的應用系統需通過該産品實作對資料庫的通路。

3.3大資料脫敏方法

資料脫敏方法可根據使用者需求的不同而進行定制,我們在系統中預設提供了最常見的兩種脫敏方法示例如下:

方法一:随機值替換脫敏

本方式采用随機值替換(字母變為随機字母,數字變為随機數字)的方式來改變查詢傳回的結果,該方案的優點是可以在一定程度上保留資料的格式,且使用者在不知情的情況下無法發現查詢傳回的資料是經過脫敏操作的。

方法二:特殊字元替換脫敏

與随機值替換不同,該方式在處理待脫敏的資料時是采用特殊字元(如“*”)替換的方式,該方式更好的隐藏敏感資料,但缺點是使用者無法得知原資料的格式,在涉及到一些資料統計工作的時候會有影響。

在實際使用過程中,多種脫敏方法經常需要配合使用,對一張資料表中不同資源使用不同的脫敏方法進行[資料脫敏],示例如下:

脫敏前:

中安威士大資料脫敏解決方案

脫敏後:

中安威士大資料脫敏解決方案

在這個示例中,我們對此表的三個字段分别用不同的脫敏方法進行了處理:

第一個字段采用随機數替換,替換範圍為前IP位址前兩個值。

第二個字段采用特殊字元替換,替換範圍為所有字元。

第三個字段采用特殊字元替換,替換範圍為第3-6個字元。