天天看點

大資料時代 資料該如何保護?

随着資料發掘的不斷深入和在各行業應用的不斷推進,大資料安全的“脆弱性”逐漸凸顯,國内外資料洩露事件頻發,使用者隐私受到極大挑戰。而且在大資料環境下隐私洩露的危險,不僅僅在于洩露本身,還在于基于資料對下一步行動的預測和判斷,是以大資料時代的隐私保護俨然成為大資料應用發展的一項重要課題。

大資料時代 資料該如何保護?

目前隐私資料洩露的主要途徑包括以下兩個方面:非互動式洩露:主要指在資訊系統内部的隐私洩露,多發生在業務流程中有多個節點可以對資料進行通路;互動式洩露:主要是針對資訊使用傳遞過程中發生的洩露,可能發生在區域性平台資料互動等環節,雖然有基于角色通路控制的技術,但是在權限分級、設定、資訊分級等方面有較大的難度。

面對隐私資料洩露的隐患,很多情況下,人們認為隻要對資料進行匿名處理或者對重要字段進行保護,個人隐私就是安全的,但是大量的事實已經證明,可以通過收集其他周邊資訊對具體個人進行定位和辨識,下面就結合目前已有的技術手段對隐私保護進行分析。

1.資訊加密與隐私保護

在很多資訊管理軟體中會應用哈希(hash)和加密(encrypt)進行資料保護,哈希是将目标對象轉換成具有相同長度的、不可逆的雜湊字元串(或叫作資訊摘要),而加密是将目标文本轉換成具有相同長度的,可逆的密文。在被保護資料僅僅用作比較驗證,以後不需要還原為明文形式時使用哈希,如果被保護資料在以後需要被還原為明文時,則使用加密。這兩種方法均可以保證在資料庫被非法通路的情況下,隐私或敏感資料不被非法通路者直接擷取,比如資料庫管理者的密碼在經過哈希或加密後,使入侵者無法獲得密碼明文,也無法擁有對資料庫資料的檢視權限。

2.辨別隐私匿名保護

辨別匿名隐私保護,主要都是采取在保證資料有效性的前提下損失一些資料屬性,來保證資料的安全性,通常采用概化和有損連接配接的方式,同傳統泛化/隐匿方法相比,其在資訊損失量和時間效率上具有明顯的優勢,在資料釋出中删除部分身份辨別資訊,然後對準辨別資料進行處理,當然任何基于隐私保護的資料釋出方法都會有不同程度的損失,對于釋出後的重構資料不可能,也不應該恢複到原始資料,是以未來在兼顧可用性與安全性的前提下,需要一種新的算法來找到可用與安全的折中點。

3.資料的分級保護制度

不同的資訊在隐私保護中具有不同的權重,如果對所有資訊都采用進階别的保護,會影響實際運作的效率,同時也是對資源的浪費,但如果隻對核心資訊進行保護也會通過關聯産生隐私洩露的隐患,是以需要建立一套資料的分級制度,針對不同級别的資訊采用不同的保護措施,但是在不同行業中,由于涉及不同系統和運作方式,制定一套完善的分級制度還涉及以下的通路權限控制問題。

4.基于通路控制的隐私保護

系統中往往參與的人員節點越多,導緻潛在洩露的點也越多,通路控制技術可以對不同人員設定不同權限來限制其通路的内容,這其實也包括上面提到的資料分級問題,目前大部分的通路控制技術均是基于角色的通路控制,能很好地控制角色能夠通路的内容及相應操作,但是規則的設定與權限的分級實作起來比較複雜,無法通過統一的規則設定來進行統一的授權,許多情況下需要對特定行業角色的特殊情況進行單獨設定,不便于整體管理和調整。需要進一步對規則在各行業的标準體系進行深入研究。

通過對上面不同技術手段的分析可以看出,每項技術雖然各具特點,但在應用和性能上都有一定的局限,一定程度上也缺乏标準制度的保障。目前在大資料領域針對隐私保護問題尚未建立起一套完整的保護體系和标準,包括資料的存儲環節、通路環節、應用環節在内尚未形成系統性的保護,未來在建構隐私保護體系時,在技術的基礎上,需要進一步制定出相應切實可行的制度來規範人們的行為以及技術手段的順利執行。是以隐私保護離不開法律政策的支撐,也惟有通過技術手段和法規制度相結合,才能實作大資料領域對“不能說的秘密”真正的保護。

原文釋出時間為:2017年1月4日

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。