雲栖号資訊:【 點選檢視更多行業資訊】
在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!
1 引言
在目前的大資料時代,各類資料分析應用技術已經廣泛應用在國家治理、企業運作、個人日常生活等各個方面,資料成為時下最熱門的基礎資源,是以資料安全的受關注程度也在不斷攀升,成為頗受重視的話題。

近年來,在國際上資料安全事件頻發,尤其是資料洩露事件,根據Risk Based Security于2019年下半年釋出的資料,整個2019年上半年發生資料洩露事件3800餘起,相對于2018年同期資料增長了54%。資料洩露事件通常還會帶來顯式或隐式的經濟損失,安全研究中心Ponemon Institute和IBM Security聯合釋出的《2019年資料洩露成本報告》中指出,超過100萬條記錄的洩露預計會給企業帶來4200萬美元的損失,當洩露記錄超過5000萬條時,預計帶來的損失将達到3.88億美元[1]。
安全事件的不斷爆發,以及事件背後相應可能帶來的潛在重大危害和巨額損失,不斷驅使着國家、行業、企業等各層面更加重視資料安全,并開始從法規、标準、制度等方面切入展開相應舉措。歐盟在2018年出台《通用資料保護條例》(GDPR),規定了企業如何收集、使用和處理歐盟公民的個人資料。2019年5月28日,國家網際網路資訊辦公室釋出的《資料安全管理辦法(征求意見稿)》中,明确要求對于個人資訊的儲存和提供要經過匿名化處理,以切實降低在資料應用中個人資訊可能存在的洩露風險[2]。
2 資料脫敏技術
資料脫敏技術是一種可以通過資料變形方式對于敏感資料進行處理,進而降低資料敏感程度的一種資料處理技術。适當地使用資料脫敏技術,可以有效地減少敏感資料在采集、傳輸、使用等環節中的暴露,降低敏感資料洩露的風險,盡可能降低資料洩露造成的危害。根據不同的資料脫敏規則和算法,可以對特定敏感資料使用若幹種資料變形方式進行組合處理,在不同程度上降低資料的敏感程度,在較為嚴格的脫敏規則和算法下可實作匿名化處理。
資料脫敏技術本質上是對于資料的變形處理,是以資料脫敏技術的另一大特點是能夠在一定程度上保持資料原本的一些特性,使脫敏後的資料依舊存在可用性。針對整個資料集使用統一的脫敏處理算法,可以保證在降低資料敏感程度的同時,資料集整體的統計特性、資料唯一性不發生改變,進而能夠繼續滿足關聯分析、機器學習、即時查詢等應用場景的使用需求。
2.1 資料脫敏算法與匿名化方法
在實際應用資料脫敏技術時,常常會涉及到脫敏算法、脫敏規則、脫敏政策3 個不同的概念。
資料脫敏技術的核心是通過對敏感資料進行變形處理以降低其敏感程度。其中,在脫敏處理過程中使用的特定資料變形方式為脫敏算法。在原始脫敏算法的基礎上,通過将一種或多種脫敏算法的組合應用在一種特定的敏感資料上便形成了脫敏規則。在具體的業務場景中,根據不同業務場景選擇特定一系列脫敏規則可稱為脫敏政策。
對于資料脫敏技術以及實作資料脫敏的應用及工具,資料脫敏算法均是其中的核心能力,常見的脫敏算法包括加密、掩碼、替換、模糊等。
在上述提到的基礎脫敏算法之外,為了實作更高程度的敏感資訊保護能力,尤其是達到特定水準的敏感程度降低,還存在更多複雜的針對于資料集整體的脫敏政策。例如,在個人資訊保護場景中的匿名化要求下,需要使用k匿名化、l多樣化、t貼近性等匿名化方法。
k匿名化方法要求資料集中的每一條記錄至少需要與其他k-1條記錄無法進行直接區分,即資料集中每種敏感屬性組合至少需要同時出現在k條記錄中,無法被區分的k條記錄形成一個等價類[3] 。l多樣化是基于k匿名化方法在敏感屬性方面的一種擴充,該方法要求資料集在匿名化處理時每個等價類中所有記錄的敏感屬性至少包含l個互不相同的敏感屬性值[4] 。t貼近性方法要求所有等價類中敏感屬性值的分布盡量接近該屬性在整個資料集中的全局分布,進而可以抵抗偏斜攻擊[5] 。
2.2 資料脫敏技術分類
目前資料脫敏技術主要可以分為靜态資料脫敏和動态資料脫敏兩類,兩者面向的使用場景不同,實作時采用的技術路線和實作機制也均有所不同。
2.2.1
靜态資料脫敏靜态資料脫敏的主要目标是實作對完整資料集的大批量資料進行一次性整體脫敏處理,一般會按照制定好的資料脫敏規則,使用類似ETL技術的處理方式,對于資料集進行統一的變形轉換處理。在根據脫敏規則降低資料敏感程度的同時,靜态脫敏能夠盡可能減少對于資料集原本的内在資料關聯性、統計特征等可挖掘資訊的破壞,保留更多有價值的資訊。靜态脫敏通常在需要使用生産環境中的敏感資料進行開發、測試或者外發的場景中使用。
2.2.2
動态資料脫敏動态資料脫敏的主要目标是對外部申請通路的敏感資料進行實時脫敏處理,并即時傳回處理後的結果,一般通過類似網絡代理的中間件技術,按照脫敏規則對外部的通路申請和傳回結果進行即時變形轉換處理。在根據脫敏規則降低資料敏感程度的同時,動态脫敏能夠最大程度上降低資料需求方擷取脫敏資料的延遲,通過适當的脫敏規則設計和實作,即使是實時産生的資料也能夠通過請求通路傳回脫敏後的資料。動态資料脫敏通常會在敏感資料需要對外部提供通路查詢服務的場景中使用。
3 資料脫敏技術應用現狀
資料脫敏技術的應用在近幾年不斷呈現上升的趨勢,根據Gartner釋出的《資料脫敏市場指南》,2017年使用資料脫敏或其他類似去識别技術的企業占比為15%,這一資料在2018年增加到了20%,預計在2022年将達到50%[6]。
3.1 資料脫敏技術行業應用現狀
在實際應用中,資料脫敏技術通常應用在涉及到個人隐私資料存儲和應用的部分行業領域,是以廣泛應用于政務、金融、電信、網際網路等行業領域。資料脫敏技術的應用目的主要包括兩方面:一是以保護敏感資料安全、實作合法合規為主要目的;二是在達到第一目标的前提下,盡可能地保證資料可用性以及可挖掘價值。
在目前大資料時代,多數涉及到個人隐私資料存儲使用的領域皆不可避免地需要面對資料安全及合規問題。具體來說,在政務領域,由于政務資料平台往往會掌握身份資訊、戶籍資訊等大量極為敏感的個人資訊資料,需要針對資料采集、傳輸、應用、歸檔等全生命周期進行資料脫敏并同步實施其他資料安全防護手段;在金融、電信等關鍵領域,由于電信客戶的手機号碼、通話記錄、網絡流量等資訊以及金融客戶的個人賬戶資訊、交易記錄等資訊均屬于重要敏感資訊,面臨嚴格的行業監管要求,使用資料脫敏技術是實作合規的首選;在資料應用最為廣泛的網際網路領域,大量地使用到了可能會涉及個人隐私的使用者行為資料,從避免違規導緻的額外成本角度來看,使用敏感資料時進行資料脫敏處理是重要的前提步驟。
在涉及到大資料分析應用的領域,企業需要在保證資料安全及合規的前提下,依舊能夠保有資料的可用性及可增值性。具體來說,在金融、電信領域,征信、反欺詐、精準營銷等應用場景高度依賴對使用者行為資料等涉及隐私資料的分析挖掘。在網際網路領域,使用者行為資料更是成為企業指導業務增收的重要資源,使用者行為分析、個性化推薦、精準營銷等應用方向成為多數網際網路企業的通用服務手段,相應地分析挖掘應用不可避免。由此可見,在實作資料安全及合規的同時,能夠最大程度上不對資料可用性及可挖掘價值産生破壞的資料脫敏技術是目前的最佳選擇,也切實地實踐在各個行業中。
3.2 資料脫敏技術供應現狀
目前,已有衆多企業已經完成或者正在進行資料脫敏技術的研發,總體上可以将資料脫敏技術的供應商分為資訊安全服務供應商、自研自用企業以及通用資料脫敏工具開發商三大類。
3.2.1 資訊安全服務商
通常以提供完整安全服務體系解決方案的形式服務客戶,為保證整個安全體系的完整性,往往會将資料脫敏技術視為一個重要技術環節,通過自研或內建第三方企業産品的形式囊括在提供的服務體系或解決方案中,一般服務于金融、電信等行業需要建構整體資料安全體系的企業中。
3.2.2 自研自用企業
主要包括營運商、通信技術服務商、大型網際網路企業等自身擁有具有一定特點的敏感資料保護需求的企業,由于其需求具有一定個性化,同時自身具備一定的研發能力,是以自主量身定制适合自身的資料脫敏工具更為經濟且有效率。
3.2.3 通用資料脫敏工具開發商
緻力于進行通用資料脫敏工具研發的企業,通常以某些類别的企業需求為出發點,研發滿足基本資料脫敏需求的工具産品,随後根據市場情況逐漸完善産品功能,盈利形式包括直接向需求企業出售,或同安全服務商合作,納入其提供的資料安全解決方案。
從資料脫敏技術的供應類型來看,目前靜态脫敏技術已較為成熟,多數資料脫敏技術工具能夠提供較為完善的靜态脫敏能力,差别主要展現在易用性和自動化等方面。而動态脫敏方面,目前仍處于初步發展的階段。
在動态脫敏實作中,一種簡單的實作方案是在請求到目标資料後再進行資料脫敏處理,這種實作方式實際上依舊使得敏感資料從資料源傳輸至了外部;另一種相對複雜的實作方案是對資料請求和傳回的過程進行幹涉,例如查詢敏感資料所在資料庫時對查詢SQL進行解析,從中識别出敏感資料列并對查詢SQL進行改造,進而直接傳回脫敏處理後的查詢結果。這種實作方式一方面需要對查詢過程涉及到的資料源協定進行解析,在非開源的商用資料源中進行協定解析既困難又存在一定的法律風險;另一方面,由于不同資料源之間的查詢協定存在相應差距,這種動态脫敏實作方式難以泛化,隻能對于存在需求的資料源類型進行定制化開發,當需求的資料源種類較多時耗時耗力。由于上述原因,目前的動态脫敏技術還存在一定的提升空間,實際應用也遠不及靜态脫敏技術廣泛
3.3 資料脫敏工具産品标準化
資料脫敏的需求仍在不斷增加,市面上的産品也層出不窮,形态各異的産品導緻供需雙方的對接依舊存在一些問題。當下資料脫敏工具産品一般通過自主聲明的方式告知客戶産品所具備的基本能力,但缺乏對于産品能力、脫敏程度、脫敏過程安全性等的證明方式,導緻企業在采購時難以分辨産品能力是否滿足自身功能需求、脫敏過程是否能夠保證脫敏過程無外洩風險、産品形式及脫敏能力是否符合自身業務場景。解決這些問題的一個方案是推進資料脫敏工具産品相關的标準化工作,根據行業需求、産品特性制定相關技術、過程等标準,通過權威第三方進行産品評估評測,遴選出符合一定水準規範和标準的資料脫敏工具,能夠有效的打消需求方的衆多疑慮,是以相關标準化工作以及基于标準的評估評測工作後續十分值得關注。
在對資料脫敏工具産品進行标準化的過程中,除去資料脫敏技術的核心能力之外,還應當關注工具應提供的其他相關能力,包括敏感資料識别能力、資料源管理能力、工具運維管理能力、安全審計能力以及脫敏算法、規則、政策管理能力。在核心能力方面,可以分為靜态脫敏能力和動态脫敏能力兩部分來分别制定;在靜态脫敏能力方面,重點關注脫敏任務相關的各項能力;在動态脫敏方面,重點關注對于敏感資料通路的防繞行能力。在基礎功能的考量之外,可以額外從靜态脫敏的資料吞吐量以及動态脫敏的并發數和響應延遲來評估資料脫敏工具的性能。
4 資料脫敏技術發展趨勢
資料脫敏技術已成熟應用于部分領域,但伴随着脫敏需求的不斷發展變化,仍存在繼續優化演變的方向。後續資料脫敏技術的發展主要呈現出4個趨勢。
4.1 資料脫敏性能提升
資料脫敏需求的首個重要變化便是資料量的不斷增加。随着資訊技術的逐漸深入應用,各企業組織可保有和使用的資料量将呈爆炸性增長,相應需要進行脫敏處理的資料量也會同步提升;另一方面,各依賴于資料分析進行即時回報調整的資料應用,對于資料的實時性需求愈加強烈,在涉及到敏感資料的實時應用中,即時或短時間内完成大量資料的脫敏處理需求将會逐漸增多。資料量及響應時間兩方面的需求變化共同指向了更高性能的資料脫敏技術這一發展方向。
4.2 非結構化資料脫敏
資料脫敏需求的第2個變化來源于大資料時代的資料多呈非結構化這一特點。相對于傳統通過關系型資料庫存儲的結構化資料,在時下被存儲和應用的資料中,圖檔、視訊、音頻、文本等非結構化資料占比不斷提升。衆多智能化資料應用中對于涉及個人隐私的非結構化資料的使用挖掘愈加常态化,原本主要針對于結構化資料的脫敏處理技術将遠遠無法滿足需求,針對于各類非結構化資料的脫敏處理技術後續将成為重點發展方向。
4.3 智能化資料脫敏
資料脫敏需求的第3個變化由資料量和資料類型的增多衍生而來。當資料的次元和種類不斷膨脹時,通過使用者指定資料脫敏政策,手動綁定待脫敏資料及脫敏規則和算法的方式将顯得效率十分低下。使用者的人工工作量需要被進一步減少,是以已有部分企業在脫敏工具産品中實作了敏感資料自動識别發現等便利化功能。後續通過應用機器學習等技術,結合各類資料分類分級規則及已實際使用的資料脫敏政策及規則,實作自動化實時敏感資料發現、自動化脫敏規則比對等智能化資料脫敏技術,将成為受人期待的發展方向。
4.4 資料脫敏技術的合規應用
資料脫敏需求的第4個變化來源于相關政策的不斷收緊。随着國内外對于個人隐私資料保護相關的法律法規不斷出台,近年來頻發的資料洩露事件,以及針對違規使用使用者隐私資料企業的處罰時有發生,共同敦促着企業将資料合規視為當下的首要任務。後續針對于企業對于個人資訊使用的法規将愈加複雜并具有針對性,企業合規的人力實施成本将不斷攀升。通過将資料脫敏技術同各類相關法律規範、企業相關業務相結合,實作企業業務流程中對于敏感資料的使用處處合規,形成直接實作業務合規化的資料脫敏産品,将有效改善這一合規問題,後續十分值得探索。
5 結束語
本文對資料脫敏技術的應用背景、技術發展現狀、應用及産品現狀進行了梳理和闡述,在參考目前行業應用情況的前提下總結了資料脫敏技術未來的四大發展趨勢。同時,從資料脫敏工具産品的角度歸納了目前進行資料脫敏技術研發供應的3 類供應方,在進一步分析中說明了資料脫敏工具産品标準化及評估評測工作的重要性,并提出了相應标準化工作的主要方向。
資料脫敏技術在未來的一段時間,始終會是一種非常主流且常用的資料安全技術。随着新的更為複雜的脫敏需求不斷産生,資料脫敏技術也會随之不斷演化發展,資料脫敏工具産品市場也将更加廣闊。是以,相應的标準化工作将更為重要,成為在技術不斷提升的同時不可忽略的配套工作。
【雲栖号線上課堂】每天都有産品技術專家分享!
課程位址:
https://yqh.aliyun.com/live立即加入社群,與專家面對面,及時了解課程最新動态!
【雲栖号線上課堂 社群】
https://c.tb.cn/F3.Z8gvnK
原文釋出時間:2020-06-04
本文作者:資訊通信技術與政策
本文來自:“
51CTO”,了解相關資訊可以關注“
”