天天看點

如何有效降低大資料平台安全風險

摘要:在2019杭州雲栖大會大資料企業級服務專場,由阿裡雲智能計算平台事業部資深技術專家李雪峰帶來以“如何有效降低大資料平台安全風險”為題的演講。本文首先概括了企業在大資料上雲過程中會産生的安全顧慮。接着,在大資料平台中要處理的安全風險中,對資料中心實體安全與網絡安全、大資料平台系統安全以及資料應用安全三部分做了詳細的介紹。最後,描述了阿裡雲飛天大資料平台的安全體系。

精彩視訊回放 >>>

以下為精彩視訊内容整理:

企業大資料上雲的安全顧慮

企業大資料上雲過程中,通常會産生一些安全顧慮。當資料進行企業内部的雲上遷移時,資料是否可能會丢掉。當資料在雲上被存儲時,資料是否有可能被篡改。當資料在雲上被使用的時候,資料是否有可能被洩露。這些顧慮都來自于資訊的基本元素,包括資訊的可能性問題、資訊的完整性問題以及資訊安全的保密性問題。這三個問題并不是因為資料要上雲而額外帶來的。此外,在企業内部建構自己的大資料中台的時候,也仍然會遇到安全問題。

如何有效降低大資料平台安全風險

上圖是大資料平台安全風險架構。對于一個企業級的大資料中台要處理的安全風險,分為三個層次。第一個層次是資料中心的實體安全與網絡安全,要建構一個資料中心需要有基礎的資料中心,還需要有自己的IDC,IDC自身的安全以及網絡接入的安全直接影響到資料平台的可用性。資料中心的實體安全能夠提供更可靠的基礎,也為大資料平台帶來更高的安全保障。第二層是大資料平台的系統安全,是由大資料内部的各個本機安全性授權構成的,這些本機安全性授權共同保障了大資料平台的完整性。第三層是資料應用的安全,它非常接近于使用者的使用場景。使用者需要使用各種各樣的資料安全産品,來為自己的資料安全場景做保障,進而保密自己的資料。

資料中心實體安全與網絡安全

如何有效降低大資料平台安全風險

在飛天大資料平台中,阿裡雲的資料中心承擔了資料中心的實體安全與網絡安全的職責。整個安全風險可以分為三個次元:

第一個次元是資料中心的保障設施,包括供電保障以及冷卻保障,阿裡雲的資料中心可以支援獨立的多路供電、低壓變配電系統和高備援UPS/HVDC以及高可靠後備電源系統和多級防雷接地系統共同為阿裡的資料中心提供了高可用的資料保障。阿裡雲的資料中心在冷卻系統中可以提供冷源裝置管路以及終端的多路備援,進而為資料中心提供冷卻的高可用的保障。

第二個次元是資料中心的安全管控。在資料中心運維過程中會出現一系列安全的流程,一方面是安全管控,在安全管控中,阿裡雲的資料中心将參與整個生産過程中的人和建築物各分為三個等級,并在每個等級上标記不同的顔色,基于這些顔色構成了色彩管理體系。同時,為了安全的管控整個設施的有效運作,阿裡雲的資料中心還建立了對抗的檢驗體系。另一方面,在阿裡的資料中心中将提供7×24監控系統,可以将資料中心的事件進入到不同的管控平台中。

第三個次元是資料中心的網絡安全。資料中心都是要提供網絡通路的,在資料中心自身的網絡架構中,阿裡能夠提供多路的備援接入,最大限度的保證網絡可用。同時,作為一個資料中心要提供低收斂比的網絡架構,主要是針對資料中心進行的量身優化。此外,針對網絡防禦,阿裡提供高防的網絡服務和近源攻擊的清洗,同時,阿裡的資料中心利用雲安全的基礎設施WAF提供七層的網絡防禦。

大資料平台系統安全

如何有效降低大資料平台安全風險

MaxCompute平台安全系統主要包括四個子系統。

第一個子系統是通路控制,主要處理所有的通路接入控制以及限制控制,在接入控制上可以支援IP白名單,在權限控制上提供ACL(DAC)能力和LABEL(MAC)能力以及基于屬性的POLICY(ABAC)能力、共享能力、資料保護能力。

第二個子系統是應用程式的隔離,使用者執行的UDF會在這個子系統裡執行,支援沒有權限限制的Java和Python語言所編寫的UDF,同時提供三方引擎的計算能力,為MaxCompute提供計算平台。

第三個子系統是風控和審計,提供多種事件審計的日志,包括任務日志和使用者日志及表的日志,同時提供多種的中繼資料能力,包括表和資源。

第四個子系統是平台的可信系統,基于信任的語言提供了存儲加密的能力。

MaxCompute平台通路控制系統

如何有效降低大資料平台安全風險

MaxCompute平台通路控制系統是基于多租戶的體系進行建構的,在雲上的每個MaxCompute租戶在MaxCompute内部會對應到一個或多個project,其中任何一個project會包括三類的内容。第一類是project屬性,包括Quota和Owner資訊。第二類是project數組,包括User ID和Role。第三類是project所有的資源,包括表、函數、檔案系統和Instance執行個體。

當使用者使用混合雲的方案和雲上的VPU進行打通的時候,可以将VPC作為一個防控的條件配置到MaxCompute中,同時僅允許這個VPC的來源去通路使用者的project,這就是VPC的白名單能力。同時,也提供了端的能力,主要針對在企業場景中,對企業自身的生産裝置進行控制的需求。現在的MaxCompute可以提供權限系統2.0,在權限系統2.0中提供了ACL的控制能力,和獨立的下載下傳權限能力,同時提供人到表及表到人的查詢能力。這些都将在公共雲上向企業客戶所開放。

MaxCompute平台應用程式隔離系統

當使用者在MaxCompute中建立一個UDF時, 可以直接使用UDF函數執行應用程式。當應用程式在MaxCompute中執行時,會執行在虛拟化隔離過程中,保證使用者的代碼不會映到平台及平台的其他租戶。現在,MaxCompute能夠提供更新的應用程式。企業在使用開源引擎時,通常會有自己定制的分支,為了支援這些分支,提供了Plugin的能力,企業隻需要在自己獨立的分支上做分裝,就可以将Spark打包為User Defined Engine,在自己的MaxCompute中執行起來。

使用者建立自定義的計算引擎非常簡單,隻需要建立一個engine,然後使用一個指定的Spark jar包就可以。在送出任務時,隻需要自己的Spark作業使用所建立的engine就可以運作。

如何有效降低大資料平台安全風險

MaxCompute 平台風控審計系統中重點提供了Information Schema 1.0的能力。包括三種類型的源資料。企業使用者在使用Information Schema 的基礎上可以使用第一類的資料做非常詳細的資料的生命周期的管理、Owner檢索以及存儲尺寸的檢索。第二類主要用于使用者或角色資訊的查詢、使用者的權限查詢、資源的權限查詢、表和字段打标的查詢。第三類可以實作定制化分析的功能,包括熱表分析、表血緣分析、費用分析、性能分析。此外,還以準實時的方式為企業提供資訊。

MaxCompute 平台可信系統

如何有效降低大資料平台安全風險

在MaxCompute 平台可信系統中,MaxCompute将提供BYOK存儲加密的能力,企業和使用者可以将自己指定的秘鑰上傳到阿裡雲的KMS中,作為一個資料存儲的總秘鑰。MaxCompute在進行資料加密時,可以直接使用企業上傳的主秘鑰生成資料的加密秘鑰,然後将加密過的資料以及加密過的資料秘鑰存儲在實體媒體中。整個過程可以支援AES256,同時符合國家安全規定的國密算法SM4的算法支援規定。支援完BYOK之後,就賦予了企業的能力。當企業需要在雲上銷毀資料時,隻需要在阿裡雲的KMS中,将自己的主秘鑰銷毀掉。這時,在MaxCompute上存儲的所有資料就處于邏輯上銷毀的狀态。

在資料安全領域,主要面對三大安全風險:

1.資料洩露:缺少權限管控導緻資料洩露。

2.資料濫用:無法最小化授權導緻資料濫用。

3.資料誤用:無法追蹤資料使用情況導緻資料誤用。

資料應用安全

DataWorks資料安全産品承擔了阿裡雲資料應用安全的職責。資料安全産品涉及三個方面為企業的客戶提供保障。第一方面是權限管控類,阿裡雲将提供申請流程控制、審批流程控制、權限回收以及權限檢視的基本的産品能力。第二方面是資料保護類,将提供資料分類分級、敏感資料識别 、資料打标、靜态脫敏以及差分隐私的能力。第三方面是風險治理,将提供敏感權限審計、資料通路審計、資料防洩漏以及資料防濫用能力。

DataWorks 資料應用安全解決方案

如何有效降低大資料平台安全風險

DataWorks 資料應用安全解決方案的過程為上圖所示。首先對于使用者資料可以提供多種類型的規則進行資料的打标,可以基于資料的字段安全來定義資料的安全等級、個人資訊資料等級、表安全等級和安全分類标簽,所有的資料在經過自動的識别之後,通過MaxCompute的字段級打标能力直接進入到MaxCompute的源資料中。

在DataWorks的權限管控産品中,基于這些安全的分類等級進行包和字段級的權限申請和控制,整個權限申請控制之後,由企業的内部人員進行權限審批,之後由DataWorks使用由MaxCompute2.0提供的權限系統,進行字段級的ACL授權以及Label授權等一系列的授權手段,為企業提供最小權限的能力。

所有的授權操作會進入到MaxCompute的風控審計資料中,通過Information Schema提供給企業級客戶進行審計,所有的人員權限審計、資源權限審計、權限使用的審計将在風險治理過程中為DataWorks的安全産品提供資料支援,同時為企業提供權限回收的選項,允許企業去制定一些權限回收的規則。

在另外一個分支上,源資料為資料的本身對敏感資訊提供一些辨別。DataWorks将提供靜态脫敏能力,可以支援多種多樣的脫敏規則。同時,阿裡也可以提供回顯脫敏和下載下傳脫敏的能力。所謂的回顯脫敏是指企業的開發人員在開發過程中進行一個表格展示時,資料會被進行強制的脫敏,并且回顯在使用者的開發界面上。所謂下載下傳脫敏是指使用DataWorks進行資料下載下傳時,資料會經過脫敏規則。此外,DataWorks還将提供差分隐私的脫敏服務。所有敏感資訊的使用也将進入到源資料中,通過Information Schema,為使用者和企業客戶提供服務。另外,資料表的審計、使用者審計以及計算作業審計将為資料的洩露告警、資料濫用以及資料誤用提供資料支撐。

DataWorks 資料安全産品

如何有效降低大資料平台安全風險

DataWorks 資料安全産品主要分為權限管控類和資料保護類兩個部分。

DataWorks資料安全權限管控産品

如何有效降低大資料平台安全風險

DataWorks在安全中心2.0中提供了簡單的使用過程,如上圖所示為權限申請的過程。客戶使用者可以在DataWorks的安全中心中針對特定的字段進行權限申請。在權限申請過程中可以設定特定的申請權限的時間、申請的理由以及使用的環境。權限申請在被送出之後,将會出現在權限擁有者的頁面中,就可以看到待審批的過程,打開之後,可以看到申請者提供的資訊,用以支援審批。當審批按照拒絕流程處理時,在申請人的清單裡,會看到申請人拒絕審批的狀态。同時,在權限審批過程中,頁面會提供表到人和人到表的詳細查詢,在這個過程中實作權限的回收。

DataWorks資料安全數隐私保護産品

如何有效降低大資料平台安全風險

隐私保護在數學上可以證明的模型是差分隐私。所謂差分隐私是指将包含敏感資料的資訊以及經過差分隐私處理後的資訊呈現出一種數學可描述的機率分布過程,如上圖所示。紅線是包含隐私的資料,黑線是經過脫敏過的資料。正是因為呈現出的這種數學規律,在統計場景中擁有了可替代能力。在某些使用統計函數的場景中,可以使用脫敏過的資料為統計流程提供支援。

到目前為止,差分隐私有兩種實作方式,一種是全局模型,另一種是局部模型。在全局模型中,使用者仍然需要将自己的隐私交給某一個中間方,由中間方進行統計計算之後,将結果進行差分隐私的處理,再交給資料分析者。在局部模型中,每一個隐私包含者會将自己的資料進行脫敏之後直接交給中間者,然後進行差分隐私,這種模型的實作是比較難的,但是,會為使用者的隐私帶來更好的保護。

如何有效降低大資料平台安全風險
如何有效降低大資料平台安全風險

現今,DataWorks将基于局部模型為使用者提供服務,并且提供兩個UDF函數,其中一個函數用來做資料的脫敏,另一個函數将用于脫敏結果的統計計算。在使用過程中,使用第一個函數将敏感資料進行脫敏,所有脫敏過的資料經過Data Collector彙總到一起,然後,調用第二個函數進行統計和分析。由上圖可以看出,經過差分隐私處理後,源資料與處理過的資料顯示出非常好的一緻性。

阿裡雲飛天大資料平台安全體系

如何有效降低大資料平台安全風險

根據阿裡雲飛天大資料平台安全體系,阿裡雲資料中心安全基礎設施提供了資料中心的保護設施、資料中心安全管控以及資料中心網絡安全。MaxCompute的平台可信系統通過通路控制系統、應用程式隔離系統以及風控審計系統為企業客戶提供大資料平台的完整性保障,同時提供VPC白名單、App端識别、權限系統2.0以及使用者定義計算引擎。另外,還支援InformationSchema1.0源資料能力,還将提供BYOK的存儲能力。DataWorks 資料安全産品包括權限管控産品、資料保護産品以及風險治理産品,阿裡雲主要釋出的是DataWorks安全中心2.0以及DataWorks的差分隐私産品。所有的産品和系統為資料的生命周期安全提供了真實的保障。

MaxCompute産品官網 >>> DataWorks産品官網 >>>

繼續閱讀