天天看點

企業資料上雲建構資料湖的正确姿勢

一、前言

在剛剛落幕的2019中國資料與存儲峰會上,阿裡雲

對象存儲OSS

(Object Storage Service)和業界專家一起探讨了《企業資料上雲建構資料湖的正确姿勢》。OSS作為非結構化資料存儲池和資料湖底座,為雙十一期間淘寶、天貓、支付寶等應用提供了如絲般順滑的圖檔、視訊體驗,OSS基于多年支撐雙一的上雲經驗,從“遷、存、穩、用”四個緯度總結了上雲的正确姿勢。

企業資料上雲建構資料湖的正确姿勢

二、(遷)資料遷移之道:閃電立方

針對企業的非結構化資料,OSS提供兩類遷移方案:

資料遷移時,要基于容量、網絡帶寬選擇合适的方案,同時要關注遷移資料的一緻性。

企業資料上雲建構資料湖的正确姿勢

2.1離線遷移(閃電立方裝置)

當容量大、帶寬小時,推薦

(閃電立方裝置),它有

3類裝置

  • 閃電立方Mini。遷移資料量為40TB,無需占用機架空間。
  • 閃電立方II。遷移資料量為100TB,占用3U機架空間。
  • 閃電立方III型。遷移資料量為480TB,占用6U機架空間。

它們遷移的理論帶寬都是20Gbps,采用AES-256加密方案,提供最大40:1的壓縮能力,支援

多種資料源

,如NAS、FastDFS、HDFS等。

如2018年

遷移115網盤

時,因為資料量巨大、遷移時間短,是以選擇了離線遷移的閃電立方裝置形式。通過雙方努力,僅僅45天就完成100PB的資料遷移,遷移完成後115科技總經理劉睿表示:“将基礎設施托付給阿裡雲後,115科技團隊得以集中精力,聚焦頂層設計,為使用者提供更好的産品體驗和服務。”

2.2線上遷移服務

在容量可控、帶寬足夠時,推薦使用線上遷移服務。目前,支援多種資料遷移方案:阿裡雲

OSS間遷移 HTTP/HTTPS源遷移 七牛雲遷移

、騰訊雲

COS遷移

、AWS

S3遷移 S3 Inventory 遷移

、Azure

Blob遷移 又拍雲遷移

、百度雲

BOS遷移

、金山雲

KS3遷移

、谷歌雲

GCP遷移 ECS資料到OSS

的遷移、

NAS資料到OSS

的遷移。結合OSS的

功能,可以平滑遷移存量資料,實作業務不中斷。

2.3遷移工具

除遷移服務外, OSS還提供遷移工具。容量小于30TB時,推薦使

;容量大于30TB時,推薦使用

,它支援豐富的資料源,可采用單機、多機模式部署,進而适應大規模的資料遷移。

遷移過程中,建議使用

CRC64檢查

資料一緻性;同時,可以檢視日志、并對比源和目的對象清單,确認遷移完備度。

三、(存)安全存儲之道:安全白皮書

資料遷移上雲後,就可以參考OSS的

安全白皮書

做好安全存儲工作。實施過程,包括認證、授權、加密、日志監控。

企業資料上雲建構資料湖的正确姿勢

3.1認證

阿裡雲

通路控制

RAM(Resource Access Management)認證體系支援

雲賬号

(例如郵箱登陸控制台)、

RAM使用者

(典型如使用Access Key用于開發)、

臨時安全令牌

STS(Security Token Service)、

單點登入

SSO(Single Sign On)、

OAuth

認證,以及對象存儲OSS的

簽名URL

認證機制。

SSO支援和微軟的AD(Active Directory)、Google G Suite、Okta等對接,進而可以使用企業現有的AD賬号登陸阿裡雲。

3.2授權

OSS支援三種授權模式:

  • RAM政策 授權。基于使用者,配置通路資源的政策。
  • Bucket政策 授權。基于桶資源,配置單使用者、多使用者、IP的通路政策。
  • ACL ,分為桶ACL和對象ACL。可以選擇設定公共讀寫、公共讀&私有寫、私有讀寫、預設權限(繼承桶ACL)。

3.3加密

OSS提供兩大類加密方式,服務端加密SSE(Server-Side Encryption)和用戶端加密CSE(Client-Side Encryption)。

服務端加密

,又分為如下種類:

  • SSE-OSS使用OSS完全托管加密,OSS負責對象加密、解密的密鑰管理。
  • SSE-KMS使用KMS托管密鑰進行加解密,它包含三種模式:OSS預設托管的KMS密鑰、采用BYOK(Bring Your Own Key)方式管理KMS密鑰(該模式又細分為兩類:阿裡雲提供的BYOK材料、使用者自有的BYOK材料)。
用戶端加密

,分為如下兩類:

  • CSE-C使用者自主管理密鑰,用戶端基于自有技術管理密鑰。
  • CSE-KMS由KMS托管使用者主密鑰,用戶端使用阿裡雲KMS技術來管理密鑰。

如果對資料非常敏感,推薦用戶端加密,進而保證到OSS的全流程都是密文,安全度最高,但對用戶端有性能影響。采用服務端加密,解除安裝加密處理在雲上,保證在OSS内部處理時,都是密文。

3.4日志監控

使用者在通路 OSS 的過程中,會産生大量的通路日志。

日志存儲

功能,可将 OSS 的通路日志,以小時為機關,按照固定的命名規則,生成一個 Object 寫入您指定的 Bucket(目标 Bucket,Target Bucket)。通過這些日志資訊,可用于安全稽核。

OSS

監控服務

提供系統基本運作狀态、性能以及計量等方面的監控資料名額,并且提供自定義報警服務,幫助跟蹤請求、分析使用情況、統計業務趨勢,及時發現以及診斷系統的相關問題。

四、(穩)資料保護之道:容災備份

安全儲存好資料後,然後就是做好資料保護,保證資料不丢不錯,抵禦自然災害、人為誤操作。

企業資料上雲建構資料湖的正确姿勢

4.1跨區域複制

跨區域複制

(Bucket Cross-Region Replication)是跨不同OSS資料中心(地域)的存儲空間(Bucket)自動、異步複制檔案(Object),它會将Object的建立、更新和删除等操作從源存儲空間複制到不同區域的目标存儲空間。

跨區域複制功能能夠很好的提供Bucket跨區域容災,或滿足使用者資料複制的法規需求。目标Bucket中的對象是源Bucket中對象的精确副本,它們具有相同的對象名、中繼資料以及内容,例如建立時間、擁有者、使用者定義的中繼資料、Object ACL、對象内容等。

4.2同城備援存儲

OSS采用

多可用區(AZ)機制

,将使用者的資料分散存放在同一地域(Region)的3個可用區。當某個可用區不可用時,仍然能夠保障資料的正常通路。OSS同城備援存儲提供99.9999999999%(12個9)的資料設計可靠性以及 99.995% 的服務設計可用性。

OSS的同城備援存儲能夠提供機房級容災能力。當斷網、斷電或者發生災難事件導緻某個機房不可用時,仍然能夠確定繼續提供強一緻性的服務能力,整個故障切換過程使用者無感覺,業務不中斷、資料不丢失,可以滿足關鍵業務系統對于“恢複時間目标(RTO)”以及“恢複點目标(RPO)”等于0的強需求。

4.3版本控制

開啟存儲空間(Bucket)

版本控制

特性後,針對資料的覆寫和删除操作将會以曆史版本的形式儲存下來。通過檔案(Object)的版本控制,使用者在錯誤覆寫或者删除 Object 後,能夠将 Bucket 中存儲的 Object 恢複至任意時刻的曆史版本。

版本控制和

資料生命周期

結合可實作類似資源回收筒功能,避免軟體錯誤、人為誤操作、病毒攻擊等邏輯錯誤造成的資料丢失。

五、(用)價值挖掘之道:資料湖

資料保護完善後,不能作為資料資産靜靜的躺在角落,而是應該建構資料湖、挖掘資料的價值,這是企業上雲最關鍵的目标。

企業資料上雲建構資料湖的正确姿勢

企業通過建構雲上資料湖、挖掘更多價值,進而驅動行業新未來,資料湖建構分為4個環節:

  • 多源站資料采集
  • 基于OSS建構資料湖
  • 進行結構化、非結構化資料處理與分析
  • 資料可視化

5.1非結構資料分析

OSS産品長期為行業提供解決方案,基于資料就近處理的架構原則,解除安裝了合适的算子到存儲,提供了豐富的資料處理能力,典型如:

在雙十一期間,基于近存儲的資料解除安裝處理架構,大大降低業務的帶寬需求,并采用硬體加速技術,實作10倍的圖檔處理時延優化。

5.2結構化大資料分析

企業資料上雲建構資料湖的正确姿勢

針對結構化資料的大資料分析,OSS和阿裡體系的大資料相關産品結合,通過業務打磨,提供了如下典型的解決方案:

  • EMR JindoFS + OSS 的大資料分析 ,它通過OSS做持久化、本地存儲緩存加速計算本地化,以及優化的中繼資料管理,實作比HDFS更佳的性能。
  • DLA + OSS 的大資料分析 ,DLA(Data Lake Analytics)對使用者儲存在 OSS裡面的資料建立資料湖,對資料進行各個次元的分析,分析完成得到業務洞見之後,再把這些産生的結果回流到的 RDS,供前台業務決策。
  • MaxCompute + OSS 的大資料分析 ,實作阿裡雲計算、資料的生态融合。基于OSS海量視訊、圖像、音頻等資料的巨大價值,拉通OSS資料、TableStore資料、和MaxCompute内部存儲資料,在MaxCompute的核心計算引擎上進行融合。

六、總結

綜合企業上雲的“遷、存、穩、用”的四個步驟:

  • 資料遷移,關注資料量、帶寬、一緻性。
  • 安全管理,配置認證、授權、加密、日志監控。
  • 資料保護,開啟跨域複制、同城備援、版本控制+生命周期管理。
  • 價值挖掘,支援結構化、非結構化資料分析。

通過多年的企業資料上雲經驗,公共雲并非會讓企業IT人員失業,而是實作知識拓展、技能提升。因為使用公共雲,讓基礎設施管理就是代碼調用(Infrastructure as a code),進而可以讓企業IT人員有更多的時間、精力學習最新的技術,比如大資料、AI、5G等。

繼續閱讀