一、前言
在剛剛落幕的2019中國資料與存儲峰會上,阿裡雲
對象存儲OSS(Object Storage Service)和業界專家一起探讨了《企業資料上雲建構資料湖的正确姿勢》。OSS作為非結構化資料存儲池和資料湖底座,為雙十一期間淘寶、天貓、支付寶等應用提供了如絲般順滑的圖檔、視訊體驗,OSS基于多年支撐雙一的上雲經驗,從“遷、存、穩、用”四個緯度總結了上雲的正确姿勢。

二、(遷)資料遷移之道:閃電立方
針對企業的非結構化資料,OSS提供兩類遷移方案:
資料遷移時,要基于容量、網絡帶寬選擇合适的方案,同時要關注遷移資料的一緻性。
2.1離線遷移(閃電立方裝置)
當容量大、帶寬小時,推薦
(閃電立方裝置),它有
3類裝置:
- 閃電立方Mini。遷移資料量為40TB,無需占用機架空間。
- 閃電立方II。遷移資料量為100TB,占用3U機架空間。
- 閃電立方III型。遷移資料量為480TB,占用6U機架空間。
它們遷移的理論帶寬都是20Gbps,采用AES-256加密方案,提供最大40:1的壓縮能力,支援
多種資料源,如NAS、FastDFS、HDFS等。
如2018年
遷移115網盤時,因為資料量巨大、遷移時間短,是以選擇了離線遷移的閃電立方裝置形式。通過雙方努力,僅僅45天就完成100PB的資料遷移,遷移完成後115科技總經理劉睿表示:“将基礎設施托付給阿裡雲後,115科技團隊得以集中精力,聚焦頂層設計,為使用者提供更好的産品體驗和服務。”
2.2線上遷移服務
在容量可控、帶寬足夠時,推薦使用線上遷移服務。目前,支援多種資料遷移方案:阿裡雲
OSS間遷移 HTTP/HTTPS源遷移 七牛雲遷移、騰訊雲
COS遷移、AWS
S3遷移 S3 Inventory 遷移、Azure
Blob遷移 又拍雲遷移、百度雲
BOS遷移、金山雲
KS3遷移、谷歌雲
GCP遷移 ECS資料到OSS的遷移、
NAS資料到OSS的遷移。結合OSS的
功能,可以平滑遷移存量資料,實作業務不中斷。
2.3遷移工具
除遷移服務外, OSS還提供遷移工具。容量小于30TB時,推薦使
;容量大于30TB時,推薦使用
,它支援豐富的資料源,可采用單機、多機模式部署,進而适應大規模的資料遷移。
遷移過程中,建議使用
CRC64檢查資料一緻性;同時,可以檢視日志、并對比源和目的對象清單,确認遷移完備度。
三、(存)安全存儲之道:安全白皮書
資料遷移上雲後,就可以參考OSS的
安全白皮書做好安全存儲工作。實施過程,包括認證、授權、加密、日志監控。
3.1認證
阿裡雲
通路控制RAM(Resource Access Management)認證體系支援
雲賬号(例如郵箱登陸控制台)、
RAM使用者(典型如使用Access Key用于開發)、
臨時安全令牌STS(Security Token Service)、
單點登入SSO(Single Sign On)、
OAuth認證,以及對象存儲OSS的
簽名URL認證機制。
SSO支援和微軟的AD(Active Directory)、Google G Suite、Okta等對接,進而可以使用企業現有的AD賬号登陸阿裡雲。
3.2授權
OSS支援三種授權模式:
- RAM政策 授權。基于使用者,配置通路資源的政策。
- Bucket政策 授權。基于桶資源,配置單使用者、多使用者、IP的通路政策。
- ACL ,分為桶ACL和對象ACL。可以選擇設定公共讀寫、公共讀&私有寫、私有讀寫、預設權限(繼承桶ACL)。
3.3加密
OSS提供兩大類加密方式,服務端加密SSE(Server-Side Encryption)和用戶端加密CSE(Client-Side Encryption)。
服務端加密,又分為如下種類:
- SSE-OSS使用OSS完全托管加密,OSS負責對象加密、解密的密鑰管理。
- SSE-KMS使用KMS托管密鑰進行加解密,它包含三種模式:OSS預設托管的KMS密鑰、采用BYOK(Bring Your Own Key)方式管理KMS密鑰(該模式又細分為兩類:阿裡雲提供的BYOK材料、使用者自有的BYOK材料)。
,分為如下兩類:
- CSE-C使用者自主管理密鑰,用戶端基于自有技術管理密鑰。
- CSE-KMS由KMS托管使用者主密鑰,用戶端使用阿裡雲KMS技術來管理密鑰。
如果對資料非常敏感,推薦用戶端加密,進而保證到OSS的全流程都是密文,安全度最高,但對用戶端有性能影響。采用服務端加密,解除安裝加密處理在雲上,保證在OSS内部處理時,都是密文。
3.4日志監控
使用者在通路 OSS 的過程中,會産生大量的通路日志。
日志存儲功能,可将 OSS 的通路日志,以小時為機關,按照固定的命名規則,生成一個 Object 寫入您指定的 Bucket(目标 Bucket,Target Bucket)。通過這些日志資訊,可用于安全稽核。
OSS
監控服務提供系統基本運作狀态、性能以及計量等方面的監控資料名額,并且提供自定義報警服務,幫助跟蹤請求、分析使用情況、統計業務趨勢,及時發現以及診斷系統的相關問題。
四、(穩)資料保護之道:容災備份
安全儲存好資料後,然後就是做好資料保護,保證資料不丢不錯,抵禦自然災害、人為誤操作。
4.1跨區域複制
跨區域複制(Bucket Cross-Region Replication)是跨不同OSS資料中心(地域)的存儲空間(Bucket)自動、異步複制檔案(Object),它會将Object的建立、更新和删除等操作從源存儲空間複制到不同區域的目标存儲空間。
跨區域複制功能能夠很好的提供Bucket跨區域容災,或滿足使用者資料複制的法規需求。目标Bucket中的對象是源Bucket中對象的精确副本,它們具有相同的對象名、中繼資料以及内容,例如建立時間、擁有者、使用者定義的中繼資料、Object ACL、對象内容等。
4.2同城備援存儲
OSS采用
多可用區(AZ)機制,将使用者的資料分散存放在同一地域(Region)的3個可用區。當某個可用區不可用時,仍然能夠保障資料的正常通路。OSS同城備援存儲提供99.9999999999%(12個9)的資料設計可靠性以及 99.995% 的服務設計可用性。
OSS的同城備援存儲能夠提供機房級容災能力。當斷網、斷電或者發生災難事件導緻某個機房不可用時,仍然能夠確定繼續提供強一緻性的服務能力,整個故障切換過程使用者無感覺,業務不中斷、資料不丢失,可以滿足關鍵業務系統對于“恢複時間目标(RTO)”以及“恢複點目标(RPO)”等于0的強需求。
4.3版本控制
開啟存儲空間(Bucket)
版本控制特性後,針對資料的覆寫和删除操作将會以曆史版本的形式儲存下來。通過檔案(Object)的版本控制,使用者在錯誤覆寫或者删除 Object 後,能夠将 Bucket 中存儲的 Object 恢複至任意時刻的曆史版本。
版本控制和
資料生命周期結合可實作類似資源回收筒功能,避免軟體錯誤、人為誤操作、病毒攻擊等邏輯錯誤造成的資料丢失。
五、(用)價值挖掘之道:資料湖
資料保護完善後,不能作為資料資産靜靜的躺在角落,而是應該建構資料湖、挖掘資料的價值,這是企業上雲最關鍵的目标。
企業通過建構雲上資料湖、挖掘更多價值,進而驅動行業新未來,資料湖建構分為4個環節:
- 多源站資料采集
- 基于OSS建構資料湖
- 進行結構化、非結構化資料處理與分析
- 資料可視化
5.1非結構資料分析
OSS産品長期為行業提供解決方案,基于資料就近處理的架構原則,解除安裝了合适的算子到存儲,提供了豐富的資料處理能力,典型如:
在雙十一期間,基于近存儲的資料解除安裝處理架構,大大降低業務的帶寬需求,并采用硬體加速技術,實作10倍的圖檔處理時延優化。
5.2結構化大資料分析
針對結構化資料的大資料分析,OSS和阿裡體系的大資料相關産品結合,通過業務打磨,提供了如下典型的解決方案:
- EMR JindoFS + OSS 的大資料分析 ,它通過OSS做持久化、本地存儲緩存加速計算本地化,以及優化的中繼資料管理,實作比HDFS更佳的性能。
- DLA + OSS 的大資料分析 ,DLA(Data Lake Analytics)對使用者儲存在 OSS裡面的資料建立資料湖,對資料進行各個次元的分析,分析完成得到業務洞見之後,再把這些産生的結果回流到的 RDS,供前台業務決策。
- MaxCompute + OSS 的大資料分析 ,實作阿裡雲計算、資料的生态融合。基于OSS海量視訊、圖像、音頻等資料的巨大價值,拉通OSS資料、TableStore資料、和MaxCompute内部存儲資料,在MaxCompute的核心計算引擎上進行融合。
六、總結
綜合企業上雲的“遷、存、穩、用”的四個步驟:
- 資料遷移,關注資料量、帶寬、一緻性。
- 安全管理,配置認證、授權、加密、日志監控。
- 資料保護,開啟跨域複制、同城備援、版本控制+生命周期管理。
- 價值挖掘,支援結構化、非結構化資料分析。
通過多年的企業資料上雲經驗,公共雲并非會讓企業IT人員失業,而是實作知識拓展、技能提升。因為使用公共雲,讓基礎設施管理就是代碼調用(Infrastructure as a code),進而可以讓企業IT人員有更多的時間、精力學習最新的技術,比如大資料、AI、5G等。