天天看點

資料湖實操講解【OSS 通路加速】第十一講:打開 OSS 多版本-合規和分析兩不誤

本期導讀 :【OSS 通路加速】第十一講

主題:打開 OSS 多版本-合規和分析兩不誤

講師:辰石,阿裡巴巴計算平台事業部 EMR 技術專家

内容架構:

  • 背景介紹
  • 主要功能
  • 具體示範

直播回放連結:(11講)

https://developer.aliyun.com/live/246915

一、背景介紹

阿裡雲對象存儲 OSS

  • 一種海量、安全、低成本、高可靠的雲存儲服務
  • 适合存放任意類型的檔案
  • 提供容量和處理能力彈性擴充
  • 提供多種存儲類型供選擇
  • 資料設計持久性不低于99.9999999999%(12個9),服務可用性(或業務連續性)不低于99.995%

二、主要功能

OSS 支援功能

  • 資料的上傳以及下載下傳
  • OSS 對象生命周期的管理
  • 同城/異地的資料容災
  • OSS 對象資料保留合規
  • 資料的加密解密
  • 資料的多版本管理

參考網址:

https://help.aliyun.com/?spm=a2c4g.11174283.6.538.70a37da2T4gFyT

OSS 對象資料多版本管理

功能介紹

  • 單份資料在 OSS 上存在多個版本

使用場景

  • 資料誤删除:目前 OSS 不提供資源回收筒,如果要恢複已删除的資料可以使用 OSS 多版本
  • 檔案被覆寫:對于網盤、線上協作類産品,檔案會被頻繁修改,針對檔案的編輯會産生大量的臨時版本。您可以使用版本控制功能找回某個時間點的版本

OSS 對象資料多版本狀态

未開啟狀态

  • 預設情況下 OSS 版本狀态為未開啟的狀态,一旦開啟,無法退回到未開啟狀态

開啟狀态

  • 當 OSS 版本控制處于開啟狀态,OSS 将為新上傳的對象生成全局唯一的版本 ID

暫停狀态

  • OSS 将為新上傳的 Object 生成特殊字元串為“null”的版本 ID

開啟/暫停 OSS 多版本

資料湖實操講解【OSS 通路加速】第十一講:打開 OSS 多版本-合規和分析兩不誤

使用注意事項

功能互斥

  • 同一 Bucket 中,版本控制與合規保留政策或鏡像回源無法同時配置
  • 如果 Bucket 已開啟版本控制,上傳檔案時附加的覆寫同名檔案請求頭 x-oss-forbid-overwrite 将不生效
  • 開啟多版本本身不會産生任何費用,但是由于開啟多版本,同一對象會存在多個版本的曆史資料,會增加資料的存儲成本
  • OSS 多版本曆史版本過多可能導緻 List 過慢的問題,建議配置生命周期定期清理

檢視對象的多版本

控制台檢視

資料湖實操講解【OSS 通路加速】第十一講:打開 OSS 多版本-合規和分析兩不誤

Ossutil64 指令行檢視

資料湖實操講解【OSS 通路加速】第十一講:打開 OSS 多版本-合規和分析兩不誤

JindoFS OSS SDK 的優化

存在問題

  • 由于 Hive/Spark 任務在任務執行過程中會産生臨時資料,在任務執行成功後這些臨時資料會被删除,是以會産生很多曆史版本資料,導緻後續任務 List 過慢,後續任務性能會受到影響。

JindoFS OSS SDK 優化

  • J​indoFS 對于這種情況存在優化, 對于 committer 産生的臨時資料的曆史版本資訊可以通過設定 fs.oss.committer.magic.clean.versions.enabled 為 true 可以清理臨時資料曆史版本。

三、執行個體示範

⭐點選回放連結,直接觀看第11講視訊回放,擷取講師執行個體講解:

⭐Github連結:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

資料湖實操講解【OSS 通路加速】第十一講:打開 OSS 多版本-合規和分析兩不誤