本期導讀 :【OSS 通路加速】第十一講
主題:打開 OSS 多版本-合規和分析兩不誤
講師:辰石,阿裡巴巴計算平台事業部 EMR 技術專家
内容架構:
- 背景介紹
- 主要功能
- 具體示範
直播回放連結:(11講)
https://developer.aliyun.com/live/246915一、背景介紹
阿裡雲對象存儲 OSS
- 一種海量、安全、低成本、高可靠的雲存儲服務
- 适合存放任意類型的檔案
- 提供容量和處理能力彈性擴充
- 提供多種存儲類型供選擇
- 資料設計持久性不低于99.9999999999%(12個9),服務可用性(或業務連續性)不低于99.995%
二、主要功能
OSS 支援功能
- 資料的上傳以及下載下傳
- OSS 對象生命周期的管理
- 同城/異地的資料容災
- OSS 對象資料保留合規
- 資料的加密解密
- 資料的多版本管理
參考網址:
https://help.aliyun.com/?spm=a2c4g.11174283.6.538.70a37da2T4gFyTOSS 對象資料多版本管理
功能介紹
- 單份資料在 OSS 上存在多個版本
使用場景
- 資料誤删除:目前 OSS 不提供資源回收筒,如果要恢複已删除的資料可以使用 OSS 多版本
- 檔案被覆寫:對于網盤、線上協作類産品,檔案會被頻繁修改,針對檔案的編輯會産生大量的臨時版本。您可以使用版本控制功能找回某個時間點的版本
OSS 對象資料多版本狀态
未開啟狀态
- 預設情況下 OSS 版本狀态為未開啟的狀态,一旦開啟,無法退回到未開啟狀态
開啟狀态
- 當 OSS 版本控制處于開啟狀态,OSS 将為新上傳的對象生成全局唯一的版本 ID
暫停狀态
- OSS 将為新上傳的 Object 生成特殊字元串為“null”的版本 ID
開啟/暫停 OSS 多版本

使用注意事項
功能互斥
- 同一 Bucket 中,版本控制與合規保留政策或鏡像回源無法同時配置
- 如果 Bucket 已開啟版本控制,上傳檔案時附加的覆寫同名檔案請求頭 x-oss-forbid-overwrite 将不生效
- 開啟多版本本身不會産生任何費用,但是由于開啟多版本,同一對象會存在多個版本的曆史資料,會增加資料的存儲成本
- OSS 多版本曆史版本過多可能導緻 List 過慢的問題,建議配置生命周期定期清理
檢視對象的多版本
控制台檢視
Ossutil64 指令行檢視
JindoFS OSS SDK 的優化
存在問題
- 由于 Hive/Spark 任務在任務執行過程中會産生臨時資料,在任務執行成功後這些臨時資料會被删除,是以會産生很多曆史版本資料,導緻後續任務 List 過慢,後續任務性能會受到影響。
JindoFS OSS SDK 優化
- JindoFS 對于這種情況存在優化, 對于 committer 産生的臨時資料的曆史版本資訊可以通過設定 fs.oss.committer.magic.clean.versions.enabled 為 true 可以清理臨時資料曆史版本。
三、執行個體示範
⭐點選回放連結,直接觀看第11講視訊回放,擷取講師執行個體講解:
⭐Github連結:
https://github.com/aliyun/alibabacloud-jindofs不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!