天天看點

資料湖實操講解【資料遷移】第三講:如何将 HDFS 海量檔案歸檔到OSS

本期導讀 :【資料遷移】第三講

主題:如何将 HDFS 海量檔案歸檔到 OSS

講師:辰石,阿裡巴巴計算平台事業部 EMR 技術專家

内容架構:

  • 背景介紹
  • 具體功能詳解
  • 使用執行個體

直播回放連結:(3/4講)

https://developer.aliyun.com/live/246750

背景簡述

資料湖實操講解【資料遷移】第三講:如何将 HDFS 海量檔案歸檔到OSS

HDFS 資料遷移

  • 使用者需要将資料存儲在 IDC 機房的 HDFS 的叢集内。
  • HDFS 的叢集的空間依賴本地磁盤空間,本地磁盤空間有限,但是業務資料不斷增長。
  • 計算存儲分離雖然可以不用擔心存儲容量,但是對象存儲相關性能可能不及本地 HDFS 性能。
  • 業務資料的時效性,業務資料随時間遷移資料價值也會相對降低,進而導緻資料的存儲成本上升。

HDFS 資料存儲成本

資料湖實操講解【資料遷移】第三講:如何将 HDFS 海量檔案歸檔到OSS

考慮到實際使用 HDFS 會有3副本以及一定的預留白間,我們以 HDFS 3 副本、80% 使用率進行成本計算, 參考

https://www.aliyun.com/price/product#/ecs/detail

HDFS / OSS 存儲成本對比

資料湖實操講解【資料遷移】第三講:如何将 HDFS 海量檔案歸檔到OSS

OSS 歸檔資料的存儲成本隻有 HDFS 資料存儲成本的 20% , OSS冷歸檔的存儲不到 HDFS 資料存儲的 10% 。

具體詳解

HDFS 資料歸檔

Jindo DistCp 工具

  • 全量支援 HDFS / OSS / S3 之間的的資料拷貝場景
  • 重點優化 HDFS / OSS 資料拷貝場景,支援 No-Rename 拷貝
  • 支援 DistCp 過程資料 CheckSum 校驗

⭐具體可參考 Github:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md

通過 DistCp 工具選項 —— policy 指定資料存儲類型

/ 選項說明
标準(standard) 資料遷移到OSS标準存儲,可讀
低頻(ia) 資料遷移到OSS低頻存儲,可讀
歸檔(archive) 資料遷移到OSS歸檔存儲,不可直接讀取
冷歸檔(coldArchive) 資料遷移到OSS冷歸檔存儲,不可直接讀取

HDFS 資料遷移指令

  • 寫入低頻資料

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10

  • 寫入歸檔資料

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10

  • 寫入冷歸檔資料

hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10

HDFS 指令檢視資料類型

  • HDFS LS2 擴充指令

hdfs –fs –ls2 oss://xxxxx/xxxxx

  • 可參考詳細介紹連結
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindo_distcp/jindo_distcp_hdfsToOss_pre.md

示範操作

  • 準備測試腳本,包含 DistCp 到OSS 各種存儲類型的檔案,測試檔案大小為10M
  • 執行測試腳本進行資料拷貝
  • 檢視 OSS 資料的存儲類型
資料湖實操講解【資料遷移】第三講:如何将 HDFS 海量檔案歸檔到OSS

直接觀看視訊回放,擷取執行個體講解~

⭐Github連結:

https://github.com/aliyun/alibabacloud-jindofs

不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!

資料湖實操講解【資料遷移】第三講:如何将 HDFS 海量檔案歸檔到OSS