本期導讀 :【資料遷移】第三講
主題:如何将 HDFS 海量檔案歸檔到 OSS
講師:辰石,阿裡巴巴計算平台事業部 EMR 技術專家
内容架構:
- 背景介紹
- 具體功能詳解
- 使用執行個體
直播回放連結:(3/4講)
https://developer.aliyun.com/live/246750背景簡述

HDFS 資料遷移
- 使用者需要将資料存儲在 IDC 機房的 HDFS 的叢集内。
- HDFS 的叢集的空間依賴本地磁盤空間,本地磁盤空間有限,但是業務資料不斷增長。
- 計算存儲分離雖然可以不用擔心存儲容量,但是對象存儲相關性能可能不及本地 HDFS 性能。
- 業務資料的時效性,業務資料随時間遷移資料價值也會相對降低,進而導緻資料的存儲成本上升。
HDFS 資料存儲成本
考慮到實際使用 HDFS 會有3副本以及一定的預留白間,我們以 HDFS 3 副本、80% 使用率進行成本計算, 參考
https://www.aliyun.com/price/product#/ecs/detailHDFS / OSS 存儲成本對比
OSS 歸檔資料的存儲成本隻有 HDFS 資料存儲成本的 20% , OSS冷歸檔的存儲不到 HDFS 資料存儲的 10% 。
具體詳解
HDFS 資料歸檔
Jindo DistCp 工具
- 全量支援 HDFS / OSS / S3 之間的的資料拷貝場景
- 重點優化 HDFS / OSS 資料拷貝場景,支援 No-Rename 拷貝
- 支援 DistCp 過程資料 CheckSum 校驗
⭐具體可參考 Github:
https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/tools/table_moveto.md通過 DistCp 工具選項 —— policy 指定資料存儲類型
/ | 選項說明 |
---|---|
标準(standard) | 資料遷移到OSS标準存儲,可讀 |
低頻(ia) | 資料遷移到OSS低頻存儲,可讀 |
歸檔(archive) | 資料遷移到OSS歸檔存儲,不可直接讀取 |
冷歸檔(coldArchive) | 資料遷移到OSS冷歸檔存儲,不可直接讀取 |
HDFS 資料遷移指令
- 寫入低頻資料
hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey -- ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy ia --parallelism 10
- 寫入歸檔資料
hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy archive --parallelism 10
- 寫入冷歸檔資料
hadoop jar jindo-distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret --ossEndPoint oss-cn-xxx.aliyuncs.com --policy coldArchive --parallelism 10
HDFS 指令檢視資料類型
- HDFS LS2 擴充指令
hdfs –fs –ls2 oss://xxxxx/xxxxx
- 可參考詳細介紹連結
示範操作
- 準備測試腳本,包含 DistCp 到OSS 各種存儲類型的檔案,測試檔案大小為10M
- 執行測試腳本進行資料拷貝
- 檢視 OSS 資料的存儲類型
直接觀看視訊回放,擷取執行個體講解~
⭐Github連結:
https://github.com/aliyun/alibabacloud-jindofs不錯過每次直播資訊、探讨更多資料湖 JindoFS+OSS 相關技術問題,歡迎掃碼加入釘釘交流群!