開發者學堂課程【資料湖 JindoFS + OSS 實操幹貨36講:Fluid + JindoFS 對海量小檔案的訓練加速】學習筆記,與課程緊密聯系,讓使用者快速學習知識。
課程位址:
https://developer.aliyun.com/learning/course/833/detail/13978Fluid + JindoFS 對海量小檔案的訓練加速
内容介紹
一、海量小檔案難題
二、Fluid JindoRuntime 小檔案優化
三、使用JindoRuntime 加速小檔案
四、示範
現狀:AI訓練場景經常需要處理海量小檔案
1.HadoopHDFS
●RPC 頻繁,NameNode 壓力大
●延時高
2.S3 和 OSS:延時高;高頻通路穩定性。
3.對緩存系統的訴求
➢低延時,高QPS
➢ 穩定可靠的通路性能
➢能夠支撐海量檔案數
(1)高效的中繼資料緩存
➢基于 KV-Store 的中繼資料組織形式,可支援海量檔案數,并且不會占用過多記憶體資源
➢高效的中繼資料查詢,并且通過熱點緩存進一步加速點查性能
➢中繼資料服務( Namespace Service) 能夠提供低延時、高 QPS 的通路性能
➢Fuse 用戶端緩存
(2)高效的資料組織及索引
➢針對小檔案資料塊實作高性能磁盤存儲及索引機制
➢一緻性哈希實作資料塊的分布式緩存索引,縮短小檔案讀取的鍊路
三、使用 JindoRuntime 加速小檔案
JindoRuntime加速小檔案基本步驟:
下裁并安裝Fluid :
https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/jindo _fluid/jindo _fluid_ jindofs_ hdfs_ introduce.md
➢建立 Dataset
➢建立 JindoRuntime
➢緩存預加載 DataLoad
➢執行 AI 訓練作業
小檔案加速效果
《速度提升18倍!微網誌海量深度學習模型訓練效率躍升的秘密》
https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy相比于 HDFS 接口
1機4卡可以得到5倍的加速
2機8卡可以得到9倍的加速
3機12卡可以得到18倍的加速
模拟訓練總時長由原來的389小時(16 天)縮短到了16小時.
環境要求
1. Kubernetes version> 1.14,支援CSI
2. Golang 1.12+
3. Helm 3
4. Fluid 0.6.0
➢文檔連結:
jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md
ISSUE:
https://github.com/aliyun/alibabacloud-jindofs/issuesFluid JindoRuntime使用文檔
●快速入門
●安裝文檔
●加速 OSS上 資料
●加速 HDFS .上資料
●加速 S3 上資料
●使用參數加密
●資料親和性排程
●Master節 點親和性部署
●多 Maste r 節點部署
●Fuse 用戶端節點親和性部署
●資料容忍污點排程
●Fuse 用戶端全局部署
●Dataset 手動擴縮容
●使用 Placement 在同一 個叢集上部署多個 dataset.資料源 mount 到根目錄下
●資料預加載
●資料緩存和中繼資料緩存
●問題診斷及處理