天天看點

Fluid + JindoFS 對海量小檔案的訓練加速 | 學習筆記

開發者學堂課程【資料湖 JindoFS + OSS 實操幹貨36講:Fluid + JindoFS 對海量小檔案的訓練加速】學習筆記,與課程緊密聯系,讓使用者快速學習知識。

課程位址:

https://developer.aliyun.com/learning/course/833/detail/13978

Fluid + JindoFS 對海量小檔案的訓練加速

内容介紹

一、海量小檔案難題

二、Fluid JindoRuntime 小檔案優化

三、使用JindoRuntime 加速小檔案

四、示範

現狀:AI訓練場景經常需要處理海量小檔案

1.HadoopHDFS

●RPC 頻繁,NameNode 壓力大

●延時高         

2.S3 和 OSS:延時高;高頻通路穩定性。

3.對緩存系統的訴求

➢低延時,高QPS

➢ 穩定可靠的通路性能

➢能夠支撐海量檔案數 

(1)高效的中繼資料緩存

➢基于 KV-Store 的中繼資料組織形式,可支援海量檔案數,并且不會占用過多記憶體資源

➢高效的中繼資料查詢,并且通過熱點緩存進一步加速點查性能

➢中繼資料服務( Namespace Service) 能夠提供低延時、高 QPS 的通路性能

➢Fuse 用戶端緩存 

(2)高效的資料組織及索引

➢針對小檔案資料塊實作高性能磁盤存儲及索引機制

➢一緻性哈希實作資料塊的分布式緩存索引,縮短小檔案讀取的鍊路

三、使用 JindoRuntime 加速小檔案

JindoRuntime加速小檔案基本步驟:

下裁并安裝Fluid :

https://github.com/aliyun/alibabacloud-

jindodata/blob/master/docs/jindo _fluid/jindo _fluid_ jindofs_ hdfs_ introduce.md

➢建立 Dataset

➢建立 JindoRuntime

➢緩存預加載 DataLoad

➢執行 AI 訓練作業

小檔案加速效果

《速度提升18倍!微網誌海量深度學習模型訓練效率躍升的秘密》

https://www.infoq.cn/article/FClx4Cco6b1jomi6UZSy

相比于 HDFS 接口

1機4卡可以得到5倍的加速   

2機8卡可以得到9倍的加速

3機12卡可以得到18倍的加速

模拟訓練總時長由原來的389小時(16 天)縮短到了16小時.

環境要求

1. Kubernetes version> 1.14,支援CSI

2. Golang 1.12+

3. Helm 3

4. Fluid 0.6.0

➢文檔連結:

jindofs/blob/master/docs/jindo_fluid/jindo_fluid _overview.md

ISSUE:

https://github.com/aliyun/alibabacloud-jindofs/issues

Fluid JindoRuntime使用文檔

●快速入門

●安裝文檔

●加速 OSS上 資料

●加速 HDFS .上資料

●加速 S3 上資料

●使用參數加密

●資料親和性排程

●Master節 點親和性部署

●多 Maste r 節點部署

●Fuse 用戶端節點親和性部署

●資料容忍污點排程

●Fuse 用戶端全局部署

●Dataset 手動擴縮容

●使用 Placement 在同一 個叢集上部署多個 dataset.資料源 mount 到根目錄下

●資料預加載

●資料緩存和中繼資料緩存

●問題診斷及處理

繼續閱讀