天天看點

雲原生存儲的思考 (二)雲原生存儲新的場景,挑戰,解決方案和Roadmap

Abstract

新的企業負載/智能工作負載容器化,遷雲,存儲方面遇到的性能,彈性,高可用,加密,隔離,可觀測性,生命周期等方面的問題,不但是需要存儲産品層次的改進,更需要在雲原生的控制/資料平面的改進,推進雲原生存儲和雲存儲的演進。以下分别介紹一下問題場景,問題,探讨可行的解決方案,最終可以得出雲原生存儲,雲存儲目前可以做什麼和未來還需要做什麼。

存儲性能

長時延增加

場景:高性能計算場景中,集中處理批量資料,通過容器叢集,同時啟動數千Pod,彈出數百ECS對共享性檔案系統讀寫

問題:重負載終負載下時延增加,高延遲毛刺增多,讀寫穩定性不足

雲原生存儲的思考 (二)雲原生存儲新的場景,挑戰,解決方案和Roadmap

解決方案:

  1. 分散負載到多檔案系統,通過容器編排分散IO到多檔案系統
  2. 存儲産品的盤古2.0改造

集中式高吞吐寫對共享存儲池沖擊

場景:高性能計算場景中,集中處理批量資料,10Gbps讀寫請求進入同一存儲叢集

問題:同一存儲叢集中的帶寬擠占,造成通路品質下降

雲原生存儲的思考 (二)雲原生存儲新的場景,挑戰,解決方案和Roadmap
  1. 分散負載到多檔案系統和多個存儲叢集/多個可用區,通過容器編排分散IO到多檔案系統
  2. 使用獨占高性能并行檔案系統

峰值吞吐不足

場景:大規模生物資料處理, 檔案數目少,峰值吞吐高10Gbps-30Gbps,請求密集1W/s

問題:接近獨占叢集的極限帶寬

雲原生存儲的思考 (二)雲原生存儲新的場景,挑戰,解決方案和Roadmap
  1. 讀寫分流,分流讀請求到OSS,寫請求負載分流到獨占檔案系統和本地/遠端塊存儲,通過容器編排分散IO到多檔案系統
  2. 使用應用層分布式緩存降低網絡讀IO

時延增加導緻GPU等待

場景:多機多卡GPU訓練,直接讀取OSS資料,讀密集型

問題:時延增加導緻IOwait, 和GPU等待

雲原生存儲的思考 (二)雲原生存儲新的場景,挑戰,解決方案和Roadmap
  1. 應用層透明POSIX讀通路OSS

存儲彈性

場景:

  1. 資料庫擴容, MySQL and etc
  2. 中繼資料管理應用線上擴容 Zookeeper/etcd
  3. 本地盤存儲容量無法擴容
  1. 雲盤線上擴容,應用控制面檔案系統/邏輯卷離線,線上擴容能力

    單機雲盤挂載密度

  2. 存儲産品ESSD的替換使用

存儲高可用

  1. 應用運維,系統運維
  2. 塊存儲随容器遷移的穩定性和可發現性
  1. 控制平面聲明式存儲快照,備份,定時快照備份,本地快照加速備份和恢複
  2. 控制平面雲盤SerialNum的可發現性改造

存儲的加密

  1. 使用者應用的全鍊路資料加密需求
  2. 作業系統盤加密
  1. 産品存儲的CMK,BYOK支援
  2. 控制平面的加密聲明支援
  3. RAM權限的最小化控制

存儲的隔離性

  1. 單盤多應用共享,單機日志盤塊存儲切分
  2. 單塊本地盤/雲盤吞吐能力不足
  3. 檔案系統多租戶環境的容量配額
  4. 叢集級檔案系統共享通路的權限控制
  1. 控制面LVM切分,控制面塊存儲blkio buffer IO應用級限速
  2. 控制面LVM多盤聚合和條帶
  3. 存儲産品共享檔案系統的目錄級Quota
  4. 控制面檔案系統的目錄級ACL

存儲的可觀測性

  1. 多租戶Zookeeper/etcd,租戶/應用級的IO名額監控和預警
  1. 控制面應用級IO Metrics采集能力
  2. 控制面裝置級 IO Metrics采集能力
  3. 控制面挂載點級 IO Metrics采集能力

存儲的生命周期

  1. 共享檔案系統/緩存系統的聲明式建立和删除
  1. Operator: 雲盤/本地盤 (TiDB)
  2. Operator: 檔案系統, CPFS
  3. Operator: 對象存儲

雲原生存儲 v2

針對以上在新的計算模式下,存儲方面遇到的性能,彈性,高可用,加密,隔離,可觀測性,生命周期等方面的問題,不但是需要存儲産品層次的改進,更需要在雲原生的控制/資料平面的改進,在不久的将來實作穩定,安全,自治,和效率并舉的雲原生存儲v2

  • 穩定:阿裡雲存儲的全品類支援可觀測性, Flexvolume and CSI plugins/IO metrics (CSI for 1.14)
  • 安全:全連路資料存儲的可靠/可信存儲支援,CSI 快照加密,系統盤加密。
  • 自治:雲盤快照 /本地快照 ,離線線上的存儲擴容能力, 中繼資料自動發現
  • 效率:I/O隔離 、可伸縮性/雲盤再次分割提升密度/分布式存儲緩存
雲原生存儲的思考 (二)雲原生存儲新的場景,挑戰,解決方案和Roadmap

總結

  1. 雲原生存儲是雲存儲UI
  2. 分層存儲,不重新發明輪子
  3. 新的工作負載推進雲原生存儲和雲存儲的演進,雲原生控制平面實作效率,自治方面能力,從資料面提升存儲穩定和減小安全隐患,雲存儲繼續夯實性能,容量,彈性,密度等基礎能力,共建雲原生環境下的存儲生态。