天天看點

JindoFS - 分層存儲

作者:殳鑫鑫,花名辰石,阿裡巴巴計算平台事業部EMR團隊技術專家,目前從事大資料存儲以及Spark相關方面的工作。

JindoFS 概述

JindoFS概述:雲原生的大資料計算存儲分離方案 JindoFS解析 - 雲上大資料高性能資料湖存儲方案

JindoFS - 分層存儲背景

JindoFS 分層主要解決客戶冷熱資料存儲成本問題,對于大多數使用者資料可以簡單的分為冷資料和熱資料

  • 熱資料:業務需要通路的資料往往是業務資料集的一部分,這種經常被通路的資料我們通常稱為熱資料,這部分資料在存儲主要關注資料的存儲性能,是以熱資料主要存放在一些高性能的媒體上。
  • 冷資料:另外很大一部分資料很長時間内不會被通路,這部分長期不被通路的資料我們通常稱為冷資料,冷資料因為很少被業務通路,在資料存儲上主要考慮存儲成本的問題,常見的做法如采用EC 算法代替三副本存儲政策或者将資料存放在錄音帶或者SMR磁盤等低成本的存儲媒體上來降低存儲成本

JindoFS 存儲内部我們是通過分層存儲來降低冷資料的存儲成本,提高熱資料的通路性能。

JindoFS - 分層存儲

JindoFS 無論是Cache 模式還是Block 模式都提供資料本地備份來加速業務資料的通路,而資料的可靠性和可用性主要由後端存儲OSS 提供,JindoFS 分層存儲中冷資料存放主要依賴OSS 提供存儲類型來提供,OSS 可以提供存儲類型分為三種類型:标準存儲類型,低頻通路存儲類型,歸檔存儲類型。

  • 标準存儲類型:提供高可靠、高可用、高性能的對象存儲服務,能夠支援頻繁的資料通路, 無資料取回費用,實時通路,毫秒延遲
  • 低頻存儲類型:提供高可靠性、較低存儲成本的對象存儲服務。有最低存儲時間(30天)和最小計量機關(64 KB)要求。支援資料實時通路,通路資料時會産生資料取回費用,适用于較低通路頻率(平均每月通路頻率1到2次)的業務場景
  • 歸檔存儲類型:提供了高可靠性、極低存儲成本的對象存儲服務。有最低存儲時間(60天)和最小計量機關(64 KB)要求。資料需解凍(約1分鐘)後通路,解凍會産生資料取回費用。适用于資料長期儲存的業務場景。

JindoFS 内部可以将資料分為以下集中,熱資料,溫資料,冷資料,低頻資料,歸檔資料。

JindoFS - 分層存儲

JindoFS 分層存儲支援存儲資料在上述各種資料類型之間進行轉換,使用者可以根據自己業務的資料類型來确定資料的存儲類型,進而為資料的存儲提供一種最優的存儲方案, 使用者可以使用cache/uncache/archive/unarchive等指令來操作存儲的檔案或者目錄進行資料類型轉換。

結語

JindoFS 主要支援計算存儲分離的場景,提供兩種不同的模式支援使用者不同的場景,兩種模式各有優缺點,使用者可以根據業務類型選用不同的模式或者同時選擇兩種不同模式,分層存儲功能同時支援這兩種模式,使用者可以在性能以及存儲成本方面考慮,選擇不同存儲類型,該功能預計會在下一個

EMR

主版本中釋出支援。

EMR釘釘産品交流群

JindoFS - 分層存儲

對開源大資料和感興趣的同學可以加小編微信(下圖二維碼,備注“進群”)進入技術交流微信群。

JindoFS - 分層存儲

Apache Spark技術交流社群公衆号,微信掃一掃關注

JindoFS - 分層存儲