天天看點

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

簡介:本文以雲原生為時代背景,介紹了阿裡雲塊存儲快照服務如何基于高性能 ESSD 雲盤提升快照服務性能,提供輕量、實時的使用者體驗及揭秘背後的技術原理。依據行業發展及雲上資料保護場景,為企業使用者及備份廠商提供基于快照進階特性的資料保護的技術方案,滿足雲上使用者資料保護的迫切需求,保障雲上企業業務連續性。

2021年7月份,國際知名咨詢公司 Gartner 釋出了公有雲的 IaaS(基礎設施即服務)和 PaaS(平台即服務)平台的“魔力象限(Magic Quadrant)”,阿裡雲憑借其領先的技術能力首次成為“遠景者”象限的公有雲服務提供商,其中阿裡雲塊存儲獲得單項得分第一的成績,阿裡雲計算、存儲,網絡及安全得分獲得全球第一。存儲領先業界的背後離不開高性能的 ESSD 雲盤産品為使用者提供高可用、高可靠、高性能的塊級随機通路服務及原生的快照資料保護能力。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

原生業務新需求

随着雲原生技術的發展,越來越多的企業基于雲計算的虛拟化、彈性擴充及蓬勃發展的雲原生技術的分布式架構,容器技術、編排系統、持續傳遞及快速疊代,建構起大規模、彈性擴充強、豐富的雲上分布式業務場景。企業應用的部署規模,存儲,計算等資源需求随之成指數增長,導緻傳統的資料保護方案無法滿足雲端新的技術變化。使用者面臨的市場競争環境更加激烈,迫切需要适應業務規模及發展的雲端資料保護方案來滿足自身競争力及業務的發展需要。雖然資料保護的業務背景及場景因雲計算及雲原生而發生變化,但使用者對資料保護的訴求沒有發生變化,衡量的标準依然是恢複時間點目标 RTO 及恢複點目标 RPO。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

使用者追求的首要目标依然是業務連續性,即在業務面臨中斷威脅,迅速實作業務恢複;業務面臨增長壓力,迅速實作業務擴充。使用者根據業務場景對雲上的資料保護及快照服務提出了如下的迫切需求:

    • 建立時間短:快照極速完成,關鍵業務即刻進行資料備份。
    • 極速可用:快照極速可用,應對突發事件,完成雲盤復原恢複。
    • 業務擴充:業務量突增需要業務擴容。
    • 整機保護:單 ECS 執行個體及多 ECS 執行個體的關聯多盤的一緻性資料保護。
    • 測試驗證:生産環境以外即可進行資料測試驗證及恢複。
    • 恢複速度快:檔案系統及應用資料處于應用一緻性的備份狀态,避免應用當機恢複過程。
    • 容器備份:容器業務環境的快速疊代及釋出,迫切需要保護中繼資料及應用業務資料。

根據存儲網絡工業協會 SNIA 對快照的定義:快照是指定資料集合的一個完全可用拷貝,該拷貝包括相應資料在某個時間點(拷貝開始的時間點)的映像。阿裡雲塊存儲快照就是提供 ESSD 雲盤某一時刻的一緻性資料鏡像。适應行業的發展趨勢,快照服務不斷發現使用者的新需求及新場景,不懈地進行了新功能開發及疊代演進,極緻更新優化 ESSD 雲盤快照的進階企業新特性:快照極速可用特性、應用一緻性快照及适應分布式應用架構的一緻性組快照及快照跨地域複制的異地災備功能。在不斷獨立輸出及被內建的發展過程中,滿足了雲上企業使用者的需求,服務大資料、遊戲,人工智能、金融行業等領域,也得到了阿裡雲其他團隊如:雲資料庫團隊 RDS、混合雲備份團隊、彈性容器執行個體 ECI、容器服務 ACK 等業務團隊及使用者的回報:

    • 雲資料庫團隊 RDS 行業使用者的評價是:RDS 的秒級備份産品對齊業界的資料庫備份産品,降低原有實體檔案備份對執行個體資源占用,有效降低了資料保護風險。
    • 彈性容器執行個體 ECI 容器加速收益客戶圖森的評價是:極速型緩存加速功能加速了容器應用釋出,降低了仿真平台的計算時間,将計算任務降低到平均 5 分鐘以内,産品釋出周期極大縮短。
    • 按照混合雲備份客戶的說法,應用一緻性整機備份能力完全對标 VMware 虛拟化平台的快照功能。
    • 快照服務提供的一緻性組快照及應用一緻性能力,完全滿足 2021 年 Gartner 對阿裡雲塊存儲服務評測能力。容器業務 ACK 團隊通過 2021 年 Forrestor 容器備份評測能力。

典型場景

輕量、實時的快照極速可用特性,一緻性組快照及應用一緻性快照的進階特性,為企業使用者及第三方備份廠商快速建構起:極速備份恢複、容災測試、副本利用及容災切換的副本資料管理(Copy Data Management)應用場景。Gartner 于 2021 年 7 月份釋出的關于存儲及資料保護的技術趨勢(Hype Cycle)分析中,将容器備份、雲資料備份及副本資料管理(CDM)列為未來幾年的資料保護的行業發展趨勢。Gartner 對副本資料的管理的基本定義為:基于應用一緻性的主存儲快照在輔助存儲上生成“Golden Image”,并利用其進行備份,容災及測試,而且異構存儲作為能力的基本條件。阿裡雲的 ESSD 的進階快照服務特性完全滿足建構 CDM 的條件,幫助使用者實作雲上副本資料管理的原生資料保護典型場景:

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

備份恢複:極速型備份及标準型備份相結合,提供近密遠疏的備份可恢複點。基于雲上的 ECS 執行個體的整機保護及 K8S 環境的容器應用,定期建立極速可用快照。在啟用一緻性組快照特性及極速可用特性後,本地即時快照的生成間隔可以到秒級。快照即時副本本地保留,成為極速型備份,用于秒級 IO 性能無損恢複。周期性基于上層的企業應用生成整機應用一緻性快照。本地快照副本同時通過網絡上傳到對象存儲 OSS 上作為标準型備份。标準型備份在完成備份資料上傳後,本地域全可用區可見,适合保留時間長的曆史資料。

容災測試:基于極速型備份的容災測試。副本資料管理中要求對災備環境定期測試。定期的測試可以提高災備環境的可靠性,避免配置問題和環境變更問題使得真的災難發生時,容災切換無法正确完成,進而導緻業務無法快速進行容災系統恢複。基于本地快照副本的極速克隆技術,災備執行個體及拉起容器應用,周期性進行挂載及備份資料測試驗證。傳統基于複制技術的方案,需要等待快照在災備端複制可用後才能進行測試演練。而采取極速型備份方式後,實作災備端的秒級克隆,秒級挂載及秒級啟動測試。

副本利用:基于極速型備份的資料分析。在不影響生産環境的情況下,災備環境下基于極速克隆技術,進行容器應用的定時拉起,對副本進行大資料計算及分析,挖掘資料價值。副本利用在實踐中也展現在 MySQL 資料庫應用基于極速型備份進行隻讀備庫的即時拉起,進行離線資料分析。

容災切換:業務從生産環境切到災備環境。當生産發生較大災難時,短時間無法恢複業務,生産無法繼續,将業務從生成中心切換到災備中心;在生産中心業務恢複後,再将業務進行容災切回。

相比于傳統的副本資料管理 CDM 方案,雲計算環境及雲原生環境擁有大規模彈性的同構的計算環境,企業使用者不必進行裝置資源及軟體投入;極速型備份及極速型克隆技術極大地降低了副本開發、測試及容災切換的恢複時間點目标 RTO;雲上快照服務的統一的備份資料格式降低了各種管理流程中所需的副本數量,消除了備份軟體之間資料格式相容性問題。

技術原理

我們對分布式快照算法和實作進行了大量優化,讓使用者可以抛開影響性能的顧慮,随時進行輕量、實時的資料保護。“輕”: 在快照建立期間不影響 IO 讀寫性能。“快”:ESSD 雲盤快照可以在秒級建立、秒級復原和秒級克隆-極速可用特性,滿足使用者實時資料保護和 DevOps 快速編排上的需要。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

極速可用特性

具有極速可用特性的快照服務,不僅能夠進行資料備份、合規場景及長期歸檔業務,而且雲盤資料可以一鍵備份到阿裡雲的對象存儲服務(Object Storage Service)上,與秒級間隔的本地快照副本保留形成近密遠疏的快照保護政策,實作快照輕量建立,實時可用的極速克隆,秒級無損復原的進階特性。

極速克隆:在隔離于生産的跨可用區的容災環境,快照克隆新盤實作可寫快照,應用測試驗證及業務恢複準備;消除雲上業務壓力,實作業務橫向擴容。比如 MySQL 資料庫應用的橫向擴容、備庫搭建,執行個體建立及讀寫分離的都需要秒級拉起,極速克隆通過延遲加載技術實作本地快照副本的本地域内及跨叢集的秒級資料可用,迅速克隆新盤,實作執行個體秒級拉起。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

秒級復原:本地快照副本資料與雲盤本地存儲,實作秒級 IO 無損復原恢複。快照生成過程基于改進型的 ROW 技術及全息索引技術,随着寫入 ESSD 的雲盤資料塊變化,依據 ESSD 雲盤 IO 性能讀取的最佳模式進行雲盤讀取性能的優化。無需從遠端對象存儲上拉取資料,達到秒級復原 IO 性能無損。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

在雲盤建立多個極速可用快照後及發起復原後的測試條件下,雲盤性能讀取性能基本無變化。某友商的雲盤在保留多個本地快照後,IO 讀取性能出現不同程度的延遲抖動。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

一緻性組快照

容器環境及 ECS 執行個體需要保護關聯多盤的有狀态應用。單盤快照的最大問題是:有狀态應用基于跨多雲盤LVM、Windows 動态盤及檔案系統作為持久化存儲,單雲盤快照資料備份錯誤;資料庫應用既兼顧性能又兼顧資料安全性,将日志檔案 WAL 與資料檔案分别位于不用的儲存設備,無法定期進行系統整機備份及容災。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

除了 K8S下的 POD 内有狀态應用的部署及單 ECS 執行個體部署方式外,雲環境下還存在着分布式應用的部署架構、應用高可用叢集如:Windows Failover Cluster、主備應用伺服器高可用架構、Oracle RAC 基于共享存儲的應用架構,而這些分布式架構同樣需要跨雲盤及跨節點的資料一緻性保護要求。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

雲計算存儲後端往往采用分布式存儲架構。在分布式環境下缺少全局邏輯時鐘,這就使得實作單 ECS 執行個體及跨 ECS 執行個體,K8S 環境下的單 POD 及跨節點的多雲盤的一緻性組快照不是件容易的事情。要實作快照對 IO 性能影響最低更是富有技術挑戰性的。業界針對多盤崩潰一緻性快照的實作技術主要分為兩大類:

  • 采取快照期間阻塞寫 IO 的方式,實作基于時間點的跨多盤資料崩潰一緻性
  • 采取邏輯時鐘的定序算法,但依賴于分布式存儲實作,實作難度較高。

一緻性組快照采取第二種方式,追求快照對 IO 性能無損,實作快照對應用性能影響到最小

實作原理:采取基于 IO 定序算法,快照建立無需寫 IO 阻塞。很多使用者擔心建立快照影響 IO 性能,隻在業務低谷期才進行快照資料保護。我們優化提升的多盤一緻性組快照算法打破了人們對快照 IO 影響印象,基于寫順序保序機制,主動按照寫 IO 到達底層存儲的順序,采取 IO 打标及定序過程。基于快照完成時刻點及 IO 定序來确定快照中應該包含的 IO 資料集合。由于快照定序過程相對于傳統的方式,不會阻止 IO 寫入過程;相比于傳統的寫時拷貝 COW 方式,快照生成過程采取寫時重定向 ROW 的寫入方式,背景資料集合引用生成過程對 IO 鍊路無影響,降低快照對 IO 性能的影響最小,對資料庫業務的讀寫場景實作了 IO 性能無損。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

對資料庫應用使用 2 塊盤, 2 個用戶端,容量為 4TB,随機寫,iodepth=16,jobs=1, 寫入塊大小 16KB 的測試資料庫高 IOPS 場景中,快照建立過程中對 IO 影響測試,友商1及友商2的快照建立過程中對 IO 的性能影響幾乎增加了 1 到 3 倍。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

應用一緻性快照

ESSD 雲盤快照資料的一緻性類型主要分為崩潰一緻性和應用一緻性。崩潰一緻性要求檔案系統及應用程式具有當機恢複能力,其特點是恢複點目标 RPO 低,業務影響小。但在以下場景無法滿足資料備份可靠性高及秒級恢複時間點目标 RTO:

  • 原子性缺陷風險:檔案系統及資料庫應用實作事務原子性的實作具有一定的難度,可能存在缺陷。系統頂級會議 USENIX 上發表的《All File Systems Are Not Created Equal》一文闡釋了應用程式及核心保證原子性可能存在實作缺陷。
  • 資料丢失風險:主流檔案系統預設以性能優先方式工作,崩潰一緻性備份存在資料丢失風險。 Linux 上 ext4 檔案系統預設資料寫入模式為 ordered 模式,檔案系統校驗修複過程存在資料丢失風險;資料庫應用配置為性能優先,業務資料有丢失風險。
  • 生成時間長及影響大:傳統檔案級實體備份方式及備份代理方式依賴于邏輯卷快照的生成,耗時長及系統影響大。備份代理需要安裝核心驅動,相容性差及維護成本高;檔案備份過程需要讀取資料,耗費系統 CPU 及 IO 資源。應用一緻性快照僅在生成一緻性時間點與應用互通,無增量資料生成及備份讀寫操作。

實作原理:與傳統備份方式相比,應用一緻性快照對使用者的價值在于提供雲原生的無代理應用一緻性快照,簡化了客戶使用傳統備份方式所産生的:資源消耗,釋出複雜性、軟體相容性,核心開發,軟體維護的成本。采取跨平台插件與專有一緻性元件相結合的方式,基于檔案系統核心及 Windows 上的 VSS 機制實作快照期間 IO 及應用事務的資料靜默,達到企業應用程式在存儲快照中的資料一緻性要求。所采取的生成協定基于影響時長自動恢複 IO 影響,快照一緻性類型取決于建立協定送出結果及應用狀态,優化從上層應用到底層存儲的鍊路長度及一緻性元件性能,将 IO 影響時長降低到秒級。建立頻率間隔可根據業務要求做到檔案系統一緻性秒級完成建立及分鐘級應用一緻性快照間隔。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

從崩潰一緻性到應用一緻性,從單盤一緻性快照到多雲盤組快照的一緻性,ESSD 快照的一緻性分類實作完全對标業界塊存儲公有雲全類型的快照一緻性分類。從安全風險及應用支援可擴充性上與友商實作對比,實作的原生無代理快照的優勢:無常駐服務,無公網 IP 位址及端口開放風險,角色安全授權,無額外核心驅動參與;支援動态發現邏輯卷及企業應用。基于 ESSD 雲盤存儲快照,無代理備份,無需維護核心驅動,虛拟機内部無資料讀取搬運。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

通過實際對國内外主要雲廠商的快照建立時長及 IO 影響時長測試,基于 ESSD 系統盤及資料盤的 SQL Server 資料庫應用能夠實作秒級寫 IO 阻塞及分鐘級快照間隔,應用一緻性快照的建立時長比友商降低了 2 到 3 倍。應用一緻性的整機恢複,避免崩潰一緻性快照恢複時日志重放過程,進而提高了資料庫應用的啟動速度。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

業界功能對比

與業界公有雲其它友商的快照特性橫向對比,ESSD 雲盤是目前唯一個全面支援快照極速可用特性及一緻性組快照的雲廠商,滿足企業核心應用上雲的資料保護場景對快照 RTO 及 RPO 的要求。

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望
【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

未來展望

【ESSD技術解讀-01】 雲原生時代,阿裡雲塊存儲 ESSD 快照服務如何被企業級資料保護所內建?原生業務新需求典型場景技術原理未來展望

資料保護不是亡羊補牢而應未雨綢缪。随着雲原生技術的蓬勃發展,特别是容器技術的演進,企業使用者對雲上保護的恢複點目标 RPO 及恢複時間點目标 RTO 的要求越來越高。後續,我們也将基于 ESSD 雲盤推出更多新功能,比如:高密快照、連續資料保護,基于多 ECS 執行個體的應用一緻性保護能力,繼續為使用者提供快照特性的“輕”、“快”及“彈”的特性品質,降低企業資料保護的 RTO 及 RPO,提供更多原生快照服務進階特性,助力企業資料保護。

原創作品:阿裡雲存儲 凡鈞

系列文章傳遞門:

【ESSD技術解讀-總篇】 雲上企業級存儲——打開存儲新次元,促進使用者核心業務創新

https://developer.aliyun.com/article/793534?spm=a2c6h.13148508.0.0.73b34f0eS1PElF