天天看點

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

作者:雲布道師
阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察
2023 年 3 月 22 日,【全新更新 阿裡雲 ECS CloudOps 2.0 來啦】釋出會正式播出,本次釋出會上阿裡雲宣布 CloudOps(雲上自動化運維)套件全新更新,并釋出了 CloudOps 雲上自動化運維白皮書 2.0 版本。阿裡雲彈性計算進階産品專家馬小婷在本次直播中帶來了《新品介紹:ECS 使用成熟度評估與洞察(ECS Insight)》的主題分享,本文根據其演講内容整理而成。

ECS 使用成熟度評估與洞察,簡稱 ECS Insight。顧名思義,是對使用者使用 ECS 的情況進行分析和評估,然後給出評估後的優化建議。

“ECS 成熟度評估與洞察”基于使用者的 ECS 多元度使用資料,從基礎能力、成本管理、自動化、可靠性、彈性和安全性六個次元幫助使用者分析定位潛在的運維風險,并推薦對應的解決方案與最佳實踐,全方位幫助企業使用者降本增效,提升業務連續性。

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

這個産品是一個資料驅動産品,它的目的是幫助 ECS 使用者能夠持續挖掘 ECS 上的業務風險,結合企業雲上運維的最佳實踐,進行持續優化,最終實作雲上業務的穩定永續。由于“ECS使用成熟度評估與洞察”的名稱比較長,後面我們統一簡稱為“ECS Insight”。

在 Cloud 白皮書 2.0 中,我們對 CloudOps 的定義給出了明确說明,即 CloudOps = DevOps x Cloud。因為我們發現 95% 的企業已經開始使用 DevOps 進行軟體開發和傳遞,但隻有不到 20% 的企業,真正發揮了雲本身的特性和優勢,去提升 DevOps 實踐的效率。比如雲天然具備高彈性的特性,以及标準化的自服務能力。與此同時,随着 FinOps、DevSecOps 等概念的盛行,業務的安全性和成本也是 DevOps 落地過程中不可忽略的重要部分。

在這些背景下,我們提出了 CloudOps 的概念以及它包含的五個次元,即成本洞察(Cost)、自動化能力(Automation)、可靠性能力(Reliability)、彈性能力(Elasticity)和安全性能力(Security),五個次元簡稱為CARES。

這也意味着,如果使用者在使用 DevOps 縮短開發周期、提升業務效率的同時,同時希望讓業務保持穩定、安全、可靠,且低成本的持續營運,我們就可以從這五個方面入手,進行持續的完善。這與我們希望使用者能夠提升 CloudOps 成熟度的出發點不謀而合。

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

接下來讓我們看看 CloudOps 和 ECS Insight 之間的關系,上圖展示了三部分的内容。

最底層是 IaaS 層的基礎能力,它包含平台側的基礎能力,比如各種計算形态、鏡像等服務和使用者側的原子能力,包括資源分組管理,以及 Guest OS 的個性化配置管理。這些是所有 IaaS 服務必須提供的能力。

在中間部分,是阿裡雲提供的 CloudOps 的産品能力。對于 CloudOps 定義的 CARES 五個次元,在每個垂直領域,阿裡雲都提供了對應的自動化和自服務工具,幫助使用者不斷提升該垂直領域的成熟度。每個次元的成熟度越高,意味着業務在該領域做的更好,整體業務更穩定、更可靠、更高效、更安全,成本效益更高。

比如在成本管理次元,阿裡雲目前提供了非常豐富的資源付費方式,包括包年、包月、按量預留執行個體、節省計劃等等,用來應對不同場景的需求。對于長期穩定的業務,我們推薦使用者采用包年/包月的方式進行購買,這樣能夠享受長周期優惠。

對于臨時測試的需求,我們推薦使用者采用按量購買的方式。雖然按量每個小時的單價略高,但它非常靈活,可以随時釋放。如果業務存在不同時段的臨時需求,且整個業務需求量不小的情況下,我們推薦使用者購買節省計劃進行抵扣。這樣既能享受到随時需要随時建立或釋放資源的靈活性,還能夠通過節省計劃按小時進行抵扣,降低整體的使用成本。

既然有這麼豐富的付費方式,在不同階段我們應該選擇什麼樣的付費方式進行組合,既能夠滿足不同業務場景的業務負載需求,還能降低整體的使用成本,持續保持超高成本效益的優勢?這需要使用者持續分析和營運。

那究竟該怎麼營運呢?基于這些問題,我們就推出了 CloudOps 的落地實踐,即 ECS 的使用成熟度評估與洞察。它基于使用者在 CloudOps 定義 CARES 五個次元的使用資料,對該次元的使用情況進行分析,然後提出對應的優化建議,幫助使用者持續完善該次元的不足之處,保障業務高效可用、穩定有序。整體來說,ECS Insight 是 CloudOps 定義的落地指南。

ECS Insight 詳細介紹

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

接下來,我将詳細介紹一下 ECS Insight 這個産品。首先,簡單了解一下 ECS Insight 的工作原理。

ECS Insight 是對使用者賬号下的所有 ECS 以及關聯資源的使用情況進行分析,包括 ECS 的分布情況,快照的使用情況,ECS、雲盤、帶寬、各個次元的使用率資料、以及 ECS 的費用分布等等。通過結合阿裡雲服務上萬家企業沉澱的雲上運維最佳實踐經驗,我們最終會給使用者産出兩個結果。

一是目前使用者在 CloudOps 多個次元的成熟度現狀。每個次元以百分制進行統計,采用扣分制,如果某項沒有滿足雲上推薦的最佳實踐,則扣除對應的分數。使用者可以檢視每個次元的評分項,對應的分值以及是否得分。這個評估結果的更新頻次是 T+1 天。這些使用者資料的分析來源,其實是非常豐富的。它不僅包含 ECS 的記錄檔、雲監控,還包含使用者去的資源管控行為等等。覆寫了使用者使用 ECS 的所有關鍵名額。

在 ECS 中,除了 CloudOps 定義的 CARES 五個次元以外,我們還增加了一個 ECS 基礎能力次元。因為我們發現,對于雲上 ECS 規模達到一定程度的企業使用者而言,ECS 對應的規格、可用區、地域分布、以及資源使用率都會影響到整個業務的連續性。是以我們增加了這一部分内容,作為 ECS 的補充。

二是,對于沒有得分項,ECS Insight 會明确辨別出存在風險的資源,并提供對應優化的最佳實踐指南。這些最佳實踐自于各個行業,中大型企業的經驗沉澱,是大家多年摸索和成長的積累,非常具有參考意義。

了解完 ECS 的工作原理之後,我們可以快速看一下 ECS 的産品頁面。目前,這個産品還處于測試階段。使用者通過申請後,就可以在 ECS 控制台,看到自己目前賬号下,ECS 成熟度評估的報告。

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

這個報告可以分成三部分,如上圖所示。

  • 第一部分是左側以雷達圖展示 ECS 使用成熟度評估現狀的全貌,從 ECS 的基礎能力和 CloudOps 的六個次元,對使用者目前使用 ECS 的情況進行全面評分,您可以看到總得分以及每個次元的分值。
  • 第二部分是頁面上方展示的每個次元的得分詳情以及該次元總得分,包括該次元一共包含了多少個評分項,多少項得分,多少項沒得分。雖然最終分值和成熟度的比對,不完全相關,比如 80 分以上表示進階,79 分是中級,但是,分數越高意味着業務在該次元存在的風險較少。目前,每個次元的評分項并不完善,分值配置設定仍有完善空間。我們後續将持續進行優化,歡迎大家提供回報建議。
  • 第三部分是頁面下方的評分項詳情。使用者可以經常看得分項或失分項。針對每個失分項,我們提供了失分的原因說明,以及如何進行優化的建議指南。對于非常具體的評分項,我們還會列舉具有風險的資源詳細資訊,包括資源 ID、可用區、IP 資訊等等,進而友善使用者快速定位出現問題的資源,并及時采取行動。

接下來,讓我們看一下 ECS 每個次元的産品能力,幫助大家對每個次元成熟度的提升方式有更直接的體驗。

首先看一下 ECS 的基礎能力

雖然 CloudOps 成熟度中,并沒有包含 ECS 的基礎能力,但它與公有雲本身的特性密切相關,會直接影響到雲上業務的連續性。是以我們增加了這個次元。

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

大家都知道,公有雲上的雲伺服器都是分為規格族和規格,比如通用型執行個體、計算型執行個體、記憶體型執行個體。随着晶片、硬體、伺服器的演進,執行個體規格族還在不斷的增加。阿裡雲目前提供的執行個體規格,已經超過了 300 種。上圖展示了,阿裡雲提供的不同場景的最新執行個體規格族,這個圖幾乎每年都會全部更新一輪。對于一些比較老的執行個體規格,比如經典網絡的執行個體,它不僅成本效益低,而且不支援部分新功能的特性,面臨較多的限制。是以我們推薦使用者需要跟随着執行個體規格的演進,持續的更新底層資源的規格,不僅能夠提升成本效益,還能夠保障業務的穩定性,一舉兩得。

此外,随着資源規模的增加,資源使用者的數量也會逐漸變多。不同使用者對于不同資源的使用權限不一樣。當資源規模達到一定程度後,如果我們不根據業務單元對資源進行分組和分權管理,不僅會面臨資源查找慢的問題,還會因為部分使用者權限過大,導緻誤操作等一系列嚴重後果。

面對這些痛點,ECS 的基礎能力從計算、存儲、網絡和賬号管理四個次元,評估 ECS 以及關聯資源的分布情況、使用情況是否合理,及時發現并識别業務在性能高、可用等次元存在的一些潛在風險,并提供對應的優化建議,為雲上業務的持續營運,提供指導方針。

總體來說,ECS 基礎能力的成熟度評估是,識别雲上資源管理最基本的分布,使用情況是否合理,進而避免單個資源的正常性風險。

第二部分是成本洞察能力

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

前面提到的 ECS 執行個體不僅規格繁多,還提供了非常豐富的付費方式。包括包年、包月、按量、搶占式執行個體、預留執行個體、節省計劃等等。上張展示了不同付費方式,适合的業務場景。如何根據業務的形态,選擇成本效益最高的付費方式?這非常考驗大家的算數能力。

同時,如果企業裡存在多個不同的團隊,出現一起使用雲資源的場景。如果我們不對資源的使用方或團隊進行準确的核算和分攤,會導緻大量的資源浪費。最終,導緻企業的雲上支出遠遠超出預期。這與企業想推進 FinOps 的初衷,背道而馳。如果我們采用一刀切的方式進行成本控制,勢必會影響部分業務的正常發展。如何根據資源的實際使用情況,進行準确識别,并且針對性的進行優化,最終實作成本優化與業務發展兩不誤是非常重要的。

面對這些問題,成本洞察能力從三個方面提供了分析和推薦。

  • 首先,我們需要幫助使用者識别一些閑置或低使用率的資源。推薦使用者使用雲上靈活的變配、停機、不計費等自服務能力,避免一些顯而易見的鋪張浪費。
  • 其次,我們推薦使用者使用類似于預留執行個體券、節省計劃等權益類産品。對一些臨時的按量資源進行抵扣,最終降低這一部分的使用成本。
  • 最後,我們推薦使用者借助标簽、财務單元、預算管理等工具,進行端到端的成本管理分析,持續優化成本支出,最終實作 FinOps 的落地。

整體來說,成本洞察能力的成熟度評估是,指導使用者更好地利用雲上靈活的付費方式和成本管理工具。在避免不必要的成本浪費的基礎上,端到端的進行成本的管理。

第三部分是自動化能力

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

不少人對于 DevOps 一直有個誤解,認為 DevOps 就是自動化。其實自動化隻是實踐的一種手段,而且是一個非常重要的手段。為什麼自動化如此重要呢?

因為受限于技術能力或業務發展階段的限制,不少企業的自動化能力目前都嚴重不足。不少企業靠人海戰術支撐,不僅響應周期長,而且容易出現失誤。同時,我們也觀察到部分使用者能通過腳本完成一些基礎的運維工作。但這部分腳本大多數是個人獨自維護,很難複用或形成規範。

上圖展示了,目前在自動化領域的演進方向和現狀。歐美企業在 IT 管理上的自動化的程度更高,主要是因為歐美企業的人工成本高。國内企業的自動化處于偏下水準,大量使用者依賴 UI 控制台、終端工具或腳本進行自動化。

面對這些問題,自動化能力的成熟度評估從三個層面上提供了分析和推薦。

最基礎的是,通過控制台或 open API 的方式,完成基礎的資源管控操作。這個能力大多數的使用者都能做到。

中級水準意味着使用者能夠借助自動化工具,完成 DevOps 中的基礎設施及其代碼、或運維及其代碼的自動化管理,提升類似于 CICD 等高頻管理場景的效率。

在阿裡雲上,使用者可以借助類似資源編排、雲助手運維編排等工具,完成應用的釋出和部署。它涉及資源傳遞申請、應用打包分發、以及應用灰階釋出等多個環節。

如果每個環節都能自動化,可以将整個應用的釋出周期從以前的 3~5 天,縮短到一個小時。如果需要達到更進階的水準,需要使用者組合使用多種自動化的服務和工具。并且形成标準化的運維流程和統一的配置管理平台,最終實作标準化和統一化的運維。

整體來說,自動化能力的成熟度反映了目前使用者在 ECS 管理運維上的自動化的水準。同時也為使用者提升自動化水準,提供了對應的路徑和工具。使用者借助這些自動化工具的使用,能夠更高效地解決日常運維的痛點。

第四部分是可靠性能力

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

講到可靠性,大家首先想到的是底層基礎設施的穩定性,比如 SLA。但是這裡存在一個大家都忽略的問題,即底層基礎設施的穩定性,隻要不是 100%,意味着不完全可靠。如果我們将業務的可用性寄希望于單個執行個體的穩定性是非常不可取的。如果從根源解決問題,應該加強應用建構,使它具備高可用的特性。

同時,在同一個企業裡,不同的業務團隊對穩定性的訴求不一樣。比如一些離線業務的大資料計算叢集,可能會要求晚上 12 點~7 點之間業務是不能中斷的。對于一些線上服務業務而言,它的高峰期可能是早上 9 點到晚上 10 點。在不影響業務可用性的情況下,多個部門對底層變更響應的協同成本實非常高。一旦出問題需要一些自動化的輔助工具,幫助從業人員快速排查和定位。

上圖展示了 ECS 可靠性的能力支撐,ECS 的可靠性主要來自兩部分。第一部分是,底層基礎設施的穩定性。第二部分是,ECS 内的穩定性。基礎設施的穩定性取決于公有雲的地域、可用區的分布、以及單個實體伺服器的穩定性。是以要實作初級的可靠性,我們需要将業務盡可能的分散在不同的實體機、不同的可用區進行部署,進而避免大規模故障的風險。

對于 ECS 内的穩定性,則需要借助高可用架構的保障。我們需要周期性的進行資料備份,需要實時監控執行個體的性能波動。當執行個體的性能出現異動時,我們需要快速的自動完成業務切換,提升業務本身和資料高可用的能力。

進階的可靠性則離不開更多元度的實時監控,故障演練、故障注入等工具的支援。這是一個更偏系統工程的建設,工具和能力隻是輔助手段,更重要的是多個不同團隊的協同。

整體來說,在可靠性的成熟度上,ECS Insight 從執行個體的穩定性、資料的可靠性、性能的可靠性、以及可觀測性四個次元進行評估。我們推薦使用者先要做到初級和中級的可靠性。目前這四個次元的衡量,基本上可以幫助使用者做到初級、中級和部分進階的可靠性。至于更進階的可靠性,則需要配合持續的演練才能達到。

第五部分是彈性能力

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

彈性能力是雲最基礎的優勢之一,按需取用按量付費是彈性的本質,也是雲的重要特性之一。相比于線下 IDC,對于臨時大規模的彈性需求,不僅傳遞周期長,還有可能因為預估不準,導緻資源準備不足,最終影響業務效果。對于存在峰谷波動的業務而言,如果提前擴容,會存在資源超配的情況,不僅前期投入高,而且存在大量的資源浪費。如果進行人工擴容,則存在反應慢,可能因為擴容不及時,導緻業務受損,最終影響使用者體驗。

是以如何利用雲上靈活的彈性能力,在滿足業務需求的同時,避免資源和成本的浪費是至關重要的。ECS Insight 的彈性能力從以下三個次元,為我們提供了指導。

最初級的方式是,通過控制台或 Open API 批量購買或釋放按量的 ECS 執行個體。這樣就能夠通過半人工的方式,滿足臨時的彈性需求。對于明确的彈性需求,ECS 建議使用彈性伸縮,實作資源跟随業務的波動,自動進行水準擴縮容。在提升業務高可用的同時,降低使用成本。

在這個基礎上,如果使用者有更複雜的業務需求。我們可以借助彈性伸縮的生命周期,挂鈎彈性強度評估以及執行個體規格範式的方式,提升業務的彈性、靈活性和韌性,最終實作全自動的、自适應的彈性資源管理,保障線上業務的連續性。

彈性能力是使用者判斷使用是否合适的,最直接的展現之一。彈性能力的成熟度評估,則反映了使用者對雲的使用深度。用好了彈性,在某種程度上可以說使用者也就用好了雲的一半。

最後一部分是安全性能力

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

安全問題是一個很難證明、也很難證僞的問題。安全防護不容易直接看到效果,不少企業都存在僥幸心理。一旦安全防護沒有做到位,後果也非常嚴重,輕則業務臨時不可用,重則核心資料丢失,損失巨大。基于這個事實,我們觀察到不少企業客戶的安全意識嚴重不足。包括對關鍵業務的關鍵資料缺少防護意識,導緻執行個體被攻擊後,重要的資料被删除,無法找回。

雲上安全能力的建構是一個責任共擔模式,它需要雲廠商和使用者一起進行建構。雲廠商負責對底層基礎設施的安全性進行保障,包括雲伺服器鏡像、支撐雲伺服器、鏡像底層的軟硬體服務。除此之外,還包括各個地域和可用區的伺服器、網絡裝置、儲存設備等安全性,以及虛拟化系統的安全性。使用者則需要對語音伺服器 ECS 上的作業系統、作業系統裡的應用資料、以及應用業務架構的安全性負責。包括環境變量配置,軟體應用,資料安全,安全合規等等。如果使用者自身不做任何安全防護和措施,完全依賴底層基礎設施的安全性,相當于在裸奔。

除了安全意識不足,使用者在安全實踐的落地層面,也面臨門檻高的問題,包括明确制定安全規範,及時掃描并發現不符合安全規範的安全問題等等。在這個次元上,ECS Insight 從通路安全、資料安全和應用安全三個次元為使用者提供了明确的提升路徑。

  • 通路安全關注的是,資源的通路權限和通路審計的問題,包括設定更安全的執行個體登入方式,為執行個體通路提供登入審計、防止未授權的通路等等。
  • 資料安全是不少使用者面臨的問題,與線下機房不同的是,雲上資料一旦被删除是無法找回的。是以,養成定期備份重要資料或對高敏資料進行加密,能夠大大提升資料的安全性。
  • 應用安全性則是業務持續運作的終極目标,應用安全的保障在通路安全、資料安全的基礎上,需要持續的完善應用本身的代碼的安全性。以及通過類似 WAF、DDOS 等安全防護能力進行保障。

整體來說,安全無小事,業務的安全性需要雲廠商和使用者共同建立。在體系化的建構業務安全時,我們需要從通路安全、資料安全和應用安全等多個次元進行綜合考慮。

總結與展望

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

綜上所述,ECS Insight 産品和 CloudOps 一脈相承。它從 CloudOps 定義的 CARES 五個次元,對使用者使用 ECS 的情況進行全面的分析和評估。結合雲廠商的最佳實踐,識别各個次元中存在的可優化點,并提供對應的建議來幫助使用者進行持續優化。目前,每個緯度下的能力評估和準确度不夠完美。是以在新一年裡,ECS Insight 會持續在兩個方向進行優化。

  • 一方面,我們會持續優化并提升 CloudOps CARES 五大次元評分的準确度,讓每個次元的評分能更準确地反映使用者的實際情況。這個能力的完善離不開采集更多的 ECS 名額和使用資料,離不開使用者對阿裡雲的信任和支援。
  • 另一方面,我們将持續完善 CloudOps 的自服務能力,為使用者在雲上進行 DevOps 的實踐提供更全面、更智能、更自動化的能力支撐,幫助使用者充分利用于本身的優勢,助力其業務高品質的傳遞和安全穩定的運作。

點選文末“閱讀原文”回看精彩直播,關注雲布道師公衆号回複“CloudOps”關鍵詞,即刻閱讀下載下傳《CloudOps 雲上自動化運維白皮書 2.0》。

阿裡雲彈性計算進階産品專家馬小婷:ECS 使用成熟度評估與洞察

繼續閱讀