12月10日,2021雲上架構與運維峰會上,阿裡雲釋出了業界首部《雲上自動化運維白皮書》(簡稱“CloudOps白皮書”),并在其中提出了CloudOps成熟度模型。
阿裡雲資深技術專家、彈性計算體驗與控制系統負責人田濤濤在會上進行了《CloudOps:自動化運維的新思路》的演講,闡述他對未來雲上運維與DevOps發展趨勢的看法。以下是他的演講實錄:

雲與DevOps需要更加緊密地結合
◾ DevOps的新趨勢
DevOps從提出到廣泛使用已經超過10年了,近幾年,我們能看到DevOps的一些趨勢:
1、DevOps的範圍和内容随着公共雲平台的興起有了非常大的變化,不再需要像傳統運維一樣自行管理基礎設施,術業有專攻,DevOps和SRE使企業能夠以更高的變化率建構和釋出應用程式。
2、随着微服務改造和服務治理的深入以及雲原生理念的深入,我們看到了垂直化和規範化帶來的好處是快速傳遞,越來越多的企業架構有着服務化的設計,意味着服務的主題從内部延伸到更大的範圍,這樣應用數量激增無疑給運維帶來了前所未有的挑戰,在極度複雜的網狀應用結構下,可觀測性的實時性和準确性是個巨大的挑戰,同時因為某些不受關注的應用産生了遠大于預期的爆炸半徑。
3、過去的幾年,自動化已經是DevOps中最重要的政策,但是随着企業應用的變化和越來越快、越來越靈活的組織和應用傳遞形态,包括從傳統的單體或者産品思路,到今天的開放化背景下,API化和AS Service化對自動化的要求更加迫切。
開放性帶了巨大挑戰,從之前的點對點支援,到了單點的一個基礎設施平台需要對接衆多的内外的客戶,各團隊能夠獨立、快速地排查出問題将使得組織更靈活,是以自助服務已經成為一個重要的趨勢,隻有自助化服務才能實作服務邊際成本充分的降低。而自助服務能力恰好也是雲計算最重要的能力。
◾ 雲可以進一步發揮DevOps的優勢
上述三個DevOps所面臨的趨勢和挑戰,都可以通過充分利用雲,得到很好的回應與解決。如何解決我們先按下不表,但這也許并非是一種巧合,因為DevOps和雲計算有非常多的共同點。
DevOps帶來的主要優點是降低成本、提升傳遞的效率、提升靈活性、提升傳遞品質的可靠性四大方面。在這四個方面雲計算也具有非常大的優勢。
l 降低成本: DevOps可以減少組織之間的溝通協作成本,提升自動化程度;而雲能幫助降低企業的硬體采購支援和基礎資源運維的投入,同時提供更多更友善的選型形态。
l 提升傳遞速度: DevOps的靈活組織和自動化建構可以極大提升傳遞速度,對于應用需要的大量資源,雲平台就是一個巨大的資源池,可以按需建立釋放,通過結合雲和DevOps可以極大的提升從資源到應用的建構速度。
l 提升靈活性: DevOps文化天然在靈活性上有着巨大的優勢,讓企業營運人員更加關注業務創新,而雲計算能夠快速自助的傳遞資源适應營運的需求。
l 增強系統的可靠性: 通過系統建設以及标準化和工具化建設,DevOps對于系統可靠性的幫助是巨大的, 通過工具和平台建設避免和降低人為問題和故障,同時高效的組織融合可以減少内部的不必要溝通。而雲平台的首要責任就是可靠性和可用性,雲天然提供了高可用的基礎設施,以及工具和服務化能力,可以大大降低系統成本,建立更具彈性、安全性和标準化的系統。
DevOps和雲的助力企業更好的實作降本增效。
◾ DevOps進化的下一站:CloudOps
從傳統的研發到運維的模式到DevOps,極大改善了從組織文化到應用傳遞部署的效率,對于系統傳遞和運維是巨大的進步,友善企業更加專注業務創新。
如今,随着越來越多的企業使用了雲資源,将基礎設施的運維責任主體委托給了雲廠商,我們認為一個新的時代已經到來,就是以雲為中心的DevOps,将重新定義DevOps。通過充分的結合雲計算和DevOps的優勢和能力,我們定義了一個新的詞彙:CloudOps,着重強調如何在雲平台上更好的踐行DevOps,再次實作運維的進化。
CloudOps是傳統IT運維和DevOps的延展,通過雲原生架構實作運維的再進化,充分幫助企業降低IT運維成本、提升傳遞速度和系統靈活靈活度、增強系統可靠性,建構更加安全可信開放的業務平台。
CloudOps成熟度模型
報告顯示,目前幾乎所有企業都十分認可公共雲帶來的産品和服務和能力,并且大部分的企業已經在公共雲中使用DevOps,但是,隻有很少一部分的企業認為自己真的發揮了雲的潛力。
我們認為,雲需要正确管理才能實作最佳性能與收益,為此,雲也提供了大量的自動化和自助服務能力幫助企業,在實踐CloudOps的過程中,我們需要思考下面的問題:
1、雲提供了大量的自動化工具和自助服務能力,如何更好地使用這些工具來實作自動化?
2、雲平台天然提供了足夠的彈性能力,如何利用彈性能力?
3、雲上的高可靠性和可用性應該如何來實作?
4、雲上的網絡管理和安全和可審計能力挑戰遠大于線下,應該如何管理?
5、雲資源如果不做好成本管理、門檻值設計和資源量化管理将帶來巨大的浪費,應該如何優化?
結合上面提到的幾個部分的挑戰。我們歸納CloudOps的5個建設與衡量次元:
◾ 自動化能力
DevOps最核心的一個能力是自動化能力,同樣,自動化能力是雲最核心的能力,為了提升自動化能力和可程式設計能力,雲平台暴露了大量的開放API,同時也提供了大量的自動化産品和能力。借助于雲平台的提供的自動化能力,企業可以減少尋找更多的DevOps專家,充分的使用雲平台的自動化能力。
雲平台提供的主要的自動化能力包括3大部分:
首先是Infrastructure as Code能力,借助于IaC工具和開放的OpenAPI可以快速自動化的實作重複部署和部署腳本的版本化管理,盡量使用标準化的政策減少環境差異,同時實作應用傳遞和操作審計。為了更好的支援自動化,阿裡雲也建構了類似資源編排、Terrform等多種形态來編排基礎資源。
完成了基礎資源和應用傳遞之後,日常運維主要是對存量資源進行操作。随着越來越多的任務使用自動化模式,運維任務複雜度越來越大,需要将複雜的任務解構,通過組合更多的原子性任務完成運維自動化,越來越多的企業開始使用Pipeline(Ops) as Code的能力。通過将執行任務的上下文清晰梳理和可視化依賴關系;讓各個Job單元原子化,可以高效的完成單元任務并降低單個任務的複雜度;通過任務抽象進行功能的維護和擴充。
除了前面提到的基礎設施自動化和基礎資源的自動化運維,雲平台将大量的資源可程式設計化,通過OpenAPI暴露了大量的其他輔助能力對資源全生命周期管理。但是随着業務系統的複雜度提升,平台需要暴露更多的能力,例如通過事件體系将底層資源的變化實時發送出來,提升透明度;通過監控體系暴露出來更多的metrics;在應用出現問題之後,通過簡單的自助診斷服務可以簡化問題發現時間,借助于我們的管控運維通道雲助手甚至可以一鍵修複問題。
彈性能力是雲計算的最重要的能力之一,通過超大規模的資源池配置能力,快速實作分鐘級的資源需求供給,滿足不同規模場景的彈性需求,借助于靈活的彈性能力可以充分的幫助企業降低成本、提升可用性。在雲上使用彈性能力可以整體提升企業業務的靈活性和穩定性。
◾ 彈性能力
彈性能力按照業務需求可以分為2個方向,一個是垂直的彈性能力,一個是水準的彈性能力。
垂直彈性适合于應用不太能水準擴容的場景,常見的如單體應用、獨立應用、有狀态應用的場景下,需要快速更新或降低配置以應對業務變化。
水準彈性比較适合于分布式應用、無狀态應用,通過控制台、API和我們的自動化工具可以實作分鐘級的擴容數千台計算資源。
為了降低使用彈性伸縮的成本。彈性伸縮支援通過設定不同模式來自動化實作資源的彈性伸縮,甚至根據曆史記錄智能預測資源需求量。
◾ 可靠性能力
雲平台提供了從資料中心、硬體、資料、自助服務等多個層次的可靠性建構能力。
雲計算的超大規模的資料中心,以及多可用區支援,讓使用者可用基于雲以低成本、高擴充、高可靠性快速的建構同城容災、異地容災等高可用方案,規劃和部署應用時需要優先做好容災架構的設計和部署,提升可靠性。
在資料可靠性上,雲平台的規模紅利也有天然的優勢。這不僅展現在存儲的多副本和資料可靠性極高的SLA保障上,雲平台還以服務化的方式向使用者暴露了OpenAPI,使用者可利用雲廠商提供的快照、鏡像等能力,實作資料備份容災的高可靠性能力建設。
可觀測性能力最近幾年是DevOps中非常受關注的特點,為了支援不同層次的使用者需求,雲平台通常會提供以下幾大類監控服務能力:雲資源監控、應用層APM、使用者業務層監控。
除了在基礎設施、資料上的容錯能力外,雲服務廠商通常也會提供應用服務的容錯能力,幫助使用者建構具備彈性、容錯能力的分布式系統。例如通過安全組采用一些斷網演練通過AHAS(Application High Availability Service),可以通過流量防護、故障演練、多活容災、開關預案等實作應用的自動化流量控制、業務降級與預案執行。
◾ 安全與合規能力
根據Flexera 2021 state of cloud report ,81%的企業最關心的是雲上安全,排第一位,75%的企業非常關注雲上合規。是以安全和合規是雲上重中之重的話題。
雲平台提供了衆多政策、控制和技術,共同幫助使用者確定資料、基礎設施和應用安全,保護雲計算環境免受外部和内部網絡安全威脅和漏洞的影響。
安全合規能力上,雲平台負責基礎設施和産品安全可信可審計,包括身份和通路控制和管理、監控和營運,進而為客戶提供高可用和高安全的雲服務。客戶需要适當的配置和利用平台和産品的能力,建構自己的雲上應用。
網絡是所有雲服務的唯一入口,網絡攻擊是種類最多、危害最大,也是最難防護的風險之一。雲計算平台會提供一套成熟的網絡安全架構,以應對來自網際網路的各種威脅。可以通過安全組、子網ACL以及路由政策來保障内網之間的通訊和隔離,通過雲安全中心提供的雲防火牆應用防火牆、DDOS防護等保障系統的網絡安全能力。
操作審計和追蹤是安全生命周期的重要組成部分,可以識别潛在安全配置錯誤、威脅或意外行為,也用于支援品質流程、法律或合規義務,還可以用于威脅識别和響應工作。通過類似日志審計服務提供了審計和更改跟蹤功能,友善快速追溯變更範圍和源頭。
傳統的運維通道需要借助SSH取得密鑰進行管理,并開放相應的網絡端口,密鑰管理不當以及網絡端口暴露都會對雲上資源帶來很大的安全隐患。原生的阿裡雲雲上自動化運維通道——雲助手,可以幫助客戶安全、高效的運維雲上資源。
◾ 成本與資源量化管理
雲服務相比IDC的最大特點之一是使用資源而非持有資産。在雲上不僅可以快速的建立和釋放資源,相比IDC也可大大的降低使用成本。同樣根據Flexera 2021 state of cloud report,雲上客戶第二關注的就是雲上成本支出和管理。
以雲伺服器為例,它的資源成本主要由計算、存儲、網絡三大部分構成。在雲上,計費方式直接決定資源的定價,選擇合适的計費方式可以直接節省成本。如相比使用按量計費,選擇搶占式執行個體最高可節省90%的成本;同時,不同産品提供豐富的規格和計費方式,選擇合适的規格能有效的降低資源成本;同樣通過提升資源的使用率也能夠比較大的節省開支。
為了實作成本優化和資源量化,我們也提供了一系列的産品,從成本分析、資源優化、資源規格、資源使用洞察和自動化工具可以充分的幫助企業降低不必要的雲上資源支出。
◾ CloudOps成熟的模型全景
雲上運維是一個從簡單到複雜,從成長到成熟的過程管理,以降低成本提高效率為核心目标。在現實中,根據使用者的上雲狀态、使用規模等,其雲上運維的思路都不盡相同。我們結合常用的成熟度的模型将CloudOps的成熟度模型分為5個等級。
為了友善大家更好的了解和應用剛剛我所闡述的成熟度模型的詳細内容,我們制作了雲上自動化運維(CloudOps) 白皮書的第一版,大家可以在這本《雲上自動化運維(CloudOps) 白皮書》中看到完整内容。
雲平台的責任是建構堅實可靠的基礎設施,以及圍繞着技術設施建構的全套運維服務和能力(其中絕大部分都是免費的)。除非企業願意将自己做成雲平台,否則在這上面的投資都是某種程度的浪費。
今天,我們一直強調唯快不破,軟體研發到傳遞正在發生劇烈的變化。從單體巨石應用到分布式和微服務架構,從自動化到可觀測性,傳統的運維需要進化到新的思路,企業應該是更少地關注基礎設施和基礎資源,更多的回歸到應用本身。
我們相信,擁抱雲原生的企業,将用新的工具與思路快速完成應用的開發與運維,需要雲平台與企業一起共建、持續進化,應雲而生、應運而生。