天天看點

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

CloudOps:以應用為中心的自動化運維新趨勢。

12月21日,在阿裡雲彈性計算年度峰會上,阿裡雲彈性計算體驗與控制系統負責人田濤濤發表了主題為《高效智能的雲,CloudOps讓運維更簡單》的演講,深度解讀了雲上運維新趨勢CloudOps,并詳細介紹了阿裡雲CloudOps自動化運維套件的新産品。

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

阿裡雲彈性計算體驗與控制系統負責人田濤濤

本文主要根據田濤濤的演講整理成文,内容分為三部分:

  1. 從Ops in Cloud 到CloudOps;
  2. 以應用為中心的自動化運維;
  3. CloudOps(雲上自動化運維)白皮書釋出。

01  從Ops in Cloud 到CloudOps

1、DevOps落地實踐的痛點

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

DevOps從提出到現在已經有12年了,很多企業已經開始踐行DevOps,并且取得了非常好的成功。但是,企業在DevOps落地實踐過程中遇到了不同的挑戰:

◾ DevOps轉型前:很多企業會發現缺乏DevOps專家;DevOps的投入初期非常重,需要組織變革與調整;内部工具能力弱,随着業務發展,很多DevOps工具已經不能夠滿足企業的需求。

◾ DevOps實踐過程中,關注點會發生轉移:組織效能方面,更加關注如何實作高效靈活地傳遞;在架構設計方面,關注如何理清架構之間的依賴關系,快速地傳遞應用,做異地或者多活遷移;自助服務方面,越來越多的企業選擇使用自助服務,根據Gartner《中國DevOps調查研究報告(2021年)》,到2025年會有75%大企業将自助服務看作DevOps應用最重要的趨勢。

◾ DevOps演進趨勢上,越來越多的DevOps企業都選擇了使用智能化的決策能力,包括評估DevOps能力成熟度。

2、DevOps in Cloud 趨勢

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

結合企業上雲的趨勢,越來越多的企業已經開始在公共雲上使用DevOps,這個過程中需要做應用的雲化改造和适配,同時結合雲原生的工具和任務流程編排,提升傳遞的效率。

在進行雲上DevOps的實踐過程中,很多的企業完成了微服務架構的改造和分布式應用的更新,同時服務治理也越來越成熟,但這個構成帶來的應用激增和依賴複雜度提升也為企業應用的可觀察性和系統的穩定性帶來極大的挑戰。

在DevOps的雲上轉型過程中,很多企業也給自己的巨石應用做了服務化的改造。并且幾乎所有的企業都認為,開放的API和As-Service是企業開放和服務化的核心競争力。

3、雲上運維新趨勢CloudOps

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

基于以上這些DevOps在雲上的趨勢,阿裡雲彈性計算定義了CloudOps的模型,結合DevOps和雲的雙重優勢可以從成本、傳遞速度、靈活性和系統可靠性四個次元來看:

◾ 降低成本:DevOps通過組織效能的變革、數字化工具的建設,可以大大降低成本,而雲可以通過按需資源彈性以及多種資源選型和付費方式來降低資源和人力的成本。

◾ 傳遞效率:DevOps可以實作CI/CD,而雲可以實作秒級或者分鐘級的資源傳遞。

◾ 靈活性上:使用者對于應用的研發上線周期提出了更高的要求,比如7天傳遞一個APP,從0到上線至應用商店;而雲同樣可以幫助客戶完成多種多樣的基礎設施的資源快速傳遞。

◾ 可靠性上:DevOps踐行了自動化的理念,而雲天然提供了基礎設施的高可用。

從應用高可用,到技術資源高可用,以及系統的監控和洞察能力,DevOps和雲是一個非常好的組合,是以在雲上提出了一個新概念CloudOps,充分結合雲和DevOps的優點,實作1+1>2的效果。

02  以應用為中心的自動化運維

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單
阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

CloudOps的核心理念是以應用為中心,因為隻有應用才是客戶最關注的。

一個應用從建構到傳遞的整個生命周期中,客戶的關注點會發生變化:首先是應用的建構傳遞,如何實作自動靈活傳遞;傳遞完成後,客戶會關注系統的可靠性;一個可以快速提升可用性的政策就是彈性,結合彈性以及高可用方案來完成系統架構的更新;随着應用的線上,客戶也逐漸關注應用釋出後的安全合規和審計工作;而當應用的規模變得更大時,客戶就會關注成本,完成一個持續的疊代和更新完善的循環過程。

1、應用自動化三部曲

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

自動化是系統更新改造的基礎,應用實作自動化包括幾個大的部分,其中最主要的是:基礎設施的自動化、運維自動化、服務自動化。

1. 基礎設施自動化:在過去一年時間裡,阿裡雲釋出了非常多的産品來簡化基礎設施自動化。很多公司和企業開始實作自動化,但是它的問題是自動化模闆基于客戶完成運作的,今天阿裡雲可以讓這些模闆不做任何修改,直接交給我們的引擎就可以執行。同時,越來越多的企業不太願意使用JSON或者YAML來定義自己的基礎設施,而我們今天釋出的新産品ROS CDK可以很好地解決這個問題。

此外,為了簡化自動化的傳遞,還提供了資源遷移工具、鏡像的自動化建構功能,客戶可以像建構一個容器鏡像一樣建構一個ECS的鏡像。同時,我們會定義鏡像族系,讓使用者永遠像使用容器鏡像一樣可以自動選擇最新的版本,而不需要更新配置檔案。

2. 運維自動化方面:我們的運維編排OOS開放了任務市場,把積累的非常多的最佳實踐和工具免費釋出在任務市場中,使用者可以去內建使用;同時,為了建構友善的關聯多種應用,我們也釋出了應用管理。

3. 服務自動化方面:我們始終把客戶能夠自助發現問題、排查問題、解決問題作為我們最主要的努力方向。

2、新産品:ROS Resource Migration

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

先介紹第一個産品——ROS  Resource  Migration,很多人都覺得,IaC(Infrastructure as Code)非常好,但在實踐過程中挑戰非常大。首先寫出IaC的模闆非常難,它需要非常多、非常複雜的領域知識和對腳本語言的了解;另一方面,模闆寫完後,随着應用架構更新,需要持續的更新模闆來反映最新的基礎架構。

為了解決這個問題,阿裡雲提供了新的方案,使用者可以通過阿裡雲的标簽功能,在打完标簽後,我們的ROS系統會自動分析标簽的依賴關系,幫使用者建構一套IaC的模闆。也就是說,使用者完全可以不了解IaC,也不用去寫JSON和YAML,阿裡雲會自動化地生成模闆。模闆生成後,使用者可以非常友善地完成在多可用區、甚至多賬号、多地域的部署,會大大降低之前建構一套基礎設施模闆的複雜度。同時,當使用者寫完模闆後,還可以通過智能化的模闆配置和定義,保證使用者模闆的部署成功率。

3、新能力:ROS的雲開發套件ROS CDK

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

最近幾年,我們發現很多企業都非常希望能夠擁抱CloudOps,但是他們不喜歡JSON和YAML,為此阿裡雲今年也釋出了新能力——ROS的雲開發套件ROS CDK(Cloud Development Toolkit)。

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

它可以使用高階的語言(如JAVA/Python等),像寫腳本一樣直接生成ROS模闆,然後通過ROS模闆再生成使用者的基礎資源設施。總結起來就是可以選擇自己的開發語言、自己熟悉的程式設計模型,高效的實作Infrastructure as Code。

4、新工具:應用管理

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

為了簡化應用的建構,阿裡雲釋出了應用管理。應用管理非常簡單,隻需要選擇一個标簽或者導入已有資源,可以快速建構一套應用。有了應用視角之後,它可以是跨多産品的,幫使用者去做自動化的運維、監控、釋出和CI/CD,大大簡化了整個運維過程、降低了成本。

另外,應用裡最大挑戰是應用更新,包括更新檔管理、作業系統配置管理等,基于應用視角,我們幫使用者做應用視角的分組,極大降低使用應用的門檻。

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

◾ 應用可靠性能力上:在應用建構完成之後,其實最大的挑戰就是可靠性能力。阿裡雲在基礎設施上提供了強大的應用可靠性能力,比如說多地域部署、多可用區部署。

◾ 彈性容錯能力方面:我們建構了智能預測,它可以根據使用者過去對這些資源的使用率和操作,動态推薦需要的資源;為了透明性,我們也開放了ECS事件體系,可以模拟一台實體機當機或者磁盤I/O hang機型基礎設施的容錯演練;同時提供了應用高可用服務,可以模拟流量防護、故障演練等,大大提升系統之間的容錯能力。

◾ 可觀測能力建構上:我們有包括雲監控、SLS、ARMS、Xtrace等産品,可以提供從基礎資源到應用再到日志的全鍊路觀測,以保障系統的可靠性。

◾ 資料的備份和恢複:我們提供了極速快照能力,可以秒級的完成快照建立。它使得使用者進行操作變更的時候非常安全,不用像以前一樣,需要等很長時間才能做成一個快照。由于使用快照有一定成本,我們做了一個新的服務,叫做快照保留周期,使用者可以将不用的快照自動地歸檔或删除,降低使用快照的成本。

5、安全與合規能力建設

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

安全&合規能力也是阿裡雲和彈性計算基礎能力,在基礎平台(如網絡安全和系統審計能力)和應用安全兩個方面之外,我們今天提供了更多的能力。

當使用者操作安全組,有不合規的端口變更之後,系統會自動向使用者發出警告,幫助監控這些不合理的變更,避免系統風險;應用安全裡面,除了雲安全中心以外,作業系統的管控通道安全,也是我們一直關注的重點。

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

很多人運維ECS的時候,喜歡用SSH/RDP來登入伺服器進行操作,阿裡雲提供的雲助手,我們開放了基本的API,像一個浏覽器請求一樣,使用者可以直接在用戶端進行主機端的操作。不少使用者回報說,這個操作不像SSH一樣便捷、不友好,是以我們釋出了新功能——Session Manager。

通過Session Manager,不需要使用者名密碼可以直接實作對主機的管控,同時可以将它內建到已有的系統裡,進而完成無密鑰的登入、鑒權、操作和審計等操作。

此外,今年我們還釋出了新功能——高危指令攔截,當使用者執行高危指令,都可以攔截到,同時把使用者的操作加入到回放日志。當使用者執行高危操作的時候,通過Workbench進行錄屏,錄屏傳到OSS上,進而可以大大提升我們的安全性及可審計通道的可靠性。

應用視角裡,使用者非常頭疼就是判斷兩個ECS之間的配置到底有什麼差異,為什麼有的機器有問題、有的機器沒有問題。之前使用者想分析這個問題是非常難的,通過ECS的執行個體配置清單,我們會把諸如Windows的系統資料庫、配置等資訊,幫使用者對配置資訊進行快照,快照完成之後自動分析,分析兩台機器之間的差異,這樣的話使用者可以快速地找到這兩台機器的差異,大大降低排查問題的時間。

我們一直在追求配置管理的集約化,我們釋出了ECS的密鑰參數管理,客戶可以把應用的參數統一到Parameter Store進行管理,它原生支援了資源編排、雲助手、運維編排等多個産品,這樣就可以避免參數配置時沒有進行集約化管理産生的問題。同時,使用Parameter Store,也支援使用者做參數審計。

通過以上新能力,可以大大簡化ECS操作方面的運維複雜度、提供安全的通道以及實作配置集約化管理。

03  CloudOps(雲上自動化運維)白皮書釋出

1、DevOps in Cloud ≠ CloudOps

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

在雲上用DevOps是不是就是CloudOps呢?可能不是的。根據最新的2021年的DevOps報告,其實隻有20%的企業在雲上充分發揮了DevOps的優勢,這是因為雲上雲下有非常大的差異。

◾ 首先,操作方式有差異。雲上提供了非常多的免費自動化運維工具和內建工具,可以大大地降低使用者的成本,但需要使用者和已有工具做內建。

◾ 第二,從資産到資源有差異。進行管理資源的時候,在雲上可能認為它是資源,在雲下的話可能是資産。例如,雲上管理資源的時候,更多是把原機器釋放、重新拉起一台機器,這樣就完成配置更新、應用更新,而不需要關心資産形态,這就是雲上雲下操作形式之間的差異。

◾ 第三,統一化和規模化的差異。雲上規模化非常龐大,可以随時開啟或者釋放非常多的機器,如果有誤操作,可能會給企業帶來比較大的成本或技術風險。

◾ 最後,雲上對于安全和審計的實時性要求非常高。

2、CloudOps主要成熟度模型與白皮書

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

我們認為,CloudOps不僅僅是在雲上用DevOps,更多的是要求使用者關注雲的特點。這些特點歸納為5個次元,即自動化能力、彈性能力、可靠性能力、安全合規能力以及成本和資源量化。我們詳細劃分了雲上DevOps的5大領域,同時我們也把每個領域定義并劃分了級别,形成了CloudOps主要成熟度模型。

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

以自動化為例,現在比較流行的看法是希望能做到無人值守,這些都定義在CloudOps主要成熟度模型裡。我們希望通過這個成熟度模型,幫助客戶衡量目前在雲上DevOps是否已經足夠成熟,以及如何能夠提升自己的成熟度。  

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

為了更好地幫助客戶了解我們的CloudOps成熟度模型,我們釋出了CloudOps白皮書,阿裡雲彈性計算的10餘位技術專家共同撰寫的CARES模型,從成本管理、自動化、可靠性、彈性容量管理以及安全合規五個方面,展示了如何能夠在雲上找到合适的運維方式和運維工具。

3、阿裡雲CloudOps産品族全展示

很多人說,雲計算的本質就是運維能力的自動化。過去十多年,阿裡雲彈性計算一直在簡化運維方面做了非常多的工具和努力,旨在全方位提升雲上DevOps效能,也形成了完整的CloudOps産品家族。

阿裡雲田濤濤:高效智能的雲,CloudOps 讓運維更簡單

◾ 成本管理方面,成本優化方案和成本付費模式方案,可以大大降低使用者成本。

◾ 自動化服務上,提供了免托管運維,包括運維編排、更新檔管理、配置清單、參數倉庫等。

◾ 批量傳遞方面,提供有OpenAPI和彈性伸縮這些工具,可以大大降低自動化傳遞的複雜度。

◾ 執行個體運維通道,提供了非常多的方式,使用者可以通過我們的web版,也可以通過雲助手和最新釋出的工具做內建,進而大大降低使用自動化運維的門檻。

◾ 可靠性服務上,是所有雲上使用者追求的重點,我們釋出了應用管理能力。

◾ 在可觀測能力、自助故障排查以及事件服務上,也釋出了完整套件,并且大部分服務都是免費的。

◾ 安全合規方面,包括應用環境的安全和合規審計的便捷。我們內建了很多産品,來提升整體的安全合規能力,幫助客戶及時地發現并排除安全合規的風險。

從最初的上雲到今天用好雲、管好雲的時代,阿裡f雲彈性計算一直在緻力于為客戶提供豐富、安全、便捷的雲上運維産品與能力,未來我們也希望與大家攜手共同建構更高效、更智能的雲上運維。

點選大會官網,觀看田濤濤的精彩演講視訊。

繼續閱讀