Infrastructure as Code(IaC,基礎設施即代碼)、雲原生、DevOps……雲計算時代,運維領域的新鮮技術層出不窮,也推動了各企業自動化運維的程序。一群運維人聚在一起會擦出什麼火花?

12月19日,由阿裡雲開放平台、彈性計算和阿裡雲MVP聯合舉辦的“阿裡雲自動化運維沙龍(上海專場)”在西岸人工智能中心阿裡巴巴園區如期舉行,多家知名企業的運維同學主動報名參與,現場共計60多位各企業的技術負責人/CTO、運維總監和運維工程師參與了活動。
阿裡雲彈性計算和開放平台團隊近20位技術專家來到現場,聚焦在運維領域近年比較火熱的基礎設施即代碼的理念,分享和介紹了多種資源編排服務,包括開源的第三方資源編排工具Terraform、還有阿裡雲自研的自動運維編排服務OOS和自動化資源編排服務ROS,并跟現場的運維人一起交流一線經驗。
阿裡雲基礎設施自動化運維能力一覽
阿裡雲的彈性計算(ECS)與阿裡雲開放平台OpenAPI服務可能是一線使用者接觸最多産品和服務,前者是上雲的“标配”,後者則是很多運維人員用來調用阿裡雲底層能力的方式。不過,很多人也許沒有意識到,阿裡雲提供了全鍊路的自動化運維能力。
阿裡雲開放平台産品專家鄭清照,為大家系統性地介紹了阿裡雲基礎設施的自動化運維能力。
Terraform幫助客戶實作99%運維自動化
在企業上雲之後,需要對資源和應用的全生命周期進行持續管理,包括雲産品的開通、賬号體系的搭建、網絡環境與業務架構的搭建與持續管理,還有應用的上雲等,每一步都需要數個步驟。
如何管理這些資源呢?阿裡雲提供了控制台、OpenAPI和編排服務等或簡單、或自動化程度高的選項,來給個人或企業使用者使用。
Terraform是什麼?
阿裡雲開放平台專家蕭竹在沙龍現場為大家介紹了基于Terraform的資源編排服務,Terraform 是一款經典的 IaC 自動化資源編排工具,而阿裡雲作為全球第三大雲服務提供商,terraform-alicloud-provider 已經支援了超過 240 個 Resource 和 Data Source,覆寫計算、存儲、網絡、容器等 50 多個服務和雲産品,并提供 100+ Terraform Module,并且吸引到越來越多的開發者加入到阿裡雲 Terraform 生态的建設中。
該服務背後基于的正是Infrastructure as Code(基礎設施即代碼)的理念,需要有一定的程式設計基礎,但可以實作高度的自動化。
Terraform工作流助力企業雲上IT治理樣闆間落地
Terraform作為一個支援多雲管理的開源工具,被衆多企業使用。初創企業、标準企業和集團企業分别面臨着不同的雲上治理痛點,阿裡雲開放平台所推出的Terraform工作流,針對不同自動化管理雲資源的痛點,有着比對的核心功能可以對症下藥,幫助企業們以最低的門檻使用強大的編排能力。蕭竹現場示範了
企業雲賬号系統的自動化搭建—1号樣闆間,實際示範企業從雲賬号基礎操作、安全加強、RAM配置、網絡配置這些雲賬号初始化階段流程和操作。
随後,西門子和聯蔚,分别以客戶與合作夥伴的身份,分享了使用阿裡雲Terraform的經驗,以及如何利用Terraform實作管理與治理。
西門子自研的工業物聯網雲MindSphere僅用了一年就在中國上線,背後離不開阿裡雲基礎設施的支援。一開始,西門子要20個人用2天在一個會議室裡閉關将服務推上線,實作了自動化之後,2個人花1小時即可上線。西門子表示,在這個過程中,對他們幫助最大的就是Terraform,幫助他們實作了99%雲上運維自動化管理。
從人工到自動,阿裡雲ROS幫助泛微實作高效部署
除了開源的編排工具Terraform,阿裡雲也自研了一系列工具。阿裡雲進階技術專家趙昱在沙龍現場跟大家分享了相關的阿裡雲自研的自動化運維套件。
雲上運維的四大挑戰
随着雲計算的普及和發展,越來越多的企業選擇上雲。大多數企業遇到的雲上運維問題比較類似。趙昱總結,主要是來自以下四個方面:
- 規模:傳統的HumanOps和寫腳本的管理方式,随着業務的發展不再管用。雲上資源管理和運維的複雜度指數級上升。
- 安全:資料和資源是公司的資産,運維權限過大、增加失誤風險,權限過小、增加管理成本。如何安全地使用雲賬号和資源為管理者帶來極大的挑戰。
- 效率:如何高效地管理運維、提升研發人員的效率,也是雲上運維必須思考的問題。
- 成本:資源使用人員和财務人員,希望能夠提供不同次元的資源使用賬單,以便為成本優化舉措提供依據。
雲上自動化運維三劍客
針對這些挑戰,趙昱介紹了“雲上自動化運維三劍客”:資源編排ROS、彈性伸縮ESS和運維編排OOS,分别幫助ECS使用者進行自動化的傳遞部署、容量管理和日常運維。
這三劍客,在阿裡内部的重要場合,往往發揮出不俗的實力。例如,彈性伸縮不僅全面支撐了天貓雙十一大促前定時擴容的大量雲伺服器,而且及時響應大促時臨時激增的幾十萬台雲伺服器,完美完成天貓雙十一All in Cloud的任務。
疫情期間,釘釘作為很多企業首選線上辦公軟體,使用者量激增,釘釘使用資源編排ROS做叢集部署,使用運維編排OOS做資源運維,效率百倍提升,成功在4天内擴容10萬台雲伺服器。
趙昱在現場示範了使用這三劍客的五個場景:從零建構雲上的DevOps環境,環境部署、彈性擴縮容、持續建構、定時和告警運維等自動化運維實踐。
阿裡雲助力泛微實作運維自動化
沙龍還邀請到了阿裡雲的合作夥伴,OA領域的知名企業泛微的運維總監劉超到現場分享。
他表示,業務的增加讓泛微的傳遞難題更為凸顯。從前,泛微在部署傳遞軟體給客戶時,需要一位運維工程師駐場一天,專門服務客戶。高峰時期,泛微最多有6位部署同學專門為客戶部署軟體。
後來,泛微通過ROS編排,實作了标準化部署,原來需要一人一天處理的傳遞部署工作,變成無需人工、2小時完成部署。
他回憶,4年間,泛微在雲上的客戶已經從10幾家(占0.037%)增長到了1000多家(占2.75%)。但這僅僅隻是開始,因為在這1000位客戶中,隻有100客戶是從線下搬到雲上,存量線下使用者還有30000多家。未來,更多企業将全面擁抱雲。
企業互相交流,分享自動化運維最佳實踐
在互動交流環節,場下各個企業的大咖們開啟了熱烈的讨論,開啟自動化運維能力自查、吐槽日常工作中的坑、分享好用的經驗。最終,幾個小組一起産出了六大最佳實踐,并在現場跟大家分享。
本次上海專場,是阿裡雲自動化運維沙龍的第一站,也是阿裡雲開放平台俱樂部第二期、由彈性計算、開放平台和阿裡雲MVP合辦。與會者紛紛表示獲益匪淺,也認識到了許多業内的資深人士,對日後工作将有很多幫助。未來,阿裡雲還會在更多城市,繼續舉辦各地專場,為運維人提供一個平等交流、互相學習的平台。