天天看點

運維真的被雲革命掉了嗎?一 運維面臨的新趨勢二 新的工作邊界與實作路徑三 運維體系應該具有的四大特征四 結語

文 | 阿裡雲彈性計算團隊

這是最好的時代,運維向更專業的方向發展。

“Ops 之前不是一個專業,它隻有經驗,現在是在把經驗變成專業,對外提供标準化服務。”

—— 阿裡雲彈性計算穩定性負責人鹿棠

我的同僚、阿裡雲彈性計算穩定性負責人鹿棠,他相信,這個是讓運維真正走向專業化的時代。運維人員憑借着自身的技術和經驗,為企業降本增效,而非人工救火隊。

這是最壞的時代,不少運維人陷入了職業危機。

運維人員似乎也陷入了極緻的内卷之中。最早憑幾行腳本和深厚的經驗就不愁就業,到如今各種學不完的運維工具,不僅需要上知業務架構和代碼,還需下懂核心和硬體。随着雲計算、DevOps 等技術趨勢的普及,運維人員面臨着越來越多的挑戰,他們從前所面臨的問題和工作方式,也在重新被定義。

本文将讨論以下三個方面 ↓

  • 運維工作所面臨的新變化新趨勢
  • 在雲計算時代大潮下運維人員的工作邊界與路徑是如何被重新定義
  • 一個好的運維體系應該具有什麼特征

一 運維面臨的新趨勢

回顧曆史,除去早期大企業内部的少量 IT 運維人員,中國運維行業的興起應該是随着網際網路行業上個世紀 90 年代的發展而來。是以,網際網路行業的運維能力代表了最領先的水準,也引領着運維領域的趨勢和方向。

如今,20 年過去了,網際網路時代進入下半場,傳統企業數字化更新深入。運維人員所面臨的環境和挑戰有了許多改變:

1、企業 IT 系統越發複雜,運維挑戰更大,需要實作更高程度的自動化。

随着數字化更新的深入、業務的增長,企業的 IT 系統日趨複雜,林林總總的網絡裝置、伺服器、中間件、以及業務系統微服務化等讓 IT 運維人員難以從容應對,即使加班加點地維護、部署、管理也經常會因這樣或那樣的故障而導緻業務的中斷,嚴重影響業務的正常運作。

同時,市場競争變得越來越激烈,企業業務疊代需提速,以搶占市場先機,網際網路行業尤為明顯。産品市場化或疊代的速度成為産品成功至關重要的一個條件,如何更好地支援業務的快速疊代就成了運維人員又一壓力。顯然,人工的運維方式難以為繼,于是國内運維行業開始尋求自動化。

工欲善其事必先利其器。随着技術的發展和自動化運維工具的出現,包括事件監控預警、自動化部署、自動化編排以及自助診斷等工具,為運維效率的提升提供了可能。

2、雲計算的誕生和大規模普及,帶來了運維對象、運維工具甚至是技能的變化,DevOps 趨勢引起關注。

一般,很多企業會把運維部門的工作分成兩個層級:

一是基礎設施運維,主要是針對企業 IT 基礎設施的管理,包括伺服器、交換機、網絡等實體資源的監控、報警、維修上線等。

二是應用運維,主要是針對企業具體業務的運維,包括某些業務應用的上線下線、釋出部署和擴縮容等。

從業務的次元來說,應用運維的效率提升能更直接地加快業務疊代的效率和增長速率;基礎運維則是根基,自建資料中心的企業,其運維的主要工作側重于基礎設施。

雲計算具有“軟體(或服務)定義一切”的特點,雲廠商基本承接了底層基礎設施的維護與虛拟化的工作。上雲之後,企業運維的主要對象則從硬體(伺服器等),轉向了面向服務 API 的運維,包括主機運維和應用運維,提倡自動化的部署流水線和持續傳遞的 DevOps 愈發受到關注。

我們會發現,技術的發展是一個不斷追求将底層基礎設施屏蔽、使開發人員無需關注底層資源的過程,從 Severless、函數計算這些炙手可熱的概念,也能體會一二。

早期,企業可能會是幾個運維人員維護一些應用,負責“從下到上”的維護,新業務的擴充隻能招聘更多運維人員。這種“堆人”的戰術是不可持續的。實際上,在許多的大企業内部,許多運維工作已經開始了初步的“平台化”,即将底層的資源進行集中管理,以節約管理成本。這種“平台化”,也促進了部分企業内部公共元件的服務化、标準化。

隻是,這種方式畢竟比不上雲廠商的規模效應。

而平台化的對外形式即雲化,可見,從企業内部也能看出,雲化已是無法逆轉的趨勢。借用一篇文章中的說法:雲計算的一個重要特征就是“開箱即用”,由雲供應商提供集中化的運維管理并以服務方式傳遞給最終使用者。這讓雲使用者可以從很多繁瑣的日常運維工作中解放出來,真正關注自身的業務發展,進而提升整個行業的營運效率。

3、人工智能與大資料興起

到近幾年,運維時興概念不止于 DevOps,還有各種 DataOps 與 AIOps。這些都反映了運維領域智能化、資料化運作的需求。

智能化實際上是自動化的更高追求,可以進一步釋放運維人員的時間。人工智能熱潮卷到一切實作能夠自動化的領域,運維領域也不例外,這必然是發力的重要方向之一。不過,在大多數企業還未完全實作大規模的自動化,甚至初步的代碼化時,智能運維實際上有點遙遠。

二 新的工作邊界與實作路徑

我們可以看到,環境的變化給運維帶來了自動化标準化、DevOps(開發運維一體化)和 AIOps(智能化)三個趨勢,運維需要在企業運維體系中引入相關理念,甚至進行徹底的改造。而筆者認為,構築一個面向未來的運維體系,除了關注上述新趨勢,還需要關注雲時代下企業運維的工作邊界和實作路徑的變化。

諸多時代大潮中,給運維工作帶來最大沖擊的,無疑是雲計算的大規模普及。業務搬到雲上之後,底層的運維工作變少,便引發了運維人員危機的大規模讨論。

運維人員的終極目标就是通過高效統籌IT資源幫助業務實作業務價值。

運維最關心的四大方面 ↓

效率提升、穩定、安全、成本優化

到了今天,運維人員追求的還是這四個方面,但在雲計算時代,其工作内容的邊界、實作手段及路徑已發生了巨大變化。

1、持續提效,從單點自動化到标準化

原來,寫 Shell 腳本、借用開源工具是常見的效率提升方式。然而,這種自動化往往是單點的、割裂的、非标準化的。有的時候,甚至兩個工程師所用的腳本都是不同的,工具也不同,而且由于企業内的運維組織架構與分工不同,會存在能力重複建設或資訊孤島,對企業而言,運維效率是打折的。

是以我們會說,從前的運維是一種“經驗”,不夠系統化。經驗往往依賴個人積累。

今天,DevOps/GitOps/IaC 可程式設計基礎設施等趨勢的出現,就是想改變這種單點的、非系統化的“自動化”,雲計算在屏蔽底層硬體的基礎上,還提供了多種開箱即用的工具,推動了 DevOps 的發展。這讓運維效率提升的關鍵詞變成了代碼化、标準化。運維人員需要深度結合自身企業的特點,将經驗抽象化、産品化、平台化地提供給研發人員。

2、穩定可靠,更少關注底層,更多關注應用和服務

穩定本來可說是運維最為關注的“基石”。傳統的運維要與實體機、網絡裝置打交道,還需要建設容災、監控和告警系統來保障業務的穩定運作。

如今,雲計算在平台層面通過大規模的異地容災、熱遷移等技術,實作了較高的 SLA。企業的運維人員可能隻需要偶爾根據雲廠商的建議,通過幾個簡單的 API 或者點選來避免基礎設施對業務的影響。現在是需要知道自己要做什麼,點點滑鼠就完成,之前是建房子還需要自己找木頭。

不過,業務的穩定=基礎設施的穩定性*代碼的穩定,運維團隊釋放出了更多的精力去關注應用和服務的穩定性。在去年全球運維大會上,筆者發現“技術營運”和“BizOps”這些概念也開始出現,都是運維的新價值方向。

運維埋頭搞機器的時代已經過去,“技術營運”要求運維人員更多參與到業務當中,提升使用者體驗,比如考慮大促期間叢集是否要擴容、帶寬是否足夠、壓測資料如何等。BizOps 則提倡最了解系統運作狀況的應用運維工程師與需求方業務人員之間的回報與互動,推崇的理念是"好系統是運維出來的"。

3、安全,從自行負責到責任共擔

安全有很多個次元,從我們耳熟能詳的漏洞防護,網絡攻防,到企業常用的代碼檢查、權限管理、日志審計,一直到更高等級的可信計算,全鍊路加密等。

這些在大企業裡可能需要設立一個安全團隊去負責。比如做日志審計的話,安全團隊則需要收集每一條日志,逐一分析和比對,同時随着業務代碼疊代而疊代。高度複雜性也讓很多小企業直接選擇裸奔或者使用昂貴的第三方解決方案。

雲則直接提供了多層次、全鍊路的安全,支援精細化的權限管理。比如,雲上所有的操作都會留下記錄,事後可以審計和追溯,這在企業内部無疑需要巨大的成本;阿裡雲雲上專有網絡為企業提供了更便捷的網絡隔離與流量控制;阿裡雲彈性計算的最新一代雲伺服器全量搭載安全晶片,實作伺服器的可信啟動,確定零篡改;在此基礎上,還通過加密計算隔離環 enclave,進一步實作資料的可用不可見,基本已經滿足了金融級别的安全可信需求。

從前,IDC 時代企業自行負責 IT 安全;近幾年,雲安全責任共擔模式在業界已經達成共識。雲廠商負責雲基礎設施層面的安全,使用者負責業務或稱為虛拟化層以上的安全。使用者可以在雲安全市場裡挑選合适的産品來保護自己的内容、平台、應用程式、系統和網絡安全;同時做好權限控制,避免如删庫跑路等悲劇的發生。

4、成本優化,從固定成本到 FinOps

技術層面而言,雲計算所具有的“軟體定義一切”的特性,給運維和開發人員的工作方式帶來了變化,其“彈性”的特征,也給企業的提供了一種降低資源閑置的“成本優化方式”。

而在商業模式方面,雲計算的“租賃”模式,與傳統的 IT 硬體采購不同,企業的财務需要實作從 Capex(資本性支出)到 Opex(管理支出,即營運成本)的轉化。雲計算有豐富的計費模式,進一步幫助企業達成IT的靈活性與低成本之間的最佳平衡。

是以,對于運維人員而言,雲上運維意味着轉變成本優化的思維。

随着企業将更多核心業務從資料中心遷移到雲上,越來越多的企業迫切需要對雲上環境進行預算制定、成本核算和成本優化。從固定的财務成本模型,轉化為變化的、按需付費的雲财務模型,這是一個重要的觀念和技術轉變。然而大多數企業尚未對雲财務管理有清晰的認知和技術手段,在 FinOps 2020 年調研報告中,将近一半的受訪者(49%)幾乎沒有或沒有自動化方法管理雲支出。

為了幫助組織更好了解雲成本和 IT 收益,FinOps 理念開始流行。FinOps 是雲财務管理的方式,是企業 IT 營運模式的轉變,目标是提升組織對雲成本的了解和更好地做決策。2020 年 8 月,Linux 基金會宣布成立 FinOps 基金會,通過最佳實踐、教育和标準推進雲财務管學科。

FinOps 社群中的一位從業者分享了一個來自銀行業的實踐,通過對某個應用的 severless 架構改造,最終實作了月成本比本地部署降低 60%。他指出,雲在降成本方面的作用似乎毀譽參半,實際上這受到企業雲成本優化成熟度的影響,他将其分成爬、走、跑三個階段,當企業純熟運用了雲成本優化後,成本優化的效果是極其顯著的。

運維真的被雲革命掉了嗎?一 運維面臨的新趨勢二 新的工作邊界與實作路徑三 運維體系應該具有的四大特征四 結語

目前雲廠商開始逐漸加大對 FinOps 的支援,幫助企業的财務流程可以更好适應雲資源的可變性和動态性。比如 AWS Cost Explorer、阿裡雲費用中心,可以幫助企業更好進行成本分析和分攤。同時,企業還需要通過技術降低成本,比如通過靈活的彈性伸縮、服務選型、雲上 IaaS+ 的能力和靈活的計費模式,充分發揮雲的特性。

三 運維體系應該具有的四大特征

綜上,我們發現,在雲上,硬體裝置、硬體的監控和排程工作已經交由雲廠商完成。企業運維的工作重心轉變為企業内部運維體系的設計與建構,即需要深度結合自身企業的特點,将經驗抽象化、産品化,形成一套屬于自身企業的運維體系。

結前文總結的合運維自動化、DevOps、AIOps 和 DataOps 等新趨勢,以及雲時代下運維工作邊界的變化,我們認為,一個好的運維體系應該具備以下四個特征。

1、自動化标準化,展現了 DevOps 和基礎設施即代碼(Infrastructure as Code,簡稱 IaC)等理念。

運維真的被雲革命掉了嗎?一 運維面臨的新趨勢二 新的工作邊界與實作路徑三 運維體系應該具有的四大特征四 結語

可以說,DevOps 的基礎不僅僅是 IaC,而是 everthing as code。隻有完成了代碼這一步,才能做到标準化,運維平台與開發通過标準的 API 流暢地交流。代碼化也是最終目标“智能運維 AIOps”或“NoOps”的基礎。

阿裡雲彈性計算釋出的 ECS 自動化運維套件就展現了 IaC 的理念設計,其中資源編排 ROS 和運維編排 OOS,可以讓使用者通過模闆的方式實作自動化的部署和批量運維操作,還支援更為友善的拖拽式操作。研究機構 Gartner 在 2021 年十大雲計算趨勢中就提到“自動化的雲編排和優化”。阿裡雲的 ROS 和 OOS、AWS 的 Cloud Formation、Terraform 等,都是類似的自動化編排工具。

阿裡雲 ECS 自動化運維套件,對底層資源完整全面的監控,并以事件的方式開放給使用者,使用者可以通過 OpenAPI 或雲監控訂閱,友善其基于事件驅動建構自動化運維體系,這是建設自動化運維體系的重要基礎。

2、具有明确的權限管理與能夠快速內建的安全能力

權限的管理、操作的可追溯與可審計,能夠有效地控制企業安全風險,防止删庫跑路等事件的發生,并能實作事後的調查與複盤。

阿裡雲 ECS 自動化運維套件中的雲助手,會完整記錄 ECS 中的所有操作記錄;ROS 和 OOS 等編排工具也支援權限管理。前文也簡單提到阿裡雲有非常完善的安全能力,實際上,企業在阿裡雲上所建構的運維體系,不僅僅是利用自動化工具所搭建出來的運維體系,同時也擁有了阿裡雲底層的智能運維能力,這才是企業在阿裡雲享受的完整運維體系。

3、覆寫全面,包括自動化的性能管理與雲财務管理工具等,可輔助雲成本優化。

早期的運維往往聚焦在單點的自動化,運維體系追求的應該是全流程的自動化,覆寫資源和業務的全生命周期。

運維真的被雲革命掉了嗎?一 運維面臨的新趨勢二 新的工作邊界與實作路徑三 運維體系應該具有的四大特征四 結語

阿裡雲 ECS 自動化運維套件覆寫了雲上伺服器的全生命周期管理,從遷雲、部署、日常運維到彈性容量調整。其中彈性伸縮服務 ESS 和彈性供應組 APG 工具針對不同場景的資源擴縮容。利用資源優化顧問可以識别出來使用率低的資源,使用者可以對此資源進行調整以提升資源使用率、降低成本。

4、具備智能化、資料化的基礎

完全實作智能運維,我們認為在大多數企業中還是一個理想的目标,但運維體系至少具備往智能化更新的基礎(即代碼化标準化),或具備部分智能化功能。在阿裡雲 ECS 自動化運維套件中,智能化的特性主要在管家服務中,管家服務指的是阿裡雲 ECS 一系列使用者幾乎無感的智能功能,包括故障的自動診斷與修複、資源的自動監控與分析優化,更不用說阿裡雲 ECS 底層的熱遷移等智能運維能力。

四 結語

從 IDC-host 到 Cloud-host 時代,如今則是進入了 Build-on cloud 的時代。無論是 DevOps 還是雲化,都是大勢所趨,身處其中的運維、開發,企業或雲廠商,都無法逆轉。

與其感歎時代車輪太快,不如主動擁抱新技術趨勢,将時代趨勢内化為自身的技術紅利與競争力。從業者主動學習相關知識,作為雲廠商,阿裡雲也希望推動 DevOps 理念在中國的落地,幫助中國企業提升數字化、自動化能力。

繼續閱讀