天天看點

運維大殺器來了!雲上伺服器或實作無人值守

        雲原生時代下,企業運維面臨架構複雜化、業務需求多樣化和運維資料海量等挑戰,如何能夠實作精準告警、異常智能診斷、根因定位、異常預測和異常自動修複,已成為企業數字化轉型的急迫需求。

9月26日,阿裡巴巴進階技術專家滕聖波在《GOPS全球運維大會》上發表了題為《雲上伺服器無人值守與自助服務實戰》的主題演講,分享了阿裡雲彈性計算團隊如何利用人工智能技術賦能運維自動化,實作雲上伺服器無人值守,幫助使用者降低雲伺服器執行個體管理的複雜性,來保障執行個體服務的穩定和高效運作。本文根據滕聖波的演講整理。 

運維大殺器來了!雲上伺服器或實作無人值守

圖:阿裡巴巴進階技術專家滕聖波

01

為什麼需要無人值守

       運維是一種服務,既包含基礎設施軟體服務、也包含人力服務,服務的對象是企業中使用基礎設施的業務團隊,而雲計算IaaS是一種運維服務,服務的對象已發展為使用雲服務的開發人員和運維團隊。随着雲計算的廣泛落地,大部分企業開始上雲,目前就有100萬多家使用者的業務運作在阿裡雲平台上,阿裡雲平台服務的使用者也越來越多。

随着平台使用者規模的擴大,我們發現平台使用者在ECS執行個體運維時普遍面臨三個痛點:

  • 背景溝通成本高,為什麼我的執行個體出問題了?
  • 人工處理需要較長的時間,為什麼這個問題這麼久還沒有解決?
  • 客戶操作不透明,問題看起來修複了,可是剛剛你做了什麼?

       為了問題的高效解決,我們需要重人力投入在客服人員方面。為了避免使用者規模擴大帶來的客戶側運維成本的線性上升,我們開始利用人工智能技術賦能使用者運維管理。在無人零售、無人駕駛成為趨勢的時候,我們認為未來雲上伺服器也将實作無人值守。

事實上,阿裡雲彈性計算産品推出十年,沉澱了衆多ECS執行個體運維管理經驗和異常“行為”規律。是以依托機器學習的資料驅動,我們通過異常“行為”資料的分析,建構了一套雲上伺服器的無人值守架構,并推出了一系列自助服務,實作了ECS執行個體的自診斷、自修複、自優化、自運維,幫助使用者降低ECS執行個體管理的複雜性,進而來保障執行個體服務的穩定和高效運作。

02

無人值守的自服務實戰

雲計算IaaS的運維工作可以拆分為服務側運維和客戶側運維,服務側運維是雲平台的運維工作,通常對使用者不可見的。主要涉及基礎設施、基礎産品和上層管控三個層面,包括機房、實體裝置的運維工作、資源虛拟化、資源排程、熱遷移等工作。随着使用者規模的擴大,這些運維工作會越來越複雜。而使用者側運維工作,是對使用者自己可見的。主要是使用者對ECS執行個體的修改操作和自動化工作,包括擴容、重新開機、監控、客服服務、工單反應、資源編排和運維編排等。

運維大殺器來了!雲上伺服器或實作無人值守

我們建構的雲伺服器的無人值守架構,為阿裡雲平台使用者提供了一系列的自助服務。廣義上看,阿裡雲的自助服務囊括了ECS執行個體本身、執行個體生命周期管理、系統管理和自動化、市場和生态四個次元,如下圖。

運維大殺器來了!雲上伺服器或實作無人值守

圖:廣義上的自助服務

狹義上來說,阿裡雲自助服務為使用者實作了ECS執行個體的診斷、修複和推薦的功能。當天,阿裡雲自主服務已認證執行個體診斷工具、執行個體優化推薦、自動修複工具、最佳模闆推薦和ECS事件自動化等一系列自助服務工具,覆寫了80% ECS常見問題,将問題解決的平均周期從幾小時縮短至分鐘級,整個過程無需客服人工參與,無隐私洩漏風險,做到了雲上伺服器的無人值守。未來随着AI+資料的不斷驅動,ECS執行個體的診斷和修複将會越來越精準。

ECS執行個體的智能診斷根據平台的資料統計,使用者在使用ECS執行個體時主要面臨四大類問題:

  • 執行個體無法遠端通路
  • 執行個體無法啟動/停止
  • 執行個體性能異常
  • 磁盤擴容未生效

是以,在智能診斷的能力上,我們覆寫了ECS系統服務、磁盤健康服務、網絡健康服務和Guest OS系統配置等次元,使用者一鍵即可完成執行個體的智能健康診斷。

 ECS執行個體的自動化修複在智能診斷完成後,我們還會為使用者提供ECS執行個體自動化修複方案,在前者定位問題所在之後,自動化修複能夠在1-3分鐘解決問題,主要完成ECS系統服務修複、網絡問題修複和磁盤修複。

僅僅實作自動化修複是不夠的,我們認為自動化修複還應該是透明合規的。我們通過運維編排服務OOS提供自動化引擎,通過雲助手指令提供GuestOS内的執行能力,運維編排服務OOS+雲助手指令共同幫助使用者完成自動化修複;同時,我們開源了運維編排服務OOS+雲助手指令的代碼,做到一切修複邏輯對使用者可見;一切修複操作還可以通過ECS執行個體的鏡像、快照和資料備份實作復原;通過阿裡雲RAM角色控制實作一切權限可控,通過阿裡雲操作審計ActionTrail實作一切記錄可審計,做到了真正的透明合規。

03

無人值守背後的AI資料力量

讓我們實作智能診斷和自動化修複的,是冰山下強大的技術支撐——AI+資料。依托底層的資料中台,我們完成了,包括實體機資料、虛拟化資料、網絡資料、控制面資料和GuestOS内資料等資料的采集、清洗、分析和模型的建構;加上AI算法的不斷調優,我們搭建了使用者畫像、決策樹、預測和推薦模型等,進而保證異常診斷和自動修複越加精準和高效。

運維大殺器來了!雲上伺服器或實作無人值守

目前,在整體的ECS自助服務架構中,主要依靠管控監控中心實時監測日志服務、中間件監控、API請求監控以及控制台監控和自助診斷的資料,通過機器學習引擎實作問題預警和處理,進而驅動運維編排服務OOS實作自動化修複問題。

運維大殺器來了!雲上伺服器或實作無人值守

通過這套AI驅動的自服務架構,目前ECS實時記憶體異常感覺準确率在70%以上,實施預測鍊路延時則控制在100s以内;另外融合專家經驗、案例庫和知識庫,我們建構了一個強大的診斷決策樹,為加快問題的定位和修複提供了強有力的依據。

 近兩年,阿裡雲彈性計算團隊持續不斷地投入建構異常行為資料集,未來計劃将其演進成為阿裡巴巴集團在異常預測上的“ImageNet 資料集”并進行開源,希望能為異常預測在業内的發展貢獻更大的價值。

關注百曉生,笑談雲計算

運維大殺器來了!雲上伺服器或實作無人值守