天天看點

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

演講嘉賓簡介:滕聖波(雲普),阿裡雲進階技術專家,2018年5月加入阿裡雲,作為架構師搭建了ECS的事件體系,同時也是阿裡雲的官方自動化運維平台-運維編排服務的主架構師之一,目前負責ECS智能自治服務、雲桌面等領域。在加入阿裡雲之前,是VMware中國研發中心終端使用者計算部門的架構師,擁有北京郵電大學計算機專業的碩士和學士學位。

以下内容根據演講視訊以及PPT整理而成。

觀看回放 更多課程請進入“ 玩轉ECS詳情頁

”了解

本次分享主要圍繞以下四個方面:

一、ECS自助服務概要

二、智能診斷

三、自動化修複

四、自助服務背後的AI與資料能力

自助服務水準的高低是雲廠商的核心競争力,阿裡雲經過過去幾年的積累,已經有了非常高效的自助服務能力。今天就将這些能力透露給最終使用者。本次分享由阿裡雲進階技術專家滕聖波(雲普)為大家介紹ECS自助服務,解析ECS自助服務主要包含哪些方面的自助服務,并從診斷和修複兩個方面為大家解密自助服務的技術實作細節,最後給大家介紹冰山之下阿裡雲的AI及資料能力,劇透ECS自助服務的未來。

1、人工客服

人工客服流程

自助客服或者智能客戶越來越普遍,其實從線下銀行的ATM開始,使用者就能體會到自助服務帶來的便捷與省時。與自助服務相對的是人工客服的服務。在闡述自助服務之前,下面先談談與之相對的人工客服服務。

阿裡雲人工客服流程如下圖所示:

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

首先使用者遇到了一個問題,便向阿裡雲控制台中的智能線上子產品的智能機器人訴說自己的訴求,如果智能機器人判斷是一個問題,則自動開工單,使用者也可以自己線上開工單描述自己的訴求。

所有工單到一線客服端,一線客服會與使用者反複的确認具體的訴求,比如是什麼商品,訂單号是多少,具體什麼時間,影響使用者的影響面是多少。

這些問題弄清楚之後如果一線客服可以自己解決則直接指導使用者解決問題。如果不能,則将問題向上回報到二線技術支援端。一線客服是阿裡雲小二,二線技術客服是阿裡雲自營的技術專家,技術專家與使用者溝通與處理疑難雜症。

如果二線技術專家依然解決不了問題,如阿裡雲本身的服務缺陷,或者使用者受限制的特權類應用,則上升到三線工程師或産品專家手中,他們是阿裡雲研發團隊内部最背景的技術人員和産品人員。真正需要修複代碼或權限的問題才由三線工程師解決。

整個問題處理鍊條非常長,涉及到很多部門和人員。而針對大客戶會有專門的企業服務釘釘群,相較工單能夠得到更及時的響應。

阿裡雲對外公開的業務不可用工單響應時間小于40分鐘,這僅僅表示一線客服響應的時間。真正問題解決周期大概是1至24小時。即使是企業客服釘釘群,依然不能保證分鐘級的解決時間。

人工客服主要有幾個痛點:

1)首先是需要多次反複的溝通流程。

因為一線客服沒有權限查詢使用者具體的查詢或操作記錄,是以不得不與使用者進行反複的溝通,需要詢問使用者的操作時間,操作的request ID,進而在内部工單系統中補充這些資訊,友善後面的二線及三線客服排查問題。這就導緻溝通成本高,而且使用者也未必放心将這些隐私資訊交給客服。

2)其次,客服問題處理時間較長。

這是因為但凡需要人解決的問題,就無法很快的處理和解決。人需要讀完所有的日志,還需要進行邏輯判斷和分析。在問題複雜,資料量大,人工處理時需要時間就會較長。一線客服可以處理的問題或許需要半小時,二線客服處理問題則需要2-3小時,如果需要三線客服來處理問題則要以天為機關來計算。

3)第三點,人工客服處理問題是通過内部接口處理的,使用者會問客服做了什麼操作,解決了問題,但目前并沒有把所有操作透露給使用者,導緻使用者質疑操作是否透明。

2.自助服務

随後,阿裡雲提出了服務的更新方案,既開始提供自助服務。自助服務的理念是由使用者自己借助AI的能力檢測問題并修複問題。如下圖中提供了自助工具,使用者可以進行問題診斷,自助工具會告知使用者問題的根因,進而使用者借助自動修複工具,一鍵修複問題,解決問題時間縮短至在分鐘級。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

自助服務水準的高低是雲廠商的核心競争力,阿裡雲經過過去幾年的積累,已經有了非常高效的自助服務能力。今天就将這些能力透露給最終使用者。

目前阿裡雲自助服務功能可以覆寫80%的ECS常見問題,剩餘20%不能覆寫的問題依然可以通過開工單解決。

對于80%的問題,解決周期從幾小時縮短至分鐘級,這就意味着了戶的故障修複時間大大縮短,提升了使用者的體驗。

整個自助服務過程中完全不需要人工參與,所有操作記錄在使用者端可見,保證安全合規,無隐私洩露風險。

診斷工具和修複工具都是通過AI+資料的方式,借助阿裡雲海量的工單資料,可以越來越精準地進行問題診斷和修複。

二、智能診斷

1、ECS常見問題

自助修複工具背後,需要廠商有準确的健康診斷能力,發現故障的存在與産生的原因。

ECS最常見的問題可以分為四類:執行個體無法遠端通路、執行個體無法啟動和停止、執行個體性能異常、磁盤擴容未生效等。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

執行個體無法遠端通路,包含SSH,VNC,或者是RDT。這樣的遠端無法通路問題造成的原因是千差萬别的,如網絡不通,執行個體沒有啟動,服務異常等等。即使是網絡不通背後也有很多原因,如安全組不通,營運商的網絡出現故障。是以對故障的診斷并不是簡單的if else的問題。

2、ECS診斷能力
玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

阿裡雲提供了一鍵開啟ECS健康診斷能力,為了達到80%的目标,需要進行全面的體檢,從内到外分别是ECS 服務自身的健康診斷(包括阿裡雲網絡服務,資料化服務,背景硬體服務),磁盤健康診斷(如存儲空間,IO讀寫速率,磁盤本身的一緻性),網絡健康診斷(包括網絡鍊路層診斷,網卡丢包,網卡加載等),Guest OS健康診斷(網絡配置,關鍵檔案配置錯誤,權限錯誤等等)。

下圖展示了目前所支援的ECS診斷能力。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

首先,從使用者場景方面,針對無法遠端連接配接問題将虛拟化異常、實體機異常、資源争搶受限(入門級的執行個體中,會出現一台機器上存儲資源争搶的情況)、服務控制側異常等現象根因透露給使用者。

針對執行個體無法停止或啟動問題,着重診斷磁盤健康服務,所謂磁盤加載異常指的是雲盤在Guest OS以内加載失敗,還有磁盤IO Hang,磁盤讀寫受限,擴縮容異常等根因。

網絡問題分為幾類不同的表象,最常見的有網絡延遲、網絡丢包等。網絡健康服務會針對網卡加載異常、網絡鍊路異常、網卡丢包、網絡會話異常等現象進行排查。

ECS診斷能力不僅覆寫底層網絡,還會對Guest OS以内網絡進行健康診斷。

針對Guest OS問題,首先檢查所有程序,檢查CPU使用率,網絡配置項,關鍵系統檔案權限,檔案系統配置等問題。進而判斷Guest OS是否有可能出現問題,以及修複問題。

3、ECS智能診斷demo

那使用者怎麼樣可以使用這個自助智能診斷服務?下面是一個簡單的ECS智能診斷的demo,右鍵菜單“更多”中有“執行個體健康狀态”,勾選“同時檢測ECS系統内相關配置”,就可以進行包含Guest OS的更全面的檢查。如果不勾選則隻會對服務側進行檢查。因為Guest OS的檢測需要使用者授權才能執行。可以發現一共進行了54項檢查,使用者可以繼續檢視針對報告和詳細細節。最後會請求使用者回報。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

如果檢查不通過,則如下圖中一樣可以排查出是哪些項有問題。下圖顯示是Guest OS中Linux系統參數配置異常。下方給出了詳細文檔幫助使用者進行問題修複。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

三、自動化修複

1、執行個體自動化修複

診斷本身隻是第一步,當診斷出來根因之後需要進行修複。目前ECS自助服務提供的是文檔和連結,指引大家進行修複,由此可以更加保護使用者隐私。

阿裡雲目前正在做自動化修複功能。執行個體自動化修複邏輯如下圖,問題定位周期是1分鐘,即問題診斷過程,找到根因之後使用者可以手動修複,此時提供修複文檔和詳細修複步驟;還可以選擇自動修複,即與OOS(阿裡雲運維編排系統)結合提供自動化修複方案,為修複場景提供一系列的公共模版。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

公共模版指的是阿裡雲對公有雲的最佳實踐。在具體的修複場景中再次進行檢查,判斷問題根因,再集合使用者配置進行問題修複。阿裡雲也在控制台中提供一鍵修複能力,支援多個問題同時修複。而由于修複本身是一個高危操作,是以還支援單個修複項的復原。阿裡雲即提供Guest OS内部的修複能力,還提供基于快照的整體修複能力。在修複之前對整個ECS執行個體做備份,修複之後重新診斷問題是否修複成功,要求使用者确認。如果使用者确認修複不成功,則進行復原,恢複到執行個體之前的狀态。秒級快照能力為一鍵修複提供了強有力的支援。

2. ECS修複能力

對修複能力而言,而是着重對應診斷能力。自助診斷服務判斷出問題根因,針對具體的根因,提供不同的修複能力。

下圖展示了針對診斷能力提供的修複能力一覽表。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

比如,針對ECS系統服務或磁盤修複,首先進行重新開機,再進行重新部署。此時可能丢掉本地化執行個體原始資料;再進行自動故障上報,故障比較多時進行故障隔離,幫助客戶進行遷移操作。

針對網絡問題,修複系統會進行安全組規則調整;同時做故障網絡裝置隔離,如果故障是由底層的網絡裝置引起的,修複方案就是使用正常的裝置提供服務。

當發現Guest OS以内的網絡配置不正确時,修複系統會自動校正配置使得網絡通暢。

ECS系統服務修複方案中包括,推薦使用者進行執行個體規格更新、磁盤規格更新、關鍵系統問題權限授予、或者手動開啟若幹個關鍵系統程序(ssh)支援遠端連接配接、還有磁盤檔案挂載變更、網絡參數變更等。

這些能力還會随着診斷能力不斷的擴充,未來希望95%的工單都可以自動診斷,以及80%的工單可以自動修複,剩餘的是人工診斷和修複。

3、修複能力透明合規性

修複能力本身是一個風險操作,是以其透明合規性非常重要。

阿裡雲通過運維編排服務OOS提供自動化引擎,雲助手指令提供Guest OS内的執行能力。

OSS和Guest OS都是使用者側的工具,使用了使用者側的RAM權限進行所有操作。這樣使得一切修複邏輯可見,管理者可以在使用者側看到所有操作步驟,包括OOS公共模版指令和雲助手公共指令。阿裡雲目前已經在Github上開源了雲助手所有代碼。

其次,一切操作可復原,通過鏡像和快照實作整機的資料備份。首先是進行作業系統内的資料備份,在無法復原時進行整機的資料備份。并且一切權限可控,阿裡雲所有的操作都是通過RAM角色,而RAM角色是由管理者自己配置,随時修改或禁用RAM角色的RAM功能。

最後,一切修複操作都可以審計和追溯。自助修複功能很快會與大家見面,感興趣的使用者可以先行體驗自助診斷功能。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

四、診斷資料背後的AI和資料

1、AI算法

上面提到的AI修複,自動診斷以及優化推薦都隻是冰山之上的使用者體驗,在冰上之下是AI算法和資料中台的支援。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

AI算法中最重要的是根因分析和特征分類。

● 根因分析是指,在日志資料和Guest OS中發現很多可能的問題原因,但究竟哪個是真正的root cause則需要AI做分析。人分析時會看時間,發生的順序,調用鍊路,AI也是同樣的邏輯。

● 特征分類是針對使用者的操作和異常進行分類,将使用者的操作、配置、異常配置設定到具體的根因上。

● 态勢感覺是對風險的預測。

● 預測和推薦其中的預測是非常重要的,很多診斷需要在使用者沒有感覺時就提供異常診斷,将風險扼殺在發生前。

● 使用者畫像是針對使用者本身的屬性進展診斷,不同的使用者往往有不同的操作記錄,不同的異常問題,以及不同的行為,這都需要不同的診斷,是以使用者畫像和行為分析可以輔助自助診斷。

● 決策樹或專家經驗也是重要的診斷方式。

支援AI算法的是資料中台,無論是資料的清洗還是打标都離不開資料中台的建設。

2、資料中台

資料中台涉及資料采集、資料清洗、資料分析和資料模型。

資料采集中分為三類資料,包括實時資料、準實時資料、離線資料:

● 使用者目前的健康資料、網絡資料都屬于實時資料。

● 使用者目前的操作記錄、監控資料屬于準實時資料。

● 離線資料是指過去每一天的資料的快照,離線資料是可以支援建構使用者畫像,行為分析的資料。

同時從采集資料源角度可以分為實體機資料、虛拟化資料(虛拟化庫,如阿裡雲神龍)、網絡資料(網絡元件)、控制面資料(使用者所有操作記錄)、Guest OS内資料(雲監控及雲助手采集資料)。

所有資料采集完成後是非常雜亂的,需要進行進一步處理。首先将所有資料變成監控項,産生告警、metrics、日志。同時提供查詢分析能力,即提供給AI還提供給網絡平台。事件通知是通過資料産生的資料推送和訂閱,如AI中台對某一列資料感興趣,則可以進行訂閱,特定事件出現時推送給訂閱對象。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結
3、AI舉例

實時記憶體異常感覺

下面舉一個例子,即實時記憶體異常感覺。實際上,資料和算法處理過程中會遇到大量的類似的例子。實時記憶體異常感覺指的是當記憶體出現可能預期的錯誤時,會影響到虛拟機的穩定性,是以需要第一時間識别到記憶體的錯誤并進行記憶體的替換。

下圖展示了針對此類實時記憶體異常感覺問題所對應的AI算法模型運作流程。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

首先,采集原始資料,包括CE(更正的錯誤)原始資料、特征等;

接下來,進行資料處理,特征資料進入到實時預測模型中,進行非預測當機模型、可預測當機模型、混合模型、高準确率、高召回模型;

下一步進入投票模型,投票到各種各樣的優先級的sls預測資料中,當precision大于50%時進入主動運維監控報警中心,産生告警;

告警生成後,進行當機事實驗證,如果出現問題了表明算法正确,如果沒有出現問題則回到算法中進行更正。

診斷決策樹

此外,再給大家介紹一個例子:診斷決策樹,這個例子很容易了解。

診斷決策樹有三個關鍵要素,首先是專家經驗,其次是案例庫,還有知識庫。

大量的工單經過一線、二線及三線人工客服形成了專家經驗;案例庫是阿裡雲内部的;知識庫是提供給使用者用的。

專家經驗是基于案例庫和知識庫抽象出來的各種邏輯規則,比如ECS啟動失敗原因可能是庫存原因、排程原因、塊存儲、控制側異常、Guest OS啟動異常、底層虛拟化異常等。專家決策和決策樹會依次排查可能的原因,下圖中每個方塊都是一個案例,決策樹中專家經驗和案例庫是固定的,但如果某個鍊路中的案例很多,會先走這條鍊路,也就是說決策樹中的案例庫先後順序和權值是AI自動調整的。

玩轉ECS第3講 | ECS自助服務之智能診斷和自動化修複一、ECS自助服務概要二、智能診斷三、自動化修複四、診斷資料背後的AI和資料總結

總結

自助服務是雲廠商的核心能力,自助診斷和自動修複是自助服務的核心功能。當大家遇到ECS問題時,請先嘗試自助診斷服務,而不是直接開工單,這樣可以更快速的解決問題,節省時間。最後,ECS自助服務團隊求賢若渴,歡迎大家加入!有需要的同學可聯系本次演講嘉賓滕聖波(雲普)。今天的分享到此結束,歡迎大家持續關注阿裡雲ECS更多服務能力的更新。

繼續閱讀