天天看點

智能診斷-人工智能在雲平台上的新玩法

智能診斷-人工智能在雲平台上的新玩法

說到“運維”能想到的是什麼?

穩定性→監控→凡是想得到的,都要監控起來……

時效性→人工排查→查不出,再查,反複查……

安全性→容災→備份備份再備份……

成本控制→性能優化→加載、維護、配置、更新、更新檔……

對傳統運維的訴求和困境,同樣适用于雲上IT系統運維。

智能診斷-人工智能在雲平台上的新玩法

為解決上述訴求,阿裡雲進階技術專家許玲提出了“智能診斷”這個概念,利用AI技術來完成以下三項核心任務:1、識别風險;2、定位原因3、提供“定制性”解決方案。這裡的關鍵詞是“智能”,不需要人工或隻需要極少量的人工介入,就能完成傳統運維需要大量人力投入來做的事情。

AI智能的短闆:資料

那麼要實作智能診斷,最大的短闆是什麼?答案是“資料”,AI落地成功的四大要素:場景+算法+工程+資料,前三者在不同領域的可複用性相對較高,已經有了不少成功的案例,而唯有資料是強行業屬性的,業内有句話叫做“有多少人工,才有多少智能”,要訓練算法, AI在實驗室裡的先程序度遠遠大于商用的成熟度。商業化落地過程中,傳統做法是大量的标注資料,标注的準确性直接決定算法的效果,并且資料需要不斷更新,持續調優,流入新生資料,淘汰“過時”資料,是以在“運維輔助”這個專業性非常強的領域一直以來AI都很難大有作為,而雲計算平台給資料短闆創造了解決的條件。

雲平台創造了解決資料短闆的條件:線上

雲計算平台讓資料線上,并提供成本效益更高的可擴充的線上計算能力。所謂的資料線上,就是雲計算平台能夠線上上實時采集到不涉及到使用者業務資料的系統行為與使用者行為資料,包括IT系統運作時健康資料、系統故障資料、負載特征、配置變更資料、特定使用者行為資料。有了實時線上的資料,利用AI自學習技術,就能實作資料閉環,跑通“系統健康監控→診斷過程→診斷結果→實踐效果”的鍊路,并持續糾正。這套“資料閉環,以工程養資料,資料養算法”的AI應用已經在售後服務場景裡驗證成功。

智能診斷-人工智能在雲平台上的新玩法

阿裡雲智能診斷初具雛形

目前阿裡雲的部分智能診斷能力已經上線并免費開放給使用者在使用了,包括

系統資源導緻的性能瓶頸、受安全攻擊風險、賬戶欠費或者執行個體過期引起的服務中斷風險;

系統配置不當引起的系統運作時問題等。

智能診斷-人工智能在雲平台上的新玩法
智能診斷-人工智能在雲平台上的新玩法

據許玲透露,智能診斷很快會開放更多在性能優化、成本優化、安全監控及修複、容錯等核心運維訴求上的診斷能力。AI的商業價值是,做人類做不了的事,做比人類做得更好的事,在運維輔助這個戰場上,自動識别風險,定位原因并提供“定制性”解決方案這一目标已經不遠了。

繼續閱讀