天天看點

智能診斷——人工智能在雲平台上的新玩法

摘要:在12月7日召開的雲栖大會蘇州峰會上,由阿裡雲進階技術專家許玲帶來了“智能診斷——人工智能在雲平台上的新玩法”的演講。分享了雲上IT系統運維的訴求,需要解決的問題,典型場景與案例的分析以及目前取得的成果與實踐。

以下為精彩視訊整理:

阿裡雲在某一些具體領域把人工智能和企業級雲上架構結合起來,解決一些剛需問題。有些人工智能落地的問題在傳統的IT架構裡面是很難做到,但現在在雲上可以完成了。

<b>雲上</b><b>IT</b><b>系統的運維訴求</b>

智能診斷——人工智能在雲平台上的新玩法

在把系統上雲之後,我們發現在運維層面的訴求和原來有很大的不同。上雲後業務增長的會比較快,技術架構也會持續疊代,這就要求運維的人對業務和對技術架構同時掌握的比較清楚,進而就會提高對技術人員的要求。但和傳統的IT系統運維還是有一脈相傳的地方,同樣要求系統穩定性要好,在高負載下有很好的并發,有高并發處理的能力,可以随着業務的增長而擴充。在安全性的訴求上,因為業務需求帶來的系統技術容量上的彈性伸縮,這就需要更靈活的做到伸縮,保證系統的成本效益。

一個傳統半自動運維模式是首先進行大量的資料采集,資料采集之後做成報表,可以做定制化的報警,最後需要人工對産生的報警做問題的分析,找到問題的原因,進而去做系統級的或者子產品級的優化。這樣會帶來兩個問題,一是業務的變化帶來系統架構的變化,就會對人的要求非常的高;一是這種模式滞後性比較強,往往是已經報警了問題已經出現了,人工才去分析和解決問題。

在過去兩年我的團隊做了一些基礎的探索,目前也取得了一些初步的成果,是以下面給大家分享一下怎麼樣用AI的技術做一些突破。

<b></b>

<b>要解決的問題</b>

既然是用AI的技術必然就涉及兩個方面,第一個就是AI必須能夠主動的學到一些新的、未知的東西。第二個就是不同的使用者可能面臨同樣的問題,但是解決方案是不一樣的,尤其在雲平台上這一點表現的非常明顯。

AI的商業化有一點就是要解決剛需,不是去做創造性的需求。AI的技術能否成功落地取決于算法、場景、工程和資料這四大要素。其中最關鍵的一個問題就在于資料,為什麼說要在雲平台上做這件事才做的成,因為它讓資料線上。線上後的資料恰恰是做運維的智能化、做診斷的智能化非常依賴的資料。

為什麼說雲平台創造了智能化的條件,是因為它讓資料線上,同時還有大量的線上異構資料。我們需要非常龐大的計算、存儲、傳輸的能力,才能把這些資料用起來,才能學到随着系統和業務的變化形成新的模式,進而得到這些模式下對應的問題和解決方案分别是什麼。

<b>典型場景與案例分析</b>

智能診斷——人工智能在雲平台上的新玩法

要想讓機器人具有認知能力,就需要大量的人工資料的打标,告訴機器人什麼樣的資料有什麼樣的響應。機器人做不到以不變應萬變,在上線一段時間後整體的業務效果會萎縮,準确率也會下降,每隔一段時間就需要人工的對所有的資料進行一次梳理,然後再來打标,産生第二版的資料,這個過程會循環的周而複始。

智能診斷——人工智能在雲平台上的新玩法

阿裡雲經過嘗試得到了一個解決的方法,我們稱之為資料閉環,帶來了AI自學習的能力。對系統的網絡流量、磁盤IO的使用量、CPU的使用量、以及業務發展、使用者通路量這些資料記錄下來之後,通過一套離線的自學習算法,是可以讓機器自己來學習到新的知識,不需要人工的參與。提取出來的結果,可以有一個人工的稽核的過程,稽核後的資料可以做為下一版的資料進行應用。

<b>成果與實踐</b>

智能診斷——人工智能在雲平台上的新玩法

經過我們的努力也取得了一定的成果,下面是我們在客服的領域實施的一個具體的實踐。首先雲平台上提供了大量的資料,包括使用者行為的資料,會對行為來進行分析,可以知道今天所有AI資訊哪些是對的哪些是錯的。對于使用者畫像是基于我們的需求來做的,畫像主要是用于不同的客戶可能存在同樣的問題,但問題背後的原因是不一樣的,不同的原因提供解決方案是不同的。關于雲産品的健康監控,需要人工去定義一些名額來進行監控。所有的這些資料最後會成為一個決策系統,去分析問題的原因以及去計算解決答案。

智能診斷——人工智能在雲平台上的新玩法

離線計算出來的模型,最後會形成一組決策樹。每一類問題會對應一組決策樹,每個決策樹的根結點就是一個問題的表現,葉子結點就是這個問題的解決方案,中間會有很多條件,這些條件有些是使用者系統的特征有些是使用者畫像的特征,通過這個智能的方法算出這些問題模型之後,就可以得到解決的方案。

這是關于智能診斷我們在今年的11月份已經上線的一部分功能,正在通過售後的管道開放給使用者免費來用,目前對于雲資源使用的風險,以及可能遭受安全攻擊的一些風險,或者目前正遭受安全攻擊,要怎麼樣去解決這些問題的診斷和建議。這樣的診斷能力是目前我們已經開放出來的,那麼未來我們也會有更多的診斷能力開放出來。

在離線分析平台部分我們也面臨一些問題,比如說我們在做聚類分析的過程中會存在有大量的沒有辦法聚到一起的情況,這個地方還在進行探索和突破,預計會在明年的年初會有更多的技術細節是可以開放出來的。

本文由雲栖社群志願者小組smile小太陽整理,毛鶴審校。編輯:郭雪梅。

繼續閱讀