天天看點

騰訊趙建春:AI浪潮下的高效運維思考及實踐

GOPS 全球運維大會暨首屆金牌運維峰會于11月17日-18日在上海圓滿舉行。騰訊 SNG 助理總經理、GOPS 金牌講師趙建春老師受邀出席大會,并帶來精彩演講《AI 浪潮下的高效運維思考與實踐》。本文根據此演講實錄整理而成。

AI 是如何工作的?

抽絲剝繭,找出規律

運維工作中存在大量有規律的資料,要能準确預測資料的走勢,我們要找到運維資料的規律,并建立模型。

AI和機器學習的分類

傳統的異常名額分析方法有閥值、同比環比等,這些方法依靠大量的人力配置,随着資料量和名額量的增加,根本無法滿足我們對資料精細化分析的要求。在智能運維時代,更多分析政策和手段被引入。

監督學習和樣本标注

運維常常需要與很多業務KPI資料打交道,結合樣本标注的有監督學習分析法對此類資料的異常識别效果顯著。

損失函數及常見損失函數

損失函數是度量算法準确率的重要名額,損失函數越小,代表機器學習算法的精準度越高。

常見算法的工作機制

目前行業内流行的機器學習算法,絕大部分是源自于十大經典機器學習算法,而運用在智能運維領域,以分類算法居多。

NLP簡介

在運維場景中,還有些需要與自然語言處理打交道的場景,下文介紹織雲輿情監控實踐中,會有NLP的案例。

AI 和運維工作結合的思考

對運維和AI技術結合點的思考

自動化運維是當下熱門的話題,但是要真正意義上實作無人運維,與無人駕駛技術類似,還需要更多積累。但是基于有監督學習的資料分析和基于規則的運維自動化,則有很多可以突破的場景。

尋找與AI結合的運維場景

與騰訊的AI in All戰略類似,智能運維的落地要找準場景,這樣更能事半功倍的達到我們想要的效果。

分類算法應用

專業的人做專業的事,運維人員是運維領域的專家,可以利用自身豐富的運維工作經驗,找到最合适的場景,并協同AI專家找到最恰當的算法,來解決該運維場景的分析難題。

運維和AI可能的結合點

通過騰訊SNG多年的運維經驗,得出以下多個機器學習與運維結合的場景點,下面将以幾個案例簡述下我們已經取得的一些技術突破。

騰訊織雲的一些實踐案例

Monitor智能監控

織雲Monitor監控平台,是基于時序資料的智能監控平台。使用125W個監控點形成的125W個視訊對騰訊SNG的業務進行監控。面對的挑戰是資料量級大、監控曲線各異、資料政府樣闆不平衡。

去除幹擾,找到準确的異常資料點,對問題或故障進行告警,是運維團隊迫切要解決的難題。

多元智能監控

應用運作的日志資料通常包含多個次元的資訊,倘若運維能高效的分析這些多元度的資料,對快速識别服務異常和提升排障效率的幫助極大。

關聯告警智能分析

随着分布式和微服務技術的普及,架構的複雜度決定了關聯監控告警分析的複雜度,在騰訊SNG海量的運維挑戰下,關聯告警智能分析的實踐經驗如下。

智能運維客服

智能比對FAQ庫,機器人客服對常見問題給出最準确的答案,或給出相關度Top5的問題連結。在騰訊SNG的運維實踐中,我們整理出常見的FAQ知識庫,并結合NLP技術實作智能客服的功能。讓運維人員可以免受小白問題的打擾,極大的提升了運維團隊的工作效率。

基于文本投訴的輿情監控系統

織雲輿情監控系統——天王星,是運維團隊與開發、産品團隊合作的産品,通過對使用者回報的自然語言的智能分析,對文本問題進行自動歸類,準确率接近95%。并且,按問題類别實作分鐘級告警的能力。

分享中大量騰訊SNG的運維實踐經驗與技術,即将在由趙建春老師帶領的織雲産品對外輸出,敬請關注!

最後,借用騰訊SNG助理總經理趙建春老師的演講結語:

理想的AI運維就像無人駕駛一樣

似乎離我們還很遠

但通過不斷的進步

我們堅信

它, 一定會到來

PPT中幹貨滿滿,文中隻截取了部分

歡迎大家掃碼下載下傳

《AI浪潮下的高效運維思考及實踐》

本文轉自    憬薇   51CTO部落格,原文連結:http://blog.51cto.com/welcomeweb/2044169

繼續閱讀