天天看點

如果隻把AIOps看做運維技術,未免也太膚淺了……

作者:dbaplus社群

近日一篇《智能運維行業亂象:估值虛高、上市受阻、裁員頻現》網文在運維圈十分火爆,有一些觀點十分吸引人。今天,不對文章觀點做評價,摘一小段《數智萬物下運維》系列下我對金融企業智能運維的了解。

AIOps是運維的方向,但AIOps不能單純的認為一種技術手段或技術平台,而應該是數智時代人機協同的運維模式。

一、人機協同的AIOps運維工作模式

一種新的工作模式出現,必然會對原來穩定的工作模式進行改變,改變通常會受到新挑戰,是以新工作模式需要能解決目前運維工作中遇到的難題而出現。以金融行業的業務連續性管理為例,目标是提高公司的風險防範能力、有效地減少非計劃的業務中斷、防範運維操作風險,對于首次出現的未知異常能夠利用工具量化分析并快速定位,確定在重大災難性事件發生後能按計劃恢複業務連續性是傳統。在面對目前複雜的技術架構、不斷引入的創新技術、快速疊代的軟體版本、嚴峻的資訊安全威脅下,傳統運維團隊原來被動救火式、問題驅動式、操作運維、經驗運維已經很難實作企業業務連續性的保障目标。金融企業運作安全穩定,需要運維資料賦予資料洞察、輔助決策、跟蹤執行的能力,提升複雜環境下的運維管理能力,即:

  • 實時獲得“發生了什麼?”
  • 關聯分析“為什麼會發生?”
  • 智能預測“将會發生什麼?”
  • 決策判斷“采取什麼措施?”
  • 自動執行“如何快速執行?”
  • 實時感覺“工作執行的效果?”

AIOps就是為了解決上述問題而生,相比傳統的運維工作模式,AIOps重點不是創造一種全新的運維工作模式,而是對現有“專家經驗+最佳實踐流程+工具平台” 運維模式的補充,為企業運維工作提供“洞察感覺、營運決策、機器執行”能力,支援向“人機協同”模式轉變。

為什麼是“人機協同”的模式,而不是智能化的模式呢?因為從目前AIOps的應用情況看,雖然人工智能技術領先,但當面對複雜、多變、資訊不完全的環境,特别是應用于需要複雜應急保障場景時,仍不具備替代專家,更多的應用在某些特定弱人工智能領域。“人機協同”聚焦在通過機器輔助人的決策與執行,是在原來運維組織内部參與者,以及運維以外的研發、測試、廠商等協同網絡上,增加機器人角色,形成人機協同的運維模式。人機協同的運維模式,最關鍵的角色仍是人,利用人的創造力,結合機器所提供的資料和算法,輔助人進行運維工作開展。總的來說,人機協同需要發揮人與機器人特長,形成一個融合的解決方案,後續AIOps的重點推進方向可以圍繞三點:

  • “資料+算法”為運維專家賦能“實時感覺、輔助決策”的能力。
  • 增加運維機器人崗位,重塑 “大計算” 、“海量資料分析”、“操作性”、“流程化”、“規律性” 、“7*24”、“人機體驗”等類型的運維工作。
  • 建立數字平台化管理模式,閉環落實決策執行。

二、資料、算法、場景、知識組成AIOps關鍵4要素

如Gartner定義中提出,AIOps應用需要利用大資料,現代機器學習技術和其他進階分析技術,是一種相對較高門檻的工作模式。為了更好地落地AIOps,運維組織需要深刻地了解AIOps的内涵,重點實作思路:以資料為基礎、算法為支撐、場景為導向,知識為擴充的AIOps4要素。

1、以資料為基礎

資料為先,AIOps需要快速生産高品質資料的能力。“快速”的思路可以以“中台”思路進行建設,建立統一的資料采控、實時與批量的資料處理能力、與運維相比對的運維算法、存儲方案、主資料、名額模型等;“高品質”則從将分散資料統一、線上後形成“活資料”,以及資料品質上的治理。從技術實作看,具備實時“采、存、算、管、用”的資料流動全生命周期管理的能力。其中,資料采集是按需線上采集資料的能力;資料存儲是根據資料類型、資料應用特點對資料進行歸檔、整理、傳輸、共享;資料計算包括資料标注、清洗、模組化、加工、标準化、品質監控,以及為了獲得資料洞察、決策、執行而對資料進行分析統計;資料管理重點圍繞資料治理的,包括運維資料标準、主資料、中繼資料、資料品質、資料安全的管理;資料使用重點圍繞資料服務角度涉及的資料目錄、服務門戶,以及配套的資料服務化能力。

2、以算法為支撐

算法大腦,适配、引入特定場景下運維算法,建構算法模型體系。機器學習尤其是深度學習的大規模應用,推動了人工智能的快速發展。随着國内TOB市場的火爆,AIOps上人工智能研究及應用正處于爆發期,引入AI技術的算法有三點優勢:一是工作穩定性高,人工智能可不知疲倦地進行工作,在規律性問題的分析時不受環境影響。二是降低操作風險,利用人工智能取代傳統人工經驗操作,可更好地避免操作風險和道德風險。三是有效提高決策效率,人工智能可以快速地對大資料進行篩選和分析,幫助人們更高效率地決策。作為金融企業,一方面,由于人才、薪酬結構等方面不足,在算法的建設上應該更多地與外部供應商合作;另一方面,對算法的追求不一定是技術的先進性,事實上規律性的專家經驗落地也是一種算法的實作,而且很多時候更加可靠。對于目前主流的算法參見上一節提到了的常用算法,這裡不再重複。

3、以場景為導向

場景驅動,以痛點、價值期望切入點,用智能賦能運維場景,落地智能運維能力。AIOps從詞來看,應該包括“AI+Ops”,是用AI賦能運維場景的模式。有了上面提到的資料底座與算法大腦,下一步是AIOps運維模式的落地,主要将圍繞場景的落地,一種是利用算法賦能已有的運維場景,另一種是算法實作原來無法實作的運維場景。前者是一個快速見效的模式,後者是應對變化而做出的變化。

4、以知識為擴充

運維知識描述了大量運維領域的相關對象定義、技巧,以及排故/解決經驗的資訊。運維知識圖譜是把運維對象不同種類的資訊連接配接在一起而得到的一個關系網絡,是對運維資料進行表達的關鍵技術。通過建構運維知識圖譜,從海量資料中自動挖掘各類運維主體,對其特性進行畫像和結構化描述,動态記錄運維主體之間的關聯關系。基于運維知識圖譜,利用自然語義等算法技術,可以幫助IT人員實作故障鍊傳播分析、根因定位、智能的變更影響分析、故障預測等多種AIOps場景。

三、AIOps的一些其他觀點

1、建立場景地圖,體系化、有節奏地落地AIOps

與AI技術在目前大部分領域的應用類似,AI是一種平台能力,而不是業務。以網上銀行系統為例,PC端的網上銀行解決從櫃台到臨櫃的便利性問題,手機銀行解決從滑鼠鍵盤操作到手指劃屏、随時操作的操控問題,AI的視訊、語言識别等技術又給手機銀行解決從觸屏到沉浸智能的體驗問題。在這個過程中,很多業務的本質仍未改變,是以面對AIOps,運維組織需要建立場景地圖,基于場景地圖分好優先級,看如何将AI的優勢賦能給運維場景的具體環節。

2、“活資料”是運維智能化的基礎

活資料有兩個含義,一是指資料是活的,即資料全線上;二是資料被活用,即在資料不斷應用中完善并産生新資料,形成資料回流。以往運維資料分析主要基于批量離線資料建立報告輔助決策,但很多運維工作場景需要實時資料分析支撐。是以,需要利用運維資料平台實作機器資料實時采控落地資料資産,再場景化實作資料消費,并建立資料應用執行的回報不斷優化資料驅動的工作流程,形成更為準确的資料。是以,實作活資料中有三個關鍵要素,一是建構協同網絡的運維工作場景,協同網絡需要打破線上工作流程孤島,打通“人、組織、軟體、硬體”之間的網絡連接配接;二是運維組織要建立運維資料平台将生産運作的相關資料彙聚在一起,并抽象成資料服務,以便利的方式為運維場景提供價值;三要不斷消費資料,在資料消費中發現問題,修正資料,挖掘資料增值服務,産生新的資料。

3、第一印象很重要

AIOps作為全新的工作模式,給使用者第一印象是可靠、可用,如果第一印象是懷疑态度,對後續工作模式的營運推廣會帶來較大挑戰。AIOps的算法最需要解決的問題是,改變人對“算法準确性”的印象,即“算法”的引入不是為了創新,而是為了确實解決真實問題而出現。以輔助故障定位為例,一個正常運作的運維組織日常很多故障通常能夠通過專家經驗、監控工具、有效的協作機制得到處理。引入AIOps對于故障管理的賦能,一是為了更快,二是為了更準。得益于機器的自動化、算力等特點,通過設計好的線上應急場景,“快”的問題可預測能得到解決;但對于“準”則多少有黑盒子的意味,是以在應用算法時要持謹慎的思路,解決問題遠比算法先進重要。

最後,不管是運維團隊中的工具研發,還是廠商,在推動AIOps模式時,都應關注一線運維專家的經驗,以及落地運維模式的配套工作機制,才能将人、流程、工具與具體的“事”連接配接成真實可用的場景。

作者丨彭華盛

來源丨公衆号:運維之路(ID:HuashengPeng001)

dbaplus社群歡迎廣大技術人員投稿,投稿郵箱:[email protected]

更多精彩内容

dbaplus社群直播【話題接力丨智能運維AIOps難落地呼聲極高,如何破局?】将于9月16日晚8點開播,dbaplus社群邀請到京東科技 智能運維算法負責人-張靜、螞蟻集團 AIOps技術專家-徐新龍在雲上彙聚,希望通過彙集兩位運維專家的研究成果和實踐積累,給大家進一步明确智能運維發展的方向,提供可參考、可落地的智能運維實戰經驗。

直播位址:http://z-mz.cn/5lIbo

添加直播助理微信(dbazhiran),還可擷取加入SRE主題交流群等更多福利哦~

如果隻把AIOps看做運維技術,未免也太膚淺了……

關于我們

dbaplus社群是圍繞Database、BigData、AIOps的企業級專業社群。資深大咖、技術幹貨,每天精品原創文章推送,每周線上技術分享,每月線下技術沙龍,每季度Gdevops&DAMS行業大會。

關注公衆号【dbaplus社群】,擷取更多原創技術文章和精選工具下載下傳