随着企業網絡的不斷發展,特别是面向數字化業務應用的轉換,維持服務的正常運作時間已經成為一項令人頭痛的挑戰。例如,目前服務往往需要與遺留系統共存,增加了管理工作的複雜性;随着時間推移,基礎設施元件與服務層面的多樣性往往迫使我們部署多種管理工具;管理工具的增加,導緻整體視圖的連續性變得更加難以維護,而由此産生的資訊孤島也導緻可用資料的使用效率一路走低。

令問題更加複雜的點在于,這些元件生成的事件、日志與資訊越來越多,最終導緻IT營運團隊隻能超負荷工作。基于上述現實,我們越來越難以找到基礎設施中的問題根源、或者以主動方式解決問題。這不僅導緻平均恢複時間(MTTR)變長,也将導緻服務傳遞品質下降,最終帶來糟糕的客戶體驗并影響到客戶的整體滿意度。
幸運的是,随着挑戰的出現,解決挑戰的方法也在不斷發展。人工智能技術給AIOps工具及平台帶來了前所未有的發展前景。AIOps平台提供的功能,已經有望全面契合現代商業服務傳遞提出的數字化轉型複雜性與規模化需求。
根據Gartner的觀點,“AIOps平台将大資料與機器學習功能結合起來,以可擴充的方式攝取并分析IT流程中快速産生且各類各異的資料量,由此支援各項核心IT營運功能。該平台能夠同時支援多個資料源、多種資料收集方法以及分析與表示技術。”
最出色的AIOps工具需要通過資料彙總、提取洞見并最終根據智能産出提供價值。那麼,理想的AIOps工具到底需要哪些基本功能?這七點不容忽視。
第一,資料收集。
尋找能夠與其他方案完全搭配的系統。在本質上,企業的AIOps解決方案必須能夠從多種來源處收集資訊,包括服務及應用程式等實體基礎設施元件與虛拟實體。在部署期間,企業的AIOps方案還必須有能力對接現有監控工具以及新興技術。
第二,資料聚合。
關注有助于促進跨域協作的功能。首先,企業的AIOps解決方案需要能夠聚合來自IT基礎設施監控(ITIM)、網絡性能監控與診斷(NPMD)、數字型驗監控(DEM)以及應用程式性能監控(APM)端的資料。
第三,資料充實。
聚合是實作資料使用的第一步,但要獲得真正的價值,我們的AIOps還需要擁有對所收集資料加以充實的能力。AIOps需要通過曆史資料,例如日志與事件等提供追溯視圖,并配合應用中繼資料與标簽對索引中的搜尋内容加以充實。
通過将資料點與時間戳疊加起來,我們可以對性能及遙測資訊等實時資料加以充實,借此生成具備現實意義的時間序列資訊。在後續使用這些資訊時,企業還可以添加合适的标簽以建立鍵值對,充分發揮資料潛能。
第四,分析洞見。
洞見能力是AIOps工具的價值核心所在。很明顯,單憑最基本的相關性與統計分析功能,并不足以支撐我們确定複雜的根本原因。模式發現與異常檢測是一套出色AIOps系統中的關鍵組成部分,也能夠為根據洞見促進規範制定提供重要的實作基礎。除了基礎設施營運洞見之外,我們的AIOps系統還應分析基礎設施問題對于業務的具體影響。由此實作的服務水準協定(SLA)管理,将幫助企業在與非技術相關方互動時獲得巨大的便利與價值。
第五,自動化。
自動化能夠為IT營運管理體系帶來極高的效率與效能。是以,企業的AIOps工具最好能夠快速生成并部署工作流,進而自動實作各項功能。具體來講,AIOps系統應該提供自動化庫維護功能、跨營運流快速實作工作流共享等選項。出色的自動化功能不僅能夠提高營運靈活性,同時也能夠顯著減少意外錯誤、極大增強服務可用性。
第六,易用性。
部分AIOps平台提供基于雲的管理層,能夠幫助IT團隊以安全的分布式方式同時解決多個站點上多位客戶的問題,由此提高管理效率。通過監控資料管道,AIOps平台能夠幫助其他工具輕松通路收集到的資訊、極大促進各團隊間的協作。
第七,靈活部署。
在服務保證方面,不同的企業總有不同的實際情況與具體需求。是以在選擇AIOps平台時,無論采取自主托管、遠端管理還是平台即服務,AIOps部署模型都必須有能力滿足企業獨特的業務與營運需求。
小結
根據Gartner的預測,到2023年2月,将有30%的大型企業使用AIOps平台。AIOps用例已經證明,現有技術完全有能力實作真正主動的IT營運管理功能。由其提供的出色方法,将幫助我們在面對不斷發展的基礎設施始終擁有出色且行之有效的複雜性管理方法。
企業在選擇AIOps工具時,務必小心謹慎。隻有滿足以上七項基本要求的出色AIOps工具,才能鞏固業務戰略成果、帶來穩固可靠的IT營運能力。
本文轉自51CTO,本文一切觀點和機器智能技術圈子無關。
原文連結 線上免費體驗百種AI能力:【點此跳轉】