“三分建設,七分運維”,運維占據了整個資訊系統從産生到消亡這一整個生命周期中的最長時段。
傳統的“穩态”IT環境的運維通常圍繞監測、處理、展現三個主要活動來展開,也就是常說的“監、管、控”,展現的”眼“和”手“作用。尤側重于監測,強調對IT環境的運作監測的準确、及時、全面,最大的感覺和展現是多種方式的告警或預警通知。在時間層面,它更多的是”事後型“,即在事件發生後展開一系列的運維活動。在處理的方式上,依賴于過往經驗,以及”骨幹“或”專家“的梳理與提煉,形成固化的規則或知識來指導運維。
而在現時的IT環境中,以雲計算、大資料、AI等為代表的革命性資訊技術的興起和應用,帶動和促進了企業由資訊化建設向數字化轉型演進,資訊系統也朝着架構規模化、技術集約化、元件微服務化、資料巨量化、部署動态化等”敏态“方向變革,由此給運維帶來巨大的沖擊和挑戰。
”敏态“IT環境的需求,更注重對于運維事件的預測、分析和決策,更強調是對運維全過程的貫穿,需要一個強有力的”智慧大腦“來幫助、甚至代替人來進自動完成,由此AIOps應運而生。
1 IT運維演進路線
IT運維由最早的ITOM、ITOA、到AIOps(Algorithmic IT Operations)、再演進到如今的AIOps(Artificial Intelligence for IT Operations),是從被動到主動、手動到自動、人工提煉規則到自我學習疊代的過程,本質上借助雲計算的”算力”,AI的”算法“、大資料的”算據“,給IT運維安上具備自我分析、自我學習、疊代更新特性的運維“大腦“,實作運維分析、決策的智能化。

IT運維發展
2 什麼是AIOps
Gartner将AIOps 的概念從原本的基于大資料及算法,擴充為基于人工智能(Artificial Intelligence for IT Operations,AIOps),期望通過大資料、現代機器學習及更多進階分析技術,提供具備主動性、人性化及動态可視化的能力,直接或間接地提升目前傳統IT運維(監控、自動化、服務台)的能力。
AIOps,其實是對運維規則或知識的AI化,即将人工總結運維規則的過程轉變為自我提煉、學習、疊代的過程,同時将這種AI化滲透至運維的監測、分析、決策、修複、總結全程,實作運維全過程的AI化。
3 AI與機器學習、深度學習差别
AI,人工智能是一個廣義概念,最早期提出來的時候,人們的願景是希望AI能夠完全具備人類智慧,這屬于“強人工智能(General AI)”,但前提是得知曉人類大腦運轉的每一個細節。
但在非常具體和特定的領域,機器是可以做的比人類更好的,比如圖形圖像處理、語音識别等等,這些人工智能的應用,稱之為“弱人工智能(Narrow AI)”,這些應用的實作手段,就得益于機器學習算法長足的進步,而深度學習又是機器學習領域很精深的一部分。是以,我們現在提到的AI,更多的是依賴機器學習(包含深度學習)算法的實作的AI場景,或者說機器學習算法隻是實作AI的其中一種手段。
AI、機器學習與深度學習
4 AIOps目的與價值
TO BE CONTINUED……