1. 背景概述
監控是IT運維體系中重要的組成部分,作為運維的生命線,安全生産保障的生命線必不可少。運維的安全生産保障,主要以“監、管、控、防”為核心,其中“監”則主要指的是監控。随着科技革命的進行,大資料、微服務、雲計算等新技術和架構的應用應運而生,傳統的技術架構滿足不了日益變化的業務需求和移動網際網路的不斷挑戰。主動開展架構轉型,建立開放、彈性、高效、安全的新一代應用系統勢在必行。監控平台也随着市場需求向分布式、微服務、易擴充、松耦合的方向發展。集中處理能力,純化采集能力,處理層服務化,功能松耦合,層級解耦,靈活Scale Up 和 Scale Out,進而實作企業級統一監控管理、統一處理、統一告警、統一展現的一體化監控管理平台。
2. 建設原則
集中監控:在一體化運維體系中,監控平台貫穿所有環節,可以對生産系統涉及的各種環境的實時運作狀況監控,監控平台事件驅動的特性也為一體化運維體系起到驅動的作用。為了提高投入效率,減少重複投入,建立集中監控平台實作統一展示、統一管理是迫切需要的,集中監控也能夠同時實作兩地三中心建設,具備靈活的擴充性,支援運維資料分析等功能。
分層監控:目前并沒有哪一個監控工具可以覆寫所有生産系統的運作名額,不同的專業線條需要不同的監控工具,是以需要不斷完善沉澱監控工具。另外監控平台從WEB、APP、到DB均采用了多中心雙活分布式架構部署,但為了保證監控覆寫能力,部分重要的環節仍建議不僅限一套監控工具。
1)基礎設施層:包括營運商網絡專線、機房(機房内的設施,比如制冷、安防等),基礎設施層的監控分為狀态、性能、品質、容量、架構等幾個層面。
2)網絡層:包括存儲、網絡裝置等的可用性狀态、IO等。
3)系統層:包括系統、伺服器的可用性、性能消耗等。
4)資料庫層:主要是指資料庫的使用情況。
5)中間件層:主要針對中間件的使用情況。
6)應用服務:主要是針對應用服務可用性、應用運作狀态、應用性能、鍊路跟蹤幾方面。
自主建構:去商業化,自主建構。
我們基于開源産品自主研發,提供從底層基礎架構到上層應用的多元立體化的監控能力,以及事件發現、處理、跟蹤、分析、關閉等一體化管理能力。平台圍繞“集中監控、集中管理、智能分析、統一展現”的建設思路,基于Kafka、Flink等大資料架構及流式處理架構、以開源産品為核心自研的分布式事件處理引擎,實作靈活且全面的資料采集和高效的資料處理能力;引入機器學習算法引擎,支撐動态基線、容量預測、事件關聯分析及資料價值挖掘等能力;采用微服務架構、容器的管理釋出,實作靈活的平台伸縮和高效的開發傳遞能力。
3. 監控工具
基礎監控類:
鍊路跟蹤類:
4. 監控名額
名額分類:
1)基礎架構層
環境動力:暖通系統(如空調、機房環境、漏水等)、電力系統(如配電櫃等)、安防系統(如消防、門禁等)等
安全裝置:防火牆、入侵檢測、防病毒等
2)系統網絡層
儲存設備:磁盤陣列、虛拟帶庫、實體錄音帶庫、SAN、NAS等
網絡裝置:路由器、網絡交換機、多層交換機、負載均衡裝置
3)系統層
虛拟化:虛拟網絡資源、虛拟主機、虛拟存儲資源、容器等
伺服器:大中小型機、X86伺服器
4)資料庫層
資料庫:ORACLE、MYSQL、SQL SERVER等
其它系統軟體:備份軟體
5)中間件層
中間件:WEBLOGIC、TOMCAT、REDIS、NGNIX等
6)應用服務層
服務可用性:服務狀态、日志重新整理、端口監聽、網絡連通性等
名額分級:有監控名額,就需要針對監控名額定義門檻值,監控門檻值的設立需要有分級機制。對于更新,是指一個預警當長時間未處理時,需要有一個上升機制,轉化為告警,以督辦運維人員完成監控事件的處理。分級與上升需通過流程管理加以落實。
監控報警消息級别分為以下5種類型:
5. 監控平台介紹
平台總體架構:
平台分四層:工具層-預處理層-服務處理層-展示管理層
工具層:自研采集器+開源采集工具(Zabbix、Prometheus、Sw等),若有工具更新或新的工具接入時,隻需定制相關驅動器即可。
預處理層:平台對采集工具的驅動管理、對采集資料的規則預處理等
服務處理層:自研統一事件處理引擎(下文介紹)、标準化後端、拓撲引擎、智能告警引擎等
展現層:統一告警查詢管理、統一性能展示、統一監控配置中心、平台配置管理、報表中心等。
6. 新一代企業級事件處理引擎
為了解決商業套件Tivoli OMNIbus的性能問題和架構問題,并實作自主可控的目的,經過充分的調研和設計,我們開發了新一代分布式事件處理引擎。可以完美地替代OMNIbus産品,并提供高并發、分布式、可容錯的事件處理機制,可以應對偶發性的告警風暴。另外,值得一提的,“APP應用商店”模式使定制化開發更靈活、功能更強大,你可以用Java、Scala編寫複雜處理邏輯,釋出成APP,熱部署到事件處理引擎中,APP可編排、排程、協同工作,同時也可随時将APP解除安裝。
總體架構:
特色優勢:
實作效果:
7. 持續優化
減少誤報
和ITSM對接,實作監控事件自動派發工單,在ITSM進行統一事件管理;
結合ITSM變更工單,通過CMDB資源關系模型資料,自動化識别變更影響,進行監控維護期配置,減少變更視窗報警外發。
減少漏報
監控評價功能,可以量化監控覆寫情況,進而實作找出非标準監控項、整改不适用監控項、豐富監控标準的目的,借助監控評價主動回報機制,閉環評價流程,以評促改!
監控評價包括1個标準,1個檔案,3個度量名額:
- 監控标準庫是依據;
- 監控檔案庫是實際值;
- 度量名額包括監控覆寫度、标準化率、超額布控率,是評價結果。根據實際情況設定權重系數,計算監控得分。
監控系統建設目标是完善監控能力,持續優化是必不可少的環節,減少誤報的同時,盡量将漏報數量降為0。可以結合豐富的分析類報表,每周、每月進行周期性地分析、優化,特别是對于非監控發現的故障要進行專項分析;告警關聯壓縮可以杜絕“狼來了”的假象;統一事件處理引擎結合CMDB資源關系模型,實作告警關聯,以便故障快速定位;另外,還需要提升監控的自動化能力和智能監控能力,監控标準服務化、監控工具箱、自動化平台等功能結合,完善自動化監控上下線、自動排障、故障自愈的能力。