案例應用解決方案 >
全棧監控+統一告警+智能值守解決方案
全棧監控+統一告警+智能值守解決方案,旨在為經曆IT系統規模激增和複雜性加劇的企業提供一站式、全方位的運維監控管理服務。該方案通過全面覆寫系統各層次的監控,統一整合告警管理,以及智能化的自動值守,確定運維過程的高效和系統運作的穩定。
全棧監控對基礎設施、中間件、服務、應用、調用鍊等各種IT資源進行立體化監控,實時監測系統的運作狀态和性能名額,及時發現潛在的風險和異常,并通過統一告警管理,将所有告警資訊集中治理,避免資訊孤島和重複告警的問題,提高了告警的準确性和響應的及時性。同時,智能值守系統實作了7*24小時自動化值守和智能應急處置,能夠在接收到告警後自動響應,給出相關的解決方案建議,并跟進處置狀态,減少了對人工幹預的依賴,提高了問題處置的效率和準确性。
通過該解決方案,企業能夠實作“全面立體監控,實時發現異常,提升告警品質,支撐快速響應”的監控管理目标,確定IT系統的高效、穩定運作。
案例背景 >
經過多年的沉澱,案例客戶在運維方面已經布局搭建了部分運維監控工具,由于各個運維點位建設初期并沒有整體規劃,這些運維監控工具的監控手段比較單一、技術相對落後,且運維資料相對分散,缺乏互聯互通和協同工作機制,不具備統一的一體化管理能力。此外,現有運維團隊受限于自身技能與工具能力,在應對系統故障時無法保證及時性與高效性。
案例客戶為了應對70餘套業務系統以及數百個系統節點所帶來的運維壓力,迫切需要一套完整且專業的智能運維體系以提升運維管理能力,實作一體化和精細化運維管控,全面保障IT系統的穩定運作。
01 需求分析
01.1 面臨的問題
·運維手段不足-管理盲點範圍大
由于監控工具技術較為陳舊,導緻無法相容部分裝置類型、軟體版本的監控;而使用開源技術則意味着需要持續投入人力進行開發維護,是以目前僅實作了對于伺服器和日志的部分監控,應用性能、中間件和資料庫等監控缺失,在監控的覆寫面、名額覆寫度和實時性等方面的不足,導緻無法實時反應系統運作情況,故障發現比較滞後,甚至出現晚于使用者上報的情況。已無法滿足目前複雜系統的運維監控需求。
·運維資料分散-排查處置效率低
監控資料與其産生的告警分散在各工具平台中,缺乏統一的管理視圖與關聯彙總的告警資訊,在面對大量告警時,運維人員無法快速識别重要告警,并判斷問題影響範圍;故障排查時,各專業組難以進行整體性的關聯分析和故障溯源。
·智能決策缺失-管理協作靠人工
故障分析與處置環境完全依賴人工。在業務系統出現異常時,一線運維人員由于經驗與技能的不足,往往需要尋求二、三線運維人員的協助,溝通與人力成本較大,而故障處理的用時過長,增加業務受影響的周期。
01.2 項目建設目标
·監控全方位100%覆寫
針對全棧軟、硬體性能名額通過多管道多方式的監控采集,且具備自定義腳本上報資料的能力,建設一套平台全面覆寫各種監控類型,包括但不限于使用者體驗監控、應用性能監控和基礎資源監控(包括伺服器、中間件和資料庫等)。此外,補全日志資料的實時采集與監控。確定運維團隊能在第一時間感覺系統異常。
·建構統一運維資料視圖
通過統一平台融合運維大資料,包括結構化和非結構化資料,打通監控、告警和資産等資料。從業務視角出發,對核心骨幹鍊路、核心業務應用、監控告警等資訊重點展示,提供運維資料可視化洞察,幫助運維人員全方位掌握IT系統運作狀況。
·提升告警品質、加速故障響應
對日常出現的大量相同或相似告警事件進行壓縮,使運維人員的工作更聚焦于問題與故障的發現與溯源。使用告警處置跟蹤,故障識别與自動更新,一鍵拉會并啟動應急指揮室等自動化、智能化手段應對告警事件,節省人工幹預的時間和精力,并能夠在故障發生後快速響應和處理,降低故障對系統穩定性和業務連續性的影響。
02 解決方案及思路
02.1 建設思路
該方案内置基礎資源監控、應用性能監控與使用者體驗監控子產品,實作集基礎環境、伺服器、存儲、網絡、作業系統、中間件、資料庫等于一體的統一監控覆寫。
方案以鼎茂科技自研的ARCANA平台(多模态資料智能分析與決策平台)作為統一資料底座,彙聚性能名額與日志等運維大資料;通過ARC-IOC(數智營運中心)使用低代碼方式快速建構運維監控管理可視化視圖;通過Di-Logger(智能日志中心)對日志進行監控與分析,将經由各監控子產品與日志平台生成的告警推送給Di-Alert(智能告警中心),實作告警壓縮與處置流轉,并由Di-Robot(智能值守中心)跟進告警的處置,形成故障發現、分析、處置的閉環。
02.2 方案實施
Step1 部署全棧監控子產品(基礎資源監控、應用性能監控、使用者體驗監控、日志監控)
·使用各監控子產品,圍繞業務價值建構多元度的運維監控體系,實作業務系統與基礎資源的全方位實時監控,擴大監控覆寫度、提升監控名額靈活性;設定及時準确的監控告警機制,在問題初現端倪的第一時間進行告警;
·利用Di-Logger的日志分析能力,對日志進行實時檢測,對日志中隐藏的異常進行告警。
Step2 部署雲原生數智底座(ARCANA平台)
·通過ARCANA平台提供統一運維門戶,內建所有運維監控管理工具形成統一運維入口。對運維大資料進行彙聚分析,提供低代碼、可視化編輯的運維監控大屏、移動端視圖等,形成個性化運維界面;
·基于底座搭載的豐富功能子產品,可快速實作各項智能運維能力擴充。
Step3 搭載智能告警功能子產品(Di-Alert)
·由Di-Alert承接告警統一、告警壓縮、告警視圖的主要能力。對海量告警進行關聯壓縮,以告警拓撲視圖的形式對關聯告警進行通知和播報。
Step4 建構個性化運維可視化視圖(ARC-IOC)
·基于整合運維資料,包括交易-業務-服務-基礎元件-基礎設施的全棧名額、日志資料、告警資訊,資産資訊和事件工單等,以業務系統為核心,形成業務運作狀态、系統健康狀态等的可視化洞察。
Step5 搭載智能值守功能子產品(Di-Robot)
·由Di-Robot承載故障值守和應急管理等能力。實作自動化告警判斷與故障更新,高效組織應急響應,提供故障場景下的智能決策。
03 項目成果
03.1 實作70+套業務系統的監控全覆寫
通過基礎資源監控的替換,實作目前管理機制中所存在的作業系統監控不全、名額遺漏,以及資料庫、中間件等監控缺失等管理盲點的改善。通過建設覆寫所有業務系統的應用性能監控和使用者體驗監控,直覺反映業務健康狀态,提供故障的感覺能力。
03.2 提供所有業務系統的全局監控視圖,和IT系統拓撲視圖
通過全局視圖,監視所有應用的健康狀況;通過IT系統拓撲視圖,檢視應用相關的主機、網絡、中間件和資料庫等的性能情況,可下鑽的拓撲視圖至名額趨勢詳情或日志明細,為分析故障影響範圍、排查問題根因提供有力支撐。
03.3 實作告警壓縮與處置流程線上化
針對各類監控所産生的大量告警事件,進行告警收斂、壓縮、降噪等處置,屏蔽告警風暴,聚焦有效告警,提升告警可讀性,并改善多源告警分散管理的現狀,實作統一告警分派、通知、認領、開單、處置、結單的告警處置流程閉環。
03.4 以業務視角組建運維管理大屏
實作客戶全量運維資料資産沉澱,以統一資料融合平台的形式,将目前多資料通道、多資料類型、多資料格式、多資料标準并存的運維資料,以業務視角設計運維管理故事線,并形成統一運維大屏作為日常運維管理的資料檢閱工具。
03.5 實作自動化、智能化運維值守與應急處理
實作7*24的自動值守,啟用了數十類故障自動更新與處置規則,幫助一線運維人員在常見系統故障發生後及時響應。在排障過程中,可以通過故障應急駕駛艙所提供的故障處置最佳實踐、曆史故障處理記錄,輔助應急響應決策,提高故障應急效率。
04 客戶收益
鼎茂科技幫助該客戶實作了監控體系的全面更新,并對監控生成的告警進行治理與壓縮,對于故障告警進行高效處置,使用可視化大屏展示業務健康狀态和核心名額趨勢等重要資訊。整體提高了故障發現到定位的時效性,提升故障處置效率。
即時收益:
·達成重要(業務)系統、資産、名額100%的監控覆寫率;
·統一去除無效告警并進行智能分析降噪,實作超過90%的告警壓縮率;
·實作自動化故障響應,提升一線運維人員的故障處置率至90%以上。
擴充性收益:
·解決方案能夠快速擴充覆寫新增的業務系統或軟硬體資産,輕松應對業務增長所帶來的增長需求;
·并提供了全面運維資料的采集、治理與分析能力,為後續更多智能化運維分析場景落地提供了基礎。