天天看點

案例解讀 | 某上市能源企業統一監控平台建設實踐

作者:樂維社群

項目背景

客戶介紹

客戶企業是一家在香港聯合交易所主機闆上市的投資公司。公司主要投資建設和經營城市瓦斯管道網絡,提供管道安裝及施工服務,并為工商業企業和城市居民提供天然氣、液化石油氣。

痛點分析

作為一家大型瓦斯供應和分發企業,一方面,瓦斯供應的安全性和穩定性直接關乎人民群衆的生命财産安全,同時關系到工商企業生産服務的穩定性與連續性等,對裝置和系統的高可用性具有非常高的要求。另一方面,客戶企業擁有複雜的管網系統,包括輸氣管道、調壓站和使用者終端等,涉及到維護管道的完整性、監測管網壓力、及時排查和修複管道洩漏等,面臨着龐大的瓦斯管網、裝置和系統的管理挑戰。

樂維方案

為解決上述痛點,滿足客戶企業的運維需求,樂維結合該企業現有資訊化架構,提出了建設智能化統一監控平台的方案。方案部署情況如下:

1.集中監控:包括從IT基礎架構到業務系統的可用性、性能、日志等名額監控;

2.集中告警:集中告警展示、告警分發、告警處理等全生命周期管理;

3.可視化:可自動發現的網絡拓撲、業務地圖、投屏視圖、圖形視圖、一覽視圖等可視化功能;

4.多樣性報表:支援自定義、多元度、多名額報表統計功能。

集中監控

樂維項目團隊對客戶IT資源狀況進行梳理,确定項目所涉及的監控對象包括主機、網絡裝置、資料庫、中間件、應用、業務系統、存儲、虛拟化等,決定為客戶打造以統一門戶為中心的集中監控。

案例解讀 | 某上市能源企業統一監控平台建設實踐

監控對象與名額詳情

主機系統:IP位址,系統類型、業務名稱等

網絡裝置:裝置名稱、裝置類型、裝置團體名、管理IP

資料庫:資料庫類型、資料庫版本、監聽端口、執行個體名

中間件:中間件類型、中間件版本、部署路徑、IP位址,服務端口

虛拟化:虛拟化類型、型号、管理IP位址,用于監控的賬号密碼

伺服器:伺服器品牌、型号、帶外管理位址、團體名

存儲:存儲品牌、型号、管理口位址、團體名、用于監控的賬号密碼

……

一般地,企業的資訊化系統不是一次性建成、一成不變的,不少資源廠商出廠自帶監控系統,這就導緻了整個監控體系分散,各自監控各自裝置,運維人員進行巡檢工作時需要切換不同的監控工具,增加工作量的同時還容易遺漏故障資訊。

集中監控是最高效的監控。統一門戶提供了一個集中監控視圖,運維人員可以在一個界面上檢視和管理多個系統、裝置或應用程式的狀态和名額。例如,對伺服器的監控,統一門戶可以做到将不同品牌、不同型号的伺服器進行統一納管和展示。

同時,當發生故障或異常時,運維人員可以迅速定位問題,而不需要逐個檢查每個系統。這使得故障診斷和響應更加迅速和高效,有助于減少停機時間和服務中斷。

架構說明

客戶企業監控對象為包括涵蓋了作業系統、網絡裝置、資料庫、中間件、虛拟化、伺服器、存儲,總體監控對象在500以内。

鑒于客戶對業務安全與穩定性的要求,樂維方案專家團隊本次系統架構部署如下:

案例解讀 | 某上市能源企業統一監控平台建設實踐

采集伺服器采用主備配置。主備系統可以提供備援的監控功能,當主監控系統發生故障或不可用時,備用系統能夠自動接管監控任務,有效提高系統的可靠性、連續性和安全性,減少停機時間,并支援業務的連續性。

集中告警

引入集中監控之外,樂維為客戶企業打造了配套的集中告警功能。

在原有的運維體系中,客戶企業由于告警資訊分散,難免出現異常被忽略的情況;而且由于運維人員不可能不間斷地開展巡檢工作,是以巡檢間隙産生的告警存在解決滞後的情況。

案例解讀 | 某上市能源企業統一監控平台建設實踐

借助集中監控推送的資料,得以實作集中告警展示、告警分發、告警處理等全生命周期管理;當系統出現故障、達到門檻值或發生重要事件時,運維人員隻需要通過一個通知系統就可以收到來自不同資源的告警資訊,而無需關注多個獨立的告警系統。

此外,告警管理子產品還提供了實時告警、全部告警、告警統計、告警更新及多方式告警通知等功能,支援郵件、短信、企微、釘釘、腳本等多種告警通知方式,一旦出現告警資訊解決遲滞,告警資訊将向上傳遞到上一級運維管理人員。

可視化

由于原有的監控系統分散、不成體系,運維人員無法感覺資源間的關聯關系,當故障發生的時候,不能快速評估故障節點可能帶來的關聯影響。為此,樂維為客戶打造以網絡拓撲為中心的可視化功能體系,提供一覽視圖、業務拓撲、投屏視圖等功能。

案例解讀 | 某上市能源企業統一監控平台建設實踐

網絡拓撲描述了網絡中裝置之間的實體或邏輯連接配接方式和結構布局,通過網絡拓撲可直覺的看到目前網絡健康狀況,以及裝置之間的通信路徑和資料流動方式。當網絡中某個裝置或鍊路出現故障時,拓撲結構可以幫助确定故障的範圍和影響。

更重要的是,系統提供網絡拓撲的lldp配置功能,可以實作網絡拓撲自動發現、自動關聯網絡裝置并生成拓撲圖。

多樣性

方案還引入報表管理系統,提供實時報表、TOPN報表、流量報表與日報周報等功能,支援自定義、多元度、多名額報表統計。

案例解讀 | 某上市能源企業統一監控平台建設實踐

案例客戶原有的運維系統缺乏故障預判能力,解決這一問題的關鍵就在于報表系統。

實時報表可以提供對系統性能的實時監測、并對系統狀态的即時回報。當監控名額達到或超過設定的門檻值時,實時報表可以發出警示,指引運維人員及時解決潛在的故障或問題,進而降低系統停機時間和服務中斷的風險;運維人員可以随時檢視關鍵性能名額的變化趨勢,透過趨勢情況,迅速發現性能瓶頸、資源緊張或異常行為,進而采取相應的優化措施,提高系統的性能和響應能力。

借助TOPN報表,運維人員可以快速識别出系統中的關鍵問題或異常,确定優化重點,監測趨勢和變化、進行資源配置設定和規劃以及進行容量規劃和預測。例如,通過檢視CPU使用率的TOPN報表,可以确定哪些程序或任務占用了大量的CPU資源,進而找到導緻性能下降或系統負載過高的根本原因。

此外,運維人員還可根據不同業務場景、不同情況進行自定義報表配置。

客戶收益

根據樂維方案建成統一監控平台後,案例客戶實作了對管網和裝置産生大量的資料,包括壓力、流量、溫度等名額資料的實時監測、存儲和分析,并籍此獲得有關裝置運作狀況、性能趨勢和故障預測的洞察。這有助于進行預防性維護和優化管網運作,提高裝置的可靠性和效率。

當監控平台檢測到裝置或系統發生故障或異常時,借助集中告警與可視化工具,運維人員可以迅速地定位問題和進行故障診斷。通過監測和分析相關的資料和日志,運維人員可以更快地了解故障的根源,并采取相應的糾正措施,以減少故障持續時間和生産中斷。

繼續閱讀