天天看點

資料中心機房動力環境監控系統設計探讨

作者:安科瑞新能源有限公司

#頭條創作挑戰賽#

摘 要:結合銀行資料中心建設項目,設計銀行資料中心機房動力環境監控系統,分析銀行資料中心機房監控對象、搭建系統監控架構,給出監控實作方法,*後針對運作一段時間出現的問題,提出優化措施和建議,對同類工程建設具有一定借鑒意義。

關鍵詞:資料中心;動環監控;系統架構;網絡拓撲

0引言

銀行資料中心機房的供配電和精密空調等基礎設施多,而裝置維護人力資源少,是以增加了基礎設施運維人員工作強度和難度。為及時發現裝置故障并處理,本文設計了動力環境監控系統,并針對運作中出現的主要問題給出優化措施。

1系統

監控對象銀行資料中心機房動力環境監控系統(以下簡稱為動環監控系統)的監控對象可分為三大類:第一是對裝置動力系統實時工作狀态進行監控,如供配電系統開關狀态、UPS和柴油發電機等裝置的運轉參數和狀态等;第二是對機房内運作環境進行監測與控制,如溫度、濕度、漏水、氫氣濃度及消防等;第三是對人員裝置進出進行監控,如門禁、攝像頭、防入侵等安全類裝置。而機櫃内伺服器、交換機、加密機等安全或網絡類硬體裝置運作狀态并未納入,不在本文探讨範圍。

2系統架構設計

2.1設計原則

銀行機房動環監控系統設計應遵循“集中化、一體化、智能化”的設計模式,采用高标準的監控系統設計原則,實作主動、高效、流程化的監控管理。

(1)穩定性。動環監控系統作為機房基礎設施“管家”,要求24h不間斷提供服務,這不僅依賴動環監控裝置供電的穩定性,還依靠網絡通信的可靠性。

(2)安全性。動環監控系統信号采集回路應具備良好的保護機制,不會因采集回路故障而造成被監控基礎裝置誤動作或故障,且系統應具備自檢功能,在基礎設施故障時能及時通過電話或短信等方式告知運維人員裝置故障部位、故障性質等。

(3)開放性。動環監控系統應符合開放式設計标準,預留多種對外接口和相容MODBUS-TCP、OPC、OD-BC、BACNET等标準通信協定,以實作與第三方廠商裝置資料的傳輸與交換。

(4)可擴充性。動環監控系統應可擴容及易維護,以适應資料中心機房的擴容、監控裝置增加等變動情形。

2.2系統架構

動環監控系統采用計算機網絡、現代通信技術和控制技術,對機房動力裝置及環境等進行實時監控,實作無人值守機房的現代化管理。硬體上采用三層架構:底層為現場裝置層,由被監控裝置、I/O采集子產品等構成;中間層為資料采集處理層,由各序列槽伺服器、動環伺服器、交換機等構成;頂層為資料應用層,由監控平台或用戶端等終端構成。軟體上采用B/S結構,在機房中通過安裝各種傳感器及資料采集裝置進行底層資料采集,将所有子系統內建在統一的使用者界面下,對各個子系統進行統一監視、控制和協調,進而構成統一的協同工作的整體。系統架構設計如圖1所示。

資料中心機房動力環境監控系統設計探讨

圖1動環監控系統架構設計

3系統實作

3.1工程概況

資料中心主機房設定在6F,按功能細分為伺服器機房一、二、三,網絡機房,配電間A、B;配電間重要斷路器或開關、電量儀、UPS及防雷,主機房内新風機、精密空調及漏水檢測、機櫃PDU、溫濕度、防入侵(紅外線檢測)需納入動環監控系統。UPS蓄電池室設定在-2F,柴油發電機間設定在-1F,三電源切換室設定在1F,運維室設定在7F,消防氣瓶間設定在8F。動環監控系統的監控對象見表1。

表1監控對象

3.2硬體構成

動環監控系統由2台伺服器(雙機熱備)、2台用戶端PC機、監控大屏、核心交換機(A、B網)、視訊彙聚交換機、門禁接入交換機、采集箱及序列槽伺服器等構成。

3.2.1資料采集層核心裝置

采集箱負責開關量、溫濕度等原始資料的采集,是整個監控系統的核心,采用深圳計通機架式,大小為2U,可安裝在機櫃内,箱内采集子產品通過端子排與被監控裝置相連。序列槽伺服器采用計通OAO-9000E嵌入式智能管理單元,該裝置集資料采集、解析、存儲告警于一體,具備正确故障定位能力,可滿足不同廠家裝置資料信号的接入與“翻譯”。

3.2.2現場裝置層

現場裝置層的裝置分為需接協定轉換器裝置、需提供通信協定裝置、模拟量直集子產品和開關量直集子產品四類。

(1)需接協定轉換器(序列槽伺服器)的裝置包括精密空調、漏水繩、機櫃PDU、電量儀、UPS電源、蓄電池、柴油發電機。這些裝置需相應廠家提供通信接口及其開放的通信協定,以便對各裝置運作參數或狀态進行監測。

(2)需提供通信協定的裝置包括視訊監控和門禁子系統。這些裝置需相應的廠家提供通信協定,由動環監控系統進行內建和管理,能實作在動環監控端點選任意攝像頭調出相應攝像頭的實時監控畫面和實作對任意門的開關控制。

(3)模拟量直集子產品。

①溫濕度監測:通過在機房内的重要區域、冷熱通道和機櫃内部安裝溫濕度傳感器,實時采集溫濕度的變化情況和熱力分布情況。

②氫氣監測:通過在電池間安裝氫氣采集子產品,可實時檢測PPM值是否超标,及時發現氫氣洩漏的電池隐患;當氫氣PPM達到設定的門檻值時,系統發出報警。

(4)開關量直集子產品。

①重要開關監測:通過監測配電櫃内重要斷路器的輔助觸點狀态,判斷開關的通斷狀态;當監測的開關狀态與設定預設狀态不一緻時,監控主系統發出報警。

②防雷監測:通過監測防雷器的遙信觸點,實時監測防雷器狀态;當監測的防雷器狀态與設定預設狀态不一緻時,監控主系統發出報警。

③新風排煙監控:通過在新風和排煙管道中安裝壓差開關檢測壓差信号,監測機房内新風機和排煙機的運作狀态,可遠端控制新風機的啟停。

④防入侵監測:通過在機房内安裝紅外探頭以監測機房内人員移動狀态;當紅外探測器的狀态異常時,系統發出報警。

⑤消防監測:通過采集消防控制主機報警輸出點的信号,實時監測機房内各分區的消防狀态;一旦發生報警,系統就自動切換到相應的監控界面,火警狀态圖示變紅且閃爍顯示,同時産生報警事件并記錄存儲。

3.2.3供電與組網動環監控系統硬體

裝置的供電需雙路UPS電源,以確定供電可靠性,滿足24h不間斷提供服務的要求;而且重要的硬體裝置要求主從配置,如動環伺服器具備雙機熱備功能,利用“雙監控系統+雙資料庫”模式,保證系統的不間斷運作。

動環監控系統硬體裝置的組網要求A、B雙網運作裝置逐級彙接模式,網絡裝置由POE交換機、接入交換機、彙聚交換機、核心交換機組成。POE交換機負責視訊錄影機的供電和資料傳輸;接入交換機使用二層有VLAN功能的交換機,負責采集單元中資料收斂;彙聚交換機使用三層交換機,用于彙聚POE交換機資料,避免二層網絡過大導緻環路,也減輕了核心交換機的資料負擔。

動環監控系統的網絡拓撲結構如圖2所示

資料中心機房動力環境監控系統設計探讨

圖2網絡拓撲結構圖

3.3軟體平台

動力環境集中監控平台軟體采用B/S結構,通過在機房中安裝各種傳感器及資料采集裝置進行底層資料采集,外廠家裝置需提供通信接口及其開放的通信協定,進行資料“翻譯”處理,通過機房監控平台集中監控,全中文、圖形化;界面結構層次清晰,實時反映資料狀态。集中監控平台需要能運 行于中文Windows作業系統。動力環境集中監控平台軟體采用子產品化設計,可劃分為采集層、處理層、管理層及展示層,如圖3所示。其中,個人工作平台能提供動環監控主界面、告警事件清單、待辦事項、告警等級統計、PUE實時曲線、基礎設施分類餅狀圖等可自由選擇的個性化定制界面。報表管理可根據機房管理原有報表格式生成詳細的資料記錄報表和資料分析報表,存儲格式為Excel或PDF;資料存儲時間需長于1年,且具有防篡改功能。軟體互動界面中,動環監控子產品可直覺看到各個機房實時運作狀态,設定機房名稱、裝置圖示等超連結可直達各子界面,通過溫濕度監測、門禁、視訊監控、溫度場、漏水監測、紅外監測、消防監測等按鈕可直達各分畫面,并提供基于電子地圖、實時曲線、餅狀圖、折線圖、直方圖等多形式資料展現方式,便于運維人員分析裝置曆史運作趨勢,以判斷裝置狀況。

資料中心機房動力環境監控系統設計探讨

圖3動力環境集中監控平台軟體架構圖

系統告警采取短信、電話、現場語音三種報警結合的方式,報警等級分為緊急、重要、一般三個層次,不同級别的報警采用不同報警方式實作報警資訊的發送。無論系統處于任何畫面,都可自動提示告警,顯示告警資訊。當一個報警狀态解除時,系統可自動發送相應的恢複短信,以便機房管理人員随時掌握相關動态。

4系統運作中的問題及優化措施

4.1常見問題

動環監控系統運作以來,出現過監控平台資料不重新整理,監控平台電腦“假死”,采集資料不準确,系統告警漏報、誤報、頻發(告警信号抖動)及延遲報警問題。

(1)監控平台資料不重新整理。這種情況在實際運維工作中*常見,整個監控平台軟體資料不重新整理或系統中某裝置資料不重新整理,導緻運維人員無法收到告警資訊。

(2)采集資料不準确。這種情況主要展現在監控畫面顯示的資料與現場裝置實際運作資料不符,若畫面顯示的資料超過告警的門檻值就有可能造成系統誤告警或不告警,影響裝置的運作安全。如智能儀表部分測點值與系統顯示值不一緻或機關不同,将導緻該裝置失去監控。在冷熱通道溫度檢測過程中,監控軟體顯示的數值超過告警上限門檻值引發告警,而運維人員現場檢查後并未超限,造成人力資源的浪費。

(3)實時告警問題。動環監控系統告警漏報、誤報、頻發、延遲報警及告警信号抖動等問題是困擾資料中心運維從業人員的嚴重問題。資料中心運維值班人員7×24h應急值班,告警資訊誤報、頻發将給人員造成很嚴重的身體傷害;而告警資訊的漏報與延遲将導緻裝置出現故障時未能及時通知進而導緻更嚴重的機房事故。

①告警漏報:告警漏報主要原因是告警級别設定過低或裝置通信中斷或裝置資訊采集故障等導緻重要告警資訊缺失,未能及時上報運維人員,進而錯失重要告警資訊,将導緻嚴重後果。

②告警誤報:告警誤報是衡量動環監控系統可用性的重要名額,采集裝置受到電磁幹擾或周圍環境改變、協定解析有誤、采集裝置故障、儀表故障、闆卡端口故障等均會引起誤報,如精密空調四周部署的漏水繩因灰塵或沙土等導緻電阻增大進而引起誤報。

③告警頻發:告警頻發類似于“資訊轟炸”,可分為兩種情況:一是同一告警資訊頻繁多次報送給運維人員,原因是當某一測點觸發告警時,采集值在告警門檻值附近來回波動;二是同一事件觸發機房多個動力裝置同時告警,如機房停電或閃停後恢複,各相應重要開關、電量儀、UPS、機櫃PDU等多裝置引起的“電話短信轟炸”。④告警延遲:告警資訊是否及時上報給運維人員是考驗監控系統是否合格的重要名額之一,而上報時間應設定為使用者可選項,如電力閃斷立即恢複的情形,可設定一定延時;而重要資訊應能在15s内完成上報。

4.2優化措施

(1)監控平台資料不重新整理問題的解決。運維人員需熟知動環監控系統架構和網絡拓撲,從單點裝置故障到網絡故障進行排除,對重要裝置必要時可優化系統結構或網絡拓撲,對采集裝置或裝置進行備援備份,或對重要監控對象通信采用A、B雙網通信。

(2)采集資料準确性問題的解決。檢查智能儀表裝置或第三方裝置的通信協定是否準确,與原廠家技術支援核實裝置協定文本正确性,如更換智能儀表未核對通信協定,将導緻資料不準确或無法采集。檢查通信故障,首先檢查實體連接配接是否存在問題,然後對通信配置進行檢查,重點檢查波特率、校驗位、序列槽的設定等是否存在問題。檢查采集裝置或采集箱等裝置、溫濕度探測器等硬體自身是否存在故障,排除裝置硬體故障導緻資料采集不準确的問題。

(3)實時告警問題的優化。首先嚴格控制智能裝置串接數量,避免串接裝置數量過多引起資料上傳緩慢,進而導緻告警延遲。合理配置FSU掃描時間,通過調整動環裝置掃描周期來縮短采集裝置對各個測點的問詢時間,以提高采集速度。其次合理選擇裝置測點,對重要測點進行合理選擇和優化,避免掃描過多的測點造成采集器負擔過重,進而影響采集效率。另外,運維人員應避免非重要資料的掃描占用過多資源,引起采集過慢。再者通過軟體手段控制告警頻發和非合理資料引發的告警,可增加告警回差屏蔽功能,資料采集值超出合理範圍的,通過設定有效的門檻值上下限,屏蔽此部分資料,消除誤告警。電磁幹擾在傳輸過程中産生的誤告警,除在軟體端進行有效門限屏蔽外,還可在傳輸線路上套裝抗幹擾磁環以減少幹擾。*後采用人工智能等先進手段增加告警邏輯關系分析和對告警資訊進行合理分類。如增加告警溯源功能,劃分主次告警,确定告警産生裝置的主從關系,進而對告警資訊進行有效優化,以減少告警“資訊轟炸”,同時不漏掉重要告警資訊。

5動環監控系統解決方案

通過資料中心動環監控系統,實作了對資料中心的門禁狀态、水浸狀态,煙霧狀态,視訊狀态,環境狀态,高低壓配電狀态,裝置運作狀态進行實時監測,并進行實時報警,保障資料中心正常運作,避免運作環境的失控導緻配電裝置運作故障,保證維護人員安全,延長裝置使用壽命,減少配電室粗放式管理導緻成本過高。同時實作動環監控并對各用能耗能進行能效分析,幫助使用者實作用能效率的優化。

5.1系統功能

(1)展示目前資料中心總能耗,IT能耗,空調能耗,及其他能耗并且計算出目前資料中心實時PUE值,通過儀表盤形式直覺展示。

(2)選擇檢視資料中心的中低壓配電系統主接線圖,并在一次圖顯示配電系統目前遙測、遙信資料和狀态。實時監測各配電櫃的電壓、電流等電力參數,變電站的溫濕度、煙感、水浸、門禁等環境情況。

(3)電氣接點溫度實時監測,斷路器觸頭、觸臂、母排和線纜連接配接等位置安裝無線測溫傳感器監測接點溫度,便于提前發現溫度異常導緻的事故。

(4)監測各變壓器各項參數,包括負載率、頻率、功率因數、三相不平衡度等,并且顯示曆時曲線圖,資料實時變化。幫助使用者直

(5)電能品質線上監測,可以監測電流和電壓諧波畸變率、電壓暫升暫降暫中斷等暫态事件記錄、ITIC容忍曲線等

(6)系統采集UPS輸入、輸出端和旁路三相電壓、電流、有功功率、功率因數頻率,同時監測UPS溫度、蓄電池電壓、目前負載下的剩餘時間等資料。

(7)展示單體電池電壓、内阻和溫度,預測電池帶載時剩餘時間,每節電池資料均可以設定異常報警,及時發現蓄電池異常。

(8)展示精密配電櫃内進線和饋線回路電氣參數,包括電流電壓功率電能以及開關狀态,并可以對資料進行報警設定和分級,資料取自精密配電櫃測量子產品。

(9)展示智能小母線的始端箱和插接箱電氣參數,包括電流電壓、開關狀态、插接點溫度,并對資料進行報警設定和分級。

(10)通過平面圖顯示資料中心能源分布,裝置分布情況,并顯示裝置能耗資料,點選平面圖上裝置可以進入具體裝置監控界面。

(11)實時顯示目前資料中心PUE值以及曆史PUE曲線。并且顯示各分項用能的用能情況及用能排行。監測各變壓器運作及負載情況,給出本月變壓器輸出電能排行。

(12)顯示電能消耗日/月/年報表,并可對具體回路選擇曲線圖、餅圖進行展示。對資料中心用電資料進行同比、環比分析比較,檢視用電趨勢。

(13)監測精密空調的回風溫濕度,出回水溫度,并可以設定精密空調的溫濕度,達到更好的控制效果。

(14)監測資料中心溫濕度、開關門、水浸、煙霧、噪聲、氣體濃度狀态等參數。曲線圖直覺明了,同時支援曆史資料查詢

(15)通過清單顯示各類報警事件數量,通過柱狀圖顯示逐日報警數量,提供報警總數以及增長趨勢。

維管理功能,可針對資料中心各主要裝置進行巡檢派工,消缺,搶修等維護工作。

5.2 動環監控系統選型方案

資料中心機房動力環境監控系統設計探讨
資料中心機房動力環境監控系統設計探讨

6結語

動環監控系統在銀行資料中心基礎設施裝置的運作維護中發揮重要作用,在一定程度上扮演了運維人員“眼耳鼻”的角色。動環監控系統的正常運作在于7×24h不間斷服務和重要告警資訊能及時通知相關運維人員。而動環監控系統穩定可靠正确運作的關鍵在于系統架構、供電及組網的設計。在運維過程中,系統難免會出現一些問題,需不斷總結經驗、梳理出問題并進行優化改進。本文基于銀行資料中心動環監控系統建設實際出發,對該系統進行設計并實作,同時對運作出現的問題進行合理優化,結果證明該政策的可行性。

【參考文獻】

【1】萬立勇. 資料中心機房動力環境監控系統設計及優化探究[J]. 電工技術,2022(15):165-167.

【2】李可,王甲甲.電力企業資料中心基礎設施運作管理平台設計[J].數字技術與應用,2021(39):196-197

【3】安科瑞企業微電網設計與應用手冊2022.5版

繼續閱讀