天天看點

案例分享| CPU監控異常

作者:LinkSLA智能運維管家

CPU使用率監控很關鍵,綜合反應系統的負載情況,是監控的重要名額之一。CPU的使用率,對業務系統性能有重要的影響,根據CPU使用率監控,可以對系統或應用進一步分析調優。

4月25日22點,平台收到某縣級醫院HIS資料庫伺服器CPU使用率超出門檻值報警,CPU使用率99%,遠遠高出預設的門檻值

告警資訊

4月25日

HIS資料庫 CPU使用率超出門檻值。

案例分享| CPU監控異常

事件持續1小時30分鐘。

處理過程

MOC工程師通知客戶現場工程師,建議通過任務管理器檢視占用CPU資源的程序,檢視應用程序耗用CPU的情況。。

由于客戶未在事件發生時間點檢視占用CPU資源的程序,客戶未能監控到非必要運作程序,是以未及時解決問題。MOC值守工程師持續跟進,并将HIS資料庫報警記錄再次發給客戶進行提醒。

案例分享| CPU監控異常

HIS系統是醫院裡比較重要的系統,需要多任務同時處理,并且需要資料庫的長時間運作,是以對CPU的浮點運算能力要求特别高。為防止因為CPU使用率過高引起系統運作緩慢甚至當機,二次提醒後,引起客戶重視。

在LinkSLA線上專家建議下,客戶工程師通過運作Process explorer,檢視oracle.exe程序中各線程占用CPU的變化情況,檢視Oracle.exe中的thread是否占用CPU。

案例分享| CPU監控異常

客戶通過監控,果然查到了占用CPU資源比較多的SQL語句程序,并進行優化處理,問題得到解決。

案例小結

HIS系統對CPU的浮點運算要求高,當HIS系統CPU使用率高達99%時,系統運作速度非常慢,但是過一會,CPU使用率又恢複正常值,系統運作速度恢複正常。這種現象容易麻痹客戶,忽視系統中存在的問題。

HIS系統是醫院核心系統,如發生當機,将對醫院業務産生嚴重影響。LinkSLA智能運維平台提前預警,快速定位跟蹤解決,避免業務中斷,保障系統健康運作。

在日常的運維環境中,想要保障系統監控穩定運作,CPU監控還需要監控這些内容。

CPU監控名額

案例分享| CPU監控異常

windows作業系統監控名額

CPU空閑時間百分比

中斷CPU時間百分比

特權模式CPU時間百分比

非空閑線程CPU時間百分比

案例分享| CPU監控異常

linux作業系統監控名額

空閑CPU占比

CPU等待IO時間占比

系統CPU百分比

使用者CPU百分比

平台采用機器學習算法進行異常檢測,基于agent、snmp等方式來監控作業系統各個名額狀态,對于強調周期性的名額,如CPU使用率,發現異常警,及時通知使用者,持續跟進直到問題解決。

LinkSLA智能運維管家通過全鍊路的監控,打破運維孤島。為使用者提供高效降本的運維服務,及時處理伺服器部件出現的問題,避免因異常故障導緻當機,甚至資料丢失,保障業務系統健康穩定運作。

繼續閱讀