天天看點

【硬體維護】多種日志輕松定位硬體故障

作者:餘祥軍

同僚發現某台機器上message日志數量突然暴增,簡單檢視了下有記憶體相關的報錯,是以轉交給我來檢視。

進入伺服器檢視message日志,先看看同僚說的告警到底是什麼,如下圖

【硬體維護】多種日志輕松定位硬體故障

還真是,通道3,第一個槽位的記憶體發生故障了。但是,我隻知道A1/B1/A2/B2,是以我還是繼續。

不論怎樣

Ipmitool工具檢視了下,确實是有記憶體告警,如下圖

【硬體維護】多種日志輕松定位硬體故障

雖然告警,可是無法定位大具體哪根記憶體壞了呀

我們還有DELL自帶的IDRAC的web頁面可以檢視硬體狀态,登陸看看,先看看日志,這裡有了吧,B6記憶體槽故障

【硬體維護】多種日志輕松定位硬體故障

再看看硬體狀态,B6記憶體存在告警

【硬體維護】多種日志輕松定位硬體故障

就此,我找到了我想要的資訊,定位到了B6記憶體故障,需要更換,至于如何更換,需要注意哪些事項,以後再說

硬體安全是伺服器最底層的安全,一定要做好各項硬體監控,及時處理硬體故障,否則,你們懂的。介紹接種常見的日志

1、messages日志

2、dmesg日志

3、ipmitool sel list檢視硬體日志

4、遠端管理頁面上的日志(DELL的IDRAC,HP的ILO,IBM的IMM等等)

5、smart日志

【硬體維護】多種日志輕松定位硬體故障

繼續閱讀