天天看點

IBM伺服器故障判斷心得

聽噪音是否比以前有所增加-----判斷風扇和電源問題

1:x445開機加電無顯示故障

故障現場:開機加電無顯示故障;雙電源、雙CPU、8條記憶體

操作内容:單CPU測試

    1.去掉一顆CPU和VRM測試,開機正常

    2.加入去掉的CPU和VRM測試,開機正常

    3.重新整理BIOS

問題總結:多CPU配置機器大部分時候開機加電無顯示大多都是由于CPU的VRM接觸不良導緻,在有能力的情況下做單CPU測試

2:

故障現場:X345的資訊訓示燈亮燈報錯,但光路LED沒亮燈

操作内容:F2檢視ErrorLog,裡面有Single Bit Error,更換記憶體

問題總結:日志裡面有Single Bit Error,更換記憶體就好了。

3:

故障現場:X346的資訊訓示燈亮燈報錯,具體顯示PS2錯誤 或 光診斷面闆沒有出現相關的硬體報錯資訊

操作内容:确定不是硬體問題,F1進入BIOS 看post envent log 為空 進入adv --> BMC setting 清除BMC log 。關閉伺服器紅燈消失。重起現象還存在,把電源去電幾分鐘就好了 這個是ibm 伺服器的bmc 的一個  bug 現在可以更新bmc解決這個問題。一般換電源背闆就可以解決,在單電源狀态下,故障現象:PS2燈報錯。有部分機器出廠時就有這個問題:标配單電源,卻誤報第二個電源未接,是以PS2燈亮。

是電源背闆微碼識别錯誤,導緻誤報。将電源背闆更換成07版本以上就可以了。可打800電話報修,上門更換。若加載兩個正常的電源,原故障消失,但又出現"Fan"故障。 你所加載的電源,肯定是直接從别的X346機器上拔下來的。事實上如果加插備援電源,則X346要求風扇也必須滿配,否則報錯。

問題總結:X346通病,電源換一個位置就差不多沒問題了,或者試試關掉電源幾分鐘再開機

4:關于cpu不同級問題

故障現場:X366-1RC ,使用1個标配的CPU時正常,當加入第二個CPU時出現不定時無故重起

操作内容:" The CPUs in this multiprocessor system are not all the same revision level. To use all processors the operating system restricts itself to the features of the least capable processor in the system. Should problems occur with this system, contact the CPU manufacturer to see if this mix of processors is supported. "---系統日志。F1進入Bios, 進入cpu資訊p1 levels 17 ,p2 levels 2 相差太遠了解決方法更換第二個cpu

問題總結:CPU 不在一個等級上(伺服器的cpu都是xeon話支援smp技術,但是一樣的CPU 使用時一定要确定是否在一個等級) 

5:

故障現場:X260的伺服器8IRAID卡,通過SERVERGUIDECD光牒進入進行RAID配置進,行RAID配置的過程中卻沒有發現任何磁盤

操作内容:下載下傳了SERVERRAID8.20CD光牒後。給客戶的更新了13N2227的FIRMWARE和BIOS後

問題總結:X260伺服器内部架構屬于X3架構,與X366内部類似。同樣安裝了8IRAID卡。X260為新機型需要用FRU号為39R8729的那塊卡才行,原先的13N2227這塊卡不行。或更新13N2227這塊卡的FIRMWARE和BIOS。通過SERVERRAID8.20啟動後能夠正常認出硬碟并進行了RAID配置

6:X236+6M認不出盤

故障現場:X236+了6M卡和6塊146GSCSI盤

操作内容:在讀取6M陣列卡BIOS時卻一直處于6分鐘的搜尋硬碟過程,但一個盤都沒有認出,進入CTRL+I對6M卡的BIOS進行了RESTOR FACTOR,但是卻一直卡在PROSSING的這個過程中。6M卡進行了重新插拔,更換PCI槽口,以及更換SCSI槽口結果仍然沒有效果。咨詢提示提示:

1、先把所有硬碟拔下。

2、開機進6M卡BIOS重新進行RESTOR FACTOR。

3、一塊一塊的逐個添加磁盤。成功

問題總結:每次新添加一塊磁盤的時候在6M卡BIOS讀秒的時候大概是需要1分10秒左右。其中有一次我是一下子添加了2塊盤用掉2分鐘多點。那是不是因為6塊盤一起上的時候6M卡搜尋磁盤的讀秒時間不夠所造成磁盤沒有搜尋到呢有待證明。

7:HBA卡驅動錯誤

故障現場:伺服器NMI/PCI/LOG燈亮,進系統時藍屏

操作内容:重新整理BIOS/BMC/CPLD/DIAGNOSTIC。

1.抓去BMC日志儲存

2.檢查機器内部PCI卡,PCI4槽位上接了一塊Qlogic的HBA卡,這張卡接的非常松,感覺根本沒有插上

3.拔掉HBA卡開機測試一切正常,清空日志,斷電再将HBA卡重新插回去開機測試,在windows2003自檢硬體過程中系統又藍屏,同時NMI/PCI/LOG燈亮。

4.重新去除HBA卡開機後正常進入系統,考慮機器微碼比較老,先把微碼用update express4.05CD光牒刷到最新版本,再接回HBA後正常進入系統,但是這時在系統中提示要重新安裝HBA卡的驅動程式,客戶自行找了一個驅動安裝上後重新啟動,重新開機後檢測硬體故障又出現了。這樣可以判斷應該是HBA卡驅動的問題。

5.開機按F8進入作業系統,将HBA卡驅動删除,然後檢視HBA型号,安裝針對該型号驅動後,一切正常,多次重新開機都無故障。

問題總結:硬體故障的排除步驟

8:更換8863機器硬碟服務

故障現場:88631RC,5塊硬碟,RAID5,ID0硬碟頻繁離線,每次重新拔插都能正常rebuild

操作内容:1.安裝serveraid manager 8.40版,安裝過程無報錯,在重新啟動伺服器關閉作業系統過程中有幾個軟體的報錯

2.重新開機過程中在通過windows2000啟動進度條之後系統藍屏,藍屏代碼c0000218,上一次正确配置、安全模式均出現次故障

3.檢視raid卡日志并未發現有明顯的報錯,想檢視陣列是否有壞條帶,但是在8i日志中并未看到有壞條帶這一相關資訊,向同僚請教也未發現有相關資訊;将raid卡BIOS和Firmware同樣更新到8.40(5.20.11835)後故障同樣。客戶有相同機器,安裝的系統版本也一緻,通過另外一台機器建立緊急修複磁盤對作業系統進行緊急修複(手動和快速兩種方式)後故障依舊。通過internet上搜尋,有朋友通過故障恢複控制台進入使用chkdsk /r指令修複了該故障,嘗試相同方法,故障依舊。(網上的朋友是單硬碟模式,可以修複該類硬碟壞區故障,由于客戶使用的是raid5陣列,是以這種修複無效)

4.考慮客戶資料問題,在原有作業系統上覆寫安裝windows 2000server後先把重要資料備份出來,之後再重新安裝了一遍作業系統

5.然後使用serveraid support cd 8.40CD光牒引導伺服器将ID0硬碟手工設定為defunct狀态,再将其拔出,插上新硬碟,硬碟這時開始自動rebuild,由于硬碟中資料量不是很大,5塊73.4G硬碟同步時間大約為30分鐘,同步全為背景自動操作,在同步期間伺服器重新開機多次,重新開機到檢測陣列卡過程中停止,提示陣列卡發現有硬碟missing或者array is rebuilding,提示三種操作:a.直接安回車,接受現在的狀态;b.按ctrl+h(後面忘了是什麼,等待查hmm);c.按ctrl+m(後面忘了是什麼,等待查hmm);是以在每次重新開機過程中都需要手動按下回車之後才會進入作業系統

6.重新整理5個硬碟的微碼到同一版本T107,結束服務

繼續閱讀