天天看點

實驗室服務徹底當機記錄——硬體故障——主機闆pcie槽壞掉或顯示卡壞掉

實驗室的深度學習伺服器這次是徹底壞掉了,以前當機都是會在log日志中找到些資訊,這次當機死的幹脆,什麼log都沒有就自動關機了,神奇的很,以前的伺服器當機可能還算是假死,這次的當機就是直接崩潰關機,而且是毫無征兆的關機,這一切就發生正一瞬之間。

伺服器崩潰後的一些資訊:

實驗室服務徹底當機記錄——硬體故障——主機闆pcie槽壞掉或顯示卡壞掉
實驗室服務徹底當機記錄——硬體故障——主機闆pcie槽壞掉或顯示卡壞掉
實驗室服務徹底當機記錄——硬體故障——主機闆pcie槽壞掉或顯示卡壞掉
實驗室服務徹底當機記錄——硬體故障——主機闆pcie槽壞掉或顯示卡壞掉

=============================================

檢視服務的廠家監控日志:

實驗室服務徹底當機記錄——硬體故障——主機闆pcie槽壞掉或顯示卡壞掉

最後這個結果,隻能懷疑是伺服器的pcie的6号slot壞掉了,可能是主機闆上的問題,也可能是這個槽上的顯示卡的問題,總之是硬體壞掉了。

找廠家保修:

由于這個伺服器還在保修期間,于是聯系了售後和廠家,給出的答複也是判斷為硬體故障,不過他們更加懷疑的是主機闆PCIE槽的問題,不管怎麼說這已經不是我所考慮的了,這剩下的就由售後和廠家搞了。

不得不說,玩linux系統十多年了,玩伺服器也好多年了,這也是頭一把見到伺服器硬體損壞的,當時購買這台伺服器的時候我是主張不要保修的,這個保修伺服器這東西,我這麼多年就沒見過伺服器硬體壞的,隻見過伺服器過時淘汰掉的,最後還是師兄力主要保修,看來這也真是幸虧當時買的時候要保修了,不然這可真不知道咋收場,看來伺服器這東西,保修還是很有必要的。

繼續閱讀