天天看点

实验室服务彻底死机记录——硬件故障——主板pcie槽坏掉或显卡坏掉

实验室的深度学习服务器这次是彻底坏掉了,以前死机都是会在log日志中找到些信息,这次死机死的干脆,什么log都没有就自动关机了,神奇的很,以前的服务器死机可能还算是假死,这次的死机就是直接崩溃关机,而且是毫无征兆的关机,这一切就发生正一瞬之间。

服务器崩溃后的一些信息:

实验室服务彻底死机记录——硬件故障——主板pcie槽坏掉或显卡坏掉
实验室服务彻底死机记录——硬件故障——主板pcie槽坏掉或显卡坏掉
实验室服务彻底死机记录——硬件故障——主板pcie槽坏掉或显卡坏掉
实验室服务彻底死机记录——硬件故障——主板pcie槽坏掉或显卡坏掉

=============================================

查看服务的厂家监控日志:

实验室服务彻底死机记录——硬件故障——主板pcie槽坏掉或显卡坏掉

最后这个结果,只能怀疑是服务器的pcie的6号slot坏掉了,可能是主板上的问题,也可能是这个槽上的显卡的问题,总之是硬件坏掉了。

找厂家保修:

由于这个服务器还在保修期间,于是联系了售后和厂家,给出的答复也是判断为硬件故障,不过他们更加怀疑的是主板PCIE槽的问题,不管怎么说这已经不是我所考虑的了,这剩下的就由售后和厂家搞了。

不得不说,玩linux系统十多年了,玩服务器也好多年了,这也是头一把见到服务器硬件损坏的,当时购买这台服务器的时候我是主张不要保修的,这个保修服务器这东西,我这么多年就没见过服务器硬件坏的,只见过服务器过时淘汰掉的,最后还是师兄力主要保修,看来这也真是幸亏当时买的时候要保修了,不然这可真不知道咋收场,看来服务器这东西,保修还是很有必要的。

继续阅读