天天看點

記錄一次實驗室顯示卡伺服器崩潰事件(Ubuntu18.04 server系統,4塊NVIDIA的特斯拉顯示卡)

系統報錯(顯示屏上的錯誤):

記錄一次實驗室顯示卡伺服器崩潰事件(Ubuntu18.04 server系統,4塊NVIDIA的特斯拉顯示卡)

系統中的日志檔案中所有的log檔案都沒有記錄這次崩潰事件。

不過根據螢幕上顯示出的報錯,大緻估計為顯示卡的問題:

重新開機後檢視顯示卡位址:

記錄一次實驗室顯示卡伺服器崩潰事件(Ubuntu18.04 server系統,4塊NVIDIA的特斯拉顯示卡)

發現報錯的顯示卡是  0号顯示卡。個人估計就是實驗室的很多大學生不太會指定顯示卡号,是以0号顯示卡上運作的程式較多,導緻沖突,不過這也隻是猜測。同時這個問題也可能是顯示卡的工作模式設定不當等原因産生的,于是将顯示卡的工作模式調為 Persistence-M (Persistence Mode) ,

如果驅動可以一直加載到系統中,直覺感覺應該會減少顯示卡工作報錯的現象,不過這也隻是猜測。