天天看点

nvidia-smi突然之间运行不了了

安装完ubuntu之后,又花了大功夫安装最新驱动和各种需要的软件,心想这下子终于没问题了,只要之后保持不尝试会黑屏的命令,应该就不会再出问题了,然而问题还是发生了……

最近编译gpu版本的mxnet总是不能成功,内心焦虑不已,几天后的今天突然发现 nvidia-smi 都运行不了了,说是找不到命令,在网上大肆搜索了一波解答,均无效或者不适合我(手动重装nvidia,你可知我当时手动重装nvidia导致黑屏重装过多少次吗?)

但是打开“软件&更新”的“附加驱动”,里面全是灰色的选项,一个也不能点击,通过它来安装驱动的想法也破灭了

不过不能放弃啊,我逐个地更换已有内核,终于在最早的一期内核里面发现,“软件&更新”的“附加驱动”不是灰色的,于是我就安装了最新的470版本,点击图中第一个,点击“apply changes“:

nvidia-smi突然之间运行不了了

这一次再运行nvidia,发现报错变了,变成了:NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

也算是一个小小的进步吧,意思好像是因为内核和驱动版本不匹配?我也不确定,但是内核版本我是没法再还原了,这已经是最早的一版了,所以我又安装了driver460试试,点击图中第二个,点击“apply changes“:

nvidia-smi突然之间运行不了了

安装完成之后,我再次运行命令:

nvidia-smi突然之间运行不了了

 真的激动,不过需要注意的是,我的显卡要求cuda必须是11.1其以上,所以我安装的驱动支持的cuda版本不能低于11.1,这里460支持的最高cuda版本可达11.2,也还是符合我的要求的,棒棒哒!

讲真,我也不知道为什么过了几天,nvidia-smi命令就没用了,不知道是不是系统更新的原因,我根据网友https://blog.csdn.net/u012114438/article/details/104425573的指示,刚刚关闭了自动更新,里面的第二项改称“Never”。

nvidia-smi突然之间运行不了了

 这几天我会持续观察,看看会不会再出现driver的这个问题