天天看點

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

前段時間伺服器的配置出了問題,隻能将顯示卡驅動、cuda、cudnn都重新安裝配置。 沒想到,才過了沒多久,有兩台伺服器又相繼出現問題,需要重新安裝。想到上次安裝的時候臨時找教程和資料的痛苦,這次決定将整個安裝過程以及遇到的問題和解決方法記錄下來,以後或許還會用到。

1  版本資訊

系統及待安裝的驅動、cuda和cudnn版本資訊如下:

系統:Ubuntu 18.04

顯示卡驅動:NVIDIA-Linux-x86_64-430.40

cuda:cuda_10.0.130_410.48_linux

cudnn:cudnn-10.0-linux-x64-v7.6.2.24
           

2  顯示卡驅動安裝

2.1  準備工作

在安裝顯示卡驅動之前,需要先在系統的blacklist.conf中将nouveau驅動禁用。

打開blacklist.conf檔案:

sudo vim /etc/modprobe.d/blacklist.conf
           

在該檔案末尾添加:

blacklist nouveau
options nouveau modeset=0
           

儲存修改,然後退出,接着執行:

sudo update-initramfs -u
           

重新開機系統,執行以下指令:

lsmod | grep nouveau
           

沒有輸出任何資訊,則nouveau被成功禁用。過程如下圖所示:

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

2.2 驅動安裝

Nvidia顯示卡驅動安裝的過程分為三個步驟:(1) 禁用X-Windows服務;(2) 解除安裝原有顯示卡驅動;(3) 安裝新的驅動。所有操作都是在指令行中進行操作,我是terminal登入的伺服器,預設是指令行方式。如果是界面登入的話,需要通過以下組合快捷鍵登出,進入到指令行操作。

Ctrl + Alt + F1
           

(1) 禁用X-Windows服務

sudo service lightdm stop
           

在執行上述指令時,可能會出現失敗的情況,報如下錯誤:

Failed to stop lightdm.service: Unit lightdm.service not loaded.
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

出現這個錯誤的原因是系統并沒有安裝lightdm,通過以下指令安裝後,再stop就可以了。

sudo apt install lightdm

sudo service lightdm stop
           

安裝lightdm出現如下選項,選擇lightdm。

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

如果未禁用X-Windows,可能出現如下錯誤:

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

如果禁用後該錯誤還是出現上述錯誤的話,則通過init 3切換到指令行,并删除X相關檔案。

sudo init 3

sudo rm -r /tmp/.X*
           

(2) 解除安裝原有顯示卡驅動

安裝新的驅動前,需要将之前安裝的nvidia相關的東西都删掉,指令如下:

sudo apt-get remove --purge nvidia*
           

(3) 安裝新的驅動

首先,需要給下載下傳的驅動.run檔案可執行的權限(chmod +x),也可以直接給所有權限(chmod 777)。

sudo chmod 777 NVIDIA-Linux-x86_64-430.40.run
           

運作該驅動程式:

sudo ./NVIDIA-Linux-x86_64-430.40.run
           

安裝過程中會有一些選項,預設回車即可。

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

顯示卡驅動安裝完成。

檢視Nvidia顯示卡驅動版本,可采用如下指令:

cat /proc/driver/nvidia/version
           

顯示如下資訊:

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

再次啟動X-Windows服務,并重新開機系統。

sudo service lightdm start

reboot
           

3  cuda安裝

如果之前安裝了cuda,老規矩,先解除安裝,并删除cuda-10.0檔案夾。指令如下:

sudo /usr/local/cuda-10.0/bin/uninstall_cuda_10.0.pl

sudo rm -rf /usr/local/cuda-10.0/
           
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

接着,給cuda程式權限:

chmod 777 cuda_10.0.130_410.48_linux.run
           

運作該程式:

sudo ./cuda_10.0.130_410.48_linux.run
           

安裝之前,有很長的閱讀說明,使用空格鍵快速浏覽完畢。之後會進入一些配置選項,下圖所示選擇即可。

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

安裝完成之後,需要配置cuda環境變量,對.bashrc檔案進行修改:

vim ~/.bashrc
           

在檔案最後補充如下配置:

export CUDA_HOME=/usr/local/cuda-10.0
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64
export PATH=${CUDA_HOME}/bin:${PATH}
           

最後,通過source指令使上述修改生效。

source ~/.bashrc
           

配置完成後,通過nvcc -V指令檢視cuda的版本資訊:

nvcc -V
           
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

測試cuda是否安裝成功的指令如下:

cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery

make

./deviceQuery
           

顯示如下資訊:

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

通過nvidia-smi檢視GPU使用情況:

Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

4  cudnn安裝

cudnn的安裝比較簡單,隻需要将下載下傳的cudnn壓縮包解壓後複制到cuda目錄中即可。

解壓指令如下:

tar -zxvf cudnn-10.0-linux-x64-v7.6.2.24.tgz
           

複制指令如下:

sudo cp cuda/lib64/* /usr/local/cuda-10.0/lib64/

sudo cp cuda/include/* /usr/local/cuda-10.0/include/
           

完成後,檢視cudnn的版本資訊。指令如下:

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
           
Ubuntu18.04伺服器端安裝Nvidia 430顯示卡驅動+cuda10.0+cudnn7.6

至此,顯示卡驅動、cuda和cudnn就全部安裝配置完成,可以開始歡快的煉丹之旅了。

下一篇: sas (1)

繼續閱讀