一、Ubuntu16.04檢視CUDA和CUDNN版本
1、cuda一般安裝在 /usr/local/cuda/ 路徑下,該路徑下有一個version.txt文檔,裡面記錄了cuda的版本資訊
cat /usr/local/cuda/version.txt
即可查詢
二、Ubuntu16.04下安裝CUDA
1.顯示卡驅動的安裝
首先安裝ubuntu系統就不做詳細介紹了,預設是系統安裝完成。
在安裝cuda之前,第一步現在ubuntu16.04上安裝NVIDIA的驅動,這裡要注意:cuda版本要和驅動相對應、cuda版本要和驅動相對應、cuda版本要和驅動相對應(強調三遍)
CUDA Toolkit Version Linux x86_64 Driver Version
CUDA 10.1 >= 418.39
CUDA 10.0 >= 410.48
CUDA 9.2 >= 396.37
CUDA 9.1 >= 390.46
CUDA 9.0 >= 384.81
CUDA 8.0 >= 375.26
CUDA 7.5 >= 352.31
CUDA 7.0 >= 346.46
以上表格就是對應cuda和nvidia驅動版本之間的比對,需要注意的是驅動的>=指的是大于這個版本的驅動,言下之意就是高版本驅動可以相容安裝低版本的cuda,反之則不成立。
ubuntu 16.04預設安裝了第三方開源的驅動程式nouveau,安裝nvidia顯示卡驅動首先需要禁用nouveau,不然會碰到沖突的問題,導緻無法安裝nvidia顯示卡驅動。
編輯檔案blacklist.conf
sudo vim /etc/modprobe.d/blacklist.conf
按字母‘i’進入編輯狀态
在檔案最後部分插入以下兩行内容
blacklist nouveau
options nouveau modeset=0
然後按‘Esc’,再按 shift+z z 鍵就可以儲存内容并退出。或者輸入 :wq! (冒号也要敲進去,加感歎号是指強制儲存)
重新開機reboot
2、Ctrl+Alt+F1進入指令行界面
(5)停用圖形界面,解除安裝所有顯示卡驅動
首先停掉圖形界面,驗證是否nouveau啟用,沒用顯示即表示沒有啟用。
最後啊,一定要解除安裝所有驅動nvidia* ,不管是你自己安裝的驅動,還是帶着驅動。還是統統解除安裝吧。我第一安裝的時候就沒有停用自己的nvidia驅動,雖然不是nouveau驅動,但是,GPU裝置和Linux核心不通信。以下是相關指令
sudo service lightdm stop
lsmod | grep nouveau
sudo apt-get remove --purge nvidia*
(6)安裝cuda 10.1
注意事項:整個系統最好是英文系統,因為切換至純指令行界面,有可能出現亂碼,或者不顯示。
1、找到你下載下傳的 cuda_10.1.168_418.67_linux.run ,一般位于Download檔案夾内
2、運作安裝包,預設安裝模式。去掉 --silent 即可自己選擇按照内容。
sudo sh cuda_10.1.168_418.67_linux.run --silent
然後發現安裝失敗,并且出現循環登入,分辨率下降,真的是個大坑!!!!!!!!!!!!!!!!!!
1.問題描述
給ubuntu16.04裝cuda10後,重新開機電腦,出現電腦無法登入帳号打狀況,輸入使用者名密碼,按enter後,黑屏然後又回到登入界面。
2.解決辦法
a.在ubuntu登入界面按ctrl+alt+F1,進入ubuntu指令行界面,輸入使用者名,回車,輸入密碼,回車。
b.輸入sudo vi /etc/profile,打開profile檔案,删除環境變量配置語句,輸入wq儲存退出。輸入sudo reboot重新開機系統。
此處又是一個大坑,循環登入不用解除安裝nvidia,把配置改回來就行。如果上面那個删除環境變量的方式不行,就用下面這個方法。
c-解除安裝.run檔案安裝的驅動,在NVIDIA驅動所在的目錄,運作如下指令:
sudo ./NVIDIA-Linux-x86_64-xxx.run --uninstall
注:xxx是自己的版本号,可以登電腦搜一下自己的之前的安裝包,這樣就能查出來自己之前安裝的是啥版本了
d-此時,重新開機可login normally.
e-驅動重新安裝:
(1)Ctrl+Alt+F1
(2)sudo service lightdm stop
(3)sudo ./NVIDIA-Linux-x86_64-381.22.run -no-x-check -no-nouveau-check -no-opengl-files
安裝過程選項為:
在NVIDIA驅動安裝過程中,依次的選項為:
1
accept
2 The distribution-provided pre-install script failed … …
Continue installation
3 Would you like to run the nvidia-xconfig utility to automatically update your X Configuration file so set the NVIDIA X driver will be used when you restart X?
NO
4 Install 32-Bit compatibility libraries?
NO
-no-x-check安裝驅動時關閉x服務;
-no-nouveau-check 安裝驅動時禁用Nouveau
-no-opengl-files 安裝時隻裝驅動檔案,不安裝Opengl
f-sudo service lightdm restart(可正常登入)
g-重新開機不會出現循環登入。
參考:http://www.th7.cn/system/lin/201702/204709.shtml
google: ubuntu get stuck in a login loop nvidia.
在Ubuntu16.04下安裝CUDA的過程并不簡單,小白即使看着官方文檔也很容易出錯,比如說安裝CUDA8.0(線上安裝)時,對着文檔一步步安裝下來都沒有問題,在最後一條指令執行時:
sudo apt-get install cuda
你可能會猛然發現終端上顯示安裝的愕然都是CUDA10.0(也就是最新版本),等到安裝結束,你再仔細一看,還确實是安裝了10.0。于是就開始抓頭自問“不對呀,我明明是照着文檔安裝下來的呀,怎麼就變成10.0的了?!”
原來是安裝CUDA的時候,版本自動幫你替換成了最新版(該怎麼說呢?!!真是謝謝您了lol)。
解決辦法,在上面那條指令後面加上版本号,完整指令就是(以安裝CUDA8.0為例子):
sudo apt-get install cuda-8.0
正式安裝教程:
參考部落格:https://blog.csdn.net/lihe4151021/article/details/90237681
2) 重新開機電腦,進入登入界面的時候,不要登入進入桌面(否則可能會失敗,若不小心進入,請重新開機電腦),直接按Ctrl+Alt+F1進入文本模式(指令行界面),登入賬戶。
- 輸入 $ sudo service lightdm stop 關閉圖形化界面
- 切換到cuda安裝檔案的路徑:$ cd Home/
運作$ sudo sh cuda.run
首先會顯示使用者許可證資訊,按空格鍵直至進度條顯示到100%
然後按照提示一步步操作accept-n(driver,此前已安裝過驅動)-y-y-y
- 輸入 $ sudo service lightdm start 重新啟動圖形化界面。
同時按住Alt + ctrl +F7,傳回到圖形化登入界面,輸入密碼登入。
如果能夠成功登入,則表示不會遇到循環登入的問題,基本說明CUDA的安裝成功了。
環境配置:
添加完環境變量,重新開機後出現了循環登入
進入文本模式:CTRL+ALT+F1
然後發現所有指令都不好使了,包括sudo, root ,su。提示内容是:
‘/usr/bin’ is not included in the PATH
sudo: command not found
解決方案如下:
參考連結:
https://www.cnblogs.com/austinspark-jessylu/p/6737877.html
很人性化的是,系統會提示我們要使用的指令存放的正确位置,比如使用clear時提示的:Command ‘clear’ is available in ‘/usr/bin/clear’。clear指令是存放在’/usr/bin’目錄下的。
要編輯/etc/profile,正常情況下使用的指令是:sudo vim /etc/profile
現在,系統找不到sudo 指令,也找不到vim指令,是以隻能人工指定它們的絕對路徑了。sudo 和 vim 都是存放在’/usr/bin’目錄下的,是以sudo和vim的絕對路徑分别是:/usr/bin/sudo /usr/bin/vim
是以要編輯/etc/profile要使用的指令應該這樣寫: /usr/bin/sudo /usr/bin/vim /etc/profile
隻需要把自己之前添加的内容删除掉就可以了(最好是能修改成正确的,搞不定也要至少恢複原狀吧),然後儲存重新開機系統。
正常狀态下重新開機使用:sudo reboot
當然現在也不行,要使用 /usr/bin/sudo /sbin/reboot
2.正确添加環境變量方法
參考部落格:https://blog.csdn.net/j879159541/article/details/93590342
home檔案下 ctrl+H顯示隐藏檔案 打開 .bashrc檔案
sudo gedit ~/.bashrc
在最後添加
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.0/lib64
export PATH=$PATH:/usr/local/cuda-10.0/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.0
source ~/.bashrc
儲存操作
再重新開機一下
nvcc --version
檢查cuda是否安裝成功
三、Ubuntu16.04下解除安裝CUDA
打開終端,輸入以下指令
sudo apt-get remove cuda
sudo apt autoremove
sudo apt-get remove cuda*
然後将終端運作目錄切換到/usr/local/下
cd /usr/local/
輸入dir指令:
dir
可能會看到一個"cuda"或者“cuda-10.0”檔案夾,再或者兩者都有。
輸入指令删除殘留的檔案夾(以下指令以删除“cuda-10.0”檔案夾為例)
sudo rm -r cuda-10.0
參考原文:https://blog.csdn.net/qq_41381395/article/details/86775470
注:遇到的bug有以下幾個t
解決Ignoring file ******** in directory ‘/etc/apt/sources.list.d/’
sudo rm /etc/apt/sources.list.d/********