在伺服器上運作pytorch版本的訓練模型時,出現了這樣的錯誤。以為是伺服器上的cuda版本過于老舊。後面看過大佬的解說之後才知道是cuda版本跟pytorch的版本沒有适配
首先遠端伺服器檢視cuda的版本
cat /usr/local/cuda/version.txt
#這裡我的版本是CUDA Version 10.1.243

找了一張大佬總結的圖可以根據這個查找對應版本這裡貼幾個自己常用的,如果沒有适合自己的可以去官網按需自取
cuda版本對應pytorch安裝
# CUDA 9.2
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=9.2 -c pytorch
# CUDA 10.1
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.1 -c pytorch
# CUDA 10.2
conda install pytorch==1.6.0 torchvision==0.7.0 cudatoolkit=10.2 -c pytorch
# CPU Only
conda install pytorch==1.6.0 torchvision==0.7.0 cpuonly -c pytorch
可能由于網絡原因利用conda 安裝包的時候卡住,我利用ctrl+c中斷程序後,再次利用conda install 指令安裝,發現一直出現安裝失敗,提示"段錯誤(核心已轉儲)",且再利用 conda install 指令安裝任何包時都安裝失敗。
運作
conda clean -a
重新運作conda install 安裝