天天看點

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

Author: Weiyang SHI

Date: 16/07/2019

Version: 0.1

環境配置往往是深度學習的第一步,在這個過程中經常會出現各種錯誤,本文将一步一步帶你配置深度學習(以pytorch為例)環境。由于大家所處應用/研究領域不同,是以隻包含了基礎的環境配置。

通常來講,伺服器中的普通使用者無sudo權限,本文基于Brainnetome伺服器建立普通使用者從零開始配置适用于醫學影像與機器學習領域的Linux環境,文中包含XXX的路徑請注意自行修改。

00.賬号申請與修改密碼

推薦使用Xshell或mobaxterm連接配接伺服器

XShell​xshell.en.softonic.com

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

MobaXterm free Xserver and tabbed SSH client for Windows​mobaxterm.mobatek.net

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

連接配接賬号後,輸入指令

passwd

修改密碼

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

修改密碼

01. Anaconda 安裝

由于伺服器

/home

目錄下存儲空間有限,所有安裝包、安裝路徑盡量修改為自己對應的

/Data

目錄,安裝完成後,如無特殊需要,請将下載下傳的原始安裝包删除,以減輕伺服器存儲壓力(視所用伺服器配置自行調整)。

wget https://repo.anaconda.com/archive/Anaconda3-2019.03-Linux-x86_64.sh

bash Anaconda3-2019.03-Linux-x86_64.sh

安裝過程中,注意盡量修改安裝路徑,友善環境管理

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

修改anaconda安裝路徑

安裝後注意檢查是否添加至環境變量

02. CUDA 安裝 (非root權限)

wget https://developer.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.168_418.67_rhel6.run

chmod +x cuda_10.1.168_418.67_rhel6.run

./cuda_10.1.168_418.67_rhel6.run

安裝過程中,由于無sudo權限,是以需要注意無法安裝驅動,在安裝驅動選項中如果錯選yes,則可能導緻安裝失敗,相應步驟建議按下圖操作:

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

安裝CUDA

03.cudnn安裝

cudnn下載下傳需要賬号資訊,建議下載下傳後上傳伺服器

安裝過程如下:

  1. 進入cudnn所在路徑,重命名:

    cp cudnn-10.1-linux-x64-v7.6.0.64.solitairetheme8 cudnn-10.1-linux-x64-v7.6.0.64.tgz

  2. 解壓:

    tar -xzvf cudnn-10.1-linux-x64-v7.6.0.64.tgz

  3. 拷貝相關檔案并賦予權限

    cp cuda/include/cudnn.h /DATA/XXX/XXX/env/cuda-10.1/include

    cp cuda/lib64/libcudnn* /DATA/XXX/XXX/env/cuda-10.1/lib64

    chmod a+r /DATA/XXX/XXX/env/cuda-10.1/include/cudnn.h /DATA/XXX/XXX/env/cuda-10.1/lib64/libcudnn*

04.Pytorch

按照先前配置的CUDA版本到pytorch官網檢視安裝指令

PyTorch​pytorch.org

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)
anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

執行Run this Command中的指令進行安裝

安裝完成後,打開python,運作

import torch

,無報錯即安裝成功;可能出現以下錯誤

ImportError: /usr/lib64/libstdc++.so.6: version CXXABI_1.3.8' not found

解決辦法:将anaconda中的lib加入環境變量

首先檢視anaconda内是否包含所需要的庫檔案,此處為CXXABI_1.3.8,執行指令

strings /DATA/XXX/XXX/env/anaconda3/lib/libstdc++.so.6 | grep 'CXXABI'

(根據anaconda安裝路徑自行修改)

輸出如下:

anaconda 配置pytorch_伺服器深度學習化境配置(無sudo權限)

是以隻需要将anaconda的lib檔案路徑加入環境變量

vim .bashrc

export LD_LIBRARY_PATH=/DATA/XXX/XXX/env/anaconda3/lib:$LD_LIBRARY_PATH

執行

source .bashrc

更新環境變量

* 缺少其他檔案可嘗試采用類似的方式 * 其它深度學習架構(Tensorflow, MXNet等)安裝方式與問題解決方式與pytorch類似

05.Jupyter Notebook配置

jupyter notebook --generate-config

生成配置檔案

進入ipython生成密碼

In [1]: from notebook.auth import passwd                                                                                                                                                       
In [2]: passwd()                                                                                                                                                                              
Enter password:
Verify password: 
Out[2]: 'sha1:passwd'
           

複制密碼,修改jupyter notebook配置檔案

vim /home/XXX/.jupyter/jupyter_notebook_config.py

修改内容如下:

c.NotebookApp.ip = '*'
c.NotebookApp.notebook_dir = '/home/XXX/workplace'
c.NotebookApp.open_browser = False
c.NotebookApp.password = u'sha1:passwd'
c.NotebookApp.port = 8888
           

執行

jupyter notebook

後,正常運作,即可使用;

如出現

socket.gaierror: [Errno -5] No address associated with hostname

錯誤,則将配置檔案中的

c.NotebookApp.ip = '*'

修改為

c.NotebookApp.ip = '0.0.0.0'

06.開啟深度學習之旅

至此,基礎的環境已經配置好了,開始你的深度學習之旅吧!

繼續閱讀