Ubuntu18.04-DL环境配置-驱动+新建用户+conda+Tensorflow/Pytorch

 

1. 检查驱动

使用 nvidia-smi 查看驱动,若没有cuda驱动,查阅博客
正常情况截图:
image.png

2. 新建用户(非必须)

新建只能在控制台下登录的用户

  1. 切换为root用户为了获取创建用户的权限
    peng@ubuntu:~$ sudo su
  2. 添加一个新用户(如用户名为csdn)
    root@ubuntu:/home/peng# useradd zjl
  3. 为该用户设定登录密码
    root@ubuntu:/home/peng# passwd zjl
  4. 为该用户指定命令解释程序(通常为/bin/bash)
    root@ubuntu:/home/peng# usermod -s /bin/bash zjl
  5. 为该用户指定用户主目录
    root@ubuntu:/home/peng# usermod -d /home/zjl zjl
  6.  查看用户的属性
    root@ubuntu:/home/peng# cat /etc/passwd
    可以看到,已经存在csdn这个用户。/etc/passwd中一行记录对应着一个用户,每行记录又被冒号(:)分隔为7个字段,其格式和具体含义如下:
    用户名:口令:用户标识号:组标识号:注释性描述:用户主目录:命令解释程序
  7. 切换到用户zjl
    root@ubuntu:/home/peng# su zjl
    切换后可以看到登陆以后的用户csdn当前所在目录仍为“/home/peng”,即用户peng的主目录。
    这种方式只能在控制台中互相切换用户,一旦重启系统,用该用户还是无法登陆(只能用原来的用户或root登陆)。

3. 安装conda

打开https://docs.anaconda.com/anaconda/install/linux/
找到自己想下载的

wget https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh
bash Anaconda3-2020.02-Linux-x86_64.sh

一路回车+yes
最后指定一个安装路径 /mnt/data3/home/zjl/software/anaconda3
安装完成之后,激活conda base环境:

eval "$(/mnt/data3/home/zjl/software/anaconda3/bin/conda shell.bash hook)"

验证是成功安装:

conda -V

换源(非必须)

4. 安装tensorflow-gpu 1.15

1.创建conda环境

通过调用下列命令,创建一个名为tfgpu的Conda环境:
conda create -n tf1 pip python=3.6
等待相应包的安装,如果国内网络太慢的话,可以为conda设置清华源,这样速度能快一点,具体配置过程,网上查一下吧,此处不再讲述。如果看到这样的提示,就证明conda环境创建成功。

2.激活环境

通过以下命令激活conda环境:

conda activate tf1


这样就进入了刚创建的“tensorflow”环境。
image.png

3.安装tensorflow-gpu

安装GPU版本的tensorflow需要输入以下命令:

pip install tensorflow-gpu==1.15.0

如果只需要安装CPU版本的tensorflow则输入以下命令:

pip install tensorflow==1.15.0

image.png
finished!
注意:务必注意一点,在安装完tensroflow后,由于我们是新创建的conda环境,该环境中基本上是空的,有很多包和IDE并没有安装进来,例如“Ipython”,“spyder”此时如果我们在该环境下打开spyder/Ipyton/jupyter notebook等,会发现其实IDE使用的kernel并不是新建立的这个环境的kernel,而是“base”这个环境的,而“base”环境中我们并没有安装tensorflow,所以一定无法import。这也就是为什么有很多人在安装好tensorflow后仍然在IDE里无法正常使用的原因了。
通过以下命令安装**Anaconda基础包
conda install anaconda

4. 测试

查看版本:

import tensorflow as tf
tf.__version__

查看是否使用GPU

import tensorflow as tf
tf.test.gpu_device_name()


查看在使用哪个GPU

from tensorflow.python.client import device_lib
device_lib.list_local_devices()


5. 安装tensorflow-gpu 2.0.0

1.创建conda环境

通过调用下列命令,创建一个名为tfgpu的Conda环境:

conda create -n tf2 pip python=3.6

等待相应包的安装,如果国内网络太慢的话,可以为conda设置清华源,这样速度能快一点,具体配置过程,网上查一下吧,此处不再讲述。如果看到这样的提示,就证明conda环境创建成功。

2.激活环境

通过以下命令激活conda环境:

conda activate tf2

3.安装tensorflow-gpu

2.x版本GPU与CPU版本统一安装
安装GPU版本的tensorflow需要输入以下命令:

pip install tensorflow==2.0.0

image.png
finished!

4. 测试

查看版本:

import tensorflow as tf
tf.__version__

查看是否使用GPU

import tensorflow as tf
tf.test.gpu_device_name()


查看在使用哪个GPU

from tensorflow.python.client import device_lib
device_lib.list_local_devices()


6. 安装pytorch 1.3.1

1.创建conda环境

通过调用下列命令,创建一个名为tfgpu的Conda环境:

conda create -y -n torch pip python=3.6

等待相应包的安装,如果国内网络太慢的话,可以为conda设置清华源,这样速度能快一点,具体配置过程,网上查一下吧,此处不再讲述。如果看到这样的提示,就证明conda环境创建成功。

2.激活环境

通过以下命令激活conda环境:

conda activate torch

3.安装torch

https://pytorch.org/get-started/previous-versions/
2.x版本GPU与CPU版本统一安装
安装GPU版本的tensorflow需要输入以下命令:

pip install torch===1.5.0 torchvision===0.6.0 -f https://download.pytorch.org/whl/torch_stable.html


finished!

4. 测试

查看版本:

import torch
torch.__version__
from __future__ import print_function
import torch
x = torch.rand(5, 3)
print(x)

The output should be something similar to:

tensor([[0.3380, 0.3845, 0.3217],
        [0.8337, 0.9050, 0.2650],
        [0.2979, 0.7141, 0.9069],
        [0.1449, 0.1132, 0.1375],
        [0.4675, 0.3947, 0.1426]])

Additionally, to check if your GPU driver and CUDA is enabled and accessible by PyTorch, run the following commands to return whether or not the CUDA driver is enabled:

import torch
torch.cuda.is_available()