Pytorch显存充足出现CUDA error:out of memory错误

 

Pytorch显存充足出现CUDA error:out of memory错误

Ref: https://www.cnblogs.com/jisongxie/p/10276742.html

报错内容

image.png

Bug描述

显存充足,并且已经通过 torch.nn.DataParallel 指定GPU编号
CUDA与CUDNN均无错误,NVIDIA驱动无错误

解决方案

以上情况很可能是是Tensorflow和pytorch冲突导致的,因为我发现当我同学在0号GPU上运行程序我就会出问题。
详见pytorch官方论坛:
https://discuss.pytorch.org/t/gpu-is-not-utilized-while-occur-runtimeerror-cuda-runtime-error-out-of-memory-at/34780

使用 CUDA_VISIBLE_DEVICES 限制一下使用的GPU。
比如有0,1,2,3号GPU,CUDA_VISIBLE_DEVICES=2,3,则当前进程的可见GPU只有物理上的2、3号GPU,此时它们的编号也对应变成了0、1,即cuda:0对应2号GPU,cuda:1对应3号GPU。

# 使用python的os模块

import os
os.environ['CUDA_VISIBLE_DEVICES']='2, 3'
# 直接设置环境变量(linux系统)

export CUDA_VISIBLE_DEVICES=2,3