一、CUDA的正确安装/升级/重装/使用方式
新手甚至搞了很久深度学习的人经常遇到的问题:
你要是百度能看到一堆方法,有对有错,讲的也不是很透彻。最近也给别人讲了不少这些的问题,索性开篇文章写一下吧。
本篇不是手把手教怎么装cuda,所以里面有些命令我不会写的很细,但都是一百度就能查到的。希望能从本篇文章教会大家怎么处理遇到的环境问题,毕竟我也不太懂CUDA具体的东西,但装过以及处理过好多环境问题。
默认环境:Ubuntu(Windows整体思路是一样的,具体一些操作可以参考其他攻略)
写在开头的很重要的事:
能官网解决就别只看各种经验分享
一、认识CUDA
首先,你要先认识CUDA。
查看CUDA版本
你的CUDA版本不是你装过什么,而是你的路径中包含什么
这行命令会输出你当前的默认路径,如果你CUDA安装没问题的话,你会看到类似于下面这样的路径:
第一行通常是一个软链接,指向你真正的cuda目录
如果你的电脑里有多个CUDA,哪个路径在你的系统默认路径,哪个就是你当前在使用的版本。说白了默认路径就是你输入命令后,系统去哪里找你要执行的东西。
当然,这个方法太麻烦了,有没有快速查看的方法?
有:
如果你遇到提示没有nvcc或版本明显不对(可能执行了/usr/bin/nvcc而不是cuda文件里的),说明你没有把CUDA的目录放到默认路径中,输入以下命令(临时生效),或修改系统文件(永久生效,自行百度),来把CUDA添加到你的默认路径中:
再运行就可以看到你的版本了。
很多人知道,nvidia-smi也有个cuda版本。那个不是我们说的CUDA版本,我的理解是那个代表了你的显卡驱动支持的CUDA版本(可以向下兼容)。我不太确定这个理解是不是对的,我一直以为nvidia-smi得比nvcc的高,但就这两天我看到一台反过来的机器。
总之,nvidia-smi的cuda版本大于等于你要安装的cuda版本就不会出问题,且你的实际cuda版本以nvcc为准。
切换CUDA版本
假如我已经安装了多个版本的CUDA,怎么去切换呢?
以这台服务器为例:
可以看到,/usr/local下有一堆的cuda安装包,其中/usr/local/cuda指向了 CUDA11.5,那么我的版本就一定是11.5吗?
记得我上面说的吗,CUDA版本取决于哪个CUDA目录在你的默认路径中(且优先级更高)。
如果你的环境变量里没有/usr/local/cuda或/usr/local/cuda-11.5,而是/usr/local/cuda-11.1,那么就算有那个软链接,你默认的CUDA版本也是11.1。
所以切换CUDA版本实际上就是修改路径中的CUDA目录。
如果你只是临时修改,你可以用我上面提到的命令,export PATH=.......来修改;
如果你想修改你的用户的默认CUDA,你可以修改~/.bashrc,来自动修改你用户的路径;
如果想修改服务器的默认版本,可以百度一下怎么永久性的改路径(我忘记哪个命令了,百度下)
其他:
二、安装/升级CUDA以及多版本共存
升级=安装+用上一章的方法来默认使用新版本的CUDA
多版本CUDA=安装+不卸载旧版本+用上一章的方法修改使用的CUDA版本
所以主要就讲下安装的问题
新机或显卡驱动版本低(nvidia-smi的版本低于要安装的版本)看下一章,得连着显卡驱动一块搞。这一章就单讲CUDA安装。
CUDA安装几乎没有难度:
第一步,打开链接,选择你要的版本
第二步,根据你的系统和版本选择,选runfile
第三步,按照提示命令下载并运行
第四步,按照它提示一直往下,但不要勾选 driver(需要安装驱动的见下一章)!
第五步,问你要不要添加环境变量记得yes,然后就安装完成
如果你没有让它帮你添加,就按照第一章的方式自己添加。看懂第一章,安装完之后找不到CUDA或者切换不了就很好解决。
第六步,装cudnn,百度下就行,没啥操作难度
三、显卡驱动
一般来说,三种情况需要安装显卡驱动:
对于第一种和第三种解决方案一样,先卸载当前驱动,而且卸干净(百度搜下),然后安装
如果是有桌面端,要先关了可视化界面,ctrl+alt+f1进入命令界面,再去卸载
安装显卡驱动一定不要下载显卡驱动安装包,用CUDA安装包
这样可以保证你装的驱动没有不适配的情况
我上一章提到过,只安装CUDA要去掉driver的那个勾,是因为CUDA的安装包是带显卡驱动的,而且是对应版本的。
如果你CUDA和驱动都安,那你就用CUDA安装包所有勾勾选;
如果你只安装驱动(比如遇到版本不匹配情况,你卸载了驱动但是cuda没卸载),就把CUDA的勾去掉,只安装驱动;
如果你安装驱动出错,按照报错信息百度,多半是你没卸载干净。
四、安装深度学习框架
复习一下第一章:
深度学习环境请一定去官网下安装包,不要直接搜“Ubuntu18.04 CUDA11.3安装pytorch”之类的,你搜到的真的不一定和你的环境是一样的。
TF不怎么用,参照着来吧,PaddlePaddle和Pytorch几乎一模一样就不单独说了。这里就用Pytorch举例。
第一步,明确你要安装的pytorch版本。如果是跑开源代码,一般会给支持的pytorch版本。如果是自己用,装LTS版大概率不会出错。
第二步,打开官网,点击install。
选择你要的版本和对应CUDA版本。CUDA版本向下兼容,比如我的CUDA是11.4,那这里我勾选11.1就可以。
如果你要安装更老的版本,或者LTS和Stable中间的版本,点击上面 install previous versions of PyTorch,你就能找到对应版本的安装命令。
用官网安装能解决深度学习框架安装的90%问题
还有什么问题可以评论区提一下
二、如何安装CUDA
首先验证你是否有nvidia的显卡(developer.nvidia.com/cuda-gpus这个网站查看你是否有支持gpu的显卡):
[plain] view plain copy
$ lspci| grep-i nvidia
查看你的linux发行版本(主要是看是64位还是32位的):
[plain] view plain copy
$ uname-m&& cat/etc/*release
看一下gcc的版本:
[plain] view plain copy
$ gcc--version
首先下载nvidia cuda的仓库安装包(我的是ubuntu 14.0464位,所以下载的是ubuntu14.04的安装包,如果你是32位的可以参看具体的地址,具体的地址是)
[plain] view plain copy
wget developer.download.nvidia.com/compute/cuda/repos/ubuntu1404/x86_64/cuda-repo-ubuntu1404_6.5-14_amd64.deb
下载完成之后可以使用如下命令安装它,注意文件名修改为cuda-repo-ubuntu1404_6.5-14_amd64.deb
[plain] view plain copy
sudo dpkg-i cuda-repo-<distro>_<version>_<architecture>.deb
安装好仓库之后,就可以更新你的本地仓库。
[plain] view plain copy
sudo apt-get update
最后开始安装cuda以及显卡驱动(安装cuda的同时就会把显卡驱动也全部安装好,这个真的很方便。但是下载的时间有点长。)
[plain] view plain copy
sudo apt-get install cuda
需要注意的是,我这里提供的安装方法跟网络上各种安装方法都不一样,他们的方法往往很复杂
主要是因为:(1)有些教程是手工安装显卡的驱动程序,手工屏蔽系统的默认开源的驱动
(2)安装cuda也是手工进行
使用这个方法的时候千万要注意几个问题:
(1)cuda6.5已经不支持老旧的显卡了所以sm11等等都必须删除。可以参考我的另一个文章,关于编译opencv3.0的
(2)ubuntu14.04是64位的,并且不要一开始就更新系统补丁什么的,因为系统更新过之后,再安装显卡驱动就会无法进入图形界面,我查看了相关的日志发现是卡在了dbus那边。所以,我建议一安装好ubuntu 14.04就不要更新系统补丁。
安装完之后你需要设置环境变量:
[plain] view plain copy
$ export PATH=/usr/local/cuda-6.5/bin:$PATH
$ export LD_LIBRARY_PATH=/usr/local/cuda-6.5/lib64:$LD_LIBRARY_PATH
设置完毕之后,你还可以选择是否安装cuda附带的示例代码(<dir>表示你要安装的位置,你可以将<dir>替换成~):
[plain] view plain copy
$ cuda-install-samples-6.5.sh<dir>
接下来做一些验证工作:
查看显卡的驱动版本
[plain] view plain copy
cat/proc/driver/nvidia/version
查看nvcc编译器的版本
[plain] view plain copy
nvcc-V i
编译cuda的示例代码:
[plain] view plain copy
cd~/NVIDIA_CUDA-6.5_Samples
然后make一下编译代码。
进入bin路径运行devicequery
[plain] view plain copy
cd~/NVIDIA_CUDA-6.5_Samples/bin
[html] view plain copy
./ deviceQuery
具体的安装过程可以参考英文。
这里必须要强调的是一定要是新的ubuntu14.04在安装显卡驱动之前千万别更新,否则就无法进入桌面,这个问题困扰了我很久了。重装了是十几遍的系统。
这篇guide只是一些零散的安装步骤以及给后来人对于cuda的一些坑上的提醒。
三、深度学习GPU环境CUDA详细安装过程(简单快速有效)
深度学习GPU环境CUDA的简单快速安装教程
首先,确认你的硬件设备。在计算机管理的设备管理器中,找到显示适配器,确保你拥有独立显卡。例如,我的设备中就有集成显卡和NVIDIA GeForce GTX 1050。
测试显卡是否支持CUDA安装是必要的。查看你的显卡计算力,如我的独立显卡支持CUDA,计算力为6.1。
接下来,下载CUDA Toolkit。我选择了CUDA Toolkit 10.0,选择版本时,主要考虑GPU计算能力要求,通常需要2.1G以上。双击下载文件,按照默认设置进行安装,注意在安装过程中,如果遇到VS安装问题,可尝试自定义安装并去掉VS组件。
安装完成后,配置环境变量。如图所示,确保CUDA正确添加到系统路径中。
验证安装是否成功,只需在CMD中输入相关命令,如果显示正确的版本信息,则安装完成。
继续进行CUDNN的安装,需先注册账号并填写问卷。由于我安装的是CUDA 10.0,因此选择与之版本一致的CUDNN下载。
下载后,将CUDNN的bin、include、lib文件解压并直接复制到CUDA安装目录,替换原有文件即可。
至此,所有安装步骤已全部完成。现在你可以开始安装pytorch-gpu和tensorflow-gpu等深度学习相关的GPU环境了。
本文来自用户投稿,不代表币大牛资讯立场,如若转载,请注明出处:https://www.98xmw.com/zhis/21692.html
发表回复
评论列表(0条)