CUDA安装版本出现驱动mismatch问题
问题描述
在给V100显卡集群安装cuda11.8版本后出现nvidia指令调用与NVML版本不匹配问题
nvidia-smi
Failed to initialize NVML: Driver/library version mismatch
解决方式
Step1 查看显卡驱动
dpkg -l | grep nvidia
发现显卡驱动程序有两个版本:535.104.05、520.61.05
一般只要保留一个即可
Step 2 查看系统NVRM版本
cat /proc/driver/nvidia/version
Step 3 卸载nvidia
sudo apt-get purge nvidia*
Step 4 重装驱动
https://download.nvidia.com/XFree86/Linux-x86_64/
在上述地址中找到自己想要安装的驱动版本号
作者这里选择了535.129.03
wget https://download.nvidia.com/XFree86/Linux-x86_64/535.129.03/
bash NVIDIA-Linux-x86_64-535.129.03.run
常用显卡指令
# 查看主机已有cuda版本
ls -l /usr/local | grep cuda
dpkg -l | grep cuda
# 安装特定cuda版本
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2004-11-8-local_11.8.0-520.61.05-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2004-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda