CUDA版本变了吗?以前可以训练现在版本不对应啊

RuntimeError: The NVIDIA driver on your system is too old (found version 10010). Please update your GPU driver by downloading and installing a new version from the URL: http://www.nvidia.com/Download/index.aspx Alternatively, go to: https://pytorch.org to install a PyTorch version that has been compiled with your version of the CUDA driver.

我也遇到了这个问题。通过使用命令nvidia-smi查看之后,可以发现原来的GPU幸好是Tesla-V100,cuda版本我记得是11.2(不太确定);而现在是Tesla T4,版本只有10.1。如果在之前的机器上安装时,默认的pytorch版本为最新的1.9,不支持cuda10.1因此会报错。但是值得吐槽的是,这样一改显卡,显存差不多只有原来的1/5,挺搞心态的

由于v100 的资源目前比较紧张,怕大家启动不了环境,我们新增了Tesla t4 环境,您在启动的时候会根据资源情况随机开启 t4 或者 v100。


对于您提到的 cuda 版本的问题,由于目前 t4 环境的 cuda 版本都是默认 10.1 的,我们会跟进一下您提供的报错信息,看看是不是驱动的版问题。另外,使用 megengine 是不会出现问题的呢,建议您使用 megengine 哦~

我们的cuda版本一直是10.1呢,这个没有换过哦~你确定有用过11.2吗??是什么时候,开的几卡的gpu环境呢?