【智慧交通开源大赛】eval环境出错和总是卡住一半不动了,没有出来最终结果

使用的demo教程,以及实验了几个不同机器都是这样的。
另外申请机器失败了也扣时间?
还有2卡P100机器比赛专用,为什么申请下来显存就满了?

请问有执行的源码嘛?
从报错信息看,是多进程适用不当导致。

mgestdio 参考该网站说明,可能由于触发了OOM导致kernel卡死而导致死锁。至于代码中的无法申请tensor的问题,也是由于显存OOM无法构造Tensor,尝试开大资源。

  1. 首先,申请机器失败也扣时间,请提供相关算力被扣除的记录(可前往mystudio-算力)进行查看
  2. 对于你截图的错误定位是由于显存OOM造成的,所以根因是显存在机器启动时就占满的问题。
    这个问题我们排查到是云服务器的故障,您可以提供一下算力使用记录(使用这个显存满的机器多少时长了),我们对于您的损失提供积分补偿。

从进度条292/584看,你应该是申请了两张卡进行测试,其中一张卡正常,一张卡异常,这可能是因为申请到的某张卡有问题导致(比如直接OOM或其他error)。

你可以试下用单张卡进行test应该就不会报卡死的问题了,如果必须要多卡测试的话,多申请几次卡或者等studio排除故障。