【需求收集】MegEngine 报错提示信息优化

针对目前有部分同学提出的 “MegEngine各类报错信息提示不够明确”的问题,MegEngine 技术团队正在逐步优化中。

在此也希望大家能在此反馈更多具体的待优化报错提示信息,帮助我们做定向优化。

为了更好的复现报提示并进行修复,建议回复时参考以下模板

【版本、环境信息】

  • MegEngine 版本:(请提供当前问题发生所使用的 MegEngine 版本)
  • CPU 型号:(如为 CPU,请提供 CPU 型号)
  • GPU 型号:(如为 GPU,请提供 GPU 型号)
  • 系统环境:(请提供系统环境,linux / windows / Android、手机型号等,包括是 32 位/64 位)
  • python 版本: (请提供您使用的 python 版本号)

【运行代码】

【错误日志】

打破零回复, 我先提一下关于分布式的吧。

分布式训练错误提示不够明显

MegEngine:1.9.0
GPU: RTX 2080TI
System:Ubuntu 20.04
Python:3.7.10

错误日志:

File "xxx", line 576, in <module>
File "xxx/megengine/distributed/launcher.py", line 150 in __call__
 ), "subprocess {} exit with code {}".format(dev + self.rank_start, code)
AssertionError: subprocess 0 exit with code 1
1赞

Hi,请问报错的具体原因明确吗?如果原因是明确的,那期望的错误提示是怎样的呢?如果原因不明确,请提供下复现的代码

这里就是没有明确的报错原因,只能靠自己再去排查,而这些代码往往是单卡可以跑,但是多卡就不行的,可能还是需要完善相关的文档和报错,样例我看看能不能给一个最小复现。