Victor4869

Results 10 comments of Victor4869

因为exp_img默认建立在cpu上了,加上这两行代码就行 if not (len(mx.test_utils.list_gpus()) == 0): exp_img = exp_img.copyto(mx.gpu())

pred 后面再加这个 pred = pred.squeeze().asnumpy() > 0 我正在把修改后的版本同步到我的fork 版本,目前上传的版本把这里常见的问题修好了。可以去这里下载我的版本https://github.com/Victor4869/open-alcnet 另外我还增加了一些功能,完善log信息合在预测后的图片画上真实目标的bounding box方便比对。本地文件的代码已经写好了,现在正在完善commit 信息,迟点会陆续上传。

你没安装 nccl,去官网找对应的版本 https://developer.nvidia.com/nccl/nccl-legacy-downloads

你用 multiple 和 bottomuplocal 试试,直接在default那改

那就应该不是参数问题了,你这个问题我也遇到过,但是忘记当时是怎么解决的了。 Epoch 0, training loss 1.0000: 100%| 看到这个我怀疑是不是环境没弄好,你是用windows跑吗? 我用windows遇到很多奇奇怪怪的问题,最后是在linux下跑的。 你试试用我的 [dev branch](https://github.com/Victor4869/open-alcnet/tree/dev) 在 Colab里跑一下, 配置和运行步骤我在[wiki](https://github.com/Victor4869/open-alcnet/wiki/Running-the-ALCNet#3-running-in-colab)里面写了

这个倒是没遇到过,看着是没找到文件的报错,你有把文件先传到 Google Drive 再运行吗?把dev branch的文件全部传上去要挺久的因为图片很多,要慢慢等。另外那个mount drive 和 colab-path 的文件路径可能都要根据你实际的路径改一下。 还有就是我之前跑的时候CUDA是11.6现在升级到12了,不过刚跑了下会出个警告但是也能正常运行,不确定会不会影响训练结果。

resume要填训练好的模型路径,这样就不会遇到这个问题了,这个可视化其实就是把预测的图片都保存下来了。 ACM那个论文和程序我之前也粗略看了下,但是那个我没改过,不过有不少文件是和 ALC 一样的。我估计他是先写了ACM的程序,然后在这基础上又加了ALC的部分。

训练可以直接跑 train_alcnet.py, 这代码问题挺多不过也不是大问题,要自己修改下dataset路径和一些参数之类的,然后model建立那里会报错,是scope问题,直接把代码移出 if 语句跑就行。另外那个visulization的跑起来也遇到和其他人一样的报错,暂时还没想到怎么解决。

> 你是不是在windows系统下运行? 我用windows训练就会出现 loss = NaN, 然后IoU 和 nIoU 都为 0,换成linux系统就正常了。