PaddleGAN
PaddleGAN copied to clipboard
DIV2K数据集处理后有三万张两千张影像,直接训练报错。
DIV2K有800张影像,使用process_div2k_data.py处理后,得到32000张影像,启动训练后一开始是可以的,但是训练到5000个iter后,进行验证和保存模型之后会报错,有关DataLoader的问题,使用--resume恢复训练没问题,这是什么原因呢?
能贴一下您处理后的目录结构和报错截图不
能贴一下您处理后的目录结构和报错截图不
处理后的目录跟教程一样,一开始是可以正常训练的。只是中途会报这样的错误:ERROR: Unexpected BUS error encountered in DataLoader worker. This might be caused by insufficient shared memory (shm), please check whether use_shared_memory is set and storage space in /dev/shm is enough
ERROR:root:DataLoader reader thread raised an exception!
Traceback (most recent call last):
File "tools/main.py", line 56, in
您是在宿主机运行嘛还是在docker中?
您是在宿主机运行嘛还是在docker中?
是直接在AI studio上把paddleGAN给clone下来然后运行的
噢噢,好的,看起来像是一个已知的dataloader共享内存泄露问题。 https://github.com/PaddlePaddle/PaddleGAN/blob/develop/configs/realsr_bicubic_noise_x4_df2k.yaml#L41 这边建议您在这一行后面添加一行,试试能否有效
use_shared_memory: False
后续我们会验证一下,看看在下个版本修复
问题过于久远,如果有图像和视频生成的需求,可以使用新的跨模态工具: https://github.com/PaddlePaddle/PaddleMIX/tree/develop