MockingBird icon indicating copy to clipboard operation
MockingBird copied to clipboard

训练时出现问题

Open YuuLuo opened this issue 2 years ago • 2 comments

使用nvidia官方pytorch23.01 docker镜像进行训练时,经常出现Floating point exception然后中断训练

python版本3.8.10 H)D5(2KGO~U@}C7B KS9V}Q

使用win11系统训练时会出现训练完一个epoch后卡住,不继续训练,任务管理器cuda占用降到0,ctrl+c无法结束,只能关掉cmd窗口重新打开,python版本3.9.0,显卡为RTX 4090,cuda11.3

YuuLuo avatar Feb 12 '23 15:02 YuuLuo

Docker镜像比较不稳定,长期用的话,不建议使用该方式

babysor avatar Feb 13 '23 02:02 babysor

Docker镜像比较不稳定,长期用的话,不建议使用该方式

但是使用windows训练的时候也会出现问题

YuuLuo avatar Feb 13 '23 03:02 YuuLuo

Python 3.9.13 可以

batch size有试着调整过吗

babysor avatar Feb 18 '23 01:02 babysor

batch size有试着调整过吗

切换到win10系统,使用3.9.8版本的python之后没有出现报错了

YuuLuo avatar Feb 18 '23 02:02 YuuLuo