puppet101
puppet101
@HIT-cwh 您好,我这边又遇到新的问题了。。。就是在一个epoch结束之后,就会oom,而且这个问题是稳定出现的。就是在一个epoch结束后的第7个step,我配置的序列并行数量是8。这是应该是没有在保存模型,就是比较正常的一次迭代,是不是不同数据的前后拼接时候出了问题呢? 04/24 17:10:53 - mmengine - INFO - Iter(train) [31/96] lr: 1.6222e-05 eta: 0:11:18 time: 6.3558 data_time: 0.0073 memory: 7805 loss: 1.5815 tflops: 31.7220 tokens_per_sec: 109.9789 04/24 17:11:38 -...
accumulative_counts 和sequence_parallel_size是一样的值,我8和4都试过了,都是在一个epoch结束的第accumulative_counts-1个step的时候,必然oom。 另外这个oom不是显存,是内存,我内存是1t的,我的显存是40g的,但是并没有出现显存溢出。 我把样本数改小了,也是会出现一样的问题。
嗯好的,我这边是 Yi34B + 24k seq length(12k也试过) + sequence parallel size 4 (8) + deepspeed zero3 offload,即使数据集很小也能复现,辛苦~
好的,辛苦您帮忙排查一下~ 我这边目前还没有16卡可以用,只能先等待您的进展了。。
Same problem, maybe the model file is corrupted, could you please have a check? @cyj907
It works, thank you!
@gajagajago Any update about your project?
Hi, @dribnet, I face the same problem with you, have you work out any solution for this? Thank you!
感谢回复! 请问多久会出更大参数量的预训练模型啊? 7B还是有点太小了~
@Yimi81 请问megatron直接全量训练200K的长度,只需要6*8张A800吗? 有什么可以参考的开源实现或者技术介绍推荐一下吗? 我这边单机8张A800,连4K长度都会OOM