puppet101

Results 25 comments of


                                            puppet101

使用zero3_offload+序列并行训练yi-34b的时候出错

@HIT-cwh 您好，我这边又遇到新的问题了。。。就是在一个epoch结束之后，就会oom，而且这个问题是稳定出现的。就是在一个epoch结束后的第7个step，我配置的序列并行数量是8。这是应该是没有在保存模型，就是比较正常的一次迭代，是不是不同数据的前后拼接时候出了问题呢？ 04/24 17:10:53 - mmengine - INFO - Iter(train) [31/96] lr: 1.6222e-05 eta: 0:11:18 time: 6.3558 data_time: 0.0073 memory: 7805 loss: 1.5815 tflops: 31.7220 tokens_per_sec: 109.9789 04/24 17:11:38 -...

使用zero3_offload+序列并行训练yi-34b的时候出错

accumulative_counts 和sequence_parallel_size是一样的值，我8和4都试过了，都是在一个epoch结束的第accumulative_counts-1个step的时候，必然oom。另外这个oom不是显存，是内存，我内存是1t的，我的显存是40g的，但是并没有出现显存溢出。我把样本数改小了，也是会出现一样的问题。

使用zero3_offload+序列并行训练yi-34b的时候出错

嗯好的，我这边是 Yi34B + 24k seq length(12k也试过) + sequence parallel size 4 (8) + deepspeed zero3 offload，即使数据集很小也能复现，辛苦~

使用zero3_offload+序列并行训练yi-34b的时候出错

好的，辛苦您帮忙排查一下~ 我这边目前还没有16卡可以用，只能先等待您的进展了。。

Checksum does not match:

Same problem, maybe the model file is corrupted, could you please have a check? @cyj907

Checksum does not match:

It works, thank you!

Pipeline parallel support for multi-node training?

@gajagajago Any update about your project?

correct_colours acts strangely in mouth area

Hi, @dribnet, I face the same problem with you, have you work out any solution for this? Thank you!

中文预训练模型的精度有评测吗？

感谢回复！请问多久会出更大参数量的预训练模型啊？ 7B还是有点太小了~

Title 使用deepspeed训练Yi-34B 32K 以及200K上下文爆显存的问题

@Yimi81 请问megatron直接全量训练200K的长度，只需要6*8张A800吗？有什么可以参考的开源实现或者技术介绍推荐一下吗？我这边单机8张A800，连4K长度都会OOM

‹
1
2
3
›