MedicalGPT icon indicating copy to clipboard operation
MedicalGPT copied to clipboard

请问,pt阶段,基础模型比较大(Yi-67B),多机多卡用那种训练比较好呢?

Open listwebit opened this issue 5 months ago • 1 comments

Describe the Question

1.请问,pt阶段,基础模型比较大(Yi-67B),多机多卡用那种训练比较好呢? 代码是否支持呢 2.是否支持deepspeed 的 zero-1模式呢,怎么改呢,我看只支持zero2和zero3呢 3.长文本训练就设置--group_by_text True,多长算长呢?这种情况下block_size 还起作用吗 4.block_size 的作用是做什么呢?

期待大佬的回复!万分感谢!

listwebit avatar Jan 23 '24 11:01 listwebit