HelloWorld506
HelloWorld506
Is this error only present in qwen2.5-vl-3B? I encountered the same issue, and even after updating to the latest code, I still get the same error And indeed, every time...
@hiyouga 我尝试过使用zero++,设置了zero_hpz_partition_size为8,确实加速了训练,但是训练过程中loss一直固定为11,grad_norm一直为0,训练失败,请问是llamafactory还没适配zero++吗,我该怎样才能正确使用zero++?
> 那试试 HSDP? @hiyouga 请问HSDP在llamafactory中应该如何使用呢
> https://huggingface.co/docs/accelerate/en/usage_guides/fsdp `HYBRID_SHARD` @hiyouga 您好,我尝试了HYBRID_SHARD,然而在训练刚开始即报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError,然后自动退出  我的fsdp_config如下: compute_environment: LOCAL_MACHINE debug: false distributed_type: FSDP downcast_bf16: 'no' enable_cpu_affinity: false fsdp_config: fsdp_activation_checkpointing: false fsdp_auto_wrap_policy: TRANSFORMER_BASED_WRAP fsdp_backward_prefetch: BACKWARD_PRE fsdp_cpu_ram_efficient_loading: true fsdp_forward_prefetch: false fsdp_offload_params:...
@hiyouga 我尝试使用了HYBRID_SHARD+4bitQLoRA训练72B模型,成功了,但是不进行量化的话会有进程自动退出,猜测是OOM,但是并没有OOM的报错,不过之前尝试单节点使用zero3+offload是能够成功lora微调72B模型的,并不会OOM
@hiyouga 您好,我发现使用FSDP时设置fsdp_offload_params为true并没有作用,所有参数仍然在GPU,并没有被卸载到CPU,因此才导致OOM,请问可以指点一下llamafactory中fsdp的代码位置吗
> > [@hiyouga](https://github.com/hiyouga) 我尝试过使用zero++,设置了zero_hpz_partition_size为8,确实加速了训练,但是训练过程中loss一直固定为11,grad_norm一直为0,训练失败,请问是llamafactory还没适配zero++吗,我该怎样才能正确使用zero++? > > [@HelloWorld506](https://github.com/HelloWorld506) Hi, 请问你解决了这个问题吗?或者你能共享下你的zero++配置给我参考一下吗?我也碰到了deepspeed多节点使用zero3速度很慢的问题,尝试用zero++解决 @xiazhi1 我还没有解决,我使用的zero++配置只是在原zero3基础上增加了zero_hpz_partition_size:8,不过我们可以加个微信一起交流这个问题