HelloWorld506 comments

Results 7 comments of


                                            HelloWorld506

raise value error when running qwen2.5vl 3b to 200+ steps

Is this error only present in qwen2.5-vl-3B? I encountered the same issue, and even after updating to the latest code, I still get the same error And indeed, every time...

多节点使用zero3速度很慢

@hiyouga 我尝试过使用zero++，设置了zero_hpz_partition_size为8,确实加速了训练，但是训练过程中loss一直固定为11，grad_norm一直为0，训练失败，请问是llamafactory还没适配zero++吗，我该怎样才能正确使用zero++？

多节点使用zero3速度很慢

> 那试试 HSDP？ @hiyouga 请问HSDP在llamafactory中应该如何使用呢

> https://huggingface.co/docs/accelerate/en/usage_guides/fsdp `HYBRID_SHARD` @hiyouga 您好，我尝试了HYBRID_SHARD，然而在训练刚开始即报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError，然后自动退出 ![image 10](https://github.com/user-attachments/assets/724e82e0-d8b4-42b3-82e5-dd58012f7fb6) 我的fsdp_config如下： compute_environment: LOCAL_MACHINE debug: false distributed_type: FSDP downcast_bf16: 'no' enable_cpu_affinity: false fsdp_config: fsdp_activation_checkpointing: false fsdp_auto_wrap_policy: TRANSFORMER_BASED_WRAP fsdp_backward_prefetch: BACKWARD_PRE fsdp_cpu_ram_efficient_loading: true fsdp_forward_prefetch: false fsdp_offload_params:...

多节点使用zero3速度很慢

@hiyouga 我尝试使用了HYBRID_SHARD+4bitQLoRA训练72B模型，成功了，但是不进行量化的话会有进程自动退出，猜测是OOM，但是并没有OOM的报错，不过之前尝试单节点使用zero3+offload是能够成功lora微调72B模型的，并不会OOM

多节点使用zero3速度很慢

@hiyouga 您好，我发现使用FSDP时设置fsdp_offload_params为true并没有作用，所有参数仍然在GPU，并没有被卸载到CPU，因此才导致OOM，请问可以指点一下llamafactory中fsdp的代码位置吗

多节点使用zero3速度很慢

> > [@hiyouga](https://github.com/hiyouga) 我尝试过使用zero++，设置了zero_hpz_partition_size为8,确实加速了训练，但是训练过程中loss一直固定为11，grad_norm一直为0，训练失败，请问是llamafactory还没适配zero++吗，我该怎样才能正确使用zero++？ > > [@HelloWorld506](https://github.com/HelloWorld506) Hi, 请问你解决了这个问题吗？或者你能共享下你的zero++配置给我参考一下吗？我也碰到了deepspeed多节点使用zero3速度很慢的问题，尝试用zero++解决 @xiazhi1 我还没有解决，我使用的zero++配置只是在原zero3基础上增加了zero_hpz_partition_size:8，不过我们可以加个微信一起交流这个问题