Yukeen
Yukeen
# > > ### System Info > > 同样的训练配置,但是两个模型的表现效果差异很大,qwen3-vl-8b会经常波动,用的verl仓库代码是10月初的,不知道是不是框架的原因 > > ### Information > > > > > > * [ ] The official example scripts[x] My own modified scripts...
> 请问现在解决了吗,是什么问题呀 我不知道是不是现在还没支持fsdp的训练方式,我是直接拿的https://github.com/volcengine/verl/blob/main/examples/grpo_trainer/run_qwen2_5_vl-7b.sh 换了下模型然后跑的
> 有fsdp的脚本吗,官方仓库里只找到了这个megatron的 请问您有跑过基于fsdp的脚本么,我就把官方的训练qwen2.5-vl-7b的脚本https://github.com/volcengine/verl/blob/main/examples/grpo_trainer/run_qwen2_5_vl-7b.sh 换了下模型但是发现entropy会一直在高位波动,不知道是不是框架的原因。结果在这个issue里面 https://github.com/volcengine/verl/issues/4193
I met the same problem,i just want to use api to give reward, i used batch in early vision, it worked. But now i set reward_model.reward_manager=batch , errror occurred ,ValueError:...
> rollout用的是哪个引擎呢 vllm
@yyDing1 请问一下,如果我将 enable_async_reward = ( self.reward_router_address is not None and self.config.reward_model.enable_resource_pool ) or not self.config.reward_model.enable 硬编码为: enable_async_reward = False 是不是奖励计算会回退到verl/verl/workers/reward_manager/naive.py
请问vllm+fsdp您有试过么