Yukeen comments

Results 7 comments of


                                            Yukeen

qwen3-vl-8b训练

# > > ### System Info > > 同样的训练配置，但是两个模型的表现效果差异很大，qwen3-vl-8b会经常波动，用的verl仓库代码是10月初的，不知道是不是框架的原因 > > ### Information > > > > > > * [ ] The official example scripts[x] My own modified scripts...

qwen3-vl-8b训练

> 请问现在解决了吗，是什么问题呀我不知道是不是现在还没支持fsdp的训练方式，我是直接拿的https://github.com/volcengine/verl/blob/main/examples/grpo_trainer/run_qwen2_5_vl-7b.sh 换了下模型然后跑的

KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>

> 有fsdp的脚本吗，官方仓库里只找到了这个megatron的请问您有跑过基于fsdp的脚本么，我就把官方的训练qwen2.5-vl-7b的脚本https://github.com/volcengine/verl/blob/main/examples/grpo_trainer/run_qwen2_5_vl-7b.sh 换了下模型但是发现entropy会一直在高位波动，不知道是不是框架的原因。结果在这个issue里面 https://github.com/volcengine/verl/issues/4193

How to register a new reward manager

I met the same problem，i just want to use api to give reward, i used batch in early vision, it worked. But now i set reward_model.reward_manager=batch , errror occurred ，ValueError:...

qwen3-vl-8b grpo训练波动

> rollout用的是哪个引擎呢 vllm

[RFC] Reward Loop

@yyDing1 请问一下，如果我将 enable_async_reward = ( self.reward_router_address is not None and self.config.reward_model.enable_resource_pool ) or not self.config.reward_model.enable 硬编码为： enable_async_reward = False 是不是奖励计算会回退到verl/verl/workers/reward_manager/naive.py

No image input question

请问vllm+fsdp您有试过么