verl icon indicating copy to clipboard operation
verl copied to clipboard

KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>

Open asirgogogo opened this issue 2 months ago • 18 comments

运行run_qwen3_vl-30b-megatron.sh时,遇到图中的错误。 Image

asirgogogo avatar Oct 16 '25 04:10 asirgogogo

我想知道,想抛弃来这个训练,需要的显存数量是多少啊,我8*A100没跑起来。。。

Prsaro avatar Oct 16 '25 09:10 Prsaro

你这个报错看起来,升级一下库就可以了。用的是他们推荐的docker镜像<iseekyan/verl:nemo.gptoss_vllm0.11.0>吗?

Prsaro avatar Oct 16 '25 09:10 Prsaro

你这个报错看起来,升级一下库就可以了。用的是他们推荐的docker镜像<iseekyan/verl:nemo.gptoss_vllm0.11.0>吗?

相关的库已经按照这里面的升级了。fsdp下是可以跑通的,现在再尝试mg运行遇到这个问题

VLLM version >= 0.11.0 for qwen3-vl support, recommend to use container docker://iseekyan/verl:nemo.gptoss_vllm0.11.0

pip install -U git+https://github.com/ISEEKYAN/mbridge.git # for latest mbridge

pip install -U transformers # for qwen3-vl support

pip install --no-deps --no-cache-dir git+https://github.com/NVIDIA/Megatron-LM.git@core_v0.13.1 # for megatron-lm0.13.1

asirgogogo avatar Oct 16 '25 09:10 asirgogogo

mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl

LuoXiaoHeics avatar Oct 16 '25 10:10 LuoXiaoHeics

想问一下跑QWEN3_MOE_VL的话有官方的megatron实现吗

Kairosxy avatar Oct 16 '25 10:10 Kairosxy

mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了,看了下qwen3_vl是有的。

Image

感觉是缺少了hftomcore的转换步骤 Image

asirgogogo avatar Oct 16 '25 10:10 asirgogogo

mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了,看了下qwen3_vl是有的。

Image 感觉是缺少了hftomcore的转换步骤 Image

那看起来就需要官方支持一下了,麻烦问一下,跑这个脚本需要的显卡资源是多少啊?

Prsaro avatar Oct 16 '25 10:10 Prsaro

mg还没跑起来,加载都没加载进去。如果是fsdp的话,32卡就可以了

asirgogogo avatar Oct 16 '25 10:10 asirgogogo

mg还没跑起来,加载都没加载进去。如果是fsdp的话,32卡就可以了

好的,多谢

Prsaro avatar Oct 16 '25 11:10 Prsaro

mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了,看了下qwen3_vl是有的。

Image 感觉是缺少了hftomcore的转换步骤 Image

没有的,应该是不需要的,我之前也以为有问题,但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本,那个版本不对。

LuoXiaoHeics avatar Oct 16 '25 11:10 LuoXiaoHeics

mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了,看了下qwen3_vl是有的。 Image 感觉是缺少了hftomcore的转换步骤 Image

没有的,应该是不需要的,我之前也以为有问题,但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本,那个版本不对。

我没有安装te,会不会是这个原因。可以请教下你的te版本是什么吗?https://github.com/NVIDIA/TransformerEngine/tree/main

asirgogogo avatar Oct 17 '25 03:10 asirgogogo

mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了,看了下qwen3_vl是有的。 Image 感觉是缺少了hftomcore的转换步骤 Image

没有的,应该是不需要的,我之前也以为有问题,但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本,那个版本不对。

我没有安装te,会不会是这个原因。可以请教下你的te版本是什么吗?https://github.com/NVIDIA/TransformerEngine/tree/main

2.5.0

LuoXiaoHeics avatar Oct 17 '25 05:10 LuoXiaoHeics

这个脚本大家跑通了吗

baobaohanhan21 avatar Oct 21 '25 11:10 baobaohanhan21

有fsdp的脚本吗,官方仓库里只找到了这个megatron的

huaiyizhao avatar Oct 23 '25 05:10 huaiyizhao

mbridge 卸载了重新安装,但会报新的错 TypeError: Qwen3VLSelfAttention.forward() got an unexpected keyword argument 'yarn_mscale'

Image

huaiyizhao avatar Oct 23 '25 06:10 huaiyizhao

mbridge 卸载了重新安装,但会报新的错 TypeError: Qwen3VLSelfAttention.forward() got an unexpected keyword argument 'yarn_mscale'

Image

megatron还是0.15版本应该,镜像中是装在/opt/megatron-lm目录下,得用RUN rm -rf /opt/megatron /opt/megatron-lm &&
pip uninstall -y megatron-core megatron-lm || true &&
pip install --no-deps --no-cache-dir git+https://github.com/NVIDIA/Megatron-LM.git@core_v0.13.1重新装一下

Kairosxy avatar Oct 24 '25 09:10 Kairosxy

Checkout this issue https://github.com/volcengine/verl/issues/3906

huaiyizhao avatar Oct 26 '25 06:10 huaiyizhao

有fsdp的脚本吗,官方仓库里只找到了这个megatron的

请问您有跑过基于fsdp的脚本么,我就把官方的训练qwen2.5-vl-7b的脚本https://github.com/volcengine/verl/blob/main/examples/grpo_trainer/run_qwen2_5_vl-7b.sh 换了下模型但是发现entropy会一直在高位波动,不知道是不是框架的原因。结果在这个issue里面 https://github.com/volcengine/verl/issues/4193

SupreCyk avatar Nov 26 '25 12:11 SupreCyk