运行run_qwen3_vl-30b-megatron.sh时，遇到图中的错误。

Oct 16 '25 04:10 asirgogogo

我想知道，想抛弃来这个训练，需要的显存数量是多少啊，我8*A100没跑起来。。。

Oct 16 '25 09:10 Prsaro

你这个报错看起来，升级一下库就可以了。用的是他们推荐的docker镜像<iseekyan/verl:nemo.gptoss_vllm0.11.0>吗？

Oct 16 '25 09:10 Prsaro

你这个报错看起来，升级一下库就可以了。用的是他们推荐的docker镜像<iseekyan/verl:nemo.gptoss_vllm0.11.0>吗？

相关的库已经按照这里面的升级了。fsdp下是可以跑通的，现在再尝试mg运行遇到这个问题

VLLM version >= 0.11.0 for qwen3-vl support, recommend to use container docker://iseekyan/verl:nemo.gptoss_vllm0.11.0

pip install -U git+https://github.com/ISEEKYAN/mbridge.git # for latest mbridge

pip install -U transformers # for qwen3-vl support

pip install --no-deps --no-cache-dir git+https://github.com/NVIDIA/Megatron-LM.git@core_v0.13.1 # for megatron-lm0.13.1

Oct 16 '25 09:10 asirgogogo

mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl

Oct 16 '25 10:10 LuoXiaoHeics

想问一下跑QWEN3_MOE_VL的话有官方的megatron实现吗

Oct 16 '25 10:10 Kairosxy

mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了，看了下qwen3_vl是有的。

感觉是缺少了hftomcore的转换步骤

Oct 16 '25 10:10 asirgogogo

mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了，看了下qwen3_vl是有的。
感觉是缺少了hftomcore的转换步骤

那看起来就需要官方支持一下了，麻烦问一下，跑这个脚本需要的显卡资源是多少啊？

Oct 16 '25 10:10 Prsaro

的

mg还没跑起来，加载都没加载进去。如果是fsdp的话，32卡就可以了

Oct 16 '25 10:10 asirgogogo

的

mg还没跑起来，加载都没加载进去。如果是fsdp的话，32卡就可以了

好的，多谢

Oct 16 '25 11:10 Prsaro

mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了，看了下qwen3_vl是有的。
感觉是缺少了hftomcore的转换步骤

没有的，应该是不需要的，我之前也以为有问题，但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本，那个版本不对。

Oct 16 '25 11:10 LuoXiaoHeics

mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了，看了下qwen3_vl是有的。感觉是缺少了hftomcore的转换步骤

没有的，应该是不需要的，我之前也以为有问题，但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本，那个版本不对。

我没有安装te，会不会是这个原因。可以请教下你的te版本是什么吗？https://github.com/NVIDIA/TransformerEngine/tree/main

Oct 17 '25 03:10 asirgogogo

mbridge的版本问题，你看看你的mbridge/models下面有没有qwen3_vl

版本已经是最新的了，看了下qwen3_vl是有的。感觉是缺少了hftomcore的转换步骤

没有的，应该是不需要的，我之前也以为有问题，但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本，那个版本不对。

我没有安装te，会不会是这个原因。可以请教下你的te版本是什么吗？https://github.com/NVIDIA/TransformerEngine/tree/main

2.5.0

Oct 17 '25 05:10 LuoXiaoHeics

这个脚本大家跑通了吗

Oct 21 '25 11:10 baobaohanhan21

有fsdp的脚本吗，官方仓库里只找到了这个megatron的

Oct 23 '25 05:10 huaiyizhao

mbridge 卸载了重新安装，但会报新的错 TypeError: Qwen3VLSelfAttention.forward() got an unexpected keyword argument 'yarn_mscale'

Oct 23 '25 06:10 huaiyizhao

mbridge 卸载了重新安装，但会报新的错 TypeError: Qwen3VLSelfAttention.forward() got an unexpected keyword argument 'yarn_mscale'

megatron还是0.15版本应该，镜像中是装在/opt/megatron-lm目录下，得用RUN rm -rf /opt/megatron /opt/megatron-lm &&
pip uninstall -y megatron-core megatron-lm || true &&
pip install --no-deps --no-cache-dir git+https://github.com/NVIDIA/Megatron-LM.git@core_v0.13.1重新装一下

Oct 24 '25 09:10 Kairosxy

Checkout this issue https://github.com/volcengine/verl/issues/3906

Oct 26 '25 06:10 huaiyizhao

有fsdp的脚本吗，官方仓库里只找到了这个megatron的

请问您有跑过基于fsdp的脚本么，我就把官方的训练qwen2.5-vl-7b的脚本https://github.com/volcengine/verl/blob/main/examples/grpo_trainer/run_qwen2_5_vl-7b.sh 换了下模型但是发现entropy会一直在高位波动，不知道是不是框架的原因。结果在这个issue里面 https://github.com/volcengine/verl/issues/4193

Nov 26 '25 12:11 SupreCyk

KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>

VLLM version >= 0.11.0 for qwen3-vl support, recommend to use container docker://iseekyan/verl:nemo.gptoss_vllm0.11.0

pip install -U git+https://github.com/ISEEKYAN/mbridge.git # for latest mbridge

pip install -U transformers # for qwen3-vl support

pip install --no-deps --no-cache-dir git+https://github.com/NVIDIA/Megatron-LM.git@core_v0.13.1 # for megatron-lm0.13.1