KeyError: <SupportedModel.QWEN3_MOE_VL: 'Qwen3VLMoeForConditionalGeneration'>
运行run_qwen3_vl-30b-megatron.sh时,遇到图中的错误。
我想知道,想抛弃来这个训练,需要的显存数量是多少啊,我8*A100没跑起来。。。
你这个报错看起来,升级一下库就可以了。用的是他们推荐的docker镜像<iseekyan/verl:nemo.gptoss_vllm0.11.0>吗?
你这个报错看起来,升级一下库就可以了。用的是他们推荐的docker镜像<iseekyan/verl:nemo.gptoss_vllm0.11.0>吗?
相关的库已经按照这里面的升级了。fsdp下是可以跑通的,现在再尝试mg运行遇到这个问题
VLLM version >= 0.11.0 for qwen3-vl support, recommend to use container docker://iseekyan/verl:nemo.gptoss_vllm0.11.0
pip install -U git+https://github.com/ISEEKYAN/mbridge.git # for latest mbridge
pip install -U transformers # for qwen3-vl support
pip install --no-deps --no-cache-dir git+https://github.com/NVIDIA/Megatron-LM.git@core_v0.13.1 # for megatron-lm0.13.1
mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl
想问一下跑QWEN3_MOE_VL的话有官方的megatron实现吗
mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl
版本已经是最新的了,看了下qwen3_vl是有的。
感觉是缺少了hftomcore的转换步骤
mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl
版本已经是最新的了,看了下qwen3_vl是有的。
感觉是缺少了hftomcore的转换步骤
![]()
那看起来就需要官方支持一下了,麻烦问一下,跑这个脚本需要的显卡资源是多少啊?
的
mg还没跑起来,加载都没加载进去。如果是fsdp的话,32卡就可以了
的
mg还没跑起来,加载都没加载进去。如果是fsdp的话,32卡就可以了
好的,多谢
mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl
版本已经是最新的了,看了下qwen3_vl是有的。
感觉是缺少了hftomcore的转换步骤
![]()
没有的,应该是不需要的,我之前也以为有问题,但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本,那个版本不对。
mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl
版本已经是最新的了,看了下qwen3_vl是有的。
感觉是缺少了hftomcore的转换步骤
没有的,应该是不需要的,我之前也以为有问题,但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本,那个版本不对。
我没有安装te,会不会是这个原因。可以请教下你的te版本是什么吗?https://github.com/NVIDIA/TransformerEngine/tree/main
mbridge的版本问题,你看看你的mbridge/models下面有没有qwen3_vl
版本已经是最新的了,看了下qwen3_vl是有的。
感觉是缺少了hftomcore的转换步骤
没有的,应该是不需要的,我之前也以为有问题,但是现在能够正常load进来了。或者是你的mbridge调用的版本还是镜像的版本,那个版本不对。
我没有安装te,会不会是这个原因。可以请教下你的te版本是什么吗?https://github.com/NVIDIA/TransformerEngine/tree/main
2.5.0
这个脚本大家跑通了吗
有fsdp的脚本吗,官方仓库里只找到了这个megatron的
mbridge 卸载了重新安装,但会报新的错 TypeError: Qwen3VLSelfAttention.forward() got an unexpected keyword argument 'yarn_mscale'
mbridge 卸载了重新安装,但会报新的错 TypeError: Qwen3VLSelfAttention.forward() got an unexpected keyword argument 'yarn_mscale'
![]()
megatron还是0.15版本应该,镜像中是装在/opt/megatron-lm目录下,得用RUN rm -rf /opt/megatron /opt/megatron-lm &&
pip uninstall -y megatron-core megatron-lm || true &&
pip install --no-deps --no-cache-dir git+https://github.com/NVIDIA/Megatron-LM.git@core_v0.13.1重新装一下
Checkout this issue https://github.com/volcengine/verl/issues/3906
有fsdp的脚本吗,官方仓库里只找到了这个megatron的
请问您有跑过基于fsdp的脚本么,我就把官方的训练qwen2.5-vl-7b的脚本https://github.com/volcengine/verl/blob/main/examples/grpo_trainer/run_qwen2_5_vl-7b.sh 换了下模型但是发现entropy会一直在高位波动,不知道是不是框架的原因。结果在这个issue里面 https://github.com/volcengine/verl/issues/4193
感觉是缺少了hftomcore的转换步骤
感觉是缺少了hftomcore的转换步骤