xtuner [tutorial] Detailed Tutorial for Supporting Qwen2.5VL SFT

nice framework! V1要支持qwen2.5vl的话，是不是需要

在model/dense 下新建qwen2.py并写一套config
在model/compose 下添加qwen2.5vl的相关代码，包括modeling_vision、modeling_projector、modeling_qwen2_5_vl、qwen2_5_vl_config等文件

我看到在v1/module下定义了一些算子，我是否需要在modeling中使用这些算子？直接把transformers的相关文件copy过来并不能直接使用么？恳请官方给一个简洁的教程，以供社区可以快速迁移使用新模型（包括qwen3vl moe等）并在这些模型的基础上做修改等

Sep 24 '25 15:09 insomniaaac

我计划直接支持 qwen3 vl，如果有必要再支持 qwen2.5 vl，也可以作为一个参考，社区用户可以方便知道如何新增一个 vl 模型。你觉得咋样？

Sep 25 '25 02:09 hhaAndroid

我计划直接支持 qwen3 vl，如果有必要再支持 qwen2.5 vl，也可以作为一个参考，社区用户可以方便知道如何新增一个 vl 模型。你觉得咋样？

如果是这样，那就太好了，有一个参考，该如何使用，最好能有一个简洁的教程，目前上手确实需要费点时间研究下

Sep 25 '25 02:09 BruceYu-Bit

好的。预计放假前能好。前提是 qwen3 vl 模型开源了。现在只开源一个最大的，估计大家都训不起来

Sep 25 '25 06:09 hhaAndroid

Any update?

Oct 01 '25 13:10 insomniaaac

稍等

Oct 10 '25 08:10 hhaAndroid

Any update? I really want to know is there a clear tutorial to support custom multi-modality model. As I have noticed you guys' pr for supporting qwen 3vl really need add/modify a lot of code.

Oct 19 '25 17:10 insomniaaac