xtuner icon indicating copy to clipboard operation
xtuner copied to clipboard

[tutorial] Detailed Tutorial for Supporting Qwen2.5VL SFT

Open insomniaaac opened this issue 3 months ago • 6 comments

nice framework! V1要支持qwen2.5vl的话,是不是需要

  1. 在model/dense 下新建qwen2.py并写一套config
  2. 在model/compose 下添加qwen2.5vl的相关代码,包括modeling_vision、modeling_projector、modeling_qwen2_5_vl、qwen2_5_vl_config等文件

我看到在v1/module下定义了一些算子,我是否需要在modeling中使用这些算子?直接把transformers的相关文件copy过来并不能直接使用么?恳请官方给一个简洁的教程,以供社区可以快速迁移使用新模型(包括qwen3vl moe等)并在这些模型的基础上做修改等

insomniaaac avatar Sep 24 '25 15:09 insomniaaac

我计划直接支持 qwen3 vl,如果有必要再支持 qwen2.5 vl,也可以作为一个参考,社区用户可以方便知道如何新增一个 vl 模型。你觉得咋样?

hhaAndroid avatar Sep 25 '25 02:09 hhaAndroid

我计划直接支持 qwen3 vl,如果有必要再支持 qwen2.5 vl,也可以作为一个参考,社区用户可以方便知道如何新增一个 vl 模型。你觉得咋样?

如果是这样,那就太好了,有一个参考,该如何使用,最好能有一个简洁的教程,目前上手确实需要费点时间研究下

BruceYu-Bit avatar Sep 25 '25 02:09 BruceYu-Bit

好的。预计放假前能好。前提是 qwen3 vl 模型开源了。现在只开源一个最大的,估计大家都训不起来

hhaAndroid avatar Sep 25 '25 06:09 hhaAndroid

Any update?

insomniaaac avatar Oct 01 '25 13:10 insomniaaac

稍等

hhaAndroid avatar Oct 10 '25 08:10 hhaAndroid

Any update? I really want to know is there a clear tutorial to support custom multi-modality model. As I have noticed you guys' pr for supporting qwen 3vl really need add/modify a lot of code.

insomniaaac avatar Oct 19 '25 17:10 insomniaaac