Chunjiang Ge (葛春江) comments

Results 39 comments of


                                            Chunjiang Ge (葛春江)

training qwen3-vl-4B or 2B model very slow when using torch2.9

You could try to use pytorch 2.6.

请问为什么使用lora微调qwen3_vl_8b时GPU使用率才百分之三十多，然后训练用时是qwen2.5_vl_7b的五六倍时间？

是不是因为路径里面有 a，所以相当于加载了 moe 模型

请问为什么使用lora微调qwen3_vl_8b时GPU使用率才百分之三十多，然后训练用时是qwen2.5_vl_7b的五六倍时间？

之前的版本是判断模型路径里面是否有“a"，判断加载 moe 还是 dense 模型，如果路径里有 a 会加载 moe 模型，导致你的训练变慢。现在这个已经修复

请问为什么使用lora微调qwen3_vl_8b时GPU使用率才百分之三十多，然后训练用时是qwen2.5_vl_7b的五六倍时间？

可以通过检查显存占用来检验加载的模型是否正确

qwen-vl-finetune 中 qwen_train.py脚本判定模型类型的方式是否过于草率了

我们修改一下

Fine-tuning Qwen2.5/3-VL with images of varying sizes in a batch

The processor would process the images with varying resolutions between min pixels and max pixels. You could refer to [qwen2vl image processor](https://github.com/huggingface/transformers/blob/4fad35ee4ac3ebc63cb9781beca0706a3d43875e/src/transformers/models/qwen2_vl/image_processing_qwen2_vl.py).

qwen3微调json数据格式

只要输入给 llm 的 token id 是正确的就行，数据里面怎么存都行

微调qwen3vl8B, 除第一个batch，后面的loss均为0是为什么，数据均按对应格式构造的

我们也遇到这个情况，目前还没找到原因，我这边 zero2 8B 是可以正常训的，这个问题你们能稳定复现吗

微调qwen3vl8B, 除第一个batch，后面的loss均为0是为什么，数据均按对应格式构造的

我们在查找一下问题