ms-swift qwen2-vl 的 pretrain 是否支持

您好，请问目前是否支持 qwen2-vl 的 pretrain

Oct 11 '24 03:10 Wangman1

支持的

数据集：

{"response": "<image>123456", "images": ["1.png"]}

Oct 11 '24 05:10 Jintao-Huang

好嘞，感谢您的回复，训练启动命令有可以参考的吗，相关介绍中好像没有找到pretrain的信息

Oct 11 '24 05:10 Wangman1

swift pt, 只是默认超参数有些不同, 使用的main函数和sft是相同

Oct 11 '24 06:10 Jintao-Huang

好嘞，非常感谢您的回复~~

Oct 11 '24 06:10 Wangman1

求问从头预训练qwen2-vl的话，能不能分别加载 qwen2-7b 语言模型和 vision_encoder 呢，如果可以的话大概需要怎么修改代码~

Oct 15 '24 03:10 Wangman1

求问从头预训练qwen2-vl的话，能不能分别加载 qwen2-7b 语言模型和 vision_encoder 呢，如果可以的话大概需要怎么修改代码~

这个目前需要自己搭建模型，然后保存一个权重，然后再使用swift在该权重后进行训练

Oct 26 '24 04:10 Jintao-Huang

@Jintao-Huang 求问下，如果想先训练 visual下的 merger，需要指定 freeze_parameters 还是 trainable_parameters，我看这两个默认都是 [], 感觉是冲突的？同时 freeze_llm ，freeze_vit ，freeze_aligner 这三个参数对qwen2vl 可以自动识别么？。。 🔥freeze_llm: 冻结LLM. 默认为False. 可用于全参和LoRA 🔥freeze_vit: 冻结ViT. 默认为True. 可用于全参和LoRA 🔥freeze_aligner: 冻结aligner. 默认为True, 可用于全参和LoRA

贴个 qwen2vl 的结构图，不知道我表达清楚没。。：

Dec 26 '24 04:12 rover5056

支持的

数据集：

{"response": "<image>123456", "images": ["1.png"]}

你好，请问使用pretrian/train.sh 还是omni/sft.sh

Apr 17 '25 07:04 Lexie-gjr

支持的数据集：
{"response": "<image>123456", "images": ["1.png"]}
你好，请问使用pretrian/train.sh 还是omni/sft.sh

pretrian/train.sh

Apr 29 '25 07:04 slin000111