ms-swift icon indicating copy to clipboard operation
ms-swift copied to clipboard

qwen2-vl 的 pretrain 是否支持

Open Wangman1 opened this issue 1 year ago • 9 comments

您好,请问目前是否支持 qwen2-vl 的 pretrain

Wangman1 avatar Oct 11 '24 03:10 Wangman1

支持的

数据集:

{"response": "<image>123456", "images": ["1.png"]}

Jintao-Huang avatar Oct 11 '24 05:10 Jintao-Huang

好嘞,感谢您的回复,训练启动命令有可以参考的吗,相关介绍中好像没有找到pretrain的信息

Wangman1 avatar Oct 11 '24 05:10 Wangman1

swift pt, 只是默认超参数有些不同, 使用的main函数和sft是相同

Jintao-Huang avatar Oct 11 '24 06:10 Jintao-Huang

好嘞,非常感谢您的回复~~

Wangman1 avatar Oct 11 '24 06:10 Wangman1

求问从头预训练qwen2-vl的话,能不能分别加载 qwen2-7b 语言模型和 vision_encoder 呢,如果可以的话大概需要怎么修改代码~

Wangman1 avatar Oct 15 '24 03:10 Wangman1

求问从头预训练qwen2-vl的话,能不能分别加载 qwen2-7b 语言模型和 vision_encoder 呢,如果可以的话大概需要怎么修改代码~

这个目前需要自己搭建模型,然后保存一个权重,然后再使用swift在该权重后进行训练

Jintao-Huang avatar Oct 26 '24 04:10 Jintao-Huang

@Jintao-Huang 求问下,如果想先训练 visual下的 merger,需要指定 freeze_parameters 还是 trainable_parameters,我看这两个默认都是 [], 感觉是冲突的? 同时 freeze_llm ,freeze_vit ,freeze_aligner 这三个参数对qwen2vl 可以自动识别么?。。 🔥freeze_llm: 冻结LLM. 默认为False. 可用于全参和LoRA 🔥freeze_vit: 冻结ViT. 默认为True. 可用于全参和LoRA 🔥freeze_aligner: 冻结aligner. 默认为True, 可用于全参和LoRA

贴个 qwen2vl 的结构图,不知道我表达清楚没。。:

image

rover5056 avatar Dec 26 '24 04:12 rover5056

支持的

数据集:

{"response": "<image>123456", "images": ["1.png"]}

你好,请问使用pretrian/train.sh 还是omni/sft.sh

Lexie-gjr avatar Apr 17 '25 07:04 Lexie-gjr

支持的 数据集:

{"response": "<image>123456", "images": ["1.png"]}

你好,请问使用pretrian/train.sh 还是omni/sft.sh

pretrian/train.sh

slin000111 avatar Apr 29 '25 07:04 slin000111