swift 用swift如何对千问1.5-chat-14b模型预训练呢

用swift如何对千问1.5-chat-14b模型预训练呢

Open sxk000 opened this issue 3 months ago • 8 comments

你好

我看swift框架上都是对模型的微调，有预训练的功能吗？

请问，如何用swift对千问1.5-chat-14b模型预训练呢？数据格式有什么什么样子的呢？

或者有对应的预训练脚本吗？

谢谢！

Mar 26 '24 01:03 sxk000

可以查看这里的预训练格式 https://github.com/modelscope/swift/blob/main/docs/source/LLM/%E8%87%AA%E5%AE%9A%E4%B9%89%E4%B8%8E%E6%8B%93%E5%B1%95.md#%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E9%9B%86

Mar 26 '24 06:03 Jintao-Huang

@Jintao-Huang 您好！请问预训练的时候会把数据拼成max length长度吗？还是一条一条的训呢？

Apr 13 '24 09:04 waltonfuture

一条一条训练的

Apr 14 '24 14:04 Jintao-Huang

可以查看这里的预训练格式 https://github.com/modelscope/swift/blob/main/docs/source/LLM/%E8%87%AA%E5%AE%9A%E4%B9%89%E4%B8%8E%E6%8B%93%E5%B1%95.md#%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E9%9B%86

你好

这是预训练的数据格式，对应的预训练代码或者脚本应该用哪个呢？

谢谢！

Apr 15 '24 01:04 sxk000

sh和sft是一致的，除了数据集格式不一样

Apr 15 '24 04:04 Jintao-Huang

sh和sft是一致的，除了数据集格式不一样

预训练和微调计算的loss不一样吧，可以放在一起训练吗？

Apr 15 '24 05:04 sxk000

微调不计算query的损失，预训练只传入了reponse，所以相当于是对整个文本计算损失并优化

Apr 22 '24 08:04 Jintao-Huang

不建议CPT和SFT放在一起训练，建议先CPT再SFT

Apr 22 '24 08:04 Jintao-Huang

swift swift copied to clipboard

用swift如何对千问1.5-chat-14b模型预训练呢

swift
swift copied to clipboard