swift icon indicating copy to clipboard operation
swift copied to clipboard

用swift如何对千问1.5-chat-14b模型预训练呢

Open sxk000 opened this issue 3 months ago • 8 comments

你好

我看swift框架上都是对模型的微调,有预训练的功能吗?

请问,如何用swift对千问1.5-chat-14b模型预训练呢?数据格式有什么什么样子的呢?

或者有对应的预训练脚本吗?

谢谢!

sxk000 avatar Mar 26 '24 01:03 sxk000

可以查看这里的预训练格式 https://github.com/modelscope/swift/blob/main/docs/source/LLM/%E8%87%AA%E5%AE%9A%E4%B9%89%E4%B8%8E%E6%8B%93%E5%B1%95.md#%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E9%9B%86

Jintao-Huang avatar Mar 26 '24 06:03 Jintao-Huang

@Jintao-Huang 您好!请问预训练的时候会把数据拼成max length长度吗?还是一条一条的训呢?

waltonfuture avatar Apr 13 '24 09:04 waltonfuture

一条一条训练的

Jintao-Huang avatar Apr 14 '24 14:04 Jintao-Huang

可以查看这里的预训练格式 https://github.com/modelscope/swift/blob/main/docs/source/LLM/%E8%87%AA%E5%AE%9A%E4%B9%89%E4%B8%8E%E6%8B%93%E5%B1%95.md#%E8%87%AA%E5%AE%9A%E4%B9%89%E6%95%B0%E6%8D%AE%E9%9B%86

你好

这是预训练的数据格式,对应的预训练代码或者脚本应该用哪个呢?

谢谢!

sxk000 avatar Apr 15 '24 01:04 sxk000

sh和sft是一致的,除了数据集格式不一样

Jintao-Huang avatar Apr 15 '24 04:04 Jintao-Huang

sh和sft是一致的,除了数据集格式不一样

预训练和微调计算的loss不一样吧,可以放在一起训练吗?

sxk000 avatar Apr 15 '24 05:04 sxk000

微调不计算query的损失,预训练只传入了reponse,所以相当于是对整个文本计算损失并优化

Jintao-Huang avatar Apr 22 '24 08:04 Jintao-Huang

不建议CPT和SFT放在一起训练,建议先CPT再SFT

Jintao-Huang avatar Apr 22 '24 08:04 Jintao-Huang