codingma
codingma
目前项目暂不支持,你可以在项目外部使用官方文档方法先 merge好weight, 然后再放到本项目里使用。
zero3 就是 模型参数分布式分布, 以卡的维度来分配,而不是机器的维度,你这个属于特殊需求了,应该不支持。
目前不支持,你可以合并导出模型后再使用完整版模型即可。
The direct product is LoRA adaptor. Then You can merge it into base model, like this https://github.com/hiyouga/LLaMA-Factory/tree/main/examples/merge_lora to get a complete model. bless.
未说明使用了什么参数设置来训练,无法判断问题。
额,我还是不知道你是在做什么训练。至少比如你是参考哪个 脚本,作的是预训练,还是SFT,还是什么。
Try to change the value of "save_strategy" to "steps", and set "save_steps" to a very large value ? It may help you .
Try to set per_device_eval_batch_size with 4 or 2, and see the speed difference.
测评的数据集跟微调时候的数据集格式一样啊 大小没有固定标准,业务自身觉得OK 就可以了
不是主流模型,建议有需求的同学,可以阅读一下源码,自主完成 template.py 和 constant.py 的配置