codingma

Results 88 comments of codingma

目前项目暂不支持,你可以在项目外部使用官方文档方法先 merge好weight, 然后再放到本项目里使用。

zero3 就是 模型参数分布式分布, 以卡的维度来分配,而不是机器的维度,你这个属于特殊需求了,应该不支持。

目前不支持,你可以合并导出模型后再使用完整版模型即可。

The direct product is LoRA adaptor. Then You can merge it into base model, like this https://github.com/hiyouga/LLaMA-Factory/tree/main/examples/merge_lora to get a complete model. bless.

未说明使用了什么参数设置来训练,无法判断问题。

额,我还是不知道你是在做什么训练。至少比如你是参考哪个 脚本,作的是预训练,还是SFT,还是什么。

Try to change the value of "save_strategy" to "steps", and set "save_steps" to a very large value ? It may help you .

Try to set per_device_eval_batch_size with 4 or 2, and see the speed difference.

测评的数据集跟微调时候的数据集格式一样啊 大小没有固定标准,业务自身觉得OK 就可以了

不是主流模型,建议有需求的同学,可以阅读一下源码,自主完成 template.py 和 constant.py 的配置